Bei Qin, David Strömberg,và Yanhui Wu*
TÓM TẮT
Bài báo
này khảo sát vai trò của truyền thông xã hội (social media, sau đây gọi là mạng
xã hội) Trung Quốc trong ba lĩnh vực: tổ chức hoạt động tập thể, giám sát các
quan chức chính phủ,và tuyên truyền. Nghiên cứu của chúng tôi dựa trên một bộ dữ
liệu gồm 13,2 tỷ blog post được đăng trên Sina Weibo –nền tảng microblog nổi tiếng
nhất Trung Quốc –trong giai đoạn 2009-2013. Chúng tôi thấy hàng triệu post thảo
luận rõ ràng các cáo buộc tham nhũng và các sự kiện hoạt động tập thể, như các
cuộc phản đối, đình công, và biểu tình. Việc sử dụng mạnhmạng Sina Weibo kết hợp
đầy ý nghĩa với tỷ lệ cao hơn của các cuộc phản đối và các xung đột quy mô lớn.
Chúng tôi cũng thấy rằng mạng xã hội là các công cụ hữu hiệu để giám sát: nội
dung Sina Weibodự đoán các sự kiện tập thể một ngày trước khi chúng xảy ra và
các lời buộc tội tham nhũng trước một năm. Cuối cùng, chúng tôi ước lượng rằng
dữ liệu của chúng tôi chứa 600.000 tài khoản liên kết với chính quyền mà đóng
góp 4% tất cả các post về các vấn đề chính trị và kinh tế trên Sina Weibo. Phần
của các tài khoản chính quyền là lớn hơn trong các khu vực với một mức kiểm duyệt
cao hơn và nơicác báo có một thiên vị phò chính phủ mạnh. Tổng thể, các phát hiện
của chúng tôi gợi ý rằng chính phủ Trung Quốc điều tiết mạng xã hội để cân bằng
các đe doạ đối với sự ổn định chế độ đối lại các lợi ích về sử dụng thông tin từ
dưới lên.
1 Dẫn nhập
Vào khoảng nửa đêm 29-3-2014,một số người Trung Quốc
chơi internet khuya đã để ý rằng hệ số nguy hiểm của P-Xylene (PX) đã thay đổi
từ ‘thấp’ lên ‘cao’ trên Baidu Encyclopedia –tương đương như Wikipedia ở Trung
Quốc. Sáng hôm sau,hàng trăm người phản đối đã tụ tập ở Maoming –một thành phố ở
khu trung tâm công nghiệp của Trung Quốc –nơi một nhà máy PX quy mô lớn được dựtính.
Vào 8:38 sáng,một thông báo với các bức ảnh của cuộc phản đối được post trên Sina
Weibo – tương đương với Twitter ở Trung Quốc. Hàng chục ngàn người đã gia nhập
cuộc phản đối, đòi các câu trả lời từ các quan chức địa phương, đốt cháy một ô
tô, ném chai lọ cho đến khi cảnh sát giải tán những người phản đối bằng hơi cay
và dùi cui. Ngày tiếp theo, các bức ảnh về những người phản đối đầy máu me đã
lan truyền trên mạng. Hàng ngàn post tranh luận về dự án PX và lên án hành động
của chính quyền đã xuất hiện trên các mạng xã hội khác nhau.
Trong thời đại công nghệ thông tin tiên tiến, mạng xã
hội trong một số trường hợp có thể cung cấp một cú sốc thông tin khổng lồ cho một
nước như Trung Quốc, mà trong đó thông tin và truyền thông công cộng bị giới hạn
bởi sự kiểm soát chính phủ. Một cú sốc thông tin như vậy do mạng xã hội gây ra
tác động thế nào đến sự tham gia của các công dân Trung Quốc vào các sự kiện
chính trị? Và chính phủ Trung Quốc phản ứng ra sao với cú sốc thông tin này? Một
bước đầu tiên trong giải quyết các câu hỏi này là lập tư liệu thông tin được
công bố và truyền đưa trên mạng xã hội Trung Quốc.
Trong bài báo này, chúng tôi lập tư liệu các sự thực
cơ bản liên quan đến các cuộc thảo luận công khai về các vấn đề chính trị gây
tranh cãi trên mạng xã hội Trung Quốc. Việc lập tư liệu của chúng tôi dựa trên
một bộ dữ liệu gồm 13,2 tỷ blog post được công bố trên Sina Weibonền tảng microblog
nổi tiếng nhất Trung Quốc trong giai đoạn 2009-2013. Chúng tôi cũng thảo luận
các ngụ ý của các phát hiện của chúng tôi.
Phát hiện đầu tiên của chúng tôi là. một số lượng lớn
gây sốc của các post về các đề tài hết sức nhạy cảm đã được đăng và lưu truyền
trên mạng xã hội. Thí dụ, chúng tôi thấy hàng triệu post thảo luận các cuộc phản
đối như sự kiện chống-PX trong 2014.Và các post này mang thông tin dự đoán sự
xuất hiện của các sự kiện cụ thể. Chúng tôi thấy một số còn lớn hơn các post với
các cáo buộc tham nhũng rõ rang, và rằng các post này dự đoán các sự buộc tội
tham nhũng tương lai của các cá nhân cụ thể.
Loại này của nội dung mạng xã hội có thể làm tăng sự
tiếp cận của các công dân đến thông tin và kiềm chế khả năng của các chính phủ
độc đoán để hành động mà không có sự giám sát. Ở Trung Quốc,mạng xã hội rõ ràng
có tiềm năng để đóng một vai trò như vậy bởi vì tính phổ biến rộng lớn của
chúng. Gần nửa dân cư có tiếp cận đến internet,và hai trong mỗi mười người
Trung Quốc sử dụng Weibo một cách tích cực. Mỗi ngày, hàng triệu blog post được
tạo ra, được trao đổi, và được bình luận. Nhiều trong số các post này đi đến hàng
ngàn hoặc thậm chí hàng triệu bạn đọc.Là rất tốn kém cho chính phủ Trung Quốc để
theo dõi hàng triệungười dùng, đặc biệt khi họ thi thoảng post trong các đợt sóng
cồn lớn vào giữa đêm.
Tuy vậy,mạng xã hộicũng tạo cho các chính phủ độc đoán
các cơ hội mới cho việc kiểm soát chính trị như được lưu ý bởi Egorov, Guriev,
and Sonin (2009). Shirky (2011), Morozov (2012), và Lorentzen (2014). Thông điệp
mạng xã hộiđược truyền đi dưới dạng điện tử qua một hạ tầng cơ sở thường được
chính phủ kiểm soát. Các tiến bộ gần đây về phân tích văn bản tự động, các kỹ
thuật học máy, và máy tính công suất cao đã làm giảm đáng kể chi phínhận diện
các người dùng hay chỉ trích và kiểm duyệt các thông điệp(Edmond 2013). Các
chính phủ có thể sử dụng các phương pháp này để theo dõi và phân tích các hoạt
động online, để đánh giá dư luận, và để kiềm chế các đe doạ trước khi chúng lan
đi.
Trong một chế độ chuyên quyền,một hệ thống giám sát dựa
trên mạng xã hộicó thể hữu hiệu thế nào? Chúng tôi đánh giá khả năng này bằng
thăm dò một công cụ giám sát không phức tạp, và chúng tôi thấy rằng mạng xã hội
có thể rất hiệu quả cho việc giám sátsựphản kháng. Hầu hết các cuộc phản kháng
thế giới-thực và các cuộc đình công mà chúng tôi nghiên cứu có thể được dự đoán
một ngày trước dựa trên nội dung mạng xã hội. Phương pháp dò là đơn giản, và
chi phí thì thấp.
Thực vậy,các cơ quan chính quyền Trung Quốc khắp nước
đã đầu tư mạnh vào các hệ thống giám sát mà khai thác thông tin trên mạng xã hội.
Kết quả được minh hoạ bởi một sự kiện chống-PX nữa,mà đã diễn ra theo cách khác,
một năm trước. Một số công dân ở Thành Đô đã post các thông điệp trên Sina
Weibo kêu gọi các cuộc biểu tình chống lại việc khởi đầu một dự án PX địa
phương vào thứ Bảy, 4-5-2013. Lời kêu gọi này đã được chính quyền Thành Đô tóm được
và đã lập tức đưa ra các biện pháp kể cả biến Thứ Bảy và Chủ Nhật của tuần đó
thành các ngày làm việc và yêu cầu các học sinh phải ở trường trong những ngày
đó. Bởi thế,cuộc biểu tình ở Thành Đôđã bị giới hạn ở mức vài trăm người tham
gia, trong khi một cuộc phản đối chống-PX tương tự ở Côn Minh cùng ngày đã thu
hút hơn 10.000 người tham dự. Trong trường hợp này, giám sát nội dung mạng xã hộiđã
giúp chính quyền kiềm chế một cuộc phản đối.
Một chức năng giám sát quan trọng khác của mạng xã hộilà
để giám sát các chính quyền và các quan chức địa phương. Ở Trung Quốc, nhiều
quyết định chính trị và kinh tế được phân cấp cho các chính quyền địa phương. Các
quyết định này cần được giám sát, nhưng tin tức và các báo cáo địa phương chắc
là bị méo mó bởi vì các chính trị gia địa phương kiểm soát báo chí và bộ máy
hành chính địa phương. Ngược lại, các chính trị gia quốc gia điều tiết mạng xã
hội. Trong mạng xã hội,đầy rẫy những lời phàn nàn không thương xót về các quan
chức địa phương. Các postphơi bày các quan chức đeo đồng hồ Rolex, sống trong
các lâu đài,hay có bồ nhí đã dẫn đến các cuộc điều tra và sa thải. Không ngạc
nhiên, chúng tôi quan sát hàng triệu post với các cáo buộc tham nhũng rõ ràng
trong dữ liệu của chúng tôi.
Chúng tôi thấy rằng các post mạng xã hộiliên quan đến
các chủ đề tham nhũng là có kết quả cho sự giám sát tham nhũng. Các post này
giúp nhận diện khi nào và ở đâu tham nhũng là thịnh hành hơn. Ngoài ra, chúng
tôi có thể dự đoán các chính trị gia cụ thể nào muộn hơn sẽ bị kết án tham
nhũng, cho đến một năm trước sự tố tụng pháp lý đầu tiên. Kết quả này cho thấy
rằng thông tin mạng xã hộicó thể là một công cụ hữu ích để nhận diện tham nhũng,
mà có lẽ cũng đúng ở các nước khác nữa.
Không phải là không có rủi ro để post thông tin về các
cuộc phản đối và thông tin tiêu cực về các lãnh đạo địa phương, và một số người
dùng đã bị trừng phạt vì làm vậy (Freedom House 2012; Reporters Without Borders
2013). Tuy nhiên, trong chừng mực chúng tôi biết, không có nghiên cứu trước có
tính hệ thống nào về mức độ và tính hiệu quả của dạng này của sự kiểm soát bằng
cảnh sát. Chúng tôi khảo sát quy mô của các thực hành này bằng việc lần vết những
người sử dụng đã post về các vấn đề nhạy cảm và xem liệu các tài khoản của họ
sau đó có bị đóng hay không.
Chính quyền cũng có thể sử dụng mạng xã hội như một
kênh tuyên truyền. Trong các thí dụ chống-PX ở trên, các chính quyền đã tiến
hành các chiến dịch tuyên truyền mạnh mẽ qua các tài khoản của họ trên mạng xã
hội. Trong một trường hợp,các tài khoản của chính quyền đã liên tụcblog rằng “PX
không gây ra ung thư nhiều hơn cà phê.” Mức độ của loại này của các post của
chính quyền là khó để biết bởi vì chúng phát ra từ quá nhiều tài khoản ngang
các vùng và các mức chính quyền. Trong 2012, Sina Weibo đã báo cáo rằng khoảng 50.000
được vận hành bởi các cơ quan chính quyền hay các cá nhân quan chức, nhưng
không có ước tính bên ngoài nào về loại hiện diện này của chính quyền trên mạng
xã hội.
Chúng tôi tìm cách để nhận diện các tài khoản chính
quyền từ các tên người dùng và phân tích văn bản của các posttrong dữ liệu của
chúng tôi. Dựa vào cách tiếp cận này, chúng tôi ước lượng có 600.000 tài khoản
có liên kết đến chính quyền,mà đóng góp bốn phần trăm của tất cả các postvề các
vấn đề chính trị và kinh tế trên Sina Weibo,sử dụng một số đo bao gồm các người
dùng (thuộc) tổ chức chính quyền, tổ chức quần chúng và báo chí. Ngay cả khi hạn
chế ở định nghĩa thu hẹp nhất của người dùng chính quyền,con số được Sina Weibo
báo cáo ước lượng quá thấp sự hiện diện của chính quyền trên Sina Weibo.
Các phát hiện của chúng tôi thách thức một quan điểm
phổ biến rằng một chế độ độc đoán sẽ kiểm duyệt không thương xót hặc thậm chí cấm
mạng xã hội. Thay vào đó, sự tương tác của một chính quyền độc đoán với mạng xã
hộicó vẻ phức tạp hơn. Từ quan điểm của chính quyền,mạng xã hộikhông chỉ là (1)
ít hấp dẫn như một phương tiện truyền thông cho sự phản kháng xã hội được tổ chức
mà cũng là (2) một phương pháp có ích để giám sát các quan chức địa phương và (3)
đo ý kiến công chúng, cũng như (4) một phương pháp để phổ biến tuyên truyền. Từ
quan điểm của các công dân,bất kể lợi ích được cảm thấy nào của mạng xã hộicần
được đánh giá trong một khung cảnh của (5) sự kiểm soát thâm nhập khắp có thể của
cảnh sát,sự trừng phạt, và (6) sự kiểm duyệt phương tiện truyền thông như vậy. Như
đã nhắc tới ở trước,sự tương tác phức tạp này đã được các nhà nghiên cứu thảo
luận. Tuy nhiên, nghiên cứu theo lối kinh nghiệm chặt chẽ về chủ đề này là ít. Một
ngoại lệ là Enikolopov, Makarin, and Petrova (2016),những người thấy rằng mạng
xã hộiđã có tác động đến các cuộc phản kháng ở Nga trong 2011. Sự ngoại lệ khác
là kiểm duyệt, mà đã được nghiên cứu rộng rãi (chẳng hạn,Bamman O’Connor, and
Smith 2012; Fu, Chan, and Chau 2013; King, Pan, and Roberts 2013, 2014; Zhu,
Phipps, Pridgen, Crandall, and Wallach 2013). Ngược lại, chúng tôi sẽ không thảo
luận sự kiểm duyệt,nhưng trình bày bằng chứng then chốt cho tất cả năm điểm
khác được liệt kê ở trên.
Chúng tôi bắt đầu với một tổng quan về sự phát triển của
mạng xã hộiở Trung Quốc, tiếp theo bằng một mô tả dữ liệu. Chúng tôi tiếp tục
phân tích các cuộc phản đối, sự tham nhũng, và sự hiện diện của chính quyền
trên Sina Weibo. Cuối cùng chúng tôi thảo luận các ngụ ý của mạng xã hội,dựa
vào các kết quả của chúng tôi.
2 Bối cảnh
Vào 2013, đã có 618 triệu người Trung Quốc dùng internet,chiếm
khoảng 46 phần trăm dân số Trung Quốc. Tỷ lệ này là cao hơn trung bình toàn cầu
39 phần trăm (China Internet Network Information Center 2014; International
Telecommunication Union 2013). Trong số người sử dụng internet này, 281 triệu (45
phần trăm) đã tham gia tích cực vào việc viết microblog, mà ám chỉ đến các
phương tiện mạng xã hộichú tâm đến các thông điệp ngắn,các ảnh cá nhân, hay có
lẽ các đường dẫn video (ngược với mạng xã hộinhư Facebook mà có tiềm năng cho dạng
dài hơn hay truyền thông chi tiết hơn).
Tính phổ biến của các microblog là một hiện tượng gần
đây. Trong 2006,người dân Trung Quốc đã biết về Twitter; năm tiếp theo,các bản
sao Trung Quốc chính – Fanfou, Digu, and Jiwai –đã được khai trương. Tuy vậy, số
các microblogger đầu tiên đã tăng chậm. Sau các cuộc nổi loạn Urumqi tháng Bảy 2009,chính
phủ Trung Quốc không chỉ đã chặn Twitter và Facebook mà cũng đã đóng cửa hầu hết
các dịch vụ microblog nội địa. Thị trường microblog về cơ bản đã bỏ trống cho đến
khi Sina Weibo xuất hiện trong tháng Tám 2009,và NetEase, Sohu và Tencent đã tiếp
theo trong 2010. Số người sử dụng microblog đã dấy lên từ 63 triệu vào cuối
2010 lên 195 triệu vào giữa 2011 (China Internet Network Information Center
2011).
Sina Weibo là một hỗn hợp của Twitter và Facebook: đến
140 ký tự Trung Quốc cho mỗi tweet,cho phép các ảnh hay video được chèn vào,và
những người sử dụng có thể gửi các thông điệp riêng,lời bình, và post lại. Với
sự tiếp cận và sử dụng dễ dàng của nó, Sina Weibo mau chóng trở thành nền tảng
thông dụng nhất để viết microblog ở Trung Quốc. Vào 2010,nó đã có 50 triệu người
dùng có đăng ký,và con số này đã tăng gấp đôi trong 2011,đạt đỉnh điểm hơn 500 triệuvào
cuối 2012. Kể từ 2013, Sina Weibo đã mất một số vị trí cho WeChat,một dịch vụ mạng
xã hội dựa trên cơ sở điện thoại di động, nhưng vẫn là một nền tảng có ảnh hưởng.[1]
Trong các năm gần đây, các microblog đã cung cấp một số
thảo luận và tranh luận sâu rộng nhất ở Trung Quốc. Theo các Báo cáo về Dư luận
(Reports on Public Opinion) 2010-2013,chẳng hạn,trong 2012,hai nền tảng mạng xã
hộikiểu-Facebook ở Trung Quốc – Renren và Kaixin –đã phủ 20 sự kiện công cộng
cao nhất được liệt kê bởi Cơ quan Giám sát Công Luận (Public Opinion Monitoring
Agency được vận hành bởi Nhân dân Nhật báo của chính quyền) trong 20 triệupost.
Tuy nhiên, Sina Weibo– trang microblog hàng đầu lúc đó – đã phủ cùng các sự kiện
đó trong hơn 230 triệupost.
Chính phủ trung ương Trung Quốc đã có sức mạnh và các
công cụ để hạn chế nội dung nhạy cảm trên mạng xã hội,nếu nó muốn. Nội dung mạng
xã hộinhạy cảm mà chúng tôi thấy không chắc là kết quả của sự bất lực để dọn dẹp
mạng xã hội. Thay vào đó, chính phủ phải nhận thấy các lợi ích từ việc để nội
dung này có thể thấy được. Hai công cụ chủ yếu được sử dụng để hạn chế nội dung.
Công cụ đầu tiên là việc kiểm soát bằng cảnh sát– để
trừng trị các người sử dụng đưa lên nội dung nhạy cảm nhằm gây ra sự tự-kiểm
duyệt và để tránh đăng nội dung. Việc kiểm soát bằng cảnh sát được tiến hành bởi
hàng chục ngàn nhân viên thông tin và những người giám sát internet những người
hoạt động tích cực ở mọi mức của chính quyền (Chen and Ang 2011). Các chính trị
gia địa phương có thể dùng cảnh sát internet của riêng họ để cấm thông tin tiêu
cực về các vùng dưới chính quyền của họ,cho dù nếu việc viết blog về thông tin
này được khoan thứ hoặc được cổ võ bởi chính phủ trung ương. Những người dùng
mà post nội dung không mong muốn có thể nhận được các lời cảnh cáo, tài khoản của
họ bị đóng, hoặc thậm chí bị bỏ tù. Reporters Without Borders (2013) đã lập tư
liệu tổng cộng 69 công dân mạng ở trong các nhà tù Trung Quốc vào tháng Hai 2013,mặc
dù con số của các trường hợp không được báo cáo có thể lớn hơn nhiều. Không có
nghiên cứu trước có hệ thốngnào về mức độ của việc kiểm soát bằng cảnh sát,trong
chừng mực chúng tôi biết. Chúng tôi sẽ khảo sát quy mô của các thực hành này bằng
theo dõi những người sử dụng postđều dặn về các vấn đề nhạy cảm để xem liệu tài
khoản của họ sau đó có bị đóng hay không.
Tất nhiên, sự trừng trị cá nhân có thể xảy ra chỉ nếu
một người sử dụng được nhận diện. Ban đầu chính phủ Trung Quốc đã cho phép những
người dùng Sina Weibo để post một cách nặc danh. Trong tháng Ba 2012,nhà chức
trách kiểm soát báo chí đã yêu cầu những người dùng tiết lộ danh tính cho các
nhà cung cấp mạng xã hội. Tuy vậy, ba năm sau, các nhà cung cấp dịch vụ còn phải
thực hiện quy định này một cách hoàn toàn.
Công cụ kiểm soát khác là sự kiểm duyệt. Sự kiểm duyệt
được điều tiết ở cấp quốc gia bởi Ban Tuyên truyền của Đảng Cộng sản Trung Quốc,
cũng như bởi một số văn phòng kiểm soát báo chí quốc gia. Tuy vậy, trong thực
tiễn, sự kiểm duyệt được thực hiện chủ yếu bởi các nhà cung cấp dịch vụ tư nhân
mà được đăng ký ở Bắc Kinh. Mức độ kiểm duyệt được ước lượng của Sina Weibo trải
từ 0,01 phần trămcác post bởi một mẫu của những người dùng được ưu tiên,gồm các
nhà bất đồng chính kiến, các nhà văn, các học giả, các nhà báo,những người dùngVIP
(Fu et al. 2013),đến 13 phần trămcác postvề các chủ đề nhạy cảm được chọn lựa (King
et al. 2013). King et al. thấy rằng chính phủ Trung Quốc cho phép sự phê phán
các quan chức và công chức nhưng kiểm duyệt thông tin về hoạt động tập thể ngặt
ngèo hơn (27 phần trămcủa các post bị kiểm duyệt). Tổng quát hơn, Bamman (2012)
và Fu et al. (2013) thấy rằng sự kiểm duyệt internet ở Trung Quốc tập trung vào
các vấn đề chính trị và nhóm thiểu số. Zhu et al. (2013) thấy rằng việc thực hiện
kiểm duyệt là nhanh: 30 phần trămsự xoá xảy ra trong vòng nửa giờ đầu tiên và 90
phần trămtrong vòng 24 giờ. Nhưng không giống các nghiên cứu này, bài báo của
chúng tôi xem xét nội dung sẵn có trên các microblog hơn là những gì bị loại bỏ.
Chính quyền có thể tác động đến các cuộc thảo luận và
ý kiến trên mạng xã hộibằng cách tích cực post nội dung của riêng họ. Các chính
quyền Trung Quốc ở mọi mức đã mở các tài khoản microblog trong một cố gắng để
lái dư luận. Trong 2012, Sina Weibo đã báo cáo gần 50.000 tài khoản được vận
hành bởi các cơ quan chính quyền hay cá nhân các quan chức. Các chính quyền ở
các mức khác nhau cũng thuê các trollinternet,được đặt tên giễu là "đảng 50-xu
" bởi vì một số được trả công với giá sản phẩm 50 xu một post. Một số dư
luận viên, theo chỉ thị của các chính trị gia địa phương,có thể post các nhận
xét tích cực giả về các chính trị gia hay các vùng thuộc sự quản lý của họ.
3 Dữ liệu
Dữ liệu gốc của chúng tôi,các postSina Weibo,được thu
thập bởi Weibook Corp., trong giai đoạn 2009-2013. Công ty này đã thực hiện một
chiến lược thu thập dữ liệu khổng lồ để tải các post của những người dùng tích
cực xuống. Đầu tiên, họ đã nhận diện những người dùngnhư 200-300 triệu người thực
tích cực trên cơ sở thông tin cá nhân và sự tương tác với những người dùng khác.
Thứ hai, gọ đã phân lớpnhững người dùngthành sáu lớp dựa trên số người đi theo
(follower). Họ đã tải các microblog của những người dùng lớp trên cùng ít nhất
hàng ngày, các lớp thứ hai và thứ ba mỗi 2-3 ngày, và lớp thấp nhất được tải xuống
trên cơ sở tuần. Như thế, dữ liệu bao gồm chí ít một số postmà muộn hơn bị kiểm
duyệt. Đối với mỗi post,họ đã cung cấp nội dung, thời gian post, và thông tin
người dùng (kể cả chỗ được tự báo cáo).
Tổng cộng, bộ dữ liệu mà chúng tôi nghiên cứu chứa 13,2
tỷ postđược đăng từ 2009 đến 2013. Theo ước lượng của chúng tôi, dữ liệu Weibook
chứa khoảng 95 phần trămcủa toàn bộ các postđược đăng trên Sina Weibo.[2]Như
được minh hoạ trên Hình 1.đường xanh cho biết số posttrên tháng được bao gồm
trong dữ liệu Weibook, and đường đỏ là ước lượng của chúng tôi về tổng số postđược
đăng trên Sina Weibo.
Từ cơ sở dữ liệu
Weibook này,chúng tôi chiết xuất các microblog nhắc tới bất kể từ khoá nào trong
khoảng 5.000 từ khoá mà liên quan đến các chủ đề xã hội và chính trị. Các từ
khoá phân làm hai nhóm. Nhóm thứ nhất nói đến các loại vấn đề,kể cả các vị trí
chính trị từ mức trung ương đến mức làng xã, tên của các lãnh đạo chính trị cấp
cao, các vấn đề xã hội và kinh tế (như tham nhũng, ô nhiễm, các vấn đề thực phẩm
và thuốc, các tai hoạ và tai nạn, và các tội),và các sự kiện hoạt động tập thể (như
đình công, phản kháng, kiến nghị, và các xung đột đông người). Một số từ xuất
hiện với tần suất rất cao.Chúng tôi thu thập một mẫu ngẫu nhiên gồm chỉ 10-phần
trămcủa các post nhắc đến các từ này. Nhóm thứ hai của các từ khoá nhắc tới các
sự kiện cụ thể mà chúng tôi đã ghi được, kể cả các thứ trong các chỉ thị kiểm
duyệt được đưa ra bởi các nhà chức trách kiểm soát báo chí và một số lớn các sự
kiện to lớn từ 2009 đến 2013. Tổng cộng, chúng tôi đã chiết ra dữ liệu chứa 202
triệuposttừ 30,6 triệunhững người dùng khác nhau.[3]
4 Các Xung đột,
Phản đối và Đình công
Chúng tôi phân
tích 545 sự kiện hoạt động tập thể đã xảy ra ở Trung Hoa Đại lục giữa 2009 và 2012.
Danh mục các sự kiện được lấy từ việc đưa tin của Radio Free Asia (Châu Á Tự
do),một đài phát thanh phi lợi nhuận có cơ sở ở Washington, D.C. Chúng tôi phân
lớp các sự kiện hoạt động tập thểnày thành bốn loại, được xếp hạng theo tính nhạy
cảm. Loại đầu tiên chứa các sự kiện nhạy cảm nhất, mà gồm các sự đối đầu trực
tiếp giữa chính quyền và công chúng,kể cả các sự kiện dính đến nổi loạn và bạo
lực. Loại thứ hai chứa các cuộc phản đối, kể cả các cuộc biểu tình đường phố và
các cuộc phản đối quần chúng, mà một cách tiêu biểu được trông chờ và có tổ chức
hơn, ít bạo lực hơn, và thậm chí thường được chính quyền chấp thuận. Trong vài
trường hợp, cuộc phản kháng biến thành náo loạn, như trong Sự kiện Wansheng ở
Trùng Khánh trong 2012; chúng tôi mã hoá các sự kiện như vậy như “xung đột.” Loại
thứ ba chứa các cuộc đình công, kể cả các cuộc đình công ở nhà máy và bãi khoá ở
trường học và giữa các lái xe taxi. Loại cuối cùng gồm các cuộc biểu tình chống-Nhật.
Chúng
tôi chọn các từ khoá nhận diện các postvề mỗi loại sự kiện và chiết xuất tất cả
các postcó nhắc đến các từ khoá này từ toàn bộbộ dữ liệu Weibook.Phương pháp
cho chiết xuất các từ khoá được mô tả trong phụ lục.
4.1 Nội dung và Những
người dùng
Ban đầu chúng
tôi đã nghĩ rằng sự đưa tin các sự kiện này trên mạng xã hộilà rất hạn chế. Như
vừa mới nhắc tới,đã được lập tư liệu kỹ về những người Trung Quốc dùnginternetđã
bị trừng phạt sau khi đăng về các cuộc phản đối và các sự kiện hoạt động tập thểkhác
(thí dụ, Freedom House 2012) và rằng các loại postnày bị kiểm duyệt (King, Pan,
and Roberts 2013). Nhưng chúng tôi ngạc nhiên thấy một số lớn các postđưa tin
thậm chí các sự kiện hoạt động tập thểnhạy cảm nhất dựa trên sự phân lớp của
chúng tôi.Trong dữ liệu của mình, chúng tôi nhận diện 382.000 posttrong loại “xung
đột” và hơn 2,5 triệu posttrong loại “phản đối”. Vì khám phá này thu hút sự
hoài nghi nào đó khi chúng tôi trình bày bài báo, chúng tôi sử dụng các cách tiếp
cận khác nhau để xem xét nó thêm nữa.
Như một điểm xuất
phát, chúng tôi đặc trưng “các chủ đề nóng’ trong các postvề hoạt động tập thể.
Các chủ đề này được nhận diện bởi các từ được dùng thường xuyên trong các posthoạt
động tập thểhơn trong toàn bộ mẫu của các post. Chính xác hơn, chúng tôi so
sánh tần suất của mỗi từ trong một loại cho trước với tần suất tổng thể của từ
đó trong bộ dữ liệu của chúng tôi, như trong Kleinberg (2006). Bảng 1 trình bày
các chủ đề nóng theo thứ tự của ý nghĩa thống kê. Thí dụ, trong loại xung đột,
“đàn áp” có tần suất sử dụng cao không bình thường nhất. Lưu ý rằng sự xếp hạng
chủ đề không dựa trên tần suất tuyệt đối của các từ, mà dựa trên sự sử dụng của
từ so với sự sử dụng chung của nó. Thí dụ, “bom hơi cay” được xếp hạng trên
“chính quyền” bởi vì từ sau được dùng thông thường nói chung. Các từ chủ đề
khác trong loại này gồm “cảnh sát” “bạo lực,” “nổi loạn,” và “nổ súng.”
Để mô tả đặc
trưng các dữ liệu này thêm nữa,chúng tôi khảo sát một mẫu ngẫu nhiên của 1.000 postcho
mỗi trong ba loạihoạt động tập thểđầu tiên trong Bảng 1 và cho các cuộc biểu
tình chống-Nhật. Chúng tôi mã hoá một cách thủ công liệu và bằng cách nào các
postphủ một loại cá biệt sự kiện, với kết quả cho thấy trong Bảng 2. Từ các mẫu
1.000 post của chúng tôi, phần của các postmà thực sự phủ các sự kiện trải từ
50,4 phần trăm cho loại chống-Nhậtđến 31,2 phần trăm cho loại đình công. Các sự
kiện nhạy cảm hơn như xung đột và phản đối nhận được sự đưa tin dưới dạng của
những bình luận chung và hồi tưởng lại. Ở đây là vài thí dụ để chuyển một cảm
giác về việc mã hoá của chúng tôi.
·
“Tôi đã thấy hàng trăm cảnh sát vũ trang đầy vũ khí. Lửa
đã ở khắp nơi, sau khi một số bình gas bị ném.” [Xung đột, đang
xảy ra]
·
“Một đám đông lớn đang tụ họp trước toà
nhà chính quyền giữ các biểu ngữ ‘Không được Ép buộc Phá dỡ Nhà’.” [Phản đối,
đang xảy ra]
·
“Tiền từ bán đất đều chảy vào túi các
quan. Họ chẳng khác gì bọn côn đồ. Chúng ta chẳng có lựa chọn nào ngoài nổi loạn.”
[Phản đối, nói chung]
·
“Thật ư? Các lái xe Taxi lại đình công!”
[Đình công, đang xảy ra.]
·
“Lương thấp, lao động rẻ. Chúng ta tạo
ra hàng tấn thứ Made-in-China,nhưng đổi lại nhận được ít.Công nhân di cư, hãy
đình công!” [Đình công, nói chung]
·
“Chúng ta sẽ diễu hành đến Sứ quán Nhật
hôm nay. Tập trung tại Quảng trường Nhân dân lúc 10 giờ sáng. Có ai muốn tham
gia?” [Chống-Nhật, sắp xảy ra]
Nội dung Weibo này dự đoáncác sự kiện hoạt động tập thể
thế giới thực, Panel A của Bảng 3 báo cáo số trung bình của các postcho mỗi loại
sự kiệnđược đăng bởi những người dùng trong quận (prefecture, chuyên khu) nơi một
sự kiện đã xảy ra vào ngày của sự kiện và vào ngày trước. Giả sử, thí dụ, rằng
một cuộc đình công đã xảy ra trong một quận và ngày cho trước. Rồi chúng ta đếm
số các post chứa bất kể từ khoá nào của chúng ta liên quan đến đình công bởi những
người dùngtừ quận này vào cùng ngày như cuộc đình công và vào ngày trước đình
công. Chúng ta làm việc này cho tất cả các cuộc đình công và báo cáo số trung
bình trong bảng. Số trung bình của các postlà cao hơn nhiều vào ngày của và vào
ngày trước một sự kiện hoạt động tập thểso với các ngày khác. Để làm cho chắc
chắn rằng các postcủa ngày trước thực sự có dự đoán các sự kiện này, và không nảy
sinh vì các lý do giả như sự mã hoá nhầm của các ngày tháng post lên, cột cuối
cùng của Bảng 3 khảo sát các tai nạn mỏ than. Các tai nạn này phải rõ ràng
không được dự đoán bởicác post microblog. Chúng tôi nhận được dữ liệu về các địa
điểm và ngày của 253 tai nạn mỏ than trong giai đoạn 2010 -2012 từ Cơ quan Nhà
nước Quản lý An toàn Mỏ Than. Chúng tôi tìm các chuỗi từ liên quan đến các tai
nạn mỏ than trong bộ dữ liệu của chúng tôi. Trong khi các tai nạn mỏ than được
tường thuật nhiều hơn nhiều vào ngày của tai nạn, chúng đã không được thảo luận
thường xuyên hơn vào ngày trước tai nạn so với những ngày khác. Phát hiện này
có liên hệ với Acemoglu, Hassan, and Tahoun (2014) những người thấy rằng số người
phản đối ở Quảng trường Tahrir vào bất kể ngày cho trước nào đã được dự đoán bởi
số tweet với các hashtagTahrir. Tất nhiên, sự kiểm soát báo chí ở Ai Cập trong 2011
đã ít ngặt nghèo hơn Trung Quốc rất nhiều.
Chúng
tôi cũng tiến hành một phân tích chi tiết hơn, xem xét sự thảo luận microblogdự đoán tốt ra saoso với các tờ báo về khi
nào và ở đâu các sự kiện hoạt động tập thểsẽ diễn ra. Chúng tôi sử dụng các tường
thuật tin tức từ 62 tờ báo quan tâm chung, có tường thuật ít nhất một trong các
sự kiện này trong giai đoạn 2010- 2012. Các panel B và C của Bảng 3 trình bày
các kết quả từ việc tính hồi quy một chỉ số cho một sự kiện xảy ra trên số của các
postWeibotừ những người dùng trong một quận mà nhắc đến các từ khoá sự kiện vào
ngày xảy ra sự kiện (panel B) hoặc vào ngày trước sự kiện (panel C). Trong khi
các microblog là hết sức có ý nghĩa trong dự đoán nơi và khi các sự kiện hoạt động
tập thểxảy ra,thì sự đưa tin của báo về loại sự kiện này lại thiếu thông tin hữu
ích. Tóm lại, chúng tôi thấy,theo nghĩa đen,hàng triệuposttrên Sina Weibo thảo luận các sự kiện hoạt động tập
thể nhạy cảm. Nhiều trong số các postnày được post trước hay đồng thời với các
sự kiện và dự đoán các sự kiện. Sự thực rằng người dân bắt đầu thảo luận các sự
kiện trước khi chúng xảy ra cho thấy rằng Sina Weibo có thể được dùng để tổ chức
hoặc chí ít để điều phối các sự kiện hoạt động tập thể. Để khảo sát liệu những người
dùng,mà post loại nội dung nhạy cảm này,có bị nhận diện và có lẽ bị trừng trị
hay không, chúng tôi xem xét các post tiếp sau của những người dùngđã đăng trên
blog về các sự kiện hoạt động tập thể, 16 phần trămcủa các post này là post cuối
cùng được xuất bản bởi một người dùng trong dữ liệu mà chứa bất cứ từ khoá nào
trong số 5.000 từ khoá. Trong các loại “xung đột” và “phản đối”,các tỷ lệ tương
ứng là 17 và 23 phần trăm. Phần của những người dùngmà rời khỏi dữ liệu của
chúng tôi trong vòng năm hay mười post thêmlà cao hơn một chút trong dữ liệu đầy
đủ (38 và 49 phần trăm) so với trong các loại xung đột và phản đối (33-34 và 41-42
phần trăm). Nói ngắn gọn,chúng tôi thấy rằng những người dùngmà đã post về các
chủ đề này đã tiếp tục post ở một mức độ giống như những người dùng khác,cho biết
rằng các tài khoản của họ đã không chắc có nhiều khả năng hơn để bị đóng,các
postcủa họ cũng chẳng bị im đi.
Một cách khác để khảo sát liệu những người dùngcó lo về
kiểm duyệt không là đi xem liệu các postvề các chủ đề nhạy cảm có khuynh hướng
đến từ các tài khoản người dùngvới tương đối ít số post– mà có thể là dấu hiệurằngnhững
người dùngtạo ra các tài khoản Sina Weibo tách biệt cho các thông điệp gây
tranh cãi, có lẽ thậm chí với các địa chỉ IP được che giấu. Tuy vậy, số trung
bình của các posttừ những người dùngmà đăng về các chủ đề nhạy cảm không thấp
hơn đáng kể so với số trung bình của một mẫu so sánh được rút thăm một cách ngẫu
nhiên của những người dùng (sự rút thăm sử dụng số các post bởi mỗi người dùngnhư
các trọng số lấy mẫu). Điều mấu chốt là, mặc dù có các trường hợp được được chứng
minh bằng tư liệu về những người bị trừng trị sau khi post nội dung nhạy cảm,điều
này không có vẻ xảy ra trên một quy mô lớn. Nói chung,người dân không có vẻ sợ
để post về các chủ đề này.
4.2 Giám sát
Chúng tôi xem xét thông tin mạng xã hộihữu hiệu ra sao
cho việc chính quyền giám sát các sự kiện hoạt động tập thể. Như đã nhắc tới ở
trước, các cơ quan chính quyền khắp Trung Quốc đã đầu tư mạnh vào software để
theo dõi và phân tích các hoạt động online, để đo dư luận, và để kiềm chế các mối
đe doạ trước khi chúng lan ra (như được báo cáo trong Epstein 2013). Có lẽ,các
cơ quan chính quyền này mong muốn một hệ thống cảnh báo sớm về các sự kiện hoạt
động tập thể. Chúng ta hình dung rằng một hệ thống như vậy có thể hoạt động
theo hai bước. Bước thứ nhất được tự động hoá: chỉ có software cảnh giác đối với
những ngày khi việc nhắc đến các sự kiện nào đó tăng đột ngột trên mạng xã hội;
thứ hai,thuê những con người thực để đọc các postđược đăng trong những ngày đó.
Chúng tôi thăm dò phương pháp tự động-cộng-sức người
này. Chúng tôi nghiên cứu 316 quận suốt các ngày từ 1-1-2010 đến 31-12-2012. Chúng
tôi nghiên cứu các sự kiện chống-Nhậtvà các cuộc đình công bởi vì các sự kiện
này chắc là không bị kiểm duyệt và vì thế chúng tôi có cùng thông tin Weibo
post như chính phủ có. Cho bước đầu tiên,chúng tôi có software cảnh báo chúng
tôi suốt các ngày khi một người dùng từ một thành phố viết một post nhắc đến bất
kỳ từ khoá nào trong số từ khoá sự kiện của chúng tôi. Trước một ngày, sự báo động
này nhận diện 42 trong số 43 sự kiệnchống-Nhậtvà 115 trong số 130 cuộc đình công.
Việc này đòi hỏi sự điều tra 109.726 và 104.241 quận-ngày, một cách tương ứng (từ
tổng số 346.020 quận-ngày).
Rất dễ để cải thiện phương pháp thô thiển này,để tìm
ra nhiều sự kiện hơn và đồng thời làm giảm số các quan sát được tìm kiếm. Các
công cụ học máy (machine learning tool) đã được phát triển cho chính xác vấn đề
này (xem, thí dụ, Sasaki et al., 2010). Chúng tôi thăm dò cái gì đó đơn giản
hơn nhiều. Chúng tôi dự đoán xác suất của sự xảy ra sự kiện trong thời gian và
địa điểm cho trước, dựa vào số các post trên Weibo của những người dùngtrong địa
điểm đó nhắc đến các từ khoá cho sự kiện này vào ngày này, ngày trước, và tổng
số các postWeibo.
Trong việc xây dựng loại hệ thống báo động sớm này,
các chính quyền địa phương đối mặt với một sự đánh đổi tiêu chuẩn giữa lỗi loại
1 và lỗi loại 2. Họ có thể điều tra tất cả các trường hợp nơi xác suất được dự
đoán của một sự kiện là dương, dẫu nhỏ thế nào. Việc này sẽ tìm thấy nhiều sự
kiện nhất (tức là nó có một tỷ lệ dương đúng cao) nhưng cách tiếp cận này cũng
sẽ nhận nhiều số dương giả. Ngoài ra,họ có thể hạn chế sự chú ý cho các trường
hợp nơi xác suất này là rất cao,dẫn đến một tỷ lệ dương giả thấp nhưng cũng dẫn
đến một tỷ lệ dương đúng thấp.
Hình 2 cho thấy sự đánh đổi này cho các cuộc biểu tìnhchống-Nhậtvà
các cuộc đình công. Nó vẽ tỷ lệ dương đúng đối lại tỷ lệ dương giả, cho các ngưỡng
xác suất sự kiện khác nhau. Thí dụ, để tìm thấy tất cả các sự kiện chống-Nhật (tỷ
lệ dương đúng là một),các chính quyền địa phương sẽ phải tìm kiếm 40 phần trămcủa
các quan sát với không sự kiện nào (tỷ lệ dương giả là 0,4) sử dụng thông tin sẵn
có một ngày trước và khoảng 15 phần trămvới thông tin hiện thời. Bằng số tuyệt
đối, ta phải tìm kiếm 55.000 quận-ngày để nhận diện 100 trong số 130 cuộc đình
côngtrước một ngày. Một hệ thống cảnh báo ít thông tin hữu ích sẽ tạo ra một đường
cong dọc đường 45-độ,Đồ thị cho thấy rằng một số thống kê đơn giản dựa vào các
từ khoá chứa rất nhiều thông tin để nhận diện các ngày khi các sự kiện có khả
năng xảy ra.
Cho bước thứ hai,chúng tôi đọc một cách thủ công các
post mạng xã hộiliên quan đến đình công trong 100 quận-ngày với các xác suất có
một cuộc đình công,tổng cộng chúng tôi đã tốn khoảng 2 giờ để đọc. (Hãy nhớ,các
thông điệp này là rất ngắn!) Như thế, chi phí-thời gian được ước lượng của
chúng tôi cho việc phân tích 55.000 quận-ngày cần thiết để thấy rõ 100 cuộc
đình côngmột ngày trước khi chúng xảy ra là 1.100 người-giờ. Con số này là chi
phí thời gian tổng hợp cho tất cả các quận (316 quận) trải ra trong ba năm,Từ tiến
độ đó, chi phí là rất nhỏ. Điểm cốt lõi là,các sự kiện hoạt động tập thểđủ lớn
để gây ra các mối đe doạ tiềm tàng cho chế độ là dễ được phát hiện bằng sử dụng
dữ liệu mạng xã hội,và chúng có thể được phát hiện ra một ngày trước.
Vài điểm lý thú khác nổi lên từ phân tích trên. Một là,
khi việc đọc thủ công tất cả các post mạng xã hộiliên quan đến đình công cho 100
ngày đỉnh cao, chúng tôi đã phát hiện ra 23 cuộc đình côngtrong các quận-ngày
này mà cũng đã ở trong bộ dữ liệu gốc của chúng tôi. Tuy vậy, chúng tôi cũng đã
nhận diện thêm 14 cuộc đình công. Thủ tục của chúng tôi, như thế, cho thấy mạng
xã hộicó thể được sử dụng ra sao như một công cụ thu thập dữ liệu ở các nước,
nơi thiếu dữ liệu về các kết cục xã hội liên quan, nhưng dữ liệu từ mạng xã hộilại
dư dả.
5 Giám sát các Chính trị gia Địa phương
Mạng xã hộicó thể cung cấp thông tin xác đáng để buộc
các chính trị gia địa phương có trách nhiệm giải trình với các chính trị gia mức
cao hơn? Đầu tiên, chúng tôi sẽ mô tả nội dung trên Sina Weibo liên quan đến
tham nhũng. Rồi chúng tôi phân tích 200 vụ tham nhũng dính đến các lãnh đạo cấp
cao của chính phủ Trung Quốc hay Đảng Cộng sản (ĐCS) Trung Quốc, dựa trên các
thí dụ về tham nhũng từ Uỷ ban Kỷ luật Trung ương của ĐCS và Bộ Giám sát,cũng
như các tin được đăng bởi hãng thông tấn phát ngôn của chính phủ Trung Quốc,
Tân hoa xã. Chúng ta thấy rằng các post Weibodự đoán một số vụ tham nhũngtrước
một năm. Để xem xét việc đưa tin về tham nhũngtrên mạng xã hội,chúng tôi kết hợp
hai loại post microblog: các post nhắc tới các chính trị gia hay các chức vụ
chính trị và các post nhắc đến ứng xử tham nhũng. Cho loại thứ nhất, chúng tôi
truy xuất các post nhắc tới bất cứ chức vụ chính trị lớn nào ở mức trung ương,
tỉnh, quận, huyện, và làng xã. Chúng tôi nhận được hơn 11 triệuposttrong loại
này, Cột 1 của Bảng 4 cho thấy số các postđưa tin mỗi chức vụ hay lãnh đạo chóp
bu. Bảngđược sắp xếp theo số các posttrên chức vụ,được cho thấy trong Cột 2-(thí
dụ, có 31 chức cho các chức vụ mức tỉnh). Tập Cận Bình,chủ tịch Trung Quốc và tổng
bí thư của ĐCSTQ đương nhiệm, là lãnh đạo được thảo luận nhiều nhất, với hơn 1,3
triệupostnhắc tới tên ông,tiếp sau là Ôn Gia Bảo, cựu thủ tướng Trung Quốc.
Nhìn chung, các quan chức ở các mức cao hơn được thảo luận rộng hơn, và được
đưa tin nhiều hơn các bí thư đảng. Về loại thứ hai của các postnhắc tới ứng xử
tham nhũng, tha hoá, chúng tôi tìm kiếm các từ được dùng rộng rãi để mô tả ứng
xử tham nhũng, việc làm sai trái, và sự trừng phạt các quan chức. Các từ chủ đề
nóng trong loại này là “tham ô,” “tha hoá,” “tiền chính phủ,” “nhận hối lộ,” và
“đưa hối lộ” (như được thấy sớm hơn trong Bảng 1, Cột 4).Chúng tôi nhận diện
trên 5,3 triệu postthuộc loại này.
5.1 Nội dung và Những người dùng
Để mô tả đặc trưng các postvề tham nhũng,chúng tôi
đích thân xem xét kỹ 1.000 post được chọn một cách ngẫu nhiên.Hầu hết các postnày
đưa ra các bình luận chung về tham nhũng. Trong số 419 post thảo luận các vụ
tham nhũng cụ thể, 293 đã được viết sau khi chính quyền đã tiến hành tố tụng. Tuy
nhiên, 126 postthảo luận các trường hợp tham nhũng trước tố tụng của chính quyền.
Có thể chia 126 postnày thành hai loại. Một loại nhắm vào các quan chức chính
quyền cụ thể,được minh hoạ trong hai thí dụ sau đây.
·
“XXX,bí thư đảng của làng XXX,đã dùng
sai tiền được chuyển từ chính phủ trung ương cho người dân có thu nhập thấp để
chi cho các thành viên gia đình và họ hàng của ông ta.”
·
“XXX,quan chức đứng đầu của huyệnXXX,đã
biển thủ tiền công bằng cách trao tất cả các hợp đồng dự án lớn của chính quyền
cho công ty của em ông ta. Còn tồi hơn, ông đã thuê bọn côn đồ để để đâm những
người đã báo cáo việc tham nhũngcủa ông ta lên chính quyền cấp cao hơn.”
Loại khác truyền đạt sự phẫn uất về và sự tức giận đối
với các quan chức tham nhũng nào đó. Trong hầu hết các trường hợp,các postnày
nói về các chức vụ và các cơ quan chính quyền mà không định rõ tên của các quan
chức. Vài
thí dụ được lập tư liệu như sau.
·
“Thị trường đen cho các chức vụ chính quyền ở quận XXX là
tràn lan. Giá cả ngày càng cao, các quan chức chóp bu trong quận này đang trở
nên giàu hơn và giàu hơn, và tham nhũngsẽ ngày càng nghiêm trọng bởi vì những
người mua cần kiếm được đủ tiền để bù cho chi phí của họ.”
·
“Không có sự ủng hộ của bí thư quận uỷ và phó thống đốc
quận,làm sao các quan chức quận này dám bán các chức vụ chính quyền? Hãy đả
hổ!”
·
“Tiền tỷ đã chảy vào túi của các quan chức
địa phương và các đối tác kinh doanh của họ! Chủ tịch Tập, thủ tướng Lý, và bí
thư Vương trong Ban Thanh tra Kỷ luật Trung ương, các ông có đọc các microblog
của chúng tôi? Các ông có nghe tiếng nói của chúng tôi? Hãy tiệt trừ các quan
chức tham nhũng này! Ngay bây giờ!”
Cột 3 của Bảng 4 cho thấy số điểm phần trăm được ước
lượng của các postnhắc tới chức vụ của một lãnh đạo mà thảo luận các vụ tham
nhũng cụ thể.Một cách cụ thể, chúng tôi dự đoán xác suất rằng một post về một
chức vụ mà thảo luận các vụ tham nhũng cụ thể dựa vào các tần suất của các từ
được sử dụng. Thí dụ, dòng cuối cho thấy rằng hơn bốn phần trăm của tất cả các
postmà nhắc đến các bí thư đảng xã hay huyện cũng nhắc đến các vụ tham nhũng cụ
thể. Để nhận được một số đo rộng hơn về ý kiến của nhân dân đối với các lãnh đạo
của họ,chúng tôi trừ số các từ tiêu cực khỏi số các từ tích cực trong tất cả các
postnhắc đến các lãnh đạo này (sử dụng Từ điển Tình cảm của Đại học Quốc gia
Đài Loan).
Cột
4 của Bảng 4 cho thấy rằng các bí thư đảng ở huyện và xã nhận được ý kiến tiêu
cực nhất và đại diện phần lớn nhất của các post tham nhũng. Một diễn giải của
phát hiện này là, hai loại này của các quan chức thường được coi như các chính
trị gia cấp thấp hùng mạnh nhất có cơ hội để tham nhũng. Một cách nhìn khác là,
họ là các quan chức dễ bị tổn thương nhất trong các chiến dịch chống-tham nhũngbởi
vì họ ở đáy của hệ thống thứ bậc chính quyền Trung Quốc. Ước lượng từ mẫu ngẫu
nhiên gồm 1.000 post,bộ dữ liệu của chúng tôi chứa khoảng 668.000 postcó thảo
luận các trường hợp cụ thể về tham nhũng trước khi chính quyền hành động. Điều
này cung cấp nhiều thông tin cho các chính quyền cấp cao hơn tìm cách để bắt
các chính trị gia cấp thấp hơn chịu trách nhiệm giải trình. Rõ ràng,các post
thuộc loại này không bị chính phủ trung ương kiểm duyệt.
Chúng
tôi thấy một số postphê
phán thẳng thừng các lãnh đạo quốc gia chóp bu, mặc dù các post này không chứa
các cáo buộc tham nhũngrõ rệt. Các postnhư vậy, thí dụ, cho rằng dân chủ và sự ổn
định xã hội đã giảm dưới triều Hồ Cẩm Đào, rằng chiến dịch chống Bạc Hy Lai đã
được Tập Cận Bình khởi xướng như một phần của cuộc đấu đá chính trị, và rằng Ôn
Gia Bảo đã chuyển vốn đến Wenzhou (Ôn Châu) để giúp con em của một số lãnh đạo chóp
bu. Chúng tôi không thấy bằng chứng nào rằng những người dùng,mà post loại nội
dung nhạy cảm này, được nhận diện và bị trừng trị một cách có hệ thống. Những người
dùng,mà post về tham nhũng,tiếp tục postở mức độ như những người dùng khác. Cũng
có vẻ rằng người dân không sợ việc post các cáo buộc tham nhũngcụ thể dính líu
đến các chính trị gia địa phương hùng mạnh, vì các postnày không được tạo ra từ
các tài khoản đặc biệt với ít post. Một lý do có thể là, cho dù các chính quyền
địa phương có thể nhận diện những người dùng bạo gan này,là rủi ro cho họ để có
hành động chống lại những người dùng này bởi vì việc đó có thể kích một phản ứng
còn lớn hơn trong mạng xã hội,mà có thể gây nguy hiểm thêm nữacho sự nghiệp của
chính trị gia bị dính líu.
5.2 Dự đoán và Giám sát
Để kiểm tra liệu các post mạng xã hộicó dự đoáncác sự
buộc tội tham nhũngtrong tương lai không,chúng tôi nghiên cứu một mẫu về 200 sự
buộc tội tham nhũng: 15 ở mức quốc gia,39 ở mức tỉnh, 114 ở mức quận,và 32 ở mức
huyện, Để so sánh, chúng tôi dựng một mẫu kiểm tra đối sánh của 480 chính trị
gia đã không bị buộc tội tham nhũng. Các chính trị gia đối sánh giữ các chức vụ
chính trị tương đương và ở các khu vực địa lý gần với các chính trị gia bị buộc
tội.
Chúng tôi đếm số các postnhắc tới tên của mỗi trong 680
chính trị gia này và số các postnhắc cả đến chính trị gia và bất kể từ nào
trong loại tham nhũngcủa chúng tôi. Chúng tôi tính số các post 2 -7 tháng (cũng
như 12 -23 tháng) trước một sự buộc tội tham nhũng. Bảng 5a cho thấy rằng các
quan chức tham nhũng và không tham nhũng được nhắc đến về đại thể cùng số các
post 2 -7 tháng trước một sự buộc tội tham nhũng: 49 và 44,4 post,một cách
tương ứng,Tuy vậy, các quan chức tham nhũng xuất hiện thường xuyên hơn nhiều
trong các postmà nhắc tới các từ tham nhũng của chúng tôi (3,9 so với 0,4). Một
hình mẫu tương tự được tìm thấy trong các postđược đăng 12 -23 tháng trước một
sự buộc tội. Căn cứ vào sự khác biệt lớn trong số các post tham nhũng,không ngạc
nhiên rằng trong phân tích hồi quy hình thức hơn,các postnày rất có sức dự đoán
về các sự buộc tội tham nhũng.
Bảng 5b trình bày các kết quả của một hồi quy của biến
số chỉ dấu buộc tội-tham nhũng trên số các post nhắc đến tên một quan chức và sự
tham nhũng. Đơn vị quan sát là quan chức (200 bị buộc tội và 480 không bị buộc
tội). Biến số phụ thuộc là một biến số giả (dummy) cho biết liệu quan chức đã bị
buộc tội tham nhũng hay không. Hồi quy cũng bao gồm số các postnhắc chỉ đến tên
quan chức. Biến số này chẳng bao giờ có ý nghĩa (thống kê). Các cột 2, 4 và 5 gồm
các biến dummy cho các chỉ số vụ,cùng giá trị cho một quan chức bị buộc tội tham
nhũngvà các quan chức đối sánh. Các sai số chuẩn trong ngoặc,được phân cụm bởi mã
số gọi là case id (lãnh đạo bị buộc tôi và các lãnh đạo kiểm soát đối sánh). Bảngcho
thấy rằng các sự buộc tội tham nhũngđược dự đoán tốt bởi số các postnhắc đến tham
nhũng 2 -7 và 12 -23 tháng trước hành động đầu tiên của chính quyền.
Tuy vậy, một số đáng kể của các quan chức tham nhũng
bay dưới radarmạng xã hội. Đặc biệt, 133 quan chức muộn hơn được thấy là tham
nhũng, nhưng đã chẳng bao giờ được nhắc tới trong một post tham nhũnghai tháng
hay hơn trước hành động đầu tiên của chính quyền chống lại họ. Từ quan điểm của
chính phủ trung ương Trung Quốc, mà nhắm tới tấn công chống tham nhũng,một quy
tắc đơn giản là để điều tra tất cả các quan chức với ít nhất một post tham
nhũng. Trong trường hợp của chúng tôi, quy tắc này sẽ dẫn tới điều tra 192 quan
chức, trong đó 67 người muộn hơn đã bị buộc tội tham nhũng.
Các post mạng xã hộidự đoáncác chính trị gia chóp bu
nào sẽ bị buộc tội tham nhũng một năm trước hành động pháp lý đầu tiên. Lý do
có hể là, các cá nhân này quả thực bị tha hoá hơn. Một lý do khác có thể là,
chính phủ trung ương bỏ kiểm duyệt hoặc khả năng có thể xảy ra rằng chính phủ
gài các post tham nhũngvề các lãnh đạo đã mất sự ủng hộ chính trị và muộn hơn sẽ
bị kết tội tham nhũng. Để xem xét việc gài các câu chuyện, chúng tôi đã khảo
sát một vụ bê bối được tường thuật kỹ dính líu đến Bạc Hy Lai, một quan chức cấp
cao. Chúng tôi thấy rằng đã có sự kiểm duyệt chung của các postnhắc đến Bạc Hy
Laigiữa sự bắt đầu điều tra vào 15-3-2012,và hành động cuối cùng được ĐCS tiến
hành vào 28-9-2012. Chúng tôi không thấy bằng chứng nào rằng sự kiểm duyệt đã tập
trung vào các postủng hộ Bạc Hy Lai hoặc rằng đã có một xu hướng trong các câu
chuyện tham nhũngtrước sự suy sụp của ông.
Tóm lại,một lượng khổng lồ của các post trên Sina
Weibothảo luận tham nhũng. Các postnày giúp nhận diện các chức vụ chính trị,
các vùng, thời gian, và các cá nhân dính líu trong các vụ tham nhũng. Sự thiếu
kiểm duyệt cho thấy rằng đối với chính phủ trung ương Trung Quốc,sự giám sát được
cải thiện đối với các quan chức mức thấp hơn có nhiều tác dụng hơn sự quảng bá
tiêu cực của sự đưa tin tham nhũng. Các kết quả cũng gợi ý rằng các chính trị
gia địa phương chí ít không hiệu quả trong việc áp đặt sự tự-kiểm duyệt lên những
người dùnghoặc mặt khác để làm méo thông tin.
6 Tuyên truyền
Tuyên truyền được post lên mạng xã hộichủ yếu được tạo
ra bởi những người dùng gắn với chính quyền: các bộ; các tổ chức quần chúng,như
các trường học và các bệnh viện và các hội công nghiệp mà là phần của khu vực
công; báo chí do nhà nước sở hữu (lưu ý rằng, theo quy chế, tất cả báo chí được
quan tâm chung mà được phép công bố nội dung chính trị được sở hữu bởi hay bị
giám sát bởi chính phủ.) Chúng tôi sẽ nghiên cứu các loại của những người dùng
có sức mạnh cao này. Chúng tôi không nghiên cứu internet trolls do chính phủ thuê
để đánh lạc hướng sự thảo luận công (King, Pan, and Roberts 2016). Chúng tôi sử
dụng hai cách tiếp cận để nhận diện các post chính quyền. Trên một quy mô nhỏ,
chúng tôi mã hoá thủ công các postđược công bố bởi những người dùng được chọn một
cách ngẫu nhiên; trên quy mô lớn,chúng tôi sử dụng các kỹ thuật máy họcđể phân
biệt các hình mẫu ngôn ngữ được sử dụng bởi những người dùng chính quyền được
biết kỹ và như thế dự đoáncác tài khoản nào được gắn với chính phủ Trung Quốc.
Sau đó chúng tôi điều tra các mục tiêu của những người dùng gắn với chính quyền
này.
6.1 Số lượng
Trong 2012, Sina Weibo đã báo cáo rằng có khoảng 50.000
tài khoản trên Sina Weibo được điều hành bởi các cơ quan chính quyền hoặc cá
nhân các quan chức. Ước lượng của chúng tôi cho thấy rằng ngay cả khi giơi hạn ở
định nghĩa hạn chế nhất về người dùng chính quyền (loại bỏ những người dùng tổ
chức-quần chúng và báo chí),con số được báo cáo này ước lượng quá thấp sự hiện
diện của chính quyền trên Sina Weibo.
Chúng tôi mã hoá một cách thủ công một mẫu 1.000 người
dùngSina Weibo được chọn một cách ngẫu nhiên từ toàn bộ cơ sở dữ liệu của chúng
tôi gồm 30 triệungười dùng. Một người dùngđược phân lớp như mộtngười dùngchính
quyền nếu các posttiết lộ rõ rệt căn cước của người dùnghoặc hầu hết liên quan
đến các hoạt động của một chức năng chính quyền; những người dùng tổ chức quần
chúng được mã hoá một cách tương tự. Một tài khoản được phân lớp như một tài
khoản báo chí nếu các post tiết lội rằng người dùnglà một cơ quan báo chí hay một
bộ phận. Bảng 6 cho thấy kết quả. Trong mẫu ngẫu nhiên của 1.000 người dùng, 0,5
phần trămlà những người dùng chính quyền, ngụ ý rằng có khoảng 150.000 (với một
độ lệch chuẩn 67.000) người dùng chính quyền trong toàn bộ bộ dữ liệu của chúng
tôi. Những người dùng báo chí nhà nước sở hữu và tổ chức quần chúng đóng góp một
phần còn lớn hơn. Tổng cộng, các loại này của những người dùnggắn với chính quyền
gồm 2 phần trăm– hay 600.000– người dùng.
Như thế, chúng tôi ước lượng rằng các tài khoản gắn với
chính quyền đóng góp 3,6 phần trămcủa tất cả các posttrong cơ sở dữ liệu của
chúng tôi (với sai số chuẩn được bootstrap (bootstrapped standard errors) là 1,6
phần trăm); xem panel bên phải trong Bảng 6. Số điểm phần trăm này là lớn hơn 2
phần trămcủa những người dùng gắn với chính quyền bởi vì những người dùngnày
đăng nhiều post hơn những người khác. Lưu ý rằng các ước lượng này là hạn chế
cho mẫu các postcó nhắc tới các từ liên quan đến các vấn đề chính trị và kinh tế.
Bởi vì chúng tôi không tính đến những người dùngviết về các đề tài khác, nên tổng
số tài khoản gắn với chính quyền trên Sina Weibo chắc là cao hơn các ước lượng
của chúng tôi. Tuy vậy, phần của các post chính quyềncó thể thấp hơn đáng kể về
các chủ đề ngoài chính trị và kinh tế.
6.2 Nhận diện sự Gắn với Chính quyền bằng Ngôn ngữ
Chúng tôi cũng sử dụng một cách tiếp cận dựa vào ngôn
ngữ học để dự đoánxác suấtrằng một người dùng được gắn với chính quyền. Chúng
tôi giới hạn sự chú ý của mình đến 5,6 triệu người dùngmà đăng nhiều hơn năm post
trong bộ dữ liệu của chúng tôi. Những người dùngnày đóng góp hơn ba phần tư tổng
các post. Đầu tiên chúng tôi nhận diện 1.042 tài khoản quan chức, gắn với chính
quyền, và 538 tài khoản báo chí bằng xem xét kỹ các blog của hàng ngànngười
dùng với các tên người dùnggắn một cách tiêu biểu với các chức năng này. Đấy chỉ
là một tập con nhỏ của tất cả các tài khoản quan chức, nhưng chúng tôi có thể sử
dụng nó để xác định các từ nào là đặc trưng của các tài khoản chính quyền và
sau đó dùng chúng để ước lượng tổng số các tài khoản chính quyền.
Với mục đích này, đầu tiên chúng tôi chấp nhận và theo
một thuật toán phân lớp được sử dụng rộng rãi (Support Vector Machine (SVM)) để
nhận diện loại này của người dùngtừ mẫu 1 phần trăm (28.440) của những người
dùng được rút thăm ngẫu nhiên dựa trên các tần suất của các từ nhất định trong các
post của họ.[4]Dựa
vào thành tích trong các nhiệm vụ phân lớpkhác,các SVM đã được nhận diện như một
trong các phương pháp phân lớphiệu quả nhất (Dumais, Platt, Heckerman, and
Sahami 1998; Joachims 1998; Sebastiani 2002). Trong phân lớpSVM,một số lớn từ
là quan trọng. Tuy vậy, chỉ để cho một cảm giác về sựphân lớp,các từ với trọng
số cao nhất là “Liên đoàn Thanh niên Cộng sản”.“Thành Uỷ Đảng Cộng sản”và “Hội
nghị”. Để đánh giá SVM thực hiện tốt ra sao, chúng tôi sử dụng kiểm chứng chéo
nơi chúng tôi ước lượng lặp đi lặp lại mô hình bỏ đi một tài khoản chính quyền
và 17 tài khoản không-chính quyền và sau đó phân lớp các quan sát bị bỏ đi. Bộ phân
lớpnày có một độ chính xác là 0,81 và một độ hồi tưởng 0,41. Một thống kê quen
thuộc hơn có lẽ là t-statistic của một hồi quy probit*của
một biến cho biết một tài khoản chính quyền trên tham số SVM-output được dùng
cho phân lớp. T-statistic này là 56,có nghĩa rằng ngôn ngữ có tính dự đoán cao
cho các tài khoản chính quyền.
Vì các tài khoản chính quyền đã được lấy mẫu quá
(over-sampled) trong mẫu ước lượng trên,chúng tôi không thể dùng nó để ước lượng
phần của các tài khoản chính quyền. Thay vào đó chúng tôi đưa ra một mẫu ngẫu
nhiên mới gồm 500 người dùng,Trong mẫu này, chúng tôi ước lượng một mô hình probit
của xác suấtđể là một tài khoản chính quyềncó điều kiện trên tham số SVM. Quá
trình này được biết đến như Platt scaling và là một cách thông thường để ánh xạ
các ước lượng tham số SVM vào các xác suất (Platt, 1999). Chúng tôi kết hợp các
tham số SVM với các ước lượng probit để ước lượng xác suất dự đoánrằng mỗi tài
khoản là một tài khoản chính quyền. Chúng tôi sử dụng kết quả được ước lượng từ
mẫu kiểm chứng này để dự đoánxác suấtrằng mỗi trong 5,6 triệungười dùnglà được
gắn với chính quyền. Chúng tôi tính trung bình của xác suấttrong tổng thể,theo
tỉnh, và theo quận. Việc này cung cấp cho chúng tôi một số đo về phần của những
người dùnggắn với chính quyền ngang các vùng địa lý.
Ở mức quốc gia,
chúng tôi ước lượng rằng 3,1 phần trămcủa 5,6 triệu người dùnglà gắn với chính
quyền (với một sai số chuẩn 0,8 phần trăm). Con số này là cao hơn 2 phần trăm
trong toàn bộ mẫu,nhưng hai ước lượng tuy nhiên là nhất quán, bởi vì những người
dùng chính quyền đóng góp nhiều posthơn và như thế được đại diện mạnh hơn trong
mẫu những người dùngvới nhiều hơn năm post,Phần được ước lượng của các post được
đăng bởi những người dùng gắn với chính quyền trong mẫu này là 3,9 phần trăm (với
một độ lệch chuẩn 1,0 phần trăm).
6.3 Các Mục tiêu
của những Người dùng Chính quyền
Những người dùng
chính quyền của mạng xã hộicó thể cung cấp thông tin trung tính hay tuyên truyền.
Có vài hình mẫu mà có thể giúp chúng ta để phân biệt giữa hai khả năng. Thí dụ,
trong các vùng nơi chính quyền cảm thấy rằng nhu cầu cho ảnh hưởng là cao,chúng
ta phải quan sát nhiều cả kiểm duyệt lẫn tuyên truyền và một tương quan dương mạnh
giữa chúng. Chúng ta cũng phải quan sát một tương quan dương giữa các posttừ những
người dùng chính quyềnvà sự thiên vị chính quyền trong báo chí truyền thống,mà
bị sự kiểm soát chính quyền lớn hơn mạng xã hội. Ngược lại, các tương quan này
phải vắng nếu những người dùng chính quyềnchủ yếu cung cấp thông tin trung tính.
Nghiên cứu sớm
hơn cũng gợi ý vài luận đề khác về tuyên truyền. Tuyên truyền có thể hiệu quả
hơn lên các độc giả chia sẻ quan điểm của người gửi thông điệp, trong khi tác động
của tuyên truyền có thể tiêu cực khi độc giả giữ các quan điểm đối lập. Thí dụ,Adena,
Enikolopov, Santarosa, and Zhuravskaya (2014)thấy rằng radioNazi trong các năm 1930
đã hiệu quả nhất ở các địa phương nơi chủ nghĩa bài Do Thái đã cao về mặt lịch
sử và đã có tác động tiêu cực lên sự ủng hộ các chính sách Nazi ở các địa
phương với mức chủ nghĩa bài Do Thái thấp về mặt lịch sử. Tương tự, trong một
cuộc thí nghiệm phòng thí nghiệm, DellaVigna, Enikolopov, Mironova, Petrova,
and Zuravskaya (2014)thấy rằng sự phơi ra với radio Serbia đã gây ra tình cảm
chống-Serbia giữa những người Croat. Nếu chế độ Trung Quốc tin vào lý lẽ này,
thì chúng ta sẽ kỳ vọng thấy nhiều tài khoản gắn với chính quyền trong các
thành trì của Đảng Cộng sản.
Cuối cùng, tuyên
truyền chắc làm giảm sự đánh giá của những người tiêu dùng về mạng xã hội. Trong
chừng mực mà các nhà cung cấp dịch vụ có thể có tác động đến số lượng tuyên
truyền, chúng ta phải thấy ít tài khoản quan chức hơn ở các vùng nơi thị trường
quảng cáo là có giá trị và nơi cạnh tranh vì những người tiêu dùng là cao. Mặc
dù chúng tôi thiếu các số đo trực tiếp của các nhân tố này, chúng chắc liên
quan đến thu nhập hay GDP trên đầu ngườiđịa phương.
Chúng tôi kiểm
chứng các giả thuyết này sử dụng số đo riêng của chúng tôi về những người dùng
chính quyềntrên Sina Weibo ngang các tỉnh của Trung Quốc đối lại một số đo về
kiểm duyệt và đối lại một số đo về sự thiên vị trong các báo Trung Quốc. Panel
bên trái của Hình 3 vẽ phần được ước lượng của những người dùng chính quyền đối
lại số đo sự thiên vị báo chí trong các nhật báo được kiểm soát ngặt nghèo bởi
ĐCS (từ Qin, Ströberg,
and Wu 2016). Số đo sau dựa trên chín loại nội dung,kể cả các lời nhắc nhủ của lãnh
đạo, các trích dẫn của thông tấn xã chính thống của ĐCS, và sự đưa tin các câu
chuyện phê phán chế độ. Panel bên phải của Hình 3 vẽ phần được ước lượng của những
người dùng chính quyềnđối lại một số đo về kiểm duyệt được Bamman, O’Connor,
and Smith (2012) phát triển: phần của các post bị xoá,Quảng Đông (Guang dong)
có phần thấp nhất của những người dùng chính quyền (2,5 phần trăm),còn Ninh Hạ (Ningxia)
và Cam Túc (Gansu)có phần cao nhất (6 phần trăm). Đồ thị nhìn hầu như cũng thế
nếu chúng ta sử dụng phần của các postđược đăng bởi những người dùng chính quyềnthay
cho phần của những người dùng chính quyền.
Hai hình cho thấy
rằng phần được ước lượng của những người dùng chính quyềntương quan mạnh với cả
phần củacác postbị xoá lẫn của sự thiên bị báo chí (hệ số tương quan là 0,7
trong cả hai trường hợp). Tương quan dương này cho biết rằng sự kiểm duyệt, sự
thiên vị báo chí, và các tài khoản quan chức trên Sina Weibo được sử dụng cho
cùng mục đích tuyên truyền. Lưu ý rằng, trong Hình 3,Tây Tạng (Tibet) có nhiều postbị
xoá hơn được kỳ vọng. Có lẽ điều này là một dấu hiệu rằng tuyên truyền không được
xem là đặc biệt hiệu quả ở Tây Tạng bởi vì sự ủng hộ cơ sở yếu hơn cho chính phủ
trung ương Trung Quốc.
Hai hình cho thấy
rằng phần được ước lượng của những người dùng chính quyềntương quan mạnh với cả
phần của các post bị xoá lẫn sự thiên vị báo chí (hệ số tương quan là 0,7 trong
cả hai trường hợp). Tương quan dương này là phù hợp với giả thuyết rằng sự kiểm
duyệt, sự thiên vị báo chí, và các tài khoản quan chức trên Sina Weibo được sử
dụng cho cùng mục đích tuyên truyền. Lưu ý rằng, trong Hình 3,Tây Tạng có nhiều
postbị xoá hơn được kỳ vọng. Có lẽ điều này là một dấu hiệu rằng tuyên truyền
không được xem là đặc biệt hiệu quả ở Tây Tạng bởi vì sự ủng hộ cơ sở yếu hơn
cho chính phủ trung ương Trung Quốc.
Các tương quan
khác cũng phù hợp với niềm tin rằng những người dùng chính quyềncủa mạng xã hộiđang
tiến hành tuyên truyền. Bảng 7 cho một hồi quy chéođể minh hoạ. Biến phụ thuộc
là phần của những người dùng chính quyềncủa Sina Weibo ngang các quận của Trung
Quốc. Chúng tôi dùng GDP như một số đo về phát triển kinh tế. Chúng tôi tính đến
một biến “thành trì ĐCSTQ,” cho biết các vùng nơi ĐCS được đánh giá cao hơn một
cách tương đối do các lý do lịch sử (Qin, Ströberg, and Wu 2016). Ngược lại,một số
vùng có một lịch sử của ảnh hưởng Tây phương,nhất là,các vùng đã là phần của một
hiệp ước cảng được kiểm soát bởi các cường quốc phương Tây trong giai đoạn 1840-1910
(Jia 2014). Các biến khác trong hồi quy gồm khoảng cách tới Bắc Kinh,vĩ độ,
kinh độ, và dân số.
Phần được chúng
tôi ước tính của những người dùng chính quyềnngang các quận là thấp hơn đáng kể
trong các vùng với các mức GDP cao và là cao hơn trong các thành trì của ĐCSTQ.
Kết quả sau là phù hợp với quan điểm rằng tuyên truyền là hiệu quả hơn trong
các vùng nơi độc giả chia sẻ ý thức hệ của người gửi. Phần được ước lượng của những
người dùng chính quyềncũng tỏ ra cao hơn trong các vùng gần Bắc Kinhhơn và
trong các vùng đông dân cư hơn. Tóm lại, các hình mẫu này là phù hợp với tuyên
truyền là mục tiêu chính của nội dung mạng xã hộichính quyền này.
7 Kết luận
Chúng tôi sử dụng
một bộ dữ liệu lớn về các postblog từ nền tảng microblog Trung Quốc xuất sắc nhất
Sina Weibotrong giai đoạn 2009-2013 để chứng minh bằng tư liệu một số sự thực
cơ bản. Bây giờ chúng tôi thảo luận làm thế nào để hiểu các sự thực này và
chúng ta có thể ngụ ý những gì cho các kết cục mà rốt cuộc chúng ta quan tâm đến,
như tham nhũng,sự ổn định hệ thống, trách nhiệm giải trình địa phương và trung
ương, và sự cân bằng quyền lực trung ương-địa phương.
Căn cứ vào các cố
gắng rộng lớn để kiểm soát bằng cảnh sát và kiểm duyệt mạng xã hội,có thể có vẻ
ngạc nhiên đến bối rối rằng chúng tôi thấy rất nhiều tài liệu nhạy cảm sẵn có
trên mạng xã hội. Những sự đền đáp riêng để post các tài liệu này là những gì?
Vì sao chế độ không trừng trị những người dùngtrên một quy mô lớn,và vì sao chế
độ không kiểm duyệt tất cả các tài liệu nhạy cảm? Chúng tôi gợi ý sự giải thích
sau đây.
Chính phủ trung
ương hạn chế sự kiểm duyệt của nó bởi vì chỉ một phần nhỏ của tài liệu nhạy cảm
chắc là có khả năng đưa ra một thách thức có ý nghĩa đối với chế độ. Mặc dù dư
luận đa dạng và thậm chí bất đồng ý kiến có thể làm phật lòng chế độ, một sự
quét sạch nội dung nhạy cảm có thể làm suy yếu năng lực của chế độ để học từ
thông tin từ dưới lên và để giải quyết các vấn đề xã hội trước khi chúng trở
nên đe doạ. Vì thế, có một sự đánh đổi tế nhị trong sự kiểm soát thông tin đối
mặt một chế độ độc đoán.
Những người dùngmạng
xã hội có một khuyến khích để cất lên tiếng nói về các vấn đề địa phương vì họ
kỳ vọng chính quyền trung ương để giải quyết các vấn đề này. Trong các post về tham
nhũng,chúng tôi tìm thấy các lời thỉnh cầu thường xuyên rõ ràng về hành động của
chính quyền trung ương. Các postvề các cuộc phản kháng và các cuộc đình côngcó
thể giúp tổ chức các sự kiện, nhưng, khá quan trọng, chúng cũng làm cho chính
quyền trung ương có thể nhìn thấy các sự kiện này. Việc này có thể buộc các lãnh
đạo địa phương giải quyết các vấn đềgây ra các cuộc phản đối và các cuộc đình
công. Dòng suy luận này có thể cũng giải thích vì sao các cuộc phản đối vàcác
cuộc đình côngđang tăng lên ở Trung Quốc mặc dù chúng ta thấy là đơn giản và rẻ
để sử dụng mạng xã hộiđể nhận diện các sự kiện này trước một ngày. Các quan chức
địa phương có thể không muốn đàn áp chúng bằng cảnh sát và bạo lực bởi vì việc
này sẽ kích một phản ứng còn lớn hơn nữa trên mạng xã hội.
Tác động nâng
cao tính dễ thấy của mạng xã hộicó thể cũng giải thích vì sao chúng ta không thấy
bằng chứng nào về sự trừng trị quy mô lớn đối với những người dùng bất đồng ý
kiến. Người ta có thể nghĩ rằng sự phát hiện này chỉ phản ánh sự nhất quán giữa
sự kiểm duyệt và việc kiểm soát bằng cảnh sát–các postmà chúng ta quan sát đã
không đủ nhạy cảm để bị kiểm duyệt, và như thế người dân không bị trừng trị vì
việc post chúng. Tuy nhiên, những người kiểm duyệt và cảnh sát internet là những
người khác nhau. Chính quyền trung ương thực hiện việc kiểm duyệt còn các chính
quyền địa phương có thể dựa chỉ vào việc kiểm soát bằng cảnh sát. Cho nên câu hỏi
là vì sao các chính trị gia địa phương không trừng trị những người dùngmà các
postcủa họ có thể gây nguy hiểm cho sự nghiệp của họ,thí dụ,những người cáo buộc
họ tham nhũng. Một lý do là, các chính trị gia địa phương không có khả năng để
nhận diện những người dùng này. Một lý do khác là,mạng xã hội có thể làm cho việc
các chính trị gia địa phương trừng trị những người dùng bất đồng ý kiến là có
thể thấy được đối với các nhà lãnh đạo quốc gia, mà đặtcác chính trị gia địa
phương đối mặt các rủi ro chính trị lớn.
Do chính quyền
trung ương sử dụng thông tin từ mạng xã hộiđể giám sát quan chức địa phương,
không ngạc nhiên rằng các quan chức địa phương tích cực vận hành các microblog
của họ trên Sina Weibo. Các chính trị gia địa phương có thể báo hiệu lòng trung
thành của họ với chính quyền trung ương bằng việc nghĩ ra sự tuyên truyền thúc
đẩy đường lối của đảng trong khi cũng làm trệch hướng các cáo buộc tham nhũngvà
chứng tỏ năng lực của họ để nhận diện và giải quyết các vấn đề địa phương. Tuy
vậy,là tốn kém để tạo ra sự tuyên truyền có chất lượng cao để chi phối một sự
thảo luận giữa hàng triệungười dùng. Chúng tôi ước lượng rằng các tài khoản gắn
với chính quyền đóng góp khoảng 4 phần trămcủa tất cả các postvề chính trị và
kinh tế trên Sina Weibo. Trong khi con số này là lớn hơn con số chính thức của Sina
Weibo rất nhiều, nó không tràn ngập. Dưới ánh sáng này, không ngạc nhiên rằng
chúng tôi thấy các lãnh đạo địa phương không có khả năng để pha loãng một cách
hiệu quả thông tin tiêu cực về, chẳng hạn,tham nhũngvà hoạt động tập thể.
Các ngụ ý cho
các kết cục mà rốt cuộc chúng ta quan tâm là những gì? Các phát hiện của chúng
tôi gợi ý rằng mạng xã hộiở Trung Quốc chủ yếu tác động đến những kết cục mà
trong đó chế độ trung ương và những người dùng nói chung chia sẻ một sự quan
tâm chung. Thí dụ, chế độ và những người dùngmạng xã hội, cả hai đều được lợi từ
sự đấu tranh chống tham nhũngđịa phương và sự lạm dụng quyền lực khác bởi các
lãnh đạo địa phương. Trong khía cạnh này,mạng xã hộiTrung Quốc có vẻ đóng một
vai trò tích cực trong các công việc chung ở mức địa phương, cải thiện sự tiếp
cận của công chúng đến thông tin, sự tham dự vào tranh luận công, và năng lực của
họ để điều phối các hoạt động đông người và đáp ứng các vấn đề địa phương.
Ngược lại, các kết
cục mà trong đó chế độ trung ương và những người dùngcó các lợi ích đối lập
nhau chắc là ít bị ảnh hưởng. Thí dụ, một số rất hạn chế các post thảo luận các
nhà lãnh đạo quốc gia theo cách tiêu cực. Tương tự, sự đưa tin của mạng xã hộivề
các xung đột quy mô lớn bị bóp nghẹt, hoặc bởi sự kiểm duyệt hay bởi sự tự-kiểm
duyệt.Vì thế, người ta có thể chờ đợi mạng xã hộiđể tăng phạm vi tác động của
các cuộc phản đối quy mô nhỏ và vừa, trong khi làm giảm xác suất của các cuộc
phản đối lớn đe doạ chế độ. Như thế, còn xa mới rõ rằng mạng xã hộicó khả năng
kiềm chế chính quyền trung ương Trung Quốc.
Các phát hiện của
chúng tôi cuối cùng gợi ý rằng mạng xã hộiở Trung Quốc chắc là để làm tăng quyền
lực của chính quyền trung ương làm tổn hại đến các chính quyền địa phương,mà sẽ
bị giám sát sít sao hơn và có ít sự sự tuỳ ý hơn. Cuối cùng, nó có thể dẫn đến
sự tập trung hoá tăng lên của quyền lực vì khuyến khích của chính quyền trung
ương để phân quyền quyết định bị giảm đi bởi năng lực của nó được cải thiện để
kiếm được thông tin địa phương.
Do công nghệ ITtiến
bộvà phong cảnh chính trị Trung Quốc thay đổi, là tự nhiên để đặt câu hỏi về
các kết quả của bài báo này là xác đáng thế nào bên ngoài giai đoạn lấy mẫu của
chúng tôi mà cấm dứt trong 2013. Kể từ 2012, Sina Weibo đã mất vị trí cho các dịch
vụ khác, nhất là cho WeChat và Qzone. Nhìn tổng thể, ứng xử của người dùngvà sự
kiểm duyệt của chính phủ trên các dịch vụ này là tương tự như đối với Sina
Weibo,nhưng phải lưu ý đến vài sự khác biệt. Theo Ng (2015),một phần nhỏ của các
postbị kiểm duyệt trên WeChat hơn trên Weibo. WeChat cung cấp một công cụ ít hiệu
quả hơn một chút để tổ chức hoạt động tập thểquy mô lớn hay để phơi bày các
quan chức tham nhũng,vì chỉ những người đăng ký đối với một tài khoản mới có thể
thấy một post. Như thế, không ngạc nhiên rằng, trong khi WeChat là nền tảng phổ
biến nhất cho nhắn tin tức thì, Sina Weibo và Qzone là các nền tảng phổ biến nhất
cho chia sẻ thông tin công khai. Một báo cáo dựa trên điều tra do CNNIC đưa ra
cho thấy rằng trong 2015,số những người dùngmạng xã hộimà đã liệt kê Sina Weibo
như lựa chọn đầu tiên của họ để theo dõi các sự kiện tin tức hiện thời và các vấn
đề xã hội đã gấp đôi những người đã liệt kê Qzone.[5]
Kể từ 2012,các
chính quyền Trung Quốc đã leo thang các cố gắng của họ để kiểm soát mạng xã hội.
Như phần của sự cố gắng này,kể từ tháng Ba 2012,những người dùngđã được yêu cầu
phải tiết lộ nhận diện thật của họ cho các nhà cung cấp mạng xã hội. Bởi vì
giai đoạn lấy mẫu của chúng tôi kéo dài cho đến cuối 2013,chúng tôi có thể cung
cấp một cái nhìn thoáng qua về tác động của sự siết chặt kiểm soát và sự cạnh
tranh tăng lên từ WeChat. Dữ liệu của chúng tôi cho thấy một sự sụt khoảng 30
phần trăm về số của tổng số các post trên Weibo từ 2012 sang 2013. Tuy vậy, số các
postvề các chủ đề nhạy cảm (xung đột, các cuộc phản đối,các cuộc đình công, và tham
nhũng) đã thay đổi không đáng kể. Kết quả này cho biết rằng lưu lượng mà đã
chuyển sang WeChat và các dịch vụ khác đã tập trung vào các chủ đề không công cộng
như đời sống cá nhân và tán gẫu riêng tư. Nó cũng gợi ý rằng chế độ nghiêm ngặt
hơn vẫn đã thấy nó trong lợi ích của họ để không kiểm duyệt hoàn toàn các postvề
các chủ đề nhạy cảm mà chúng tôi nghiên cứu.
Tài liệu tham khảo
[1]Acemoglu, Daron, Tarek A, Hassan, and Ahmed Tahoun,
2014, "The Power of the Street: Evidence from Egypt’s Arab Spring."
NBER Working Paper 20665.
[2]Adena, Maja, Ruben Enikolopov, Veronica Santarosa,
and Katia Zhuravskaya, 2014, “Radio and the Rise of Nazis in Pre-War Germany”,
forthcoming in Quarterly Journal of
Economics 130(4): 1885 -1939.
[3]Bamman, David, Brendan O’Connor, and Noah Smith,
2012, “Censorship and Deletion Practices in Chinese Social Media”,First Monday 17(3).
[4]China Internet Network Information Center. 2011,“The
28nd Statistical Report on Internet Development in China” July 2011,Beijing.
[5]China Internet Network Information Center. 2013. “The
32nd Statistical Report on Internet Development in China” January 2013,Beijing.
[6]China Internet Network Information Center. 2014,“The
34th Statistical Report on Internet Development in China” January 2014,Beijing.
[7]Chen, Xiaoyan and Peng Hwa Ang, 2011,“Internet
Police in China: Regulation, Scope and Myths”. In Online Society in China: Creating, Celeb- rating, and Instrumentalising
the Online Carnival, ed. David Herold andPeter Marolt, 40 -52, New York:
Routledge.
[8]DellaVigna, Stefano, Ruben Enikolopov, Vera
Mironova, Maria Petrova and Ekaterina Zhuravskaya, 2014,“Cross-border media and
nationalism: Evid- ence from Serbian radio in Croatia.” American Economic Journal: Applied Economics 6(3): 103 -32.
[9]Dumais, S., Platt, J., Heckerman, D.,& Sahami,
M., 1998,“Inductive learning algorithms and representations for text
categorization”.Proceedings of the 7th
international conference on information and knowledge management, 48-155.
ACM Digital Library.
[10]Edmond, Chris,“Information manipulation,
coordination, and regime change.”The
Review of Economic Studies (2013): rdt020.
[11]Egorov, Georgy, Sergei Guriev, and Konstantin
Sonin, 2009,“Why resource-poor dictators allow freer media: A theory and
evidence from panel data.”American
Political Science Review 103.04: 645-668.
[12]Enikolopov, Ruben, Alexey Makarin, and Maria
Petrova, 2016,“Social Media and Protest Participation: Evidence from Russia.”
Available at SSRN 2696236.
[13]Epstein, Gady, 2013,“China’s Internet: A Giant
Cage,”The Economist. April 6,
http://www.economist.com/news/special-report/21574628-internet-was-expected-help-democratise-china-instead-it-has-enabled
[14]Freedom House, 2015,“2015 Freedom of the Press
Data”
https://freedomhouse.org/report/freedom-world/freedom-world-2015#.WFxACX3CB1A
[15]Fu, King-wa, Chung-hong Chan, and Marie Chau, 2013,“Assessing
cen- sorship on microblogs in China: Discriminatory keyword analysis and the
real-name registration policy.”Internet
Computing, IEEE 17(3): 42-50.
[16]International Telecommunication Union, 2013,“The
World in 2013: ICT Facts and Figures,” Geneva. http://www.itu.int/en/ITU-
D/Statistics/Documents/facts/ICTFactsFigures2013-e.pdf
[17]Jia, Ruixue, 2014,“The Legacies of Forced Freedom:
China’s Treaty Ports”,Review of Economics
and Statistics, Vol.96(4): 596-608.
[18]Joachims, Thorsten, 1998,“Text categorization with
Support Vector Ma- chines: learning with many relevant features”,10th European Conference on Machine Learning,
volume 1398 of Lecture Notes in Computer
Science, 137-142, Berlin: Springer Verlag.
[19]Joachims, Thorsten, 1999,“Making large-Scale SVM
Learning Practical”. Advances in Kernel
Methods - Support Vector Learning, B. Scholkopf
and C. Burges and A. Smola (ed.), MIT-Press.
[20]King, Gary, Jennifer Pan, and Margaret E Roberts,
2013,“How Censorship in China Allows Government Criticism but Silences
Collective Expression”,American Political
Science Review, 107(2(May)): 1-18
[21]King, Gary, Jennifer Pan, and Margaret E Roberts,
2014,“Reverse- Engineering Censorship in China: Randomized Experimentation and
Par- ticipant Observation.” Science
345 (6199): 1-10.
[22]Kleinberg, Jon, 2006,“Complex Networks and
Decentralized Search Algorithms”,Proceedings
of the International Congress of Mathematicians (ICM).
[23]Lorentzen, Peter, 2014,“China’s Strategic
Censorship.”American Journal of Political
Science 58.2: 402-414.
[24]Morozov, Evgeny, 2012,“The Net Delusion: The Dark
Side of Internet Freedom.”Public Affairs,
Reprint edition (February 28. 2012).
[25]Ng. Jason Q. 2015,“Politics, Rumors, and
Ambiguity: Tracking Censorship on WeChat’s Public Accounts Platform.”
University of Toronto, mimeo.
[26]Platt, John C. 1999,“Probabilistic Outputs for
Support Vector Machines and Comparisons to Regularized Likelihood Methods.”Advances in large margin classifiers
10(3): 61-74.
[27]Public Opinion Monitoring Agency, Various years,
Reports on the Online Public Opinion (2010-2013). Published by People’s Daily.
[28]Qin, Bei, David Stromberg, and Yanhui Wu, 2016,“Media
Bias in China,” working paper.
[29]Reporters Without Borders. 2013,“2013 World Press
Freedom Index: Dashed Hopes after Spring,”
https://rsf.org/en/news/2013-world-press- freedom-index-dashed-hopes-after-spring.
[30]Sakaki, Takeshi, Makoto Okazaki, and Yutaka Matsuo,
2010,“Earthquake shakes Twitter users: real-time event detection by social
sensors,”Proceed- ings of the 19th
international conference on World Wide Web. ACM.
[31]Sebastiani, Fabrizio, 2002,“Machine learning in
automated text categoriz- ation”,ACM
Computing Surveys, 34(1). 1 -47.
[32]Shirky, Clay, 2011,“The Political Power of Social Media:
Technology, the Public Sphere, and Political Change”.Foreign Affairs, January/February.
[33]Zhu, Tao, David Phipps, Adam Pridgen, Jedidiah R,
Crandall, and Dan S, Wallach, 2013,“The Velocity of Censorship: High-Fidelity
Detection of Microblog Post Deletions,” arXiv preprint. arXiv:1303.0597.
23
Hình 1: Số được ước lượng của Sina Weibo post bởi Weibook và API |
Số được ước lượng của các post Sina Weibomỗi
tháng; xanh lam: tổng Weibook; xanh lá cây: các post về chính trị và kinh tế; đỏ:
tổng được ước lượng (ya hei)
Hình 2: Dự
đoán và phát hiện Sự kiện
|
Bộ
phân lớp sự kiện chống-Nhật Bộ
phân lớp sự kiện đình công
Trục
dọc: tỷ lệ dương đúng; trục ngang: tỷ lệ dương sai
Đường
đen: thông tin hiện thời; đường đỏ: trước một ngày
Phần của Những người dùng chính quyền trên Sina Weibo ngang các Tỉnh đối lại sự Thiên vị Báo chí và Kiểm duyệt |
Người dùng chính quyền và sự
Thiên vị của Báo Người dùng chính
quyềnvà các post bị xoá
Trục ngang: phần của các
người dùng chính quyền;
Trục dọc: bên trái: không
có thiên vị báo giữa các nhật báo; bên phải: phần của các post bị xoá trên
weibo
Ghi chú: Mỗi
chấm đại diện một tỉnh ở Trung Quốc. Panel bên trái vẽ phần được ước lượng của những
người dùng chính quyền đối lại số đo về sự thiên vị báo chí trong các nhật báo
bị ĐCS kiểm soát nghiêm ngặt (từ Qin et al. 2016). Panel bên phải vẽ phần được
ước lượng của những người dùng chính quyềnđối lại số đo về kiểm duyệt do Bamman
et al. (2012) phát triển, phần của các post bị xoá.
Bảng 1: Các
chủ đề nóng theo loại
Xung
đột (độ nhạy cảm: rất cao)
|
Phản
đối (độ nhạy cảm: cao)
|
Đình
công (độ nhạy cảm: trung bình)
|
Tham nhũng
|
||||||||
# tổng số post: 382.232
|
# tổng số post: 2.526.325
|
# tổng số post: 1.348.964
|
# tổng số post: 5.326.897
|
||||||||
Tần suất
|
Từ
|
Dịch
|
Tần suất
|
Từ
|
Dịch
|
Tần suất
|
Từ
|
Dịch
|
Tần suất
|
Từ
|
Dịch
|
322.797
|
镇压
|
trấn áp
|
647.711
|
示威
|
biểu tình
|
1.361.854
|
罢工
|
bãi công
|
1.455.878
|
贪污
|
tham ô
|
32.117
|
冲突
|
xung đột
|
534.784
|
静坐
|
biểu tình ngồi
|
69.068
|
罢课
|
bãi khoá
|
1.658.687
|
腐败
|
hủ bại
|
19.124
|
警民
|
cảnh sát
và dân
|
430.112
|
自焚
|
tự tử
|
101.887
|
工人
|
công nhân
|
681.055
|
公款
|
tiền
|
17.460
|
催泪弹
|
bom hơi cay
|
260.574
|
讨薪
|
đòi đền bù
|
98.822
|
电脑
|
máy tính
|
674.503
|
受贿
|
nhận hối
lộ
|
31.161
|
矛盾
|
mâu thuẫn
|
346.836
|
游行
|
diễu hành
|
65.557
|
出租车
|
taxi
|
556.609
|
贿赂
|
đưa hối lộ
|
40.286
|
警察
|
cảnh sát
|
164.367
|
请愿
|
thỉnh nguyện
|
164.549
|
泪
|
nước mắt
|
975.187
|
官员
|
quan chức
|
14.271
|
官民
|
quan dân
|
113.936
|
示威者
|
người biểu tình
|
46.219
|
工会
|
công đoàn
|
393.125
|
廉政
|
liêm
chính
|
31.935
|
暴力
|
bạo lực
|
109.339
|
堵路
|
ngăn đường
|
91.051
|
抓狂
|
điên (rồ)
|
639.293
|
利益
|
lợi ích
|
130.036
|
被
|
bị
|
166.600
|
抗议
|
kháng nghị
|
55.687
|
司机
|
lái xe
|
1.002.491
|
政府
|
chính phủ
|
74.391
|
政府
|
chính phủ
|
101.845
|
集会
|
hội họp
|
48.845
|
集体
|
tập thể
|
245.606
|
挪用
|
biển thủ
|
12.002
|
宽恕
|
khoan thứ
|
118.262
|
农民工
|
lao động di cư
|
52.066
|
员工
|
nhân viên
|
512.006
|
集团
|
nhóm
|
12.764
|
武力
|
vũ lực
|
103.975
|
思
|
tư duy
|
157.937
|
今天
|
hôm nay
|
201.891
|
吃喝
|
ăn uống
|
18.951
|
军队
|
quân đội
|
80.481
|
静静
|
tĩnh
|
24.477
|
的士
|
taxi
|
153.731
|
职权
|
chức quyền
|
29.566
|
民众
|
dân chúng
|
60.237
|
闲谈
|
tán gẫu
|
22.559
|
法国人
|
người Pháp
|
572.569
|
钱
|
tiền
|
14.701
|
叙利亚
|
Syria
|
58.318
|
人非
|
thiếu sót của dân
|
51.479
|
上班
|
đi làm
|
247.942
|
贪官
|
quant ham
|
20.170
|
抗议
|
kháng nghị
|
72.753
|
民工
|
dân công
|
16.290
|
罢市
|
bãi thị
|
156.363
|
滥用
|
lạm dụng
|
60.068
|
人民
|
nhân dân
|
63.719
|
白宫
|
Nhà Trắng
|
40.827
|
抗议
|
kháng nghị
|
291.309
|
原
|
nguyên. cựu
|
21.521
|
村民
|
thôn dân
|
130.198
|
坐
|
ngồi
|
86.612
|
手机
|
điện thoại
|
288.287
|
干部
|
cán bộ
|
10.264
|
起义
|
khởi nghĩa
|
60.957
|
己
|
riêng mình
|
17.679
|
罢
|
đình công
|
123.827
|
行贿
|
đút lót
|
10.150
|
开枪
|
nổ súng
|
37904
|
玩火自焚
|
chơi với lửa và đốt mình
|
41586
|
工资
|
tiền lương
|
126.820
|
情妇
|
bồ nhí
|
Ghi chú: Bảngnày
trình bày các từ chủ đề nóng,được sắp xếp theo tần suất của một từ là cao không
bình thường ra sao trong các postđưa tin về một loại cá biệt (thí dụ, xung đột)
so với tần suất trong toàn bộ bộ dữ liệu.
Bảng 2
Các post hoạt động tập
thể
Từ một mẫu ngẫu nhiên gồm 1.000 post
|
||||||
Tổng số post chứa từ khoá
|
Các post thực sự về chủ đề xác định
|
Sự kiện sắp xảy ra
|
Sự kiện đang xảy ra
|
Sự kiện quá khứ
|
Bình luận chung
|
|
Xung đột
|
382.232
|
398
|
1
|
11
|
156
|
230
|
Phản đối
|
2.526.325
|
317
|
2
|
19
|
172
|
124
|
Đình công
|
1.348.964
|
312
|
5
|
178
|
39
|
90
|
Chống-Nhật
|
2.506.944
|
504
|
9
|
188
|
42
|
265
|
Ghi chú: Đối
với mỗi loại chủ đề nóng,trong tổng số các trường hợp của từ được sử dụng,
chúng tôi khảo sát một mẫu ngẫu nhiên của 1.000 post. Chúng tôi mã hoá một cách
thủ công các postcó phủ hay khôngvà phủ thế nào một loại cá biệt của sự kiện.
Bảng 3: Dự
đoán và Phát hiện Sự kiện(# trên quận và ngày)
BIẾN SỐ
|
Xung đột
|
Phản đối
|
Đình công
|
Chống-Nhật
|
Tai nạn mỏ than
|
Panel A
|
|||||
# Weibo post: ngày
sự kiện
|
6,1
|
62,6
|
167,3
|
2036,6
|
3,0
|
# Weibo post: ngày
trước sự kiện
|
3,4
|
54,3
|
48,1
|
924,6
|
0,7
|
# Weibo post: ngày không có sự kiện
|
0,7
|
4,4
|
2,5
|
4,5
|
1,2
|
Panel B
|
|||||
Hệ số hồi quy
|
|||||
# Weibo post
|
0,647***
(0,196)
|
1,013***
(0,166)
|
1,777***
(0,310)
|
1,105***
(0,209)
|
1,213***
(0,286)
|
# bài báo
|
0,002*
(0,001)
|
0,002*
(0,001)
|
0,001
(0,002)
|
-0,000
(0,001)
|
|
Số quan sát
|
346.336
|
346.336
|
346.336
|
346.336
|
346.336
|
R-bình phương
|
0,002
|
0,006
|
0,007
|
0,005
|
0,004
|
Panel C
|
|||||
Hệ số hồi quy
|
|||||
# Weibo post ngày
trước sự kiện
|
0,381***
(0,137)
|
0,639***
(0,143)
|
0,802***
(0,200)
|
0,614***
(0,133)
|
-0,143*
(0,082)
|
# bài báo ngày trước sự kiện
|
-0,000
(0,001)
|
0,001
(0,001)
|
0,000
(0,002)
|
0,000
(0,000)
|
|
Số quan sát
|
346.336
|
346.336
|
346.336
|
346.336
|
346.336
|
R-bình phương
|
0,001
|
0,006
|
0,005
|
0,003
|
0,004
|
Ghi chú: Panel
A: Đối với mỗi loại, Bảng này trình bày số trung bình củacác postđược đăng bởi những
người dùngtrong quận (prefecture) nơi một sự kiện đã xảy ra vào ngày của sự kiện
(dòng đầu) và vào ngày trước sự kiện (dòng thứ hai). Dòng thứ ba cho biết số
trung bình tương tự của các postvào những ngày không có sự kiện như vậy xảy ra.
Panels B và C: Đơn vị quan sát là quận và ngày. Biến phụ thuộc là một dummy cho
sự xuất hiện của một sự kiện. Các biến số độc lập chủ yếu là log của (1 + số
các post Sina Weibonhắc tới các từ liên quan tới sự kiện) và log của (1 + số
bài báo nhắc tới các từ liên quan tới sự kiện). Các hệ số và sai số chuẩn được
nhân với 1.000 để làm cho Bảngdễ đọc hơn. Các (biến) điều khiển gồm quận và các
tác động cố định năm. Các sai số chuẩn, được ghép cụm theo quận, trong dấu ngoặc.
Bảng 4
Đưa tin về các Chính
trị gia
(1)
|
(2)
|
(3)
|
(4)
|
|
Tên/Chức vụ
|
# post
|
# post trên chức vụ
|
% post thảo luận các vụ tham nhũng cụ thể
|
Số đo ý kiến
|
Tập Cận Bình
|
1.374.780
|
1.374.780
|
0,23
|
0,88
|
Ôn Gia Bảo
|
1.338.882
|
1.338.882
|
0,15
|
0,51
|
Lý Khắc Cường
|
401.451
|
401.451
|
0,14
|
0,81
|
Hồ Cẩm Đào
|
347.158
|
347.158
|
0,10
|
1,16
|
Thống đốc Tỉnh
|
728.386
|
23.469
|
1,88
|
-0,19
|
Bí thư Tỉnh uỷ
|
403.074
|
13.002
|
1,91
|
0,52
|
Thị trưởng
|
3.541.029
|
10.305
|
1,39
|
0,17
|
Bí thư Thị uỷ
|
718.856
|
2.159
|
2,81
|
0,28
|
Huyện trưởng
|
719.634
|
251
|
1,21
|
-0,70
|
Bí thư huyện uỷ
|
324.522
|
113
|
4,40
|
-0,88
|
Trưởng Thôn
|
1.053.346
|
25
|
0,65
|
-0,51
|
Bí thư Thôn
|
144.742
|
3
|
4,26
|
-1,40
|
Ghi chú: Cột(1)cho
thấy số các postđưa tin mỗi chức vụ hay tên lãnh đạo chóp bu. Bảngđược sắp xếp
theo Cột(2)—số các posttrên chức vụ. Cột(3) cho thấy số điểm phần trăm được ước
lượng của các postnhắc đến chức vụ của một lãnh đạo mà thảo luận các vụ tham
nhũng cụ thể. Cột(4) trình bày một số đo rộng về ý kiến (tình cảm) của nhân dân
đối với lãnh đạo hay loại lãnh đạo. Chi tiết xem văn bản.
Bảng 5a
Số
trung bình của các post theo sự Buộc tội Tham nhũng
2-7 tháng trễ
|
12-23 tháng trễ
|
||||
Tên
|
Tham nhũng
|
Tên
|
Tham nhũng
|
||
Quan tham
|
40,9
|
3,9
|
148,3
|
4,7
|
|
Quan không tham
|
44,4
|
0,4
|
121,1
|
1,8
|
Ghi chú: Để
khảo sát liệu các post mạng xã hộicó dự đoánsự buộc tội tham nhũng trong tương
lai không.Chúng tôi nghiên cứu một mẫu của 200 sự buộc tội tham nhũng. Để so
sánh, chúng tôi dựng một mẫu kiểm chứng đối sách của 480 chính trị gia đã không
bị buộc tội tham nhũng. Chúng tôi đếm số các postnhắc đến tên của mỗi trong số 680
chính trị gia này và số các post nhắc đến cả chính trị gia lẫn bất kỳ từ nào
trong loại tham nhũngcủa chúng tôi. Chúng tôi tính số các post 2–7 tháng (cũng
như 12–23 tháng) trước một sự buộc tội tham nhũng.
Bảng 5b
Biến phụ thuộc: vụ tham
nhũng dummy
BIẾN SỐ
|
I
|
II
|
III
|
IV
|
V
|
Hệ số hồi quy
|
|||||
# post nhắc đến tên và(2-7 tháng trước việc kiện
đầu tiên)
|
0,0042***
(0,0010)
|
0,0065***
(0,0015)
|
0.0038***
(0,0009)
|
||
# post nhắc đến tên và(12-23 tháng trước việc kiện
đầu tiên)
|
0,0035**
(0,0014)
|
0,0050**
(0,0024)
|
0,0029
(0,0019)
|
||
Số quan sát
|
680
|
680
|
680
|
680
|
680
|
R-bình phương
|
0,0014
|
0,053
|
0,009
|
0,044
|
0,052
|
Các tác động Cố định
|
No
|
Case Id
|
No
|
Case Id
|
Case Id
|
Ghi chú: Đơn
vị quan sát là quan chức. Hồi quy cũng gồm số các postnhắc đến tên của quan chức.
Biến này luôn luôn không có ý nghĩa. Các sai số chuẩn trong ngoặc, được tạo cụm
bởi case id(lãnh đạo bị buộc tội và các lãnh đạo kiểm chứng đối sánh).
Bảng 6
Sự Hiện diện của
Chính quyền trên Sina Weibo
Những người dùng
|
Các post
|
|||||
Phần trăm
|
# ước lượng
|
Độ lệch chuẩn
|
Phần trăm
|
Độ lệch chuẩn
|
||
Chính quyền
|
0,5
|
149.746
|
66.801
|
0,2
|
0,1
|
|
Báo chí
|
0,5
|
149.746
|
66.801
|
2,3
|
1,6
|
|
Tổ chức quần chúng
|
1,0
|
299.491
|
94.233
|
1,1
|
0,5
|
|
Gắn với chính quyền
|
2,0
|
598.982
|
132.590
|
3,6
|
1,6
|
|
Khác
|
98,0
|
29.350.118
|
132.590
|
Ghi chú: Dựa
trên 1.000 người dùngSina Weibo được chọn ngẫu nhiên từ toàn bộ cơ sở dữ liệu gồm
30 triệu người dùng của chúng tôi. Một người dùng được phân loại như người dùng
chính quyền nếu các post tiết lộ rõ rệt nét nhận diện của người dùng hoặc liên
quan phần lớn đếncác hoạt động của một chức năng chính quyền; những người dùngtổ
chức quần chúng được mã hóa tương tự. Một tài khoản được phân loại như một tài
khoản báo chí nếu các posttiết lộ rằng người dùnglà một cơ quan báo chí hay một
chi nhánh của cơ quan báo chí. “Gắn với chính quyền” là tổng của “chính quyền,”
“báo chí,” và “tổ chức quần chúng.”
Bảng 7
Biến phụ thuộc: Phần
của những người dùng chính quyền
I
|
|
GDP
|
-0,849***
(0,103)
|
Thành trì của ĐCSTQ
|
0,533**
(0,236)
|
Hiệp ước cảng
|
-0,079
(0,166)
|
Khoảng
cách đến Bắc Kinh
|
-0,464***
(0,165)
|
Dân số
|
0,366***
(0,129)
|
Vĩ độ
|
0,052***
(0,016)
|
Kinh độ
|
-0,037***
(0,014)
|
Số quan sát
|
259
|
R-bình phương
|
0,358
|
Ghi chú: Đơn
vị quan sát là quận (chuyên khu-prefecture). Kết quả nhận được bởi hồi quy bình
phương tối thiểu chéo bình thường. Các giá trị GDP và dân số là từ 2010,mà là
năm đầu tiên Sina Weibo được dùng. Các sai số chuẩn vững chãi (robust) ở trong
ngoặc. “ĐCSTQ” là Đảng Cộng sản Trung Quốc,” “Hiệp ước cảng” là một proxy cho ảnh
hưởng Tây phương.
*** p<0,01.
** p<0,05.
* p<0,1.
Phụ lục: các từ khoá
Tiết đoạn này lập
danh mục các chuỗi tìm kiếm mà chúng tôi đã dùng để nhận diện các posttrong mỗi
chủ đề xung đột, phản đối, đình công,tham nhũng và các chức vụ chính trị/chính
trị gia.
Bảng A1: Xung đột,
các cuộc phản đối và các cuộc đình công
Xung đột
|
Phản đối
|
Đình công
|
被袭击
|
堵路
|
罢弛
|
被袭击 and ( 政府 or 官员 or 干部)
|
非法集会
|
罢工
|
威胁政府
|
集会and(群众or 公众or 大规模)
|
罢课
|
催泪弹and(群众or 政府or
警察)
|
静坐
|
罢驶
|
官民and(矛盾or 冲突or
暴力or 对抗)
|
请愿
|
罢市
|
军民and(矛盾or冲突or
暴力or 对抗)
|
请愿
|
罢运
|
镇压
|
示威
|
|
讨薪
|
||
学潮
|
||
工潮
|
||
游行
|
||
学生 and 闹事
|
||
封堵and (政府or 群众or 工人or 公路)
|
||
自焚
|
||
千人下跪
|
||
not 反日
|
||
not 抗日
|
||
not 反日
|
Bảng A2: Tham nhũng
Tham nhũng
|
腐败 and (政府 or 部门 or 官员 or 干部 or 官员)
|
腐败分子
|
公款
|
贿赂
|
廉政
|
买官
|
卖官
|
挪用
|
社保 and (贪污 or 腐败 or 挪用)
|
受贿
|
索贿
|
贪污
|
行政腐败
|
徇私
|
滥用职权
|
利益集团
|
侵占 and (政府 or 官员 or 部门 or 干部)
|
情妇 and (政府 or 官员 or 部门 or 干部)
|
失职 and (政府 or 官员 or 部门 or 干部)
|
私分 and (政府 or 官员 or 部门 or 干部)
|
私生 and (政府 or 官员 or 部门 or 干部)
|
伪造 and (政府 or 官员 or 部门 or 干部)
|
舞弊 and (政府 or 官员 or 部门 or 干部)
|
虚报 and (政府 or 官员 or 部门 or 干部)
|
虚开 and (政府 or 官员 or 部门 or 干部)
|
诈骗犯 and (政府 or 部门 or 官员 or 干部)
|
诈骗罪 and (政府 or 部门 or 官员 or 干部)
|
Bảng A3: Các chính trị gia
Chức vụ chính trị/người
|
Các từ khoá
|
Tập Cận Bình
|
习近平
|
Tập Cận Bình
|
习大大
|
Tập Cận Bình
|
习总
|
Lý Khắc Cường
|
李克强
|
Hồ Cẩm Đào
|
胡锦涛
|
Ôn Gia Bảo
|
温家宝
|
Ôn Gia Bảo
|
温总理
|
Thống đốc Tỉnh
|
省长 or 区主席 or 省主席 or 区副主席 or 省副主席
|
Bí thư Tỉnh uỷ
|
(书记 and (省委 or 自治区)) or 省书记 or 省副书记
|
Thị trưởng
|
市长 or 州主席 or 州专员 or 地区专员
|
Bí thư Thị uỷ
|
(书记 and (市委 or 地委 or 自治州)) or 市书记 or 市副书记
|
Huyện trưởng
|
县长
|
Bí thư Huyện uỷ
|
书记 and 县委
|
Trưởng Thôn
|
村长
|
Bí thư
đảng uỷ Thôn
|
村支书
|
*Bài báo
này (Why Does China Allow Freer Social Media? Protests vs. Surveillance and
Propaganda) đã được lưu truyền trước như “The Political Economy of Social Media
in China.” Một phiên bản ngắn hơn được đăng tại Journal of Economic Perspectives, số
mùa đông 2017, tr. 117-140.[Nguyễn Quang A dịch].
Bei Qin là Assistant
Professor tại School of Economics and Finance. Faculty of Business and
Economics. University of Hong Kong. Hong Kong. David Strömberg là Professor tại
Institute for International Economic Studies. Stockholm University. Stockholm.
Sweden. Yanhui Wu là Assistant Professor
về Finance and Business Economics. Marshall School of Business. University of
Southern California. Los Angeles. California. USA. Địa chỉ email của họ là beiqin@hku.hk.
david.stromberg@iies.su.se. and yanhuiwu@marshall.usc.edu.
[1]Dữ
liệu của chúng tôi cho nghiên cứu này kết thúc trong 2013. Trong năm đó, số người
sử dụng Weibo đã sụt gần 28 triệuvà tỷ lệ sử dụng đã sụt 9,2 điểm phần
trăm,theo China Internet Network Information Center (2014).
[2]Sử dụng
API public của Sina Weibo, chúng tôi đã tải xuống tất cả các post chứa các từ
trung tính "ya" hoặc "hei" trong các khoảng thời gian bốn
năm phút mỗi ngày và sau đó chia cho phần trung bình của các postchứa các từ
này và phần trung bình của các post chứa trong các khoảng năm-phút trong một
ngày. Chúng tôi đã không có khả năng để làm việc này cho các năm muộn hơn bởi
vì public timeline API đã từ chối sự tiếp cận.
[3]Để phân tích các tần suất từ trong văn bản tiếng Hoa.
chúng tôi sử dụng Bộ Phân đoạn Từ Stanford (Stanford Word Segmenter) để phân đoạn
các từ trong mỗi postmicroblog. Chúng tôi bỏ các từ dừng (stopword),các dấu chấm
câu,các URL,các tên người dùng và các ký tự phi-Trung Hoa trừ các từ viết tắt
tiếng Anh có ý nghĩa khỏi văn bản. Chúng tôi loại bỏ các từ với hơn 30 ký tự và
các từ xuất hiện ít hơn 5 lần. Chúng tôi nhận được 3,2 triệutừ riêng biệt và 6,0
tỷ biểu hiện (token, tức là số lần xuất hiện từ).
[4]Các tần suất từ trong mỗi post
được tính sau tiền xử lý được mô tả tại tiết đoạn sớm hơn trong chú thích 3. Như
các đầu vào cho SVM.chúng tôi sử dụng tần suất thuật ngữ - nghịch đảo các tuần
suất tài liệu (term-frequency - inverse document frequencies). Chúng tôi sử dụng
phần mềm SVM-light Joachims (1999). Dùng một mẫu ngẫu nhiên mới gồm 500 người
dung,chúng tôi ước lượng mô hình probit của xác suất là một tài khoản chính quyền
tuỳ thuộc vào điều kiện tham số SVM. Xem phụ lục online để biết chi tiết.
[Ghi chú
thêm của người dịch: tần suất thuật ngữ t, TF(t) = (số lần thuật ngữ t xuất hiện
trong tài liệu)/ (tổng số các thuật ngữ trong tài liệu); nghịch đảo tần suất
tài liệu IDF (t) = loge(Tổng số tài liệu/ Số tài liệu chứa t); TF
coi các thuật ngữ quan trọng như nhau; IDF đo thuật ngữ quan trọng thế nào.]
*Trong hồi quy probit biến phụ thuộc
chỉ có thể lấy 2 giá trị. thí dụ 1 và 0.