10 novembre 2017

Vì sao Trung Quốc Cho phép Mạng Xã hội Tự do hơn? Phản kháng vs. Giám sát và Tuyên truyền


Bei Qin, David Strömberg,và Yanhui Wu*


TÓM TẮT

Bài báo này khảo sát vai trò của truyền thông xã hội (social media, sau đây gọi là mạng xã hội) Trung Quốc trong ba lĩnh vực: tổ chức hoạt động tập thể, giám sát các quan chức chính phủ,và tuyên truyền. Nghiên cứu của chúng tôi dựa trên một bộ dữ liệu gồm 13,2 tỷ blog post được đăng trên Sina Weibo –nền tảng microblog nổi tiếng nhất Trung Quốc –trong giai đoạn 2009-2013. Chúng tôi thấy hàng triệu post thảo luận rõ ràng các cáo buộc tham nhũng và các sự kiện hoạt động tập thể, như các cuộc phản đối, đình công, và biểu tình. Việc sử dụng mạnhmạng Sina Weibo kết hợp đầy ý nghĩa với tỷ lệ cao hơn của các cuộc phản đối và các xung đột quy mô lớn. Chúng tôi cũng thấy rằng mạng xã hội là các công cụ hữu hiệu để giám sát: nội dung Sina Weibodự đoán các sự kiện tập thể một ngày trước khi chúng xảy ra và các lời buộc tội tham nhũng trước một năm. Cuối cùng, chúng tôi ước lượng rằng dữ liệu của chúng tôi chứa 600.000 tài khoản liên kết với chính quyền mà đóng góp 4% tất cả các post về các vấn đề chính trị và kinh tế trên Sina Weibo. Phần của các tài khoản chính quyền là lớn hơn trong các khu vực với một mức kiểm duyệt cao hơn và nơicác báo có một thiên vị phò chính phủ mạnh. Tổng thể, các phát hiện của chúng tôi gợi ý rằng chính phủ Trung Quốc điều tiết mạng xã hội để cân bằng các đe doạ đối với sự ổn định chế độ đối lại các lợi ích về sử dụng thông tin từ dưới lên.



1 Dẫn nhập
Vào khoảng nửa đêm 29-3-2014,một số người Trung Quốc chơi internet khuya đã để ý rằng hệ số nguy hiểm của P-Xylene (PX) đã thay đổi từ ‘thấp’ lên ‘cao’ trên Baidu Encyclopedia –tương đương như Wikipedia ở Trung Quốc. Sáng hôm sau,hàng trăm người phản đối đã tụ tập ở Maoming –một thành phố ở khu trung tâm công nghiệp của Trung Quốc –nơi một nhà máy PX quy mô lớn được dựtính. Vào 8:38 sáng,một thông báo với các bức ảnh của cuộc phản đối được post trên Sina Weibo – tương đương với Twitter ở Trung Quốc. Hàng chục ngàn người đã gia nhập cuộc phản đối, đòi các câu trả lời từ các quan chức địa phương, đốt cháy một ô tô, ném chai lọ cho đến khi cảnh sát giải tán những người phản đối bằng hơi cay và dùi cui. Ngày tiếp theo, các bức ảnh về những người phản đối đầy máu me đã lan truyền trên mạng. Hàng ngàn post tranh luận về dự án PX và lên án hành động của chính quyền đã xuất hiện trên các mạng xã hội khác nhau.
Trong thời đại công nghệ thông tin tiên tiến, mạng xã hội trong một số trường hợp có thể cung cấp một cú sốc thông tin khổng lồ cho một nước như Trung Quốc, mà trong đó thông tin và truyền thông công cộng bị giới hạn bởi sự kiểm soát chính phủ. Một cú sốc thông tin như vậy do mạng xã hội gây ra tác động thế nào đến sự tham gia của các công dân Trung Quốc vào các sự kiện chính trị? Và chính phủ Trung Quốc phản ứng ra sao với cú sốc thông tin này? Một bước đầu tiên trong giải quyết các câu hỏi này là lập tư liệu thông tin được công bố và truyền đưa trên mạng xã hội Trung Quốc.
Trong bài báo này, chúng tôi lập tư liệu các sự thực cơ bản liên quan đến các cuộc thảo luận công khai về các vấn đề chính trị gây tranh cãi trên mạng xã hội Trung Quốc. Việc lập tư liệu của chúng tôi dựa trên một bộ dữ liệu gồm 13,2 tỷ blog post được công bố trên Sina Weibonền tảng microblog nổi tiếng nhất Trung Quốc trong giai đoạn 2009-2013. Chúng tôi cũng thảo luận các ngụ ý của các phát hiện của chúng tôi.
Phát hiện đầu tiên của chúng tôi là. một số lượng lớn gây sốc của các post về các đề tài hết sức nhạy cảm đã được đăng và lưu truyền trên mạng xã hội. Thí dụ, chúng tôi thấy hàng triệu post thảo luận các cuộc phản đối như sự kiện chống-PX trong 2014.Và các post này mang thông tin dự đoán sự xuất hiện của các sự kiện cụ thể. Chúng tôi thấy một số còn lớn hơn các post với các cáo buộc tham nhũng rõ rang, và rằng các post này dự đoán các sự buộc tội tham nhũng tương lai của các cá nhân cụ thể.
Loại này của nội dung mạng xã hội có thể làm tăng sự tiếp cận của các công dân đến thông tin và kiềm chế khả năng của các chính phủ độc đoán để hành động mà không có sự giám sát. Ở Trung Quốc,mạng xã hội rõ ràng có tiềm năng để đóng một vai trò như vậy bởi vì tính phổ biến rộng lớn của chúng. Gần nửa dân cư có tiếp cận đến internet,và hai trong mỗi mười người Trung Quốc sử dụng Weibo một cách tích cực. Mỗi ngày, hàng triệu blog post được tạo ra, được trao đổi, và được bình luận. Nhiều trong số các post này đi đến hàng ngàn hoặc thậm chí hàng triệu bạn đọc.Là rất tốn kém cho chính phủ Trung Quốc để theo dõi hàng triệungười dùng, đặc biệt khi họ thi thoảng post trong các đợt sóng cồn lớn vào giữa đêm.
Tuy vậy,mạng xã hộicũng tạo cho các chính phủ độc đoán các cơ hội mới cho việc kiểm soát chính trị như được lưu ý bởi Egorov, Guriev, and Sonin (2009). Shirky (2011), Morozov (2012), và Lorentzen (2014). Thông điệp mạng xã hộiđược truyền đi dưới dạng điện tử qua một hạ tầng cơ sở thường được chính phủ kiểm soát. Các tiến bộ gần đây về phân tích văn bản tự động, các kỹ thuật học máy, và máy tính công suất cao đã làm giảm đáng kể chi phínhận diện các người dùng hay chỉ trích và kiểm duyệt các thông điệp(Edmond 2013). Các chính phủ có thể sử dụng các phương pháp này để theo dõi và phân tích các hoạt động online, để đánh giá dư luận, và để kiềm chế các đe doạ trước khi chúng lan đi.
Trong một chế độ chuyên quyền,một hệ thống giám sát dựa trên mạng xã hộicó thể hữu hiệu thế nào? Chúng tôi đánh giá khả năng này bằng thăm dò một công cụ giám sát không phức tạp, và chúng tôi thấy rằng mạng xã hội có thể rất hiệu quả cho việc giám sátsựphản kháng. Hầu hết các cuộc phản kháng thế giới-thực và các cuộc đình công mà chúng tôi nghiên cứu có thể được dự đoán một ngày trước dựa trên nội dung mạng xã hội. Phương pháp dò là đơn giản, và chi phí thì thấp.
Thực vậy,các cơ quan chính quyền Trung Quốc khắp nước đã đầu tư mạnh vào các hệ thống giám sát mà khai thác thông tin trên mạng xã hội. Kết quả được minh hoạ bởi một sự kiện chống-PX nữa,mà đã diễn ra theo cách khác, một năm trước. Một số công dân ở Thành Đô đã post các thông điệp trên Sina Weibo kêu gọi các cuộc biểu tình chống lại việc khởi đầu một dự án PX địa phương vào thứ Bảy, 4-5-2013. Lời kêu gọi này đã được chính quyền Thành Đô tóm được và đã lập tức đưa ra các biện pháp kể cả biến Thứ Bảy và Chủ Nhật của tuần đó thành các ngày làm việc và yêu cầu các học sinh phải ở trường trong những ngày đó. Bởi thế,cuộc biểu tình ở Thành Đôđã bị giới hạn ở mức vài trăm người tham gia, trong khi một cuộc phản đối chống-PX tương tự ở Côn Minh cùng ngày đã thu hút hơn 10.000 người tham dự. Trong trường hợp này, giám sát nội dung mạng xã hộiđã giúp chính quyền kiềm chế một cuộc phản đối.
Một chức năng giám sát quan trọng khác của mạng xã hộilà để giám sát các chính quyền và các quan chức địa phương. Ở Trung Quốc, nhiều quyết định chính trị và kinh tế được phân cấp cho các chính quyền địa phương. Các quyết định này cần được giám sát, nhưng tin tức và các báo cáo địa phương chắc là bị méo mó bởi vì các chính trị gia địa phương kiểm soát báo chí và bộ máy hành chính địa phương. Ngược lại, các chính trị gia quốc gia điều tiết mạng xã hội. Trong mạng xã hội,đầy rẫy những lời phàn nàn không thương xót về các quan chức địa phương. Các postphơi bày các quan chức đeo đồng hồ Rolex, sống trong các lâu đài,hay có bồ nhí đã dẫn đến các cuộc điều tra và sa thải. Không ngạc nhiên, chúng tôi quan sát hàng triệu post với các cáo buộc tham nhũng rõ ràng trong dữ liệu của chúng tôi.
Chúng tôi thấy rằng các post mạng xã hộiliên quan đến các chủ đề tham nhũng là có kết quả cho sự giám sát tham nhũng. Các post này giúp nhận diện khi nào và ở đâu tham nhũng là thịnh hành hơn. Ngoài ra, chúng tôi có thể dự đoán các chính trị gia cụ thể nào muộn hơn sẽ bị kết án tham nhũng, cho đến một năm trước sự tố tụng pháp lý đầu tiên. Kết quả này cho thấy rằng thông tin mạng xã hộicó thể là một công cụ hữu ích để nhận diện tham nhũng, mà có lẽ cũng đúng ở các nước khác nữa.
Không phải là không có rủi ro để post thông tin về các cuộc phản đối và thông tin tiêu cực về các lãnh đạo địa phương, và một số người dùng đã bị trừng phạt vì làm vậy (Freedom House 2012; Reporters Without Borders 2013). Tuy nhiên, trong chừng mực chúng tôi biết, không có nghiên cứu trước có tính hệ thống nào về mức độ và tính hiệu quả của dạng này của sự kiểm soát bằng cảnh sát. Chúng tôi khảo sát quy mô của các thực hành này bằng việc lần vết những người sử dụng đã post về các vấn đề nhạy cảm và xem liệu các tài khoản của họ sau đó có bị đóng hay không.
Chính quyền cũng có thể sử dụng mạng xã hội như một kênh tuyên truyền. Trong các thí dụ chống-PX ở trên, các chính quyền đã tiến hành các chiến dịch tuyên truyền mạnh mẽ qua các tài khoản của họ trên mạng xã hội. Trong một trường hợp,các tài khoản của chính quyền đã liên tụcblog rằng “PX không gây ra ung thư nhiều hơn cà phê.” Mức độ của loại này của các post của chính quyền là khó để biết bởi vì chúng phát ra từ quá nhiều tài khoản ngang các vùng và các mức chính quyền. Trong 2012, Sina Weibo đã báo cáo rằng khoảng 50.000 được vận hành bởi các cơ quan chính quyền hay các cá nhân quan chức, nhưng không có ước tính bên ngoài nào về loại hiện diện này của chính quyền trên mạng xã hội.
Chúng tôi tìm cách để nhận diện các tài khoản chính quyền từ các tên người dùng và phân tích văn bản của các posttrong dữ liệu của chúng tôi. Dựa vào cách tiếp cận này, chúng tôi ước lượng có 600.000 tài khoản có liên kết đến chính quyền,mà đóng góp bốn phần trăm của tất cả các postvề các vấn đề chính trị và kinh tế trên Sina Weibo,sử dụng một số đo bao gồm các người dùng (thuộc) tổ chức chính quyền, tổ chức quần chúng và báo chí. Ngay cả khi hạn chế ở định nghĩa thu hẹp nhất của người dùng chính quyền,con số được Sina Weibo báo cáo ước lượng quá thấp sự hiện diện của chính quyền trên Sina Weibo.
Các phát hiện của chúng tôi thách thức một quan điểm phổ biến rằng một chế độ độc đoán sẽ kiểm duyệt không thương xót hặc thậm chí cấm mạng xã hội. Thay vào đó, sự tương tác của một chính quyền độc đoán với mạng xã hộicó vẻ phức tạp hơn. Từ quan điểm của chính quyền,mạng xã hộikhông chỉ là (1) ít hấp dẫn như một phương tiện truyền thông cho sự phản kháng xã hội được tổ chức mà cũng là (2) một phương pháp có ích để giám sát các quan chức địa phương và (3) đo ý kiến công chúng, cũng như (4) một phương pháp để phổ biến tuyên truyền. Từ quan điểm của các công dân,bất kể lợi ích được cảm thấy nào của mạng xã hộicần được đánh giá trong một khung cảnh của (5) sự kiểm soát thâm nhập khắp có thể của cảnh sát,sự trừng phạt, và (6) sự kiểm duyệt phương tiện truyền thông như vậy. Như đã nhắc tới ở trước,sự tương tác phức tạp này đã được các nhà nghiên cứu thảo luận. Tuy nhiên, nghiên cứu theo lối kinh nghiệm chặt chẽ về chủ đề này là ít. Một ngoại lệ là Enikolopov, Makarin, and Petrova (2016),những người thấy rằng mạng xã hộiđã có tác động đến các cuộc phản kháng ở Nga trong 2011. Sự ngoại lệ khác là kiểm duyệt, mà đã được nghiên cứu rộng rãi (chẳng hạn,Bamman O’Connor, and Smith 2012; Fu, Chan, and Chau 2013; King, Pan, and Roberts 2013, 2014; Zhu, Phipps, Pridgen, Crandall, and Wallach 2013). Ngược lại, chúng tôi sẽ không thảo luận sự kiểm duyệt,nhưng trình bày bằng chứng then chốt cho tất cả năm điểm khác được liệt kê ở trên.
Chúng tôi bắt đầu với một tổng quan về sự phát triển của mạng xã hộiở Trung Quốc, tiếp theo bằng một mô tả dữ liệu. Chúng tôi tiếp tục phân tích các cuộc phản đối, sự tham nhũng, và sự hiện diện của chính quyền trên Sina Weibo. Cuối cùng chúng tôi thảo luận các ngụ ý của mạng xã hội,dựa vào các kết quả của chúng tôi.
2 Bối cảnh
Vào 2013, đã có 618 triệu người Trung Quốc dùng internet,chiếm khoảng 46 phần trăm dân số Trung Quốc. Tỷ lệ này là cao hơn trung bình toàn cầu 39 phần trăm (China Internet Network Information Center 2014; International Telecommunication Union 2013). Trong số người sử dụng internet này, 281 triệu (45 phần trăm) đã tham gia tích cực vào việc viết microblog, mà ám chỉ đến các phương tiện mạng xã hộichú tâm đến các thông điệp ngắn,các ảnh cá nhân, hay có lẽ các đường dẫn video (ngược với mạng xã hộinhư Facebook mà có tiềm năng cho dạng dài hơn hay truyền thông chi tiết hơn).
Tính phổ biến của các microblog là một hiện tượng gần đây. Trong 2006,người dân Trung Quốc đã biết về Twitter; năm tiếp theo,các bản sao Trung Quốc chính – Fanfou, Digu, and Jiwai –đã được khai trương. Tuy vậy, số các microblogger đầu tiên đã tăng chậm. Sau các cuộc nổi loạn Urumqi tháng Bảy 2009,chính phủ Trung Quốc không chỉ đã chặn Twitter và Facebook mà cũng đã đóng cửa hầu hết các dịch vụ microblog nội địa. Thị trường microblog về cơ bản đã bỏ trống cho đến khi Sina Weibo xuất hiện trong tháng Tám 2009,và NetEase, Sohu và Tencent đã tiếp theo trong 2010. Số người sử dụng microblog đã dấy lên từ 63 triệu vào cuối 2010 lên 195 triệu vào giữa 2011 (China Internet Network Information Center 2011).
Sina Weibo là một hỗn hợp của Twitter và Facebook: đến 140 ký tự Trung Quốc cho mỗi tweet,cho phép các ảnh hay video được chèn vào,và những người sử dụng có thể gửi các thông điệp riêng,lời bình, và post lại. Với sự tiếp cận và sử dụng dễ dàng của nó, Sina Weibo mau chóng trở thành nền tảng thông dụng nhất để viết microblog ở Trung Quốc. Vào 2010,nó đã có 50 triệu người dùng có đăng ký,và con số này đã tăng gấp đôi trong 2011,đạt đỉnh điểm hơn 500 triệuvào cuối 2012. Kể từ 2013, Sina Weibo đã mất một số vị trí cho WeChat,một dịch vụ mạng xã hội dựa trên cơ sở điện thoại di động, nhưng vẫn là một nền tảng có ảnh hưởng.[1]
Trong các năm gần đây, các microblog đã cung cấp một số thảo luận và tranh luận sâu rộng nhất ở Trung Quốc. Theo các Báo cáo về Dư luận (Reports on Public Opinion) 2010-2013,chẳng hạn,trong 2012,hai nền tảng mạng xã hộikiểu-Facebook ở Trung Quốc – Renren và Kaixin –đã phủ 20 sự kiện công cộng cao nhất được liệt kê bởi Cơ quan Giám sát Công Luận (Public Opinion Monitoring Agency được vận hành bởi Nhân dân Nhật báo của chính quyền) trong 20 triệupost. Tuy nhiên, Sina Weibo– trang microblog hàng đầu lúc đó – đã phủ cùng các sự kiện đó trong hơn 230 triệupost.
Chính phủ trung ương Trung Quốc đã có sức mạnh và các công cụ để hạn chế nội dung nhạy cảm trên mạng xã hội,nếu nó muốn. Nội dung mạng xã hộinhạy cảm mà chúng tôi thấy không chắc là kết quả của sự bất lực để dọn dẹp mạng xã hội. Thay vào đó, chính phủ phải nhận thấy các lợi ích từ việc để nội dung này có thể thấy được. Hai công cụ chủ yếu được sử dụng để hạn chế nội dung.
Công cụ đầu tiên là việc kiểm soát bằng cảnh sát– để trừng trị các người sử dụng đưa lên nội dung nhạy cảm nhằm gây ra sự tự-kiểm duyệt và để tránh đăng nội dung. Việc kiểm soát bằng cảnh sát được tiến hành bởi hàng chục ngàn nhân viên thông tin và những người giám sát internet những người hoạt động tích cực ở mọi mức của chính quyền (Chen and Ang 2011). Các chính trị gia địa phương có thể dùng cảnh sát internet của riêng họ để cấm thông tin tiêu cực về các vùng dưới chính quyền của họ,cho dù nếu việc viết blog về thông tin này được khoan thứ hoặc được cổ võ bởi chính phủ trung ương. Những người dùng mà post nội dung không mong muốn có thể nhận được các lời cảnh cáo, tài khoản của họ bị đóng, hoặc thậm chí bị bỏ tù. Reporters Without Borders (2013) đã lập tư liệu tổng cộng 69 công dân mạng ở trong các nhà tù Trung Quốc vào tháng Hai 2013,mặc dù con số của các trường hợp không được báo cáo có thể lớn hơn nhiều. Không có nghiên cứu trước có hệ thốngnào về mức độ của việc kiểm soát bằng cảnh sát,trong chừng mực chúng tôi biết. Chúng tôi sẽ khảo sát quy mô của các thực hành này bằng theo dõi những người sử dụng postđều dặn về các vấn đề nhạy cảm để xem liệu tài khoản của họ sau đó có bị đóng hay không.
Tất nhiên, sự trừng trị cá nhân có thể xảy ra chỉ nếu một người sử dụng được nhận diện. Ban đầu chính phủ Trung Quốc đã cho phép những người dùng Sina Weibo để post một cách nặc danh. Trong tháng Ba 2012,nhà chức trách kiểm soát báo chí đã yêu cầu những người dùng tiết lộ danh tính cho các nhà cung cấp mạng xã hội. Tuy vậy, ba năm sau, các nhà cung cấp dịch vụ còn phải thực hiện quy định này một cách hoàn toàn.
Công cụ kiểm soát khác là sự kiểm duyệt. Sự kiểm duyệt được điều tiết ở cấp quốc gia bởi Ban Tuyên truyền của Đảng Cộng sản Trung Quốc, cũng như bởi một số văn phòng kiểm soát báo chí quốc gia. Tuy vậy, trong thực tiễn, sự kiểm duyệt được thực hiện chủ yếu bởi các nhà cung cấp dịch vụ tư nhân mà được đăng ký ở Bắc Kinh. Mức độ kiểm duyệt được ước lượng của Sina Weibo trải từ 0,01 phần trămcác post bởi một mẫu của những người dùng được ưu tiên,gồm các nhà bất đồng chính kiến, các nhà văn, các học giả, các nhà báo,những người dùngVIP (Fu et al. 2013),đến 13 phần trămcác postvề các chủ đề nhạy cảm được chọn lựa (King et al. 2013). King et al. thấy rằng chính phủ Trung Quốc cho phép sự phê phán các quan chức và công chức nhưng kiểm duyệt thông tin về hoạt động tập thể ngặt ngèo hơn (27 phần trămcủa các post bị kiểm duyệt). Tổng quát hơn, Bamman (2012) và Fu et al. (2013) thấy rằng sự kiểm duyệt internet ở Trung Quốc tập trung vào các vấn đề chính trị và nhóm thiểu số. Zhu et al. (2013) thấy rằng việc thực hiện kiểm duyệt là nhanh: 30 phần trămsự xoá xảy ra trong vòng nửa giờ đầu tiên và 90 phần trămtrong vòng 24 giờ. Nhưng không giống các nghiên cứu này, bài báo của chúng tôi xem xét nội dung sẵn có trên các microblog hơn là những gì bị loại bỏ.
Chính quyền có thể tác động đến các cuộc thảo luận và ý kiến trên mạng xã hộibằng cách tích cực post nội dung của riêng họ. Các chính quyền Trung Quốc ở mọi mức đã mở các tài khoản microblog trong một cố gắng để lái dư luận. Trong 2012, Sina Weibo đã báo cáo gần 50.000 tài khoản được vận hành bởi các cơ quan chính quyền hay cá nhân các quan chức. Các chính quyền ở các mức khác nhau cũng thuê các trollinternet,được đặt tên giễu là "đảng 50-xu " bởi vì một số được trả công với giá sản phẩm 50 xu một post. Một số dư luận viên, theo chỉ thị của các chính trị gia địa phương,có thể post các nhận xét tích cực giả về các chính trị gia hay các vùng thuộc sự quản lý của họ.
3 Dữ liệu
Dữ liệu gốc của chúng tôi,các postSina Weibo,được thu thập bởi Weibook Corp., trong giai đoạn 2009-2013. Công ty này đã thực hiện một chiến lược thu thập dữ liệu khổng lồ để tải các post của những người dùng tích cực xuống. Đầu tiên, họ đã nhận diện những người dùngnhư 200-300 triệu người thực tích cực trên cơ sở thông tin cá nhân và sự tương tác với những người dùng khác. Thứ hai, gọ đã phân lớpnhững người dùngthành sáu lớp dựa trên số người đi theo (follower). Họ đã tải các microblog của những người dùng lớp trên cùng ít nhất hàng ngày, các lớp thứ hai và thứ ba mỗi 2-3 ngày, và lớp thấp nhất được tải xuống trên cơ sở tuần. Như thế, dữ liệu bao gồm chí ít một số postmà muộn hơn bị kiểm duyệt. Đối với mỗi post,họ đã cung cấp nội dung, thời gian post, và thông tin người dùng (kể cả chỗ được tự báo cáo).
Tổng cộng, bộ dữ liệu mà chúng tôi nghiên cứu chứa 13,2 tỷ postđược đăng từ 2009 đến 2013. Theo ước lượng của chúng tôi, dữ liệu Weibook chứa khoảng 95 phần trămcủa toàn bộ các postđược đăng trên Sina Weibo.[2]Như được minh hoạ trên Hình 1.đường xanh cho biết số posttrên tháng được bao gồm trong dữ liệu Weibook, and đường đỏ là ước lượng của chúng tôi về tổng số postđược đăng trên Sina Weibo.
Từ cơ sở dữ liệu Weibook này,chúng tôi chiết xuất các microblog nhắc tới bất kể từ khoá nào trong khoảng 5.000 từ khoá mà liên quan đến các chủ đề xã hội và chính trị. Các từ khoá phân làm hai nhóm. Nhóm thứ nhất nói đến các loại vấn đề,kể cả các vị trí chính trị từ mức trung ương đến mức làng xã, tên của các lãnh đạo chính trị cấp cao, các vấn đề xã hội và kinh tế (như tham nhũng, ô nhiễm, các vấn đề thực phẩm và thuốc, các tai hoạ và tai nạn, và các tội),và các sự kiện hoạt động tập thể (như đình công, phản kháng, kiến nghị, và các xung đột đông người). Một số từ xuất hiện với tần suất rất cao.Chúng tôi thu thập một mẫu ngẫu nhiên gồm chỉ 10-phần trămcủa các post nhắc đến các từ này. Nhóm thứ hai của các từ khoá nhắc tới các sự kiện cụ thể mà chúng tôi đã ghi được, kể cả các thứ trong các chỉ thị kiểm duyệt được đưa ra bởi các nhà chức trách kiểm soát báo chí và một số lớn các sự kiện to lớn từ 2009 đến 2013. Tổng cộng, chúng tôi đã chiết ra dữ liệu chứa 202 triệuposttừ 30,6 triệunhững người dùng khác nhau.[3]
4 Các Xung đột, Phản đối và Đình công
Chúng tôi phân tích 545 sự kiện hoạt động tập thể đã xảy ra ở Trung Hoa Đại lục giữa 2009 và 2012. Danh mục các sự kiện được lấy từ việc đưa tin của Radio Free Asia (Châu Á Tự do),một đài phát thanh phi lợi nhuận có cơ sở ở Washington, D.C. Chúng tôi phân lớp các sự kiện hoạt động tập thểnày thành bốn loại, được xếp hạng theo tính nhạy cảm. Loại đầu tiên chứa các sự kiện nhạy cảm nhất, mà gồm các sự đối đầu trực tiếp giữa chính quyền và công chúng,kể cả các sự kiện dính đến nổi loạn và bạo lực. Loại thứ hai chứa các cuộc phản đối, kể cả các cuộc biểu tình đường phố và các cuộc phản đối quần chúng, mà một cách tiêu biểu được trông chờ và có tổ chức hơn, ít bạo lực hơn, và thậm chí thường được chính quyền chấp thuận. Trong vài trường hợp, cuộc phản kháng biến thành náo loạn, như trong Sự kiện Wansheng ở Trùng Khánh trong 2012; chúng tôi mã hoá các sự kiện như vậy như “xung đột.” Loại thứ ba chứa các cuộc đình công, kể cả các cuộc đình công ở nhà máy và bãi khoá ở trường học và giữa các lái xe taxi. Loại cuối cùng gồm các cuộc biểu tình chống-Nhật.
Chúng tôi chọn các từ khoá nhận diện các postvề mỗi loại sự kiện và chiết xuất tất cả các postcó nhắc đến các từ khoá này từ toàn bộbộ dữ liệu Weibook.Phương pháp cho chiết xuất các từ khoá được mô tả trong phụ lục.
4.1 Nội dung và Những người dùng
Ban đầu chúng tôi đã nghĩ rằng sự đưa tin các sự kiện này trên mạng xã hộilà rất hạn chế. Như vừa mới nhắc tới,đã được lập tư liệu kỹ về những người Trung Quốc dùnginternetđã bị trừng phạt sau khi đăng về các cuộc phản đối và các sự kiện hoạt động tập thểkhác (thí dụ, Freedom House 2012) và rằng các loại postnày bị kiểm duyệt (King, Pan, and Roberts 2013). Nhưng chúng tôi ngạc nhiên thấy một số lớn các postđưa tin thậm chí các sự kiện hoạt động tập thểnhạy cảm nhất dựa trên sự phân lớp của chúng tôi.Trong dữ liệu của mình, chúng tôi nhận diện 382.000 posttrong loại “xung đột” và hơn 2,5 triệu posttrong loại “phản đối”. Vì khám phá này thu hút sự hoài nghi nào đó khi chúng tôi trình bày bài báo, chúng tôi sử dụng các cách tiếp cận khác nhau để xem xét nó thêm nữa.
Như một điểm xuất phát, chúng tôi đặc trưng “các chủ đề nóng’ trong các postvề hoạt động tập thể. Các chủ đề này được nhận diện bởi các từ được dùng thường xuyên trong các posthoạt động tập thểhơn trong toàn bộ mẫu của các post. Chính xác hơn, chúng tôi so sánh tần suất của mỗi từ trong một loại cho trước với tần suất tổng thể của từ đó trong bộ dữ liệu của chúng tôi, như trong Kleinberg (2006). Bảng 1 trình bày các chủ đề nóng theo thứ tự của ý nghĩa thống kê. Thí dụ, trong loại xung đột, “đàn áp” có tần suất sử dụng cao không bình thường nhất. Lưu ý rằng sự xếp hạng chủ đề không dựa trên tần suất tuyệt đối của các từ, mà dựa trên sự sử dụng của từ so với sự sử dụng chung của nó. Thí dụ, “bom hơi cay” được xếp hạng trên “chính quyền” bởi vì từ sau được dùng thông thường nói chung. Các từ chủ đề khác trong loại này gồm “cảnh sát” “bạo lực,” “nổi loạn,” và “nổ súng.”
Để mô tả đặc trưng các dữ liệu này thêm nữa,chúng tôi khảo sát một mẫu ngẫu nhiên của 1.000 postcho mỗi trong ba loạihoạt động tập thểđầu tiên trong Bảng 1 và cho các cuộc biểu tình chống-Nhật. Chúng tôi mã hoá một cách thủ công liệu và bằng cách nào các postphủ một loại cá biệt sự kiện, với kết quả cho thấy trong Bảng 2. Từ các mẫu 1.000 post của chúng tôi, phần của các postmà thực sự phủ các sự kiện trải từ 50,4 phần trăm cho loại chống-Nhậtđến 31,2 phần trăm cho loại đình công. Các sự kiện nhạy cảm hơn như xung đột và phản đối nhận được sự đưa tin dưới dạng của những bình luận chung và hồi tưởng lại. Ở đây là vài thí dụ để chuyển một cảm giác về việc mã hoá của chúng tôi.
·         “Tôi đã thấy hàng trăm cảnh sát vũ trang đầy vũ khí. Lửa đã ở khắp nơi, sau khi một số bình gas bị ném.” [Xung đột, đang xảy ra]
·        “Một đám đông lớn đang tụ họp trước toà nhà chính quyền giữ các biểu ngữ ‘Không được Ép buộc Phá dỡ Nhà’.” [Phản đối, đang xảy ra]
·        “Tiền từ bán đất đều chảy vào túi các quan. Họ chẳng khác gì bọn côn đồ. Chúng ta chẳng có lựa chọn nào ngoài nổi loạn.” [Phản đối, nói chung]
·        “Thật ư? Các lái xe Taxi lại đình công!” [Đình công, đang xảy ra.]
·        “Lương thấp, lao động rẻ. Chúng ta tạo ra hàng tấn thứ Made-in-China,nhưng đổi lại nhận được ít.Công nhân di cư, hãy đình công!” [Đình công, nói chung]
·        “Chúng ta sẽ diễu hành đến Sứ quán Nhật hôm nay. Tập trung tại Quảng trường Nhân dân lúc 10 giờ sáng. Có ai muốn tham gia?” [Chống-Nhật, sắp xảy ra]
Nội dung Weibo này dự đoáncác sự kiện hoạt động tập thể thế giới thực, Panel A của Bảng 3 báo cáo số trung bình của các postcho mỗi loại sự kiệnđược đăng bởi những người dùng trong quận (prefecture, chuyên khu) nơi một sự kiện đã xảy ra vào ngày của sự kiện và vào ngày trước. Giả sử, thí dụ, rằng một cuộc đình công đã xảy ra trong một quận và ngày cho trước. Rồi chúng ta đếm số các post chứa bất kể từ khoá nào của chúng ta liên quan đến đình công bởi những người dùngtừ quận này vào cùng ngày như cuộc đình công và vào ngày trước đình công. Chúng ta làm việc này cho tất cả các cuộc đình công và báo cáo số trung bình trong bảng. Số trung bình của các postlà cao hơn nhiều vào ngày của và vào ngày trước một sự kiện hoạt động tập thểso với các ngày khác. Để làm cho chắc chắn rằng các postcủa ngày trước thực sự có dự đoán các sự kiện này, và không nảy sinh vì các lý do giả như sự mã hoá nhầm của các ngày tháng post lên, cột cuối cùng của Bảng 3 khảo sát các tai nạn mỏ than. Các tai nạn này phải rõ ràng không được dự đoán bởicác post microblog. Chúng tôi nhận được dữ liệu về các địa điểm và ngày của 253 tai nạn mỏ than trong giai đoạn 2010 -2012 từ Cơ quan Nhà nước Quản lý An toàn Mỏ Than. Chúng tôi tìm các chuỗi từ liên quan đến các tai nạn mỏ than trong bộ dữ liệu của chúng tôi. Trong khi các tai nạn mỏ than được tường thuật nhiều hơn nhiều vào ngày của tai nạn, chúng đã không được thảo luận thường xuyên hơn vào ngày trước tai nạn so với những ngày khác. Phát hiện này có liên hệ với Acemoglu, Hassan, and Tahoun (2014) những người thấy rằng số người phản đối ở Quảng trường Tahrir vào bất kể ngày cho trước nào đã được dự đoán bởi số tweet với các hashtagTahrir. Tất nhiên, sự kiểm soát báo chí ở Ai Cập trong 2011 đã ít ngặt nghèo hơn Trung Quốc rất nhiều. 
Chúng tôi cũng tiến hành một phân tích chi tiết hơn, xem xét sự thảo luận microblogdự đoán tốt ra saoso với các tờ báo về khi nào và ở đâu các sự kiện hoạt động tập thểsẽ diễn ra. Chúng tôi sử dụng các tường thuật tin tức từ 62 tờ báo quan tâm chung, có tường thuật ít nhất một trong các sự kiện này trong giai đoạn 2010- 2012. Các panel B và C của Bảng 3 trình bày các kết quả từ việc tính hồi quy một chỉ số cho một sự kiện xảy ra trên số của các postWeibotừ những người dùng trong một quận mà nhắc đến các từ khoá sự kiện vào ngày xảy ra sự kiện (panel B) hoặc vào ngày trước sự kiện (panel C). Trong khi các microblog là hết sức có ý nghĩa trong dự đoán nơi và khi các sự kiện hoạt động tập thểxảy ra,thì sự đưa tin của báo về loại sự kiện này lại thiếu thông tin hữu ích. Tóm lại, chúng tôi thấy,theo nghĩa đen,hàng triệuposttrên Sina Weibo thảo luận các sự kiện hoạt động tập thể nhạy cảm. Nhiều trong số các postnày được post trước hay đồng thời với các sự kiện và dự đoán các sự kiện. Sự thực rằng người dân bắt đầu thảo luận các sự kiện trước khi chúng xảy ra cho thấy rằng Sina Weibo có thể được dùng để tổ chức hoặc chí ít để điều phối các sự kiện hoạt động tập thể. Để khảo sát liệu những người dùng,mà post loại nội dung nhạy cảm này,có bị nhận diện và có lẽ bị trừng trị hay không, chúng tôi xem xét các post tiếp sau của những người dùngđã đăng trên blog về các sự kiện hoạt động tập thể, 16 phần trămcủa các post này là post cuối cùng được xuất bản bởi một người dùng trong dữ liệu mà chứa bất cứ từ khoá nào trong số 5.000 từ khoá. Trong các loại “xung đột” và “phản đối”,các tỷ lệ tương ứng là 17 và 23 phần trăm. Phần của những người dùngmà rời khỏi dữ liệu của chúng tôi trong vòng năm hay mười post thêmlà cao hơn một chút trong dữ liệu đầy đủ (38 và 49 phần trăm) so với trong các loại xung đột và phản đối (33-34 và 41-42 phần trăm). Nói ngắn gọn,chúng tôi thấy rằng những người dùngmà đã post về các chủ đề này đã tiếp tục post ở một mức độ giống như những người dùng khác,cho biết rằng các tài khoản của họ đã không chắc có nhiều khả năng hơn để bị đóng,các postcủa họ cũng chẳng bị im đi.
Một cách khác để khảo sát liệu những người dùngcó lo về kiểm duyệt không là đi xem liệu các postvề các chủ đề nhạy cảm có khuynh hướng đến từ các tài khoản người dùngvới tương đối ít số post– mà có thể là dấu hiệurằngnhững người dùngtạo ra các tài khoản Sina Weibo tách biệt cho các thông điệp gây tranh cãi, có lẽ thậm chí với các địa chỉ IP được che giấu. Tuy vậy, số trung bình của các posttừ những người dùngmà đăng về các chủ đề nhạy cảm không thấp hơn đáng kể so với số trung bình của một mẫu so sánh được rút thăm một cách ngẫu nhiên của những người dùng (sự rút thăm sử dụng số các post bởi mỗi người dùngnhư các trọng số lấy mẫu). Điều mấu chốt là, mặc dù có các trường hợp được được chứng minh bằng tư liệu về những người bị trừng trị sau khi post nội dung nhạy cảm,điều này không có vẻ xảy ra trên một quy mô lớn. Nói chung,người dân không có vẻ sợ để post về các chủ đề này.
4.2 Giám sát
Chúng tôi xem xét thông tin mạng xã hộihữu hiệu ra sao cho việc chính quyền giám sát các sự kiện hoạt động tập thể. Như đã nhắc tới ở trước, các cơ quan chính quyền khắp Trung Quốc đã đầu tư mạnh vào software để theo dõi và phân tích các hoạt động online, để đo dư luận, và để kiềm chế các mối đe doạ trước khi chúng lan ra (như được báo cáo trong Epstein 2013). Có lẽ,các cơ quan chính quyền này mong muốn một hệ thống cảnh báo sớm về các sự kiện hoạt động tập thể. Chúng ta hình dung rằng một hệ thống như vậy có thể hoạt động theo hai bước. Bước thứ nhất được tự động hoá: chỉ có software cảnh giác đối với những ngày khi việc nhắc đến các sự kiện nào đó tăng đột ngột trên mạng xã hội; thứ hai,thuê những con người thực để đọc các postđược đăng trong những ngày đó.
Chúng tôi thăm dò phương pháp tự động-cộng-sức người này. Chúng tôi nghiên cứu 316 quận suốt các ngày từ 1-1-2010 đến 31-12-2012. Chúng tôi nghiên cứu các sự kiện chống-Nhậtvà các cuộc đình công bởi vì các sự kiện này chắc là không bị kiểm duyệt và vì thế chúng tôi có cùng thông tin Weibo post như chính phủ có. Cho bước đầu tiên,chúng tôi có software cảnh báo chúng tôi suốt các ngày khi một người dùng từ một thành phố viết một post nhắc đến bất kỳ từ khoá nào trong số từ khoá sự kiện của chúng tôi. Trước một ngày, sự báo động này nhận diện 42 trong số 43 sự kiệnchống-Nhậtvà 115 trong số 130 cuộc đình công. Việc này đòi hỏi sự điều tra 109.726 và 104.241 quận-ngày, một cách tương ứng (từ tổng số 346.020 quận-ngày).
Rất dễ để cải thiện phương pháp thô thiển này,để tìm ra nhiều sự kiện hơn và đồng thời làm giảm số các quan sát được tìm kiếm. Các công cụ học máy (machine learning tool) đã được phát triển cho chính xác vấn đề này (xem, thí dụ, Sasaki et al., 2010). Chúng tôi thăm dò cái gì đó đơn giản hơn nhiều. Chúng tôi dự đoán xác suất của sự xảy ra sự kiện trong thời gian và địa điểm cho trước, dựa vào số các post trên Weibo của những người dùngtrong địa điểm đó nhắc đến các từ khoá cho sự kiện này vào ngày này, ngày trước, và tổng số các postWeibo.
Trong việc xây dựng loại hệ thống báo động sớm này, các chính quyền địa phương đối mặt với một sự đánh đổi tiêu chuẩn giữa lỗi loại 1 và lỗi loại 2. Họ có thể điều tra tất cả các trường hợp nơi xác suất được dự đoán của một sự kiện là dương, dẫu nhỏ thế nào. Việc này sẽ tìm thấy nhiều sự kiện nhất (tức là nó có một tỷ lệ dương đúng cao) nhưng cách tiếp cận này cũng sẽ nhận nhiều số dương giả. Ngoài ra,họ có thể hạn chế sự chú ý cho các trường hợp nơi xác suất này là rất cao,dẫn đến một tỷ lệ dương giả thấp nhưng cũng dẫn đến một tỷ lệ dương đúng thấp.
Hình 2 cho thấy sự đánh đổi này cho các cuộc biểu tìnhchống-Nhậtvà các cuộc đình công. Nó vẽ tỷ lệ dương đúng đối lại tỷ lệ dương giả, cho các ngưỡng xác suất sự kiện khác nhau. Thí dụ, để tìm thấy tất cả các sự kiện chống-Nhật (tỷ lệ dương đúng là một),các chính quyền địa phương sẽ phải tìm kiếm 40 phần trămcủa các quan sát với không sự kiện nào (tỷ lệ dương giả là 0,4) sử dụng thông tin sẵn có một ngày trước và khoảng 15 phần trămvới thông tin hiện thời. Bằng số tuyệt đối, ta phải tìm kiếm 55.000 quận-ngày để nhận diện 100 trong số 130 cuộc đình côngtrước một ngày. Một hệ thống cảnh báo ít thông tin hữu ích sẽ tạo ra một đường cong dọc đường 45-độ,Đồ thị cho thấy rằng một số thống kê đơn giản dựa vào các từ khoá chứa rất nhiều thông tin để nhận diện các ngày khi các sự kiện có khả năng xảy ra.
Cho bước thứ hai,chúng tôi đọc một cách thủ công các post mạng xã hộiliên quan đến đình công trong 100 quận-ngày với các xác suất có một cuộc đình công,tổng cộng chúng tôi đã tốn khoảng 2 giờ để đọc. (Hãy nhớ,các thông điệp này là rất ngắn!) Như thế, chi phí-thời gian được ước lượng của chúng tôi cho việc phân tích 55.000 quận-ngày cần thiết để thấy rõ 100 cuộc đình côngmột ngày trước khi chúng xảy ra là 1.100 người-giờ. Con số này là chi phí thời gian tổng hợp cho tất cả các quận (316 quận) trải ra trong ba năm,Từ tiến độ đó, chi phí là rất nhỏ. Điểm cốt lõi là,các sự kiện hoạt động tập thểđủ lớn để gây ra các mối đe doạ tiềm tàng cho chế độ là dễ được phát hiện bằng sử dụng dữ liệu mạng xã hội,và chúng có thể được phát hiện ra một ngày trước.
Vài điểm lý thú khác nổi lên từ phân tích trên. Một là, khi việc đọc thủ công tất cả các post mạng xã hộiliên quan đến đình công cho 100 ngày đỉnh cao, chúng tôi đã phát hiện ra 23 cuộc đình côngtrong các quận-ngày này mà cũng đã ở trong bộ dữ liệu gốc của chúng tôi. Tuy vậy, chúng tôi cũng đã nhận diện thêm 14 cuộc đình công. Thủ tục của chúng tôi, như thế, cho thấy mạng xã hộicó thể được sử dụng ra sao như một công cụ thu thập dữ liệu ở các nước, nơi thiếu dữ liệu về các kết cục xã hội liên quan, nhưng dữ liệu từ mạng xã hộilại dư dả.
5 Giám sát các Chính trị gia Địa phương
Mạng xã hộicó thể cung cấp thông tin xác đáng để buộc các chính trị gia địa phương có trách nhiệm giải trình với các chính trị gia mức cao hơn? Đầu tiên, chúng tôi sẽ mô tả nội dung trên Sina Weibo liên quan đến tham nhũng. Rồi chúng tôi phân tích 200 vụ tham nhũng dính đến các lãnh đạo cấp cao của chính phủ Trung Quốc hay Đảng Cộng sản (ĐCS) Trung Quốc, dựa trên các thí dụ về tham nhũng từ Uỷ ban Kỷ luật Trung ương của ĐCS và Bộ Giám sát,cũng như các tin được đăng bởi hãng thông tấn phát ngôn của chính phủ Trung Quốc, Tân hoa xã. Chúng ta thấy rằng các post Weibodự đoán một số vụ tham nhũngtrước một năm. Để xem xét việc đưa tin về tham nhũngtrên mạng xã hội,chúng tôi kết hợp hai loại post microblog: các post nhắc tới các chính trị gia hay các chức vụ chính trị và các post nhắc đến ứng xử tham nhũng. Cho loại thứ nhất, chúng tôi truy xuất các post nhắc tới bất cứ chức vụ chính trị lớn nào ở mức trung ương, tỉnh, quận, huyện, và làng xã. Chúng tôi nhận được hơn 11 triệuposttrong loại này, Cột 1 của Bảng 4 cho thấy số các postđưa tin mỗi chức vụ hay lãnh đạo chóp bu. Bảngđược sắp xếp theo số các posttrên chức vụ,được cho thấy trong Cột 2-(thí dụ, có 31 chức cho các chức vụ mức tỉnh). Tập Cận Bình,chủ tịch Trung Quốc và tổng bí thư của ĐCSTQ đương nhiệm, là lãnh đạo được thảo luận nhiều nhất, với hơn 1,3 triệupostnhắc tới tên ông,tiếp sau là Ôn Gia Bảo, cựu thủ tướng Trung Quốc. Nhìn chung, các quan chức ở các mức cao hơn được thảo luận rộng hơn, và được đưa tin nhiều hơn các bí thư đảng. Về loại thứ hai của các postnhắc tới ứng xử tham nhũng, tha hoá, chúng tôi tìm kiếm các từ được dùng rộng rãi để mô tả ứng xử tham nhũng, việc làm sai trái, và sự trừng phạt các quan chức. Các từ chủ đề nóng trong loại này là “tham ô,” “tha hoá,” “tiền chính phủ,” “nhận hối lộ,” và “đưa hối lộ” (như được thấy sớm hơn trong Bảng 1, Cột 4).Chúng tôi nhận diện trên 5,3 triệu postthuộc loại này.
5.1 Nội dung và Những người dùng
Để mô tả đặc trưng các postvề tham nhũng,chúng tôi đích thân xem xét kỹ 1.000 post được chọn một cách ngẫu nhiên.Hầu hết các postnày đưa ra các bình luận chung về tham nhũng. Trong số 419 post thảo luận các vụ tham nhũng cụ thể, 293 đã được viết sau khi chính quyền đã tiến hành tố tụng. Tuy nhiên, 126 postthảo luận các trường hợp tham nhũng trước tố tụng của chính quyền. Có thể chia 126 postnày thành hai loại. Một loại nhắm vào các quan chức chính quyền cụ thể,được minh hoạ trong hai thí dụ sau đây.
·         “XXX,bí thư đảng của làng XXX,đã dùng sai tiền được chuyển từ chính phủ trung ương cho người dân có thu nhập thấp để chi cho các thành viên gia đình và họ hàng của ông ta.”
·         “XXX,quan chức đứng đầu của huyệnXXX,đã biển thủ tiền công bằng cách trao tất cả các hợp đồng dự án lớn của chính quyền cho công ty của em ông ta. Còn tồi hơn, ông đã thuê bọn côn đồ để để đâm những người đã báo cáo việc tham nhũngcủa ông ta lên chính quyền cấp cao hơn.”
Loại khác truyền đạt sự phẫn uất về và sự tức giận đối với các quan chức tham nhũng nào đó. Trong hầu hết các trường hợp,các postnày nói về các chức vụ và các cơ quan chính quyền mà không định rõ tên của các quan chức. Vài thí dụ được lập tư liệu như sau.
·         “Thị trường đen cho các chức vụ chính quyền ở quận XXX là tràn lan. Giá cả ngày càng cao, các quan chức chóp bu trong quận này đang trở nên giàu hơn và giàu hơn, và tham nhũngsẽ ngày càng nghiêm trọng bởi vì những người mua cần kiếm được đủ tiền để bù cho chi phí của họ.”
·         “Không có sự ủng hộ của bí thư quận uỷ và phó thống đốc quận,làm sao các quan chức quận này dám bán các chức vụ chính quyền? Hãy đả hổ!”
·         “Tiền tỷ đã chảy vào túi của các quan chức địa phương và các đối tác kinh doanh của họ! Chủ tịch Tập, thủ tướng Lý, và bí thư Vương trong Ban Thanh tra Kỷ luật Trung ương, các ông có đọc các microblog của chúng tôi? Các ông có nghe tiếng nói của chúng tôi? Hãy tiệt trừ các quan chức tham nhũng này! Ngay bây giờ!”
Cột 3 của Bảng 4 cho thấy số điểm phần trăm được ước lượng của các postnhắc tới chức vụ của một lãnh đạo mà thảo luận các vụ tham nhũng cụ thể.Một cách cụ thể, chúng tôi dự đoán xác suất rằng một post về một chức vụ mà thảo luận các vụ tham nhũng cụ thể dựa vào các tần suất của các từ được sử dụng. Thí dụ, dòng cuối cho thấy rằng hơn bốn phần trăm của tất cả các postmà nhắc đến các bí thư đảng xã hay huyện cũng nhắc đến các vụ tham nhũng cụ thể. Để nhận được một số đo rộng hơn về ý kiến của nhân dân đối với các lãnh đạo của họ,chúng tôi trừ số các từ tiêu cực khỏi số các từ tích cực trong tất cả các postnhắc đến các lãnh đạo này (sử dụng Từ điển Tình cảm của Đại học Quốc gia Đài Loan). Cột 4 của Bảng 4 cho thấy rằng các bí thư đảng ở huyện và xã nhận được ý kiến tiêu cực nhất và đại diện phần lớn nhất của các post tham nhũng. Một diễn giải của phát hiện này là, hai loại này của các quan chức thường được coi như các chính trị gia cấp thấp hùng mạnh nhất có cơ hội để tham nhũng. Một cách nhìn khác là, họ là các quan chức dễ bị tổn thương nhất trong các chiến dịch chống-tham nhũngbởi vì họ ở đáy của hệ thống thứ bậc chính quyền Trung Quốc. Ước lượng từ mẫu ngẫu nhiên gồm 1.000 post,bộ dữ liệu của chúng tôi chứa khoảng 668.000 postcó thảo luận các trường hợp cụ thể về tham nhũng trước khi chính quyền hành động. Điều này cung cấp nhiều thông tin cho các chính quyền cấp cao hơn tìm cách để bắt các chính trị gia cấp thấp hơn chịu trách nhiệm giải trình. Rõ ràng,các post thuộc loại này không bị chính phủ trung ương kiểm duyệt. 
Chúng tôi thấy một số postphê phán thẳng thừng các lãnh đạo quốc gia chóp bu, mặc dù các post này không chứa các cáo buộc tham nhũngrõ rệt. Các postnhư vậy, thí dụ, cho rằng dân chủ và sự ổn định xã hội đã giảm dưới triều Hồ Cẩm Đào, rằng chiến dịch chống Bạc Hy Lai đã được Tập Cận Bình khởi xướng như một phần của cuộc đấu đá chính trị, và rằng Ôn Gia Bảo đã chuyển vốn đến Wenzhou (Ôn Châu) để giúp con em của một số lãnh đạo chóp bu. Chúng tôi không thấy bằng chứng nào rằng những người dùng,mà post loại nội dung nhạy cảm này, được nhận diện và bị trừng trị một cách có hệ thống. Những người dùng,mà post về tham nhũng,tiếp tục postở mức độ như những người dùng khác. Cũng có vẻ rằng người dân không sợ việc post các cáo buộc tham nhũngcụ thể dính líu đến các chính trị gia địa phương hùng mạnh, vì các postnày không được tạo ra từ các tài khoản đặc biệt với ít post. Một lý do có thể là, cho dù các chính quyền địa phương có thể nhận diện những người dùng bạo gan này,là rủi ro cho họ để có hành động chống lại những người dùng này bởi vì việc đó có thể kích một phản ứng còn lớn hơn trong mạng xã hội,mà có thể gây nguy hiểm thêm nữacho sự nghiệp của chính trị gia bị dính líu.
5.2 Dự đoán và Giám sát
Để kiểm tra liệu các post mạng xã hộicó dự đoáncác sự buộc tội tham nhũngtrong tương lai không,chúng tôi nghiên cứu một mẫu về 200 sự buộc tội tham nhũng: 15 ở mức quốc gia,39 ở mức tỉnh, 114 ở mức quận,và 32 ở mức huyện, Để so sánh, chúng tôi dựng một mẫu kiểm tra đối sánh của 480 chính trị gia đã không bị buộc tội tham nhũng. Các chính trị gia đối sánh giữ các chức vụ chính trị tương đương và ở các khu vực địa lý gần với các chính trị gia bị buộc tội.
Chúng tôi đếm số các postnhắc tới tên của mỗi trong 680 chính trị gia này và số các postnhắc cả đến chính trị gia và bất kể từ nào trong loại tham nhũngcủa chúng tôi. Chúng tôi tính số các post 2 -7 tháng (cũng như 12 -23 tháng) trước một sự buộc tội tham nhũng. Bảng 5a cho thấy rằng các quan chức tham nhũng và không tham nhũng được nhắc đến về đại thể cùng số các post 2 -7 tháng trước một sự buộc tội tham nhũng: 49 và 44,4 post,một cách tương ứng,Tuy vậy, các quan chức tham nhũng xuất hiện thường xuyên hơn nhiều trong các postmà nhắc tới các từ tham nhũng của chúng tôi (3,9 so với 0,4). Một hình mẫu tương tự được tìm thấy trong các postđược đăng 12 -23 tháng trước một sự buộc tội. Căn cứ vào sự khác biệt lớn trong số các post tham nhũng,không ngạc nhiên rằng trong phân tích hồi quy hình thức hơn,các postnày rất có sức dự đoán về các sự buộc tội tham nhũng.
Bảng 5b trình bày các kết quả của một hồi quy của biến số chỉ dấu buộc tội-tham nhũng trên số các post nhắc đến tên một quan chức và sự tham nhũng. Đơn vị quan sát là quan chức (200 bị buộc tội và 480 không bị buộc tội). Biến số phụ thuộc là một biến số giả (dummy) cho biết liệu quan chức đã bị buộc tội tham nhũng hay không. Hồi quy cũng bao gồm số các postnhắc chỉ đến tên quan chức. Biến số này chẳng bao giờ có ý nghĩa (thống kê). Các cột 2, 4 và 5 gồm các biến dummy cho các chỉ số vụ,cùng giá trị cho một quan chức bị buộc tội tham nhũngvà các quan chức đối sánh. Các sai số chuẩn trong ngoặc,được phân cụm bởi mã số gọi là case id (lãnh đạo bị buộc tôi và các lãnh đạo kiểm soát đối sánh). Bảngcho thấy rằng các sự buộc tội tham nhũngđược dự đoán tốt bởi số các postnhắc đến tham nhũng 2 -7 và 12 -23 tháng trước hành động đầu tiên của chính quyền.
Tuy vậy, một số đáng kể của các quan chức tham nhũng bay dưới radarmạng xã hội. Đặc biệt, 133 quan chức muộn hơn được thấy là tham nhũng, nhưng đã chẳng bao giờ được nhắc tới trong một post tham nhũnghai tháng hay hơn trước hành động đầu tiên của chính quyền chống lại họ. Từ quan điểm của chính phủ trung ương Trung Quốc, mà nhắm tới tấn công chống tham nhũng,một quy tắc đơn giản là để điều tra tất cả các quan chức với ít nhất một post tham nhũng. Trong trường hợp của chúng tôi, quy tắc này sẽ dẫn tới điều tra 192 quan chức, trong đó 67 người muộn hơn đã bị buộc tội tham nhũng.
Các post mạng xã hộidự đoáncác chính trị gia chóp bu nào sẽ bị buộc tội tham nhũng một năm trước hành động pháp lý đầu tiên. Lý do có hể là, các cá nhân này quả thực bị tha hoá hơn. Một lý do khác có thể là, chính phủ trung ương bỏ kiểm duyệt hoặc khả năng có thể xảy ra rằng chính phủ gài các post tham nhũngvề các lãnh đạo đã mất sự ủng hộ chính trị và muộn hơn sẽ bị kết tội tham nhũng. Để xem xét việc gài các câu chuyện, chúng tôi đã khảo sát một vụ bê bối được tường thuật kỹ dính líu đến Bạc Hy Lai, một quan chức cấp cao. Chúng tôi thấy rằng đã có sự kiểm duyệt chung của các postnhắc đến Bạc Hy Laigiữa sự bắt đầu điều tra vào 15-3-2012,và hành động cuối cùng được ĐCS tiến hành vào 28-9-2012. Chúng tôi không thấy bằng chứng nào rằng sự kiểm duyệt đã tập trung vào các postủng hộ Bạc Hy Lai hoặc rằng đã có một xu hướng trong các câu chuyện tham nhũngtrước sự suy sụp của ông.
Tóm lại,một lượng khổng lồ của các post trên Sina Weibothảo luận tham nhũng. Các postnày giúp nhận diện các chức vụ chính trị, các vùng, thời gian, và các cá nhân dính líu trong các vụ tham nhũng. Sự thiếu kiểm duyệt cho thấy rằng đối với chính phủ trung ương Trung Quốc,sự giám sát được cải thiện đối với các quan chức mức thấp hơn có nhiều tác dụng hơn sự quảng bá tiêu cực của sự đưa tin tham nhũng. Các kết quả cũng gợi ý rằng các chính trị gia địa phương chí ít không hiệu quả trong việc áp đặt sự tự-kiểm duyệt lên những người dùnghoặc mặt khác để làm méo thông tin.

6 Tuyên truyền
Tuyên truyền được post lên mạng xã hộichủ yếu được tạo ra bởi những người dùng gắn với chính quyền: các bộ; các tổ chức quần chúng,như các trường học và các bệnh viện và các hội công nghiệp mà là phần của khu vực công; báo chí do nhà nước sở hữu (lưu ý rằng, theo quy chế, tất cả báo chí được quan tâm chung mà được phép công bố nội dung chính trị được sở hữu bởi hay bị giám sát bởi chính phủ.) Chúng tôi sẽ nghiên cứu các loại của những người dùng có sức mạnh cao này. Chúng tôi không nghiên cứu internet trolls do chính phủ thuê để đánh lạc hướng sự thảo luận công (King, Pan, and Roberts 2016). Chúng tôi sử dụng hai cách tiếp cận để nhận diện các post chính quyền. Trên một quy mô nhỏ, chúng tôi mã hoá thủ công các postđược công bố bởi những người dùng được chọn một cách ngẫu nhiên; trên quy mô lớn,chúng tôi sử dụng các kỹ thuật máy họcđể phân biệt các hình mẫu ngôn ngữ được sử dụng bởi những người dùng chính quyền được biết kỹ và như thế dự đoáncác tài khoản nào được gắn với chính phủ Trung Quốc. Sau đó chúng tôi điều tra các mục tiêu của những người dùng gắn với chính quyền này.

6.1 Số lượng
Trong 2012, Sina Weibo đã báo cáo rằng có khoảng 50.000 tài khoản trên Sina Weibo được điều hành bởi các cơ quan chính quyền hoặc cá nhân các quan chức. Ước lượng của chúng tôi cho thấy rằng ngay cả khi giơi hạn ở định nghĩa hạn chế nhất về người dùng chính quyền (loại bỏ những người dùng tổ chức-quần chúng và báo chí),con số được báo cáo này ước lượng quá thấp sự hiện diện của chính quyền trên Sina Weibo.
Chúng tôi mã hoá một cách thủ công một mẫu 1.000 người dùngSina Weibo được chọn một cách ngẫu nhiên từ toàn bộ cơ sở dữ liệu của chúng tôi gồm 30 triệungười dùng. Một người dùngđược phân lớp như mộtngười dùngchính quyền nếu các posttiết lộ rõ rệt căn cước của người dùnghoặc hầu hết liên quan đến các hoạt động của một chức năng chính quyền; những người dùng tổ chức quần chúng được mã hoá một cách tương tự. Một tài khoản được phân lớp như một tài khoản báo chí nếu các post tiết lội rằng người dùnglà một cơ quan báo chí hay một bộ phận. Bảng 6 cho thấy kết quả. Trong mẫu ngẫu nhiên của 1.000 người dùng, 0,5 phần trămlà những người dùng chính quyền, ngụ ý rằng có khoảng 150.000 (với một độ lệch chuẩn 67.000) người dùng chính quyền trong toàn bộ bộ dữ liệu của chúng tôi. Những người dùng báo chí nhà nước sở hữu và tổ chức quần chúng đóng góp một phần còn lớn hơn. Tổng cộng, các loại này của những người dùnggắn với chính quyền gồm 2 phần trăm– hay 600.000– người dùng.
Như thế, chúng tôi ước lượng rằng các tài khoản gắn với chính quyền đóng góp 3,6 phần trămcủa tất cả các posttrong cơ sở dữ liệu của chúng tôi (với sai số chuẩn được bootstrap (bootstrapped standard errors) là 1,6 phần trăm); xem panel bên phải trong Bảng 6. Số điểm phần trăm này là lớn hơn 2 phần trămcủa những người dùng gắn với chính quyền bởi vì những người dùngnày đăng nhiều post hơn những người khác. Lưu ý rằng các ước lượng này là hạn chế cho mẫu các postcó nhắc tới các từ liên quan đến các vấn đề chính trị và kinh tế. Bởi vì chúng tôi không tính đến những người dùngviết về các đề tài khác, nên tổng số tài khoản gắn với chính quyền trên Sina Weibo chắc là cao hơn các ước lượng của chúng tôi. Tuy vậy, phần của các post chính quyềncó thể thấp hơn đáng kể về các chủ đề ngoài chính trị và kinh tế.

6.2 Nhận diện sự Gắn với Chính quyền bằng Ngôn ngữ
Chúng tôi cũng sử dụng một cách tiếp cận dựa vào ngôn ngữ học để dự đoánxác suấtrằng một người dùng được gắn với chính quyền. Chúng tôi giới hạn sự chú ý của mình đến 5,6 triệu người dùngmà đăng nhiều hơn năm post trong bộ dữ liệu của chúng tôi. Những người dùngnày đóng góp hơn ba phần tư tổng các post. Đầu tiên chúng tôi nhận diện 1.042 tài khoản quan chức, gắn với chính quyền, và 538 tài khoản báo chí bằng xem xét kỹ các blog của hàng ngànngười dùng với các tên người dùnggắn một cách tiêu biểu với các chức năng này. Đấy chỉ là một tập con nhỏ của tất cả các tài khoản quan chức, nhưng chúng tôi có thể sử dụng nó để xác định các từ nào là đặc trưng của các tài khoản chính quyền và sau đó dùng chúng để ước lượng tổng số các tài khoản chính quyền.
Với mục đích này, đầu tiên chúng tôi chấp nhận và theo một thuật toán phân lớp được sử dụng rộng rãi (Support Vector Machine (SVM)) để nhận diện loại này của người dùngtừ mẫu 1 phần trăm (28.440) của những người dùng được rút thăm ngẫu nhiên dựa trên các tần suất của các từ nhất định trong các post của họ.[4]Dựa vào thành tích trong các nhiệm vụ phân lớpkhác,các SVM đã được nhận diện như một trong các phương pháp phân lớphiệu quả nhất (Dumais, Platt, Heckerman, and Sahami 1998; Joachims 1998; Sebastiani 2002). Trong phân lớpSVM,một số lớn từ là quan trọng. Tuy vậy, chỉ để cho một cảm giác về sựphân lớp,các từ với trọng số cao nhất là “Liên đoàn Thanh niên Cộng sản”.“Thành Uỷ Đảng Cộng sản”và “Hội nghị”. Để đánh giá SVM thực hiện tốt ra sao, chúng tôi sử dụng kiểm chứng chéo nơi chúng tôi ước lượng lặp đi lặp lại mô hình bỏ đi một tài khoản chính quyền và 17 tài khoản không-chính quyền và sau đó phân lớp các quan sát bị bỏ đi. Bộ phân lớpnày có một độ chính xác là 0,81 và một độ hồi tưởng 0,41. Một thống kê quen thuộc hơn có lẽ là t-statistic của một hồi quy probit*của một biến cho biết một tài khoản chính quyền trên tham số SVM-output được dùng cho phân lớp. T-statistic này là 56,có nghĩa rằng ngôn ngữ có tính dự đoán cao cho các tài khoản chính quyền.
Vì các tài khoản chính quyền đã được lấy mẫu quá (over-sampled) trong mẫu ước lượng trên,chúng tôi không thể dùng nó để ước lượng phần của các tài khoản chính quyền. Thay vào đó chúng tôi đưa ra một mẫu ngẫu nhiên mới gồm 500 người dùng,Trong mẫu này, chúng tôi ước lượng một mô hình probit của xác suấtđể là một tài khoản chính quyềncó điều kiện trên tham số SVM. Quá trình này được biết đến như Platt scaling và là một cách thông thường để ánh xạ các ước lượng tham số SVM vào các xác suất (Platt, 1999). Chúng tôi kết hợp các tham số SVM với các ước lượng probit để ước lượng xác suất dự đoánrằng mỗi tài khoản là một tài khoản chính quyền. Chúng tôi sử dụng kết quả được ước lượng từ mẫu kiểm chứng này để dự đoánxác suấtrằng mỗi trong 5,6 triệungười dùnglà được gắn với chính quyền. Chúng tôi tính trung bình của xác suấttrong tổng thể,theo tỉnh, và theo quận. Việc này cung cấp cho chúng tôi một số đo về phần của những người dùnggắn với chính quyền ngang các vùng địa lý.
Ở mức quốc gia, chúng tôi ước lượng rằng 3,1 phần trămcủa 5,6 triệu người dùnglà gắn với chính quyền (với một sai số chuẩn 0,8 phần trăm). Con số này là cao hơn 2 phần trăm trong toàn bộ mẫu,nhưng hai ước lượng tuy nhiên là nhất quán, bởi vì những người dùng chính quyền đóng góp nhiều posthơn và như thế được đại diện mạnh hơn trong mẫu những người dùngvới nhiều hơn năm post,Phần được ước lượng của các post được đăng bởi những người dùng gắn với chính quyền trong mẫu này là 3,9 phần trăm (với một độ lệch chuẩn 1,0 phần trăm).
6.3 Các Mục tiêu của những Người dùng Chính quyền
Những người dùng chính quyền của mạng xã hộicó thể cung cấp thông tin trung tính hay tuyên truyền. Có vài hình mẫu mà có thể giúp chúng ta để phân biệt giữa hai khả năng. Thí dụ, trong các vùng nơi chính quyền cảm thấy rằng nhu cầu cho ảnh hưởng là cao,chúng ta phải quan sát nhiều cả kiểm duyệt lẫn tuyên truyền và một tương quan dương mạnh giữa chúng. Chúng ta cũng phải quan sát một tương quan dương giữa các posttừ những người dùng chính quyềnvà sự thiên vị chính quyền trong báo chí truyền thống,mà bị sự kiểm soát chính quyền lớn hơn mạng xã hội. Ngược lại, các tương quan này phải vắng nếu những người dùng chính quyềnchủ yếu cung cấp thông tin trung tính.
Nghiên cứu sớm hơn cũng gợi ý vài luận đề khác về tuyên truyền. Tuyên truyền có thể hiệu quả hơn lên các độc giả chia sẻ quan điểm của người gửi thông điệp, trong khi tác động của tuyên truyền có thể tiêu cực khi độc giả giữ các quan điểm đối lập. Thí dụ,Adena, Enikolopov, Santarosa, and Zhuravskaya (2014)thấy rằng radioNazi trong các năm 1930 đã hiệu quả nhất ở các địa phương nơi chủ nghĩa bài Do Thái đã cao về mặt lịch sử và đã có tác động tiêu cực lên sự ủng hộ các chính sách Nazi ở các địa phương với mức chủ nghĩa bài Do Thái thấp về mặt lịch sử. Tương tự, trong một cuộc thí nghiệm phòng thí nghiệm, DellaVigna, Enikolopov, Mironova, Petrova, and Zuravskaya (2014)thấy rằng sự phơi ra với radio Serbia đã gây ra tình cảm chống-Serbia giữa những người Croat. Nếu chế độ Trung Quốc tin vào lý lẽ này, thì chúng ta sẽ kỳ vọng thấy nhiều tài khoản gắn với chính quyền trong các thành trì của Đảng Cộng sản.
Cuối cùng, tuyên truyền chắc làm giảm sự đánh giá của những người tiêu dùng về mạng xã hội. Trong chừng mực mà các nhà cung cấp dịch vụ có thể có tác động đến số lượng tuyên truyền, chúng ta phải thấy ít tài khoản quan chức hơn ở các vùng nơi thị trường quảng cáo là có giá trị và nơi cạnh tranh vì những người tiêu dùng là cao. Mặc dù chúng tôi thiếu các số đo trực tiếp của các nhân tố này, chúng chắc liên quan đến thu nhập hay GDP trên đầu ngườiđịa phương.
Chúng tôi kiểm chứng các giả thuyết này sử dụng số đo riêng của chúng tôi về những người dùng chính quyềntrên Sina Weibo ngang các tỉnh của Trung Quốc đối lại một số đo về kiểm duyệt và đối lại một số đo về sự thiên vị trong các báo Trung Quốc. Panel bên trái của Hình 3 vẽ phần được ước lượng của những người dùng chính quyền đối lại số đo sự thiên vị báo chí trong các nhật báo được kiểm soát ngặt nghèo bởi ĐCS (từ Qin, Ströberg, and Wu 2016). Số đo sau dựa trên chín loại nội dung,kể cả các lời nhắc nhủ của lãnh đạo, các trích dẫn của thông tấn xã chính thống của ĐCS, và sự đưa tin các câu chuyện phê phán chế độ. Panel bên phải của Hình 3 vẽ phần được ước lượng của những người dùng chính quyềnđối lại một số đo về kiểm duyệt được Bamman, O’Connor, and Smith (2012) phát triển: phần của các post bị xoá,Quảng Đông (Guang dong) có phần thấp nhất của những người dùng chính quyền (2,5 phần trăm),còn Ninh Hạ (Ningxia) và Cam Túc (Gansu)có phần cao nhất (6 phần trăm). Đồ thị nhìn hầu như cũng thế nếu chúng ta sử dụng phần của các postđược đăng bởi những người dùng chính quyềnthay cho phần của những người dùng chính quyền.
Hai hình cho thấy rằng phần được ước lượng của những người dùng chính quyềntương quan mạnh với cả phần củacác postbị xoá lẫn của sự thiên bị báo chí (hệ số tương quan là 0,7 trong cả hai trường hợp). Tương quan dương này cho biết rằng sự kiểm duyệt, sự thiên vị báo chí, và các tài khoản quan chức trên Sina Weibo được sử dụng cho cùng mục đích tuyên truyền. Lưu ý rằng, trong Hình 3,Tây Tạng (Tibet) có nhiều postbị xoá hơn được kỳ vọng. Có lẽ điều này là một dấu hiệu rằng tuyên truyền không được xem là đặc biệt hiệu quả ở Tây Tạng bởi vì sự ủng hộ cơ sở yếu hơn cho chính phủ trung ương Trung Quốc.
Hai hình cho thấy rằng phần được ước lượng của những người dùng chính quyềntương quan mạnh với cả phần của các post bị xoá lẫn sự thiên vị báo chí (hệ số tương quan là 0,7 trong cả hai trường hợp). Tương quan dương này là phù hợp với giả thuyết rằng sự kiểm duyệt, sự thiên vị báo chí, và các tài khoản quan chức trên Sina Weibo được sử dụng cho cùng mục đích tuyên truyền. Lưu ý rằng, trong Hình 3,Tây Tạng có nhiều postbị xoá hơn được kỳ vọng. Có lẽ điều này là một dấu hiệu rằng tuyên truyền không được xem là đặc biệt hiệu quả ở Tây Tạng bởi vì sự ủng hộ cơ sở yếu hơn cho chính phủ trung ương Trung Quốc.
Các tương quan khác cũng phù hợp với niềm tin rằng những người dùng chính quyềncủa mạng xã hộiđang tiến hành tuyên truyền. Bảng 7 cho một hồi quy chéođể minh hoạ. Biến phụ thuộc là phần của những người dùng chính quyềncủa Sina Weibo ngang các quận của Trung Quốc. Chúng tôi dùng GDP như một số đo về phát triển kinh tế. Chúng tôi tính đến một biến “thành trì ĐCSTQ,” cho biết các vùng nơi ĐCS được đánh giá cao hơn một cách tương đối do các lý do lịch sử (Qin, Ströberg, and Wu 2016). Ngược lại,một số vùng có một lịch sử của ảnh hưởng Tây phương,nhất là,các vùng đã là phần của một hiệp ước cảng được kiểm soát bởi các cường quốc phương Tây trong giai đoạn 1840-1910 (Jia 2014). Các biến khác trong hồi quy gồm khoảng cách tới Bắc Kinh,vĩ độ, kinh độ, và dân số.
Phần được chúng tôi ước tính của những người dùng chính quyềnngang các quận là thấp hơn đáng kể trong các vùng với các mức GDP cao và là cao hơn trong các thành trì của ĐCSTQ. Kết quả sau là phù hợp với quan điểm rằng tuyên truyền là hiệu quả hơn trong các vùng nơi độc giả chia sẻ ý thức hệ của người gửi. Phần được ước lượng của những người dùng chính quyềncũng tỏ ra cao hơn trong các vùng gần Bắc Kinhhơn và trong các vùng đông dân cư hơn. Tóm lại, các hình mẫu này là phù hợp với tuyên truyền là mục tiêu chính của nội dung mạng xã hộichính quyền này.
7 Kết luận
Chúng tôi sử dụng một bộ dữ liệu lớn về các postblog từ nền tảng microblog Trung Quốc xuất sắc nhất Sina Weibotrong giai đoạn 2009-2013 để chứng minh bằng tư liệu một số sự thực cơ bản. Bây giờ chúng tôi thảo luận làm thế nào để hiểu các sự thực này và chúng ta có thể ngụ ý những gì cho các kết cục mà rốt cuộc chúng ta quan tâm đến, như tham nhũng,sự ổn định hệ thống, trách nhiệm giải trình địa phương và trung ương, và sự cân bằng quyền lực trung ương-địa phương.
Căn cứ vào các cố gắng rộng lớn để kiểm soát bằng cảnh sát và kiểm duyệt mạng xã hội,có thể có vẻ ngạc nhiên đến bối rối rằng chúng tôi thấy rất nhiều tài liệu nhạy cảm sẵn có trên mạng xã hội. Những sự đền đáp riêng để post các tài liệu này là những gì? Vì sao chế độ không trừng trị những người dùngtrên một quy mô lớn,và vì sao chế độ không kiểm duyệt tất cả các tài liệu nhạy cảm? Chúng tôi gợi ý sự giải thích sau đây.
Chính phủ trung ương hạn chế sự kiểm duyệt của nó bởi vì chỉ một phần nhỏ của tài liệu nhạy cảm chắc là có khả năng đưa ra một thách thức có ý nghĩa đối với chế độ. Mặc dù dư luận đa dạng và thậm chí bất đồng ý kiến có thể làm phật lòng chế độ, một sự quét sạch nội dung nhạy cảm có thể làm suy yếu năng lực của chế độ để học từ thông tin từ dưới lên và để giải quyết các vấn đề xã hội trước khi chúng trở nên đe doạ. Vì thế, có một sự đánh đổi tế nhị trong sự kiểm soát thông tin đối mặt một chế độ độc đoán.
Những người dùngmạng xã hội có một khuyến khích để cất lên tiếng nói về các vấn đề địa phương vì họ kỳ vọng chính quyền trung ương để giải quyết các vấn đề này. Trong các post về tham nhũng,chúng tôi tìm thấy các lời thỉnh cầu thường xuyên rõ ràng về hành động của chính quyền trung ương. Các postvề các cuộc phản kháng và các cuộc đình côngcó thể giúp tổ chức các sự kiện, nhưng, khá quan trọng, chúng cũng làm cho chính quyền trung ương có thể nhìn thấy các sự kiện này. Việc này có thể buộc các lãnh đạo địa phương giải quyết các vấn đềgây ra các cuộc phản đối và các cuộc đình công. Dòng suy luận này có thể cũng giải thích vì sao các cuộc phản đối vàcác cuộc đình côngđang tăng lên ở Trung Quốc mặc dù chúng ta thấy là đơn giản và rẻ để sử dụng mạng xã hộiđể nhận diện các sự kiện này trước một ngày. Các quan chức địa phương có thể không muốn đàn áp chúng bằng cảnh sát và bạo lực bởi vì việc này sẽ kích một phản ứng còn lớn hơn nữa trên mạng xã hội.
Tác động nâng cao tính dễ thấy của mạng xã hộicó thể cũng giải thích vì sao chúng ta không thấy bằng chứng nào về sự trừng trị quy mô lớn đối với những người dùng bất đồng ý kiến. Người ta có thể nghĩ rằng sự phát hiện này chỉ phản ánh sự nhất quán giữa sự kiểm duyệt và việc kiểm soát bằng cảnh sát–các postmà chúng ta quan sát đã không đủ nhạy cảm để bị kiểm duyệt, và như thế người dân không bị trừng trị vì việc post chúng. Tuy nhiên, những người kiểm duyệt và cảnh sát internet là những người khác nhau. Chính quyền trung ương thực hiện việc kiểm duyệt còn các chính quyền địa phương có thể dựa chỉ vào việc kiểm soát bằng cảnh sát. Cho nên câu hỏi là vì sao các chính trị gia địa phương không trừng trị những người dùngmà các postcủa họ có thể gây nguy hiểm cho sự nghiệp của họ,thí dụ,những người cáo buộc họ tham nhũng. Một lý do là, các chính trị gia địa phương không có khả năng để nhận diện những người dùng này. Một lý do khác là,mạng xã hội có thể làm cho việc các chính trị gia địa phương trừng trị những người dùng bất đồng ý kiến là có thể thấy được đối với các nhà lãnh đạo quốc gia, mà đặtcác chính trị gia địa phương đối mặt các rủi ro chính trị lớn.
Do chính quyền trung ương sử dụng thông tin từ mạng xã hộiđể giám sát quan chức địa phương, không ngạc nhiên rằng các quan chức địa phương tích cực vận hành các microblog của họ trên Sina Weibo. Các chính trị gia địa phương có thể báo hiệu lòng trung thành của họ với chính quyền trung ương bằng việc nghĩ ra sự tuyên truyền thúc đẩy đường lối của đảng trong khi cũng làm trệch hướng các cáo buộc tham nhũngvà chứng tỏ năng lực của họ để nhận diện và giải quyết các vấn đề địa phương. Tuy vậy,là tốn kém để tạo ra sự tuyên truyền có chất lượng cao để chi phối một sự thảo luận giữa hàng triệungười dùng. Chúng tôi ước lượng rằng các tài khoản gắn với chính quyền đóng góp khoảng 4 phần trămcủa tất cả các postvề chính trị và kinh tế trên Sina Weibo. Trong khi con số này là lớn hơn con số chính thức của Sina Weibo rất nhiều, nó không tràn ngập. Dưới ánh sáng này, không ngạc nhiên rằng chúng tôi thấy các lãnh đạo địa phương không có khả năng để pha loãng một cách hiệu quả thông tin tiêu cực về, chẳng hạn,tham nhũngvà hoạt động tập thể.
Các ngụ ý cho các kết cục mà rốt cuộc chúng ta quan tâm là những gì? Các phát hiện của chúng tôi gợi ý rằng mạng xã hộiở Trung Quốc chủ yếu tác động đến những kết cục mà trong đó chế độ trung ương và những người dùng nói chung chia sẻ một sự quan tâm chung. Thí dụ, chế độ và những người dùngmạng xã hội, cả hai đều được lợi từ sự đấu tranh chống tham nhũngđịa phương và sự lạm dụng quyền lực khác bởi các lãnh đạo địa phương. Trong khía cạnh này,mạng xã hộiTrung Quốc có vẻ đóng một vai trò tích cực trong các công việc chung ở mức địa phương, cải thiện sự tiếp cận của công chúng đến thông tin, sự tham dự vào tranh luận công, và năng lực của họ để điều phối các hoạt động đông người và đáp ứng các vấn đề địa phương.
Ngược lại, các kết cục mà trong đó chế độ trung ương và những người dùngcó các lợi ích đối lập nhau chắc là ít bị ảnh hưởng. Thí dụ, một số rất hạn chế các post thảo luận các nhà lãnh đạo quốc gia theo cách tiêu cực. Tương tự, sự đưa tin của mạng xã hộivề các xung đột quy mô lớn bị bóp nghẹt, hoặc bởi sự kiểm duyệt hay bởi sự tự-kiểm duyệt.Vì thế, người ta có thể chờ đợi mạng xã hộiđể tăng phạm vi tác động của các cuộc phản đối quy mô nhỏ và vừa, trong khi làm giảm xác suất của các cuộc phản đối lớn đe doạ chế độ. Như thế, còn xa mới rõ rằng mạng xã hộicó khả năng kiềm chế chính quyền trung ương Trung Quốc.
Các phát hiện của chúng tôi cuối cùng gợi ý rằng mạng xã hộiở Trung Quốc chắc là để làm tăng quyền lực của chính quyền trung ương làm tổn hại đến các chính quyền địa phương,mà sẽ bị giám sát sít sao hơn và có ít sự sự tuỳ ý hơn. Cuối cùng, nó có thể dẫn đến sự tập trung hoá tăng lên của quyền lực vì khuyến khích của chính quyền trung ương để phân quyền quyết định bị giảm đi bởi năng lực của nó được cải thiện để kiếm được thông tin địa phương.
Do công nghệ ITtiến bộvà phong cảnh chính trị Trung Quốc thay đổi, là tự nhiên để đặt câu hỏi về các kết quả của bài báo này là xác đáng thế nào bên ngoài giai đoạn lấy mẫu của chúng tôi mà cấm dứt trong 2013. Kể từ 2012, Sina Weibo đã mất vị trí cho các dịch vụ khác, nhất là cho WeChat và Qzone. Nhìn tổng thể, ứng xử của người dùngvà sự kiểm duyệt của chính phủ trên các dịch vụ này là tương tự như đối với Sina Weibo,nhưng phải lưu ý đến vài sự khác biệt. Theo Ng (2015),một phần nhỏ của các postbị kiểm duyệt trên WeChat hơn trên Weibo. WeChat cung cấp một công cụ ít hiệu quả hơn một chút để tổ chức hoạt động tập thểquy mô lớn hay để phơi bày các quan chức tham nhũng,vì chỉ những người đăng ký đối với một tài khoản mới có thể thấy một post. Như thế, không ngạc nhiên rằng, trong khi WeChat là nền tảng phổ biến nhất cho nhắn tin tức thì, Sina Weibo và Qzone là các nền tảng phổ biến nhất cho chia sẻ thông tin công khai. Một báo cáo dựa trên điều tra do CNNIC đưa ra cho thấy rằng trong 2015,số những người dùngmạng xã hộimà đã liệt kê Sina Weibo như lựa chọn đầu tiên của họ để theo dõi các sự kiện tin tức hiện thời và các vấn đề xã hội đã gấp đôi những người đã liệt kê Qzone.[5]
Kể từ 2012,các chính quyền Trung Quốc đã leo thang các cố gắng của họ để kiểm soát mạng xã hội. Như phần của sự cố gắng này,kể từ tháng Ba 2012,những người dùngđã được yêu cầu phải tiết lộ nhận diện thật của họ cho các nhà cung cấp mạng xã hội. Bởi vì giai đoạn lấy mẫu của chúng tôi kéo dài cho đến cuối 2013,chúng tôi có thể cung cấp một cái nhìn thoáng qua về tác động của sự siết chặt kiểm soát và sự cạnh tranh tăng lên từ WeChat. Dữ liệu của chúng tôi cho thấy một sự sụt khoảng 30 phần trăm về số của tổng số các post trên Weibo từ 2012 sang 2013. Tuy vậy, số các postvề các chủ đề nhạy cảm (xung đột, các cuộc phản đối,các cuộc đình công, và tham nhũng) đã thay đổi không đáng kể. Kết quả này cho biết rằng lưu lượng mà đã chuyển sang WeChat và các dịch vụ khác đã tập trung vào các chủ đề không công cộng như đời sống cá nhân và tán gẫu riêng tư. Nó cũng gợi ý rằng chế độ nghiêm ngặt hơn vẫn đã thấy nó trong lợi ích của họ để không kiểm duyệt hoàn toàn các postvề các chủ đề nhạy cảm mà chúng tôi nghiên cứu.


Tài liệu tham khảo
[1]Acemoglu, Daron, Tarek A, Hassan, and Ahmed Tahoun, 2014, "The Power of the Street: Evidence from Egypt’s Arab Spring." NBER Working Paper 20665.
[2]Adena, Maja, Ruben Enikolopov, Veronica Santarosa, and Katia Zhuravskaya, 2014, “Radio and the Rise of Nazis in Pre-War Germany”, forthcoming in Quarterly Journal of Economics 130(4): 1885 -1939.
[3]Bamman, David, Brendan O’Connor, and Noah Smith, 2012, “Censorship and Deletion Practices in Chinese Social Media”,First Monday 17(3).
[4]China Internet Network Information Center. 2011,“The 28nd Statistical Report on Internet Development in China” July 2011,Beijing.
[5]China Internet Network Information Center. 2013. “The 32nd Statistical Report on Internet Development in China” January 2013,Beijing.
[6]China Internet Network Information Center. 2014,“The 34th Statistical Report on Internet Development in China” January 2014,Beijing.
[7]Chen, Xiaoyan and Peng Hwa Ang, 2011,“Internet Police in China: Regulation, Scope and Myths”. In Online Society in China: Creating, Celeb- rating, and Instrumentalising the Online Carnival, ed. David Herold andPeter Marolt, 40 -52, New York: Routledge.
[8]DellaVigna, Stefano, Ruben Enikolopov, Vera Mironova, Maria Petrova and Ekaterina Zhuravskaya, 2014,“Cross-border media and nationalism: Evid- ence from Serbian radio in Croatia.” American Economic Journal: Applied Economics 6(3): 103 -32.
[9]Dumais, S., Platt, J., Heckerman, D.,& Sahami, M., 1998,“Inductive learning algorithms and representations for text categorization”.Proceedings of the 7th international conference on information and knowledge management, 48-155. ACM Digital Library.
[10]Edmond, Chris,“Information manipulation, coordination, and regime change.”The Review of Economic Studies (2013): rdt020.
[11]Egorov, Georgy, Sergei Guriev, and Konstantin Sonin, 2009,“Why resource-poor dictators allow freer media: A theory and evidence from panel data.”American Political Science Review 103.04: 645-668.
[12]Enikolopov, Ruben, Alexey Makarin, and Maria Petrova, 2016,“Social Media and Protest Participation: Evidence from Russia.” Available at SSRN 2696236.
[13]Epstein, Gady, 2013,“China’s Internet: A Giant Cage,”The Economist. April 6, http://www.economist.com/news/special-report/21574628-internet-was-expected-help-democratise-china-instead-it-has-enabled
[14]Freedom House, 2015,“2015 Freedom of the Press Data” https://freedomhouse.org/report/freedom-world/freedom-world-2015#.WFxACX3CB1A
[15]Fu, King-wa, Chung-hong Chan, and Marie Chau, 2013,“Assessing cen- sorship on microblogs in China: Discriminatory keyword analysis and the real-name registration policy.”Internet Computing, IEEE 17(3): 42-50.
[16]International Telecommunication Union, 2013,“The World in 2013: ICT Facts and Figures,” Geneva. http://www.itu.int/en/ITU- D/Statistics/Documents/facts/ICTFactsFigures2013-e.pdf
[17]Jia, Ruixue, 2014,“The Legacies of Forced Freedom: China’s Treaty Ports”,Review of Economics and Statistics, Vol.96(4): 596-608.
[18]Joachims, Thorsten, 1998,“Text categorization with Support Vector Ma- chines: learning with many relevant features”,10th European Conference on Machine Learning, volume 1398 of Lecture Notes in Computer Science, 137-142, Berlin: Springer Verlag.
[19]Joachims, Thorsten, 1999,“Making large-Scale SVM Learning Practical”. Advances in Kernel Methods - Support Vector Learning, B. Scholkopf and C. Burges and A. Smola (ed.), MIT-Press.
[20]King, Gary, Jennifer Pan, and Margaret E Roberts, 2013,“How Censorship in China Allows Government Criticism but Silences Collective Expression”,American Political Science Review, 107(2(May)): 1-18
[21]King, Gary, Jennifer Pan, and Margaret E Roberts, 2014,“Reverse- Engineering Censorship in China: Randomized Experimentation and Par- ticipant Observation.” Science 345 (6199): 1-10.
[22]Kleinberg, Jon, 2006,“Complex Networks and Decentralized Search Algorithms”,Proceedings of the International Congress of Mathematicians (ICM).
[23]Lorentzen, Peter, 2014,“China’s Strategic Censorship.”American Journal of Political Science 58.2: 402-414.
[24]Morozov, Evgeny, 2012,“The Net Delusion: The Dark Side of Internet Freedom.”Public Affairs, Reprint edition (February 28. 2012).
[25]Ng. Jason Q. 2015,“Politics, Rumors, and Ambiguity: Tracking Censorship on WeChat’s Public Accounts Platform.” University of Toronto, mimeo.
[26]Platt, John C. 1999,“Probabilistic Outputs for Support Vector Machines and Comparisons to Regularized Likelihood Methods.”Advances in large margin classifiers 10(3): 61-74.
[27]Public Opinion Monitoring Agency, Various years, Reports on the Online Public Opinion (2010-2013). Published by People’s Daily.
[28]Qin, Bei, David Stromberg, and Yanhui Wu, 2016,“Media Bias in China,” working paper.
[29]Reporters Without Borders. 2013,“2013 World Press Freedom Index: Dashed Hopes after Spring,” https://rsf.org/en/news/2013-world-press- freedom-index-dashed-hopes-after-spring.
[30]Sakaki, Takeshi, Makoto Okazaki, and Yutaka Matsuo, 2010,“Earthquake shakes Twitter users: real-time event detection by social sensors,”Proceed- ings of the 19th international conference on World Wide Web. ACM.
[31]Sebastiani, Fabrizio, 2002,“Machine learning in automated text categoriz- ation”,ACM Computing Surveys, 34(1). 1 -47.
[32]Shirky, Clay, 2011,“The Political Power of Social Media: Technology, the Public Sphere, and Political Change”.Foreign Affairs, January/February.
[33]Zhu, Tao, David Phipps, Adam Pridgen, Jedidiah R, Crandall, and Dan S, Wallach, 2013,“The Velocity of Censorship: High-Fidelity Detection of Microblog Post Deletions,” arXiv preprint. arXiv:1303.0597. 23
Hình 1: Số được ước lượng của Sina Weibo post bởi Weibook và API
Số được ước lượng của các post Sina Weibomỗi tháng; xanh lam: tổng Weibook; xanh lá cây: các post về chính trị và kinh tế; đỏ: tổng được ước lượng (ya hei) 

Hình 2: Dự đoán và phát hiện Sự kiện
Bộ phân lớp sự kiện chống-Nhật                    Bộ phân lớp sự kiện đình công
Trục dọc: tỷ lệ dương đúng; trục ngang: tỷ lệ dương sai
Đường đen: thông tin hiện thời; đường đỏ: trước một ngày 


Phần của Những người dùng chính quyền trên Sina Weibo ngang các Tỉnh đối lại sự Thiên vị Báo chí và Kiểm duyệt
Người dùng chính quyền và sự Thiên vị của Báo         Người dùng chính quyềnvà các post bị xoá
Trục ngang: phần của các người dùng chính quyền;
Trục dọc: bên trái: không có thiên vị báo giữa các nhật báo; bên phải: phần của các post bị xoá trên weibo

Ghi chú: Mỗi chấm đại diện một tỉnh ở Trung Quốc. Panel bên trái vẽ phần được ước lượng của những người dùng chính quyền đối lại số đo về sự thiên vị báo chí trong các nhật báo bị ĐCS kiểm soát nghiêm ngặt (từ Qin et al. 2016). Panel bên phải vẽ phần được ước lượng của những người dùng chính quyềnđối lại số đo về kiểm duyệt do Bamman et al. (2012) phát triển, phần của các post bị xoá.



Bảng 1: Các chủ đề nóng theo loại
Xung đột (độ nhạy cảm: rất cao)
Phản đối (độ nhạy cảm: cao)
Đình công (độ nhạy cảm: trung bình)
Tham nhũng
# tổng số post: 382.232
# tổng số post: 2.526.325
# tổng số post: 1.348.964
# tổng số post: 5.326.897












Tần suất
Từ
Dịch
Tần suất
Từ
Dịch
Tần suất
Từ
Dịch
Tần suất
Từ
Dịch
322.797
镇压
trấn áp
647.711
示威
biểu tình
1.361.854
罢工
bãi công
1.455.878
贪污
tham ô
32.117
冲突
xung đột
534.784
静坐
biểu tình ngồi
69.068
罢课
bãi khoá
1.658.687
腐败
hủ bại
19.124
警民
cảnh sát
và dân
430.112
自焚
tự tử
101.887
工人
công nhân
681.055
公款
tiền
17.460
催泪弹
bom hơi cay
260.574
讨薪
đòi đền bù
98.822
电脑
máy tính
674.503
受贿
nhận hối lộ
31.161
矛盾
mâu thuẫn
346.836
游行
diễu hành
65.557
出租车
taxi
556.609
贿赂
đưa hối lộ
40.286
警察
cảnh sát
164.367
请愿
thỉnh nguyện
164.549
nước mắt
975.187
官员
quan chức
14.271
官民
quan dân
113.936
示威者
người biểu tình
46.219
工会
công đoàn
393.125
廉政
liêm chính
31.935
暴力
bạo lực
109.339
堵路
ngăn đường
91.051
抓狂
điên (rồ)
639.293
利益
lợi ích
130.036
bị
166.600
抗议
kháng nghị
55.687
司机
lái xe
1.002.491
政府
chính phủ
74.391
政府
chính phủ
101.845
集会
hội họp
48.845
集体
tập thể
245.606
挪用
biển thủ
12.002
宽恕
khoan thứ
118.262
农民工
lao động di cư
52.066
员工
nhân viên
512.006
集团
nhóm
12.764
武力
vũ lực
103.975
tư duy
157.937
今天
hôm nay
201.891
吃喝
ăn uống
18.951
军队
quân đội
80.481
静静
tĩnh
24.477
的士
taxi
153.731
职权
chức quyền
29.566
民众
dân chúng
60.237
闲谈
tán gẫu
22.559
法国人
người Pháp
572.569
tiền
14.701
叙利亚
Syria
58.318
人非
thiếu sót của dân
51.479
上班
đi làm
247.942
贪官
quant ham
20.170
抗议
kháng nghị
72.753
民工
dân công
16.290
罢市
bãi thị
156.363
滥用
lạm dụng
60.068
人民
nhân dân
63.719
白宫
Nhà Trắng
40.827
抗议
kháng nghị
291.309
nguyên. cựu
21.521
村民
thôn dân
130.198
ngồi
86.612
手机
điện thoại
288.287
干部
cán bộ
10.264
起义
khởi nghĩa
60.957
riêng mình
17.679
đình công
123.827
行贿
đút lót
10.150
开枪
nổ súng
37904
玩火自焚
chơi với lửa và đốt mình
41586
工资
tiền lương
126.820
情妇
bồ nhí

Ghi chú: Bảngnày trình bày các từ chủ đề nóng,được sắp xếp theo tần suất của một từ là cao không bình thường ra sao trong các postđưa tin về một loại cá biệt (thí dụ, xung đột) so với tần suất trong toàn bộ bộ dữ liệu.



Bảng 2
Các post hoạt động tập thể



Từ một mẫu ngẫu nhiên gồm 1.000 post


Tổng số  post chứa từ khoá

Các post thực sự về chủ đề xác định
Sự kiện sắp xảy ra
Sự kiện đang xảy ra
Sự kiện quá khứ

Bình luận chung

Xung đột
382.232
398
1
11
156
230
Phản đối
2.526.325
317
2
19
172
124
Đình công
1.348.964
312
5
178
39
90
Chống-Nhật
2.506.944
504
9
188
42
265

Ghi chú: Đối với mỗi loại chủ đề nóng,trong tổng số các trường hợp của từ được sử dụng, chúng tôi khảo sát một mẫu ngẫu nhiên của 1.000 post. Chúng tôi mã hoá một cách thủ công các postcó phủ hay khôngvà phủ thế nào một loại cá biệt của sự kiện.


Bảng 3: Dự đoán và Phát hiện Sự kiện(# trên quận và ngày)
BIẾN SỐ
Xung đột
Phản đối
Đình công
Chống-Nhật
Tai nạn mỏ than

Panel A
# Weibo post: ngày sự kiện
6,1
62,6
167,3
2036,6
3,0
# Weibo post: ngày trước sự kiện
3,4
54,3
48,1
924,6
0,7
# Weibo post: ngày không có sự kiện
0,7
4,4
2,5
4,5
1,2

Panel B
Hệ số hồi quy





# Weibo post
0,647***
(0,196)
1,013***
(0,166)
1,777***
(0,310)
1,105***
(0,209)
1,213***
(0,286)
# bài báo
0,002*
(0,001)
0,002*
(0,001)
0,001
(0,002)
-0,000
(0,001)

Số quan sát
346.336
346.336
346.336
346.336
346.336
R-bình phương
0,002
0,006
0,007
0,005
0,004

Panel C
Hệ số hồi quy





# Weibo post ngày trước sự kiện
0,381***
(0,137)
0,639***
(0,143)
0,802***
(0,200)
0,614***
(0,133)
-0,143*
(0,082)
# bài báo ngày trước sự kiện
-0,000
(0,001)
0,001
(0,001)
0,000
(0,002)
0,000
(0,000)

Số quan sát
346.336
346.336
346.336
346.336
346.336
R-bình phương
0,001
0,006
0,005
0,003
0,004

Ghi chú: Panel A: Đối với mỗi loại, Bảng này trình bày số trung bình củacác postđược đăng bởi những người dùngtrong quận (prefecture) nơi một sự kiện đã xảy ra vào ngày của sự kiện (dòng đầu) và vào ngày trước sự kiện (dòng thứ hai). Dòng thứ ba cho biết số trung bình tương tự của các postvào những ngày không có sự kiện như vậy xảy ra. Panels B và C: Đơn vị quan sát là quận và ngày. Biến phụ thuộc là một dummy cho sự xuất hiện của một sự kiện. Các biến số độc lập chủ yếu là log của (1 + số các post Sina Weibonhắc tới các từ liên quan tới sự kiện) và log của (1 + số bài báo nhắc tới các từ liên quan tới sự kiện). Các hệ số và sai số chuẩn được nhân với 1.000 để làm cho Bảngdễ đọc hơn. Các (biến) điều khiển gồm quận và các tác động cố định năm. Các sai số chuẩn, được ghép cụm theo quận, trong dấu ngoặc.


Bảng 4
Đưa tin về các Chính trị gia

(1)
(2)
(3)
(4)


Tên/Chức vụ


# post



# post trên chức vụ
% post thảo luận các vụ tham nhũng cụ thể


Số đo ý kiến

Tập Cận Bình
1.374.780
1.374.780
0,23
0,88
Ôn Gia Bảo
1.338.882
1.338.882
0,15
0,51
Lý Khắc Cường
401.451
401.451
0,14
0,81
Hồ Cẩm Đào
347.158
347.158
0,10
1,16
Thống đốc Tỉnh
728.386
23.469
1,88
-0,19
Bí thư Tỉnh uỷ
403.074
13.002
1,91
0,52
Thị trưởng
3.541.029
10.305
1,39
0,17
Bí thư Thị uỷ
718.856
2.159
2,81
0,28
Huyện trưởng
719.634
251
1,21
-0,70
Bí thư huyện uỷ
324.522
113
4,40
-0,88
Trưởng Thôn
1.053.346
25
0,65
-0,51
Bí thư Thôn
144.742
3
4,26
-1,40

Ghi chú: Cột(1)cho thấy số các postđưa tin mỗi chức vụ hay tên lãnh đạo chóp bu. Bảngđược sắp xếp theo Cột(2)—số các posttrên chức vụ. Cột(3) cho thấy số điểm phần trăm được ước lượng của các postnhắc đến chức vụ của một lãnh đạo mà thảo luận các vụ tham nhũng cụ thể. Cột(4) trình bày một số đo rộng về ý kiến (tình cảm) của nhân dân đối với lãnh đạo hay loại lãnh đạo. Chi tiết xem văn bản.
Bảng 5a
Số trung bình của các post theo sự Buộc tội Tham nhũng

2-7 tháng trễ

12-23 tháng trễ

Tên
Tham nhũng

Tên
Tham nhũng
Quan tham
40,9
3,9

148,3
4,7
Quan không tham
44,4
0,4

121,1
1,8

Ghi chú: Để khảo sát liệu các post mạng xã hộicó dự đoánsự buộc tội tham nhũng trong tương lai không.Chúng tôi nghiên cứu một mẫu của 200 sự buộc tội tham nhũng. Để so sánh, chúng tôi dựng một mẫu kiểm chứng đối sách của 480 chính trị gia đã không bị buộc tội tham nhũng. Chúng tôi đếm số các postnhắc đến tên của mỗi trong số 680 chính trị gia này và số các post nhắc đến cả chính trị gia lẫn bất kỳ từ nào trong loại tham nhũngcủa chúng tôi. Chúng tôi tính số các post 2–7 tháng (cũng như 12–23 tháng) trước một sự buộc tội tham nhũng.
Bảng 5b
Biến phụ thuộc: vụ tham nhũng dummy
BIẾN SỐ
I
II
III
IV
V
Hệ số hồi quy





# post nhắc đến tên và(2-7 tháng trước việc kiện đầu tiên)
0,0042***
(0,0010)
0,0065***
(0,0015)


0.0038***
(0,0009)
# post nhắc đến tên và(12-23 tháng trước việc kiện đầu tiên)



0,0035**
(0,0014)
0,0050**
(0,0024)
0,0029
(0,0019)
Số quan sát
680
680
680
680
680
R-bình phương
0,0014
0,053
0,009
0,044
0,052
Các tác động Cố định
No
Case Id
No
Case Id
Case Id

Ghi chú: Đơn vị quan sát là quan chức. Hồi quy cũng gồm số các postnhắc đến tên của quan chức. Biến này luôn luôn không có ý nghĩa. Các sai số chuẩn trong ngoặc, được tạo cụm bởi case id(lãnh đạo bị buộc tội và các lãnh đạo kiểm chứng đối sánh).

Bảng 6
Sự Hiện diện của Chính quyền trên Sina Weibo

Những người dùng

Các post

Phần trăm
# ước lượng
Độ lệch chuẩn

Phần trăm
Độ lệch chuẩn
Chính quyền
0,5
149.746
66.801

0,2
0,1
Báo chí
0,5
149.746
66.801

2,3
1,6
Tổ chức quần chúng
1,0
299.491
94.233

1,1
0,5
Gắn với chính quyền
2,0
598.982
132.590

3,6
1,6
Khác
98,0
29.350.118
132.590




Ghi chú: Dựa trên 1.000 người dùngSina Weibo được chọn ngẫu nhiên từ toàn bộ cơ sở dữ liệu gồm 30 triệu người dùng của chúng tôi. Một người dùng được phân loại như người dùng chính quyền nếu các post tiết lộ rõ rệt nét nhận diện của người dùng hoặc liên quan phần lớn đếncác hoạt động của một chức năng chính quyền; những người dùngtổ chức quần chúng được mã hóa tương tự. Một tài khoản được phân loại như một tài khoản báo chí nếu các posttiết lộ rằng người dùnglà một cơ quan báo chí hay một chi nhánh của cơ quan báo chí. “Gắn với chính quyền” là tổng của “chính quyền,” “báo chí,” và “tổ chức quần chúng.”


Bảng 7
Biến phụ thuộc: Phần của những người dùng chính quyền

   I
GDP
-0,849***
(0,103)
Thành trì của ĐCSTQ
0,533**
(0,236)
Hiệp ước cảng
-0,079
(0,166)
Khoảng cách đến Bắc Kinh
-0,464***
(0,165)
Dân số
0,366***
(0,129)
Vĩ độ
0,052***
(0,016)
Kinh độ
-0,037***
(0,014)
Số quan sát
259
R-bình phương
0,358

Ghi chú: Đơn vị quan sát là quận (chuyên khu-prefecture). Kết quả nhận được bởi hồi quy bình phương tối thiểu chéo bình thường. Các giá trị GDP và dân số là từ 2010,mà là năm đầu tiên Sina Weibo được dùng. Các sai số chuẩn vững chãi (robust) ở trong ngoặc. “ĐCSTQ” là Đảng Cộng sản Trung Quốc,” “Hiệp ước cảng” là một proxy cho ảnh hưởng Tây phương.

*** p<0,01.
** p<0,05.
* p<0,1.


Phụ lục: các từ khoá
Tiết đoạn này lập danh mục các chuỗi tìm kiếm mà chúng tôi đã dùng để nhận diện các posttrong mỗi chủ đề xung đột, phản đối, đình công,tham nhũng và các chức vụ chính trị/chính trị gia.
Bảng A1: Xung đột, các cuộc phản đối và các cuộc đình công
Xung đột
Phản đối
Đình công
被袭击
堵路
罢弛
被袭击 and ( 政府 or 官员 or 干部)
非法集会
罢工
威胁政府
集会and(群众or 公众or 大规模)
罢课
催泪弹and(群众or 政府or 警察)
静坐
罢驶
官民and(矛盾or 冲突or 暴力or 对抗)
请愿
罢市
军民and(矛盾or冲突or 暴力or 对抗)
请愿
罢运
镇压
示威


讨薪


学潮


工潮


游行


学生 and 闹事


封堵and (政府or 群众or 工人or 公路)


自焚


千人下跪


not 反日


not 抗日


not 反日





Bảng A2: Tham nhũng
Tham nhũng
腐败 and (政府 or 部门 or 官员 or 干部 or 官员)
腐败分子
公款
贿赂
廉政
买官
卖官
挪用
社保 and (贪污 or 腐败 or 挪用)
受贿
索贿
贪污
行政腐败
徇私
滥用职权
利益集团
侵占 and (政府 or 官员 or 部门 or 干部)
情妇 and (政府 or 官员 or 部门 or 干部)
失职 and (政府 or 官员 or 部门 or 干部)
私分 and (政府 or 官员 or 部门 or 干部)
私生 and (政府 or 官员 or 部门 or 干部)
伪造 and (政府 or 官员 or 部门 or 干部)
舞弊 and (政府 or 官员 or 部门 or 干部)
虚报 and (政府 or 官员 or 部门 or 干部)
虚开 and (政府 or 官员 or 部门 or 干部)
诈骗犯 and (政府 or 部门 or 官员 or 干部)
诈骗罪 and (政府 or 部门 or 官员 or 干部)












Bảng A3: Các chính trị gia

Chức vụ chính trị/người
Các từ khoá
Tập Cận Bình
习近平
Tập Cận Bình
习大大
Tập Cận Bình
习总
Lý Khắc Cường
李克强
Hồ Cẩm Đào
胡锦涛
Ôn Gia Bảo
温家宝
Ôn Gia Bảo
温总理
Thống đốc Tỉnh
省长 or 区主席 or 省主席 or 区副主席 or 省副主席
Bí thư Tỉnh uỷ
(书记 and (省委 or 自治区)) or 省书记 or 省副书记
Thị trưởng
市长 or 州主席 or 州专员 or 地区专员
Bí thư Thị uỷ
(书记 and (市委 or 地委 or 自治州)) or 市书记 or 市副书记
Huyện trưởng
县长
Bí thư Huyện uỷ
书记 and 县委
Trưởng Thôn
村长
Bí thư đảng uỷ Thôn
村支书







*Bài báo này (Why Does China Allow Freer Social Media? Protests vs. Surveillance and Propaganda) đã được lưu truyền trước như “The Political Economy of Social Media in China.” Một phiên bản ngắn hơn được đăng tại Journal of Economic Perspectives, số mùa đông 2017, tr. 117-140.[Nguyễn Quang A dịch].
Bei Qin là Assistant Professor tại School of Economics and Finance. Faculty of Business and Economics. University of Hong Kong. Hong Kong. David Strömberg là Professor tại Institute for International Economic Studies. Stockholm University. Stockholm. Sweden. Yanhui Wu là  Assistant Professor về Finance and Business Economics. Marshall School of Business. University of Southern California. Los Angeles. California. USA. Địa chỉ email của họ là beiqin@hku.hk. david.stromberg@iies.su.se. and yanhuiwu@marshall.usc.edu.

[1]Dữ liệu của chúng tôi cho nghiên cứu này kết thúc trong 2013. Trong năm đó, số người sử dụng Weibo đã sụt gần 28 triệuvà tỷ lệ sử dụng đã sụt 9,2 điểm phần trăm,theo China Internet Network Information Center (2014).


[2]Sử dụng API public của Sina Weibo, chúng tôi đã tải xuống tất cả các post chứa các từ trung tính "ya" hoặc "hei" trong các khoảng thời gian bốn năm phút mỗi ngày và sau đó chia cho phần trung bình của các postchứa các từ này và phần trung bình của các post chứa trong các khoảng năm-phút trong một ngày. Chúng tôi đã không có khả năng để làm việc này cho các năm muộn hơn bởi vì public timeline API đã từ chối sự tiếp cận.


[3]Để phân tích các tần suất từ trong văn bản tiếng Hoa. chúng tôi sử dụng Bộ Phân đoạn Từ Stanford (Stanford Word Segmenter) để phân đoạn các từ trong mỗi postmicroblog. Chúng tôi bỏ các từ dừng (stopword),các dấu chấm câu,các URL,các tên người dùng và các ký tự phi-Trung Hoa trừ các từ viết tắt tiếng Anh có ý nghĩa khỏi văn bản. Chúng tôi loại bỏ các từ với hơn 30 ký tự và các từ xuất hiện ít hơn 5 lần. Chúng tôi nhận được 3,2 triệutừ riêng biệt và 6,0 tỷ biểu hiện (token, tức là số lần xuất hiện từ).

[4]Các tần suất từ trong mỗi post được tính sau tiền xử lý được mô tả tại tiết đoạn sớm hơn trong chú thích 3. Như các đầu vào cho SVM.chúng tôi sử dụng tần suất thuật ngữ - nghịch đảo các tuần suất tài liệu (term-frequency - inverse document frequencies). Chúng tôi sử dụng phần mềm SVM-light Joachims (1999). Dùng một mẫu ngẫu nhiên mới gồm 500 người dung,chúng tôi ước lượng mô hình probit của xác suất là một tài khoản chính quyền tuỳ thuộc vào điều kiện tham số SVM. Xem phụ lục online để biết chi tiết.
[Ghi chú thêm của người dịch: tần suất thuật ngữ t, TF(t) = (số lần thuật ngữ t xuất hiện trong tài liệu)/ (tổng số các thuật ngữ trong tài liệu); nghịch đảo tần suất tài liệu IDF (t) = loge(Tổng số tài liệu/ Số tài liệu chứa t); TF coi các thuật ngữ quan trọng như nhau; IDF đo thuật ngữ quan trọng thế nào.]


*Trong hồi quy probit biến phụ thuộc chỉ có thể lấy 2 giá trị. thí dụ 1 và 0.


[5]Phiên bản tiếng Hoa của báo cáo có thể được tải từ http://www.cnnic.cn/.