讲座回顾│崔迪:社交媒体的文本分析基础——思路与操作
发布时间: 2024-04-16 浏览次数: 184
 


415日下午,新闻传播学理论与方法前沿系列讲座在一教楼1402教室开启新的一讲。本场讲座的主讲人是复旦大学新闻学院崔迪副教授,由学院副院长陈沛芹教授主持。

讲座伊始,崔老师从他近期关于中国乒乓球队粉丝的研究切入,强调了当前社交媒体平台用户表达在经验研究中的重要性。在谈及研究方法的话题时,崔老师向同学们介绍了Paul FeyerabendAgainst MethodRichard RogersDoing Digital Methods两本书,并指出,在社会科学研究中,任何可行的方法都是方法,科学事业应该没有所谓陈规。崔老师鼓励同学们,要勇敢发展出自己的独特方法,“带着不确定性勇敢前行”。

接着,崔老师对传统社会科学研究方法和计算机辅助文本分析分别进行了介绍。当前的传统研究主要涉及的是内容分析、文本分析、话语分析、叙事分析、对话分析等方法,这些方法在当前基于文本的研究中仍然有着重要的用武之地。相比而言,计算机辅助文本分析则相对更加前沿,能够用于满足情感分析、情绪分析、文本分类、主题模型等多种数据分析需求。

此后,崔老师对计算机辅助文本分析的几个步骤进行了逐一拆解。文本挖掘的第一步是数据获取,GitHub平台的Python爬虫包和八爪鱼软件等都可以帮助爬虫小白迅速完成海量数据的采集。第二步是数据抽样与再抽样,一般而言,量化抽样方法有概率和非概率两种逻辑,而在质化研究中,则可以采用主要案例抽样、随机抽样和特写抽样的方法。第三步则是数据清理,具体可以包括词的向量化、分词、去除停用词等步骤。

在充分处理好数据的基础上,崔老师介绍了常见的几种文本分析的路径,包括词频分析、词云、传统聚类分析和情感分析,但他也指出,这些方法仍然没有跳脱出词袋模型,而时下热门的大语言模型或许能帮助我们更好地搭建共线网络,探索语义结构。最后,崔老师还推荐了诸如TableauDraw.io等十分高效的数据可视化工具。

讲座尾声,陈沛芹老师对崔迪老师呈现的这一场别开生面的讲座表达了感谢,并鼓励在场的同学积极探索适合自己的研究方法。