基于Spark与Echarts的社交网站舆情分析系统

数媒竞赛获奖作品信息及简介
作品名称基于Spark与Echarts的社交网站舆情分析系统
参赛院校重庆邮电大学
指导老师雷大江
团队成员傅泓瑞、李承家、邓先阆、朱金龙
奖项等级三等奖
竞赛年份2022

1. 作品意义 从多个角度、多个来源了解在庞大的互联网上人们的舆论动向,让每个人更加了解自身所在的社会,并且为应对西方对我国信息战、舆论战的准备,最后为国家或企业的决策提供舆论指导。 2. 技术特色 处于集群中的机器均为华为云服务器,其操作系统均基于华为自研操作系统openEuler,数据库基于华为云数据库,发扬了国产技术,预防了海外技术封锁。 比起在海量数据下效率低下的传统的机器学习框架,采用了Hadoop、Spark等在海量数据下更高效、成本更低的大数据技术,通过分布式文件系统和分布式计算引擎进行机器学习模型的训练与数据的分析。 比起传统的舆情分析系统或大数据系统,我们放弃了笨重的批处理系统,转而采用Spark Streaming进行准实时的舆情分析,更具有实时性。 使用了Echarts开源框架,对舆情数据进行了可视化。 3. 实现方法 ① 采用Scrap进行高并发爬虫进行数据采集。 ② 将爬取到的数据存入基于Hadoop集群的分布式文件系统HDFS与Redis分布式缓存。 ③ 用Spark将HDFS的数据读取入DataFrame中,然后用jieba库进行分词后对数据用Spark Streaming进行准实时词频统计。 ④ 对分词后的数据用Spark MLlib中的Word2vec模型将文本进行多维向量提取,之后传入基于Stacking的集成学习模型,最后进行回归预测得到情感分析结果,通过加权得到正负情感占比,最后用训练得到的模型传入Spark Streaming进行准实时情感预测。 ⑤ 采用RabbitMQ的订阅模式实现消息通知,并以Spring Boot框架为基础,Redis做缓存的三位一体数据构建体系,并且配置MySql作为少量分析数据的存储,为网页提供数据接口。 ⑥ 用Axios与后端所提供的接口进行交互,以React框架为基础,Ant Desgin UI库为模板,ECharts为数据呈现载体,最终展现数据分析后的页面。 4. 运行效果 部署为一个网站,网站总的来说有四个界面,一个为登陆界面,另外三个界面分别用于展示当日的各网站热搜聚合、针对特定主题的网络言论的舆情分析、与针对昨日网络热搜主题下的网络言论的舆情分析。