博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
一个完整的大作业
阅读量:6974 次
发布时间:2019-06-27

本文共 1859 字,大约阅读时间需要 6 分钟。

1.选一个自己感兴趣的主题。

2.网络上爬取相关的数据。

3.进行文本分析,生成词云。

4.对文本分析结果解释说明。

5.写一篇完整的博客,附上源代码、数据爬取及分析结果,形成一个可展示的成果。

 

 

 

import requestsfrom bs4 import BeautifulSoupimport reimport pandasfrom datetime import datetime import randomfrom wordcloud import WordCloudimport matplotlib.pyplot as plturl = 'http://news.qq.com/l/milite/milgn/list2010122872223.htm'list =[]def getListFullMarksArticle(url):    res = requests.get(url)    res.encoding = 'GBK'      article0 = BeautifulSoup(res.text,"html.parser")      articleList = {}      for article in article0.select('.artbox_l'):             list.append(getAllArticle(articleList,article))        def getAllArticle(articleList,article):        articleList['URL'] = article.select('li')[0].select("a")[0]['href']#链接    articleList['TITLE'] = article.select("li")[0].select("a")[0].text#标题    articleList['DATE'] = article.select("li")[0].select("span")[0].text#日期    url= article.select('li')[0].select("a")[0]['href']#链接    title = article.select("li")[0].select("a")[0].text#标题    time = article.select("li")[0].select("span")[0].text#日期    print('\n\n标题',title,'\n时间',time,'\n链接',url)    return(articleList)#循环总页数进行输出               for i in range(2,4):    allUrl='http://news.qq.com/l/milite/milgn/list2010122872223_{}.htm'.format(i)    getListFullMarksArticle(allUrl)    #保存数据df = pandas.DataFrame(list)df.to_excel('FullArticleList.xlsx')#制作词云lo = open ('FullArticleList.xlsx','r',encoding='ISO-8859-1').read()#lo = open ('FullArticleList.xlsx','r','GBK').read()#lo = open ('FullArticleList.xlsx','r','GB2312').read()#lo = open ('FullArticleList.xlsx','r','ASCII').read()#lo = open ('FullArticleList.xlsx','r','ISO-8859-8').read()#lo = open ('FullArticleList.xlsx','r','ISO-8859-7').read()FullMarks = WordCloud().generate(lo)plt.imshow(FullMarks)plt.show()

结果如下图所示:

 

 

由于未知原因,词云出现乱码。

转载于:https://www.cnblogs.com/bb437601841/p/7771151.html

你可能感兴趣的文章
《C程序员从校园到职场》一导读
查看>>
我希望一年前就知道 MongoDB 的那些事儿
查看>>
《Spark 官方文档》Spark独立模式
查看>>
《树莓派Python编程入门与实战(第2版)》——1.5 决定如何购买外围设备
查看>>
完全指南之在 Ubuntu 操作系统中安装及卸载软件
查看>>
《Spark 官方文档》在YARN上运行Spark
查看>>
《C++面向对象高效编程(第2版)》——2.5 数据封装的优点
查看>>
判断email格式的正则表达式
查看>>
HTTP Referer 二三事
查看>>
《策略驱动型数据中心——ACI技术详解》——导读
查看>>
SPDY 是什么?如何部署 SPDY?
查看>>
WebSocket实现网页聊天室
查看>>
《无人机DIY》——3.2 大疆Phantom 2 Vision+
查看>>
《Flink官方文档》Python 编程指南测试版(二)
查看>>
Linux有问必答:如何在VMware ESXi虚拟机上设置静态MAC地址
查看>>
《Unity 游戏案例开发大全》一6.1 背景以及功能概述
查看>>
《C++代码设计与重用》——2.6 接口一致性
查看>>
《AngularJS高级程序设计》——2.4 小结
查看>>
Spark Streaming + Spark SQL 实现配置化ETL流程
查看>>
算法之冒泡排序
查看>>