博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
综合练习:词频统计
阅读量:5115 次
发布时间:2019-06-13

本文共 624 字,大约阅读时间需要 2 分钟。

综合练习

词频统计预处理

下载一首英文的歌词或文章

将所有,.?!’:等分隔符全部替换为空格

将所有大写转换为小写

生成单词列表

生成词频统计

排序

排除语法型词汇,代词、冠词、连词

输出词频最大TOP20

将分析对象存为utf-8编码的文件,通过文件读取的方式获得词频分析内容。

fo=open('test.txt','r')str=fo.read()fo.close()rap=''',?!'''exculde={
'the','one','i','to','is','so','and','how','me'}for c in rap: str=str.replace(c," ")wordList=str.lower().split()wordDict={}wordSet=set(wordList)for c in wordList: wordDict[c]=wordList.count(c)for i in exculde: wordDict.pop(i)dictList = list(wordDict.items())dictList.sort(key= lambda x:x[1],reverse=True)for i in range(10): print(dictList[i])

转载于:https://www.cnblogs.com/god1924668503/p/8649747.html

你可能感兴趣的文章
linux中启动与终止lnmp的脚本
查看>>
gdb中信号的处理[转]
查看>>
LeetCode【709. 转换成小写字母】
查看>>
如何在Access2007中使用日期类型查询数据
查看>>
Jzoj4757 树上摩托
查看>>
CF992E Nastya and King-Shamans(线段树二分+思维)
查看>>
第一个Java Web程序
查看>>
树状数组_一维
查看>>
如果没有按照正常的先装iis后装.net的顺序,可以使用此命令重新注册一下:
查看>>
linux install ftp server
查看>>
嵌入式软件设计第8次实验报告
查看>>
算法和数据结构(三)
查看>>
Ubuntu下的eclipse安装subclipse遇到没有javahl的问题...(2天解决了)
查看>>
alter database databasename set single_user with rollback IMMEDIATE 不成功问题
查看>>
Repeater + Resources 列表 [原创][分享]
查看>>
WCF揭秘——使用AJAX+WCF服务进行页面开发
查看>>
【题解】青蛙的约会
查看>>
IO流
查看>>
mybatis调用存储过程,获取返回的游标
查看>>
设计模式之装饰模式(结构型)
查看>>