博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
统计文本词频
阅读量:6923 次
发布时间:2019-06-27

本文共 935 字,大约阅读时间需要 3 分钟。

方法一:

#将文本内容转换为字典进行统计file01 = open('art.txt','r')list = file01.read().replace(',','').replace('.','').replace(';','').split()    #读取文件去除文本中的特殊符号并切片list01 = {}for i in list:  #生成字典,单词为keys,出现的次数为value    if i in list01.keys():        list01[i] = list01[i] + 1    else:        list01[i] = 1a = sorted(list01.items(), key=lambda va:va[1],reverse=True)    #排序count = 0for j in a:    if count <5:        print('单词 %s 出现了 %d 次' % (j[0],j[1]))   #打印前5名        count += 1    else:        breakfile01.close()

 

方法二:

#将文本内容转换为列表进行统计from collections import Counterfile = open('art.txt','r')list01 =  file.read().replace(',','').replace('.','').replace(';','').split()   #读取文件去除文本中的特殊符号并切片a = Counter(list01)     #排序b = a.most_common(5)    #取出前5名for i in b:    print('单词 %s 出现了 %d 次' % (i[0], i[1]))file01.close()

 

输出结果:

单词 the 出现了 6 次单词 of 出现了 5 次单词 in 出现了 3 次单词 to 出现了 3 次单词 something 出现了 3 次

  

转载于:https://www.cnblogs.com/jacky-zhao/p/8244117.html

你可能感兴趣的文章
【QT】视频播放+文件选择
查看>>
【原创】C#玩高频数字彩快3的一点体会
查看>>
根据多表条件更新表.............. 一条sql语句.............
查看>>
inotify用法简介及结合rsync实现主机间的文件实时同步
查看>>
chrome和搜狗浏览器的js问题
查看>>
摄影视觉运用于网页设计
查看>>
[UI] 精美UI界面欣赏[9]
查看>>
Tasker to detect and vibrate once the ougoing call is being answered
查看>>
#define中 #与##的神奇用法linux学习 (转)
查看>>
博客园博客撰写工具【开源】(可以直接黏贴图片)
查看>>
onkeyup 事件会在键盘按键被松开时发生
查看>>
移动测试会Ebay沙龙PPT
查看>>
简约之美Jodd-http--深入源码理解http协议
查看>>
Fat-tree 胖树交换网络
查看>>
楼塔当天领袖acm心理(作为励志使用)
查看>>
Java知多少(98)Graphics类的绘图方法
查看>>
SQL Server 有关EXCEPT和INTERSECT使用
查看>>
unix域套接字UDP网络编程
查看>>
.NET破解之谷歌地图下载助手-睿智版
查看>>
在Hekaton里,正确选择哈希存储桶数
查看>>