from collections import Counter
from itertools import chain
# サンプルドキュメントのリスト。ここでは各ドキュメントが単語のリストとして表されています。
documents = [
['apple', 'banana', 'apple', 'orange'],
['banana', 'berry', 'apple'],
['banana', 'apple', 'berry', 'kiwi'],
]
# 単語の出現回数をカウントする
word_counts = Counter(chain.from_iterable(documents))
# ドキュメントに出現する単語の数をカウントする
doc_word_presence = Counter(word for doc in documents for word in set(doc))
# 結果を表示
print("Word occurrences and document presence:")
for word in word_counts:
occurrence = word_counts[word]
presence = doc_word_presence[word]
print(f"{word}: {occurrence} times, in {presence} documents")
# 全ての文書にわたって単語をフラットなリストにする
words = [word for doc in alldata for word in doc]
# Counterを使って単語の出現回数を数える
word_counts = Counter(words)
# 最も一般的な要素を上位10件取得し、結果の出力
for word, count in word_counts.most_common(250):
print(f"{word}: {count}")
コメント
コメントを投稿