from collections import Counter from itertools import chain # サンプルドキュメントのリスト。ここでは各ドキュメントが単語のリストとして表されています。 documents = [ ['apple', 'banana', 'apple', 'orange'], ['banana', 'berry', 'apple'], ['banana', 'apple', 'berry', 'kiwi'], ] # 単語の出現回数をカウントする word_counts = Counter(chain.from_iterable(documents)) # ドキュメントに出現する単語の数をカウントする doc_word_presence = Counter(word for doc in documents for word in set(doc)) # 結果を表示 print("Word occurrences and document presence:") for word in word_counts: occurrence = word_counts[word] presence = doc_word_presence[word] print(f"{word}: {occurrence} times, in {presence} documents")
# 全ての文書にわたって単語をフラットなリストにする words = [word for doc in alldata for word in doc] # Counterを使って単語の出現回数を数える word_counts = Counter(words) # 最も一般的な要素を上位10件取得し、結果の出力 for word, count in word_counts.most_common(250): print(f"{word}: {count}")
コメント
コメントを投稿