数のカウント

from collections import Counter
from itertools import chain

# サンプルドキュメントのリスト。ここでは各ドキュメントが単語のリストとして表されています。
documents = [
    ['apple', 'banana', 'apple', 'orange'],
    ['banana', 'berry', 'apple'],
    ['banana', 'apple', 'berry', 'kiwi'],
]

# 単語の出現回数をカウントする
word_counts = Counter(chain.from_iterable(documents))

# ドキュメントに出現する単語の数をカウントする
doc_word_presence = Counter(word for doc in documents for word in set(doc))

# 結果を表示
print("Word occurrences and document presence:")
for word in word_counts:
    occurrence = word_counts[word]
    presence = doc_word_presence[word]
    print(f"{word}: {occurrence} times, in {presence} documents")


# 全ての文書にわたって単語をフラットなリストにする
words = [word for doc in alldata for word in doc]

# Counterを使って単語の出現回数を数える
word_counts = Counter(words)

# 最も一般的な要素を上位10件取得し、結果の出力
for word, count in word_counts.most_common(250):
    print(f"{word}: {count}")
    

コメント