TF-IDF算法的核心在于两个简单的概念:词频和逆文档频率。简单来说,就是计算一个关键词在整个文档中的出现频率(词频),同时考虑该关键词在整个语料库中的重要性(逆文档频率)。这个公式看似复杂,实则非常巧妙地平衡了关键词的普遍性和特定性的关系。