Google 可以从以下来源获取有关实体及其相互关系的信息:知识图谱的数据源
非结构化数据源
理论上,谷歌可以从中提取有关实体的非结构化信息的来源包括
- 通过爬取和自然语言处理获得的普通网页
- 通过自然语言处理搜索查询
- 非结构化数据库和数据集
知识库在这里发挥着特殊的作用。您可以在我的文章《谷歌如何从非结构化内容中识别和解释实体?》中了解更多信息。
半结构化数据源
Google可以从维基百科 电报数据 等具有系统结构的百科全书中获取半结构化信息。在我的文章《谷歌如何处理来自维基百科的知识图谱信息?》中阅读更多相关内容。
结构化数据源
使用语义数据库和数据集,Google 可以直接导入结构化数据(例如通过 API),并将其用于知识图谱。可以使用以下数据库:
- Wikidata(原为 Freebase)
- Google 我的商家
- 中央情报局世界概况
- 数据库百科
- 避免
- 通过微数据、RDFa 和 JSON-LD 提供结构化数据的网站
- 许可数据
- 中央情报局世界概况
- 数据集
- ClueWeb09至ClueWeb12
- 普通爬行
- KBA 流语料性的来库
处理知识图谱的结构化数据
Google 获取有关实体的首要来源是通过 莉萨·博恩 第一副总统 为其性的来提供结构化数据的来源。
在这篇文章中我将只处理这种类型的数据源。我将在后续文章中讨论提取非结构化数据和半结构化数据(例如来自维基百科的数据)的更为复杂的方法。
Google 可以使用资源描述框架(简称 RDF)捕获结构化数据。实体是按照对象-谓词-主题模式对不同 RDF 语句的性的来总结。例如,陈述如下: “堪培拉是澳大利亚的首都。”
这种联系在语法上也 韓國數據 可以这样表示。堪培拉是主语,澳大利亚是宾语,(是)首都是谓语。这种关系类型也可以用动词来描述,例如“托马斯·穆勒效力于拜仁慕尼黑队”。因此,客体和主体始终是实体。谓词可以是实体类型或类、属性、性的来动词或者它们的组合。
大多数结构化数据库以机器可读的 RDF 格式提供信息或允许转换成这种格式。 Google 访问他们信任的数据库,例如 Wikidata、CIA World Factbook……、结构化数据集或翻译数据库,例如 DBpedia 或 YAGO,这些数据库将维基百科信息转换为机器可读的数据。
由于包含结构化数据的数据库和数据集的增长和更新相对较慢,因此谷歌一再鼓励网站管理员在其网站中使用结构化数据也就不足为奇了。谷歌收集和处理的结构化数据越多,他们就越接近能够处理非结构化数据的性的来目标。结构化数据作为机器学习的训练数据。
您可以在我的文章 《为什么结构化数据将来可能会被 Google 淘汰》中阅读有关此内容的更多信息。
什么是实体类型和实体类或域?
在各种 Google 专利中,您可以找到术语“实体类型”和“实体类”或“域”。某些实体类型和域具有相似的一组属性,因此形成一个组。例如,“人”或“人类”这个领域总是可以被分配诸如 出生地、 居住地、 出生日期等属性。这清楚地定义了域及其相关实体类型。