使用gpt-crawler快速整站抓取

gpt-crawler虽然名字中有GPT,但其实跟GPT没直接关系。只是一采集工具,把目标网站的内容知识点采集下来,并生成GPT知识库的json格式文件。同样我们如果搭建自己的知识库,或者做自己的网站数据源也能用上。

GPT-Crawler是一个开源工具,帮助用户从网站抓取信息,创建个性化的GPT模型或助手。以下是简化后的介绍:

核心功能
自动抓取:自动从网页提取内容。
生成JSON:整理数据为JSON格式,便于GPT模型训练。
自定义选项:用户可设置爬取参数,如URL和选择器。
平台兼容:生成的文件适用于OpenAI等平台。
社区支持:开源设计,持续更新优化。
主要用途
企业知识库:数字化文档,快速获取信息。
教育助手:解答学生问题。
技术支持:解决产品使用疑问。
数据研究:收集资料,便于分析。
使用步骤
安装Node.js:GPT-Crawler基于Node.js。
克隆代码库:使用git克隆项目。
安装依赖:运行npm install。
配置爬虫:编辑config.ts文件。
运行爬虫:执行npm start,生成output.json。