![]() |
如何使用 Ubuntu VPS 构建自己的网络爬虫 - 可打印的版本 +- Netflix优惠码论坛 (https://www.sinovoter.com) +-- 版块: 合租专栏 (https://www.sinovoter.com/forum-18.html) +--- 版块: VPS 主机 服务器优惠 (https://www.sinovoter.com/forum-20.html) +--- 主题: 如何使用 Ubuntu VPS 构建自己的网络爬虫 (/thread-8134.html) |
如何使用 Ubuntu VPS 构建自己的网络爬虫 - netflix - 09-11-2023 如果您想学习如何使用 VPS 构建自己的网络爬虫,您是否考虑过使用 Scrapy?现在,我们将介绍 Scrapy 网络爬虫应用程序的基本功能。 Scrapy 是一个开源应用程序,用于从网站中提取数据。它的框架是用 Python 开发的,它使您的 VPS 能够以快速、简单和可扩展的方式执行爬虫任务。 如何在 Ubuntu 上安装 Scrapy 正如我们之前提到的,Scrapy 依赖于 Python、开发库和 pip 软件。 Python 的最新版本应该预先安装在您的 Ubuntu VPS 上。从那里开始,我们只需要在安装 Scrapy 之前安装 pip 和 python 开发人员库。 在继续之前,让我们确保我们的系统是最新的。因此,让我们登录到我们的系统并使用以下命令获得 root 权限: 代码: > sudo -i 代码: > apt-get update 代码: > apt-get install python-pip 代码: > apt-get install python-dev Scrapy 框架可以从 deb 包中安装。尝试运行以下命令: 代码: > pip install scrapy 引用:“Successfully installed scrapy queuelib service-identity parsel w3lib PyDispatcher cssselect Twisted pyasn1 pyasn1-modules attrs constantly incremental如果你看到了,你已经成功安装了 Scrapy,你现在可以开始爬网了! 在开始抓取之前,您必须设置一个新的 Scrapy 项目。输入您要存储代码并运行的目录: 代码: > scrapy startproject myProject 代码: - scrapy.cfg - the project configuration file - myProject/ 蜘蛛是您定义的类。Scrapy 使用蜘蛛从一个网站(或一组网站)中抓取信息。这是我们的第一个 Spider 的代码。将其保存在项目中“myProject/spiders”目录下名为“quotes_spider.py”的文件中: 代码: import scrapy http://quotes.toscrape.com/page/1/ http://quotes.toscrape.com/page/2/ 一旦您保存了包含代码的文件,您就可以使用以下两个命令执行您的第一个爬虫: 代码: > cd myProject 引用:“…..[scrapy] INFO: Spider closed (finished)”如果您列出当前目录中的文件,您应该会看到蜘蛛生成的新 html 文件: 引用:quotes-1.html在下面的示例中,我们将提取每个作者的信息,按照他们页面的链接,并将结果保存在 JSON Lines 格式的文件中。我们首先需要创建一个名为 author_spider.py 的新蜘蛛,其内容如下: 代码: import scrapy 代码: > scrapy crawl author -o author.jl 这只是 Scrapy 应用程序的简要概述。看起来你可以在你的 Ubuntu VPS 上使用 Scrapy 执行一些非常复杂的任务。 如果您想了解更多关于 Scrapy 的信息,最好的办法是深入了解Scrapy 的文档。 |