首页 > Java资讯 > 正文

Java网络爬虫基础入门

2019-09-25 10:06:27
3833次动力节点

　　大数据环境下，数据分析已由业务驱动转变为数据驱动，网络数据资源呈指数级增长，且散落在不同的数据源之中。对大多数企业和研究者而言，用“数据说话”仿佛成了大数据时代的重要武器。网络爬虫作为网络数据获取的重要技术，受到了越来越多数据需求者的青睐和追捧。

　　作为网络爬虫的入门采用Java开发语言，内容涵盖了网络爬虫的原理以及开发逻辑，Java网络爬虫基础知识，网络抓包介绍，jsoup的介绍与使用，HttpClient的介绍与使用等内容。本课程在介绍网络爬虫基本原理的同时，注重具体的代码实现，加深读者对爬虫的理解，加强读者的实战能力。

　　网络爬虫技术最广泛的应用是在搜索引擎中，如百度、Google、Bing等，它完成了搜索过程中的最关键的步骤，即网页内容的抓取。下图为简单搜索引擎原理图。

　　网络爬虫的作用，我总结为以下几点：

　　舆情分析：企业或政府利用爬取的数据，采用数据挖掘的相关方法，发掘用户讨论的内容、实行事件监测、舆情引导等。

　　企业的用户分析：企业利用网络爬虫，采集用户对其企业或商品的看法、观点以及态度，进而分析用户的需求、自身产品的优劣势、顾客抱怨等。

　　科研工作者的必备技术：现有很多研究都以网络大数据为基础，而采集网络大数据的必备技术便是网络爬虫。利用网络爬虫技术采集的数据可用于研究产品个性化推荐、文本挖掘、用户行为模式挖掘等。

　　网络爬虫涉及的领域包括:

　　网络爬虫的基本概念

　　网络爬虫（WebCrawler），又称为网络蜘蛛（WebSpider）或Web信息采集器，是一种按照一定规则，自动抓取或下载网络信息的计算机程序或自动化脚本，是目前搜索引擎的重要组成部分。

　　狭义上理解：利用标准的HTTP协议，根据网络超链接（如https://www.baidu.com/）和Web文档检索的方法（如深度优先）遍历万维网信息空间的软件程序。

　　功能上理解：确定待爬的URL队列，获取每个URL对应的网页内容（如HTML/JSON），解析网页内容，并存储对应的数据。

　　网络爬虫的分类

　　网络爬虫按照系统架构和实现技术，大致可以分为以下几种类型：通用网络爬虫（GeneralPurposeWebCrawler）、聚焦网络爬虫（FocusedWebCrawler）、增量式网络爬虫（IncrementalWebCrawler）、深层网络爬虫（DeepWebCrawler）。实际的网络爬虫系统通常是几种爬虫技术相结合实现的。

　　通用网络爬虫：爬行对象从一些种子URL扩充到整个Web，主要为门户站点搜索引擎和大型Web服务提供商采集数据。

　　通用网络爬虫的爬取范围和数量巨大，对于爬行速度和存储空间要求较高，对于爬行页面的顺序要求较低，通常采用并行工作方式，有较强的应用价值。

　　聚焦网络爬虫，又称为主题网络爬虫：是指选择性地爬行那些与预先定义好的主题相关的页面。

　　和通用爬虫相比，聚焦爬虫只需要爬行与主题相关的页面，极大地节省了硬件和网络资源，保存的页面也由于数量少而更新快，可以很好地满足一些特定人群对特定领域信息的需求。

　　通常在设计聚焦网络爬虫时，需要加入链接和内容筛选模块。一个常见的案例是基于关键字获取符合用户需求的数据，如下图所示: