网络爬虫中基于图片识别的自动登录技术的研究与实现开题报告

 2022-09-29 11:46:23

1. 研究目的与意义

本课题的主要目的是设计基于图片识别的自动登录技术定向爬虫程序，同时需要满足的是具有一定的性能，要考虑到网络爬虫的各种需求。

网络爬虫主体网站的特性。对url进行构造。网络爬虫使用scrapy实现多线程，让爬虫具备更强大的抓取能力和灵活性。网络爬虫要实现对特定主题的爬取。网络爬虫还要完成信息提取任务，对于抓取回来的网页提取出来:新闻、电子图书、行业信息等。对网络爬虫的连接网络设置连接及读取时间，避免无限制的等待。研究网络爬虫的原理并实现爬虫的相关功能。

最终实现的网络爬虫应该能根据设定的验证码识别系统进行自动登录，从构造的url进行一定数据爬取，并最终得到需要的数据。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

2. 课题关键问题和重难点

使网络爬虫高效灵活,在主题网站中尽量全面的爬取信息，并且能够自动构造URL，递归调用自身，开启多线程快速的爬取，准确提取有效信息，存储到数据库，对于网络延迟的处理，并且能够开启HTTPCHACHE,极大限度的提高爬取速度，伪造代理信息，表单等，让目标网站，认为你是安全的，整合数据信息，并以json格式存储至Mongo，方面各个平台使用，通过脚本程序，迁移到Mysql为依赖关系较强的项目使用，具备可视化显示，以网页的形式有好的显示数据，并提供简单的搜索功能，能将数据简单分类，智能推荐。

本课题研究的内容是如何使网络爬虫灵活高效。1.如何更具网站主体特性不同构造URL。2.如何具备更强的抓取能力。3.如何分辨重复的网页内容。4.如何确定主题相关性。5.对于对线程并发的处理。6.对于缓存和并发请求的处理7.对反扒机制的应对8.对于网络时延等的处理。9.对于数据的存储格式与形式。

3. 国内外研究现状（文献综述）

对于网络爬虫的研究从上世纪九十年代就开始了，目前爬虫技术已经趋见成熟，网络爬虫是搜索引擎的重要组成部分。网络上比较著名的开源爬虫包括nutch，larbin，heritrix。网络爬虫最重要的是网页搜索策略（广度优先和最佳度优先）和网页分析策略（基于网络拓扑的分析算法和基于网页内容的网页分析算法）。

国内外流行的爬虫技术相当多，很多人喜欢基于python的，也有人喜欢用c#，很多人由于系统集成开发和跨平台的需要倾向于java，我更喜欢用python。

就原理来说，爬虫组件都是差不多的，无头浏览器，最能够说明爬虫的特性，它们被设计创造出来，大部分情况是用于自动化测试的。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

4. 研究方案

参考网上开源的网络爬虫和各种网络爬虫相关的书籍、视屏等信息，学习了解网络爬虫运行机制，基本原理，根据所爬取的目标网站设计自己的爬虫，学习Python，Scrapy框架的搭建，Mongodb的简单操作，Laravel，bootstrap框架学习、编写、调试。并与老师的多次面谈和邮件交流，解决了一些理论的疑点和实践上的难点，指导了爬虫的设计和利弊分析，提供了很多的帮助，设计和学习完基础知识后，搭建了繁琐的环境，在Windows下进行了爬虫的开发、调试，最终成功的实现了信息的爬取与提取，将爬去下来的数据，通过脚本程序进行数据转换，利用网页技术可视化显示，并提供简单的查询接口。

5. 工作计划

2022.12-2022.1 查阅相关资料，了解选题的目的和意义，大概确定论文的结构。对本系统采用的技术方案有一个初步的了解。对课题进行系统的分析。包括可行性分析，需求分析（环境的要求，功能分析，性能等）。完成外文翻译和需求分析，并撰写开题报告。

2022.2-2022.3 完成系统分析设计；

2022.4-2022.4 完成网络爬虫中基于图片识别的自动登录技术的研究与实现的构建与实验分析；

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。

注册

找回密码