robots协议犯法吗(爬虫技术违法吗)

admin4个月前1

大家好，今天来为大家解答robots协议犯法吗这个问题的一些问题点，包括爬虫技术违法吗也一样很多人还不知道，因此呢，今天就来为大家分析分析，现在让我们一起来看看吧！如果解决了您的问题，还望您关注下本站哦，谢谢~

googledocs是什么意思

我首先解释一下robots协议，allow的目录，是允许蜘蛛爬的，也就是/$目录,/support目录/a目录蜘蛛会自己爬的。在googledocs里面，而根目录是禁止的。

然后我解释一下googledocs,里面的文档是可以发布，是可以共享，但必须是要首先登陆，才能访问这些文件的URl，所以搜索引擎是索引不到的。

UC浏览器robot协议限制抓取怎么解决

打开设置，选择root，把限制抓取更改为允许

robots具体体现是

robots是网站跟爬虫间的协议，用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限，尽管只要放在根域名目录下，未设置系统级目录访问权限的文件爬虫都可以抓取的到，但网站跟搜索引擎间如果没有协议，将使不可预知的大量信息泄露到网上，这不是双方愿意看到的。这种约定说到本质是人与人之间的君子约定。除此外，它还有跟nofollow一样提升SEO效率的功用

51信用卡被查引发"爬虫技术"争议，是否侵犯个人信息

“爬虫技术是一项工具，但被居心不良的人使用，就可能出现大问题。

尽管近日51信用卡被查主要源自其委托的催收公司存在冒用国家工作人员暴力催收行为，但在多位业内人士看来，这种暴力催收行为离不开爬虫技术的“配合”。

“比如有些互联网消费金融平台通过爬虫技术能时时掌握借款人行踪与地址定位（未必获得用户允许），然后将此信息转交给催收公司，由后者上门轮番暴力催收，无论借款人跑到哪里，暴力催收就如影随影，如此部分借款人心态崩溃，容易走上不归路。此外有些平台在未获得用户授权的情况下，通过爬虫技术掌握借款人与亲朋好友的通话记录，由此向这些亲朋好友施压督促他还款，导致借款人感到脸面丢失，也容易走上不归路。

多数情况下，借款人看到的授权协议仅仅显示平台将通过后者授权的账号，只能登陆相关网站邮箱与手机桌面查看所下载的APP。但事实上，这些平台的爬虫技术早已突破授权协议使用范畴，开始抓取借款人在网站邮箱与手机桌面的大量各类数据，其中不少涉及用户极其隐私的个人信息“另有他用”。比如他们会将借款人地址定位信息“交给”催收公司进行催收回款，或将借款人其他隐私信息卖给其他平台作为信贷风控决策依据等。

“在2017年《关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》出台后，相关部门曾抓了一些利用爬虫技术过度收集滥用个人隐私数据的P2P平台技术人员，但由于当时处罚力度不够重，并未引发很多大数据风控机构与P2P平台高层重视，如今多家爬虫技术公司被查与相关高层被抓，足以凸显相关部门正采取雷霆手段整治爬虫技术过度收集滥用个人隐私数据行为，从而净化个人隐私信息保护领域。经此一番行业动荡，利用爬虫技术过度收集个人隐私信息牟利的公司未来生存空间也被大幅压缩，目前很多银行与持牌金融机构已经暂停与这类机构的各类大数据风控技术合作。

谷歌为何开源robots.txt这家搜索巨头有怎样的打算

外媒VentureBeat报道称，谷歌希望将发展数十年的robots.txt解析器开源，以推动REP成为搜索引擎爬虫的行业标准。

机器人排除协议（REP）是荷兰软件工程师MartijnKoster于1994年提出的一个标准，几乎已经成为了网站不希望被搜索引擎收录的注释的事实标准。

（截图viaVentureBeat）

比如谷歌爬虫（Googlebot）就会在索引某个网站时扫描robots.txt文件，以确定其应该忽略掉哪些部分。如果根目录中未包含该文件，那搜索引擎就会默认索引（index）全站内容。

值得一提的是，，该文件不仅可以用于提供直接的爬虫索引，还可以被用来填充一些关键字，以实现“搜索引擎优化”（SEO）。此外，并非所有抓取工具都会严格遵从robots.txt文件。

比如几年前，互联网档案光就选择了为其“时光机”（WaybackMachine）归档工具提供支持，另外一些恶意抓取工具也会有意忽略REP。

不过需要指出的是，即便REP已经成为了默认的实施标准，但它实际上从未成为真正的互联网标准，正如互联网工程任务组（IETF-一家非营利性开放标注组织）所定义的那样。

为了推动这项转变，谷歌正在积极参与行动。这家搜索巨头表示，当前的REP可以被“解释”，但并不总是涵盖边缘化的案例。

作为补充，谷歌提出了更全面的“未定义场景”。比如在执行一次“扫描已知内容”的任务时，爬虫该如何处理“服务器出现不可访问故障”的robots.txt文件、或者有拼写错误的规则？

谷歌在一篇博客文章中写到：“对于网站所有者来说，这是一项极具挑战性的问题。因为模糊的事实标准，让他们很难恰当地编写规则”。

我们希望帮助网站所有者和开发者在互联网上创造出令人惊叹的体验，而无需担心如何对抓取工具加以限制。

于是谷歌与REP原作者MartijnKoster、网站管理员、以及其它搜索引擎合作，向IETF提交了一份关于《如何在现代网络上适用REP》的提案。

该公司尚未公布该草案的全貌，但却是提供了一些指引。比如任何基于URI的传输协议，都可以适用robots.txt。且其不再局限于HTTP，亦可面向FTP或CoAP。

据悉，开发者必须至少解析robots.txt的前500KB内容。定义文件的大小，可确保每个连接的打开时间不会太长，从而减轻不必要的服务器压力。

另外，新的最大缓存时间被设置为24小时（或可用的缓存指令值），使得网站所有者能够随时灵活地更新他们的robots.txt，且爬虫不会因此而让网站超载。

例如，在HTTP的情况下，可使用Cache-Control报头来确定缓存时间。而当先前可访问的robots.txt文件由于服务器故障而变得不可用时，则会在相当长的时间段内不再检索该网站。

这里需要点明的是，抓取工具可以用不同的方式去解析robots.txt文件中的说明，这可能会导致网站所有者的混淆。

为此，谷歌特地推出了C++库，其支持Googlebot在GitHub上给出的解析和匹配系统，以供任何人访问。

根据GitHub上的发布说明，Google希望开发者构建自己的解析器，以更好地反映Google的robots.txt文件的解析和匹配。

爬虫技术违法吗

先说结论，技术无罪，有罪的是人。爬虫技术本身是不违法的，但是如果利用爬虫技术做损害他人利益的事情就是违法的了。

具体的法律条文，我也记不大清了，目前对于爬虫技术的使用界限没有一个特别明确的规定，按照我之前咨询律师得到答案，大概就是关乎这三个方面：采集途径、采集行为、使用目的。

通过什么途径爬取数据，这个是最需要重视的一点。总体来说，未公开、未经许可、且带有敏感信息的数据，不管是通过什么渠道获得，都是一种不合法的行为。

采集行为上使用技术手段应该懂得克制，一些容易对服务器和业务造成干扰甚至破坏的行为，容易违法

还有就是使用目的，就算你通过合法途径采集的数据，如果对数据没有正确的使用，同样会存在不合法的行为。一种情况是公开收集的数据，但没有遵循之前告知的使用目的。比如有些网站上标明内容不得用于商业行为，还有未经授权不得转载的，些都是有法律明文保护，所以要注意使用。

最后，结合实际情况，给几点建议吧

1、爬虫访问频次要控制，别把对方服务器搞崩溃了

虽然你爬取的信息都是公开的，也不涉及公民隐私，爬取的数据也不用于违法获利，只是自己弄着玩，但是如果你的爬虫太疯狂了，一分钟请求1万次，导致对方服务器应接不暇，不能处理正常业务了，对不起，你这种属于违法行为，这种爬虫等同于进行黑客攻击了，你让人家不能正常工作了，损害了对方的利益

2、涉及到个人隐私的信息你不能爬

其实这很好理解，你希望你自己的电话号，身份证号，家庭住址，工作单位，行踪轨迹这些隐私信息被别人用爬虫抓取么？当然不希望，别人抓了你的这些信息，你肯定想去报警对不对，让警察去抓那个坏蛋，ok，你不要去做那个坏蛋。

3、突破网站的反爬措施，后果很严重

正规的网站都会在根目录下放置robots.txt，这里就规定了哪些能爬，哪些不能爬，谁可以爬，比如知乎的robots.txt，人家希望搜索引擎来爬它，其他的，一概不接受

不过呢，知乎并没有做特别严厉的反爬措施，这就是说，如果你偷偷的爬一点东西，不影响它的正常服务，它也懒得找你麻烦，但对于那种反爬特别严重的，例如淘宝，你最好别去爬，如果你真的利用你的高智商突破了淘宝的反爬措施，那么恭喜你，你已经违法了

4、不要用爬取的数据做不正当竞争

比如你把大众点评的评论数据都爬下来了，然后自己搞了一个xx点评，这肯定不行，人家辛辛苦苦的积累的数据，你轻轻松松的弄下来，直接拿来主义，跟人家搞竞争，你不违法谁违法。

5、付费内容，你不要抓

既然是付费内容，说明这东西价值很高，付费才能看，你弄下来了，你想干啥？你私自传播，就对网站造成了潜在损失。

6、最后一条，突破网站反爬措施的代码，最好不要上传到网上

你技术很牛逼，能突破网站的反爬措施，你把这些代码发布到网上，比如github，你自己没做啥坏事，可是想做坏事的人利用了你的代码，入侵了网站，那么，这种情况下，你也是有责任的，这个听起来有点冤，但确实存在这样的风险，所以，最好还是不要这么干

机器人开放协议是什么

Robots协议也称为爬虫协议、爬虫规则、机器人协议，是网站国际互联网界通行的道德规范,其目的是保护网站数据和敏感信息、确保用户个人信息和隐私不被侵犯。

“规则”中将搜索引擎抓取网站内容的范围做了约定,包括网站是否希望被搜索引擎抓取,哪些内容不允许被抓取,而网络爬虫可以据此自动抓取或者不抓取该网页内容。如果将网站视为酒店里的一个房间,robots.txt就是主人在房间门口悬挂的“请勿打扰”或“欢迎打扫”的提示牌。这个文件告诉来访的搜索引擎哪些房间可以进入和参观,哪些不对搜索引擎开放。

robots.txt（统一小写）是一种存放于网站根目录下的ASCII编码的文本文件，它通常告诉网络搜索引擎的漫游器（又称网络蜘蛛），此网站中的哪些内容是不应被搜索引擎的漫游器获取的，哪些是可以被漫游器获取的。

因为一些系统中的URL是大小写敏感的，所以robots.txt的文件名应统一为小写。robots.txt应放置于网站的根目录下。如果想单独定义搜索引擎的漫游器访问子目录时的行为，那么可以将自定的设置合并到根目录下的robots.txt，或者使用robots元数据。

好了，文章到这里就结束啦，如果本次分享的robots协议犯法吗和爬虫技术违法吗问题对您有所帮助，还望关注下本站哦！

本文链接：http://flbk.12364.com/flbk/034005c584c72674.html

阅读全文