首页 > 聚合视频 > 正文
独立博客被各种聚合网站爬好心累。
更新时间:2019-08-10 14:10:09 点击数:28 来源:本站

  博客没权重,本来都放弃治疗了,今年 6 月份一个同事提起我原来的博客,心有不甘,又开始操作了。

  删了 20+原来辛辛苦苦敲出来的文章,因为已经被 CSDN 等各种网站转载得面目全非了,谷歌搜索在一万页以后了。原来没经验,第一时间将网址分享到头条、掘金,segmentfault 等地方,完全没想到,这些网站都是全文爬取的。这些站推到首页后,更多的站也转了,然后,权重拼不过,反而是我被认定为抄袭了。

  百度就不说了,前 10 页,不是 CSDN 就是 cnblogs,小站基本不收录,也没索引。

  最近又写几篇,想安安静静地把两年前没写完的主题继续完成,也不往外分享链接了。10 篇文章左右,声明了禁止转载,平均每天 2、3 百流量,有一天到了 800,算是有点安慰,还有人看。

  甚至 bigdataway 经常在我发表文章后 10 分钟 就爬走了 !!!而且指向我站点的链接全删,谷歌搜索关键字,聚合站居然还排在第一页第一个,心好累。有几个网站还算有点良心,联系了后删了文。也有不理我的,还有不留联系方式的。

  无奈,只能通过Google Spam Report举报这种无良转载,连续举报了一周,关键字搜索,有几篇又慢慢回到了谷歌首页。但是有些 10 分钟就爬走的,真心很难举报。与各个技术站长共勉吧。

  如果后期维权有成果,搜索流量、阅读量等上来了,到时候写一篇“维权之路”吧。先立一个 flag,估计撑不到那个时候,就心累得永远放弃了。

  @1981#102 我的浏览器也是 75.0.3770.100 (正式版本)( 64 位),估计是网络问题,有东西没加载完,你可以微信扫一扫,在微信里试一试?微信里能评论,长按二维码能打赏。兼容性的问题,当时考虑了 IE11, Chrome,Safari 和 Firefox。

  @GTim#99 哈哈,我原来也不写心得,现在也开始写感悟了,博客折腾记。有时觉得比技术文章更有价值,总结后自己也学到了不少。

  我一般在 github 的 issue 里面写 blog 还不错 没人爬 就自己和 g 友看

  @RadishWind#106 其实满建议用 github 的 pages 的,issue 搜索不够友好,然后展示也受限。随便找个 静态框架,markdown 扔进去,一把生成了往主干一推了事~

  @mfu#105 我觉得你的博客也蛮有意思的~ 我觉得只要是原创的,肯定能吸引兴趣相似的人来看,至少真实呀,背后是一个真实在思考问题,在做总结的人。

  f*q 出去了还是不行,可以试试把图片托管到第三方,,GitHub 我这里 10kb 的加载速度 着实让人着急

  如果你博客在国外的话,可以时不时写些违禁内容,盗版、擦边、非法信息,他们采集了然后就去工信部举报

  这边负责的网站也时常被这种聚合网站爬,而且爬过去的内容各种水印乱加,这倒是其次,我心疼 https 请求数钱

  @gzdaijie快版权维权服务你了解一下看看,我今天浏览网页的时候发现别人文章最后有这么一段话:“本文章作者已签约快版权维权服务,转载请经过授权,侵权必究。”。

  @jorneyr#119 我说了,我写了两年了,之前被爬走几十篇全删了,这个月又才写了几篇。大家探讨,可以少走弯路。比如反爬,水印,sitemap,spam report,全文爬的头条平台,等等。两年前知道这些,也不至于现在才从头开始摸索。我分享了我的经历,大家能够从中看到自己能用上的方法,目的就达到了。

  @rudyyuan#120 觉得爬不好针对的是采集的人,留自己的博客是给觉得文章有用的人看,我觉得没什么矛盾的。

  谴责、沟通、举报,我没有说半个怕字,我说的是我维权的经历和效果,大家觉得对自己建站有用,那就可以用。而且大部分评论都分享了很多自己的方法。这个帖子收藏量是评论量的 5 倍左右,大部分博主是有共鸣的。

  @RiESA#114 哈哈,心疼请求数钱,估计你的图片和视频比较多,我的基本是文字,对象存储,一个月还花不了几个 G。

  @JamesMackerel#111 允许翻译的内容,怎么翻译都是不侵权的。主要是机翻的内容,还被各种采集,就蛋疼了。真正好好翻译的内容,估计就沉了。机翻数量大,也成体系。

  @exceloo#116 感谢你的认可~ 暂时就不分心了。先琢磨着怎么把原创内容搞起来,让谷歌对我友好一点。

  @LZSZ#118 我注册了,杭州的一家公司提供的服务,不过用不用再考察下,因为被爬对利益倒是没啥损失,主要是心累。推荐给全职写文的童鞋试一试~

  @skiy#121 你说的应该是 sitemap 吧,我现在发了后,第一时间到 Google Search Console 刷新,有一次十分钟就被爬了,冒了点冷汗。

  @1981#109,谢谢你的建议,刚刚花时间优化了这一部分,二维码不放图片了,传入链接动态生成。这样一个页面又少了 40Kb 的大小。Git 评论 js 插件,放到七牛云上去了,原来 unpkg 确实慢了点,不过评论调用 Github 的接口,这个速度不太可控,偶尔快,偶尔慢的,自己电脑也是。

  @gzdaijie主要是这些网站机翻的质量实在太差,我还不如读英语,而且最蠢的是他机翻之后还不给原文的链接。我感觉非常的难受。

  @ggicci#132 robots.txt 是爬虫的君子协定,约束搜索引擎的行为的。爬虫站长不会管这些的。

  @ylsc633#135 嗯,这个暂时是谷歌的私有协议,还没被广泛使用,估计也没有直接渲染的效果好。不然大家也不用想尽办法,做 Server Sider Render 了。React/Vue 这些框架对 SSR 都支持得挺好的。

  @HangoX#134 我最近发现 bing 也是提交后,也是即时收录的。不过 bing 的份额太小了,估计注册的站长也少。CSDN 实在是没法看了。权重再高,给个五条显示不就好了,非要占据 10 页 10 页 10 页。

  @myhot21#136 写博客不指望有啥收益,目前主要是心累,站点之前被谷歌认定为抄袭站了。所以只要保证我的搜索结果在前面,就 OK 了。不过以后写得多了,可以考虑下版权平台,毕竟没有那么多精力天天举报。

  我有突然想到一条, 可以试试 针对爬虫,走正常渲染页面! 如果普通用户进来, 加个密码访问,密码就放在页面!

  @gzdaijie主要还是版权维护不够狠,作恶成本低,我从来不看中文博客就是从 csdn 这种垃圾平台开始的。

  @tt67wq#142 你写的文章也蛮多的,github issue 的方式天生反爬虫了。整理成一篇文章,多蛋疼。

  @ylsc633#145,这个自损 800 了,这个月迁移到静态博客+对象存储了,原来折腾服务器,维护起来太累,所以后端能做的比较少。

  @rudyyuan#151 看到了你一直维护的网站,佩服你的坚持。另外,vimjc 这个域名很赞。

  1,可否像 BBS 一样加一些隐藏字符呢?就是背景色文字,很多论坛都有这种处理,感觉乱码占了大概 20% - 40%

  以上,突然冒出来的想法,但是我觉得可能都有点洁癖,有这些设置(包括我看到你图片伤的 logo )实在会让自己有点不舒服。

  @ahaxzh#153 是这样的,加隐藏字符和背景色文字无效的,因为爬取的是 html 内容,样式是可以设定的。如果内容直接乱码的话,技术文章,估计就没法看了。不太好联想。第二个问题,爬虫爬取,连图片都爬的,上载到他自己的服务器了,链接不会指向原站的。

  图片加可见 logo,是最后能看到我域名的地方了。可能我的 logo 位置不太统一,颜色上也比较突兀,下次我会注意一点,尽量风格统一,不影响视觉。

上一篇:太阳马戏《X绮幻之境》神秘揭幕看过公演的观众惊呼:简直是《权力的游戏》现场版


下一篇:开州区竹溪镇:理论武装头脑聚合力促攻坚