SEO优化

当前位置:AG亚游集团 > SEO优化 >

教你看懂网站日志文件

时间:2015-05-28        阅读:次        QQ群:182913345

        作为SEOer,我们使用的各种各样的工具,以收集各式各样的技术问题,网站分析,抓取诊断,百度站长工具等。所有这些工具是有用的,但都无法比拟在网站日志数据分析搜索引擎蜘蛛抓取,就像Googlebot到爬取您的网站并您的网站上留下了一个真实的记录。这是网络服务器日志。日志是一个强大的源数据经常没有得到充分利用,但有助于保持您的网站的搜索引擎抓取检查的完整性。
 
        服务器日志是由一个特定的服务器进行详细记录了每一个动作。在一个Web服务器的情况下,你可以得到很多有用的信息。如何检索和分析日志文件,并根据您的服务器的响应代码(404,302,500等)的识别问题。我将它分解成2个部分,每个部分突出不同的问题,可以发现在您的Web服务器日志
 
        一、获取日志文件
 
        搜索引擎抓取网站信息必会在服务器上留下信息,这个信息就在网站日志文件里。我们通过日志可以了解搜索引擎的访问情况,一般通过主机服务商开通日志功能,再通过FTP访问网站的根目录,在根目录下可以看到一个log或者weblog文件夹,这里面就是日志文件,我们把这个日志文件下载下来,用记事本(或浏览器)打开就可以看到网站日志的内容。那么到底这个日志里面隐藏了什么玄机呢?其实日志文件就像飞机上的黑匣子。我们可以通过这个日志了解很多信息,那么到底这个日志给我们传递了什么内容呢?下面先做一个简单的说明。
 
        日期:这将让你一天搜索引擎抓取速度的发展趋势进行分析。
        被爬取文件:这将告诉你哪些被抓取的目录和文件,并在某些路段或类型的内容可以帮助查明问题。
        状态码:(只列出常见到并能直接反正网站问题的状态码)
        200状态码:请求已成功,请求所希望的响应头或数据体将随此响应返回。
        302状态码:请求的资源现在临时从不同的URI响应请求。
        404状态码:请求失败,请求所希望得到的资源未被在服务器上发现。
        500状态码:服务器遇到了一个未曾预料的状况,导致了它无法完成对请求的处理。
        - - 提供了哪些网页被爬虫运行到并反应出什么样的问题。
        从哪里来:虽然这不一定是有用的分析搜索机器人,它是非常有价值的,其他的流量分析。
        哪种爬虫:这个会告诉你哪个搜索引擎爬虫在你的网页上运行的。
 
        二、解析网站日志文件
 
        现在你需要一个日志分析工具,因为如果你的网站有几M或几十M甚至百M以上的日志数据时,你不可能一条条去看。再说,就算日志数据不多,一条条看也是不科学的。这里用光年seo日志分析工具为大家做个例子。
 
        1.导入文件到您解析软件。
        2.分析网站日志及时发现出现的问题
 

 
        搜索引擎抓取您的网站有最快的方式是看在正在服务的服务器响应代码。404(找不到页面)可能意味着抓取那珍贵的资源被浪费了;302重定向请求的资源现在临时从不同的URI响应请求;500是服务器遇到了一个未曾预料的状况,导致了它无法完成对请求的处理,可以分析出服务器出现的问题。虽然网站管理工具提供了一些信息,这样的错误,会给你的网站造成一个非常大的影响。
 
        分析的第一步是从您的日志数据,通过光年seo日志分析工具以产生一个数据表。在最基本的层面上,让我们看看哪些搜索引擎的爬虫在爬行这个网站:  
 

 
        通过报表我们想几个问题:
 
        a.雅虎蜘蛛总抓取量占了全部的47.12%;那么我从流量统计器看到。没有一个流量是从雅虎搜索引擎过来的。那么这个蜘蛛可不可以禁止他再来访问呢?
        b.百度蜘蛛(BaiDu Spider )的访问次数、停留的时间、总抓取量反应了什么呢?
        c.其它搜索引擎的蜘蛛的访问次数、停留的时间、总抓取量那么少的原因是什么呢?有没有改善的方法呢?
 
        接下来,让我们来看看在蜘蛛状态码分析,我们最关心的问题。
 
 
        这是只显示这个日志有问题的蜘蛛状态码,而已正常200将不被分析。我们将要细看这个表格。总体而言,好到坏的比例看起来很健康,但有一些个别的问题让我们尝试弄清楚这是怎么回事。
 
        302出现的问题数量是可以接受的,但是不代表可以放着不去处理,我们应该有更好的方法来处理这些问题,也许用一个robots.txt指令应排除这些页面被抓取。
 
        404的出现达到109个。在几万的抓取量来说。网站的这个数据也算是可以的。但是也需要解决,找出潜在的问题是隔离404目录或者使用rel =”nofollow”注释这些404链接。当然404的页面也必须要有。

上一篇:提升百度权重的方法

下一篇:另一个角度看SEO

扫一扫,更多精彩内容推送

PHP技术分享

分享PHP技术,前端技术,数据库,SEO优化,服务器,网络安全等知识,是php程序员工作学习的好帮手!

Copyright © 2013-2015.PHP技术分享 AG亚游集团 www.zhanxiqi.com  版权所有  网站地图    AG亚游集团

免责声明:网站内容收集于互联网,本网站不承担任何由于内容的合法性及健康性所引起的争议和法律责任。

欢迎大家对网站内容侵犯版权等不合法和不健康行为进行监督和举报。 沪ICP备15014499号-2

恒指连续四日收高 油价大幅上涨、BDI创年内新高 通用推出P2P汽车租赁服务 鼓励个人车主挂靠 广东徐闻船舶碰撞事故致2人失踪 至今搜寻未果 奇牛国际:欧元区2月通胀疲软 欧央行退出QE速度减慢 联合国工业发展组织向eWTP发出坚定支持 人民日报:无人机实名登记须细化 监管法规应完善 [新浪彩票]21日竞彩盘口剖析:埃尔夫斯堡难反弹 港股通资金买腾讯抛建设银行 俄3月迎总统大选:普京国情咨文将与竞选纲领一致 束昱辉:投8亿打造青训体系 中国足球离不开青少年 腾讯午后续捱沽 港股仍跌134点报30283点 北京市体育公益活动社区行暨协会杯扑克牌赛开幕
烈士陵园附近成垃圾堆放所 当地政府被判违法(图) 卢仕仁任安徽省农委党组书记提名为省农委主任 哈登复出戈登替补轰30分 两人禁赛火箭仍退狼 亚马逊回应封禁部分中国卖家:被封卖家违反政策 欧文批梅西苏亚雷斯不防守 巴萨惨案他们该负责 施帅称赞鲁能防守 铁卫目标三连胜誓言零封佩莱 雷军:围棋投资哲学 如何让我获得不同凡响的成功 欧委会主席:欧美商定就取消工业品关税进行合作 古特雷斯:妇女赋权是2030年可持续发展议程核心 俄总统大选拉开帷幕 普京等8名候选人参加角逐 邓普顿基金:是时候让价值投资一展身手了 罗马赛兹维列夫险胜进八强 波特罗伤退送戈芬晋级
白洋淀首次观测到极危物种青头潜鸭 拍到疑似金雕 女子每天吃个鹅蛋 2年后体内取出80多颗结石(图) 非法下载新生儿数据50万条 警方揪出卫计系统内鬼 银监会10部门负责人齐亮相 详解化解金融风险举措 我国防部:采取一切必要措施捍卫国家主权和领土完整 沈阳破获一电信网络诈骗案 抓捕涉案人员172名 贝佐斯父母投24万美元支持儿子创业 现在身价300亿 一方战泰达海报:海纳百川 保级直接对话要留3分 马克龙为讲英语辩护:捍卫法语并不排斥外语 藏在农村的暴利小生意 适合农村办厂的项目 微信赚钱的三大方法 今年开什么店好 AG亚游集团