ITSEO学员课程班 扫二维码继续学习

(32评价)
价格: 10000.00元

死链

 

1、做了缓存,服务器压力过大,缓存未能及时生成

2、URL的拼接错误,

3、恶意沈承的URL

4、过期改版,改版网页(历史遗留问题)

通过日志分析,得到spider抓取404错误

 

 

重复页面

1、内容重复

2、筛选造成的重复、空白,可以加一个nofollow

zol

1)使用span标签,显示空白结果url

2)不可多选

携程

1)a标签 href=javascript

2)可以多选,在页面底部显示想被抓取的list

艺龙

span显示筛选,可以多选和携程类似

途牛

1)在按标签中写入href,但是不生效

2)减少seo模块,避免页面底部堆积大量链接

3、)锚文本不太精确,不如上面的办法好,但是还有改进的地方

 

 

 

 

 

 

 

 

[展开全文]

SEO因素

1、URL

1)长度:

最好不要超过36个字符

不要超过,三层不要中文

一个中文占三个字符

只保留必要的信息字段

2)能让搜索引擎识别网页在网站中的地位

3)避免出现URL经常会改动的情况(已经收录又改目录)

4)分类导航参数

2、meta信息

描述--考虑如何吸引用户,可读性强,不要堆砌关键词

标题

1)准确反映网页内容--不要文不对题,做到标题相关

2)重要的内容出现在最前面

可以使用一些小手段来提高点击率(大家都长,你就短)

3)注意移动和PC的title长度不同

4)官网名称

3、重复页面

4、死链

[展开全文]

关键词质量

 

竞争度

 

需求覆盖程度

 

需求是否相关

 

 

 

[展开全文]

搜索引擎有的系统

 

抓取系统-索引系统-排序系统

 

倒排索引

索引价值

受众

稀缺

质量---字数,无死链,加载速度快

时效性

[展开全文]

抓取

1、主动推送

2、sitemap(量大,单个文件5万,每个站点可以提供几百万个,与主动推送互补)

3、自动推送

4、手工提交

 

[展开全文]

人为因素

网站是否被发现

是否被抓取

是否被索引

是否与关键词相关(TITLE与正文,描述有一点,KEYword已经没有意义了)

内容是否高质量

 

不可控因素

是否在互联网中传播

站点历史

用户行为

搜索引擎自己出问题了

 

[展开全文]

标题

1、不要留空(不要只有首页两个字)

2、避免关键词堆砌(同一个关键词不要太多,出现一次就可以了)

3、避免重复标题(雷同的不要出现)

4、标题具有描述性(可读性比较好,页面要有,比如报价,肯定得有价格)

5、品牌名(不太知名的网站就不用写品牌名了)

描述

每个网页有元描述,加入清楚的信息,以程序生成描述。

不要太简单,也不要太详细

[展开全文]

shell

cygwin  下载

www.bbs.china

shell  20课时

http://bbs.chinaunix.net/thread-452942-1-1.html

 

[展开全文]

sitemap

<loc>

<lastmod> 可填可不填

<changefreq>

<priority>  

 

 

如何自动生成sitemap

 

[展开全文]

常见阻挠搜索引擎建库的情况:

1.纯采集,没有增益

2.异步加载?ajax?→内容空洞

过度分页(分页可刷PV)

重复页面(比如:筛选项不同顺序的组合最终却是同一个页面)

正常的网页收录应该是缓慢地持续向上的过程,而不是起起伏伏的曲线

内容纯度:广告杂,链接(link)锚文本内容衔接不洽,文不对题

 

 

怎么查是否建库?

查询索引项:title+品牌→出现相关URL就表明以建库(简单的site:  和搜索URL并不一定真的建库/收录)  该理论引用倒排索引的逻辑可以得到!用site 和搜索URL仅仅是利用的正排索引的方法

 

 

 

 

[展开全文]

课时27 SEO数据分析_3_收录分析的要点

一、收录监控

    整体收录比例与时间:

1、一般一周内收录,网站还算听好了

2、整体收录比例,<100万,收录应该达到90%以上, 100-1000万,收录应该达到80%,1000万以上内容,收录应该达到60%以上。

    收录&索引

    解决办法:

收录问题:

1、URL发现不及时

      1.1URL推送,主动推送,实时推送,sitemap。

      1.2站内露出,在抓取多的页面,多出现。

2、内容不行

       2.1提高字数,

       2.2补充信息,内容形式多样,契合搜索需求。

       2.3某个pattern URL不抓

3、服务器稳定

收录是一个动态的过程,有新增,有减少。

[展开全文]

访问网页

1、请求url

method:请求方法

 

搜索引擎不存放cookie

可以写cookie给搜索引擎识别

[展开全文]

课时26 SEO数据分析_2_日志分析的重点

一、Spider抓取分析

  Spider抓取特点

    非顺序抓取:现在网上有很多人就认为说,爬虫它抓取的时候一定会从首页到栏目页再到详情页,这是非常错误的。对于一个新网站来说爬虫有可能会这样。对于任何有一点收录的网站来说爬虫都不会从首页进入完全抓取,而是从任何一个页面都有可能开始作为种子点来抓,甚至说爬虫会去着重的分析你的网站中,有哪些网页是比较重要的,然后拼命的去抓这个网页。

一般来说一个网站它的首页抓取次数一定最多的,然后第二个是栏目页,详情页抓取次数是最少的。但有时候同样是详情页,有的一天抓取500、有的抓取1次、有的抓取甚至0次。同样是详情页抓取的频次也不一样,其实搜索引擎就会在中间进行一个判断,那一系列的网页更加重要,然后更容易发现新链接,所以它会更多的抓取这些网页,所以我们在做SEO在做网页设计的时候千万不要遵循网上一些SEO的方法,认为说一个网站的链接一定是从首页到栏目页再到详情页,然后详情页在互相连一下就OK了。这是一个非常错误的链接观点。而是要从搜索引擎它推荐的一个链接角度出发,你的网站中的任何一个页面都可以通过2到3次点击内到达,其实这个听起来很容易,但实际去操作却不知道怎么操作的一个SEO方法。就怎么让我的网站中能够让任何一个页面通过2到3次点击轻松的到达那,事实上对于一些大型网站来说能够在5次点击内到达任何一个网页的话,那这个网站的内链结构做的很好了,而且搜索引擎会很容易的发现这些新的页面,所以我们在做爬虫分析的第一点来说,爬虫它抓取有一个非顺序抓取的过程,所以我们不要总去分析一些首页或栏目页或者单独某个页面的抓取情况,任何一个页面其实都是你应该分析的要素,哪怕一个很不起眼的页面。图片、注册、用户页,点评页其实有很多乱七八糟的页面,这些页面都有可能被爬虫抓到,甚至作为某一次的抓取入口,然而你从这些网页中如果没有办法快速的经过3到4次点击达到你任意网页的话,那你的抓取效果肯定会比较差。所以不要让一些稀奇古怪的页面会留下一个孤岛。

    有抓取时间上限:

爬虫在抓取每个网站的时候,它不可能无限制的进行抓取。抓每个网站在时间上有上限,在数量上也有上限。一般网站是很难达到上限的,因为由于种种原因,一个网站基本上最理想的状态就是每个页面被爬虫抓过一次,每新出来的页面被爬虫抓过一次这是最理想的,但实际上爬虫很难做到这一点,它可能会去重复抓一些网页,来确保说它能及时发现一些新链接,但是它去重复抓一些网页的时候就会造成一定程度上的浪费。做爬虫抓取分析,目的是为了帮助爬虫更快的发现新网页,能正确的打开网页,提高抓取效率。

    有抓取数量上限

二、数据统计维度

    按页面类型监控:

首页、新闻列表、产品列表、新闻详情和产品详情。统计每种页面类型的抓取次数。

    非200抓去量

有多少200抓取、有多少30X(跳转)抓取、4XX(找不到页面)抓取、有多少5XX(服务器问题)抓取。

    Top N抓取

分析某个频道内抓的最多的是那些页面,针对这些被抓的页面最多的页面,然后在上面部署一些新的链接,可以使这些链接多一份抓取,更容易被搜索引擎收录。

    发现新类型页面:

发现不符合任何规则的URL

1、及时发现新产品上线

2、及时发现不符合规范的URL(带参数、没有静态化。)

3、预防被黑

[展开全文]

课时25 SEO数据分析_1_你真能识别SEO流量吗

一、SEO流量:

怎么区分SEO流量

  是否包含关键词

  来自不同的搜索产品线:阿拉丁、图库、百科、知道。

  来自不同的搜索引擎:国内搜索引擎(百度、搜狗、360、神马、必应、谷歌)比较大的是雅虎,在台湾、日本用的比较多。谷歌、必应占据主流市场。

二、SEO流量来源分布:

  baidu  pc:70%  移动:70-80%

  bing  pc:可以忽略不计

  Goole  pc:可以忽略不计

  sm.cn  在移动搜索方面比较厉害

  Sogou  pc:5-10% 在移动端也有一些

  360  pc:15-20%  在移动方面表现比较差

  三、网址构建器

https://tool.fenxi360.com/gaurlbuilder

在手机浏览器上统计流量的时候有一些直接访问流量也是SEO流量,手机上的什么UC浏览器、360浏览器它们往往都会去屏蔽掉Referer(ruai,fao)统计。

[展开全文]

课时22 网页质量指南_5_URL和Meta信息的那些事

一、URL

1、长度不要超过36个字符

2、不要包含中文

3、不要超过3层(超过3层效果会差一些,也不会因为超过3层网站会降权)

4、URL只保留必要的信息字段

5、能让搜索引擎识别网页在网站中的地位

6、避免出现URL经常改动的情况

7、分面导航参数

二、网站描述

考虑如何吸引用户,可读性强,不要堆积关键词。

三、标题

1、准确反映网页内容

    下载(明明不能下载,非说能下载)

    在线播放(明明不能在线播放,非说能在线播放)

     官网(明明不是官网,非说是自己的官网)

     图片/问答(标题里面有图片,进来压根就没有图片。标题里面写问答,进来的话没有回答,只有提问。)

   我们要做到标题跟网页的内容是相关的,不要出现文不对题情况。其实搜索引擎在这一块做的判断是非常精准的。

2、重要的内容出现在前面

    用户是扫描网页,而不是阅读

    具备一定的可读性、尤其在飘红词的附近

    可以使用一些小手段来提高点击率【】、 ()、 ★、●。(大家title都很长,你可以用短的,大家都是短的,你可以用长的。)

3、注意移动和pc的title长度不同

4、官网名称

    1、如果网站比较出名,可以在标题后缀加上官网名称。如果网站不是那么出名,可以不加官网名称。

[展开全文]

关键词的倒排索引

1、倒排表的存放形式:ID,频率,位置

举例:新浪北京暴雨,北京大范围降雨

参考:百度指数需求图谱

2、建库标准

2.1受众

2.2稀缺性

2.3质量[丰富性、死链、速度]

2.4时效性

 

[展开全文]
  1. 站长平台:
    1. 404页面
      1. 做了缓存,服务器压力过大,缓存未能及时生成
    2. UR拼接错误
    3. 恶意生成的URL
    4. 过期网页、改版网页
  2. Spider全面分析
    1. spider
    2. 页面加载资源
  3. 重复页面
    1. 内容重复
    2. 筛选页面、空白页面
    3. ZOL举例,
      1. 使用span标签,显示空白结果
      2. elong
      3.  
[展开全文]