动态网页对SEO优化的影响
动态网页是响应用户使用行为时自动生成的网页,用户发出请求之前,动态网页是不存在动态网页给网络爬虫带来了麻烦。
举例来说,众所周知的搜索引擎的检索结果页面就是动态网页。搜索引擎收到用户提交的查询请求后,会搜索它数据库,查找相关的地址,并生成一个结果页面。这个页面会整合查询结果及其他信息,如搜索引擎标识和广告。生成的网页是一个真实的网页,有惟一的 URL 对大多数搜索引擎来说 ) 但是如果爬虫访问搜索引擎站点,不会发现该网页,因为该网页是响应查询请求生成的响应结束后,立即被清除。
从该例可以看出,网络上有很多有用信息。但不是以静态网页形式呈现的这些网页必须向数据库发出一个请求才能访问,包括一些图书馆目录、商业产品数据库以及数字图书馆。这些通常只是被称作 “ 不可见的网络 ” 或者 “ 深度网络 ” 一部分,前一个概念已经由 Sherman 和 Price 普及 ( 2001 爬虫数据的使用者必须接受这一不可避免的局限性,即网络爬虫无法找到大量不同类型的动态网页。
有趣的一些运营网络数据库的信息提供商也拥有大量静态网页,甚至是数据库的关键部分,因此,搜索引擎能完全地索引这些页面。
对链接分析而言,未将爬虫数据建库已不是问题,但有一个相关问题值得注意,即有些网站以动态网页为核心,而不是以数据库为核心。有一些网络技术可用于自动生成动态网页,包括 PHP 技术 ( PHP Hypertext Pre-processor-arecurs acronym 和 ASP Active Server Page 技术。
动态网页曾经是爬虫的一大难题。设计爬虫时,通常都回避动态网页 ( 如 Charkabarti Joshi Punera &Pennock 2002 识别动态网页时,只需要看 URL 中是否出现问号,含问号的就是动态网页。忽略动态网页是因为它容易造成蜘蛛陷阱。蜘蛛陷阱理论上是一个无限的网页集合,而蜘蛛永远不能完整地遍历这个集合。线日历就是一个容易被忽略的蜘蛛陷阱,生成的动态网页中可以标上任何日期,并包含指向后一天网页的链接。一个爬虫从这个日历中找到一个网页后,便会无止境地请求后一天的网页。
商业搜索引擎的爬虫通常回避这些带问号的 URL 因为这些 URL 可能会导致蜘蛛陷阱。 Googl 已经放宽了对这些站点的限制。 Googl 爬虫似乎有另一种避免蜘蛛陷阱的方法。举例来说,可能沿着指向带问号 URL 链接爬行,但不会爬取带问号的 URL 这样便可以跳出蜘蛛陷阱的递归循环。
链接分析研究者应当注意,研究型的网络爬虫不能遍历含动态网页的站点,或者只能遍历深度较浅的站点。 拒绝访问超过最大斜线数的 URL
拒绝访问超过最大字符数的 URL
影响搜索引擎收录就会间接 A 影响到 SEO 项目,尽管现在各大搜索引擎算法对动态网页的索引都有了很大的改善。但是与其等搜索引擎来改变这个事情,为什么不自己就做的很好?站点静态化仍旧是 SEO 中非常必要的一个事情。
- 用户信息中心
-


