先来看一下sitemap索引文件的说明:

必须是UTF-8 编码;
Sitemap 索引文件,并使用该文件类型专用的 XML 格式;
Sitemap 索引文件最多可以列出 1,000 个 Sitemap;
Sitemaps 索引文件只能指定与其位于同一网站的 Sitemaps;

Sitemaps 索引文件使用以下 XML 标记及说明:

<loc> 标记并用其来识别 Sitemaps 的位置。
<lastmod> 标记是可选标记,用于指示相应 Sitemap 文件的修改时间。它并不对应于该 Sitemap 中列出的任一网页的更改时间。lastmod 标记的值应采用 W3C Datetime 格式。
通过提供最近修改的时间戳启用搜索引擎抓取工具,抓取工具将只检索索引中的 Sitemaps 的一个子集,也就是说,抓取工具只检索某特定日期之后修改的 Sitemaps。通过这一递增的 Sitemaps 提取机制,可以快速发现超大型网站上的新网址。
<sitemap> 标记封装单个 Sitemaps 的相关信息。
<sitemapindex> 标记会压缩有关文件中的所有 Sitemaps 的信息。

XML Sitemaps 索引示例:

下例展示了一个 XML 格式的 Sitemaps 索引。该 Sitemaps 索引列出了两个 Sitemaps:
<textarea class="code" rows="10" cols="50"> <?xml version=”1.0″ encoding=”UTF-8″?>    <sitemapindex xmlns=”http://www.google.com/schemas/sitemap/0.84″>  <sitemap>   <loc>http://www.example.com/sitemap1.xml.gz<;/loc>   <lastmod>2004-10-01T18:23:17+00:00</lastmod>  </sitemap>  <sitemap>   <loc>http://www.example.com/sitemap2.xml.gz<;/loc>   <lastmod>2005-01-01</lastmod>  </sitemap>    </sitemapindex> </textarea>

说明:与 XML 文件中的所有值一样,Sitemaps 网址需要实体换码.
</sitemapindex></sitemap></lastmod></loc>