博客提交至Google/Bing搜索指南

Hexo框架下的博客提交至Google/Bing搜索

将 Hexo 博客提交至搜索引擎的核心流程分为三步:

1 验证网站所有权:向 Google 和 Bing 证明您是该网站的所有者。

2 生成并提交站点地图 (Sitemap):提供一个包含您网站所有链接的地图,方便搜索引擎全面抓取。

3 配置 Robots.txt (可选但推荐):指导搜索引擎哪些内容可以抓取,哪些需要忽略。

先以Google为例

第一步 验证网站所有权

此步骤需要在 Google Search Console 和 Bing Webmaster Tools 中分别操作,但方法类似。推荐使用 HTML 文件验证法,因为它只需一次部署,即可被多个搜索引擎使用。

1 登录平台

  • Google: 前往 Google Search Console 并登录您的 Google 账号。

  • Bing: 前往 Bing Webmaster Tools 并登录您的 Microsoft 账号。

2 添加博客网址添加属性,

  • 在各自的平台中,选择“添加属性”或“添加网站”,然后将博客地址https://yourname.github.io/添至相应位置。

3 谷歌搜索有多种验证方式,这里我选择谷歌推荐的选择 HTML 文件验证方式。

  • 选择 HTML 文件验证 方式。

  • 从 Google 下载 HTML 验证文件。

  • 将这两个文件复制到您博客项目的 根目录Root directory/sources/ 文件夹下。

  • 配置配置文件使 hexo g 跳过对该文件的渲染:找到 skip_render 配置项,将两个验证文件的文件名添加进去。如果 skip_render 不存在,请手动添加。

1
2
3
4
5
6
7
8
9
10
# Directory
source_dir: source
public_dir: public
tag_dir: tags
archive_dir: archives
category_dir: categories
code_dir: downloads/code
i18n_dir: :lang
skip_render:
- <谷歌html验证文件>.html

4 部署并完成验证:hexo三连hexo clean && hexo generate && hexo deploy

第二步:生成并提交站点地图 (Sitemap)

站点地图 (sitemap.xml) 是一个向搜索引擎提供您网站所有页面链接的文件,通过构建网站地图能够让搜索引擎更好的抓取你的网站内容。

1 安装 Sitemap 生成插件

  • 在您的博客项目根目录下,运行以下命令安装插件:
1
npm install hexo-generator-sitemap --save
  • 由于报错,实际上我进行以下操作

Windows 的开始菜单中,搜索 cmd 或 PowerShell。在搜索结果上 右键点击,然后选择 “以管理员身份运行”。

进入博客根目录:
e.g. cd /d D:\Blog

安装生成sitemap.xml的插件工具:
npm install hexo-generator-sitemap --save

2 配置 _config.yml 文件

  • 首先,确保根目录下的配置文件: _config.yml 文件中的 url 字段已正确设置为您博客的域名。这是生成正确站点地图的关键。
1
url: https://yourname.github.io/
  • 接着,在文件末尾添加 sitemap 插件的配置:
1
2
3
4
# Sitemap
urlforgoogle: https://yourname.github.io/ # 不确定是否需要添加
sitemap:
path: sitemap.xml

3 生成并部署站点地图

  • 再次运行部署命令,插件会自动在生成的 public 文件夹根目录下创建 sitemap.xml 文件。
1
hexo generate && hexo deploy

4 向Google搜索引擎提交站点地图

第三步:创建 robots.txt 文件 (不确定是否必须)

robots.txt 文件用于告诉搜索引擎此网站中哪些内容是可以被爬取的,哪些是禁止爬取的(如主题的 js/css 文件)。robots.txt 放在博客根目录下的 source 文件夹中,博客生成后在站点目录 /public/ 下。

1 创建 robots.txt 文件

  • 在博客项目根目录下的 source 文件夹中,创建一个名为 robots.txt 的文本文件。

2 编辑文件内容

  • 根据需要配置规则。一个通用的配置如下,它允许爬虫访问主要内容页面,同时禁止访问资源文件目录,并指明了站点地图的位置。robots.txt 文件内容如下:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
User-agent: *
Allow: /
Allow: /archives/
Allow: /categories/
Allow: /about/

Disallow: /vendors/
Disallow: /js/
Disallow: /css/
Disallow: /fonts/
Disallow: /vendors/
Disallow: /fancybox/

# 声明站点地图位置
Sitemap: https://yourname.github.io/sitemap.xml

3 部署文件

  • 部署博客,robots.txt 文件生效
1
hexo generate && hexo deploy

尚未解决的问题

  • Google Search Console 站点地图状态显示无法抓取

  • Google 网页搜索后点进去只跳转主页