游钓四方的博客
注册 Chrome Web Store 开发者游钓四方的博客
年前曾尝试过 Chrome 扩展开发，《写一个Chrome表单自动化插件》，但是由于没有注册 Chrome Web Store 开发者，无法上传到 Chrome 应用商店。注册 WildCard Chrome 注册开发者需要五美元，由于我没有境外信用卡就一直卡在这，2022 年我在杭州办过一张中信的双币卡，年费很高，后来经济紧张时注销了，现在急着用外币还挺麻烦，折腾一圈，最终无脑选择了 WildCard，尽管网上对它负面评论铺天盖地。 WildCard 开卡费用是 10.99 美元/年，实际付款 79.71 人民币，按照今天的市场汇率 7.23，实际多付了 0.24，而且这只是开卡费用，充值另算。开卡后我充值了 10 美元，支付宝付款 75.07，到账金额 10 美元： \[\frac{2.77}{75.07} \times 100\% \approx 3.69\%\] 四个点我能接受（接不接受都要受着），这个开卡费不便宜，毕竟钱不是大风刮来的，所以注册时，我创建了两个号，推荐注册返现两美金… 注册 Chrome Web Store 开发者
2025年3月20日 00:03
- 分享
- Email
- archive.is
- Twitter
❌

注册 Chrome Web Store 开发者

作者游钓四方的博客

2025年3月20日 00:03

年前曾尝试过 Chrome 扩展开发，《写一个Chrome表单自动化插件》，但是由于没有注册 Chrome Web Store 开发者，无法上传到 Chrome 应用商店。

注册 WildCard

Chrome 注册开发者需要五美元，由于我没有境外信用卡就一直卡在这，2022 年我在杭州办过一张中信的双币卡，年费很高，后来经济紧张时注销了，现在急着用外币还挺麻烦，折腾一圈，最终无脑选择了 WildCard，尽管网上对它负面评论铺天盖地。

WildCard 开卡账单

WildCard 开卡费用是 10.99 美元/年，实际付款 79.71 人民币，按照今天的市场汇率 7.23，实际多付了 0.24，而且这只是开卡费用，充值另算。

开卡后我充值了 10 美元，支付宝付款 75.07，到账金额 10 美元：

\[\frac{2.77}{75.07} \times 100\% \approx 3.69\%\]

四个点我能接受（接不接受都要受着），这个开卡费不便宜，毕竟钱不是大风刮来的，所以注册时，我创建了两个号，推荐注册返现两美金…

注册 Chrome Web Store 开发者

Chrome Web Store 账单

注册账号就很容易了，Google 绑卡付钱就行。但是如果要销售发布就很麻烦：

个人交易者声明

您需要提供一个手机号码以验证是您本人在操作
- 您将通过手机接收代码
用于证明是您本人的身份证件
可接受的文件包括：
- 驾照
- 护照
- 州身份证明
- 绿卡
您需要提供一份显示您的姓名和当前地址的文件
可接受的文件包括：
- 由政府签发的文件或带照片的身份证件
- 公共事业缴费单或话费账单（日期在过去 60 天内）
- 银行对账单（日期在过去 60 天内）
- 租赁合同或抵押贷款合同

因为 Google 已退出中国市场，不支持交易。而我是美国 Visa 卡，面对这样的要求不容易做到。

日后再说吧，往后这段时间，我打算把博客评论表单自动填充插件重构一下，然后上架 Chrome 应用商店。

游钓四方的博客
空腹骑行75公里游钓四方的博客
周六最近郑州天气突然转冷，骑行频率也降了下来，周六正好赶上休息，实在是憋坏了！今天不管刮风下雨，必须出去骑一趟原计划直接奔开封，结果路过龙湖就停了下来。好久没来了，上次来还是鹅毛大雪天，如今雪没了，只剩下鹅周六的公园人满为患，没法骑。我推着车沿湖边缓行，遥望着远处炸水的不知名鱼，不由自主的想蹲下摸摸湖水，真的很想钓鱼，自到郑州以来，我连最爱的路亚竿都没摸过此时正值中午，小孩在沙滩上牵着风筝奔跑，大人排队买小吃，顿时勾起了不少儿时回忆，我也好想光着脚奔跑在沙滩上… 在龙湖公园出来后，我关掉了导航线瞎跑，根本不认识路，不知道自己在哪，扫大街呗话说现在骑车很少拍照，不是不爱拍，而是懒得下车，即使趴到腰酸，感觉腰快要断了，也不想停下来周日拍这张照片时，已经快饿晕了，周六晚上吃得少，周日早上又空腹出门，体力消耗得厉害… 周日早晨睡到自然醒，一看表，我整个人都快立正了，居然八点半了。着急忙慌洗漱后，脱下内衣裤直接换上骑行服，背上包，拿了五块巧克力出发了。因为周一要上班，所以今天必须放纵一下，出发前大致算了算，来回返程再加上逛街的时间，早饭根本来不及吃
2025年3月12日 15:36
- 分享
- Email
- archive.is
- Twitter
❌

空腹骑行75公里

游钓四方的博客

作者游钓四方的博客

2025年3月12日 15:36

周六

最近郑州天气突然转冷，骑行频率也降了下来，周六正好赶上休息，实在是憋坏了！今天不管刮风下雨，必须出去骑一趟

原计划直接奔开封，结果路过龙湖就停了下来。好久没来了，上次来还是鹅毛大雪天，如今雪没了，只剩下鹅

倒挂白鹅

周六的公园人满为患，没法骑。我推着车沿湖边缓行，遥望着远处炸水的不知名鱼，不由自主的想蹲下摸摸湖水，真的很想钓鱼，自到郑州以来，我连最爱的路亚竿都没摸过

龙湖·北岸

此时正值中午，小孩在沙滩上牵着风筝奔跑，大人排队买小吃，顿时勾起了不少儿时回忆，我也好想光着脚奔跑在沙滩上…

龙湖·人工沙滩

在龙湖公园出来后，我关掉了导航线瞎跑，根本不认识路，不知道自己在哪，扫大街呗

STRAVA 74.6km 爬升313m 时间4h 19m

话说现在骑车很少拍照，不是不爱拍，而是懒得下车，即使趴到腰酸，感觉腰快要断了，也不想停下来

周日

拍这张照片时，已经快饿晕了，周六晚上吃得少，周日早上又空腹出门，体力消耗得厉害…

周日早晨睡到自然醒，一看表，我整个人都快立正了，居然八点半了。着急忙慌洗漱后，脱下内衣裤直接换上骑行服，背上包，拿了五块巧克力出发了。因为周一要上班，所以今天必须放纵一下，出发前大致算了算，来回返程再加上逛街的时间，早饭根本来不及吃…哎…

大约骑了25公里，在中石化买了瓶宝矿力水特。又骑行了二三十公里到了贾鲁河桥，饿的没劲，更别说爬坡了，挂上小盘，我慢悠悠到了桥中间，休息了几分钟，把五块巧克力补给全吃了

郑州·贾鲁河桥

就这样空腹骑到了开封郊区，此时的里程已经来到了 75.38公里，用时3小时23分钟

到达开封后，心里那股坚持的信念瞬间消失了，又渴又饿，高德帮我找了最近一家名为三不炒(开封总店)的小炒店，我把车子靠着门店随便一放，就去买葡萄糖了

就去买葡萄糖了

买完水出来发现要排队，人还不少，我是真的饿得快走不动了，但还是懒得换地方，抱着水坐在外面等了半小时。饿得快虚脱了，感觉此时此刻，就算把馒头挂我脖子上都能饿死

我前面排了八个人

排队加吃饭花了一个半小时，吃得太撑，骑上车都趴不下去，推着车穿过老巷子走到了湖边

对面就是清明上河园

御河桥洞下

正在乐钓的五星开封好市民

STRAVA 164.1km 爬升417m 时间8h 5m

回到家已经八点半了，这条郑开大道路线真心推荐，毕竟二刷了，虽然沿途风景平平，但对于郑州来说，已经是顶级骑行路线了，一个人骑行在郑开大道，握着下把位，不用担心刹车，不用担心前方有没有人，听着歌，摇着车，也不枉来郑州走一遭

游钓四方的博客
利用 Go + COS + GitHub 重构 RSS 爬虫游钓四方的博客
之前我写过一篇《利用Go+Github Actions写个定时RSS爬虫》来实现这一目的，主要是用 GitHub Actions + Go 进行持续的 RSS 拉取，再把结果上传到 GitHub Pages 站点但是遇到一些网络延迟、TLS 超时问题，导致订阅页面访问速度奇慢，抓取的数据也不完整，后来时断时续半个月重构了代码，进一步增强了并发和容错机制在此感谢 GPT o1 给予的帮助，我已经脱离老本行很多年了，重构的压力真不小，有空就利用下班的时间进行调试，在今天凌晨 03:00 我终于写完了 1. 为什么要重构旧版本主要基于 GitHub Actions 的定时触发，抓取完后把结果存放进 _data/rss_data.json 然后 Jekyll 就可以直接引用这个文件来展示订阅，但是这个方案有诸多不足: 网络不稳定导致的抓取失败由于原先的重试机制不够完善，GitHub Actions 在国外，RSS 站点大多在国内，一旦连接超时就挂，一些 RSS 无法成功抓取单线程串行，速度偏慢旧版本一次只能串行抓取
2025年3月12日 03:26
- 分享
- Email
- archive.is
- Twitter
❌

利用 Go + COS + GitHub 重构 RSS 爬虫

游钓四方的博客

作者游钓四方的博客

2025年3月12日 03:26

之前我写过一篇《利用Go+Github Actions写个定时RSS爬虫》来实现这一目的，主要是用 GitHub Actions + Go 进行持续的 RSS 拉取，再把结果上传到 GitHub Pages 站点

但是遇到一些网络延迟、TLS 超时问题，导致订阅页面访问速度奇慢，抓取的数据也不完整，后来时断时续半个月重构了代码，进一步增强了并发和容错机制

在此感谢 GPT o1 给予的帮助，我已经脱离老本行很多年了，重构的压力真不小，有空就利用下班的时间进行调试，在今天凌晨 03:00 我终于写完了

1. 为什么要重构

旧版本主要基于 GitHub Actions 的定时触发，抓取完后把结果存放进 _data/rss_data.json 然后 Jekyll 就可以直接引用这个文件来展示订阅，但是这个方案有诸多不足:

网络不稳定导致的抓取失败

由于原先的重试机制不够完善，GitHub Actions 在国外，RSS 站点大多在国内，一旦连接超时就挂，一些 RSS 无法成功抓取
单线程串行，速度偏慢

旧版本一次只能串行抓取 RSS，效率低，数量稍多就拉长整体执行时间，再加上外网到内地的延时，更显迟缓
日志不够完善

出错时写到的日志文件只有大概的错误描述，无法区分是解析失败、头像链接失效还是RSS本身问题，排查不便
访问速度影响大

这是主要的重构原因！在旧版本里，抓取后的 JSON 数据是要存储到 Github 仓库的，虽然有 CDN 加持，但 GitHub Pages 的定时任务会引起连锁反应，当新内容刷新时容易出现访问延迟，极端情况下网页都挂了

重构后，在此基础上进行了大幅重构，引入了并发抓取 + 指数退避重试 + GitHub/COS 双端存储的能力，抓取稳定性和页面访问速度都得到显著提升

2. 主要思路

2.1 整体流程

先看个简单的流程图

        +--------------------------+
        | 1. 读取RSS列表（双端可选）  |
        +------------+-------------+
                     |
                     v
           +---------------------+
           | 2. 并发抓取RSS,限流   |
           |  (max concurrency)  |
           +-------+-------------+
                   |
                   v
        +------------------------------+
        | 3. 指数退避算法 (重试解析失败)  |
        +------------------------------+
                   |
                   v
           +-------------------+
           | 4. 结果整合排序    |
           +--------+----------+
                    |
                    v
        +-------------------------+
        | 5. 上传 RSS (双端可选)   |
        +-------------------------+
                    |
                    v
           +--------------------+
           | 6. 写日志到GitHub   |
           +--------------------+

并发抓取 + 限流
通过 Go 的 goroutine 并发抓取 RSS，同时用一个 channel 来限制最大并发数
指数退避重试
每个 RSS 如果第一次抓取失败，则会间隔几秒后再次重试，且间隔呈指数级递增（1s -> 2s -> 4s），最多重试三次，极大提高成功率
灵活存储
RSS_SOURCE: 可以决定从 COS 读取一个远程 txt 文件（里面存放 RSS 列表），或直接从 GitHub 的 data/rss.txt 读取
SAVE_TARGET: 可以把抓取结果上传到 GitHub，或者传到腾讯云 COS
日志自动清理
每次成功写入日志后，会检查 logs/ 目录下的日志文件，若超过 7 天就自动删除，避免日志越积越多

2.2 指数退避

上一次写指数退避，还是在养老院写PHP的时候，时过境迁啊，这段算法我调试了很久，其实不难，也就是说失败一次，就等待更长的时间再重试，配置如下:

最大重试次数: 3
初始等待: 1秒
等待倍数: 2.0

也就是说失败一次就加倍等待，下次若依然失败就再加倍，如果三次都失败则放弃处理

// fetchAllFeeds 并发抓取所有RSS链接，返回抓取结果及统计信息
//
// Description:
//
//   该函数读取传入的所有RSS链接，使用10路并发进行抓取
//   在抓取过程中对解析失败、内容为空等情况进行统计
//   若抓取的RSS头像缺失或无法访问，将替换为默认头像
//
// Parameters:
//   - ctx           : 上下文，用于控制网络请求的取消或超时
//   - rssLinks      : RSS链接的字符串切片，每个链接代表一个RSS源
//   - defaultAvatar : 备用头像地址，在抓取头像失败或不可用时使用
//
// Returns:
//   - []feedResult         : 每个RSS链接抓取的结果（包含成功的Feed及其文章或错误信息）
//   - map[string][]string  : 各种问题的统计记录（解析失败、内容为空、头像缺失、头像不可用）
func fetchAllFeeds(ctx context.Context, rssLinks []string, defaultAvatar string) ([]feedResult, map[string][]string) {
	// 设置最大并发量，以信道（channel）信号量的方式控制
	maxGoroutines := 10
	sem := make(chan struct{}, maxGoroutines)

	// 等待组，用来等待所有goroutine执行完毕
	var wg sync.WaitGroup

	resultChan := make(chan feedResult, len(rssLinks)) // 用于收集抓取结果的通道
	fp := gofeed.NewParser()                           // RSS解析器实例

	// 遍历所有RSS链接，为每个RSS链接开启一个goroutine进行抓取
	for _, link := range rssLinks {
		link = strings.TrimSpace(link)
		if link == "" {
			continue
		}
		wg.Add(1)         // 每开启一个goroutine，对应Add(1)
		sem <- struct{}{} // 向sem发送一个空结构体，表示占用了一个并发槽

		// 开启协程
		go func(rssLink string) {
			defer wg.Done()          // 协程结束时Done
			defer func() { <-sem }() // 函数结束时释放一个并发槽

			var fr feedResult
			fr.FeedLink = rssLink

			// 抓取RSS Feed, 无法解析时，使用指数退避算法进行重试, 有3次重试, 初始1s, 倍数2.0
			feed, err := fetchFeedWithRetry(rssLink, fp, 3, 1*time.Second, 2.0)
			if err != nil {
				fr.Err = wrapErrorf(err, "解析RSS失败: %s", rssLink)
				resultChan <- fr
				return
			}

			if feed == nil || len(feed.Items) == 0 {
				fr.Err = wrapErrorf(fmt.Errorf("该订阅没有内容"), "RSS为空: %s", rssLink)
				resultChan <- fr
				return
			}

			// 获取RSS的头像信息（若RSS自带头像则用RSS的，否则尝试从博客主页解析）
			avatarURL := getFeedAvatarURL(feed)
			fr.Article = &Article{
				BlogName: feed.Title,
			}

			// 检查头像可用性
			if avatarURL == "" {
				// 若头像链接为空，则标记为空字符串
				fr.Article.Avatar = ""
			} else {
				ok, _ := checkURLAvailable(avatarURL)
				if !ok {
					fr.Article.Avatar = "BROKEN" // 无法访问，暂记为BROKEN
				} else {
					fr.Article.Avatar = avatarURL // 正常可访问则记录真实URL
				}
			}

			// 只取最新一篇文章作为结果
			latest := feed.Items[0]
			fr.Article.Title = latest.Title
			fr.Article.Link = latest.Link

			// 解析发布时间，如果 RSS 解析器本身给出了 PublishedParsed 直接用，否则尝试解析 Published 字符串
			pubTime := time.Now()
			if latest.PublishedParsed != nil {
				pubTime = *latest.PublishedParsed
			} else if latest.Published != "" {
				if t, e := parseTime(latest.Published); e == nil {
					pubTime = t
				}
			}
			fr.ParsedTime = pubTime
			fr.Article.Published = pubTime.Format("02 Jan 2006")

			resultChan <- fr
		}(link)
	}

	// 开启一个goroutine等待所有抓取任务结束后，关闭resultChan
	go func() {
		wg.Wait()
		close(resultChan)
	}()

	// 用于统计各种问题
	problems := map[string][]string{
		"parseFails":   {}, // 解析 RSS 失败
		"feedEmpties":  {}, // 内容 RSS 为空
		"noAvatar":     {}, // 头像地址为空
		"brokenAvatar": {}, // 头像无法访问
	}
	// 收集抓取结果
	var results []feedResult

	for r := range resultChan {
		if r.Err != nil {
			errStr := r.Err.Error()
			switch {
			case strings.Contains(errStr, "解析RSS失败"):
				problems["parseFails"] = append(problems["parseFails"], r.FeedLink)
			case strings.Contains(errStr, "RSS为空"):
				problems["feedEmpties"] = append(problems["feedEmpties"], r.FeedLink)
			}
			results = append(results, r)
			continue
		}

		// 对于成功抓取的Feed，如果头像为空或不可用则使用默认头像
		if r.Article.Avatar == "" {
			problems["noAvatar"] = append(problems["noAvatar"], r.FeedLink)
			r.Article.Avatar = defaultAvatar
		} else if r.Article.Avatar == "BROKEN" {
			problems["brokenAvatar"] = append(problems["brokenAvatar"], r.FeedLink)
			r.Article.Avatar = defaultAvatar
		}
		results = append(results, r)
	}
	return results, problems
}

2.3 并发抓取 + 限流

为避免一下子开几十上百个协程导致阻塞，可以配合一个带缓存大小的 channel

maxGoroutines := 10
sem := make(chan struct{}, maxGoroutines)

for _, rssLink := range rssLinks {
    // 启动 goroutine 前先写入一个空 struct
    sem <- struct{}{}
    go func(link string) {
        // goroutine 执行结束后释放 <-sem
        defer func() { <-sem }()
        fetchFeedWithRetry(link, parser, 3, 1*time.Second, 2.0)
        // ...
    }(rssLink)
}

3. 对比旧版本的改进

容错率显著提升

遇到网络抖动、超时等问题，能以10路并发限制式自动重试，很少出现直接拿不到数据
抓取速度更快

以 10 路并发为例，对于数量多的 RSS，速度提升明显
日志分类更细

分清哪条 RSS 是解析失败，哪条头像挂了，哪条本身有问题，后续维护比只给个403 Forbidden方便太多
支持 COS

可将最终 data.json 放在 COS 上进行 CDN 加速；也能继续放在 GitHub，视自己需求而定
自动清理过期日志

每次抓取后检查 logs/ 目录下 7 天之前的日志并删除，不用手工清理了

4. Go 生成的 JSON 和日志长啥样

4.1 RSS

抓取到的文章信息会按时间降序排列，示例:

{
  "items": [
    {
      "blog_name": "obaby@mars",
      "title": "品味江南（三）–虎丘塔 东方明珠",
      "published": "10 Mar 2025",
      "link": "https://oba.by/2025/03/19714",
      "avatar": "https://oba.by/wp-content/uploads/2020/09/icon-500-100x100.png"
    },
    {
      "blog_name": "风雪之隅",
      "title": "PHP8.0的Named Parameter",
      "published": "10 May 2022",
      "link": "https://www.laruence.com/2022/05/10/6192.html",
      "avatar": "https://www.laruence.com/logo.jpg"
    }
  ],
  "updated": "2025年03月11日 07:15:57"
}

4.2 日志

程序每次运行完毕后，把抓取统计和问题列表写到 GitHub 仓库 logs/YYYY-MM-DD.log:

[2025-03-11 07:15:57] 本次订阅抓取结果统计:
[2025-03-11 07:15:57] 共 25 条RSS, 成功抓取 24 条.
[2025-03-11 07:15:57] ✘ 有 1 条订阅解析失败:
[2025-03-11 07:15:57] - https://tcxx.info/feed
[2025-03-11 07:15:57] ✘ 有 1 条订阅头像无法访问, 已使用默认头像:
[2025-03-11 07:15:57] - https://www.loyhome.com/feed

5. 照葫芦画瓢

如果你也想玩玩 LhasaRSS

准备一份 RSS 列表（TXT）:

格式：每行一个 URL
如果 RSS_SOURCE = GITHUB，则可以放在项目中的 data/rss.txt
如果 RSS_SOURCE = COS，就把它上传到某个 https://xxx.cos.ap-xxx.myqcloud.com/rss.txt

配置好环境变量:

默认所有数据保存到 Github，所以 COS API 环境变量不是必要的

 env:
     TOKEN:                    ${{ secrets.TOKEN }}                    # GitHub Token
     NAME:                     ${{ secrets.NAME }}                     # GitHub 用户名
     REPOSITORY:               ${{ secrets.REPOSITORY }}               # GitHub 仓库名
     TENCENT_CLOUD_SECRET_ID:  ${{ secrets.TENCENT_CLOUD_SECRET_ID }}  # 腾讯云 COS SecretID
     TENCENT_CLOUD_SECRET_KEY: ${{ secrets.TENCENT_CLOUD_SECRET_KEY }} # 腾讯云 COS SecretKey
     RSS:                      ${{ secrets.RSS }}                      # RSS 列表文件
     DATA:                     ${{ secrets.DATA }}                     # 抓取后的数据文件
     DEFAULT_AVATAR:           ${{ secrets.DEFAULT_AVATAR }}           # 默认头像 URL
     RSS_SOURCE                ${{ secrets.RSS_SOURCE }}               # 可选参数 GITHUB or COS
     SAVE_TARGET               ${{ secrets.SAVE_TARGET }}              # 可选参数 GITHUB or COS

部署并运行

只需 go run . 或在 GitHub Actions workflow_dispatch 触发运行结束后，就会在 data 文件夹更新 data.json，日志则写进 GitHub logs/ 目录，并且自动清理旧日志

注：如果你依旧想完全托管在 COS 上，需要把 RSS_SOURCE 和 SAVE_TARGET 都写为 COS，然后使用 GitHub Actions 去调度

骑行开封

游钓四方的博客

作者游钓四方的博客

2025年2月20日 16:14

我对于开封的印象，还停留在开封府尹·包拯。处于好奇和无处可去的想法，周六早上吃完饭，说走就走了

到达开封鼓楼

这里就到达开封了开封·鼓楼，郑开大道的路上很轻松，室外温度17°+，小风微微的吹着，不冷不热好不痛快

Strava记录

在郑开大道单飞的过程中偶遇骑友，王哥是开封本地的，骑行的路上跟我聊开封哪里好玩，哪里最具性价比，把我领进开封鼓楼后，又带我在景区逛了一圈带我认路，在此感谢大哥

与王哥的合照

早饭吃的比较仓促，真的很饿，在书店街附近买了些吃的

本来是想在开封呆一天，晚上去清明上河园玩，想到公司有事就提前回去了，怕耽误明天的行程

鼓楼合影

郑开大道

这次跨市骑行急了一些，时间太紧张了！再过几天休息，我想回一次家，骑行约200KM

Strava记录

游钓四方的博客
Blog Function Update 2025 (2)游钓四方的博客
Update details 移除红灯笼新增 sitemap.xml 和 sitemap.txt，自动生成，不再手动更新！之前我一直使用 xml-sitemaps 手动生成sitemap.xml，但每当 URL 新增或变更都需要手动提交。实在麻烦！所以，今日用 Liquid 实现自动生成，一劳永逸 sitemap.xml 优化策略首页优先级最高 (1.0)，其他页面次之 (0.8) 新文章优先级高（30 天内 0.9，半年内 0.8，一年内 0.6），让新内容更容易被搜索引擎收录旧文章优先级降低（1 年以上 0.4，2 年以上 0.2），减少搜索引擎对老旧内容的爬取动态调整 changefreq，确保新内容频繁爬取，而老文章爬取频率降低 --- layout: null --- <?xml version="1.0" encoding="UTF-8"?> <urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> {% assign now =
2025年2月6日 13:03
- 分享
- Email
- archive.is
- Twitter
❌

Blog Function Update 2025 (2)

游钓四方的博客

作者游钓四方的博客

2025年2月6日 13:03

Update details

移除红灯笼
新增 sitemap.xml 和 sitemap.txt，自动生成，不再手动更新！

之前我一直使用 xml-sitemaps 手动生成sitemap.xml，但每当 URL 新增或变更都需要手动提交。实在麻烦！所以，今日用 Liquid 实现自动生成，一劳永逸

sitemap.xml 优化策略

首页优先级最高 (1.0)，其他页面次之 (0.8)
新文章优先级高（30 天内 0.9，半年内 0.8，一年内 0.6），让新内容更容易被搜索引擎收录
旧文章优先级降低（1 年以上 0.4，2 年以上 0.2），减少搜索引擎对老旧内容的爬取
动态调整 changefreq，确保新内容频繁爬取，而老文章爬取频率降低

---
layout: null
---
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  {% assign now = site.time | date: "%s" | plus: 0 %}
  
  {% for page in site.pages %}
    {% if page.url == "/" %}
    <!-- 首页优先级最高 -->
      {% assign page_priority = "1.0" %}
    {% else %}
      {% assign page_priority = "0.8" %}
    {% endif %}
    
    <url>
      <loc>{{ site.url }}{{ page.url | replace:'index.html','' }}</loc>
      <lastmod>{{ site.time | date_to_xmlschema }}</lastmod>
      <changefreq>weekly</changefreq>
      <priority>{{ page_priority }}</priority>
    </url>
  {% endfor %}
  
  <!-- 根据发布时间动态调整 priority 和 changefreq -->
  {% for post in site.posts %}
    {% assign post_time = post.date | date: "%s" | plus: 0 %}
    {% assign diff = now | minus: post_time %}
    {% assign days_old = diff | divided_by: 86400 %}
    
    {% if days_old < 30 %}
      {% assign priority = "0.9" %}
      {% assign changefreq = "daily" %}
    {% elsif days_old < 180 %}
      {% assign priority = "0.8" %}
      {% assign changefreq = "weekly" %}
    {% elsif days_old < 365 %}
      {% assign priority = "0.6" %}
      {% assign changefreq = "monthly" %}
    {% elsif days_old < 730 %}
      {% assign priority = "0.4" %}
      {% assign changefreq = "yearly" %}
    {% else %}
      {% assign priority = "0.2" %}
      {% assign changefreq = "never" %}
    {% endif %}
    
    <url>
      <loc>{{ site.url }}{{ post.url }}</loc>
      <lastmod>{{ post.date | date_to_xmlschema }}</lastmod>
      <changefreq>{{ changefreq }}</changefreq>
      <priority>{{ priority }}</priority>
    </url>
  {% endfor %}
</urlset>

sitemap.txt 兼容旧版爬虫

sitemap.txt 适用于不支持 XML 的搜索引擎（如某些旧版爬虫）

---
layout: null
permalink: /sitemap.txt
---
{% for page in site.pages %}
{{ site.url }}{{ page.url | replace:'index.html','' }}
{% endfor %}

{% for post in site.posts %}
{{ site.url }}{{ post.url }}
{% endfor %}

在 robots.txt 里声明 Sitemap

确保搜索引擎能找到 Sitemap，需要在 robots.txt 文件中声明 sitemap.xml 和 sitemap.txt

User-agent: *
Allow: /

User-agent: MJ12bot
Disallow: /
User-agent: AhrefsBot
Disallow: /
User-agent: SemrushBot
Disallow: /
User-agent: dotbot
Disallow: /

Sitemap: https://lhasa.icu/sitemap.xml
Sitemap: https://lhasa.icu/sitemap.txt

普通视图

注册 Chrome Web Store 开发者

注册 WildCard

注册 Chrome Web Store 开发者

个人交易者声明

空腹骑行75公里

周六

周日

利用 Go + COS + GitHub 重构 RSS 爬虫

1. 为什么要重构

2. 主要思路

2.1 整体流程

2.2 指数退避

2.3 并发抓取 + 限流

3. 对比旧版本的改进

4. Go 生成的 JSON 和日志长啥样

4.1 RSS

4.2 日志

5. 照葫芦画瓢

相关文档

骑行开封

Blog Function Update 2025 (2)

Update details

sitemap.xml 优化策略

sitemap.txt 兼容旧版爬虫

在 robots.txt 里声明 Sitemap