运行在容器中Postgres数据库数据损坏后如何恢复?

2023-09-27 16:48 由东风微鸣发表于 #其他

前言

在使用 K8S 部署 RSS 全套自托管解决方案- RssHub + Tiny Tiny Rss, 我介绍了将 RssHub + Tiny Tiny RSS 部署到 K8s 集群中的方案. 其中 TTRSS 会用到 Postgres 存储数据, 也一并部署到 K8s 容器中.

但是最近, 由于一次错误操作, 导致 Postgres 数据库的 WAL 损坏, Postgres 的 Pod 频繁 CrashBackoffLoop. 具体报错如下:

Postgres shutdown exit code 1:

2023-09-27 02:32:17.127 UTC [1] LOG:  received fast shutdown request
2023-09-27 02:32:17.181 UTC [1] LOG:  aborting any active transactions
2023-09-27 02:32:17.434 UTC [1] LOG:  background worker "logical replication launcher" (PID 26) exited with exit code 1
2023-09-27 02:32:17.481 UTC [21] LOG:  shutting down
2023-09-27 02:32:17.880 UTC [1] LOG:  database system is shut down

Postgres "invalid resource manager ID in primary checkpoint record" and "could not locate a valid checkpoint record"

2023-09-27 02:33:23.189 UTC [1] LOG:  starting PostgreSQL 13.5 on x86_64-pc-linux-musl, compiled by gcc (Alpine 10.3.1_git20211027) 10.3.1 20211027, 64-bit
2023-09-27 02:33:23.190 UTC [1] LOG:  listening on IPv4 address "0.0.0.0", port 5432
2023-09-27 02:33:23.190 UTC [1] LOG:  listening on IPv6 address "::", port 5432
2023-09-27 02:33:23.199 UTC [1] LOG:  listening on Unix socket "/var/run/postgresql/.s.PGSQL.5432"
2023-09-27 02:33:23.210 UTC [21] LOG:  database system was shut down at 2023-09-27 02:32:22 UTC
2023-09-27 02:33:23.210 UTC [21] LOG:  invalid resource manager ID in primary checkpoint record
2023-09-27 02:33:23.210 UTC [21] PANIC:  could not locate a valid checkpoint record
2023-09-27 02:33:24.657 UTC [1] LOG:  startup process (PID 21) was terminated by signal 6: Aborted
2023-09-27 02:33:24.657 UTC [1] LOG:  aborting startup due to startup process failure
2023-09-27 02:33:24.659 UTC [1] LOG:  database system is shut down

如上, WAL文件已损坏, 应该如何恢复?

恢复步骤

🐾Warning:

目的是启动 Postgres 恢复应用的正常运行. 数据可能存在丢失.

这是一个 TTRSS feed 应用, 只供我自己使用, 只要能启动起来, 丢失一点数据无所谓.

首先, Postgres Pod 在 CrashBackoffLoop, 无法进行任何操作, 首要任务是使 Pod 启动起来, 不要关闭. 这里通过在 Deployment 添加一些命令来实现. 如下:

apiVersion: apps/v1
kind: Deployment
metadata:
  ...
spec:
  ...
  template:
    spec:
      containers:
      - image: postgres:13-alpine
        imagePullPolicy: IfNotPresent
        name: postgres
        command: ["sh"]
        args: ["-c", "tail -f /dev/null"]
...

如上, 通过 sh -c tail -f /dev/null 实现 Pod 运行. 也可以通过类似 while true; do sleep 30; done; 等类似命令来实现.

Pod 稳定运行后, 通过 kubectl exec -it 进入该Pod:

k3s kubectl exec -it database-postgres-56cff865bb-92pcx -n rsshub -- /bin/sh

并切换到 postgres 用户:

su - postgres

🐾Warning:

切换到 postgres 用户方可执行下面命令.

接下来就顺利了, 使用 pg_reset_wal 恢复 WAL:

先用 --dry-run 看看运行结果:

pg_resetwal --dry-run /var/lib/postgresql/data/

如果结果符合预期, 再运行:

pg_resetwal /var/lib/postgresql/data/
Write-ahead log reset

成功后, 退出 Pod. 并移除 Deploy 的 command 和 args 后, postgres 即可正常启动. 如下:

2023-09-27 04:03:25.172 UTC [1] LOG:  starting PostgreSQL 13.5 on x86_64-pc-linux-musl, compiled by gcc (Alpine 10.3.1_git20211027) 10.3.1 20211027, 64-bit
2023-09-27 04:03:25.173 UTC [1] LOG:  listening on IPv4 address "0.0.0.0", port 5432
2023-09-27 04:03:25.173 UTC [1] LOG:  listening on IPv6 address "::", port 5432
2023-09-27 04:03:25.179 UTC [1] LOG:  listening on Unix socket "/var/run/postgresql/.s.PGSQL.5432"
2023-09-27 04:03:25.187 UTC [20] LOG:  database system was shut down at 2023-09-27 04:02:42 UTC
2023-09-27 04:03:25.210 UTC [1] LOG:  database system is ready to accept connections

完成🎉🎉🎉

三人行, 必有我师; 知识共享, 天下为公. 本文由东风微鸣技术博客 EWhisper.cn 编写.

数字化校园建设，NTP数字电子时钟（网络时钟系统）方案

数字化校园建设，NTP数字电子时钟（网络时钟系统）方案数字化校园建设，NTP数字电子时钟（网络时钟系统）方案京准电子科技官微——ahjzsz 本系统提供一套支持最新的网络时间协议NTPv4的软件以及其配置方案，为网络中的设备提供NTP服务。系统由三部分组成，分别为嵌入式一级网络时间服务器，二级 ...阅读全文

技术革命——云计算结合人工智能

云计算在人工智能领域的应用非常广泛，它提供了强大的计算和存储资源，为人工智能算法和模型的训练、推理和部署提供了便利和效率。云计算和人工智能的结合将是一场技术革命，云计算+人工智能的未来是所有的业务都在云上提供。云计算在人工智能领域的几个重要应用： ...阅读全文

【短道速滑十】非局部均值滤波的指令集优化和加速（针对5*5的搜索特例，可达到单核1080P灰度图 28ms/帧的速度）。

通过指令集以及其他优化方式加速非局部均值滤波算法的速度，比网络中公开的算法速度（CPU版本）至少快二倍以上，结合多线程技术，可以做到接近其GPU的速度。针对5*5的搜索特例，做了特别优化，可达到单核1080P灰度图 28ms/帧的速度，如果用双线程，可满足实时处理的需求。 ...阅读全文

动态规划——带权二分优化DP 学习笔记

动态规划——带权二分优化DP 学习笔记引入带权二分其实并不一定用于优化 DP，也可能用于优化贪心等最优化的算法。带权二分也叫 WQS 二分，最初由王钦石在他的 2012 年国家集训队论文中提出。定义使用情况要解决一个最优化问题（求最大 / 最小值）有一个限制，一般是某个参数要求一定恰好 ...阅读全文

力扣刷题笔记-08 字符串转整数

08 字符串转整数属于对字符串进行操作的问题百无一用是情深问题字符串里有数字，空格，正负号等，需要先过滤出来在这道题目里，我们通常考虑字符串的组合是 “空格+正负号+数字”，一开始我想可能是“正负号+空格+数字”，但是这样的组合根本不可能是数字啊，没什么意义。循环条件 for循环字符串 ...阅读全文

力扣刷题笔记-07 整数反转

07 整数反转狗看了都摇头的年纪，纯爱战士一败涂地。怎么反转 temp用来保存个位数 res用来保存当前结果 123，取模运算，这样就可以获得最后一位。比如对123%10，得到temp=3. 判断res是不是溢出（重点）如果没有溢出，res扩大十倍，再加上个位数，就相当于是反转了。res = ...阅读全文

记一次地市hw:从供应商到目标站再到百万信息泄露

起因：某市hw，给了某医院的资产，根据前期进行的信息收集就开始打，奈何目标单位资产太少，唯有一个IP资产稍微多一点点，登录框就两个，屡次尝试弱口令、未授权等均失败。 ...阅读全文

OpenSSL 密码软件库学习

说明：本次的密码算法采用C++编写，使用clion开发平台，Cmake编译配置工具；通过集成OpenSSL密码软件库，实现加解密功能。 1 对称加解密（AES） 1.1 AES简介： AES（Advanced Encryption Standard）是分组密码，每组的长度相同，为128位，即16个字 ...阅读全文

AtCoder Beginner Contest 323

有的人边上课边打abc A - Weak Beats (abc323 A) 题目大意给定一个\(01\)字符串，问偶数位（从\(1\)开始）是否全为\(0\)。解题思路遍历判断即可。神奇的代码 #include <bits/stdc++.h> using namespace std; us ...阅读全文

计算机网络基础面试第二弹

1. TCP三次握手和四次挥手 TCP三次握手的过程如下：第一步（SYN）：客户端向服务器发送一个带有SYN（同步）标志的TCP包，指示客户端希望建立连接。这个包包含一个随机的初始序列号（ISN）。第二步（SYN-ACK）：服务器收到客户端的SYN包后，会发送一个带有SYN和ACK（确认）标志的 ...阅读全文