Восстановление базы данных PostgreSQL вручную после аппаратного сбоя

Почему важно быстро и правильно восстанавливать PostgreSQL после аппаратного сбоя?

Аппаратные сбои, такие как отказ жестких дисков или неисправности RAID-массивов, могут привести к повреждению баз данных, нарушению их целостности и даже полной потере данных. PostgreSQL, благодаря таким механизмам как WAL (Write-Ahead Logging), предоставляет мощные инструменты для восстановления, но успех зависит от правильных действий администратора.

2. Признаки аппаратного сбоя

Аппаратный сбой может проявляться через широкий спектр симптомов, которые зависят от типа проблемы, конфигурации системы и используемого оборудования. Раннее выявление признаков сбоя позволяет минимизировать потери данных и время простоя.

Типичные признаки аппаратных сбоев

Отказ жесткого диска:
- Неожиданные сообщения об ошибках чтения/записи на диск.
- Задержки в доступе к файлам или папкам.
- Системные сообщения вроде I/O error в логах.
Проблемы с RAID-массивом:
- Один или несколько дисков в массиве перешли в статус "degraded" (пониженная работоспособность).
- Увеличение времени отклика массива.
- Ошибки синхронизации RAID в логах.
Потеря подключения к хранилищу:
- Постоянные или прерывистые ошибки подключения.
- Падение скорости передачи данных.
- Логи показывают сообщения типа Storage device not found.
Неисправности оперативной памяти (RAM):
- Непредсказуемые сбои приложений.
- Ошибки сегментации (segfaults).
- Частые перезагрузки сервера.

Как аппаратные сбои влияют на PostgreSQL

Повреждение файлов базы данных:
- Ошибки чтения или записи в файлах данных (pgdata), например, could not read block или corruption detected.
Нарушение работы индексов:
- Индексы могут быть повреждены, что приводит к замедлению запросов или ошибкам invalid index.
Потеря данных:
- Частичная или полная потеря данных, если физический диск стал недоступным или данные не были синхронизированы.
Проблемы с репликацией:
- Реплика может остановиться или потерять синхронизацию с основной базой данных из-за поврежденных WAL-журналов. Для более подробной информации можно обратиться к официальной документации.

Диагностические инструменты

dmesg:
Анализирует сообщения ядра, связанные с оборудованием:
dmesg | grep -i error

Примеры сообщений:
- ata1: failed command: READ DMA
- blk_update_request: I/O error
- smartctl:
  Проверяет состояние жестких дисков (SMART-атрибуты):
  sudo smartctl -a /dev/sdX
Обратите внимание на параметры:
- Reallocated_Sector_Ct (количество переназначенных секторов).
- Current_Pending_Sector (сектора, ожидающие исправления).
Системные логи:
- Логи, связанные с PostgreSQL:
```
tail -f /var/log/postgresql/postgresql-*.log
```
- Логи общего назначения:
```
journalctl -xe
```
RAID-менеджеры: Для диагностики RAID используйте инструменты, предоставляемые производителем контроллера:
- mdadm (для программного RAID в Linux):
  cat /proc/mdstat
- Утилиты от производителей оборудования, такие как MegaCLI или HP Smart Storage Administrator.
Инструменты мониторинга файловых систем:
- fsck: Проверка целостности файловой системы:
```
sudo fsck /dev/sdX
```
- iostat: Для анализа загрузки ввода/вывода:
```
iostat -x
```
Мониторинг нагрузки и температуры оборудования:

Используйте lm-sensors для проверки температуры:
sensors

Для проверки нагрузки процессора и ввода/вывода:
top
iotop

3. Шаги восстановления PostgreSQL после сбоя

Восстановление PostgreSQL после аппаратного сбоя требует систематического подхода. Каждый этап включает анализ повреждений, использование резервных копий, работу с WAL-журналами и проверку целостности данных. Так же рекомендуем ознакомиться самостоятельно с документацией по резервным копиям и восстановлению. Рассмотрим подробно все шаги, чтобы минимизировать потери данных и сократить время простоя.

3.1. Подготовка к восстановлению

Оценка ситуации:
- Определите состояние сервера:
  - Жесткий диск доступен?
  - Файлы базы данных целы или повреждены?
- Проверьте, есть ли доступ к резервным копиям и WAL-журналам.
Остановите PostgreSQL: Чтобы избежать дальнейших повреждений, при обнаружении сбоя сразу остановите сервис:
```
sudo systemctl stop postgresql
```
Создайте резервную копию текущего состояния: Даже поврежденные данные могут быть полезны для анализа:
```
tar -czvf pgdata_backup.tar.gz /var/lib/postgresql/data
```
Проверьте состояние диска и файловой системы:
- Используйте fsck для проверки и восстановления файловой системы:
```
sudo fsck /dev/sdX
```
- Для RAID-массивов выполните диагностику через mdadm или специализированные утилиты.
Определите уровень повреждений:
- Частичные повреждения: Проблемы только с отдельными файлами или таблицами.
- Полное восстановление: Требуется восстановление всей базы данных с нуля.

3.2. Восстановление из резервных копий

Регулярные резервные копии облегчают процесс восстановления.

Проверка наличия резервных копий:
- Убедитесь, что у вас есть:
  - Полная резервная копия (например, сделанная с помощью pg_basebackup).
  - WAL-журналы для восстановления изменений после создания копии.
Восстановление с использованием pg_restore:
- Если копия создана с помощью утилиты pg_dump, используйте команду:
```
pg_restore -h localhost -U postgres -d mydb backup.dump
```
- Для текстовых резервных копий:
```
psql -U postgres -d mydb -f backup.sql
```
Восстановление с помощью pg_basebackup:
- Если у вас есть резервная копия директории базы данных:
```
pg_basebackup -D /var/lib/postgresql/data -Fp -X fetch -v
```
Восстановление из архивов: Если резервные копии хранятся в архиве:
bash
Копировать код
```
tar -xzvf backup.tar.gz -C /var/lib/postgresql/data
```

3.3. Восстановление с использованием WAL (Write-Ahead Logging)

Если резервные копии есть, но не включают последние данные, восстановление WAL помогает минимизировать потери.

Принцип работы WAL:
- WAL-журналы фиксируют все изменения данных перед их записью на диск.
- Это позволяет восстановить изменения, сделанные после последнего бэкапа.
Настройка для восстановления:
- Подготовьте файл recovery.conf (или соответствующую настройку в PostgreSQL 12+):
```
restore_command = 'cp /path/to/wal_archive/%f %p'
recovery_target_time = 'YYYY-MM-DD HH:MM:SS'
```
- Убедитесь, что директория для WAL доступна.
Запуск восстановления:
- Переместите текущие файлы данных:
```
mv /var/lib/postgresql/data /var/lib/postgresql/data_old
```
- Разверните резервную копию и начните восстановление WAL:
```
pg_ctl start -D /var/lib/postgresql/data
```
Проверка восстановленных данных:
- После завершения процесса проверьте консистентность базы:
```
SELECT * FROM pg_stat_activity;
```

3.4. Восстановление с помощью pg_rewind (для реплик)

Если используется репликация PostgreSQL, после сбоя важно восстановить синхронизацию между основной базой и репликой. Чтобы более детально ознакомиться с утилитой можно ознакомиться с документацией Использование утилиты pg_rewind

Когда использовать pg_rewind:
- Основной сервер не синхронизирован с репликой из-за сбоя.
- Реплика содержит актуальные данные, а основной сервер нет.

Шаги восстановления:

Остановите сервер:
```
sudo systemctl stop postgresql
```

Запустите pg_rewind для синхронизации:

pg_rewind --source-server="host=replica_host user=replica_user dbname=replica_db" --target-pgdata=/var/lib/postgresql/data

Запустите основную базу:
```
sudo systemctl start postgresql
```

3.5. Восстановление индексов и целостности базы данных

Восстановление индексов:
- Если индексы повреждены, пересоздайте их:
```
REINDEX DATABASE mydb;
```
Проверка целостности базы:
- Используйте pg_checksums (PostgreSQL 12+):
```
pg_checksums --check --data-dir=/var/lib/postgresql/data
```
Решение проблем с отдельными таблицами:
- Экспортируйте данные из поврежденной таблицы:
```
pg_dump -t damaged_table mydb > damaged_table.sql
```
- Пересоздайте таблицу и импортируйте данные.

3.6. Использование других инструментов для восстановления

Barman:
- Восстановление данных с помощью резервных копий:
```
barman recover mydb 20241118T123456 /var/lib/postgresql/data
```
PgBackRest:
- Утилита для автоматизации резервного копирования и восстановления:
```
pgbackrest --stanza=mydb restore
```
Pg_repair:
- Восстановление поврежденных файлов данных.

4. Проблемы, с которыми могут столкнуться администраторы

Ошибки восстановления WAL:
- Проблема: WAL-файлы отсутствуют или повреждены.
- Решение: Проверьте архивы и восстановите недостающие файлы.
Проблемы с репликацией:
- Проблема: Реплика отказывается синхронизироваться.
- Решение: Используйте pg_rewind или создайте новую реплику.
Частичная потеря данных:
- Проверьте журналы ошибок, чтобы понять, какие данные утеряны.

5. Как предотвратить сбои и потери данных

Регулярные резервные копии: Настройте автоматическое создание резервных копий с помощью cron:
```
0 2 * * * pg_basebackup -D /backups/ -F t -z
```
Репликация PostgreSQL: Настройте репликацию для обеспечения отказоустойчивости:
PRIMARY:
```
wal_level = replica
archive_mode = on
STANDBY:
primary_conninfo = 'host=192.168.1.1 port=5432 user=replica password=yourpassword'
```
Мониторинг состояния серверов: Используйте инструменты:
- pg_stat_activity для анализа активности.
- smartmontools для мониторинга дисков.
Проверка конфигурационных файлов: Храните резервные копии файлов postgresql.conf и pg_hba.conf.

Примеры команд и конфигураций

1. Создание резервной копии с помощью pg_basebackup:

pg_basebackup -D /backup_directory -Fp -X fetch -z -P -h localhost -U postgres

2. Восстановление из резервной копии с pg_restore:

pg_restore -h localhost -U postgres -d mydatabase /backup_directory/backup.dump

3. Настройка restore_command для применения WAL-журналов:

Добавьте в файл postgresql.auto.conf:

restore_command = 'cp /var/lib/pgsql/wal_archive/%f %p'

4. Использование pg_rewind для синхронизации реплики:

pg_rewind --source-server="host=replica_host user=replica_user dbname=replica_db" --target-pgdata=/var/lib/pgsql/data

5. Проверка целостности данных с помощью pg_checksums:

pg_checksums --check --data-dir=/var/lib/postgresql/data

6. Пересоздание поврежденных индексов:

REINDEX DATABASE mydatabase;

Заключение

Восстановление базы данных PostgreSQL после аппаратного сбоя — критически важный процесс, который требует внимательности, технических знаний и подготовки. Успешное восстановление зависит от правильного подхода к каждому этапу: диагностики проблемы, оценки повреждений, выбора подходящего метода восстановления (резервные копии, WAL-журналы, pg_rewind) и проверки целостности данных.

Основные шаги восстановления включают:

Оценку состояния сервера и данных.
Восстановление из резервных копий или журналов WAL.
Пересоздание индексов и проверку целостности данных.
Синхронизацию реплик при использовании репликации.

Для минимизации рисков потери данных и увеличения отказоустойчивости базы рекомендуется:

Настраивать регулярное создание резервных копий с использованием инструментов вроде pg_dump, pg_basebackup, Barman и PgBackRest.
Внедрять репликацию PostgreSQL для отказоустойчивости.
Использовать мониторинг состояния серверов и базы данных (pg_stat_activity, pg_stat_replication).
Тестировать процедуры восстановления на тестовых серверах.