Импорт базы данных из файлов



Задача:
Написать парсер, который рекурсивно обойдет все файлы, которые хранятся на диске, разберёт данные и положит их в PostgreSQL.

Количество записей: ±2 млн
Объем данных: ±150 Gb
База данных: PostgreSQL (будет хоститься на DigitalOcean)


Требования:
- Ведение лога, чтобы можно было отловить ошибки и быть уверенным в целостности данных.
- Высокая скорость импорта. Нужно выбрать оптимальный способ для импорта данных в PostgreSQL. Желательная скорость 2-5 часа. Допустимая скорость 12 часов.

Структура базы данных:
- URL
- Title страницы
- Категория (laptops/device/hwid)
- Тип устройства (sound/video/ etc…) – только для категории device
- Бренд производителя (Acer/Asus/Nvidia/Intel/ etc…)
- Остальной HTML текст
- Количество символов в поле "Остальной HTML текст"
- Исходное название папки и файла из которого производился импорт


Пример исходных данных (полный архив весит ±150 Gb): https://wdfiles.ru/0aac93




Скачать файл


Город: Москва
Статус: снято с публикации
Вид предложения: Удаленная работа (разовый заказ)
Оплата: с банковской карты физлица
Категория: Программирование

Добавлено: 19.03.2022 в 00:21