Задача: Написать парсер, который рекурсивно обойдет все файлы, которые хранятся на диске, разберёт данные и положит их в PostgreSQL. Количество записей: ±2 млн Объем данных: ±150 Gb База данных: PostgreSQL (будет хоститься на DigitalOcean) Требования: - Ведение лога, чтобы можно было отловить ошибки и быть уверенным в целостности данных. - Высокая скорость импорта. Нужно выбрать оптимальный способ для импорта данных в PostgreSQL. Желательная скорость 2-5 часа. Допустимая скорость 12 часов. Структура базы данных: - URL - Title страницы - Категория (laptops/device/hwid) - Тип устройства (sound/video/ etc…) – только для категории device - Бренд производителя (Acer/Asus/Nvidia/Intel/ etc…) - Остальной HTML текст - Количество символов в поле "Остальной HTML текст" - Исходное название папки и файла из которого производился импорт Пример исходных данных (полный архив весит ±150 Gb): Скачать файл Город: Москва Статус: снято с публикации Вид предложения: Удаленная работа (разовый заказ) Оплата: с банковской карты физлица Категория: Программирование Добавлено: 19.03.2022 в 00:21 |
|