Компания СК Обсудить проект
Логистический оператор

ETL-пайплайн транспортной отчётности

AI: LLM-валидация и обогащение данных, fuzzy-матчинг ФИО и адресов.
Технологии
Python 3.12, Pandas, Pandera Parquet, Yandex Disk API LLM-обогащение и матчинг
Обложка кейса ETL-пайплайн транспортной отчётности
Задача

Каждый день нужно собрать с Яндекс.Диска десятки Excel-файлов с путевыми листами и актами, привести к единой структуре, проверить данные и положить в аналитическое хранилище. До этого делали вручную.

Решение

Классический Bronze/Silver/Gold-пайплайн на Python + Parquet с Pandera-валидацией. Отдельный слой Final для итоговых актов. Нормализация госномеров, обогащение через LLM (резолв ФИО водителей, адресов), отчёт качества данных.

Результат

Ежедневная обработка перешла из ручного режима в автоматический. Ошибки в данных стали видны в момент загрузки, а не в конце месяца.

Слои данных

  • Bronze — сырые данные с минимальной нормализацией
  • Silver — очищенные и валидированные через Pandera
  • Gold — агрегированные витрины
  • Final — итоговые акты с собственными bronze/silver-слоями

Обсудим ваш проект

Расскажите задачу — за 1-2 рабочих дня вернёмся с оценкой объёма, сроков и подхода.