Мусор на входе — мусор на выходе: почему сырые данные бесполезны
В Уроке 1 вы научились просить AI анализировать данные и находить инсайты. Но что если данные, которые вы загружаете, — это хаос? Дубликаты, пустые ячейки, разные форматы дат, опечатки в названиях. AI проанализирует и такие данные, но выводы будут неточными.
В программировании это называют GIGO — Garbage In, Garbage Out (мусор на входе — мусор на выходе). Если в таблице один и тот же клиент записан как «ООО Альфа», «Альфа ООО» и «альфа» — AI посчитает их как трёх разных клиентов. Все выводы поплывут.
Шокирующий факт: 80% времени аналитика уходит на очистку и подготовку данных. Только 20% — на сам анализ. AI переворачивает это соотношение: очистка, которая занимала часы, теперь делается за минуты.
Пять типов «грязных» данных:
1. Дубликаты. Один и тот же клиент, заказ или товар записан несколько раз. В базе из 5 000 строк может быть 300-500 дубликатов — и каждый искажает статистику.
2. Пустоты. Пропущенные ячейки: нет телефона, не указана дата, пустой город. 10% пустот — это уже проблема: средние, суммы и проценты будут неточными.
3. Разные форматы. Даты: «01.03.2025», «1 марта 2025», «03/01/2025», «2025-03-01» — один и тот же день в 4 форматах. Телефоны: «+7 (999) 123-45-67», «89991234567», «8-999-123-4567». Excel не поймёт, что это одно и то же.
4. Опечатки и разнобой в названиях. «Москва», «москва», «Мск», «г. Москва», «МОСКВА» — пять записей вместо одной. В категориях товаров: «Электроника», «электроника», «Электр.», «Гаджеты» (тот же раздел).
5. Смешанные единицы. Вес в граммах и килограммах в одной колонке. Цены в рублях и долларах. Расстояние в км и милях. Без нормализации все расчёты бессмысленны.
Хорошая новость: AI отлично справляется со всеми пятью типами. Вам нужно лишь описать, что не так, и какой результат вы хотите получить.
4 операции структурирования данных с AI
В Уроке 1 вы узнали 5 задач аналитики, которые AI решает за минуты. Сегодня углубляемся в первую — обработку данных. Вот 4 ключевые операции:
Операция 1: Нормализация форматов
Задача: привести все данные к единому формату. AI делает это мгновенно.
Пример промпта: «Вот список из 50 дат в разных форматах. Приведи все к формату ДД.ММ.ГГГГ. Если формат неоднозначный (01/02/2025 — это 1 февраля или 2 января?), спроси у меня.» AI не просто конвертирует — он замечает неоднозначности, которые человек бы пропустил.
То же работает для телефонов (+7 формат), адресов (город, улица, дом), валют (всё в рубли по курсу на дату), единиц измерения (всё в кг/м/шт).
Операция 2: Категоризация
Задача: разнести данные по группам, когда группы не заданы заранее.
Пример: у вас 200 отзывов от клиентов — просто текст. Попросите AI: «Прочитай эти отзывы. Раздели их на категории по теме: качество продукта, доставка, обслуживание, цена, другое. Для каждой категории посчитай количество и покажи общий тон (позитивный/нейтральный/негативный).» Из хаоса текстов вы получите структурированный отчёт.
Операция 3: Сводные таблицы из текста
Задача: превратить неструктурированный текст в таблицу.
Пример: вам прислали отчёт по email — 3 абзаца текста с цифрами вперемешку. «В январе продали 120 единиц на 450 тыс., в феврале было 98 штук, выручка упала до 370, а вот март порадовал — 156 единиц и 580 тысяч рублей.» Попросите AI: «Преобразуй этот текст в таблицу с колонками: месяц, количество, выручка (₽).» Мгновенно получите чистую таблицу.
Операция 4: Объединение данных из разных источников
Задача: соединить данные из 2-3 таблиц/файлов в одну сводку.
Пример: в одном файле — список клиентов с контактами, в другом — их заказы, в третьем — оплаты. Попросите AI: «Объедини эти три таблицы в одну по ключу "ID клиента". Покажи: имя, контакт, количество заказов, сумма оплат, есть ли задолженность.» AI выполнит работу, на которую в Excel потребовались бы функции ВПР/INDEX/MATCH — а вам не нужно знать ни одной формулы.
Важно: при каждой операции просите AI показать лог изменений: «Покажи, что именно ты изменил, и сколько записей затронуто.» Это ваш контроль качества.
Как HR-отдел навёл порядок в базе из 2 000 сотрудников за 2 часа
Ситуация: Производственная компания, 2 000 сотрудников. База данных персонала велась 8 лет в Excel. За это время сменились 4 HR-менеджера, каждый вносил данные по-своему.
Проблема — тотальный хаос:
Даты рождения — в 5 разных форматах: «15.03.1990», «15 марта 1990 г.», «1990-03-15», «03/15/1990», а у 120 человек дата вообще отсутствовала.
Должности — «менеджер», «Менеджер», «менеджер по продажам», «МпП», «менеджер (продажи)» — один и тот же человек в отчётах мог выглядеть как 5 разных.
Телефоны — городские, мобильные, с кодом и без, через пробелы и дефисы. У 230 человек было записано «нет» вместо пустой ячейки.
Решение с AI (2 часа вместо 2 недель):
Час 1 — Нормализация. AI привёл все даты к формату ДД.ММ.ГГГГ, все телефоны к +7 (XXX) XXX-XX-XX, все должности — к единому справочнику из 34 позиций. Для 120 пустых дат пометил «УТОЧНИТЬ» и создал список сотрудников для проверки.
Час 2 — Поиск дубликатов и аномалий. AI нашёл 47 дубликатов — сотрудники, записанные дважды с разным написанием имени. Обнаружил 8 человек с датой рождения в будущем (ошибки ввода) и 3 сотрудника, которые числились в двух отделах одновременно.
Результат: Чистая база с едиными форматами, без дубликатов, с пометками для ручной проверки. HR-директор сказал: «Мы планировали на это 2 недели и хотели нанять подрядчика за 80 000 ₽. Сделали сами за 2 часа.»
Ключевой урок: AI не просто чистит данные — он находит ошибки, которые люди не замечают годами.
Промпт: Универсальный структуризатор данных
Этот промпт сложнее, чем в Уроке 1: он не просто анализирует данные, а преобразует их — очищает, нормализует и выдаёт в нужном формате. Плюс создаёт лог всех изменений для контроля. Замените параметры в квадратных скобках:
Ты — специалист по обработке данных с 10-летним опытом очистки и структурирования корпоративных баз данных. Задача: обработай и структурируй мои данные. Исходные данные: [вставьте данные — таблицу, текст или описание. Можно скопировать из Excel, Word, email] Тип данных: [что это — список клиентов / заказы / отзывы / контакты / финансы / другое] Желаемый формат вывода: [опишите — например: «таблица с колонками: ФИО, телефон (+7 формат), email, город, дата рождения (ДД.ММ.ГГГГ)»] Выполни следующие операции: 1. ОЧИСТКА — удали дубликаты, исправь очевидные опечатки 2. НОРМАЛИЗАЦИЯ — приведи все значения к единому формату (даты, телефоны, названия, единицы измерения) 3. КАТЕГОРИЗАЦИЯ — если есть текстовые поля без структуры, предложи категории и распредели 4. ЗАПОЛНЕНИЕ ПУСТОТ — где возможно, предложи значения на основе контекста. Где невозможно — поставь пометку «УТОЧНИТЬ» После обработки покажи: - Готовую таблицу в чистом формате - ЛОГ ИЗМЕНЕНИЙ: что именно было изменено (количество дубликатов, исправленных форматов, пустых ячеек) - ПРЕДУПРЕЖДЕНИЯ: записи, которые требуют ручной проверки (неоднозначные данные, подозрительные значения) - СТАТИСТИКА: количество записей до/после, процент «грязных» данных Если данные неоднозначны — спроси, не угадывай.
Начните с небольшого набора данных (20-50 строк), чтобы проверить качество обработки. Обязательно проверяйте лог изменений — AI иногда «слишком усердно» чистит данные и может удалить что-то нужное. Когда убедитесь в качестве — масштабируйте на весь массив. Для больших таблиц (500+ строк) разбивайте на порции.
🤖 Открыть в AI-модели
Мысль дня
Данные называют «новой нефтью». Но сырая нефть бесполезна — её нельзя залить в бак. Нужна переработка: очистка, разделение, стандартизация. AI — ваш персональный нефтеперерабатывающий завод: он превращает хаотичные цифры и тексты в чистое топливо для бизнес-решений.
Задание: Очистите и структурируйте хаотичный набор данных
Сегодня вы пройдёте полный цикл обработки данных — от хаоса до порядка. Три шага, каждый сложнее предыдущего:
Попросите AI: «Сгенерируй учебную таблицу из 30 строк — база клиентов магазина. Колонки: имя, телефон, email, город, дата регистрации, сумма покупок. Специально добавь проблемы: 5 дубликатов, 3 пустых телефона, даты в разных форматах, опечатки в городах (Москва/москва/Мск), некоторые суммы в долларах вместо рублей.»
Возьмите полученную «грязную» таблицу и обработайте её с помощью промпта из блока выше. Проверьте лог изменений: нашёл ли AI все 5 дубликатов? Привёл ли даты к единому формату? Конвертировал ли доллары в рубли?
Попросите AI: «Сравни исходную и очищенную таблицу. Покажи: сколько записей было / стало, какой процент данных был "грязным", какие проблемы были самые частые. Оцени качество исходных данных по шкале 1-10.» Это научит вас оценивать качество любых данных с первого взгляда.