Аналитика
Урок 2

Обработка и структурирование данных

0 из 6
1
Фундамент
2
Погружение
3
Бизнес-кейс
4
Промпт
5
Инсайт
6
Практика
Фундамент

Мусор на входе — мусор на выходе: почему сырые данные бесполезны

В Уроке 1 вы научились просить AI анализировать данные и находить инсайты. Но что если данные, которые вы загружаете, — это хаос? Дубликаты, пустые ячейки, разные форматы дат, опечатки в названиях. AI проанализирует и такие данные, но выводы будут неточными.

В программировании это называют GIGO — Garbage In, Garbage Out (мусор на входе — мусор на выходе). Если в таблице один и тот же клиент записан как «ООО Альфа», «Альфа ООО» и «альфа» — AI посчитает их как трёх разных клиентов. Все выводы поплывут.

Шокирующий факт: 80% времени аналитика уходит на очистку и подготовку данных. Только 20% — на сам анализ. AI переворачивает это соотношение: очистка, которая занимала часы, теперь делается за минуты.

Пять типов «грязных» данных:

1. Дубликаты. Один и тот же клиент, заказ или товар записан несколько раз. В базе из 5 000 строк может быть 300-500 дубликатов — и каждый искажает статистику.

2. Пустоты. Пропущенные ячейки: нет телефона, не указана дата, пустой город. 10% пустот — это уже проблема: средние, суммы и проценты будут неточными.

3. Разные форматы. Даты: «01.03.2025», «1 марта 2025», «03/01/2025», «2025-03-01» — один и тот же день в 4 форматах. Телефоны: «+7 (999) 123-45-67», «89991234567», «8-999-123-4567». Excel не поймёт, что это одно и то же.

4. Опечатки и разнобой в названиях. «Москва», «москва», «Мск», «г. Москва», «МОСКВА» — пять записей вместо одной. В категориях товаров: «Электроника», «электроника», «Электр.», «Гаджеты» (тот же раздел).

5. Смешанные единицы. Вес в граммах и килограммах в одной колонке. Цены в рублях и долларах. Расстояние в км и милях. Без нормализации все расчёты бессмысленны.

Хорошая новость: AI отлично справляется со всеми пятью типами. Вам нужно лишь описать, что не так, и какой результат вы хотите получить.

Погружение

4 операции структурирования данных с AI

В Уроке 1 вы узнали 5 задач аналитики, которые AI решает за минуты. Сегодня углубляемся в первую — обработку данных. Вот 4 ключевые операции:

Операция 1: Нормализация форматов

Задача: привести все данные к единому формату. AI делает это мгновенно.

Пример промпта: «Вот список из 50 дат в разных форматах. Приведи все к формату ДД.ММ.ГГГГ. Если формат неоднозначный (01/02/2025 — это 1 февраля или 2 января?), спроси у меня.» AI не просто конвертирует — он замечает неоднозначности, которые человек бы пропустил.

То же работает для телефонов (+7 формат), адресов (город, улица, дом), валют (всё в рубли по курсу на дату), единиц измерения (всё в кг/м/шт).

Операция 2: Категоризация

Задача: разнести данные по группам, когда группы не заданы заранее.

Пример: у вас 200 отзывов от клиентов — просто текст. Попросите AI: «Прочитай эти отзывы. Раздели их на категории по теме: качество продукта, доставка, обслуживание, цена, другое. Для каждой категории посчитай количество и покажи общий тон (позитивный/нейтральный/негативный).» Из хаоса текстов вы получите структурированный отчёт.

Операция 3: Сводные таблицы из текста

Задача: превратить неструктурированный текст в таблицу.

Пример: вам прислали отчёт по email — 3 абзаца текста с цифрами вперемешку. «В январе продали 120 единиц на 450 тыс., в феврале было 98 штук, выручка упала до 370, а вот март порадовал — 156 единиц и 580 тысяч рублей.» Попросите AI: «Преобразуй этот текст в таблицу с колонками: месяц, количество, выручка (₽).» Мгновенно получите чистую таблицу.

Операция 4: Объединение данных из разных источников

Задача: соединить данные из 2-3 таблиц/файлов в одну сводку.

Пример: в одном файле — список клиентов с контактами, в другом — их заказы, в третьем — оплаты. Попросите AI: «Объедини эти три таблицы в одну по ключу "ID клиента". Покажи: имя, контакт, количество заказов, сумма оплат, есть ли задолженность.» AI выполнит работу, на которую в Excel потребовались бы функции ВПР/INDEX/MATCH — а вам не нужно знать ни одной формулы.

Важно: при каждой операции просите AI показать лог изменений: «Покажи, что именно ты изменил, и сколько записей затронуто.» Это ваш контроль качества.

Бизнес-кейс

Как HR-отдел навёл порядок в базе из 2 000 сотрудников за 2 часа

Ситуация: Производственная компания, 2 000 сотрудников. База данных персонала велась 8 лет в Excel. За это время сменились 4 HR-менеджера, каждый вносил данные по-своему.

Проблема — тотальный хаос:

Даты рождения — в 5 разных форматах: «15.03.1990», «15 марта 1990 г.», «1990-03-15», «03/15/1990», а у 120 человек дата вообще отсутствовала.

Должности — «менеджер», «Менеджер», «менеджер по продажам», «МпП», «менеджер (продажи)» — один и тот же человек в отчётах мог выглядеть как 5 разных.

Телефоны — городские, мобильные, с кодом и без, через пробелы и дефисы. У 230 человек было записано «нет» вместо пустой ячейки.

Решение с AI (2 часа вместо 2 недель):

Час 1 — Нормализация. AI привёл все даты к формату ДД.ММ.ГГГГ, все телефоны к +7 (XXX) XXX-XX-XX, все должности — к единому справочнику из 34 позиций. Для 120 пустых дат пометил «УТОЧНИТЬ» и создал список сотрудников для проверки.

Час 2 — Поиск дубликатов и аномалий. AI нашёл 47 дубликатов — сотрудники, записанные дважды с разным написанием имени. Обнаружил 8 человек с датой рождения в будущем (ошибки ввода) и 3 сотрудника, которые числились в двух отделах одновременно.

Результат: Чистая база с едиными форматами, без дубликатов, с пометками для ручной проверки. HR-директор сказал: «Мы планировали на это 2 недели и хотели нанять подрядчика за 80 000 ₽. Сделали сами за 2 часа.»

Ключевой урок: AI не просто чистит данные — он находит ошибки, которые люди не замечают годами.

Готовый промпт

Промпт: Универсальный структуризатор данных

Этот промпт сложнее, чем в Уроке 1: он не просто анализирует данные, а преобразует их — очищает, нормализует и выдаёт в нужном формате. Плюс создаёт лог всех изменений для контроля. Замените параметры в квадратных скобках:

ChatGPT / Claude / DeepSeek
Ты — специалист по обработке данных с 10-летним опытом очистки и структурирования корпоративных баз данных.

Задача: обработай и структурируй мои данные.

Исходные данные:
[вставьте данные — таблицу, текст или описание. Можно скопировать из Excel, Word, email]

Тип данных: [что это — список клиентов / заказы / отзывы / контакты / финансы / другое]

Желаемый формат вывода:
[опишите — например: «таблица с колонками: ФИО, телефон (+7 формат), email, город, дата рождения (ДД.ММ.ГГГГ)»]

Выполни следующие операции:
1. ОЧИСТКА — удали дубликаты, исправь очевидные опечатки
2. НОРМАЛИЗАЦИЯ — приведи все значения к единому формату (даты, телефоны, названия, единицы измерения)
3. КАТЕГОРИЗАЦИЯ — если есть текстовые поля без структуры, предложи категории и распредели
4. ЗАПОЛНЕНИЕ ПУСТОТ — где возможно, предложи значения на основе контекста. Где невозможно — поставь пометку «УТОЧНИТЬ»

После обработки покажи:
- Готовую таблицу в чистом формате
- ЛОГ ИЗМЕНЕНИЙ: что именно было изменено (количество дубликатов, исправленных форматов, пустых ячеек)
- ПРЕДУПРЕЖДЕНИЯ: записи, которые требуют ручной проверки (неоднозначные данные, подозрительные значения)
- СТАТИСТИКА: количество записей до/после, процент «грязных» данных

Если данные неоднозначны — спроси, не угадывай.
📝 Как использовать:

Начните с небольшого набора данных (20-50 строк), чтобы проверить качество обработки. Обязательно проверяйте лог изменений — AI иногда «слишком усердно» чистит данные и может удалить что-то нужное. Когда убедитесь в качестве — масштабируйте на весь массив. Для больших таблиц (500+ строк) разбивайте на порции.

🤖 Открыть в AI-модели
Инсайт

Мысль дня

Данные называют «новой нефтью». Но сырая нефть бесполезна — её нельзя залить в бак. Нужна переработка: очистка, разделение, стандартизация. AI — ваш персональный нефтеперерабатывающий завод: он превращает хаотичные цифры и тексты в чистое топливо для бизнес-решений.
Практика

Задание: Очистите и структурируйте хаотичный набор данных

Сегодня вы пройдёте полный цикл обработки данных — от хаоса до порядка. Три шага, каждый сложнее предыдущего:

🗑️ Шаг 1: Создайте «грязные» данные

Попросите AI: «Сгенерируй учебную таблицу из 30 строк — база клиентов магазина. Колонки: имя, телефон, email, город, дата регистрации, сумма покупок. Специально добавь проблемы: 5 дубликатов, 3 пустых телефона, даты в разных форматах, опечатки в городах (Москва/москва/Мск), некоторые суммы в долларах вместо рублей.»

🧹 Шаг 2: Очистите данные через промпт

Возьмите полученную «грязную» таблицу и обработайте её с помощью промпта из блока выше. Проверьте лог изменений: нашёл ли AI все 5 дубликатов? Привёл ли даты к единому формату? Конвертировал ли доллары в рубли?

📊 Шаг 3: Сравните «до» и «после»

Попросите AI: «Сравни исходную и очищенную таблицу. Покажи: сколько записей было / стало, какой процент данных был "грязным", какие проблемы были самые частые. Оцени качество исходных данных по шкале 1-10.» Это научит вас оценивать качество любых данных с первого взгляда.

Блок изучен!