In [2]:
# Импортируем библиотеки - это наши инструменты
import pandas as pd # Пандас - это "Excel на стероидах" для Python
import os # Для работы с файлами на компьютере

# ==========================================
# ЧАСТЬ 1: СМОТРИМ НА ОТВЕТЫ (TARGET)
# ==========================================

# Читаем файл с целевой переменной (кто вернул, кто нет)
# path - это путь к файлу. Если он в той же папке, просто пишем имя.
target_df = pd.read_csv('train_target.csv')

print("--- СМОТРИМ НА ТАБЛИЦУ ОТВЕТОВ ---")
# .head() показывает первые 5 строк. Как "посмотреть обложку и первую страницу"
print(target_df.head()) 

# Посмотрим, сколько у нас всего людей
print(f"\nВсего клиентов в обучении: {target_df.shape[0]}")

# Посмотрим, как часто люди не возвращают кредиты (баланс классов)
# value_counts() считает, сколько ноликов и сколько единичек
counts = target_df['flag'].value_counts()
print(f"\nНадежных плательщиков (0): {counts[0]}")
print(f"Должников (1): {counts[1]}")

# ==========================================
# ЧАСТЬ 2: СМОТРИМ НА ДОСЬЕ (DATA)
# ==========================================

# Данные о кредитах (train_data) очень большие и разбиты на части (файлы .parquet).
# Мы не будем читать всё сразу. Прочитаем только ОДИН кусочек, чтобы понять структуру.

# Укажи путь к папке, куда ты распаковал train_data
# Например: './train_data/'
path_to_data = './train_data' 

# Найдем первый попавшийся файл в папке
first_file = os.listdir(path_to_data)[0] 
full_path = os.path.join(path_to_data, first_file)

print(f"\n--- СМОТРИМ НА ОДИН КУСОЧЕК ДОСЬЕ ({first_file}) ---")

# Читаем этот кусочек. Parquet - это такой сжатый формат хранения таблиц.
credits_df = pd.read_parquet(full_path)

# Смотрим первые 5 записей кредитной истории
print(credits_df.head())

# Смотрим описание колонок (что это за данные?)
print("\nКакие есть колонки (признаки):")
print(credits_df.columns.tolist())

--- СМОТРИМ НА ТАБЛИЦУ ОТВЕТОВ ---
   id  flag
0   0     0
1   1     0
2   2     0
3   3     0
4   4     0

Всего клиентов в обучении: 3000000

Надежных плательщиков (0): 2893558
Должников (1): 106442

--- СМОТРИМ НА ОДИН КУСОЧЕК ДОСЬЕ (train_data_0.pq) ---
   id  rn  pre_since_opened  pre_since_confirmed  pre_pterm  pre_fterm  \
0   0   1                18                    9          2          3   
1   0   2                18                    9         14         14   
2   0   3                18                    9          4          8   
3   0   4                 4                    1          9         12   
4   0   5                 5                   12         15          2   

   pre_till_pclose  pre_till_fclose  pre_loans_credit_limit  \
0               16               10                      11   
1               12               12                       0   
2                1               11                      11   
3               16                7          

Атрибуты данных
id — идентификатор заявки. Заявки пронумерованы так, что большему номеру соответствует более поздняя дата заявки.
rn — порядковый номер кредитного продукта в кредитной истории. Большему номеру соответствует продукт с более поздней датой открытия.
pre_since_opened — количество дней с даты открытия кредита до даты сбора данных (бинаризовано*).
pre_since_confirmed — количество дней с даты подтверждения информации по кредиту до даты сбора данных (бинаризовано*).
pre_pterm — плановое количество дней с даты открытия кредита до даты закрытия (бинаризовано*).
pre_fterm — фактическое количество дней с даты открытия кредита до даты закрытия (бинаризовано*).

pre_till_pclose	— плановое количество дней с даты сбора данных до даты закрытия кредита (бинаризовано*).
pre_till_fclose	— фактическое количество дней с даты сбора данных до даты закрытия кредита (бинаризовано*).
pre_loans_credit_limit	 — кредитный лимит (бинаризовано*).
pre_loans_next_pay_summ — сумма следующего платежа по кредиту (бинаризовано*).
pre_loans_outstanding — оставшаяся невыплаченная сумма кредита (бинаризовано*).
pre_loans_total_overdue — текущая просроченная задолженность (бинаризовано*).
pre_loans_max_overdue_sum — максимальная просроченная задолженность (бинаризовано*).
pre_loans_credit_cost_rate — полная стоимость кредита (бинаризовано*).
pre_loans5 — число просрочек до 5 дней (бинаризовано*).
pre_loans530 — число просрочек от 5 до 30 дней (бинаризовано*).
pre_loans3060 — число просрочек от 30 до 60 дней (бинаризовано*).
pre_loans6090 — число просрочек от 60 до 90 дней (бинаризовано*).
pre_loans90 — число просрочек более чем на 90 дней (бинаризовано*).
is_zero_loans_5 — флаг: нет просрочек до 5 дней.
is_zero_loans_530 — флаг: нет просрочек от 5 до 30 дней.
is_zero_loans_3060 — флаг: нет просрочек от 30 до 60 дней.
is_zero_loans_6090 — флаг: нет просрочек от 60 до 90 дней.
is_zero_loans90 — флаг: нет просрочек более чем на 90 дней.
pre_util — отношение оставшейся невыплаченной суммы кредита к кредитному лимиту (бинаризовано*).
pre_over2limit	— отношение текущей просроченной задолженности к кредитному лимиту (бинаризовано*).
pre_maxover2limit — отношение максимальной просроченной задолженности к кредитному лимиту (бинаризовано*).
is_zero_util — флаг: отношение оставшейся невыплаченной суммы кредита к кредитному лимиту равно 0.
is_zero_over2limit — флаг: отношение текущей просроченной задолженности к кредитному лимиту равно 0.
is_zero_maxover2limit — флаг: отношение максимальной просроченной задолженности к кредитному лимиту равно 0.
enc_paym_{0..N} — статусы ежемесячных платежей за последние N месяцев (закодировано**).
enc_loans_account_holder_type — тип отношения к кредиту (закодировано**).
enc_loans_credit_status — статус кредита (закодировано**).
enc_loans_account_cur — валюта кредита (закодировано**).
enc_loans_credit_type — тип кредита (закодировано**).
pclose_flag — флаг: плановое количество дней с даты открытия кредита до даты закрытия не определено.
fclose_flag — флаг: фактическое количество дней с даты открытия кредита до даты закрытия не определено.
* Область значений поля разбивается на N непересекающихся промежутков. 
Каждому промежутку случайным образом назначается уникальный номер от 0 до N-1, а значение поля заменяется номером промежутка, которому оно принадлежит