# 1. Первичный анализ данных

## 🎯 Цель
Провести первичный осмотр данных: понять структуру, типы признаков, наличие пропусков и дубликатов

## 🔧 Методы
- `df.shape` - размерность данных
- `df.info()` - структура и типы данных
- `df.describe()` - статистики числовых признаков
- `df.isna().sum()` - проверка пропусков
- `df.duplicated().sum()` - проверка дубликатов
- `df.nunique()` - количество уникальных элементов

## 🗂️ Описание признаков

| Признак | Тип | Описание |
|---------|-----|----------|
| `RowNumber` | int64 | Номер строки |
| `CustomerId` | int64 | Уникальный ID клиента |
| `Surname` | object | Фамилия клиента |
| `CreditScore` | int64 | Кредитный рейтинг |
| `Geography` | object | Страна (Germany/France/Spain) |
| `Gender` | object | Пол (Male/Female) |
| `Age` | int64 | Возраст |
| `Tenure` | int64 | Количество лет, в течение которых клиент работает в банке |
| `Balance` | float64 | Баланс на счете |
| `NumOfProducts` | int64 | Количество продуктов банка |
| `HasCrCard` | int64 | Наличие кредитной карты (0/1) |
| `IsActiveMember` | int64 | Активный член (0/1) |
| `EstimatedSalary` | float64 | Примерная зарплата |
| `Exited` | int64 | **Целевая**: Ушел из банка (0/1) |

## 👀 Первый взгляд на данные

Ознакомление с реальными значениями признаков, проверка корректности данных.

In [9]:
import pandas as pd

df = pd.read_csv('../data/Churn_Modelling.csv')
df.head(20)

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,1,15634602,Hargrave,619,France,Female,42.0,2,0.0,1,1.0,1.0,101348.88,1
1,2,15647311,Hill,608,Spain,Female,41.0,1,83807.86,1,0.0,1.0,112542.58,0
2,3,15619304,Onio,502,France,Female,42.0,8,159660.8,3,1.0,0.0,113931.57,1
3,4,15701354,Boni,699,France,Female,39.0,1,0.0,2,0.0,0.0,93826.63,0
4,5,15737888,Mitchell,850,Spain,Female,43.0,2,125510.82,1,,1.0,79084.1,0
5,6,15574012,Chu,645,Spain,Male,44.0,8,113755.78,2,1.0,0.0,149756.71,1
6,7,15592531,Bartlett,822,,Male,50.0,7,0.0,2,1.0,1.0,10062.8,0
7,8,15656148,Obinna,376,Germany,Female,29.0,4,115046.74,4,1.0,0.0,119346.88,1
8,9,15792365,He,501,France,Male,44.0,4,142051.07,2,0.0,,74940.5,0
9,10,15592389,H?,684,France,Male,,2,134603.88,1,1.0,1.0,71725.73,0


## 📏 Определяем размер датасета

In [16]:
df.shape

(10002, 14)

## ℹ️Выведем основную информацию по датасету

In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10002 entries, 0 to 10001
Data columns (total 14 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   RowNumber        10002 non-null  int64  
 1   CustomerId       10002 non-null  int64  
 2   Surname          10002 non-null  object 
 3   CreditScore      10002 non-null  int64  
 4   Geography        10001 non-null  object 
 5   Gender           10002 non-null  object 
 6   Age              10001 non-null  float64
 7   Tenure           10002 non-null  int64  
 8   Balance          10002 non-null  float64
 9   NumOfProducts    10002 non-null  int64  
 10  HasCrCard        10001 non-null  float64
 11  IsActiveMember   10001 non-null  float64
 12  EstimatedSalary  10002 non-null  float64
 13  Exited           10002 non-null  int64  
dtypes: float64(5), int64(6), object(3)
memory usage: 1.1+ MB


## 📊 Результаты info()
- **Записей:** 10,002
- **Признаков:** 14
- **Пропуски:** ✅ присутствуют по одному пропуску в столбцах "Geography", "Age", "HasCrCard", "IsActiveMember"
- **Типы данных:**
  - `int64`: 6 признаков (включая целевую `Exited`)
  - `object`: 3 признака (`Geography`, `Gender`, `Surname` - категориальные)
  - `float64`: 5 признак (`Age`, `Balance`, `HasCrCard`, `IsActiveMember`, `EstimatedSalary`)

## 📈 Статистики числовых признаков

Анализируем распределение числовых переменных: средние, квартили, разброс значений.

In [7]:
df.describe()

Unnamed: 0,RowNumber,CustomerId,CreditScore,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
count,10002.0,10002.0,10002.0,10001.0,10002.0,10002.0,10002.0,10001.0,10001.0,10002.0,10002.0
mean,5001.4996,15690930.0,650.555089,38.922311,5.012498,76491.112875,1.530194,0.705529,0.514949,100083.331145,0.203759
std,2887.472338,71931.77,96.661615,10.4872,2.891973,62393.474144,0.581639,0.455827,0.499801,57508.117802,0.402812
min,1.0,15565700.0,350.0,18.0,0.0,0.0,1.0,0.0,0.0,11.58,0.0
25%,2501.25,15628520.0,584.0,32.0,3.0,0.0,1.0,0.0,0.0,50983.75,0.0
50%,5001.5,15690730.0,652.0,37.0,5.0,97198.54,1.0,1.0,1.0,100185.24,0.0
75%,7501.75,15753230.0,718.0,44.0,7.0,127647.84,2.0,1.0,1.0,149383.6525,0.0
max,10000.0,15815690.0,850.0,92.0,10.0,250898.09,4.0,1.0,1.0,199992.48,1.0


## 📈 Основные выводы из describe()

**По числовым признакам:**
- `CreditScore`: распределение 300-850 (типично для кредитных скорингов)
- `Age`: от 18 до 92 лет, потенциальные выбросы в старшем возрасте
- `Balance`: от 0 до 250K, много нулевых значений (требует проверки)
- `EstimatedSalary`: равномерное распределение

**Требуют внимания в EDA:**
- Проверить распределение Age на выбросы
- Исследовать нулевые Balance
- Проанализировать экстремальные значения CreditScore

## ⚠️Проверка на пропуски в данных

Проверим сколько пропусков имеется в нашем датасете

In [10]:
df.isna().sum()

RowNumber          0
CustomerId         0
Surname            0
CreditScore        0
Geography          1
Gender             0
Age                1
Tenure             0
Balance            0
NumOfProducts      0
HasCrCard          1
IsActiveMember     1
EstimatedSalary    0
Exited             0
dtype: int64

## 🔍 Проверка на дубликаты

Ищем полностью повторяющиеся строки, которые могут искажать анализ.

In [13]:
df.duplicated().sum()

2

## 🔢Проверка уникальных значений

Смотрим, сколько у нас уникальных значений

In [14]:
df.nunique()

RowNumber          10000
CustomerId         10000
Surname             2932
CreditScore          460
Geography              3
Gender                 2
Age                   73
Tenure                11
Balance             6382
NumOfProducts          4
HasCrCard              2
IsActiveMember         2
EstimatedSalary     9999
Exited                 2
dtype: int64

## 🎯 Итоги первичного анализа

**✅ Качество данных:**
- 10,002 записи, 14 признаков
- Минимальные пропуски (по 1 в 4 столбцах)
- Дубликаты отсутствуют

**🔍 Находки для EDA:**
- Сбалансированность целевой переменной `Exited`
- Потенциальные выбросы в `Age`
- Много нулевых значений в `Balance`

**📋 План следующих действий:**
1. Детальный анализ распределений (Этап 2 - EDA)
2. Исследование корреляций
3. Анализ влияния категориальных признаков