# Гайд по NumPy и Pandas

Это практическое руководство по двум самым важным библиотекам для анализа данных в Python.

- **NumPy** — работа с числовыми массивами и матрицами, математические операции
- **Pandas** — работа с таблицами данных, чтение/запись файлов, очистка и преобразование данных

В качестве реального датасета мы будем использовать данные о выдаче кредитов.

Отключим вывод предупреждений в коде.

In [1]:
import warnings
warnings.filterwarnings('ignore')

---
## 1. Установка

Перед началом работы нужно установить библиотеки. Запустите следующую ячейку один раз — она установит всё необходимое.

In [2]:
# Устанавливаем numpy и pandas через pip
# Флаг -q означает "тихий режим" — меньше вывода в консоль
%pip install numpy pandas openpyxl -q

Note: you may need to restart the kernel to use updated packages.


Теперь импортируем библиотеки. Это стандартное соглашение в сообществе Python — всегда импортировать `numpy` как `np`, а `pandas` как `pd`. Так короче писать и легче читать чужой код.

In [3]:
import numpy as np
import pandas as pd

# Проверяем версии — полезно знать при отладке
print(f'NumPy версия:  {np.__version__}')
print(f'Pandas версия: {pd.__version__}')

NumPy версия:  2.4.2
Pandas версия: 3.0.1


---
## 2. NumPy — основные операции и матрицы

NumPy (Numerical Python) — это фундамент для научных вычислений в Python. Главная концепция — **ndarray** (n-мерный массив). Он работает гораздо быстрее обычных списков Python, потому что хранит данные в памяти компактно и использует векторизованные операции.

### 2.1 Создание массивов

In [4]:
# Самый простой способ — создать массив из обычного списка Python
arr = np.array([10, 20, 30, 40, 50])

print('Массив:', arr)
print('Тип объекта:', type(arr))
print('Тип данных внутри:', arr.dtype)   # int64 — целые числа на 64 бита
print('Форма (shape):', arr.shape)       # (5,) — одномерный массив из 5 элементов
print('Размер:', arr.size)               # 5 элементов

Массив: [10 20 30 40 50]
Тип объекта: <class 'numpy.ndarray'>
Тип данных внутри: int64
Форма (shape): (5,)
Размер: 5


In [5]:
# NumPy умеет создавать массивы автоматически

# np.arange — аналог range(), но возвращает массив
print('arange(0, 10, 2):', np.arange(0, 10, 2))   # от 0 до 10 с шагом 2

# np.linspace — N равномерно распределённых точек между двумя числами
print('linspace(0, 1, 5):', np.linspace(0, 1, 5))

# np.zeros и np.ones — массивы из нулей и единиц
print('zeros(4):', np.zeros(4))
print('ones(4):', np.ones(4))

# np.random.seed фиксирует случайность — чтобы у всех получался одинаковый результат
np.random.seed(42)
print('random(4):', np.random.random(4))

arange(0, 10, 2): [0 2 4 6 8]
linspace(0, 1, 5): [0.   0.25 0.5  0.75 1.  ]
zeros(4): [0. 0. 0. 0.]
ones(4): [1. 1. 1. 1.]
random(4): [0.37454012 0.95071431 0.73199394 0.59865848]


### 2.2 Индексация и срезы (slicing)

Синтаксис срезов такой же, как в обычных списках Python: `[start:stop:step]`. Помните, что `stop` **не включается** в срез.

In [6]:
arr = np.array([10, 20, 30, 40, 50, 60, 70])

print('Весь массив:', arr)
print('Элемент с индексом 0:', arr[0])     # первый элемент
print('Последний элемент:', arr[-1])        # отрицательный индекс — с конца
print('Срез [1:4]:', arr[1:4])              # элементы 1, 2, 3 (4 не включается)
print('Срез [::2]:', arr[::2])             # каждый второй элемент

Весь массив: [10 20 30 40 50 60 70]
Элемент с индексом 0: 10
Последний элемент: 70
Срез [1:4]: [20 30 40]
Срез [::2]: [10 30 50 70]


In [7]:
# Булева индексация — одна из самых мощных возможностей NumPy
# Мы создаём маску True/False и применяем её к массиву

scores = np.array([45, 78, 92, 61, 88, 34, 76])

# Создаём маску: True там, где оценка >= 70
mask = scores >= 70
print('Маска (True/False):', mask)
print('Оценки >= 70:', scores[mask])

# Можно записать в одну строку
print('Оценки между 60 и 85:', scores[(scores > 60) & (scores < 85)])

Маска (True/False): [False  True  True False  True False  True]
Оценки >= 70: [78 92 88 76]
Оценки между 60 и 85: [78 61 76]


### 2.3 Математические операции

Главная "магия" NumPy — **векторизация**. Операции применяются ко всем элементам массива сразу, без цикла `for`. Это не только удобнее, но и в десятки раз быстрее.

In [8]:
a = np.array([1, 2, 3, 4, 5])
b = np.array([10, 20, 30, 40, 50])

# Арифметика поэлементная — операция применяется к каждой паре элементов
print('a + b =', a + b)
print('a * b =', a * b)
print('b / a =', b / a)

# Умножение на число (broadcasting) — число применяется к каждому элементу
print('a * 100 =', a * 100)

# Математические функции применяются ко всему массиву
print('sqrt(a)  =', np.sqrt(a))
print('a ** 2   =', a ** 2)

a + b = [11 22 33 44 55]
a * b = [ 10  40  90 160 250]
b / a = [10. 10. 10. 10. 10.]
a * 100 = [100 200 300 400 500]
sqrt(a)  = [1.         1.41421356 1.73205081 2.         2.23606798]
a ** 2   = [ 1  4  9 16 25]


In [9]:
# Агрегирующие функции — подводят итог по всему массиву
data = np.array([85000, 62000, 25000, 105000, 75000, 48000, 92000])

print('Сумма:         ', np.sum(data))
print('Среднее:       ', np.mean(data))
print('Медиана:       ', np.median(data))
print('Стд. отклонение:', np.std(data).round(2))
print('Минимум:       ', np.min(data))
print('Максимум:      ', np.max(data))
print('Индекс мин.:   ', np.argmin(data))   # argmin/argmax возвращают ИНДЕКС, а не значение
print('Индекс макс.:  ', np.argmax(data))

Сумма:          492000
Среднее:        70285.71428571429
Медиана:        75000.0
Стд. отклонение: 25443.01
Минимум:        25000
Максимум:       105000
Индекс мин.:    2
Индекс макс.:   3


### 2.4 Двумерные массивы (матрицы)

NumPy отлично работает с матрицами. Двумерный массив — это массив массивов. Форма задаётся как `(строки, столбцы)`.

In [10]:
# Создаём матрицу из вложенного списка
# Думайте о ней как о таблице: 3 строки, 4 столбца
matrix = np.array([
    [1,  2,  3,  4],
    [5,  6,  7,  8],
    [9, 10, 11, 12]
])

print('Матрица:')
print(matrix)
print('\nФорма (строки, столбцы):', matrix.shape)
print('Число измерений (ndim):', matrix.ndim)

Матрица:
[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]

Форма (строки, столбцы): (3, 4)
Число измерений (ndim): 2


In [11]:
# Индексация в двумерном массиве: [строка, столбец]
print('Элемент [0, 0] (первая строка, первый столбец):', matrix[0, 0])
print('Элемент [1, 2] (вторая строка, третий столбец):', matrix[1, 2])

# Срезы строк и столбцов
print('\nПервая строка:    ', matrix[0, :])     # : означает «все столбцы»
print('Последний столбец:', matrix[:, -1])     # : означает «все строки»
print('\nПодматрица [0:2, 1:3]:')
print(matrix[0:2, 1:3])                        # строки 0-1, столбцы 1-2

Элемент [0, 0] (первая строка, первый столбец): 1
Элемент [1, 2] (вторая строка, третий столбец): 7

Первая строка:     [1 2 3 4]
Последний столбец: [ 4  8 12]

Подматрица [0:2, 1:3]:
[[2 3]
 [6 7]]


In [12]:
# Изменение формы массива без изменения данных
flat = np.arange(1, 13)      # [1, 2, 3, ..., 12]
print('Исходный массив:', flat)

# reshape — превращаем одномерный массив в матрицу
reshaped = flat.reshape(3, 4)
print('\nПосле reshape(3, 4):')
print(reshaped)

# flatten — обратная операция: разворачиваем матрицу в одномерный массив
print('\nПосле flatten():', reshaped.flatten())

Исходный массив: [ 1  2  3  4  5  6  7  8  9 10 11 12]

После reshape(3, 4):
[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]

После flatten(): [ 1  2  3  4  5  6  7  8  9 10 11 12]


### 2.5 Матричные операции

В линейной алгебре часто нужны операции именно над матрицами (не поэлементные). NumPy умеет это делать.

In [13]:
A = np.array([[1, 2],
              [3, 4]])

B = np.array([[5, 6],
              [7, 8]])

# Поэлементное умножение (НЕ матричное)
print('A * B (поэлементно):')
print(A * B)

# Матричное умножение — @ или np.dot
# Результат [i, j] = скалярное произведение i-й строки A и j-го столбца B
print('\nA @ B (матричное умножение):')
print(A @ B)

A * B (поэлементно):
[[ 5 12]
 [21 32]]

A @ B (матричное умножение):
[[19 22]
 [43 50]]


In [14]:
# Транспонирование — строки становятся столбцами и наоборот
print('Матрица A:')
print(A)
print('\nТранспонированная A.T:')
print(A.T)

# Определитель матрицы
det = np.linalg.det(A)
print(f'\nОпределитель det(A) = {det:.1f}')  # должно быть -2.0

# Обратная матрица
A_inv = np.linalg.inv(A)
print('\nОбратная матрица A⁻¹:')
print(A_inv.round(2))

# Проверка: A @ A⁻¹ должна давать единичную матрицу
print('\nA @ A⁻¹ (должна быть единичная):')
print((A @ A_inv).round(10))

Матрица A:
[[1 2]
 [3 4]]

Транспонированная A.T:
[[1 3]
 [2 4]]

Определитель det(A) = -2.0

Обратная матрица A⁻¹:
[[-2.   1. ]
 [ 1.5 -0.5]]

A @ A⁻¹ (должна быть единичная):
[[1. 0.]
 [0. 1.]]


In [15]:
# Агрегации по осям — очень часто нужны при работе с матрицами
data = np.array([
    [85, 90, 78],   # студент 1: оценки по трём предметам
    [72, 88, 95],   # студент 2
    [60, 70, 65],   # студент 3
])

# axis=0 — операция по столбцам (вдоль строк, «сверху вниз»)
# axis=1 — операция по строкам (вдоль столбцов, «слева направо»)

print('Средний балл по каждому предмету (axis=0):', data.mean(axis=0))
print('Средний балл каждого студента (axis=1):   ', data.mean(axis=1))
print('Максимум по каждому студенту:             ', data.max(axis=1))

Средний балл по каждому предмету (axis=0): [72.33333333 82.66666667 79.33333333]
Средний балл каждого студента (axis=1):    [84.33333333 85.         65.        ]
Максимум по каждому студенту:              [90 95 70]


---
## 3. Pandas — чтение и запись данных

Pandas строится поверх NumPy и добавляет удобные именованные оси (столбцы, индексы строк) и мощные инструменты для работы с данными.

Два главных объекта:
- **Series** — одномерный массив с метками (как колонка в таблице)
- **DataFrame** — двумерная таблица из колонок Series

### 3.1 Series и DataFrame — базовые понятия

In [16]:
# Series — это массив с именованными индексами
# Думайте о нём как об одном столбце таблицы

ages = pd.Series([32, 45, 28, 51, 36], name='age')
print('Series:')
print(ages)
print('\nТип:', type(ages))
print('Значения (как NumPy array):', ages.values)
print('Индексы:', ages.index.tolist())

Series:
0    32
1    45
2    28
3    51
4    36
Name: age, dtype: int64

Тип: <class 'pandas.Series'>
Значения (как NumPy array): [32 45 28 51 36]
Индексы: [0, 1, 2, 3, 4]


In [17]:
# DataFrame — это таблица. Создаём из словаря: ключи = названия столбцов
df_small = pd.DataFrame({
    'age':    [32, 45, 28],
    'income': [85000, 62000, 25000],
    'status': ['Approved', 'Approved', 'Denied']
})

print('DataFrame:')
print(df_small)
print('\nФорма (строки, столбцы):', df_small.shape)
print('Названия столбцов:', df_small.columns.tolist())

DataFrame:
   age  income    status
0   32   85000  Approved
1   45   62000  Approved
2   28   25000    Denied

Форма (строки, столбцы): (3, 3)
Названия столбцов: ['age', 'income', 'status']


### 3.2 Чтение CSV-файла

`pd.read_csv()` — самая используемая функция в Pandas. Она читает CSV-файл и сразу создаёт DataFrame.

Читаем наш датасет о выдаче кредитов.

In [None]:
# Pandas автоматически определит типы столбцов
df = pd.read_csv('выдача кредита.csv')

# head() показывает первые N строк — лучший способ быстро посмотреть данные
df.head()

Unnamed: 0,age,gender,occupation,education_level,marital_status,income,credit_score,loan_status
0,32,Male,Engineer,Bachelor's,Married,85000,720,Approved
1,45,Female,Teacher,Master's,Single,62000,680,Approved
2,28,Male,Student,High School,Single,25000,590,Denied
3,51,Female,Manager,Bachelor's,Married,105000,780,Approved
4,36,Male,Accountant,Bachelor's,Married,75000,710,Approved


In [19]:
# tail() — последние строки. Полезно убедиться, что файл прочитан целиком
df.tail(3)

Unnamed: 0,age,gender,occupation,education_level,marital_status,income,credit_score,loan_status
58,43,Male,Banker,Bachelor's,Married,95000,760,Approved
59,30,Female,Writer,Master's,Single,55000,650,Approved
60,38,Male,Chef,Associate's,Married,65000,700,Approved


In [20]:
# info() — самый важный метод для первичного осмотра датасета
# Показывает: размер, названия столбцов, типы данных, количество непустых значений
df.info()

<class 'pandas.DataFrame'>
RangeIndex: 61 entries, 0 to 60
Data columns (total 8 columns):
 #   Column           Non-Null Count  Dtype
---  ------           --------------  -----
 0   age              61 non-null     int64
 1   gender           61 non-null     str  
 2   occupation       61 non-null     str  
 3   education_level  61 non-null     str  
 4   marital_status   61 non-null     str  
 5   income           61 non-null     int64
 6   credit_score     61 non-null     int64
 7   loan_status      61 non-null     str  
dtypes: int64(3), str(5)
memory usage: 3.9 KB


In [21]:
# describe() — статистическое резюме числовых столбцов
# count, mean, std, min, квартили, max
df.describe()

Unnamed: 0,age,income,credit_score
count,61.0,61.0,61.0
mean,37.081967,78983.606557,709.836066
std,8.424755,33772.025802,72.674888
min,24.0,25000.0,560.0
25%,30.0,52000.0,650.0
50%,36.0,78000.0,720.0
75%,43.0,98000.0,770.0
max,55.0,180000.0,830.0


In [22]:
# describe() для категориальных (текстовых) столбцов
# include='object' означает — только строковые столбцы
df.describe(include='object')

Unnamed: 0,gender,occupation,education_level,marital_status,loan_status
count,61,61,61,61,61
unique,2,38,5,2,2
top,Male,Engineer,Bachelor's,Married,Approved
freq,31,5,23,37,45


### 3.3 Параметры read_csv() — тонкая настройка чтения

В реальных проектах файлы бывают нестандартными. Вот самые нужные параметры.

In [23]:
# sep — разделитель (по умолчанию запятая)
# encoding — кодировка файла (utf-8, cp1251 для старых русских файлов)
# usecols — читать только нужные столбцы, экономит память
# nrows — прочитать только первые N строк (удобно для больших файлов)
# index_col — какой столбец использовать как индекс строк

df_partial = pd.read_csv(
    'выдача кредита.csv',
    usecols=['age', 'income', 'credit_score', 'loan_status'],
    nrows=10
)

print(f'Форма частичного датафрейма: {df_partial.shape}')
df_partial.head()

Форма частичного датафрейма: (10, 4)


Unnamed: 0,age,income,credit_score,loan_status
0,32,85000,720,Approved
1,45,62000,680,Approved
2,28,25000,590,Denied
3,51,105000,780,Approved
4,36,75000,710,Approved


### 3.4 Запись данных

Pandas умеет сохранять данные в разных форматах. Рассмотрим CSV и Excel.

In [24]:
# Запись в CSV
# index=False — НЕ сохранять индексы строк (0, 1, 2...) в файл
# Если оставить index=True (по умолчанию), в CSV появится лишний первый столбец
df.to_csv('output.csv', index=False)

print('Файл output.csv сохранён!')

# Проверяем — читаем обратно первые 3 строки
pd.read_csv('output.csv').head(3)

Файл output.csv сохранён!


Unnamed: 0,age,gender,occupation,education_level,marital_status,income,credit_score,loan_status
0,32,Male,Engineer,Bachelor's,Married,85000,720,Approved
1,45,Female,Teacher,Master's,Single,62000,680,Approved
2,28,Male,Student,High School,Single,25000,590,Denied


Запись в Excel

In [25]:
# Для работы с Excel нужна библиотека openpyxl (уже установили её в начале)
# sheet_name — название листа в Excel-файле

df.to_excel('output.xlsx', sheet_name='Кредиты', index=False)
print('Файл output.xlsx сохранён!')

# Читаем обратно из Excel
df_from_excel = pd.read_excel('output.xlsx', sheet_name='Кредиты')
print(f'\nПрочитано из Excel: {df_from_excel.shape[0]} строк, {df_from_excel.shape[1]} столбцов')
df_from_excel.head(3)

Файл output.xlsx сохранён!

Прочитано из Excel: 61 строк, 8 столбцов


Unnamed: 0,age,gender,occupation,education_level,marital_status,income,credit_score,loan_status
0,32,Male,Engineer,Bachelor's,Married,85000,720,Approved
1,45,Female,Teacher,Master's,Single,62000,680,Approved
2,28,Male,Student,High School,Single,25000,590,Denied


Запись в Excel с несколькими листами — полезно для отчётов

In [26]:
approved = df[df['loan_status'] == 'Approved']
denied   = df[df['loan_status'] == 'Denied']

# ExcelWriter позволяет управлять несколькими листами в одном файле
with pd.ExcelWriter('output_sheets.xlsx', engine='openpyxl') as writer:
    approved.to_excel(writer, sheet_name='Одобренные', index=False)
    denied.to_excel(writer, sheet_name='Отклонённые', index=False)

print(f'Записано листов: 2')
print(f'  Одобренные: {len(approved)} строк')
print(f'  Отклонённые: {len(denied)} строк')

Записано листов: 2
  Одобренные: 45 строк
  Отклонённые: 16 строк


---
## 4. Преобразование данных с помощью Pandas

Это самый большой и практический раздел. Реальные данные почти никогда не бывают идеальными — нужно уметь их фильтровать, очищать, агрегировать и преобразовывать.

### 4.1 Выбор данных — индексация столбцов и строк

In [27]:
# Выбор одного столбца — возвращает Series
ages = df['age']
print('Тип:', type(ages))
print(ages.head())

Тип: <class 'pandas.Series'>
0    32
1    45
2    28
3    51
4    36
Name: age, dtype: int64


In [28]:
# Выбор нескольких столбцов — передаём список, возвращается DataFrame
# Обратите внимание: двойные скобки df[[ ... ]]
subset = df[['age', 'income', 'loan_status']]
subset.head()

Unnamed: 0,age,income,loan_status
0,32,85000,Approved
1,45,62000,Approved
2,28,25000,Denied
3,51,105000,Approved
4,36,75000,Approved


In [29]:
# .loc — индексация по МЕТКАМ (именам строк и столбцов)
# .iloc — индексация по ЦЕЛОЧИСЛЕННЫМ позициям (как в NumPy)

print('--- .loc: строки 0-2, столбцы по именам ---')
print(df.loc[0:2, ['age', 'occupation', 'income']])

print('\n--- .iloc: первые 3 строки, первые 3 столбца ---')
print(df.iloc[0:3, 0:3])

--- .loc: строки 0-2, столбцы по именам ---
   age occupation  income
0   32   Engineer   85000
1   45    Teacher   62000
2   28    Student   25000

--- .iloc: первые 3 строки, первые 3 столбца ---
   age  gender occupation
0   32    Male   Engineer
1   45  Female    Teacher
2   28    Male    Student


### 4.2 Фильтрация строк

Фильтрация работает так же, как булева индексация в NumPy: мы создаём условие, которое возвращает серию True/False, и используем её для отбора строк.

In [30]:
# Простое условие: только одобренные кредиты
approved = df[df['loan_status'] == 'Approved']
print(f'Всего заявок: {len(df)}')
print(f'Одобрено:     {len(approved)}')
approved.head()

Всего заявок: 61
Одобрено:     45


Unnamed: 0,age,gender,occupation,education_level,marital_status,income,credit_score,loan_status
0,32,Male,Engineer,Bachelor's,Married,85000,720,Approved
1,45,Female,Teacher,Master's,Single,62000,680,Approved
3,51,Female,Manager,Bachelor's,Married,105000,780,Approved
4,36,Male,Accountant,Bachelor's,Married,75000,710,Approved
6,42,Male,Lawyer,Doctoral,Married,120000,790,Approved


In [31]:
# Составное условие: & (И), | (ИЛИ)
# ВАЖНО: каждое условие оборачиваем в скобки!

# Клиенты с высоким доходом И хорошим кредитным рейтингом
high_quality = df[(df['income'] > 80000) & (df['credit_score'] >= 720)]
print(f'Доход > 80000 И рейтинг >= 720: {len(high_quality)} клиентов')
high_quality[['age', 'income', 'credit_score', 'loan_status']].head()

Доход > 80000 И рейтинг >= 720: 29 клиентов


Unnamed: 0,age,income,credit_score,loan_status
0,32,85000,720,Approved
3,51,105000,780,Approved
6,42,120000,790,Approved
8,37,92000,750,Approved
9,48,180000,820,Approved


In [32]:
# .isin() — проверяет вхождение в список значений
# Аналог «WHERE occupation IN (...)» в SQL

professionals = df[df['occupation'].isin(['Engineer', 'Manager', 'Accountant'])]
print(f'Инженеры, менеджеры, бухгалтеры: {len(professionals)} человек')

# ~ означает «НЕ» — инвертирует условие
non_professionals = df[~df['occupation'].isin(['Engineer', 'Manager', 'Accountant'])]
print(f'Остальные профессии: {len(non_professionals)} человек')

Инженеры, менеджеры, бухгалтеры: 9 человек
Остальные профессии: 52 человек


In [33]:
# .query() — альтернативный синтаксис фильтрации, похожий на SQL
# Удобен для сложных условий — более читаемый код

result = df.query('income > 70000 and credit_score > 700 and loan_status == "Approved"')
print(f'Найдено: {len(result)} строк')
result[['age', 'occupation', 'income', 'credit_score']].head()

Найдено: 34 строк


Unnamed: 0,age,occupation,income,credit_score
0,32,Engineer,85000,720
3,51,Manager,105000,780
4,36,Accountant,75000,710
6,42,Lawyer,120000,790
8,37,IT,92000,750


### 4.3 Работа с пропущенными значениями

Пропущенные значения (NaN — Not a Number) — это одна из самых частых проблем в реальных данных. Pandas предоставляет удобные инструменты для их обнаружения и устранения.

In [34]:
# Специально создадим датафрейм с пропусками, чтобы показать работу с ними
df_missing = df.copy()
np.random.seed(0)

# Вставляем NaN случайно в 10% строк каждого столбца
for col in ['income', 'credit_score', 'occupation']:
    idx = np.random.choice(df_missing.index, size=6, replace=False)
    df_missing.loc[idx, col] = np.nan

# Проверяем наличие пропусков
print('Количество пропусков по столбцам:')
print(df_missing.isnull().sum())

Количество пропусков по столбцам:
age                0
gender             0
occupation         6
education_level    0
marital_status     0
income             6
credit_score       6
loan_status        0
dtype: int64


In [35]:
# Процент пропусков — лучше воспринимать как проценты, а не абсолютные числа
missing_pct = (df_missing.isnull().sum() / len(df_missing) * 100).round(1)
print('Процент пропусков:')
print(missing_pct[missing_pct > 0])  # показываем только столбцы с пропусками

Процент пропусков:
occupation      9.8
income          9.8
credit_score    9.8
dtype: float64


Стратегия 1: удалить строки с пропусками

In [36]:
# Подходит, если пропусков мало и данных достаточно
df_dropped = df_missing.dropna()
print(f'Строк до dropna():  {len(df_missing)}')
print(f'Строк после dropna(): {len(df_dropped)}')

Строк до dropna():  61
Строк после dropna(): 44


Стратегия 2: заполнить пропуски

In [37]:
# Числовые: заполняем медианой (медиана устойчива к выбросам)
# Категориальные: заполняем самым частым значением (модой)

df_filled = df_missing.copy()

median_income = df_filled['income'].median()
median_score  = df_filled['credit_score'].median()
mode_occ      = df_filled['occupation'].mode()[0]  # mode() возвращает Series, берём [0]

df_filled['income'].fillna(median_income, inplace=True)
df_filled['credit_score'].fillna(median_score, inplace=True)
df_filled['occupation'].fillna(mode_occ, inplace=True)

print(f'Медиана дохода для заполнения:    {median_income}')
print(f'Медиана кред. рейтинга:           {median_score}')
print(f'Мода профессии:                   {mode_occ}')
print(f'\nПропусков после заполнения:       {df_filled.isnull().sum().sum()}')

Медиана дохода для заполнения:    82000.0
Медиана кред. рейтинга:           720.0
Мода профессии:                   Engineer

Пропусков после заполнения:       18


### 4.4 Создание и изменение столбцов

In [38]:
# Работаем с основным (чистым) датафреймом
# Создаём новые столбцы через вычисления

# Новый столбец — просто присваиваем по имени
df['income_monthly'] = df['income'] / 12
df['income_monthly'] = df['income_monthly'].round(2)

# Условный столбец: высокий доход = выше медианы
median_income = df['income'].median()
df['high_income'] = df['income'] > median_income

print(f'Медиана дохода: {median_income}')
df[['income', 'income_monthly', 'high_income']].head()

Медиана дохода: 78000.0


Unnamed: 0,income,income_monthly,high_income
0,85000,7083.33,True
1,62000,5166.67,False
2,25000,2083.33,False
3,105000,8750.0,True
4,75000,6250.0,False


In [39]:
# np.where — мощная функция: if/else для целого столбца
# np.where(условие, значение_если_True, значение_если_False)

df['risk_level'] = np.where(
    df['credit_score'] >= 720, 'Низкий риск',
    np.where(
        df['credit_score'] >= 650, 'Средний риск',
        'Высокий риск'
    )
)

print('Распределение по уровню риска:')
print(df['risk_level'].value_counts())

Распределение по уровню риска:
risk_level
Низкий риск     33
Средний риск    14
Высокий риск    14
Name: count, dtype: int64


In [40]:
# pd.cut — разбивает числовой столбец на группы (bins)
# Очень удобно для возрастных/доходных групп

df['age_group'] = pd.cut(
    df['age'],
    bins=[0, 30, 40, 50, 100],
    labels=['до 30', '30-40', '40-50', '50+']
)

print('Распределение по возрастным группам:')
print(df['age_group'].value_counts().sort_index())

Распределение по возрастным группам:
age_group
до 30    17
30-40    23
40-50    16
50+       5
Name: count, dtype: int64


In [41]:
# apply() — применяет функцию к каждому элементу столбца или строке
# Используйте когда нет готовой векторизованной функции

def credit_category(score):
    """Классификация кредитного рейтинга"""
    if score >= 750:   return 'Отличный'
    elif score >= 700: return 'Хороший'
    elif score >= 650: return 'Удовлетворительный'
    else:              return 'Плохой'

df['credit_category'] = df['credit_score'].apply(credit_category)

print('Категории кредитного рейтинга:')
print(df['credit_category'].value_counts())

Категории кредитного рейтинга:
credit_category
Отличный              23
Хороший               15
Плохой                14
Удовлетворительный     9
Name: count, dtype: int64


In [42]:
# Работа со строками — df['col'].str.метод()
# Pandas предоставляет все методы строк Python, но векторизованно

print('Пример значений occupation:')
print(df['occupation'].unique()[:8])

# Переводим в нижний регистр, добавляем префикс
df['occupation_lower'] = df['occupation'].str.lower()
df['occupation_labeled'] = 'Профессия: ' + df['occupation']

# Проверяем содержит ли строка подстроку
df['is_manager_or_engineer'] = df['occupation'].str.contains('Manager|Engineer', case=False)

df[['occupation', 'occupation_lower', 'is_manager_or_engineer']].head(6)

Пример значений occupation:
<StringArray>
[  'Engineer',    'Teacher',    'Student',    'Manager', 'Accountant',
      'Nurse',     'Lawyer',     'Artist']
Length: 8, dtype: str


Unnamed: 0,occupation,occupation_lower,is_manager_or_engineer
0,Engineer,engineer,True
1,Teacher,teacher,False
2,Student,student,False
3,Manager,manager,True
4,Accountant,accountant,False
5,Nurse,nurse,False


### 4.5 Сортировка

In [43]:
# sort_values() — сортировка по одному или нескольким столбцам

# По одному столбцу: самые высокие доходы сверху
df_sorted = df.sort_values('income', ascending=False)
print('Топ-5 по доходу:')
print(df_sorted[['occupation', 'income', 'credit_score']].head(5))

Топ-5 по доходу:
    occupation  income  credit_score
9       Doctor  180000           820
47      Doctor  175000           830
33     Dentist  140000           810
44      Lawyer  130000           800
17  Pharmacist  125000           800


In [44]:
# Сортировка по нескольким столбцам
# Сначала по loan_status (алфавитно), затем по credit_score (по убыванию)
df_sorted2 = df.sort_values(
    ['loan_status', 'credit_score'],
    ascending=[True, False]
)

df_sorted2[['loan_status', 'credit_score', 'income', 'occupation']].head(8)

Unnamed: 0,loan_status,credit_score,income,occupation
47,Approved,830,175000,Doctor
9,Approved,820,180000,Doctor
33,Approved,810,140000,Dentist
55,Approved,810,120000,Professor
17,Approved,800,125000,Pharmacist
35,Approved,800,110000,Psychologist
44,Approved,800,130000,Lawyer
6,Approved,790,120000,Lawyer


### 4.6 Группировка и агрегация (groupby)

`groupby` — один из самых мощных инструментов Pandas. Логика: **split → apply → combine**.
1. Разбиваем DataFrame на группы по значению столбца
2. Применяем функцию к каждой группе
3. Объединяем результаты

In [45]:
# Базовая группировка: средние показатели по статусу кредита
group_stats = df.groupby('loan_status')[['income', 'credit_score', 'age']].mean().round(1)
print('Средние показатели по статусу кредита:')
group_stats

Средние показатели по статусу кредита:


Unnamed: 0_level_0,income,credit_score,age
loan_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Approved,92955.6,745.1,40.3
Denied,39687.5,610.6,28.0


In [46]:
# .agg() — несколько разных функций к разным столбцам за один раз
agg_result = df.groupby('loan_status').agg(
    count=('age', 'count'),
    avg_income=('income', 'mean'),
    avg_score=('credit_score', 'mean'),
    min_score=('credit_score', 'min'),
    max_income=('income', 'max')
).round(1)

print('Детальная агрегация по статусу:')
agg_result

Детальная агрегация по статусу:


Unnamed: 0_level_0,count,avg_income,avg_score,min_score,max_income
loan_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Approved,45,92955.6,745.1,650,180000
Denied,16,39687.5,610.6,560,52000


In [47]:
# Группировка по нескольким столбцам
# Смотрим доход и рейтинг в разрезе пол × статус кредита

cross_stats = df.groupby(['gender', 'loan_status'])[['income', 'credit_score']].mean().round(0)
print('Средние показатели по полу и статусу кредита:')
cross_stats

Средние показатели по полу и статусу кредита:


Unnamed: 0_level_0,Unnamed: 1_level_0,income,credit_score
gender,loan_status,Unnamed: 2_level_1,Unnamed: 3_level_1
Female,Approved,98105.0,752.0
Female,Denied,41182.0,615.0
Male,Approved,89192.0,740.0
Male,Denied,36400.0,600.0


In [48]:
# value_counts() — подсчёт частоты каждого уникального значения
# normalize=True — показывает доли вместо абсолютных чисел

print('Статус кредита (количество):')
print(df['loan_status'].value_counts())

print('\nСтатус кредита (доля, %):')
print((df['loan_status'].value_counts(normalize=True) * 100).round(1))

Статус кредита (количество):
loan_status
Approved    45
Denied      16
Name: count, dtype: int64

Статус кредита (доля, %):
loan_status
Approved    73.8
Denied      26.2
Name: proportion, dtype: float64


In [49]:
# pivot_table — сводная таблица (как в Excel)
# values = что считаем, index = строки, columns = столбцы

pivot = df.pivot_table(
    values='income',
    index='education_level',
    columns='loan_status',
    aggfunc='mean'
).round(0)

print('Средний доход по образованию и статусу кредита:')
pivot

Средний доход по образованию и статусу кредита:


loan_status,Approved,Denied
education_level,Unnamed: 1_level_1,Unnamed: 2_level_1
Associate's,62500.0,45000.0
Bachelor's,83294.0,41333.0
Doctoral,127300.0,
High School,55000.0,34500.0
Master's,87600.0,


### 4.7 Переименование и удаление столбцов

In [50]:
# Посмотрим все столбцы, включая те, что мы добавили
print('Все столбцы:', df.columns.tolist())

Все столбцы: ['age', 'gender', 'occupation', 'education_level', 'marital_status', 'income', 'credit_score', 'loan_status', 'income_monthly', 'high_income', 'risk_level', 'age_group', 'credit_category', 'occupation_lower', 'occupation_labeled', 'is_manager_or_engineer']


In [51]:
# Удаляем вспомогательные столбцы, которые нам больше не нужны
# axis=1 означает «удалить столбцы» (axis=0 удаляет строки)
# inplace=True — изменяет датафрейм напрямую, без создания копии

cols_to_drop = ['income_monthly', 'high_income', 'occupation_lower',
                'occupation_labeled', 'is_manager_or_engineer']

df.drop(columns=cols_to_drop, inplace=True)
print('Столбцы после удаления:', df.columns.tolist())

Столбцы после удаления: ['age', 'gender', 'occupation', 'education_level', 'marital_status', 'income', 'credit_score', 'loan_status', 'risk_level', 'age_group', 'credit_category']


Переименование столбцов

In [52]:
df.rename(columns={
    'loan_status':     'статус_кредита',
    'credit_score':    'кредитный_рейтинг',
    'risk_level':      'уровень_риска',
    'age_group':       'возрастная_группа',
    'credit_category': 'категория_рейтинга'
}, inplace=True)

df.head(3)

Unnamed: 0,age,gender,occupation,education_level,marital_status,income,кредитный_рейтинг,статус_кредита,уровень_риска,возрастная_группа,категория_рейтинга
0,32,Male,Engineer,Bachelor's,Married,85000,720,Approved,Низкий риск,30-40,Хороший
1,45,Female,Teacher,Master's,Single,62000,680,Approved,Средний риск,40-50,Удовлетворительный
2,28,Male,Student,High School,Single,25000,590,Denied,Высокий риск,до 30,Плохой


### 4.8 Кодирование категориальных переменных

Многие ML-алгоритмы работают только с числами. Нужно преобразовать текстовые столбцы в числовые.

Способ 1: Label Encoding — заменяем каждое уникальное значение числом

In [53]:
# Используем pd.factorize() или создаём маппинг вручную

# Для бинарных переменных лучше задать маппинг явно
df['gender_encoded'] = df['gender'].map({'Male': 1, 'Female': 0})
df['loan_approved']  = df['статус_кредита'].map({'Approved': 1, 'Denied': 0})

print('Первые 5 строк (закодированные столбцы):')
df[['gender', 'gender_encoded', 'статус_кредита', 'loan_approved']].head()

Первые 5 строк (закодированные столбцы):


Unnamed: 0,gender,gender_encoded,статус_кредита,loan_approved
0,Male,1,Approved,1
1,Female,0,Approved,1
2,Male,1,Denied,0
3,Female,0,Approved,1
4,Male,1,Approved,1


Способ 2: One-Hot Encoding через pd.get_dummies()

In [54]:
# Создаёт отдельный столбец 0/1 для каждого уникального значения
# Предпочтителен для категорий без порядка (профессии, страны и т.д.)

dummies = pd.get_dummies(df['education_level'], prefix='edu')
print('One-hot encoded education_level:')
print(dummies.head())
print('\nКолонки:', dummies.columns.tolist())

One-hot encoded education_level:
   edu_Associate's  edu_Bachelor's  edu_Doctoral  edu_High School  \
0            False            True         False            False   
1            False           False         False            False   
2            False           False         False             True   
3            False            True         False            False   
4            False            True         False            False   

   edu_Master's  
0         False  
1          True  
2         False  
3         False  
4         False  

Колонки: ["edu_Associate's", "edu_Bachelor's", 'edu_Doctoral', 'edu_High School', "edu_Master's"]


In [55]:
# Присоединяем закодированные столбцы к основному датафрейму
# pd.concat объединяет датафреймы по горизонтали (axis=1) или вертикали (axis=0)

df_encoded = pd.concat([df, dummies], axis=1)

# drop_first=True при get_dummies убирает один столбец для избежания мультиколлинеарности
# Но здесь мы оставили все для наглядности

print(f'Форма до кодирования:  {df.shape}')
print(f'Форма после кодирования: {df_encoded.shape}')
df_encoded.filter(like='edu').head(3)

Форма до кодирования:  (61, 13)
Форма после кодирования: (61, 18)


Unnamed: 0,education_level,edu_Associate's,edu_Bachelor's,edu_Doctoral,edu_High School,edu_Master's
0,Bachelor's,False,True,False,False,False
1,Master's,False,False,False,False,True
2,High School,False,False,False,True,False


### 4.9 Объединение датафреймов

В реальных проектах данные часто хранятся в разных таблицах — как в реляционных базах данных. Pandas умеет их объединять.

In [56]:
# Создаём два датафрейма для примера объединения
df_clients = df[['age', 'gender', 'occupation', 'income']].head(6).copy()
df_clients['client_id'] = range(1, 7)  # добавляем ID

df_scores = pd.DataFrame({
    'client_id':        [1, 2, 3, 4, 7, 8],   # 7 и 8 — нет в df_clients
    'кредитный_рейтинг': [720, 680, 590, 780, 700, 650],
    'статус_кредита':   ['Approved', 'Approved', 'Denied', 'Approved', 'Approved', 'Denied']
})

print('Клиенты:')
print(df_clients)
print('\nРейтинги:')
print(df_scores)

Клиенты:
   age  gender  occupation  income  client_id
0   32    Male    Engineer   85000          1
1   45  Female     Teacher   62000          2
2   28    Male     Student   25000          3
3   51  Female     Manager  105000          4
4   36    Male  Accountant   75000          5
5   24  Female       Nurse   48000          6

Рейтинги:
   client_id  кредитный_рейтинг статус_кредита
0          1                720       Approved
1          2                680       Approved
2          3                590         Denied
3          4                780       Approved
4          7                700       Approved
5          8                650         Denied


In [57]:
# pd.merge — аналог JOIN в SQL
# how='inner'  — только совпадающие ID (пересечение)
# how='left'   — все строки из левого + совпадения из правого
# how='outer'  — все строки из обоих (объединение)

merged_inner = pd.merge(df_clients, df_scores, on='client_id', how='inner')
print(f'INNER JOIN (только совпадения): {len(merged_inner)} строк')
print(merged_inner)

print()
merged_left = pd.merge(df_clients, df_scores, on='client_id', how='left')
print(f'LEFT JOIN (все клиенты): {len(merged_left)} строк')
print(merged_left)

INNER JOIN (только совпадения): 4 строк
   age  gender occupation  income  client_id  кредитный_рейтинг статус_кредита
0   32    Male   Engineer   85000          1                720       Approved
1   45  Female    Teacher   62000          2                680       Approved
2   28    Male    Student   25000          3                590         Denied
3   51  Female    Manager  105000          4                780       Approved

LEFT JOIN (все клиенты): 6 строк
   age  gender  occupation  income  client_id  кредитный_рейтинг  \
0   32    Male    Engineer   85000          1              720.0   
1   45  Female     Teacher   62000          2              680.0   
2   28    Male     Student   25000          3              590.0   
3   51  Female     Manager  105000          4              780.0   
4   36    Male  Accountant   75000          5                NaN   
5   24  Female       Nurse   48000          6                NaN   

  статус_кредита  
0       Approved  
1       Approved

In [58]:
# pd.concat — «склеивает» датафреймы
# axis=0 — добавляет строки (вертикально)
# axis=1 — добавляет столбцы (горизонтально)

first_half  = df.head(5)[['age', 'gender', 'income']].copy()
second_half = df.tail(5)[['age', 'gender', 'income']].copy()

combined = pd.concat([first_half, second_half], axis=0, ignore_index=True)
print(f'Первые 5 + последние 5 = {len(combined)} строк')
combined

Первые 5 + последние 5 = 10 строк


Unnamed: 0,age,gender,income
0,32,Male,85000
1,45,Female,62000
2,28,Male,25000
3,51,Female,105000
4,36,Male,75000
5,39,Male,100000
6,25,Female,32000
7,43,Male,95000
8,30,Female,55000
9,38,Male,65000


### 4.10 Итоговый анализ: NumPy + Pandas вместе

Покажем, как NumPy и Pandas работают в связке для реального анализа датасета.

In [59]:
# Перечитаем чистый датасет
df_clean = pd.read_csv('выдача кредита.csv')

# --- Нормализация числовых признаков с NumPy ---
# Min-Max нормализация: приводим значения к диапазону [0, 1]
# Формула: (x - min) / (max - min)

income_arr = df_clean['income'].values  # получаем numpy array из Series
score_arr  = df_clean['credit_score'].values

income_norm = (income_arr - income_arr.min()) / (income_arr.max() - income_arr.min())
score_norm  = (score_arr  - score_arr.min())  / (score_arr.max()  - score_arr.min())

df_clean['income_norm']       = income_norm.round(4)
df_clean['credit_score_norm'] = score_norm.round(4)

print('Диапазон income_norm:       ', income_norm.min().round(3), '—', income_norm.max().round(3))
print('Диапазон credit_score_norm: ', score_norm.min().round(3), '—', score_norm.max().round(3))
df_clean[['income', 'income_norm', 'credit_score', 'credit_score_norm']].head()

Диапазон income_norm:        0.0 — 1.0
Диапазон credit_score_norm:  0.0 — 1.0


Unnamed: 0,income,income_norm,credit_score,credit_score_norm
0,85000,0.3871,720,0.5926
1,62000,0.2387,680,0.4444
2,25000,0.0,590,0.1111
3,105000,0.5161,780,0.8148
4,75000,0.3226,710,0.5556


Корреляционный анализ

In [None]:
# Корреляция показывает линейную зависимость между числовыми столбцами
# Значения: 1.0 = идеальная прямая зависимость, -1.0 = обратная, 0 = нет зависимости

numeric_cols = df_clean[['age', 'income', 'credit_score']]
corr_matrix = numeric_cols.corr().round(3)

print('Корреляционная матрица:')
print(corr_matrix)

Корреляционная матрица:
                age  income  credit_score
age           1.000   0.743         0.806
income        0.743   1.000         0.938
credit_score  0.806   0.938         1.000


Финальная сводка по датасету

In [None]:
total     = len(df_clean)
approved  = (df_clean['loan_status'] == 'Approved').sum()
denied    = (df_clean['loan_status'] == 'Denied').sum()

print('=' * 45)
print('       ИТОГОВАЯ СВОДКА ПО ДАТАСЕТУ')
print('=' * 45)
print(f'  Всего заявок:          {total}')
print(f'  Одобрено:              {approved} ({approved/total*100:.1f}%)')
print(f'  Отклонено:             {denied}  ({denied/total*100:.1f}%)')
print('-' * 45)
print(f'  Средний возраст:       {df_clean["age"].mean():.1f} лет')
print(f'  Средний доход:         ${df_clean["income"].mean():,.0f}')
print(f'  Средний кред. рейтинг: {df_clean["credit_score"].mean():.0f}')
print('-' * 45)
print(f'  Топ профессия:         {df_clean["occupation"].mode()[0]}')
print(f'  Топ образование:       {df_clean["education_level"].mode()[0]}')
print('=' * 45)

       ИТОГОВАЯ СВОДКА ПО ДАТАСЕТУ
  Всего заявок:          61
  Одобрено:              45 (73.8%)
  Отклонено:             16  (26.2%)
---------------------------------------------
  Средний возраст:       37.1 лет
  Средний доход:         $78,984
  Средний кред. рейтинг: 710
---------------------------------------------
  Топ профессия:         Engineer
  Топ образование:       Bachelor's


---
## Итоги

Вы изучили ключевые возможности NumPy и Pandas:

| Тема | Что умеем |
|------|----------|
| **NumPy** | Создание массивов, срезы, булева индексация |
| **NumPy** | Векторные операции, агрегации (mean, std, max) |
| **NumPy** | Матрицы, reshape, транспонирование, linalg |
| **Pandas** | Чтение/запись CSV и Excel |
| **Pandas** | Фильтрация (.loc, .iloc, query) |
| **Pandas** | Работа с пропусками (dropna, fillna) |
| **Pandas** | Создание новых столбцов (apply, np.where, cut) |
| **Pandas** | Группировка и агрегация (groupby, pivot_table) |
| **Pandas** | Кодирование категорий (map, get_dummies) |
| **Pandas** | Объединение таблиц (merge, concat) |