<a href="https://colab.research.google.com/github/Existanze54/sirius-machine-learning-2025/blob/main/Seminars/GenTech/S1_Numpy_Pandas_Mpl_GT25.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Семинар 1. Основы анализа данных с Python

## Часть 1. Библиотека **NumPy** (**Num**erical **Py**thon)

In [None]:
# Общепринятый способ импорта:
import numpy as np

### 1.1. `numpy` вводит новую разновидность объектов-коллекций — массив (array)

В отличие от любой стандартной питоновской коллекции, `np.array` содержит данные строго указанного типа. Это позволяет объекту `np.array` занимать меньше памяти и работать быстрее.  
  
<img src='https://data.bioml.ru/htdocs/courses/python/datasci/numpy/img/list-array.png' width='500'>

Существует множество способов создать массив. Рассмотрим наиболее популярные:

- Конвертировать из списка
  ```python
  np.array([1, 2, 3])
  ```
- Сгенерировать массив, заполненный нулями или единицами
  ```python
  np.zeros(3); np.ones(3)
  ```
- Сгенерировать массив со случайными числами от 0 до 1
  ```python
  np.random.random(3)
  ```
- Сгенерировать массив, заполненный произвольным числом
  ```python
  np.full(3, 7)
  ```
- Сгенерировать массив с числами в заданном диапазоне
  ```python
  np.arange(0.1, 0.4, 0.1)
  ```

Давайте создадим пару массивов

In [None]:
# создайте массив из произвольного списка

In [None]:
# создайте массив длиной 7, заполненный случайными числами

In [None]:
# создайте массив длиной 4, заполненный числом 42

In [None]:
# создайте массив с числами от 0.1 до 0.5 с шагом 0.1

Кстати, массив может быдь двух-, трех- и сколь угодно мерным!  
  
<img src='https://data.bioml.ru/htdocs/courses/python/datasci/numpy/img/dimensions.png' width='500'>

In [None]:
np.array([[1, 2], [3, 4]])

In [None]:
np.full((2, 3, 4), 7)

### 1.2. Из массивов можно брать срезы

Интерфейс доступа к элементам массива несколько проще, чем элементу списка.
В обычном `python` мы делаем следующее:
```python
lst[0][0]
```
Для массива же можно указывать индексы через запятую:
```python
arr[0, 0]
```
Так же работают и всеми любимые срезы!  
  
<img src='https://data.bioml.ru/htdocs/courses/python/datasci/numpy/img/vis-numpy-16.jpg' width='500'>

In [None]:
arr = np.array([[1, 2, 3, 4, 5], [6, 7, 8, 9, 10]])
arr

In [None]:
arr[:, 1:-2]

### 1.3. Главная фича `numpy` — векторизация вычислений

Очень часто при работе с данными нам необходимо применить к набору значений однотипную операцию. Пускай у нас есть набор значений A, и нам необходимо увеличить их на 1.
```python
A = [1, 2, 3, 4, 5]
```
В классическом `python` проще всего это сделать с генератором списка (list comprehension):
```python
[i + 1 for i in A]
```
С `numpy` это можно записать еще элегантнее:
```python
A + 1
```

Давайте сравним скорость реализации на чистом `python` и `numpy`. Для начала создадим крупные список и массив

In [None]:
lst = list(range(100))
arr = np.arange(100)

С помощью команды `%%timeit` в начале ячейки можно автоматически измерить среднюю скорость ее выполнения

In [None]:
%%timeit
result = [i ** 10 for i in lst]

Выполните то же самое для массива

In [None]:
# your code here

### 1.4. Между массивами возможны арифметические операции

In [None]:
arr1 = np.array([[1, 2, 3],
                 [4, 5, 6]])
arr2 = np.ones((2, 3))

In [None]:
arr1 + arr2

In [None]:
arr1 / (arr2 * 2)

Как вы заметили, при операциях между массивами одинакового размера вычисления происходят поэлементно. Но что если взять массивы разных размеров?

In [None]:
arr1 + np.ones(3)

In [None]:
arr1 * np.full((2, 1), 2)

Когда некоторые размерности не совпадают, `numpy` попытается дополнить меньшей массив фиктивными размерностями. Этот процесс называется бродкастинг (broadcasting)  

<img src='https://data.bioml.ru/htdocs/courses/python/datasci/numpy/img/vis-numpy-13.jpg' width='500'>

Но как осуществить классическое матричное умножение из линейной алгебры?

In [None]:
A = np.array([[0, 1],
              [1, 0]])

B = np.array([[1, 0, 1],
              [0, 1, 0]])

A @ B

### 1.5. `numpy` содержит популярные математические функции

In [None]:
data = np.array([[2,   4,  8],
                 [16, 32, 64]])

In [None]:
np.sqrt(data)

In [None]:
np.log2(data)

In [None]:
# самостоятельно проверьте результаты выполнения np.exp, np.log10, np.sin

### 1.6. Агрегирующие операции позволяют рассчитать базовые статистики

- Максимальный и минимальный элемент
  ```python
  np.max(A); np.min(A)
  ```
- Индекс максимального и минимального элемента
  ```python
  np.argmax(A); np.argmin(A)
  ```
- Среднее, дисперсию и стандартное отклонение
  ```python
  np.mean(A); np.var(A); np.std(A)
  ```
  Все то же самое можно осуществить и с помощью внутренних методов объекта `np.array`

In [None]:
np.random.seed(42)
a = np.random.randint(0, 5, size=8)
a

In [None]:
a.max(), a.argmin(), a.mean(), a.var()

In [None]:
# догадываетесь что делают np.sum и np.prod?

Для многомерных массивов можно контролировать вдоль какого измерения применять функцию с помощью аргумента `axis`

In [None]:
np.random.seed(42)
data = np.random.randint(0, 7, size=(3, 2))
data

In [None]:
data.std(axis=0)

In [None]:
data.mean(axis=1)

In [None]:
# получите массив с минимальными значениями каждой строки массива data

### 1.7. Размерности массивов можно менять

In [None]:
arr = np.arange(1, 13)
arr

Метод `.reshape` позволяет произвольно изменить размер массива с сохранением порядка элементов

In [None]:
arr = arr.reshape(3, 4)
arr

Если одна из размерностей однозначна, можно указывать вместо нее `-1`

In [None]:
arr.reshape(-1, 2)

Метод `.transpose` осуществляет классическое траспонирование. Для него существует alias (сокращение) — `.T`

In [None]:
arr.T

Метод `.flatten` позволяет 'сплющить' массив

In [None]:
arr.flatten()

### 1.8. Наконец, для массивов определены логические операции

In [None]:
data = np.arange(6)
data

In [None]:
result = data > 2
result

Существуют агрегирующие функции `np.any` и `np.all` и соответствующие им методы

In [None]:
np.all(result), result.any()

Что примечательно, булевые массивы можно использовать как маску для фильтрации

In [None]:
mask = data % 2 == 0
data[mask]

Возможны логические операции и между векторами

In [None]:
a = np.array([1, 1, 0, 0, 1], dtype=bool)
b = np.array([1, 0, 0, 1, 0], dtype=bool)
a == b

Вот только стандартные `and`, `or` и `not` не работают между массивами. Необходимо использовать бинарные операторы

In [None]:
a & b

In [None]:
a | b

## Часть 2. Библиотека **Pandas** (**Pan**el **Da**ta)

In [None]:
# Общепринятый способ импорта:
import pandas as pd

Для автоматической обработки данные удобно представлять в структурированном виде. Самый распространенный вариант — таблица, где строки соответствуют *объектам* или *наблюдениям*, а столбцы — *признакам* или *измеряемым величинам*. Такая структура называется ***датафреймом***. Библиотека `pandas` предназначена для работы с такими таблицами и построена поверх `numpy`.  
  
<img src='https://data.bioml.ru/htdocs/courses/python/datasci/pandas/img/dataframe_series.png' width='500'>  
  
И строки, и столбцы `pd.DataFrame` — это объекты `pd.Series`, представляющие собой своеобразную версию `np.array`. Основное отличие в том, что `pd.Series` в качестве индексов может использовать не только натуральные числа, но и строки и другие питоновские объекты (по сути, это наворочанный упорядоченный словарь). Почти все базовые методы `np.array` работают и для `pd.Series` с `pd.DataFrame`, и на них мы останавливаться не будем.

### 2.1. Есть много способов создать датафрейм

Их можно разбить на два типа:
1. Конвертация из словаря, списка, массива и т.д.:
    ```python
    pd.DataFrame({'A': [1, 2], 'B': [3, 4]})
    ```
2. Чтение из файла:
    ```python
    pd.read_csv(filename)
    pd.read_excel(filename)
    pd.read_json(json_string)
    ...
    ```

Давайте в качестве примера загрузим популярный датасет '[Heart UCI](https://www.kaggle.com/datasets/redwankarimsony/heart-disease-data)', описывающий пациентов с различными заболеваниями сердца.

In [None]:
%%bash
wget -q https://data.bioml.ru/htdocs/courses/python/datasci/pandas/data/Heart_UCI_modified.csv

In [None]:
df = pd.read_csv('Heart_UCI_modified.csv')
df

Как видите, **Jupyter Notebook** (и красивые обертки над ним, такие как **Google Colab**), довольно аккуратно рендерят датафреймы.

### 2.2. `pd.DataFrame` имеет ряд полезных методов для быстрого обзора данных

In [None]:
df.info()

In [None]:
df.head(2)

In [None]:
df.tail(2)

In [None]:
df.describe()

### 3.3. Данные всегда стоит проверять на пропущенные значения

Функция `pd.isna` и аналогичный метод позволяют детектировать многие способы записи недостающих значений (питоновский `None`, `np.nan` и пр.). С ними произвести проверку довольно легко

In [None]:
df.isna().any()

Нам повезло и у нас нет пропущенных значений! В противном случае мы могли бы выкинуть их с методом `.dropna`

In [None]:
example = pd.DataFrame({
    'name': ['Kyle', None, 'Stan', 'Kenny', 'Eric'],
    'age': [9, 35, 10, np.nan, 9],
})
example.dropna()

### 3.4. Колонки весьма просто извлечь для отдельного анализа

In [None]:
df['Age']

Многие методы `pd.DataFrame` определены и для `pd.Series`

In [None]:
df['Age'].describe().head(3)

Часто полезно посчитать число различных категорий

In [None]:
df['Sex'].value_counts()

### 3.5. Не сложнее колонку и добавить

Для анализа могут быть полезные различные преобразования над признаками. Давайте запишем парочку

In [None]:
df['log_st'] = np.log1p(df['Exercise_ST_depression'])

In [None]:
pres = df['Resting_blood_pressure']
chol = df['Serum_cholesterol']

df['ratio'] = pres / chol

In [None]:
df.head(2)

In [None]:
del df['log_st'], df['ratio']
df.head(2)

### 3.6. Особенно полезны булевые маски

Для столбцов работают все те же логические операции, что и для массивов

In [None]:
df['Max_heart_rate'] > 160

In [None]:
df['Chest_pain_type'] == 'atypical angina'

Такой булевый `pd.Series` можно использовать в качестве *маски* для фильтрации другого `pd.Series` или всего `pd.DataFrame`!

In [None]:
df[df['Sex'] == 'female']

Давайте сравним среднее давление у пациентов от 50 лет с таковым у пациентов младше 50. Различается ли оно?

In [None]:
df[df['Age'] >= 50]['Resting_blood_pressure'].mean()

In [None]:
# для второй группы напишите сами

### 3.7. Возможности `pandas` почти безграничны

Функциональность `pandas` очень широка — в библиотеке реализованы сотни методов, и охватить их все в рамках курса невозможно. Тем не менее, перечисленного выше достаточно для решения большинства практических задач.

Если вы планируете заниматься анализом данных, в первую очередь имеет смысл освоить: `.loc`, `.iloc`, `.sort_values`, `.fillna`, `.set_index`, `.reset_index`, `.groupby`, `.apply`, `.map`, а также `pd.pivot_table`, `pd.concat` и `pd.merge`.

Подсказки по любому объекту можно получить через `help`. В Jupyter Notebook и Colab для этого удобно использовать `?`

In [None]:
help(pd.concat)

In [None]:
?pd.merge

## Часть 3. Библиотека **Matplotlib** (**MAT**LAB, **plot**, **lib**rary)

In [None]:
# Общепринятый способ импорта:
import matplotlib.pyplot as plt

### 3.1. Стандартный график соединяет точки в линию

Давайте изобразим какую-то интересную функцию

In [None]:
x = np.arange(-10, 10, 0.1)
y = np.cos(x) + 0.5*x

plt.plot(x, y)
plt.show()

Начертание и цвет линии можно менять

In [None]:
plt.plot(x, y, 'r--')
plt.show()

Можно рисовать несколько линий на одном графике

In [None]:
y1 = np.cos(x)
y2 = 0.5*x
y3 = y1 + y2

for y in (y1, y2, y3):
  plt.plot(x, y)
plt.show()

### 3.2. Гистограмма полезна при анализе распределений

In [None]:
np.random.seed(42)

x = np.random.normal(0, 1, 1000)

plt.hist(x, bins=30)
plt.show()

### 3.3. Диаграмма рассеяния (scatter plot) отоброжает зависимости

In [None]:
np.random.seed(42)

x = np.arange(-5, 5, 0.1)
y = np.cos(x) + np.random.normal(0, 0.2, len(x))

plt.scatter(x, y)
plt.show()

### 3.4. Возможности `matplotlib` весьма широки

В рамках занятия мы рассмотрели только базовый функционал `matplotlib` — этого достаточно для целей курса.  
  
Если вы хотите продвинуться дальше в визуализации данных на `python`, стоит познакомиться со следующими типами графиков:  
`plt.bar` — сравнение категорий по количественным значениям (не путать с `plt.hist`);  
`plt.pie` — круговая диаграмма для долей (используется редко);  
`plt.boxplot` — компактное сравнение распределений;  
`plt.violinplot` — сравнение распределений с оценкой плотности;  
`plt.errorbar` — значения с доверительными интервалами или погрешностями;  
`plt.hist2d` — двумерная гистограмма;  
`plt.hexbin` — двумерное гистограмма с гексагональной бинизацией.  
  
Полезно также освоить инструменты настройки полотна и композиции: `plt.figure`, `plt.subplots`, а также базовые элементы оформления: `plt.title`, `plt.xlabel`, `plt.ylabel`, `plt.legend`, `plt.grid`.
  
Существуют и более продвинутые библиотеки визуализации — наиболее популярны из них `seaborn` и `plotly`. Однако `matplotlib` остается базой, которую надо знать.

In [None]:
help(plt.subplots)

In [None]:
?plt.grid

# Фух, на этом все!

В процессе работы с любыми тулами и библиотеками очень полезно обращаться к документации.  
Обычно ее легко найти в интернете:

`numpy` — https://numpy.org/doc/stable/

`pandas` — https://pandas.pydata.org/docs/

`matplotlib` — https://matplotlib.org/stable/