# Основы Pandas

## Содержание

### [1. Что такое Pandas?](#title_1)
### [2. Устанока pandas](#title_2)
### [3. Структура данных Series](#title_3)
### [4. Структура данных DataFrame](#title_4)
### [5. Работа с элементами DataFrame](#title_5)
### [6. Получение случайного набора из структур pandas](#title_6)
### [7. Отсутствующие данные *Nan*](#title_7)
### [8. Индексирование массивов](#title_8)
### [9. Объединение массивов](#title_9)
### [10. Примеры](#title_10)
---

## <a id='title_1'>Что такое Pandas?</a>

Pandas – это библиотека, которая предоставляет очень удобные с точки зрения использования инструменты для хранения данных и работе с ними. Если вы занимаетесь анализом данных или машинным обучением и при этом используете язык Python, то вы просто обязаны знать и уметь работать с pandas.

---

## <a id='title_2'>Установка pandas</a>

### PIP
`pip install pandas`

### Linux
`sudo apt-get install python-pandas`

### Проверка

```
import pandas as pd
pd.test()
-------------------------------
Running unit tests for pandas pandas version 0.18.1 numpy version 1.11.1 pandas is installed in c:\Anaconda3\lib\site-packages\pandas Python version 3.5.2 |Anaconda 4.1.1 (64-bit)| (default, Nov 12 2023, 11:41:13) [MSC v.1900 64 bit (AMD64)] nose version 1.3.7 .......... ---------------------------------------------------------------------- Ran 11 tests in 0.422s OK

```



In [None]:
import pandas as pd
pd.test()
# Здесь просто пример, запускать не советую

---

## <a id='title_3'>Структура данных Series</a>

- *data* – массив, словарь или скалярное значение, на базе которого будет построен Series;
- *index* – список меток, который будет использоваться для доступа к элементам Series. Длина списка должна быть равна длине data;
- *dtype* – объект numpy.dtype, определяющий тип данных;
- *copy* – создает копию массива данных, если параметр равен True в ином случае ничего не делает.


## Создание Series из списка Python

In [1]:
# Make all imports

import os
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

In [None]:
s1 = pd.Series([1, 2, 3, 4, 5])
print(f"s1 is\n{s1}")

s2 = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'])
print(f"s2 is\n{s2}")


## Создание Series из ndarray массива из numpy

In [None]:
ndarr = np.array([1, 2, 3, 4, 5])
type(ndarr)


In [None]:
s3 = pd.Series(ndarr, index=['a', 'b', 'c', 'd', 'e'])
print(f"s3 is\n{s3}")


## Создание Series из словаря (dict)

In [None]:
d = {'a': 5, 'b': 3,'c': 2,'d': 4,'e': 1}
s4 = pd.Series(d)
print(f"s4 is\n{s4}")

## Работа с элементами Series

In [None]:
s5 = pd.Series([10, 20, 30, 40, 50], index=['a', 'b', 'c', 'd', 'e'])
print(s2 + s5)

In [None]:
print(s5 * 3)

---

## <a id='title_4'>Структура данных DataFrame</a>

`class pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)`

- *data* – массив *ndarray*, словарь (*dict*) или другой *DataFrame*;
- *index* – список меток для записей (имена строк таблицы);
- *columns* – список меток для полей (имена столбцов таблицы);
- *dtype* – объект *numpy.dtype*, определяющий тип данных;
- *copy* – создает копию массива данных, если параметр равен True в ином случае ничего не делает.


## Создание DataFrame из словаря

In [None]:
d = {"price":pd.Series([1, 2, 3], index=['v1', 'v2', 'v3']),
     "count":pd.Series([10, 12, 53], index=['v1', 'v2', 'v3'])}
df_1 = pd.DataFrame(d)
print(f"df_1 is\n{df_1}")

In [None]:
print(f"Indexes is\n{df_1.index}")
print(f"Columns is\n{df_1.columns}")

В коде `pd.Series` можно заменить на `np.array` и ничего не поменяется. 

## Создание DataFrame из списка словарей

In [None]:
d = [{"price": 3, "count": 8}, {"price": 1, "count": 9}]
df_2 = pd.DataFrame(d)
print(f"df_2 is\n{df_2}")

In [None]:
print(df_2.info())

## Создание DataFrame из двумерного массива

In [None]:
nda = np.array([[1, 2, 3], [10, 20, 30]])
df_3 = pd.DataFrame(nda)
print(f"df_3 is\n{df_3}")

Как можно заметить, названия колонок заменились на индексы.

---

## <a id='title_5'>Работа с элементами DataFrame</a>

|Операция|Синтаксис|Возвращаемый результат|
|:----|:---|:----|
|Выбор столбца|`df[col]`|*Series*|
|Выбор строки по метке|`df.loc[label]`|*Series*|
|Выбор строки по индексу|`df.iloc[loc]`|*Series*|
|Слайс по строкам|`df[0:5]`|*DataFrame*|
|Выборк строк. отвечающих условию|`df[bool_exp]`|*DataFrame*|

In [None]:
d = {"price":pd.Series([33, 23, 12, 12, 43, 76, 21], index=['v1', 'v2', 'v3', 'v4', 'v5', 'v6', 'v7']),
     "count":pd.Series([10, 12, 53, 34, 12, 83, 18], index=['v1', 'v2', 'v3', 'v4', 'v5', 'v6', 'v7']),
     "names":pd.Series(['cats', 'dogs', 'cows', 'crocodiles', 'ravens', 'sturgeons', 'rats'], index=['v1', 'v2', 'v3', 'v4', 'v5', 'v6', 'v7'])}
df = pd.DataFrame(d)
print(f"{df}")

In [None]:
# Выбор столбца
col = df['count']
print(col)

In [None]:
print(df.loc['v2'])

In [None]:
print(df.iloc[1])

In [None]:
exp = df['count'] >=20
new_df = df[exp] 
# Можно писать сразу:
# new_df = df[df['count'] >=20]
print(new_df)

In [None]:
print(df[["price", "count"]])
print("====================")
print(df[lambda x: x['count'] > 15]) # Обращение через callable функцию

In [None]:
print(df[df['names'] == 'rats'])
print("====================")
print(df.names) # Обращение через атрибуты объекта класса

---

## <a id='title_6'>Получение случайного набора из структур pandas</a>

In [None]:
print(df.sample()) # Один
print("====================")
print(df.sample(3)) # Можно указать несколько
print("====================")
print(df.sample(frac=0.33)) # Можно указать несколько 33% от общего числа

### Переключатель между строками и столбцами 

In [None]:
print(df.sample(2)) # Без этого аргумента считается, что axis=0 - кол-во строк
print("====================")
print(df.sample(n=2, axis=1)) # кол-во столбцов

### Добавление элементов в структуры

In [None]:
df['type'] = ['Mammal', 'Mammal', 'Mammal', 'Reptile', 'Bird', 'Fish', 'Mammal']
print(df)

In [None]:
fn = df['type'].map(lambda x: x == 'Fish')
print(fn)
print("====================")
print(df[fn])

### Проверка на нахождение

In [None]:
print(df.isin(['Reptile', 'Bird']))

---

## <a id='title_7'>Отсутствующие данные *Nan*</a>

Создадим датафрейм еще раз, включив на этот раз некоторые отсутствующие данные:

In [None]:
d = {"price":pd.Series([33, 23, 12, 12, 43, 76, 21]),
     "count":pd.Series([10, 12, 53, 34, 12, 83, 18]),
     "names":pd.Series(['cats', 'dogs', 'cows', 'crocodiles', 'ravens', 'sturgeons', 'rats']),
     "type" : np.array(['Mammal', 'Mammal', 'Mammal', 'Reptile', 'Bird', 'Fish', 'Mammal'])}
new_indexes = ['a'+str(i) for i in range (1, len(df) + 1)]

df = pd.DataFrame(d)
df['id'] = new_indexes
df = df.set_index('id')

df['owner'] = ['Max', 'Alex', None, None, 'Maria', 'Daria', None]
df['animal_old'] = [2, None, 2, 4, None, 1, 3]
df['owner_old'] = [34, None, None, None, 18, None, None]
print(df)


In [None]:
print(pd.isnull(df)) # True там, где есть None или Nan
print(~pd.isnull(df)) # False там, где есть None или Nan

Посмотрим, сколько пропущенных значений в каждом столбце:

In [None]:
print(df.isnull().sum())

Заместим все пропущенные данные:
- `fillna(arg)` - тем, что будет вместо *arg*;
- `fillna(df.mean())` - например, среднему значению по всему массиву.

In [None]:
print(df.fillna(0))
print("======================================================================")
# А если надо залить разными вещами?
df['owner'] = df['owner'].fillna('--')
df = df.fillna(0)
print(df)


Попробуем залить столбец *owner_old* средним значением только по этому столбцу:

In [None]:
d = {"price":pd.Series([33, 23, 12, 12, 43, 76, 21]),
     "count":pd.Series([10, 12, 53, 34, 12, 83, 18]),
     "names":pd.Series(['cats', 'dogs', 'cows', 'crocodiles', 'ravens', 'sturgeons', 'rats']),
     "type" : np.array(['Mammal', 'Mammal', 'Mammal', 'Reptile', 'Bird', 'Fish', 'Mammal'])}


df = pd.DataFrame(d)

df['owner'] = ['Max', 'Alex', None, None, 'Maria', 'Daria', None]
df['animal_old'] = [2, None, 2, 4, None, 1, 3]
df['owner_old'] = [34, None, None, None, 18, None, None]

# Заливаем 

df['owner_old'] = df['owner_old'].fillna(df['owner_old'].mean())
print(df)

Попробуем просто удалить строки, в которых пропущены данные:

In [None]:
df_dr = df.dropna()
print(df_dr)

А теперь применим это к столбцам:

In [None]:
df_dr_col = df.dropna(axis=1)
print(df_dr_col)

А как удалить столбец?

In [None]:
df = df.drop(['owner_old'], axis='columns')
print(df)

---

## <a id='title_8'>Индексирование массивов</a>

|Функция|Описание|
|:--|:--|
|`df.set_index()`|Устанавливает заданный столбец (или несколько столбцов) в качестве индекса|
|`df.reset_index()`|Сбрасывает текущий индекс, возвращая его в виде столбца|
|`.xs()`|Формат: `df.xs(key, axis, level)`. Удобно использовать для многомерных индексов (MultiIndex)|

In [None]:
d = {"price":pd.Series([33, 23, 12, 12, 43, 76, 21]),
     "count":pd.Series([10, 12, 53, 34, 12, 83, 18]),
     "names":pd.Series(['cats', 'dogs', 'cows', 'crocodiles', 'ravens', 'sturgeons', 'rats']),
     "type" : np.array(['Mammal', 'Mammal', 'Mammal', 'Reptile', 'Bird', 'Fish', 'Mammal'])}


df = pd.DataFrame(d)
new_indexes = ['a'+str(i) for i in range (1, len(df) + 1)]
df['id'] = new_indexes
df = df.set_index('id')

df['owner'] = ['Max', 'Alex', None, None, 'Maria', 'Daria', None]
df['animal_old'] = [2, None, 2, 4, None, 1, 3]
df['owner_old'] = [34, None, None, None, 18, None, None]

# Заливаем 

df['owner_old'] = df['owner_old'].fillna(df['owner_old'].mean())
print(df)

In [None]:
df = df.reset_index()
print(df)

Также можно настраивать многомерную индексацию массивов:

In [None]:
df_multi = df.set_index(['type', 'names'])

print(df_multi)

Также есть очень интересная функция `groupby()`. Функция `groupby()` в Pandas используется для группировки данных по значениям столбцов, что позволяет выполнять агрегирующие операции (например, суммирование, подсчёт, среднее значение) на группах.

Вот пример работы функции `groupby()`:

In [None]:
# Группируем данные по типу животного
grouped = df.groupby('type')

# Применяем агрегирующую функцию (например, среднее)
result = grouped[['price', 'count']].mean()

print(result)


`df.groupby('type')`: Группировка строк по значениям в столбце type.  
`[['price', 'count']].mean()`: Для каждой группы вычисляется среднее значение для столбцов *price* и *count*.  


Можно применить разные функции к каждому столбцу с помощью `agg()`:

In [None]:
# Применяем разные агрегирующие функции
result = df.groupby('type').agg({
    'price': 'mean',      # Среднее значение
    'count': 'sum',       # Сумма
    'owner': 'count'      # Число ненулевых значений
})

print(result)


`groupby()` можно комбинировать с `apply()` для выполнения произвольных операций на каждой группе.

In [None]:
# Пример: Добавление столбца с максимальной ценой в группе
df['max_price_by_type'] = df.groupby('type')['price'].transform('max')

print(df)


`transform('max')`: Вычисляет максимум в каждой группе и добавляет его как новый столбец.  
Теперь каждый объект в DataFrame знает максимальную цену в своей группе.

---

## <a id='title_9'>Объединение массивов</a>

---

В Pandas можно конкатенировать и объединять массивы (или DataFrame'ы) для работы с большими и сложными наборами данных.

1. Конкатенация (concatenation)

Конкатенация объединяет данные вертикально (по строкам) или горизонтально (по столбцам). Используется метод `pd.concat()`.  
Пример 1: Вертикальная конкатенация (по строкам)

In [None]:
# Создаём два DataFrame
df1 = pd.DataFrame({
    'id': [1, 2, 3],
    'name': ['Alice', 'Bob', 'Charlie']
})
df2 = pd.DataFrame({
    'id': [4, 5, 6],
    'name': ['Diana', 'Eve', 'Frank']
})

# Конкатенация по строкам
result = pd.concat([df1, df2], axis=0)

print(result)


Объяснение:

Конкатенация объединяет строки из df1 и df2. Индексы сохраняются, но их можно сбросить с помощью `reset_index(drop=True)`.

Пример 2: Горизонтальная конкатенация (по столбцам)

In [None]:
# Создаём два DataFrame
df1 = pd.DataFrame({
    'id': [1, 2, 3],
    'name': ['Alice', 'Bob', 'Charlie']
})
df2 = pd.DataFrame({
    'age': [24, 30, 22],
    'city': ['NY', 'LA', 'SF']
})

# Конкатенация по столбцам
result = pd.concat([df1, df2], axis=1)

print(result)


Объяснение:

- Данные объединены столбец к столбцу на основе индексов.

2. Объединение (merge)

Метод `pd.merge()` используется для объединения DataFrame'ов на основе общих столбцов или индексов, аналогично SQL.  
Пример: Объединение по общему столбцу

In [None]:
# Создаём два DataFrame
df1 = pd.DataFrame({
    'id': [1, 2, 3],
    'name': ['Alice', 'Bob', 'Charlie']
})
df2 = pd.DataFrame({
    'id': [1, 2, 4],
    'age': [24, 30, 40]
})

# Объединяем по столбцу 'id'
result = pd.merge(df1, df2, on='id', how='inner')

print(result)


Объяснение:

- Здесь выполняется "внутреннее соединение" (inner join), где совпадают значения в столбце id обоих DataFrame'ов.

Пример: Объединение с разными типами соединений

In [None]:
# Левое соединение (left join)
left_join = pd.merge(df1, df2, on='id', how='left')

# Правое соединение (right join)
right_join = pd.merge(df1, df2, on='id', how='right')

# Полное соединение (outer join)
outer_join = pd.merge(df1, df2, on='id', how='outer')

print("Left Join:\n", left_join)
print("\nRight Join:\n", right_join)
print("\nOuter Join:\n", outer_join)


**Итог**

- Конкатенация (`pd.concat`): объединяет строки или столбцы без проверки связей.
- Объединение (`pd.merge`): выполняет операции, аналогичные SQL, для объединения данных на основе ключей.

## <a id='title_10'>Примеры</a>

### Пример 1
Обработка временных данных с агрегированием и интерполяцией пропущенных значений
**Задача:**

У вас есть временной ряд данных с пропусками. Нужно:

- Группировать данные по месяцам.
- Вычислить средние значения.
- Интерполировать пропущенные значения линейно.

In [None]:
import pandas as pd
import numpy as np

# Создаем данные
date_rng = pd.date_range(start='2023-01-01', end='2023-12-31', freq='D')
data = np.random.randint(1, 100, size=(len(date_rng),)).astype(float)
data[np.random.choice(len(data), 20, replace=False)] = np.nan  # Вставляем NaN

df = pd.DataFrame({'date': date_rng, 'value': data})

# Устанавливаем индекс и группируем по месяцам
df['month'] = df['date'].dt.to_period('M')
monthly_avg = df.groupby('month')['value'].mean()

# Интерполяция пропущенных значений
df['value_interpolated'] = df['value'].interpolate(method='linear')

print("Средние значения по месяцам:\n", monthly_avg)
print("\nДанные с интерполяцией:\n", df.head())


### Пример 2 
Нормализация и создание динамических признаков для предсказания
**Задача:**

Дан массив данных о продажах. Требуется:

- Нормализовать данные.
- Создать скользящие средние с разными окнами.
- Добавить признаки прироста (темпы изменения).

In [None]:
import pandas as pd
import numpy as np

# Создаем данные
data = {'date': pd.date_range(start='2023-01-01', end='2023-03-01'),
        'sales': np.random.randint(50, 500, size=60)}
df = pd.DataFrame(data)

# Нормализация данных
df['sales_normalized'] = (df['sales'] - df['sales'].mean()) / df['sales'].std()

# Скользящие средние
df['moving_avg_3'] = df['sales'].rolling(window=3).mean()
df['moving_avg_7'] = df['sales'].rolling(window=7).mean()

# Прирост продаж
df['sales_growth'] = df['sales'].pct_change() * 100

print(df.head(10))


### Пример 3
Поиск аномалий в многомерных данных с кластеризацией
**Задача:**

Имеется многомерный массив данных. Нужно:

- Выделить аномальные точки.
- Использовать метод локтя для выбора оптимального числа кластеров.
- Построить кластеризацию с использованием KMeans.

In [None]:
import pandas as pd
import numpy as np
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score
from sklearn.preprocessing import StandardScaler

# Генерация данных
np.random.seed(42)
data = np.random.normal(size=(100, 3))  # 100 точек в 3D пространстве
data[95:] += 5  # Добавляем аномалии

df = pd.DataFrame(data, columns=['feature1', 'feature2', 'feature3'])

# Нормализация данных
scaler = StandardScaler()
data_scaled = scaler.fit_transform(df)

# Метод локтя для выбора оптимального числа кластеров
inertia = []
for k in range(1, 10):
    kmeans = KMeans(n_clusters=k, random_state=42)
    kmeans.fit(data_scaled)
    inertia.append(kmeans.inertia_)

# Выбор числа кластеров (визуализация может быть построена в Jupyter Notebook)
optimal_k = 3  # Предположим, по методу локтя это 3
kmeans = KMeans(n_clusters=optimal_k, random_state=42)
df['cluster'] = kmeans.fit_predict(data_scaled)

# Находим аномалии: точки, далекие от центров кластеров
df['distance_to_center'] = np.min(kmeans.transform(data_scaled), axis=1)
threshold = np.percentile(df['distance_to_center'], 95)
df['is_anomaly'] = df['distance_to_center'] > threshold

print("Кластеры и аномалии:\n", df.head(10))


**Краткое объяснение:**

- Пример 1: Работает с временными данными, чтобы устранить пропуски и аггрегировать информацию. Полезно для временных рядов.
- Пример 2: Позволяет готовить данные для предсказания — нормализация, скользящие средние и темпы изменений улучшают входные данные для моделей.
- Пример 3: Поиск аномалий с использованием кластеризации и выбором оптимального числа кластеров. Полезно для обработки сложных данных в многомерном пространстве.

---