# Основы Pandas

## Содержание

### [Что такое Pandas?](#title_1)
### [Устанока pandas](#title_2)
### [Устанока pandas](#title_2)
### [Структура данных Series](#title_3)
### [Структура данных DataFrame](#title_4)
### [Работа с элементами DataFrame](#title_5)
### [Получение случайного набора из структур pandas](#title_6)
### [Отсутствующие данные *Nan*](#title_7)

---

## <a id='title_1'>Что такое Pandas?</a>

Pandas – это библиотека, которая предоставляет очень удобные с точки зрения использования инструменты для хранения данных и работе с ними. Если вы занимаетесь анализом данных или машинным обучением и при этом используете язык Python, то вы просто обязаны знать и уметь работать с pandas.

## <a id='title_2'>Установка pandas</a>

### PIP
`pip install pandas`

### Linux
`sudo apt-get install python-pandas`

### Проверка

```
import pandas as pd
pd.test()
-------------------------------
Running unit tests for pandas pandas version 0.18.1 numpy version 1.11.1 pandas is installed in c:\Anaconda3\lib\site-packages\pandas Python version 3.5.2 |Anaconda 4.1.1 (64-bit)| (default, Nov 12 2023, 11:41:13) [MSC v.1900 64 bit (AMD64)] nose version 1.3.7 .......... ---------------------------------------------------------------------- Ran 11 tests in 0.422s OK

```



In [None]:
import pandas as pd
pd.test()
# Здесь просто пример, запускать не советую

## <a id='title_3'>Структура данных Series</a>

- *data* – массив, словарь или скалярное значение, на базе которого будет построен Series;
- *index* – список меток, который будет использоваться для доступа к элементам Series. Длина списка должна быть равна длине data;
- *dtype* – объект numpy.dtype, определяющий тип данных;
- *copy* – создает копию массива данных, если параметр равен True в ином случае ничего не делает.


## Создание Series из списка Python

In [2]:
# Make all imports

import os
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

In [None]:
s1 = pd.Series([1, 2, 3, 4, 5])
print(f"s1 is\n{s1}")

s2 = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'])
print(f"s2 is\n{s2}")


## Создание Series из ndarray массива из numpy

In [None]:
ndarr = np.array([1, 2, 3, 4, 5])
type(ndarr)


In [None]:
s3 = pd.Series(ndarr, index=['a', 'b', 'c', 'd', 'e'])
print(f"s3 is\n{s3}")


## Создание Series из словаря (dict)

In [None]:
d = {'a': 5, 'b': 3,'c': 2,'d': 4,'e': 1}
s4 = pd.Series(d)
print(f"s4 is\n{s4}")

## Работа с элементами Series

In [None]:
s5 = pd.Series([10, 20, 30, 40, 50], index=['a', 'b', 'c', 'd', 'e'])
print(s2 + s5)

In [None]:
print(s5 * 3)

## <a id='title_4'>Структура данных DataFrame</a>

`class pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)`

- *data* – массив *ndarray*, словарь (*dict*) или другой *DataFrame*;
- *index* – список меток для записей (имена строк таблицы);
- *columns* – список меток для полей (имена столбцов таблицы);
- *dtype* – объект *numpy.dtype*, определяющий тип данных;
- *copy* – создает копию массива данных, если параметр равен True в ином случае ничего не делает.


## Создание DataFrame из словаря

In [None]:
d = {"price":pd.Series([1, 2, 3], index=['v1', 'v2', 'v3']),
     "count":pd.Series([10, 12, 53], index=['v1', 'v2', 'v3'])}
df_1 = pd.DataFrame(d)
print(f"df_1 is\n{df_1}")

In [None]:
print(f"Indexes is\n{df_1.index}")
print(f"Columns is\n{df_1.columns}")

В коде `pd.Series` можно заменить на `np.array` и ничего не поменяется. 

## Создание DataFrame из списка словарей

In [None]:
d = [{"price": 3, "count": 8}, {"price": 1, "count": 9}]
df_2 = pd.DataFrame(d)
print(f"df_2 is\n{df_2}")

In [None]:
print(df_2.info())

## Создание DataFrame из двумерного массива

In [None]:
nda = np.array([[1, 2, 3], [10, 20, 30]])
df_3 = pd.DataFrame(nda)
print(f"df_3 is\n{df_3}")

Как можно заметить, названия колонок заменились на индексы.

## <a id='title_5'>Работа с элементами DataFrame</a>

|Операция|Синтаксис|Возвращаемый результат|
|:----|:---|:----|
|Выбор столбца|`df[col]`|*Series*|
|Выбор строки по метке|`df.loc[label]`|*Series*|
|Выбор строки по индексу|`df.iloc[loc]`|*Series*|
|Слайс по строкам|`df[0:5]`|*DataFrame*|
|Выборк строк. отвечающих условию|`df[bool_exp]`|*DataFrame*|

In [None]:
d = {"price":pd.Series([33, 23, 12, 12, 43, 76, 21], index=['v1', 'v2', 'v3', 'v4', 'v5', 'v6', 'v7']),
     "count":pd.Series([10, 12, 53, 34, 12, 83, 18], index=['v1', 'v2', 'v3', 'v4', 'v5', 'v6', 'v7']),
     "names":pd.Series(['cats', 'dogs', 'cows', 'crocodiles', 'ravens', 'sturgeons', 'rats'], index=['v1', 'v2', 'v3', 'v4', 'v5', 'v6', 'v7'])}
df = pd.DataFrame(d)
print(f"{df}")

In [None]:
# Выбор столбца
col = df['count']
print(col)

In [None]:
print(df.loc['v2'])

In [None]:
print(df.iloc[1])

In [None]:
exp = df['count'] >=20
new_df = df[exp] 
# Можно писать сразу:
# new_df = df[df['count'] >=20]
print(new_df)

In [None]:
print(df[["price", "count"]])
print("====================")
print(df[lambda x: x['count'] > 15]) # Обращение через callable функцию

In [None]:
print(df[df['names'] == 'rats'])
print("====================")
print(df.names) # Обращение через атрибуты объекта класса

## <a id='title_6'>Получение случайного набора из структур pandas</a>

In [None]:
print(df.sample()) # Один
print("====================")
print(df.sample(3)) # Можно указать несколько
print("====================")
print(df.sample(frac=0.33)) # Можно указать несколько 33% от общего числа

### Переключатель между строками и столбцами 

In [None]:
print(df.sample(2)) # Без этого аргумента считается, что axis=0 - кол-во строк
print("====================")
print(df.sample(n=2, axis=1)) # кол-во столбцов

### Добавление элементов в структуры

In [None]:
df['type'] = ['Mammal', 'Mammal', 'Mammal', 'Reptile', 'Bird', 'Fish', 'Mammal']
print(df)

In [None]:
fn = df['type'].map(lambda x: x == 'Fish')
print(fn)
print("====================")
print(df[fn])

### Проверка на нахождение

In [None]:
print(df.isin(['Reptile', 'Bird']))

## <a id='title_7'>Отсутствующие данные *Nan*</a>

Создадим датафрейм еще раз, включив на этот раз некоторые отсутствующие данные:

In [None]:
d = {"price":pd.Series([33, 23, 12, 12, 43, 76, 21]),
     "count":pd.Series([10, 12, 53, 34, 12, 83, 18]),
     "names":pd.Series(['cats', 'dogs', 'cows', 'crocodiles', 'ravens', 'sturgeons', 'rats']),
     "type" : np.array(['Mammal', 'Mammal', 'Mammal', 'Reptile', 'Bird', 'Fish', 'Mammal'])}
new_indexes = ['a'+str(i) for i in range (1, len(df) + 1)]

df = pd.DataFrame(d)
df['id'] = new_indexes
df = df.set_index('id')

df['owner'] = ['Max', 'Alex', None, None, 'Maria', 'Daria', None]
df['animal_old'] = [2, None, 2, 4, None, 1, 3]
df['owner_old'] = [34, None, None, None, 18, None, None]
print(df)


In [None]:
print(pd.isnull(df)) # True там, где есть None или Nan
print(~pd.isnull(df)) # False там, где есть None или Nan

Посмотрим, сколько пропущенных значений в каждом столбце:

In [None]:
print(df.isnull().sum())

Заместим все пропущенные данные:
- `fillna(arg)` - тем, что будет вместо *arg*;
- `fillna(df.mean())` - например, среднему значению по всему массиву.

In [None]:
print(df.fillna(0))
print("======================================================================")
# А если надо залить разными вещами?
df['owner'] = df['owner'].fillna('--')
df = df.fillna(0)
print(df)


Попробуем залить столбец *owner_old* средним значением только по этому столбцу:

In [None]:
d = {"price":pd.Series([33, 23, 12, 12, 43, 76, 21]),
     "count":pd.Series([10, 12, 53, 34, 12, 83, 18]),
     "names":pd.Series(['cats', 'dogs', 'cows', 'crocodiles', 'ravens', 'sturgeons', 'rats']),
     "type" : np.array(['Mammal', 'Mammal', 'Mammal', 'Reptile', 'Bird', 'Fish', 'Mammal'])}
new_indexes = ['a'+str(i) for i in range (1, len(df) + 1)]

df = pd.DataFrame(d)
df['id'] = new_indexes
df = df.set_index('id')

df['owner'] = ['Max', 'Alex', None, None, 'Maria', 'Daria', None]
df['animal_old'] = [2, None, 2, 4, None, 1, 3]
df['owner_old'] = [34, None, None, None, 18, None, None]

# Заливаем 

df['owner_old'] = df['owner_old'].fillna(df['owner_old'].mean())
print(df)

Попробуем просто удалить строки, в которых пропущены данные:

In [None]:
df_dr = df.dropna()
print(df_dr)

А теперь применим это к столбцам:

In [None]:
df_dr_col = df.dropna(axis=1)
print(df_dr_col)