# Pandas

## Устанавливаем библиотеку

Для установки библиотеки `Pandas` необходимо использовать команду:
```
pip install pandas
```

## Проверяем доступность библиотеки

In [1]:
try:
    import pandas
    print("Версия библиотеки:", pandas.__version__)
except:
    print("Библиотека Pandas недоступна.")
    print("Установите ее при помощи команды 'pip install pandas")

Версия библиотеки: 2.0.3


## Импорт библиотек

In [2]:
import pandas as pd
import numpy as np

## Pandas: Структуры данных `Series` и `DataFrame`

### Структура `Series`

Структура Series поддерживает следующие типы данных:
* словари Python;
* списки Python;
* массивы из numpy: ndarray;
* скалярные величины.

#### Создание Series из списка Python

Создадим простейший объект `Series`:

In [3]:
data = pd.Series([1, 2, 3, 4])
print(data)

0    1
1    2
2    3
3    4
dtype: int64


Создадим объект `Series`, указав собственные индексы:

In [4]:
data = pd.Series([1, 2, 3, 4], ["first", "second", "third", "fourth"])
print(data)

first     1
second    2
third     3
fourth    4
dtype: int64


#### Создание `Series` из ndarray массива из numpy

Создадим простой массив и из него создадим объект series:

In [5]:
ndarr = np.array([1, 2, 3, 4])

data = pd.Series(ndarr, ["first", "second", "third", "fourth"])
print(data)

first     1
second    2
third     3
fourth    4
dtype: int64


#### Создание `Series` из словаря (`dict`)

При создании `Series` из словаря в качестве индексов берутся ключи, а в качестве значений - значения структуры.

In [6]:
dict_ = {"first": 1, "second":2, "third": 3, "fourth": 4}

data = pd.Series(dict_)
print(data)

first     1
second    2
third     3
fourth    4
dtype: int64


#### Создание `Series` из константы

Для создания одинаковых значений, можно использовать константу.

In [7]:
var = 1

data = pd.Series(var, ["first", "second", "third", "fourth"])
print(data)

first     1
second    1
third     1
fourth    1
dtype: int64


#### Работа с элементами `Series`

Обратимся к элементам объекта по индексам и по метке:

In [8]:
data = pd.Series([1, 2, 3, 4, 3, 2, 1], ["first", "second", "third", "fourth", "not_third", "not_second", "not_first"])

# Индексация идет с 0
print("Работа с индексом:", data[2])
print("Работа с меткой:", data["third"])

Работа с индексом: 3
Работа с меткой: 3


Получим `slice` (срез) от объекта:

In [9]:
data[1:5]

second       2
third        3
fourth       4
not_third    3
dtype: int64

Получим выборку по условию:

In [10]:
data[data <= 2]

first         1
second        2
not_second    2
not_first     1
dtype: int64

Со структурами `Series` можно работать как с векторами: складывать, умножать на число и т.д. 

In [11]:
data = pd.Series([1, 2, 3, 4], ["first", "second", "third", "fourth"])
print("data+data", data+data, sep="\n")
print("data*4", data*4, sep="\n")

data+data
first     2
second    4
third     6
fourth    8
dtype: int64
data*4
first      4
second     8
third     12
fourth    16
dtype: int64


### Структура `DataFrame`

При создании структуры `DataFrame` есть одно отличие от `Series` наличием параметра `columns` - списка меток для полей (именя столбцов таблицы) 

Структуру DataFrame можно создать на базе:

* словаря (`dict`) в качестве элементов которого должны выступать: одномерные `ndarray`, списки, другие словари, структуры `Series`;
* списка словарей;
* двумерные `ndarray`;
* структуры `Series`;
* структурированные `ndarray`;
* другие `DataFrame`.

#### Создание `DataFrame` из словаря

Создадим `DataFrame` на основе `Series`:

In [12]:
dict_ = {
    "price": pd.Series([1,2,3,4], index=["first", "second", "third", "fourth"]),
    "count": pd.Series([100,45,244,2], index=["first", "second", "third", "fourth"]),
}

data = pd.DataFrame(dict_)
print(data)

        price  count
first       1    100
second      2     45
third       3    244
fourth      4      2


Создадим `DataFrame` на основе `ndarray` (вместо `ndarray` можно использовать обычный список из `Python`):

In [13]:
dict_ = {
    "price": np.array([1,2,3,4]),
    "count": np.array([100,45,244,2]),
}

data = pd.DataFrame(dict_, index=["first", "second", "third", "fourth"])
print(data)

        price  count
first       1    100
second      2     45
third       3    244
fourth      4      2


Теперь создадим столбец, в котором для каждой записи будет одна и таже информация:

In [14]:
dict_ = {
    # Создаем столбец для генерации одинаковых значений
    "course": 1,
    "ages": np.array([43,22,12]),
    "names": ["Ivan", "Dmitrii", "Vasilii"]
}

data = pd.DataFrame(dict_)
print(data)

   course  ages    names
0       1    43     Ivan
1       1    22  Dmitrii
2       1    12  Vasilii


#### Создание `DataFrame` из списка словарей

In [15]:
list_ = [
    {"id": 1, "name": "Ivan"},
    {"id": 2, "name": "Vanya"},
    {"id": 3, "name": "Stepan"}
]

data = pd.DataFrame(list_, index=["first", "second", "third"])
print(data)

        id    name
first    1    Ivan
second   2   Vanya
third    3  Stepan


#### Создание `DataFrame` из двухмерного массива

В качестве двухмерного массива используем `ndarray`:

In [16]:
array = np.array([
    [1, "Ivan"], 
    [2, "Vanya"], 
    [3, "Stepan"]
])

data = pd.DataFrame(array, columns=["id", "name"], index=["first", "second", "third"])
print(data)

       id    name
first   1    Ivan
second  2   Vanya
third   3  Stepan


#### Работа с элеметнами `DataFrame`

Основные подходы представлены в таблице ниже:

| Операция                        |   Синтаксис    | Возвращаемый результат |
| ------------------------------- | :------------: | :--------------------: |
| Выбор столбца                   |    df[col]     |         Series         |
| Выбор строки по метке           | df.loc[label]  |         Series         |
| Выбор строки по индексу         | df.iloc[index] |         Series         |
| Слайс по строкам                |    df[0:4]     |       DataFrame        |
| Выбор строк, отвечающих условию |  df[bool_vec]  |       DataFrame        |


In [17]:
list_ = [
    {"id": 1, "name": "Ivan"},
    {"id": 2, "name": "Vanya"},
    {"id": 3, "name": "Stepan"}
]

data = pd.DataFrame(list_, index=["first", "second", "third"])

print(data)

        id    name
first    1    Ivan
second   2   Vanya
third    3  Stepan


##### Выбор столбца

In [18]:
data["name"]

first       Ivan
second     Vanya
third     Stepan
Name: name, dtype: object

##### Выбор столбцов

Внешние квадратные скобки - это выбор столбцов, внутренние - список `Python` с именами столбцов 

In [19]:
data[["name", "id"]]

Unnamed: 0,name,id
first,Ivan,1
second,Vanya,2
third,Stepan,3


##### Выбор строки по метке

In [20]:
data.loc["first"]

id         1
name    Ivan
Name: first, dtype: object

##### Выбор строки по индексу

In [21]:
data.iloc[0]

id         1
name    Ivan
Name: first, dtype: object

##### Слайс по строкам

In [22]:
data[1:]

Unnamed: 0,id,name
second,2,Vanya
third,3,Stepan


##### Выбор строк, отвечающих условию

In [23]:
data[(data["name"] == "Stepan") | (data["id"] == 1)]

Unnamed: 0,id,name
first,1,Ivan
third,3,Stepan


## Pandas: Доступ к данным в структурах `pandas`

Для получения доступа к данным в структурах `Series` и `DataFrame`, можно использовать атрибуты:

In [24]:
s_data = pd.Series([1,2,3,4], ["a", "b", "c", "d"])

print("Третий элемент", s_data.c)
print("Первый элемент", s_data.a)

Третий элемент 3
Первый элемент 1


Такой же способ возможно использовать для получения столбцов из `DataFrame`:

In [25]:
list_data = [
    { "id": 1, "name": "Иван", "age": 34},
    { "id": 2, "name": "Петр", "age": 25},
    { "id": 3, "name": "Василий", "age": 56},
    { "id": 4, "name": "Дмитрий", "age": 32}
]

df_data = pd.DataFrame(list_data)
print("Возраст пользователей", df_data.age, sep="\n")
print("Именя пользователей", df_data.name, sep="\n")

Возраст пользователей
0    34
1    25
2    56
3    32
Name: age, dtype: int64
Именя пользователей
0       Иван
1       Петр
2    Василий
3    Дмитрий
Name: name, dtype: object


### Получение случайного набора из структур `pandas`

Для получения случайной выборки у структур `Series` и `DataFrame` есть функция `sample()`

#### Получение случайной выборки из `Series`

Пример для получения одной записи:

In [26]:
data = pd.Series([1, 2, 3, 4], ["first", "second", "third", "fourth"])

data.sample()

fourth    4
dtype: int64

Для получения нескольких записей можно передать параметр `n`:

In [27]:
data = pd.Series([1, 2, 3, 4], ["first", "second", "third", "fourth"])

data.sample(n=2)

second    2
third     3
dtype: int64

Для получения нескольких записей также можно использовать параметр `frac`:

In [28]:
data = pd.Series(np.linspace(0, 100, 25, dtype=int))

# Получим 20% от всех данных
# 25 * 0.2 = 5 записей должно быть получено
data.sample(frac=0.2)

11    45
16    66
8     33
6     25
22    91
dtype: int64

Также имеется возможность вектор весов, длина которого должна быть равна количеству элементов в структуре. Сумма весов должна быть равна единице, вес - вероятность появления элемента в выборке.

In [29]:
data = pd.Series(range(1,6))
# В данном случае 3 элемент будет появляется чаще всего
weights = [0.1, 0.05, 0.6, 0.05, 0.1]

data.sample(n=2, weights=weights)

2    3
4    5
dtype: int64

#### Получение случайной выборки из `DataFrame`

Создадим `DataFrame`:

In [30]:
dict_ = {
    "id": np.arange(1, 10+1),
    "age": np.random.randint(20, 40, [10]),
    "total_bill": np.random.randint(500, 5000, 10),
}

data = pd.DataFrame(dict_)

Получим выборку-пример:

In [31]:
data.sample()

Unnamed: 0,id,age,total_bill
6,7,22,2892


Получим выборку из нескольких элементов:

In [32]:
data.sample(n=3)

Unnamed: 0,id,age,total_bill
3,4,31,3267
0,1,24,3399
9,10,22,2457


Можно указать ось и получить выборку по колонке, а не по строке:

In [33]:
data.sample(axis=1)

Unnamed: 0,id
0,1
1,2
2,3
3,4
4,5
5,6
6,7
7,8
8,9
9,10


Можно получить выборку по нескольким колонкам:

In [34]:
data.sample(n=2, axis=1)

Unnamed: 0,id,total_bill
0,1,3399
1,2,4536
2,3,2102
3,4,3267
4,5,3554
5,6,1066
6,7,2892
7,8,4232
8,9,4250
9,10,2457


### Добавление элементов в структуры

Добавить новый элемент в структуру `Series` можно при помощи указания нужного индекса или метки:

In [35]:
data = pd.Series([10,20,30,40])

data[4] = 5
print("Полученный результат после добавления:", data, sep="\n")

Полученный результат после добавления:
0    10
1    20
2    30
3    40
4     5
dtype: int64


Аналогично можно добавить новый столбец в `DataFrame`:

In [36]:
dict_ = {
    "id": np.arange(1, 10+1),
    "number": np.random.randint(1,2000, 10)
}

data = pd.DataFrame(dict_)
data["number2"] = np.random.randint(10000, 20000, 10)
print("Полученный результат после добавления:", data, sep="\m")

Полученный результат после добавления:\m   id  number  number2
0   1    1718    14661
1   2     451    13523
2   3     625    11258
3   4     243    17501
4   5     594    15023
5   6     260    17653
6   7     194    15416
7   8     261    10360
8   9     665    10095
9  10    1992    12838


### Использование `isin` для работы с данными в `pandas`

По структурам данных `pandas` можно строить массивы с даными типа `boolean`, по которым можно проверить наличие того или иного элемента.

`isin` для `Series`:

In [37]:
data = pd.Series([1,2,3,4])
data.isin([3,2])

0    False
1     True
2     True
3    False
dtype: bool

In [38]:
dict_ = {
    "id": np.arange(1, 5+1),
    "number": np.random.randint(1,20, 5),
    "number2": np.random.randint(20, 40, 5),
}

data = pd.DataFrame(dict_)
print("Исходные данные:", data, sep="\n")
print("Проверка на соответствие:", data.isin([1,3,5,6,7,8,9,20,33,23,27]), sep="\n")

Исходные данные:
   id  number  number2
0   1      19       34
1   2       9       20
2   3      14       29
3   4       2       28
4   5      16       22
Проверка на соответствие:
      id  number  number2
0   True   False    False
1  False    True     True
2   True   False    False
3  False   False    False
4   True   False    False


## Pandas: Работа с пропусками в данных

### Считывание данных в структуру `DataFrame`

Для считывания данных из данных типа `string` можно воспользоваться `StringIO`:

In [39]:
from io import StringIO

data = 'id, price, count\n1,10,\n2,20,51\n3,30,'

df = pd.read_csv(StringIO(data), header=0)
print(df)

   id   price   count
0   1      10     NaN
1   2      20    51.0
2   3      30     NaN


Также можно указать путь к файлу:

In [40]:
df = pd.read_csv("data/missing_data.csv", index_col= 0)

print(df.price)

id
1    10.0
2     NaN
3     4.0
4     NaN
5    26.0
6     NaN
7     NaN
8    22.0
Name: price, dtype: float64


### Выявление пропущенных данных

Для выявления пропущенных данных в небольшой таблице можно использовать метод `isnull`. В результате будет получена таблица и если в ячейки указано `True`, то там пропущенные данные.

In [41]:
df.isnull()

Unnamed: 0_level_0,price,count
id,Unnamed: 1_level_1,Unnamed: 2_level_1
1,False,False
2,True,False
3,False,True
4,True,False
5,False,True
6,True,False
7,True,True
8,False,False


Также можно посмотреть подробную информацию об объекте вызвав метод `info`

In [42]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 8 entries, 1 to 8
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   price   4 non-null      float64
 1   count   5 non-null      float64
dtypes: float64(2)
memory usage: 192.0 bytes


Для получения количества пропущенных данных по столбцам можно к методу `isnull` применить метод `sum`:

In [43]:
df.isnull().sum()

price    4
count    3
dtype: int64

### Замена отсутствующих данных

Для замены отсутствующих даных можно использовать метод `fillna`:

In [44]:
df = pd.read_csv("data/missing_data.csv")

df.fillna(404)

Unnamed: 0,id,price,count
0,1,10.0,200.0
1,2,404.0,40.0
2,3,4.0,404.0
3,4,404.0,5.0
4,5,26.0,404.0
5,6,404.0,45.0
6,7,404.0,404.0
7,8,22.0,43.0


Для замены отсутствующих данных на среднее значение по столбцу можно использовать в качестве аргумента результат вызова метода `df.mean` от структуры данных:

In [45]:
df = pd.read_csv("data/missing_data.csv")

df.fillna(df.mean())

Unnamed: 0,id,price,count
0,1,10.0,200.0
1,2,15.5,40.0
2,3,4.0,66.6
3,4,15.5,5.0
4,5,26.0,66.6
5,6,15.5,45.0
6,7,15.5,66.6
7,8,22.0,43.0


### Удаление объектов/столбцов с отсутствующими данными

Для удаления всех записей, у которых пропущена часть данных, можно использовать метод `dropna` без аргументов:

In [46]:
df = pd.read_csv("data/missing_data.csv")

df.dropna()

Unnamed: 0,id,price,count
0,1,10.0,200.0
7,8,22.0,43.0


Вместо записей можно удалить столбец, передав методу `dropna` аргумент `axis` равный `1`. Если передать число `0`, то результат будет идентичен прошлому, когда метод вызывался без аргументов:

In [47]:
df = pd.read_csv("data/missing_data.csv")

df.dropna(axis=1)

Unnamed: 0,id
0,1
1,2
2,3
3,4
4,5
5,6
6,7
7,8


Можно также удалить не все столбцы, а только те, в которых количество **не пустых** ячеек будет меньше числа, определенного параметром `thresh`:

In [48]:
df = pd.read_csv("data/missing_data.csv")

df = df.dropna(axis=1, thresh=5)
df

Unnamed: 0,id,count
0,1,200.0
1,2,40.0
2,3,
3,4,5.0
4,5,
5,6,45.0
6,7,
7,8,43.0


Сохраним последний полученный результат в файл формата `csv`:

In [49]:
df.to_csv("data/after_clearing_missing_data.csv", encoding="utf-8")