# Получение и предобработка данных. Первичная работа с объектом DataFrame

Этот ноутбук содержит примеры кода для предобработки данных в Python и первичной работе с объектом `DataFrame`.

К основным частям кода мы прописали текстовые пояснения, если же они покажутся недостаточными, пожалуйста, обратитесь к материалам лекции в LMS.

## Предобработка данных с использованием библиотеки `Pandas`

Импорт библиотеки `Pandas` и чтение данных из файла. Чтобы не писать имя библиотеки полностью, мы сократили ее название как `pd`.

**Важно!** Прежде чем выполнять код, загрузите файл `train.csv`.

In [None]:
import pandas as pd

In [None]:
df = pd.read_csv('train.csv')

Выводим первые 5 строк

In [None]:
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


Получаем информацию о данных.

In [None]:
df. info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


Определяем, есть ли в данных пропущенные значения

In [None]:
df.isnull().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

Заменяем пропуски в данных на средние значения.

In [None]:
df["Age"].fillna(df["Age"].mean(), inplace = True)

Снова смотрим, есть ли в данных пропущенные значения.

In [None]:
df.isnull().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age              0
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

Проверяем, содержатся ли в данных строки-дубликаты.

In [None]:
df.duplicated()

0      False
1      False
2      False
3      False
4      False
       ...  
886    False
887    False
888    False
889    False
890    False
Length: 891, dtype: bool

## Первичная работа с `DataFrame`

В Pandas есть два главных типа данных — `DataFrame` и `Series`. Тип данных `Series` — достаточно простой. Как правило, он передается с помощью списка, состоящего из последовательности каких-то символов.

Создадим `DataFrame`, используя функцию `pd.DataFrame`:

In [None]:
pd.DataFrame({'Column 1': ['Black', 50], \
          	'Column 2': [155, ['orange','apple']]})
df

Unnamed: 0,Column 1,Column 2
0,Black,155
1,50,"[orange, apple]"


### Атрибуты датафрейма

In [None]:
df = pd.read_csv('fruits.csv')

Число измерений датафрейма:

In [None]:
df.ndim

2

Размерность датафрейма:

In [None]:
df.shape

(11, 6)

Число ячеек:

In [None]:
df.size

66

Информация о названии колонок:

In [None]:
df.columns

Index(['fruit', 'shop', 'pl', 'Q', 'P', 'total'], dtype='object')

Информация о названии осей:

In [None]:
df.axes

[RangeIndex(start=0, stop=11, step=1),
 Index(['fruit', 'shop', 'pl', 'Q', 'P', 'total'], dtype='object')]

Типы данных для каждой из колонок:

In [None]:
df.dtypes

fruit    object
shop     object
pl       object
Q         int64
P         int64
total     int64
dtype: object

### Первичное исследование датафрейма

Для первичного исследования датафрейма будут полезны три функции:
*   `head(n)` — вывод первых *n* строк датафрейма;
*   `tail(n)` — вывод последних *n* строк датафрейма;
*   `describe()` — вывод описательных статистик (только для колонок типа `float` и `int`).


In [None]:
df.head()

Unnamed: 0,fruit,shop,pl,Q,P,total
0,lemons,Shop A,online,1,5,5
1,lemons,Shop A,online,2,4,8
2,lemons,Shop A,offline,2,5,10
3,lemons,Shop B,online,3,5,15
4,apples,Shop A,online,3,6,18


In [None]:
df.tail()

Unnamed: 0,fruit,shop,pl,Q,P,total
6,apples,Shop A,offline,5,8,40
7,apples,Shop B,online,6,9,54
8,apples,Shop B,offline,7,9,63
9,apples,Shop B,offline,4,3,12
10,apples,Shop A,offline,4,3,12


In [None]:
df.describe()

Unnamed: 0,Q,P,total
count,11.0,11.0,11.0
mean,3.727273,5.727273,23.727273
std,1.793929,2.148996,19.733681
min,1.0,3.0,5.0
25%,2.5,4.5,11.0
50%,4.0,5.0,15.0
75%,4.5,7.0,32.0
max,7.0,9.0,63.0


### Индексирование

Чтобы сослаться на конкретную ячейку, нужно сначала сослаться на название колонки, а потом — на индекс строки:
*   `df.column_name[index]`;
*   `df['column_name'][index]`.

Первый способ:

In [None]:
df.total[0]

5

Второй способ:

In [None]:
df['total'][0]

5

Пример ссылки на несколько ячеек:

In [None]:
df['total'][0:2]

0    5
1    8
Name: total, dtype: int64

Два основных способа осуществления срезов:
*   по индексу: `iloc[start:stop:step, start:stop:step]`
*   по лейблу: `loc[start:stop:step, [column_names]]`


Вывод элементов первой строки первого столбца.

Первый способ:

In [None]:
df.iloc[0,0]

'lemons'

Второй способ:

In [None]:
df.loc[0,'fruit']

'lemons'

Вывод первых двух строк первых двух столбцов:

In [None]:
df.iloc[0:2,0:2]

Unnamed: 0,fruit,shop
0,lemons,Shop A
1,lemons,Shop A


Пример использования метода `loc`:

In [None]:
df.loc[0:2,['fruit', 'shop']]


Unnamed: 0,fruit,shop
0,lemons,Shop A
1,lemons,Shop A
2,lemons,Shop A


### Срез по условию

Схема осуществления среза по условию:
`df.loc[condition_2 &/| condition_2 &/|…&/| condition_3]`.


Нужно выбрать транзакции с лимонами на общую стоимость более 8 у. е.:

In [None]:
df.loc[(df.total > 8) & (df.fruit == 'lemons')]

Unnamed: 0,fruit,shop,pl,Q,P,total
2,lemons,Shop A,offline,2,5,10
3,lemons,Shop B,online,3,5,15


## Введение в агрегирование и сводные таблицы

**Агрегирование** — обобщение вложенных структур данных.

Агрегирование можно осуществить с помощью метода `groupby()`.
Общая схема может выглядеть так:
`groupby('grouping_variable')['aggregation_variable'].method_aggregation()`

В показанной схеме:
*   `grouping_variable` — переменная группировки;
*   `aggregation_variable` — переменная агрегирования;
*    `method_aggregation()` — метод агрегирования.

Задача — узнать среднюю стоимость покупок фруктов для каждого магазина:

In [None]:
df.groupby('shop')['total'].mean().reset_index()

Unnamed: 0,shop,total
0,Shop A,16.714286
1,Shop B,36.0


Сводные таблицы удобно реализовывать с помощью метода `pivot_table()`.

Задача — получить сумму стоимостей покупок для каждого вида товара в каждом магазине с разбиениями по платформе:

In [None]:
import numpy as np

pd.pivot_table(df, \
    	values='total', \
    	index=['fruit', 'shop'],\
    	columns=['pl'], \
    	aggfunc=np.sum)

Unnamed: 0_level_0,pl,offline,online
fruit,shop,Unnamed: 2_level_1,Unnamed: 3_level_1
apples,Shop A,76.0,18.0
apples,Shop B,75.0,54.0
lemons,Shop A,10.0,13.0
lemons,Shop B,,15.0


**Методы агрегирования:**
*   `count()` — общее число наблюдений
*   `first()`, `last()` — первое и последнее наблюдения
*   `mean()`, `median()` — среднее и медиана
*   `min()`, `max()` — минимум и максимум
*  `std()`, `var()` — стандартное отклонение и дисперсия
*  `mad()` — среднее абсолютное отклонение деление
*  `prod()` — произведение всех наблюдений
*  `sum()` — сумма всех наблюдений

