# Pandas

Данная тетрадка (notebook) содержит введение в Pandas -- библиотеку структур данных и инструментов для анализа данных. В основном мы будем будем использовать структуру данных, которая называется DataFrame \[произносится: дейта фрейм\]. Документация (на английском языке) доступна на https://pandas.pydata.org/

## Начинаем работу с Pandas

Начнем с загрузки библиотеки `pandas` (под псевдонимом `pd`). Псевдоним `pd` стандартный для `pandas`, лучше придерживаться этого стандарта, чтобы облегчить чтение кода для других. Псевдонимы не обязательны, но полезны: среди прочего, они позволяют сделать код более компактным.

In [2]:
# импортируем библиотеку
import pandas as pd

Загружаем датасет (dataset -- набор данных) `data/airfoil.csv` используя функцию [`pd.read_csv()`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html); загруженному DataFrame-у дадим имя `df`.

In [3]:
# загружаем датафрейм, используем функцию "head", чтобы взглянуть на данные
df = pd.read_csv("data/airfoil.csv")

Функция `read_csv()` умеет обрабатывать файлы в формате CSV с данными в разных формах
(см. например `help(pd.read_csv)`).
Мы познакомимся с этими возможностями более детально в модуле 2.
А сейчас мы работаем с хорошо форматированными данным, которые не создают проблем для Pandas.

`df` это объект класса `DataFrame`. DataFrame имеет много методов и атрибутов, которые облегчают работу с данными. Мы воспользуемся методом `.head()`, чтобы вывести первые несколько (по умолчанию 5) строк таблицы, которая содержится в объекте `df`. Чтобы получить больше информации: `help(pd.DataFrame.head)` или `help(df.head)`

In [4]:
# вызываем метод .head() метода df
df.head()

Unnamed: 0,Frequency [Hz],Angle [deg],Chord length [m],FS velocity [m/s],SSD thickness [m],Sound pressure [dB]
0,800,0.0,0.3048,71.3,0.002663,126.201
1,1000,0.0,0.3048,71.3,0.002663,125.201
2,1250,0.0,0.3048,71.3,0.002663,125.951
3,1600,0.0,0.3048,71.3,0.002663,127.591
4,2000,0.0,0.3048,71.3,0.002663,127.461


Давайте загрузим другой датасет в другой датафрейм, который назовем `smalldf`. Будем использовать данные из файла `data/smalldata.csv`.

Но сначала давайте посмотрим на данные. В командной строке операцинной системы семейства Unix это можно сделать при помощи следующей команды: `cat data/smalldata.csv`. Чтобы выполнить эту команду в тетрадке Jupyter, надо перед командой вставить восклицательный знак:

In [5]:
# Эта команда выполнится внутри тетрадки, для этого мы используем ! перед командой.
!cat data/smalldata.csv

"cat" ­Ґ пў«пҐвбп ў­гваҐ­­Ґ© Ё«Ё ў­Ґи­Ґ©
Є®¬ ­¤®©, ЁбЇ®«­пҐ¬®© Їа®Ја ¬¬®© Ё«Ё Ї ЄҐв­л¬ д ©«®¬.


Посмотрим, что произойдет, если мы применим в этому файлу команду `pd.read_csv()`

In [6]:
# просто прочитаем файл (не сохраняя датафрейм в переменную), данные просто будут распечатаны
pd.read_csv('data/smalldata.csv')

Unnamed: 0,F1,F2,F3,ID
0,15,70,M,Bob
1,18,50,F,Alice
2,15,55,F,Maria
3,12,85,M,John
4,14,68,M,Kevin
5,20,110,M,Donald


Датафреймы имеют именованные столбцы (колонки) и индекс. Зачитаем CSV файл в переменную `smalldf` и сделаем  следующее (документация и гугл в помощь!):
* назовем столбцы `['Age', 'Weight', 'Gender', 'Name']`
* зададим в качестве индекса столбец с именами

Отобразим `smalldf` в тетрадке и убедимся, что таблица отвечает заданным требованиям.

In [7]:
# код для загрузки датафрейма и его преобразования
smalldf = pd.read_csv("data/smalldata.csv",
                      names=['Age', 'Weight', 'Gender', 'Name'],
                      index_col='Name', 
                      skiprows=1)
smalldf

Unnamed: 0_level_0,Age,Weight,Gender
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Bob,15,70,M
Alice,18,50,F
Maria,15,55,F
John,12,85,M
Kevin,14,68,M
Donald,20,110,M


### Получение основной информации о датафрейме

Мы можем узнать, что "знает и умеет" объект датафрейм, набрав `df.` и нажав клавишу табуляции. В результате мы увидим список методов и атрибутов объекта.

Примеры полезных атрибутов:

* `shape` содержит размеры датафрейма
* `columns` содержит названия столбцов
* `index` содержит названия строк, по умолчанию pandas использует целые числа в диапазоне от 0 до значения количества строк минус 1
* `dtypes` хранит `dtype` (тип данных) всех столбцов

Распечатаем значения всех перечисленных атрибутов и проверим, совпадают ли они с тем, что мы увидели раньше при помощи метода `head`.

Кроме того, можно воспользоваться методом `df.describe()` и получить "описание" данных по столбцам, плюс разные стандартные статистики, как то минимальное, максимальное и среднее значения, отклонение и т.д.

In [8]:
# распечатаем значения некоторых атрибутов датафрейма в переменной df
print(">> Shape attr:\n{}".format(df.shape))
print("\n>> Columns:\n{}".format(df.columns))
print("\n>> Index:\n{}".format(df.index))
print("\n>> Dtypes:\n{}".format(df.dtypes))

>> Shape attr:
(1503, 6)

>> Columns:
Index(['Frequency [Hz]', 'Angle [deg]', 'Chord length [m]',
       'FS velocity [m/s]', 'SSD thickness [m]', 'Sound pressure [dB]'],
      dtype='object')

>> Index:
RangeIndex(start=0, stop=1503, step=1)

>> Dtypes:
Frequency [Hz]           int64
Angle [deg]            float64
Chord length [m]       float64
FS velocity [m/s]      float64
SSD thickness [m]      float64
Sound pressure [dB]    float64
dtype: object


In [9]:
# воспользуемся методом `df.describe()`
df.describe()

Unnamed: 0,Frequency [Hz],Angle [deg],Chord length [m],FS velocity [m/s],SSD thickness [m],Sound pressure [dB]
count,1503.0,1503.0,1503.0,1503.0,1503.0,1503.0
mean,2886.380572,6.782302,0.136548,50.860745,0.01114,124.835943
std,3152.573137,5.918128,0.093541,15.572784,0.01315,6.898657
min,200.0,0.0,0.0254,31.7,0.000401,103.38
25%,800.0,2.0,0.0508,39.6,0.002535,120.191
50%,1600.0,5.4,0.1016,39.6,0.004957,125.721
75%,4000.0,9.9,0.2286,71.3,0.015576,129.9955
max,20000.0,22.2,0.3048,71.3,0.058411,140.987


## Получение доступа к элементам в датафрейме


Давайте прочитам значение, находящееся в первом столбце (`Age`) третьей строки (`Maria`) датафрейма `smalldf`.
Это можно сделать разными способами, в зависимости от ситуации тот или иной способ окажется более удобным:

1. при помощи `iloc`
1. при помощи `loc`
1. каждый столбец объекта класса `DataFrame` является объектом класса `Series`, поэтому сначала можно извлечь объект Series, а потом достать из него необходимый элемент

Давайте попробуем все из указанных способов.

**Note**: индексирование (нумерация) в Питоне начинается с нуля.

In [10]:
# место для кода
print("1. {}".format(smalldf.iloc[2, 0]))
print("2. {}".format(smalldf.loc['Maria', 'Age']))
print("3. {}".format(smalldf['Age'][2]))

1. 15
2. 15
3. 15


### Выбор элемента/ов при помощи loc

Используя метод `.loc`, давайте по приколу извлечем из датафрейма `df` его часть (под-датафрейм), в котором будут только те столбцы, названия которых содержать более 15 символов. Назовем получившийся датафрейм `df2`.

In [11]:
# место для кода
df.columns

Index(['Frequency [Hz]', 'Angle [deg]', 'Chord length [m]',
       'FS velocity [m/s]', 'SSD thickness [m]', 'Sound pressure [dB]'],
      dtype='object')

In [12]:
[e for e in df.columns if len(e)>15]

['Chord length [m]',
 'FS velocity [m/s]',
 'SSD thickness [m]',
 'Sound pressure [dB]']

In [13]:
df2 = df.loc[:, [e for e in df.columns if len(e)>15]]
df2.head()

Unnamed: 0,Chord length [m],FS velocity [m/s],SSD thickness [m],Sound pressure [dB]
0,0.3048,71.3,0.002663,126.201
1,0.3048,71.3,0.002663,125.201
2,0.3048,71.3,0.002663,125.951
3,0.3048,71.3,0.002663,127.591
4,0.3048,71.3,0.002663,127.461


Используя метод `to_csv`, сохраним датафрейм `df2` в файл `airfoil_2.dat`, но будем использовать в качестве разделителя полей не запятую (значение по умолчанию), а табуляцию. Проверить результат можно открыв получившийся файл в каком-нибудь текстовом редакторе.

In [14]:
df2.to_csv("airfoil_2.dat", sep='\t')

### Работа с объектом pd.Series

Из датафрейма df извлечем объект Series, соотвутствующий столбцу "звуковое давление" (sound pressure) и распечатаем

* его имя (должно быть `Sound pressure [dB]`)
* размер (shape) объекта (должен быть равен `(1503,)`) 
* среднее и медианное значения (должны быть равны `124.84` и `125.72` соответственно)
* среднеквадратичное значение (должно быть равно `15631.57`)
* какие-нибудь другие атрибуты и методы, о которых можно почитать в [документаци](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.html)



In [15]:
# место для кода
sp = df['Sound pressure [dB]']
print("Name: {}".format(sp.name))
print("Shape: {}".format(sp.shape))
print("Mean: {0:.2f}, Median: {1:.2f}".format(sp.mean(), sp.median()))
print("Mean of sq. vals: {0:.2f}".format((sp**2).mean()))

Name: Sound pressure [dB]
Shape: (1503,)
Mean: 124.84, Median: 125.72
Mean of sq. vals: 15631.57


### Получение "сырых" значений

Иногда бывает необходимо получить элементы объекта класса DataFrame или Series в виде "сырого" массива numpy. Для этого существует атрибут `.values`.

Например, давайте извлечем "сырой" массив, содержащий

* все значения звукового давления (sound pressure)
* все значения частот (frequency) и звукового давления (обратим внимание на типы возвращаемых данных!)

In [16]:
# место для кода
print(df['Sound pressure [dB]'].values)

print(df[['Frequency [Hz]', 'Sound pressure [dB]']].values)

[126.201 125.201 125.951 ... 106.604 106.224 104.204]
[[ 800.     126.201]
 [1000.     125.201]
 [1250.     125.951]
 ...
 [4000.     106.604]
 [5000.     106.224]
 [6300.     104.204]]


### \* (Бонус) Объединение датафреймов

Как объединить датафрейм `smalldf` со следующими данными (т.е., добавить два столбца)

```
{'Salary': [100, 150, 110, 90, 105, 500], 'Education': [5, 10, 7, 3, 4, 0]}
```

См. документацию по методу [.join](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.join.html)

In [17]:
# место для кода
smalldf

Unnamed: 0_level_0,Age,Weight,Gender
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Bob,15,70,M
Alice,18,50,F
Maria,15,55,F
John,12,85,M
Kevin,14,68,M
Donald,20,110,M


In [18]:
otherdf = pd.DataFrame({'Salary': [100, 150, 110, 90, 105, 500], 
                        'Education': [5, 10, 7, 3, 4, 0]}, 
                        index=smalldf.index)

completedf = smalldf.join(otherdf)
completedf.head()

Unnamed: 0_level_0,Age,Weight,Gender,Salary,Education
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Bob,15,70,M,100,5
Alice,18,50,F,150,10
Maria,15,55,F,110,7
John,12,85,M,90,3
Kevin,14,68,M,105,4
