<p style="align: center;">
    <img align=center src="../img/dls_logo.jpg" width=500 height=500>
</p>

<h1 style="text-align: center;">
    <b>Физтех-Школа Прикладной математики и информатики (ФПМИ) МФТИ</b>
</h1>

---

<h1 style="text-align: center;">
    Библиотека pandas
</h1>

Библиотека [**pandas**](https://pandas.pydata.org/) активно используется в современном data science для работы с данными, которые могут быть представлены в виде таблиц (а это очень, очень большая часть данных).

`pandas` есть в пакете `Anaconda`, но если вдруг у вас её по каким-то причинам нет, то можно установить, раскомментировав следующую команду:

In [None]:
# !pip install numpy pandas

In [None]:
import numpy as np
import pandas as pd

## `pd.Series`

Одномерный набор данных. Похож на `np.ndarray`, но с более расширенным функционалом.

In [None]:
np.random.seed(42)

In [None]:
np_array = np.random.randint(low=-15, high=20, size=4)
np_array

In [None]:
# pd.Series можно сделать из массива
pd_series_1 = pd.Series(np_array)
pd_series_1

In [None]:
# также можно аннотировать индексы, чтобы потом было удобнее обращаться к элементам
pd_series_2 = pd.Series(np_array, index=['1st day', '2nd day', '3rd day', '4th day'])
pd_series_2

In [None]:
pd_series_2['4th day']

In [None]:
# а ещё можно дать pd.Series имя, чтобы было совсем красиво
pd_series_3 = pd.Series(np_array, index=['1st day', '2nd day', '3rd day', '4th day'], name='Temperature')
pd_series_3

In [None]:
# с индексами можно работать так же, как и в случае с обычным list
print(pd_series_3[0])
print('-' * 5)
print(pd_series_3[1:3])
print('-' * 5)
print(pd_series_3[::-1])

`pd.Series` можно отсортировать как по значениям, так и по индексу:

In [None]:
pd_series_3.sort_index()

In [None]:
pd_series_3.sort_values()

С `pd.Series` можно работать как с `np.ndarray`:

In [None]:
pd_series_3 + 100

In [None]:
np.exp(pd_series_3)

In [None]:
term_1 = pd.Series(np.random.randint(0, 10, 5))
term_2 = pd.Series(np.random.randint(0, 10, 6))

print(f'Term1:\n{term_1}\n\nTerm2:\n{term_2}\n\nSum:\n{term_1 + term_2}')

In [None]:
term_1.shape

In [None]:
date_range = pd.date_range('20190101', periods=10)
pd_series_4 = pd.Series(np.random.rand(10), date_range)
pd_series_4

In [None]:
pd_series_4 > 0.5

В качестве индекса можно указать выражение, и нам будут возвращены только те элементы, для которых значение является `True`:

In [None]:
pd_series_4[pd_series_4 > 0.5]

In [None]:
pd_series_4[(pd_series_4 > 0.5) & (pd_series_4 < 0.6)]

In [None]:
pd_series_4[(pd_series_4 > 0.6) | (pd_series_4 < 0.2)]

## `pd.DataFrame`

Двумерная таблица данных. Имеет индекс и набор столбцов (возможно, имеющих разные типы). Таблицу можно построить, например, из словаря, значениями в котором являются одномерные наборы данных.

In [None]:
# pd.Dataframe можно составить из словаря, ключ будет соответсовать колонке
d = {'one': pd.Series([1, 2, 3], index=['a', 'b', 'c']),
     'two': pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}
df = pd.DataFrame(d)
df

In [None]:
df.index

In [None]:
df.columns

In [None]:
df['one']['c']

In [None]:
df.one

Если указать диапазон индексов, то это означает диапазон строк. Причём **последняя строка включается в таблицу.**

Диапазон целых чисел даёт диапазон строк с такими номерами, **не включая последнюю строку** (как обычно при индексировании списков). 

На это стоит обратить внимание!

In [None]:
df['b':'d']

In [None]:
df[3:1:-1]

In [None]:
df['three'] = df['one'] * df['two']
df

In [None]:
# concatenating
df2 = pd.DataFrame({'one': {'e': 0, 'f': 1}, 'one_tr': {'e': 2}})
df2

In [None]:
pd.concat([df, df2], sort=False)

Теперь попробуем поработать с [**настоящими данными**](https://www.kaggle.com/ramamet4/app-store-apple-data-set-10k-apps).

Нас интересует файл `AppStore.csv`.

Кстати, `.csv` (**C**omma **S**eparated **V**alues) - наверное, самый частый формат данных в современном data science. По сути, это то же самое, что и `.xls` (и `.xlsx`), то есть таблица.

In [None]:
data = pd.read_csv('data/AppleStore.csv')

In [None]:
# вывести первые 5 строк
data.head(5)

In [None]:
# вывести последние 5 строк
data.tail(5)

In [None]:
# вывести 5 случайных строк
data.sample(5)

Видим, что первая колонка представляет собой индекс. Используем её в этом качестве!

In [None]:
data = pd.read_csv('data/AppleStore.csv', index_col=0)

data.head()

Можно узнать размер таблицы, информацию о значениях таблицы, различные статистики по значениям:

In [None]:
data.shape

In [None]:
data.info()

In [None]:
data.describe()

Чтобы посмотреть, какие колонки есть в таблице, можно воспользоваться методом `columns`:

In [None]:
data.columns

Метод `values` преобразует `pd.DataFrame` к `np.ndarray`:

In [None]:
data.values

In [None]:
type(data.values)

In [None]:
data.values[:, 0]

### Более продвинутое индексирование по таблице: методы `loc` и `iloc`

`iloc` - выбор элементов **на основе позиций**:

In [None]:
data.iloc[0]

In [None]:
data.iloc[1:3, 1:3]

In [None]:
data.iloc[[0, 1, 2], 0]

In [None]:
data.iloc[-1, :]

`loc` - выбор элементов **на основе имён**:

In [None]:
# первое значение - index, второе - имя колонки
data.loc[1, ['id', 'track_name', 'price']]

**Что выбрать - `loc` или `iloc`?**

When choosing or transitioning between loc and iloc, there is one "gotcha" worth keeping in mind, which is that the two methods use slightly different indexing schemes.

`iloc` uses the Python stdlib indexing scheme, where the first element of the range is included and the last one excluded. So `0:10` will select entries `0, ..., 9`. `loc`, meanwhile, indexes inclusively. So `0:10` will select entries `0, ..., 10`.

Why the change? Remember that `loc` can index any stdlib type: strings, for example. If we have a `DataFrame` with index values `Apples, ..., Potatoes, ...,` and we want to select "all the alphabetical fruit choices between Apples and Potatoes", then it's a lot more convenient to index `df.loc['Apples':'Potatoes']` than it is to index something like `df.loc['Apples', 'Potatoet']` (t coming after s in the alphabet).

This is particularly confusing when the `DataFrame` index is a simple numerical list, e.g. `0, ..., 1000`. In this case `df.iloc[0:1000]` will return 1000 entries, while `df.loc[0:1000]` return 1001 of them! To get 1000 elements using `loc`, you will need to go one lower and ask for `df.iloc[0:999]`.

Otherwise, the semantics of using `loc` are the same as those for `iloc`.

`loc` может принимать булевы выражения (так же, как и в случае с `pd.Series`).

Еще один полезный метод - `isin`:

In [None]:
data.loc[data.prime_genre.isin(['Games', 'Shopping'])].head()

---

## Задание

Получите ответ на следующие вопросы (с помощью `pandas`):

1. Сколько приложений с максимальным рейтингом (`user_rating`)?

2. Сколько всего жанров (`prime_genre`) и какие они? **Подсказка:** используйте `np.unique` (лучше не надо).

3. Сколько суммарно байт (`size_bytes`) весят все приложения жанра `Finance`?

4. Сколько всего бесплатных приложений, у которых рейтинг пользователей больше трёх?

5. Есть ли приложения, которые стоят больше 100 долларов?

6. Сколько приложений из жанра `Games` или `Shopping`, которые стоят дороже 10 USD или меньше 2 USD, но не являются бесплатными?

In [None]:
# 1
(data['user_rating'] == data['user_rating'].max()).sum()

In [None]:
# 2
# print(len(np.unique(data['prime_genre'])), '-' * 5, *np.unique(data['prime_genre']), sep='\n')
print(data['prime_genre'].nunique())
data['prime_genre'].unique()
# data['prime_genre'].value_counts()

In [None]:
# 3
data[data['prime_genre'] == 'Finance']['size_bytes'].sum()

In [None]:
# 4
len(data[(data['price'] == 0.0) & (data['user_rating'] > 3)])

In [None]:
# 5
# посмотрим на все имеющиеся валюты
# print(data['currency'].unique())
# тип валюты можно не указывать, т.к. в таблице только USD
print(len(data[data['price'] > 100.0]))
data[data['price'] > 100.0]

In [None]:
# 6
len(data[((data['price'] > 10.0) | (data['price'] < 2.0)) & (data['price'] > 0.0)])

---

Мы разобрали только малую часть работы с `pandas`. Это действительно мощный инструмент для работы с данными и его возможности обширны.

Из того, что мы не разобрали, стоит обратить внимание на следующие вещи:

* Работа с пропущенными значениями (`fillna`)
* Объединение таблиц (`join`)
* Применение к данным функций (`apply`, `applymap`)
* Работа с базами данных в `pandas`

Список полезных ссылок:

* Официальные туториалы: https://pandas.pydata.org/pandas-docs/stable/getting_started/tutorials.html

* Официальная документация: https://pandas.pydata.org/pandas-docs/stable/

* Статья на Хабре от OpenDataScience сообщества: https://habr.com/company/ods/blog/322626/

* Подробный гайд: https://media.readthedocs.org/pdf/pandasguide/latest/pandasguide.pdf

* Небольшой курс от kaggle: https://www.kaggle.com/learn/pandas

Главное в работе с новыми библиотеками - не бояться тыкать в разные функции, смотреть типы возвращаемых объектов и активно пользоваться интернетом, читать документацию на официальном сайте (она довольно хорошо написана), а ещё лучше понимать всё из `docstring`'а (`Shift+Tab` при нахождении курсора внутри скобок функции).