# Введение в pandas

`pandas` — мощная библиотека на Python для удобной работы с данными. Строится поверх NumPy и предлагает структуры данных: `Series` и `DataFrame`.

* `Series`:
  * Это одномерный массив с метками (индексом), способный хранить данные любых типов: числа, строки или даже объекты Python.
  * Каждый элемент `Series` ассоциирован с индексом — можно думать о `Series` как о столбце в таблице.
  * Создавать `Series` можно из: списков, словарей, массивов NumPy — всё просто
* `DataFrame` — двумерная таблица, каждая колонка — это `Series` с общим индексом.
  * Двумерная структура данных (строки и столбцы), каждая колонка — это `Series`. Это основной объект для анализа данных в pandas
  * DataFrame можно представить как “словарь” из `Series` с одинаковым индексом, удобно и компактно для таблиц.

<img src='https://media.geeksforgeeks.org/wp-content/cdn-uploads/creating_dataframe1.png' width=700>

**Полезные ссылки:**  
- [Официальная документация pandas](https://pandas.pydata.org/docs/)  
- [Быстрое введение: *10 minutes to pandas*](https://pandas.pydata.org/pandas-docs/stable/user_guide/10min.html)
- [Руководство пользователя (*User Guide*)](https://pandas.pydata.org/pandas-docs/stable/user_guide/index.html)
- [Справочник API (*API Reference*)](https://pandas.pydata.org/docs/reference/index.html)


### Задание 1  

Сгенерируйте выборку из дискретного равномерного распределения от 0 до 100, размером 2000 и создайте по выборке объект `pd.Series`

In [None]:
## PASTE YOUR CODE HERE

### Задание 2
Сгенерируйте выборку из стандартного нормального распределения, размером 1300 и создайте по выборке объект `pd.Series`. При помощи пропусков, заполните размер до 2000 используя пропуски pd.Nan

In [None]:
## PASTE YOUR CODE HERE

Мы с вами создали объекты `pd.Series` по числовым значениям, но ведь есть еще и другие типы данных. А какие?

Удобный список всех типов перечислен [здесь](https://pandas.pydata.org/docs/reference/arrays.html#). 

Если же перечислять самые основные для начала работы, то это:
1. Числовые
2. object
3. строки + [.str](https://pandas.pydata.org/docs/reference/series.html#api-series-str)
4. категории + [.cat](https://pandas.pydata.org/docs/reference/series.html#categorical-accessor)
5. даты + [.dt](https://pandas.pydata.org/docs/reference/series.html#datetimelike-properties)
6. Nan
7. pd Nullable(boolean, integer, float)

Запомнить разницу очень легко, если это не числовой тип, то по умолчанию - это object. 

Кастить типы можно при помощи pd.Series.astype('string') или любой другой тип



### Задание 3
Сгенерируйте выборку размером 2000 из следующих имен: "Олег", "Андрей", "Евгений", "Алиса", "Мурат", "Наталья", "Ангелина", "Асия", "Геогрий", "Татьяна". Оберните полученный массив в объект `pd.Series` и проверьте какой тип получился. Если тип отличен от string, сконвертируйте его к этому типу

In [None]:
## PASTE YOUR CODE HERE

Существует путаница между `pd.string` и питоновским классом `str`. Главная разница тут в том, что пандас лучше работает со своими типами, и при попытке сконвертировать `pd.Series.astype('string')` тип series будет снова object, не `string`



### Задание 4
Сгенерируйте выборку размером 2000 из распределения Бернулли, где с вероятностью 0.01 выдается Nan, и с вероятностью 0.99 с равномерной вероятностью одну из следующих строк: "Женат/Замужем", "Разведен/Разведена", "Не женат/Не замужем". Оберните полученный массив в объект `pd.Series`. Замерьте какое количество памяти занимает текущая серия([подсказка](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.memory_usage.html)). 

Далее, сконвертируйте в тип `category` и повторите замеры новой серии. Изменилось ли занимаемое место на оперативной памяти?

In [None]:
## PASTE YOUR CODE HERE

### Задание 5
Сгенерируйте выборку размером 2000 из распределения Бернулли, где с вероятностью 0.1 выдается Nan и с вероятностью 0.9 равномерно выдается любая дата из промежутка "2020-01-01","2021-12-31". Оберните выборку в `pd.Series` и сконвертируйте тип в `pd.datetime64`

Подсказка как можно решить задачу лежит [здесь](https://pandas.pydata.org/docs/reference/api/pandas.date_range.html)

In [None]:
## PASTE YOUR CODE HERE

## [Операции с pd.Series](https://pandas.pydata.org/docs/reference/series.html)

Для того чтобы использовать какие-то опреации, используется следующая нотация: `pd.Series.func`

Возможные опреации:
- +-*/&| vs .add, ...
- сравнения
- `apply, agg, map, transform`
- [stats](https://pandas.pydata.org/docs/reference/series.html#computations-descriptive-stats)
- `value_counts`
- round - округлить
- nunique, unique - уникальные элементы
- replace - заменить одни значения на другие
- dropna - выкинуть пропуски
- drop_duplicates - выкинуть дубликаты
- sample - посэмлить случайные объекты. учтите, что индекс перемешивается
- sort_values, sort_index
- `plot`
- to_dict - вернуть в качестве словарика {index: value, ...}


Отдельно про `apply` - применяет функцию к серии. *Довольно часто* задачу можно решить __без нее__, старайтесь использовать ее только в крайнем случае. Поскольку pandas в основном написан на Cython(в отличае от polars, который на Rust'е), скорость его работы оставляет желать лучшего. Имеющиеся реализованные операции, очень хорошо оптимизированы и позволяют относительно быстро выполнять операции. Чего нельзя будет сказать о рукописной функции, которую вы будете применять

Также отделть про `value_counts` - полезно чтобы посмотреть на примерное распределение категориальных(не обязательно) колонок. Часто помогает быстро найти какие-то инсайти, неточности или даже ошибки в данных



### Задание 6
Объедините два `pd.Series` полученные на заданиях 1 и 2 в один `pd.DataFrame` объект. Колонку с дискретными значениями из равномерного распределения назвать "uni_cat_val", а колонку со значениями из стандартного нормального назвать "norm_vals_score"

In [None]:
## PASTE YOUR CODE HERE

## - [операции с pd.DataFrame](https://pandas.pydata.org/docs/reference/frame.html)

Для того чтобы использовать какие-то опреации, используется следующая нотация: `pd.DataFrame.func`

- Группировать данные(`groupby`)
- iterrows - построчный проход по датафрейму(ИСПОЛЬЗУЙТЕ ТОЛЬКО В КРАЙНЕЙ НЕОБХОДИМОСТИ; **_ЛУЧШЕ ИЗБЕГАТЬ_**)
- rolling - скользящие окна
- query - симпатичный способ общаться с датафреймом, ближе к нотации sql
- corr - построить матрицу корреляций признаков
- drop - выкинуть какие-то столбцы / строки
- drop_duplicates - убрать дубликаты
- reset_index - сбросить индекс к RangeIndex(0, N)
- sort_values - отсортировать по столбцу
- merge - `Merge with a database-style join`. Не используйте `pd.DataFrame.join`!
- sample - взять слчайное подмножество указанного размера из датафрейма
- assign - присвоить новые столбцы и вернуть результат как новый датафрейм
- to_csv, to_excel, to_parquet - сохранить датафрейм в указанный формат

Попробуем данные возможности на практикте!

### Задание 7
Сделайте новую колонку, которая будет называться "is_score_na", и она будет содержать в себе либо True, либо False. True - если в колонке "norm_vals_score" будет None, иначе False. Отфильтруйте только те объекты, у котрых "is_score_na" будет False. По ним нужно будет:
* посчитать среднее/медиану по "norm_vals_score"
* сгруппировать данные по колонке "uni_cat_val", и посчитать по каждой категории среднее/медиану "norm_vals_score"
* (*) сделать партицию по колонке "uni_cat_val", и посчитать разницу между прошлым и текущим значением колонки "norm_vals_score"

In [None]:
## PASTE YOUR CODE HERE

Нередко случается такое, что поступили новые данные и их хочется присоединить к текущим, но при этом сделать явную пометку что данные новые

### Задание 8
1. Сгенерируйте выброку из распределения Бернулли, где с вероятностью 0.1 генерируется пропуск, а с вероятностью 0.9 генерируется наблюдение из дискретного равномерного распределения от 0 до 10. Размер выборки должен быь равен 1000 
2. Сгенерируйте выброку из распределения Бернулли, где с вероятностью 0.3 генерируется пропуск, а с вероятностью 0.7 генерируется наблюдение из стандартного нормального распределения. Размер выборки должен быь равен 1000 
3. Полученные выборки "оберните" в объект pd.DataFrame с теми же названиями для колонок и новой колонкой "is_new_observation". Для новой колонки проставте константой True
4. Теперь, в прошлый датасет, добавьте ту же колонку "is_new_observation" и задайте ей значение константно False
5. Объедините прошлый датасет, предварительно удалив колонку "is_score_na" с новым датасетом. Объединение происходит "вертикально", т.е. путем продолжения имеющихся наблюдений


In [None]:
## PASTE YOUR CODE HERE

Теперь можно сравнить новые и старые наблюдения. На практите, обычно интересует насколько данные остались однородными. Это довольно глубокая тема, в рамки курса она не попадает, нас же интересует, совпадают ли эмпирические распределения новых и старых данных. Давайте проверим!

### Задание 9
Посчитайте те же статистики, что и в задании 4, но только в разрезе на колонку "is_new_observation". Для новых наблюдений, выберите только те объекты у которых ОБЕ колонки не содержат пропусков, далее по этим объектам уже посчитайте среднее/медиану по "norm_vals_score", и также по каждой группе "uni_cat_val" посчитать/ среднее/медиану "norm_vals_score"

In [None]:
## PASTE YOUR CODE HERE

Как вы наверное могли заметить, с проусками мы пока никак не работали. Исправляем ситуацию

### Задание 10
1. Посчитайте абсолютное и относительное количество пропусков в колонках "norm_vals_score", "uni_cat_val"
2. Посчитайте, сколько наблюдений в абсолютных и относительных(от общего размера датасета) числах имеют значение по одной колонке, но пропуск по другой. Т.е. интересует количество ситуаций, когда происходит следующее: uni_cat_val - None, но "norm_vals_score" - 0.002 и наоборот
3. Заполните пропуски в колонке "uni_cat_val" значением "-1", а в "norm_vals_score" значением -100
4. После заполнения пропусков, снова посчитайте среднее и медианное по колонке "norm_vals_score" и среднее/медианное по колонке "norm_vals_score" аггрегированное до категорий "uni_cat_val". Насколько сильно поменялись значения?

In [None]:
## PASTE YOUR CODE HERE

Дубликаты в данных, это также проблема, которую нужно как-то решать. Ответ на вопрос что делать с дубликатами может звучать по разному, в зависимости от задачи и специфики данных. Если будете углубляться в работу с данными, обязательно держите это в голове. В большинстве случаев просто убирать повторные объекты, это неправильно решение и датасет может потерять какую-то важную информацию.

В рамках урока мы об этом не будем задумоваться

### Задание 11
На прошлом датасете, посчитайте абсолютное и относительное количество дубликатов. Дубликаты, это те объекты, у которых полностью совпали значения во всех колонках датасета

Уберите дубликаты(объекты, которые встретились в датасете второй раз) из датасета, и посчитайте, наскольк в относительных числах уменшился итоговый датасет. Например, на 7% 

In [None]:
## PASTE YOUR CODE HERE

Перейдем к более реальным данным. Скачайте библиотеку seaborn, через pip install и выполните код ячейкой ниже

In [None]:
import seaborn as sns
import pandas as pd


df = sns.load_dataset("titanic")
df.head()

Это наверное самый популярный датасет из мира машинного обучения и дата аналитики. Он содержит в себе данные всех людей на борту судна титаник, затонувшего в 1912 году. Датасет содержит много признаков, в интернете можно найти описание всех признаков, если интересно. Для нас же, это пока не очень интересно

Попытаемся построить интересные подтаблицы и срезы по ней

### Задание 12
Общий анализ неизвестной таблицы

1. Посчитайте количество пропусков в процетном соотношении по каждому столбцу.
2. Посчитайте количество дубликатов
3. По категориальным колокам, посчитайте моду

In [None]:
## PASTE YOUR CODE HERE

[Сводные таблицы](https://pandas.pydata.org/docs/reference/api/pandas.pivot_table.html) - это таблицы, в которых можно аггрегировать данные внутри датафрейма по каким-то другим столбцам(часто категориальным). Очень удобно, когда категорий много и хочется посчитать сразу много статистик по определенным столбцам

### Задание 13
Постройте сводную таблицу с индексами: class, sex, age. Аггрегация по 'survived'(доле выживших). отсортируйте ее по среднему возрасту мужчин в 1-м классе


In [None]:
## PASTE YOUR CODE HERE

### Задание 14

1. Для каждого пассажира вычислите:

  * Среднюю стоимость билета(`fare`) по его классу(`class`)
  * ранг(оконная функция rank) его билета внутри класса

2. Добавьте два новых столбца `fare_mean_class` и `fare_rank_class`
3. По столбцам созданными выше, найдите пассажиров с максимальным и минимальным рангом в каждом классе


In [None]:
## PASTE YOUR CODE HERE

### Задание 15
Сгруппируйте данные по (`sex`, `class`) и посчитайте:

1. количество пассажиров

2. средний возраст

3. среднюю стоимость билета


После группировки, у полученной таблицы - сбросьте многомерный индекс в обычные колонки и преобразуйте результат так, чтобы строки были по `sex`, а `class` шли в столбцах.

In [None]:
## PASTE YOUR CODE HERE

## Введение в polars

`polars` - еще один фреймворк для работы с табличными данными, но в отличае от `pandas` обладает рядом преимуществ:
1. Быстрая скорость работы. Особенно заметно на больших датасетах(больше 100 млн)
2. Более стабильное решение по памяти(иногда чтобы очистить занимаюмаю память pandasом, нативные функции по очистке не помогают и приходится перезагружать ядро)
3. На самом деле, два предыдущих пункта это уже просто огромный прорыв, но зачастую когда вы работаете с большими данными, вы работаете со спарком из-за чего привыкаете к его нотации, поларс ее дружелюбно наследует

Если он такой крутой, зачем мы проходили pandas?

У поларса есть ряд своих недостатков, самые главные:
1. Меньше документации и примеров
2. Намного меньше интеграций (sklearn, seaborn...) - но всегда можно сделать to_pandas()
3. На малых данных не почувствуете разницу

После такого небольшого ликбеза, можно переходить к сути

* [Официальный сайт](https://pola.rs/)
* [Гитхаб с примерами](https://github.com/pola-rs/polars)
* [Про типы данных](https://docs.pola.rs/py-polars/html/reference/datatypes.html)