# Знакомство с Pandas

Язык программирования Python стал популярен в научной среде и в частности, в области машинного обучения, из-за огромного количества качественных библиотек для работы с разнообразными данными. Две важные библиотеки, с которыми необходимо познакомиться до того, как переходить непосредственно к алгоритмам машинного обучения - это NumPy (https://numpy.org/) и Pandas (https://pandas.pydata.org/), которые составляют основу стека для работы с данными в Python.

В этом семинаре я буду пользоваться иллюстрациями из прекрасной вводной статьи по Pandas (рекомендую к просмотру для закрепления):

*   http://jalammar.github.io/gentle-visual-intro-to-data-analysis-python-pandas/

![Pandas logo](https://upload.wikimedia.org/wikipedia/commons/thumb/e/ed/Pandas_logo.svg/1280px-Pandas_logo.svg.png)

Документация https://pandas.pydata.org/docs/user_guide/index.html

Библиотека Pandas представляет удобный способ организации табличных данных - объект `pandas.DataFrame`

In [None]:
import pandas as pd

In [None]:
from pathlib import Path

tiny_dataset_path = Path("music.csv")
tiny_dataset_path.write_text("""
    Artist,Genre,Listeners,Plays\n
    Bille Holiday,Jazz,1300000,27000000\n
    Jimi Hendrix,Rock,2700000,70000000\n
    Miles Davis,Jazz,1500000,48000000\n
    SIA,Pop,2000000,74000000\n
""")

`pd.DataFrame` можно создать как из уже существующих матриц `np.array`, так и загрузив с диска. Поддерживается импорт большого набора форматов (csv, xlsx, json, parquet, feather, ...)

![excel to pandas](http://jalammar.github.io/images/pandas-intro/0%20excel-to-pandas.png)

In [None]:
df = pd.read_csv('music.csv')

In [None]:
df

In [None]:
df.head(2)

In [None]:
df.tail(1)

In [None]:
df.info()

### Выбор данных

![select column](http://jalammar.github.io/images/pandas-intro/2%20select-column.png)



![select rows](http://jalammar.github.io/images/pandas-intro/3%20select-rows.png)

![select column and rows](http://jalammar.github.io/images/pandas-intro/4%20select_column-and-rows.png)

### Фильтрация

![pandas filter 1](http://jalammar.github.io/images/pandas-intro/pandas-filter-1.png)

![filter](http://jalammar.github.io/images/pandas-intro/5%20filter.png)

### Группировка

![group by](http://jalammar.github.io/images/pandas-intro/8%20group-by.png)

### Создание новых колонок

![create new column](http://jalammar.github.io/images/pandas-intro/9%20create-new-column.png)

In [None]:
df['Genre'].value_counts()

## Анализ датасета Титаник

In [None]:
!wget -O titanic.csv 'https://web.stanford.edu/class/archive/cs/cs109/cs109.1166/stuff/titanic.csv'

*Задание*
- *Сколько всего пассажиров погибло, а сколько выжило? В абсолютных числах и в %*
- *Как отличается средняя стоимость (fare) билета среди разных классов?*
- *Что вы можете сказать о средней выживаемости среди пассажиров разного класса?*
- *Что вы можете сказать о среднем возрасте среди группы выживших и погибших?*
- *Посчитайте среднюю выживаемость среди женщин и мужчин*
- *Сколько всего среди погибших было женщин? А сколько мужчин? А среди выживших?*
- *Рассмотрим отдельно группы детей (возраст < 18) и взрослых (> 18). Отличается ли выживаемость среди них?*
- *Сравните выживаемость женщин и мужчин среди детей и взрослых. Отличаются ли они?*

In [None]:
# PUT YOUR CODE HERE