# Введение в Pandas (DevCIT)
#### Atalov S.

`Pandas` - это библиотека Python, предоставляющая широкие возможности для анализа данных. С ее помощью очень удобно загружать, обрабатывать и анализировать табличные данные.

В машинном обучении важен анализ данных. Мы не строим сразу модель на данных. Мы должны посмотреть, подготовить необходимые данные.

У нас будут некоторые признаки:

<div>
<img src="attachment:image.png" width="300"/>
</div>

Основными структурами данных в Pandas являются классы Series и DataFrame. Первый из них представляет собой одномерный индексированный массив данных некоторого фиксированного типа. Второй - это двухмерная структура данных, представляющая собой таблицу, каждый столбец которой содержит данные одного типа. Можно представлять её как словарь объектов типа Series. Структура DataFrame отлично подходит для представления реальных данных: строки соответствуют признаковым описаниям отдельных объектов, а столбцы соответствуют признакам.

Каждый тип данных в `Pandas` (столбец с именем и значениями) называется - `Pandas Series`.

Проще говоря это массивы, которые основаны на `NumPy Arrays`, у которых есть название столбцов и индексы.

Эту таблицу будем называть `Dataframe`.


---------

## Первичный анализ данных
### Чтение данных с Pandas

На практике DataFrame, с которым нам предстоит работать, необходимо считать из некоторого файла. Рассмотрим работу с DataFrame на примере следующего набора данных. Для каждрого опрошенного имеется следующая информация: заработная плата за час работы, опыт работы, образование, внешняя привлекательность (в баллах от 1 до 5), бинарные признаки: пол, семейное положение, состояние здоровья (хорошее/плохое), членство в профсоюзе, цвет кожи (белый/чёрный), занятость в сфере обслуживания (да/нет).

Загружаем `csv` файл, где `;` разделитель

Посмотреть на первые 5 строк (по умолчанию 5, в скобках также можно указать сколько)

Многие методы унаследованы от `NumPy`:

In [None]:
df.shape

In [None]:
# названия признаков
print(df.columns.values)

In [None]:
#информация про данные
df.info()

Метод describe показывает основные статистические характеристики данных по каждому признаку: число непропущенных значений, среднее, стандартное отклонение, диапазон, медиану, 0.25 и 0.75 квартили.

In [None]:
#описательная статистика данных
df.describe()

Можно сразу увидеть что переменная `wage` сильно разбросана. Т.к. `max=77.72`, а `min=1.02`.

DataFrame можно отсортировать по значению какого-нибудь из признаков. В нашем случае, например, по размеру заработной платы.

In [None]:
df.sort_values(by="wage").head()

In [None]:
df.sort_values(by="wage", ascending=False).head()

In [None]:
# либо сразу по двум
df.sort_values(by=["female", "wage"], ascending=[True, False]).head()

### Индексация и извлечение данных

DataFrame можно индексировать по-разному. В связи с этим рассмотрим различные способы индексации и извлечения нужных нам данных из DataFrame на примере простых вопросов.

Для извлечения отдельного столбца можно использовать конструкцию вида DataFrame['Column_Name']. Воспользуемся этим для ответа на вопрос: **каково среднее значение параметра "здоровье" среди опрошенных?**

In [None]:
# помним функцию <mean> из numpy?


Очень удобной является логическая индексация DataFrame по одному столбцу. Выглядит она следующим образом: dataframe[P(dataframe['Name'])], где P - это некоторое логическое условие, проверяемое для каждого элемента столбца Name. Итогом такой индексации является DataFrame, состоящий только из строк, удовлетворяющих условию P по столбцу Name.

In [None]:
a = df['female'] == 0
df[a]

In [None]:
# Возвращается Dataframe, в котором выбрали женщин
df[df["female"] == 1].head()

Также, можно написать несколько условий:

In [None]:
df[(df["goodhlth"] == 1) & (df["female"] == 1)].head()

Если мы применяем условие, то возвращается новый Dataframe, к которому также можем обращаться.

**Средняя заработная плата у женщин:**

Воспользуемся этим для ответа на вопрос: **На сколько средняя заработная плата мужчин выше средней заработной платы среди женщин?**

**Какова максимальная заработная плата среди мужчин, имеющих членство в профсоюзе, и с опытом работы до 10 лет?**

**На сколько средняя заработная плата белых больше черных?**

**На сколько среднее количество лет образования у белых мужчин больше чем у черных мужчин?**