# Pandas. Работа с двумерными данными

## Импорт библиотеки

Прежде, чем начать работу с библиотекой - мы должны её импортировать.

In [3]:
import pandas as pd
import numpy as np

Сокращения `pd` и `np` де-факто стали стандартами при работе с данными библиотеками. Чтобы легче было привыкать читать чужой код, использующий эти библиотеки советую привыкнуть импортировать библиотеки с использованием такой конструкции.

## С чем работает pandas?

Pandas работает с объектом `dataframe`, который хранит в себе таблицу с данными. но помимо данных этот объект имеет специальные методы, позволяющие работать с этими данными, получать информацию по этим данным.

Мы можем получить информацию о размере таблицы, о типах данных внутри неё, получить доступ к определённым строкам, агрегировать и фильтровать информацию в ней и т.д.

Всё это очень удобно и позволяет делать сложные запросы легко и просто.

`DataFrame` - не просто таблица с данными! Это и данные и целый комплекс действий и информации, связанных с этими данными.

## Создание dataframe из файла

Давайте создадим объект dataframe для дальнейшей работы с библиотекой из csv файла. Для этого используем метод read_csv().

Открывать мы будем пример csv документа - `StudentsPerformance.csv`, скачанный в ту же папку, что и данный notebook.

Для просмотра содержимого dataframe нужно просто выполнить инструкцию ниже, и мы увидим таблицу из 1000 строк и 8 столбцов.

In [None]:
pd.read_csv('StudentsPerformance.csv')

Но гораздо полезнее создать переменную, связанную с данным dataframe, чтобы в дальнейшем работать с ней и получать необходимую информацию.

In [4]:
students_performance = pd.read_csv('StudentsPerformance.csv')

## Какие аргументы может примать read_csv?

Воспользуемся [документацией](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html?highlight=read_csv#pandas.read_csv), чтобы узнать это.

Запомните, один из самых важных аргументов данной функции - это аргумент `sep`, он задаёт разделитель, использующийся в считываемом csv файле. По умолчанию данный аргумент принимает символ `,`, но если в csv используется другой разделитель - вы получите ошибку в этом случае.

## Какие операции с dataframe доступны?

### Вывод первых строк

#### первые 5 строк

In [5]:
students_performance.head()

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,female,group B,bachelor's degree,standard,none,72,72,74
1,female,group C,some college,standard,completed,69,90,88
2,female,group B,master's degree,standard,none,90,95,93
3,male,group A,associate's degree,free/reduced,none,47,57,44
4,male,group C,some college,standard,none,76,78,75


#### первые N строк

Для вывода первых N строк нужно выполнить - students_performance.head(N)

In [10]:
students_performance.head(7)

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,female,group B,bachelor's degree,standard,none,72,72,74
1,female,group C,some college,standard,completed,69,90,88
2,female,group B,master's degree,standard,none,90,95,93
3,male,group A,associate's degree,free/reduced,none,47,57,44
4,male,group C,some college,standard,none,76,78,75
5,female,group B,associate's degree,standard,none,71,83,78
6,female,group B,some college,standard,completed,88,95,92


### Вывод последних строк

#### последние 5 строк

In [7]:
students_performance.tail()

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
995,female,group E,master's degree,standard,completed,88,99,95
996,male,group C,high school,free/reduced,none,62,55,55
997,female,group C,high school,free/reduced,completed,59,71,65
998,female,group D,some college,standard,completed,68,78,77
999,female,group D,some college,free/reduced,none,77,86,86


#### последние N строк

Для этого по аналогии с получением N первых строк - N передаётся как аргумент метода tail: students_performance.head(N)

In [9]:
students_performance.tail(3)

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
997,female,group C,high school,free/reduced,completed,59,71,65
998,female,group D,some college,standard,completed,68,78,77
999,female,group D,some college,free/reduced,none,77,86,86


### Получим описательные статистики по всему dataframe

In [12]:
students_performance.describe()

Unnamed: 0,math score,reading score,writing score
count,1000.0,1000.0,1000.0
mean,66.089,69.169,68.054
std,15.16308,14.600192,15.195657
min,0.0,17.0,10.0
25%,57.0,59.0,57.75
50%,66.0,70.0,69.0
75%,77.0,79.0,79.0
max,100.0,100.0,100.0


Данная команда для всех числовых столбцов нашего dataframe вывела:

+ количество значений
+ среднее значение
+ стандартное отклонение
+ минимальное значение
+ максимальное значение
+ квартили

### Просмотр типов данных в нашем dataframe

In [13]:
students_performance.dtypes

gender                         object
race/ethnicity                 object
parental level of education    object
lunch                          object
test preparation course        object
math score                      int64
reading score                   int64
writing score                   int64
dtype: object

### Просмотр названия столбцов

In [26]:
students_performance.columns

Index(['gender', 'race/ethnicity', 'parental level of education', 'lunch',
       'test preparation course', 'math score', 'reading score',
       'writing score'],
      dtype='object')

### Просмотр какой тип у столбцов

возвращает серию с числом колонок каждого из типов

In [27]:
students_performance.get_dtype_counts()

int64     3
object    5
dtype: int64

### Просмотр индексации содержимого dataframe

In [36]:
students_performance.index

RangeIndex(start=0, stop=1000, step=1)

### Отбор колонок только нужного типа

```python
df.select_dtypes(include=types_to_include, exclude=types_to_exclude)
```

возвращает часть датафрэйма, куда были включены колонки с типами, указанными в include, или исключены колонки с типами, указанными в exclude.

Например, отберём только числовые колонки из нашего dataframe.

In [41]:
students_performance.select_dtypes(include='int64', exclude='object').head(7)

Unnamed: 0,math score,reading score,writing score
0,72,72,74
1,69,90,88
2,90,95,93
3,47,57,44
4,76,78,75
5,71,83,78
6,88,95,92


### Просмотр размера наших данных (кол-во строк и колонок)

In [14]:
students_performance.shape

(1000, 8)

или можно получить одно число в качестве размера dataframe - произведение числа строк и столбцов

In [15]:
students_performance.size

8000

### Доступ к данным

#### Получим первые 3 переменные(столбца) первых 5 наблюдений(строк)

У каждой колонки есть имя, а кроме того - порядковый номер, начинающийся с нуля. У строк тоже самое - есть порядковый номер, а есть ещё индексы (о них поговорим дальше).

То есть для отбора строк и колонок можно использовать имя и номер.

##### по номеру позиции

Для отбора строк и столбцов на основе номера их позиции в таблице используется метод iloc (integer location). Он принимает 2 аргумента - нужные нам строки и нужные нам столбцы.

In [16]:
students_performance.iloc[0:5, 0:3]

Unnamed: 0,gender,race/ethnicity,parental level of education
0,female,group B,bachelor's degree
1,female,group C,some college
2,female,group B,master's degree
3,male,group A,associate's degree
4,male,group C,some college


In [17]:
students_performance.iloc[[0, 3, 10], [0, 5, -1]]

Unnamed: 0,gender,math score,writing score
0,female,72,74
3,male,47,44
10,male,58,52


##### по лейблу

Но можно получать доступ к некоторому набору строк и колонок, используя лейблы. Для этого используется метод `loc()`.

In [23]:
students_performance.loc[0:5, ['gender', 'race/ethnicity', 'parental level of education']]

Unnamed: 0,gender,race/ethnicity,parental level of education
0,female,group B,bachelor's degree
1,female,group C,some college
2,female,group B,master's degree
3,male,group A,associate's degree
4,male,group C,some college
5,female,group B,associate's degree


##### по индексу

Для создания индексов сначала создадим маленький вспомогательный dataframe на основе исходного.

In [43]:
students_performance_with_names = students_performance.iloc[[0, 3, 4, 7, 8]]

In [44]:
students_performance_with_names

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,female,group B,bachelor's degree,standard,none,72,72,74
3,male,group A,associate's degree,free/reduced,none,47,57,44
4,male,group C,some college,standard,none,76,78,75
7,male,group B,some college,free/reduced,none,40,43,39
8,male,group D,high school,free/reduced,completed,64,64,67


А теперь присвоим индексы нашему вспомогательному dataframe

In [45]:
students_performance_with_names.index = ['Cersei', 'Tywin', 'Gregor', 'Joffry', 'Ilyn Payne']

In [46]:
students_performance_with_names

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
Cersei,female,group B,bachelor's degree,standard,none,72,72,74
Tywin,male,group A,associate's degree,free/reduced,none,47,57,44
Gregor,male,group C,some college,standard,none,76,78,75
Joffry,male,group B,some college,free/reduced,none,40,43,39
Ilyn Payne,male,group D,high school,free/reduced,completed,64,64,67


Индексы стали более содержательными. Это своего рода информация о каждом студенте, например - имя студента.

Теперь можно по лейблу обращаться к строкам.

In [50]:
students_performance_with_names.loc[['Cersei', 'Joffry'], ['gender', 'race/ethnicity', 'parental level of education']]

Unnamed: 0,gender,race/ethnicity,parental level of education
Cersei,female,group B,bachelor's degree
Joffry,male,group B,some college


В исходном dataframe были индексы по умолчанию:

In [52]:
students_performance.index

RangeIndex(start=0, stop=1000, step=1)

А стали, индексы, заданные нами:

In [51]:
students_performance_with_names.index

Index(['Cersei', 'Tywin', 'Gregor', 'Joffry', 'Ilyn Payne'], dtype='object')

**Таким образом, существует два способа получить нужные нам столбцы и строки из dataframe:**
+ **iloc - позволяет получить данные по порядковому номеру**
+ **loc - позволяет получить данные по лейблам, роли которых играют либо порядковые номера строк(по умолчанию), либо создаваемые нами более осмысленные индексы**

## А кто такие ~~фиксики~~ объекты Series?

В примерах выше при выполнении наших запросов к исходному dataframe мы получали dataframe поменьше. То есть логичная на самом деле ситуация - из исходного множества строк и столбцов мы запрашивали какое-то подмножество, которое тоже являлось таблицей, но имело меньшие размеры.

А что будет если выполнить вот такой запрос?

In [54]:
students_performance_with_names.iloc[:, 0]

Cersei        female
Tywin           male
Gregor          male
Joffry          male
Ilyn Payne      male
Name: gender, dtype: object

Странно, учитывая, что мы ожидали увидеть dataframe в качестве результата.

Посмотрим какой тип имеет полученный выше результат.

In [56]:
type(students_performance_with_names.iloc[:, 0])

pandas.core.series.Series

### Подробнее о Series

`Series` - это одноразмерный массив, с некоторыми лейблами именами [подробнее](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html?highlight=series).

Создадим несколько примеров серий:

#### Серия из нескольких целых чисел с и лейблами по умолчанию

In [57]:
pd.Series([1, 2, 3])

0    1
1    2
2    3
dtype: int64

#### Серия из нескольких целых чисел с заданными лейблами

In [58]:
pd.Series([1, 2, 3], index=['Cersei', 'Tywin', 'Joffry'])

Cersei    1
Tywin     2
Joffry    3
dtype: int64

**Нас жестоко обманывали!!!**

На самом деле таблица в pandas - это не просто таблица, а объединённые в одном месте серии. Какждый столбец в dataframe - это объект series, имеющий некоторый ключ, совпадающий с названием колонки в dataframe.

In [65]:
my_series_1 = pd.Series([1, 2, 3], index=['Cersei', 'Tywin', 'Joffry'])
my_series_2 = pd.Series([4, 5, 6], index=['Cersei', 'Tywin', 'Joffry'])

In [66]:
pd.DataFrame({'col_name_1': my_series_1, 'col_name_2': my_series_2})

Unnamed: 0,col_name_1,col_name_2
Cersei,1,4
Tywin,2,5
Joffry,3,6


### Обращение к dataframe по названию переменной

In [68]:
students_performance_with_names.gender

Cersei        female
Tywin           male
Gregor          male
Joffry          male
Ilyn Payne      male
Name: gender, dtype: object

In [67]:
students_performance_with_names['gender']

Cersei        female
Tywin           male
Gregor          male
Joffry          male
Ilyn Payne      male
Name: gender, dtype: object

In [69]:
students_performance_with_names[['gender']]

Unnamed: 0,gender
Cersei,female
Tywin,male
Gregor,male
Joffry,male
Ilyn Payne,male


## Pandas за 10 минут

[Реально?](https://pandas.pydata.org/pandas-docs/stable/getting_started/10min.html#min)

## Какие типы файлов ещё может открывать pandas?

Pandas может открывать большое количество различных форматов, но наиболее полезными для нас могут быть следующие из них:

+ excel
+ html
+ json
+ sql
+ sas
+ и т.д.

## Ссылки по теме pandas

+ [Ссылка на документацию](https://pandas.pydata.org/pandas-docs/stable/)
+ [Хорошая статья](https://khashtamov.com/ru/pandas-introduction/)
+ [Библиотеки Python и линейная алгебра](https://www.coursera.org/learn/mathematics-and-python?specialization=machine-learning-data-analysis)
+ [Введение в Data Science и машинное обучение](https://stepik.org/course/4852/)