# Pandas
**Pandas** (*python data analysis*) — модуль для работы с табличными данными, основанный на **NumPy**. Основные особенности:
* удобная и эффективная работа с различными типами данных в разных столбцах таблицы
* набор статистических операций для обработки данных и моделирования
* встроенная обработка отсутствующих/пропущенных данных
* поддержка сложных методов индексации (как в **NumPy**)
* высокооптимизированный код на **C**
* поддержка работы с большими объемами данных

In [None]:
%matplotlib inline
import pandas as pd
import numpy as np

Наибольшее количество выводимых строк задается параметром *pd.options.display.max_rows*. Можно изменить его значение:

In [None]:
pd.options.display.max_rows = 10  # Будет выводиться не более 10 строк

## Два основных типа объектов: pd.Series и pd.DataFrame 

## Series (серия)


Серия - тип данных, в основе которого **одномерный массив элементов одного типа**, как и в **NumPy**.

В блоке ниже создается серия элементов 10, 11, ..., 14. При выводе на экран этой серии получаем два столбца: в первом столбце автоматически сгенерированные *индексы* элементов, во втором сами *элементы*.

In [None]:
s = pd.Series(range(10,15))
print('Серия:\n', s)

Можно обратиться к элементу серии по *индексу*: вывести его на экран, изменить его значение, ... :

In [None]:
print(
    f'Индексация:',
    f's[2]: {s[2]}\n'
)

s[2] = 0
print('Модификация (s[2] = 0):', s)

Серии могут работать как **словарь (dict)**.

В предыдущем примере *индексы* элементов были выставлены по умолчанию (0,1,2,...), но их можно задавать самостоятельно:

In [None]:
s = pd.Series(range(10,15), index=['e', 'd', 'c', 'b', 'a'])
print('Серия:', s)

In [None]:
print(
    'Обращение по индексу:',
    f"s['c'] = {s['c']}\n"
)

Обращение по ключу, которого нет в серии вызывает `KeyError`:

In [None]:
s['f']

Чтобы не допускать ошибку KeyError, вместо прямого обращения по индексу, можно использовать метод `get(a,b)`, который будет искать в серии *ключ*, переданный в качестве первого аргумента функции `a`. Если *ключ* не найден, то будет выведено значение, переданное в качестве второго аргумента функции `b`, или `None`, если `b` не задан. 

In [None]:
print(
    'Получение доступа к несуществующему ключу:', '\n',
    s.get('f', 'Нет такого ключа!'), '\n',
    s.get('q')
)

Обратите внимание, что значения в серии остаются упорядочеными, т.е. серия ведет себя как упорядоченный **словарь** (`collections.OrderedDict`).
Начиная с **Python 3.6**, серии можно создавать из обычных словарей, так как в **Python 3.6** обычные словари стали сохранять порядок.

Серии поддерживают типичные операции `np.array` (маски, индексирование, расширяющие функции...):

In [None]:
s = pd.Series(range(10,15), index=['e', 'd', 'c', 'b', 'a'])
print('Серия:', s)

**Маска** — массив булевых значний (True, False). Для примера получим **маску**, четные элементы которой будут иметь значение *True*, а нечетные — *False*:

In [None]:
mask = s%2 == 0
print('Маска четных элементов:\n', mask)

Маску можно использовать для отделения интересующих элементов:

In [None]:
print(
    'Выбор элементов серии по маске:\n', s[mask],
)

In [None]:
print(
    'Индексация по массиву индексов:\n', s[['a','e','b']],
)

In [None]:
print(
    'Применение функций из NumPy:\n', np.square(s),
)

In [None]:
print(
    'Расширяющиеся операции (как в NumPy):\n', s - 5,
)

Увеличиваем на 1 значения элементов, которые больше чем среднее по серии:

In [None]:
s[s > s.mean()] += 1 
print('Присвоение набору элементов:\n', s)

Индексы серии могут быть изменены "на лету": 

In [None]:
print('s с текущей индексацией:\n', s)
s.index = list('AbCdE')
print('s с новой индексацией:\n', s)

Можно задать имя серии и индексу: 

In [None]:
s.name = 'Series Name'
s.index.name = 'Index Name'
print('Именованная серия:\n', s)

Получение индексов и элементов серии:

In [None]:
print('Индекс:', s.index) 
print('Значения:', s.values)

## Задача Series_1. 




1. Создайте серию `pd.Series`, которая будет содрежать инфомацию о целочисленных оценках на экзамене по алгебре учеников: Александр, Борис, Владимир, Дмитрий, Григорий, Евгений, Игорь, Клим, Леонид, Максим. Созданную серию сохраните в переменную one_mark. Этой серии задайте имя "Оценка по алгебре". Выведите полученную серию на экран.
2. Увеличьте оценку Максима на 1 балл и сохраните ее в серии. Выведите на экран из серию только оценку Максима.
3. Задав маску, получить и вывести информацию о тем учениках, у которых оценка не меньше 4.

In [None]:
# Напишите свой код в данной ячейке

[Посмотреть ответ на задачу](#Series_1)

## DataFrame


**DataFrame** — набор серий. В **DataFrame** каждая серия — отдельный столбец, совокупность столбов образует *таблицу*. 


### Способы создать `DataFrame`

In [None]:
# Способ 1:
df = pd.DataFrame([[10, 11], [20, 21], [30, 31]],
                  columns=['A', 'B'])
df

In [None]:
# Способ 2: создание DataFrame из двух pd.Series
series_1 = pd.Series([10, 20, 30])
series_2 = pd.Series([-3, -4, -5])
df = pd.DataFrame([series_1, series_2])
df


In [None]:
# Способ 3: создание DataFrame с помощью словаря
list_1 = [70, 71]
list_2 = [90, 91]
temperatures = {'col_1': list_1,
                'col_2': list_2}
pd.DataFrame(temperatures)

In [None]:
# Способ 4: создание DataFrame с помощью словаря, значениями которого являются Series
series_1 = pd.Series([70, 71])
series_2 = pd.Series([90, 91])

df = pd.DataFrame({'col_1': series_1,
                   'col_2': series_2})
df

In [None]:
# Способ 5:
names = ['Bob','Jessica','Mary','John']
births = [968, 155, 77, 578]

data = list(zip(names,births))
print('Данные:', data)

df = pd.DataFrame(data, columns=['Names', 'Births'], index=['A','B','C','D'])
df

### Задача DataFrame_1. 




Создайте `pd.DataFrame`, которая будет содержать инфомацию о целочисленных оценках на экзаменах по алгебре, геометрии и физике учеников: Александр, Борис, Владимир, Дмитрий, Григорий, Евгений, Игорь, Клим, Леонид, Максим. Созданный `DataFrame` сохраните в переменную marks. Этому `DataFrame` задайте имя "*Экзаменационные оценки*" и выведите его на экран.


In [None]:
# Напишите свой код в данной ячейке


[Посмотреть ответ на задачу](#DataFrame_1)

### Получение элементов `DataFrame`.


DataFrame поддерживает индексацию различными методами. 

* Обычная индексация (`df[col]`) позволяет обращаться к столбцам по названию
* Свойство `.iloc[row, column]` позволяет обращаться к строкам и столбцам по номеру, слайсу или маске.
* Свойство `.loc[row, column]` позволяет обращаться к строкам и столбцам по названию, слайсу или маске.
* Свойства, совподающие по имени с названиями столбцов. В данном случае - `df.Births` и `df.Names`

Получим содержимое столбца `'Names'` из `df`:

In [None]:
print(
    'Столбец "Names":\n', df['Names']
)

Получим столбцы `Births`, `Names` из `df`:

In [None]:
print(
    'Столбцы "Births", "Names":\n', df[['Births', 'Names']]
)

Используем `.iloc[:, 1]` для получения всех (`:`) элементов столбца с номером `1`:

In [None]:
print(
    'Столбец №1:\n', df.iloc[:, 1]
)

Используем `.loc[]` для получения строки А. Следут обратить внимание, что номер столбца при этом не был указан, что обеспечило вывод всех элементов строки: 

In [None]:
print(
    'Строка A:', df.loc['A'],
)

In [None]:
print(
    'Строка 3:\n', df.iloc[3],
)

Используя `.loc[]`, получим все строки c индексами из диапазона от A до С (`'A':'C'`), которые находятся в столбце Names:

In [None]:
print(
    'Имена из строк A, B, C:', df.loc['A':'C', 'Names'],
)

Используя `.iloc[1:4, 1]`, получим элементы находящиеся на пересечении 1, 2, 3 строк и первого столбца:

In [None]:
print(
    'Количества рождений из строк 1, 2, 3:', df.iloc[1:4, 1]
)

Создадим маску, выведем маску и элементы `df`, соответсвующие этой маске: 

In [None]:
row_mask = df['Births'] < 500

print(
    'Маска:\n', row_mask,
    '\n', '\n',
    'Строки:\n', df.loc[row_mask]
)

Получить элементы столбца Names можно еще таким образом:

In [None]:
df.Names

С помощью head и tail можно ограничить количество элементов в отображаемой выборке:

In [None]:
print(
    '1 строка:', df.head(1), '\n', 
    '2 последние строки:', df.tail(2),
)

`max(), min(), mean()` для поиска максимума, минимума, среднего значения в столбце.

In [None]:
print(
    'Максимум:', df['Births'].max(), '\n',
    'Минимум:', df['Births'].min(), '\n',
    'Среднее:', df['Births'].mean(), '\n' 
)

### Cортировка 

Сортировка всего DataFrame'а по возрастанию значений в столбце *Births*:


In [None]:
df.sort_values('Births')

Передав значение параметра `ascending=False` в `sort_values()`, получим сортировку по убыванию:

In [None]:
df.sort_values('Births', ascending=False)

### Внесение изменений в DataFrame


В предыдущих ячейках блокнота результаты сортировки были выведены на экран, но не были сохранены куда-либо (`df` остался без изменений). Такое поведение характерно для большинства операций производимых с `DataFrame`. 



In [None]:
df

Для сохранения результатов произведенной операции их необходимо явно сохранить куда-либо:

In [None]:
df_sorted = df.sort_values('Births', ascending=False)
df_sorted

### Задача DataFrame_2. 




Полученный в DataFrame_1 `marks` изменить следующим образом (все изменения должны быть сохранены в `marks`):
  1.  Оценки всех учеников по геометрии уменьшите на 1 балл.
  2.  Увеличьте все оценки Максима на 1 балл.
  3.  Измените оценку по алгебре у Бориса на 5.
  4.  Измените все оценки в столбце №2 на 4. <br>
Выведите `marks` на экран.


In [None]:
# Напишите свой код в данной ячейке


[Посмотреть ответ на задачу](#DataFrame_2)

### .apply()
для применения действия к набору элементов из `df`

Создадим новый столбец с инициалами имен, для этого с помощью `apply()`  применим `lambda`-функцию к каждому элементу колонки Names (аналог `map`)

In [None]:
df['Initial'] = df['Names'].apply(lambda x: x[0])
df

### Удаление столба:

In [None]:
del df['Initial']
df

### Изучение данных в DataFrame

#### Импорт и экспорт данных


**Pandas** имеет множество встроенных функций для импорта и экспорта данных. Вот наиболее полезные из них:
* `pd.read_json` и `df.to_json`
* `pd.read_excel` и `df.to_excel` (требует наличия установленных модулей `openpyxl` и `xlrd`)
* `pd.read_csv` и `pd.to_csv`

Проведем анализ результатов экзамена, которые находятся в файле. Необходимо задать путь до файла *StudentsPerformance.csv*.
*   Если вы работаете не в **Google Colaboratory**, то обращаетесь к файлам на своем жестком диске, напимер, посредством модуля `os`.
*   Если вы используте **Google Colaboratory**, то нужно выполнить:

In [None]:
from google.colab import drive
drive.mount('/content/gdrive')  
gc_folder = r"/content/gdrive/My Drive/Colab Notebooks/"  # Стандартный путь до файлов на гугл диске

Модифицируем стандартный путь так, чтобы обратиться к файлу. 
Отредактируйте эту строку так, чтобы в `gc_folder` содержался полный путь до папки, в которой находится *StudentsPerformance.csv.* :

In [None]:
gc_folder += r'КУРС Python для анализа данных/files/'  

Далее необходимо дополнить путь **gc_path** так, чтобы получить точный путь до файла на вашем **Google Disk**, например, так:

In [None]:
my_file_path = gc_folder + 'StudentsPerformance.csv'
df = pd.read_csv(my_file_path)
df.head(5)

В данном случае csv файл был отформатирован стандартным образом и импорт прошел успешно. Функция `read_csv` принимает [большое количество параметров](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html), что позволяет использовать ее для импорта файлов с нестандартным форматированием данных.

#### Знакомство с таблицей

In [None]:
df.info()  # Общая информация о DataFrame df

In [None]:
df.size  # Количество объектов в df

In [None]:
df.index  # Индексы df

In [None]:
df.values  # Значения df

In [None]:
df.dtypes  # Типы данных для каждого столбца df

In [None]:
df.describe()  # Рассчитанные характеристики df

Рассмотрим столбец "*test preparation course*"

In [None]:
print('Описание столбца:\n', df['test preparation course'].describe())

Используя `.unique()`, можно получить все уникальные значения в наборе:

In [None]:
print('\nУникальные значения:', df['test preparation course'].unique())

Сейчас данные столбца *test preparation course* хранятся в виде строк и принимают всего два значения: 'none' и 'completed'. Удобнее продолжить работу с такими данными, как с булевыми переменными. Для этого в столбце *test preparation course* запишем `True`, если в нем было значение *completed*, иначе `False`.


In [None]:
df['test preparation course'] = (df['test preparation course'] == 'completed')
df.head(3)

In [None]:
df.info()

Рассмотрим, как прохождение подготовительного курса сказывается на результатах экзамена по математике:

In [None]:
print('Прошедшие подготовительный курс:',    df[ df['test preparation course']]['math score'].describe())
print('Не прошедшие подготовительный курс:', df[~df['test preparation course']]['math score'].describe()) # ~ - логическое "не"

Рассмотрим как уровень образования родителей сказывается на результатах экзаменов ребенка

In [None]:
print('Различные уровни образования родителей:', df['parental level of education'].unique())

Такие данные лучше представить не в виде строк, а в виде категорий: это уменьшает объем используемой памяти и позволит обрабатывать эти данные более эффективно

In [None]:
from pandas.api.types import CategoricalDtype

edu_levels = CategoricalDtype(
    categories=[  # Уровни образования в порятке возрастания:
        "some high school",
        "high school", 
        "some college", 
        "associate's degree",
        "bachelor's degree",
        "master's degree",
    ],
    ordered=True  # Отмечаем, что среди этих категорий установлено отношение порядка
)

df['parental level of education']=df['parental level of education'].astype(edu_levels)

#### groupby() - Групировка по значениям



Используя `groupby()`, сгруппируем значения столбца *parental level of education* и, используя `mean()`, для каждого уровня образования родителей посчитаем среднюю оценку по математике:

In [None]:
by_parents_edu_level = df.groupby('parental level of education')  # Группируем значения столбца parental level of education

In [None]:
by_parents_edu_level_mean = by_parents_edu_level['math score'].mean()  # Средняя оценка по математике
print('Тип type(by_parents_edu_level_mean)=', type(by_parents_edu_level_mean), '\n')
by_parents_edu_level_mean


Следует отметить, что в ячейке выше *by_parents_edu_level_mean* является `pd.Series`, a столбец *parental level of education* стал индексом. Чтобы избежать этого можно указать параметр со значением `as_index=False`:

In [None]:
by_parents_edu_level_mean = df.groupby('parental level of education', as_index=False)
print('Тип type(by_parents_edu_level_mean)=', type(by_parents_edu_level_mean), '\n')
by_parents_edu_level_mean['math score'].mean()

Количество записей в каждой группе:

In [None]:
by_parents_edu_level_mean.size()

### Задача DataFrame_3.



  1.  Добавить в `df` стобец *Средний балл*, в который разместите поделенную на 3 сумму оценок из трёх стобцов: *math score*, *reading score*, *writing score*. Вывести на экран результат.
  2. Произвести группировку по полу ученика (значение в столбце *gender*). После для каждой из полученных групп, найти наименьшее, среднее, наибольшее значение в поле *Средний балл*. Вывести на экран результат.

In [None]:
# Напишите свой код в данной ячейке


[Посмотреть ответ на задачу](#DataFrame_3)

### where()


позволяет получать записи, которые соответствуют нескольким условиям:

       [Текст ссылки] 
       логическое и: and => ((условие_1) & (условие_2))       
       логическое или: or => ((условие_1) | (условие_2))    

In [None]:
df2 = df.where((df['math score']>=60)&(df['math score']<70))
df2.head(5)

Чтобы не рассматривать строки, которые содержат **NaN** (*Not-a-Number*, неопределенность), их удаляют с помощью `dropna()`. Ниже отображены те строки df, котоыре не содержат **NaN**:

In [None]:
df.where((df['math score']>=60)&(df['math score']<70)).dropna().head(5)

In [None]:
df.where((df['math score']<28)|(df['math score']>=30)).head()

### Визуализация данных

Черновой график **matplotlib** можно построить командой `.plot()`

In [None]:
df.plot()

В данном случае этот тип графика неинформативен, лучше воспользоваться, например, гистограммой

In [None]:
df.plot.hist() # или df.plot(kind='hist')

Для большего контроля за внешним видом графика рекомендуется использовать непосредственно `matplotlib`, но для быстрого визуального осмотра данных эти методы подойдут.

Функция reset_index позволяет задать стандартную индексацию, а текущий индекс сделать одной из колонок таблицы

In [None]:
by_parents_edu_level.size().reset_index()

Используя 'drop=True' можно не сохранять старый индекс:

In [None]:
a = by_parents_edu_level.size().reset_index(drop=True)
a

### Операции с индексом

Указание параметра со значением `inplace=True` обеспечивает сохранение примененного преобразования в DataFrame.

Создадим колонку *sum score* (сумму баллов по экзаменам) и, задав `inplace=True`, сделаем ее индексом:

In [None]:
df['sum score'] = df['math score'] + df['reading score'] + df['writing score']
df.set_index('sum score', inplace=True)
df.head(5)

Отсортируем таблицу по индексу:

In [None]:
df.sort_index(inplace=True)
df.head(5)

In [None]:
df.index  # Индекс df

#### reset_index()


Функция `reset_index()` позволяет задать стандартную индексацию, а текущий индекс сделать одной из колонок таблицы:

In [None]:
by_parents_edu_level.size().reset_index()

Используя 'drop=True' можно не сохранять старый индекс:

In [None]:
a = by_parents_edu_level.size().reset_index(drop=True)
a

### Прочие функции

Объединение нескольких DataFrame-ов, функция аналогична UNION в SQL:

In [None]:
pd.concat([df, df]).info()

Создание независимого дубликата датафрейма:

In [None]:
df_copy = df.copy()

print(df_copy.info())
print(f'\ndf is df_copy is {df is df_copy}')

Импорт данных из Excel:

In [None]:
df = pd.read_excel(gc_folder + 'pandas_data.xlsx', 0, index_col='StatusDate')
df.head(3)

In [None]:
df.index

In [None]:
df.State.unique()

Еще примеры:

In [None]:
# Приведем названия штатов к верхнему регистру:
df.State = df.State.apply(str.upper)
df.head(3)

In [None]:
df.State.unique()

In [None]:
# Выберем записи со статусом 1
df[df.Status == 1]

In [None]:
# Заменим NJ на NY
mask = df.State == 'NJ'
df.loc[mask,('State')] = 'NY'
df.State.unique()

### Агрегирующие операции agg()

In [None]:
df = pd.DataFrame({'group1':["a","a","b","b"], 'value':[10,20,30,40]})
df

Для применения агрегирующих операций необходимо задать группировку:

In [None]:
group = df.groupby('group1')

Затем применить агрегирующую операцию. В примере в качестве агрегирующих использованы операции нахождения мощности объекта `len` и суммирования 'sum'.

In [None]:
group.agg([len,sum])

Можно задать собственную функцию для агрегирования:

In [None]:
def my_mean(arr):
    return arr.mean()

df.groupby('group1').agg([my_mean])

In [None]:
df

### transform()

Результаты агрегирования не сохраняются в `DataFrame`. Для сохранения результатов агрегирования можно применить метод `transform()`

In [None]:
group = df.groupby('group1')  # Применяем группировку
df['value.sum'] = group.transform('sum')  # Примеяем агрегирующую операцию sum, результат сохраняем в 'value.sum' столбец df
df['value.my_mean'] = group.transform(my_mean)  # Примеяем агрегирующую операцию my_mean, результат сохраняем в 'value.my_mean' столбец df
df

### Задача DataFrame_4. 



In [None]:
# Рассмотрим набор оценок на экзаменах по математике и физике студентов двух групп:
import random
df_marks = pd.DataFrame({'group': ["group_A" if random.random()>0.5 else "group_B" for i in range(12)], 
                         'math score': [random.randint(40,100) for _ in range(12)], 
                         'physics score': [random.randint(40,100) for _ in range(12)]})
df_marks.head(3)

  1.  Из набора данных `df_marks` получить выборку студентов у которых по всем экзаменам набрано более 60 баллов. Результат сохранить в df_marks2.

  2. В df_marks2 произвести группировку по группе ученика (по значению в столбце *group*). После, используя операцию агрегации, получить для каждой группы среднее значение оценки за каждый экзамен и его разделить на 100.


In [None]:
# Напишите свой код в данной ячейке


[Посмотреть ответ на задачу](#DataFrame_4)

# Ответы на задачи

<a name="Series_1"></a>
# Ответ на задачу Series_1

In [None]:
from random import randint
name_mas = ['Александр', 'Борис', 'Владимир', 'Дмитрий', 'Григорий', 'Евгений', 'Игорь', 'Клим', 'Леонид', 'Максим']
one_mark = pd.Series([randint(2,5) for _ in range(len(name_mas))], index=name_mas)
one_mark.name = "Оценка по алгебре"
print(one_mark, '\n')

one_mark['Максим'] += 1
print(f"Оценка Максима стала = {one_mark['Максим']}\n")

print(f'Ученики с оценкой не меньше 4:\n{one_mark[one_mark>=4]}')

<a name="DataFrame_1"></a>
# Ответ на задачу DataFrame_1

In [None]:
from random import randint
name_mas = ['Александр', 'Борис', 'Владимир', 'Дмитрий', 'Григорий', 'Евгений', 'Игорь', 'Клим', 'Леонид', 'Максим']
exam_name = ['Алгебра', 'Геометрия', 'Физика']

marks_a = [randint(2,5) for _ in range(len(name_mas))]  # Генерируем оценки по алгебре
marks_g = [randint(2,5) for _ in range(len(name_mas))]  # Генерируем оценки по геометрии
marks_p = [randint(2,5) for _ in range(len(name_mas))]  # Генерируем оценки по физике
data = list(zip(marks_a, marks_g, marks_p))

marks = pd.DataFrame(data, columns=exam_name, index=name_mas)
marks

<a name="DataFrame_2"></a>
# Ответ на задачу DataFrame_2

In [None]:
print(marks)
marks['Геометрия'] -= 1
marks.loc['Максим'] += 1
marks.loc['Борис', 'Алгебра'] = 5
marks.iloc[:, 2] = 4

print(marks)

<a name="DataFrame_3"></a>
# Ответ на задачу DataFrame_3

In [None]:
# 1
df['Средний балл'] = (df['math score'] + df['reading score'] + df['writing score'])/3
print(df.head(3))

# 2
df_grouped_gender = df.groupby('gender', as_index=False)
print('Наименьший средний балл =\n', df_grouped_gender['Средний балл'].min(), '\n')
print('Наибольший средний балл =\n', df_grouped_gender['Средний балл'].max(), '\n')
print('Среднее значение среднего балла =\n', df_grouped_gender['Средний балл'].mean(), '\n')


<a name="DataFrame_4"></a>
# Ответ на задачу DataFrame_4

In [None]:
# Ответ на 1:
df_marks.where((df_marks['math score']>=75)&(df_marks['physics score']<75)).dropna().head()

# Ответ на 2:
def mean_div_100(arr):
    return arr.mean() / 100

df_marks.groupby('group').agg([mean_div_100])