# Курс "Программирование на языке Python. Уровень 4. Анализ и визуализация данных на языке Python. Библиотеки numpy, pandas, matplotlib"

# Модуль 5. Библиотека pandas. Работа с датасетами.

- Загрузка датасетов
- Обработка отсутствующих данных
- Поиск и удаление дублей
- Создание новых признаков, функции ```apply()``` и ```applymap()```
- Категориальные признаки, функция ```cut()```, dummy-признаки
- Горизонтальные и вертикальные объединения, функции ```merge()``` и ```concat()```
- "Широкий" и "Длинный" форматы таблиц (stack/unstack)
- Сохранение датасетов



In [None]:
# загрузите необходимые библиотеки
import pandas as pd
import numpy as np

## Загрузка датасетов

Pandas поддерживает загрузку данных из множества источников. Чаще всего придется работать с данными в форматах CSV, XLSX и JSON, а также загружать их из базы данных.

Рассмотрим загрузку данных из файла формата csv - данных, разделенных запятыми. Посмотрим содержимое файла, который мы будем загружать:

In [None]:
with open('data/load_example1.csv') as f:
    print(f.read())

Для загрузки будем использовать функцию ```pd.read_csv()```. Укажите в качестве параметра имя файла.

In [None]:
df = pd.read_csv('data/load_example1.csv')
df

Обратите внимание, как ведет себя функция по умолчанию:
 - названия колонок соответствуют содержимому первой строки файла
 - индекс по умолчанию - последовательность чисел.
 
Чтобы ```read_csv()``` включила первую строку в наш DataFrame, передайте ей параметр ```header=None```:

In [None]:
df = pd.read_csv('data/load_example1.csv', header=None)
df

Также можно задать названия столбцов самостоятельно:

In [None]:
df = pd.read_csv('data/load_example1.csv', names=['aa', 'bb', 'cc', 'dd', 'mmessage'])
df

Чтобы указать, что один из столбцов - индекс, используйте параметр index_col, там можно указать либо название поля, либо его порядковый номер:

In [None]:
df = pd.read_csv('data/load_example1.csv', index_col='message')
df

In [None]:
# или 
df = pd.read_csv('data/load_example1.csv', index_col=4)
df

Чтобы пропустить те или иные строки, используйте параметр ```skiprows```, ему можно передать список строк, которые надо пропустить:

In [None]:
df = pd.read_csv('data/load_example1.csv', skiprows=[0,1])
df

Обратите внимание: указанные строки вообще не участвуют в разборе файла!

При разборе CSV-файлов также могут встретиться следующие трудности:
 - вместо отсутствующих данных могут быть строки типа "NULL", "n/a" и т.п.
 - разделителями могут быть символы ";" (особенно при выгрузке данных из русской версии Microsoft Excel), или же символ табуляции.
 
Со всем этим может справиться функция ```read_csv()```. Загрузим файл ```data/load_example2.csv```

In [None]:
with open('data/load_example2.csv') as f:
    print(f.read())

 Для указания символа ";" в качестве разделителя, передайте фукнции параметр ```sep=';'```

In [None]:
df = pd.read_csv('data/load_example2.csv', sep=';')
df

Чтобы обработать строки "данные отсутствуют" в данном примере, функции ```read_csv()``` нужно передать параметр ```na_values='данные отсутствуют'```

In [None]:
df = pd.read_csv('data/load_example2.csv', sep=';', na_values='данные отсутствуют')
df

## Приведение данных к нужному типу

Бывает так, что данные, которые мы загружаем, содержат текстовую информацию в тех полях, где должны быть числа, даты и т.д. ```pandas``` самостоятельно разпознает и устанавливает типы данных. Посмотреть, какие типы данных ```pandas``` установил для каждой колонки, можно через свойство ```df.dtypes```:

In [None]:
df.dtypes

Скорректировать такие данные можно на уровне ```pd.Series```, используя функцию ```pd.Series.apply()```:

In [None]:
df['col3']

In [None]:
df['col3'].apply( type )

In [None]:
df.col3.apply( str.isdecimal )

In [None]:
df.loc[ ~df.col3.apply( str.isdecimal ), 'col3' ] = '15'
df

In [None]:
df.dtypes

In [None]:
df.col3 = df.col3.astype(np.int64)
df.dtypes

In [None]:
df

## Обработка отсутствующих данных

С отсутствующими данными в объекте Series можно сдедать следующее:
 - удалить функцией ```.dropna()```
 - заполнить подходящим значением, используя функцию ```.fillna()```.
 
Для поиска пустых значений используем функцию ```.isnull()```.
 
Посмотрим, как это работает на примере первого сета. Снова загрузим его.

In [None]:
df = pd.read_csv('data/load_example1.csv', index_col='message')
df

Получить series из позиций в 'b', содержащих NaN, можно используя булеву маску по колонке "b":

In [None]:
df['b'][df['b'].isnull()]

Посмотрим, как работает ```.dropna()``` в Series, получим колонку 'b' в виде этого объекта:

In [None]:
b = df['b'].copy()
b

Вызовем ```dropna()```:

In [None]:
bbd = b.dropna()
bbd

Заполним отсутствующие значения

In [None]:
# можно заполнить конкретным значением
bbf = b.fillna(0)
bbf

In [None]:
# а можно средним по всей Series
bbf = b.fillna(b.mean())
bbf

В случае с DataFrame это работает похожим образом, только функция удаляет строки, в которых встречается хотя бы одно незаполненное значение:

In [None]:
df.dropna()

Этой функции можно задать порог срабатывания, в зависимости от количества __заполненных подряд значений__ в строке. Например, нам нужно удалить только те строки, в которых заполнены как минимум первые три значения подряд:

In [None]:
df.dropna(thresh=3)

Обратите внимание на строку "bar" - несмотря на незаполненную ячейку, она не попала под удаление!

Также можно заполнять отсутствующие данные числами:

In [None]:
df.fillna(100500)

Эта функция работает и для заполнения "пробелов" горизонтальными/вертикальными агрегатными вычислениями.

In [None]:
df.fillna(df.mean())

Чтобы эти функции отработали внутри самого объекта и не возвращали его копию, используйте параметр ```inplace=True```.

__ЗАДАНИЕ__ Замените отсутствующие значения в колонке b на среднее по ней, c - на 0, d - на среднее по всей матрице.

In [None]:
# ваш код здесь

### Поиск и удаление дублей

Проверить, является ли уникальным индекс, можно, опросив свойство индекса ```is_unique```:

In [None]:
df.index.is_unique

Получить булеву маску для дубликатов по индексу можно, вызвав метод ```.duplicated()```. Применение отрицания этой маски вернет DataFrame без строки с дублированным индексом.

In [None]:
df[~df.index.duplicated()]

Тем же методом объекта DataFrame или Series можно получить булеву маску для дубликатов записей в датасете:

In [None]:
df.duplicated()

Методу можно передать параметр ```keep=```, который не будет отмечать признаком True либо первый дубликат (значение first), либо последний (значение last).

In [None]:
df.duplicated(keep='last')

Метод можно вызвать, передав ему список признаков, в которм нужно ограничиться поиском дубликатов:

In [None]:
df.duplicated(['b'])

Удалить дубликаты можно функцией ```drop_duplicates()```. Она работает так же, как и ```duplicated()```, но она возвращает новый DataFrame без дубликатов. Ее можно вызвать с параметром inplace().

In [None]:
df.drop_duplicates()

In [None]:
df[5, 'b'] = 10
df.duplicated()

### Создание новых признаков, функции apply() и applymap()

С созданием новых признаков на базе существующих данных мы уже знакомы, но часто бывает так, что для вычисления новых признаков нужно применить более сложные процедуры, чем стандартные. Для этого существуют функции ```apply()``` и ```applymap()```.



In [None]:
df = pd.DataFrame(np.random.randn(4, 3), columns=list('bde'),
                     index=['Utah', 'Ohio', 'Texas', 'Oregon'])
df

Посмотрим, как работает метод ```apply()```. Функция, которая указана в качестве параметра этого метода принимает на вход объект Series - столбец и возвращает значение, которое объединяется в объект Series, структцрно соответствующий строке текущего DataFrame. Для вычисления по строкам и формирования столбцов функции ```apply()``` нужно передать параметр ```axis=1```

In [None]:
# Функции f и ff эквивалентны:
def f(x):
    print(x)
    return x.max() - x.min()

ff = lambda x: x.max() - x.min()

df.apply(f, axis=1)

Добавление нового вычисленного признака теперь будет выглядеть так:

In [None]:
df['diff'] = df.apply(f, axis=1)
df

В отличие от ```apply()```, ```applymap()``` вычисляется для каждого элемента и возвращает значение, которое должно быть установлено на его место.

In [None]:
format_ = lambda x: '%.2f' % x
df.applymap(format_)

Для того, чтобы проделать такую операцию над Series, воспользуйтесь функцией map():

In [None]:
# df['e'] = df['e'].map(format_)
df
df['e'] = df['e'].map(lambda x: float(x))

__ЗАДАНИЕ__ В текущий DataFrame ```df``` добавьте строку с суммами значений 1000, если значение больше нуля, и 0 в противном случае.

In [None]:
# ваш код здесь

__ЗАДАНИЕ__  В датасете Titanic проверьте признак "Возраст"("Age") на выбросы (отрицательный возраст, посмотрите максимальный возраст - он правдоподобен?).
Если там есть отсутствующие значения - на их место поставьте медианный возраст пассажиров.

In [None]:
# загрузите Titanic
df_titanic = pd.read_csv('data/titanic.csv',
                  index_col='PassengerId')

# ваш код здесь


### Категориальные признаки, функция cut(), dummy-признаки

Часто возникает задача сделать более точным один из признаков, сократив по нему количество возможных вариантов, а то и вообще сведя к одному или нескольким булевам признакам (dummy-признакам).

Это может быть применено к различным количественным характеристикам (например, возраст, вес - "несовершеннолетний"/"толстый"), к географическим признакам ("Москва"/"не Москва"), к временным признакам ("До Революции/После Революции") и т.д.

Рассмотрим создание категориальных признаков на примере работы с датасетом "Титаник".

**Создадим признак "Возрастная категория"**

Создавать будем двумя способами: 
1. с помощью функции, которая возвращает 1, если до 30-ти, 2, если от 30-ти до 55-ти и 3, если старше 55.
2. с помощью функции ```pd.cut()```

In [None]:
def age_category(age):
    '''
    < 30 -> 1
    >= 30, <55 -> 2
    >= 55 -> 3
    '''
    if age < 30:
        return 1
    elif age < 55:
        return 2
    else:
        return 3
    
df_titanic['Age_category'] = df_titanic['Age'].apply(age_category)

Теперь функцией ```cut()```:

In [None]:
# создадим "козрзинки", в которые будем раскладывать наши категории
bins = [0,30,55,100]
age_categories = pd.cut(df_titanic['Age'], bins, right=False) # right=False - означает, что правая граница НЕ включена
age_categories

Чтобы добавить требуемые метки, передадим их в виде списка:

In [None]:
labels = [1,2,3]
age_categories = pd.cut(df_titanic['Age'], bins, labels=labels, right=False) 
age_categories

Теперь добавим их в наш датасет и сравним с тем, что мы сделали с помощью функции ```apply()```:

In [None]:
df_titanic['Age_category_1'] = pd.cut(df_titanic['Age'], bins, labels=labels, right=False)

In [None]:
df_titanic.T.duplicated()

Еще раз посмотрим на добавленные признаки:

In [None]:
df_titanic[ ['Age_category', 'Age_category_1']]

In [None]:
df_titanic['Age_category_1'][0:10]

Тот признак, который мы создали из функции ```cut()``` стал категориальным - его значения могут принимать три величины: 1, 2 или 3.

#### Добавление dummy-признаков

В данном случае мы вместо одного признака "возрастная категория" с тремя возможными значениями сделаем три булевых признака. В задачах машинного обучения бывает необходимость оценить степень влияния принадлежности к той или иной группе на решение задачи, и если влияние незначительное - избавиться от такого признака. Потом, ряд алгоритмов принимает на вход только цифровые значения, и такое действие позволяет избавиться от one-hot encoding для таких признаков.

Добавить их можно очень просто: функцией ```pd.get_dummies()```. При этом признак, из которого мы получаем эти dummy-признаки, не обязательно должен быть категориальным.

In [None]:
age_dummies = pd.get_dummies(df_titanic['Age_category'])
age_dummies

Как видно, названия колонок для этих признаков взяты из их значений. Чтобы придать им осмысленное название, пользуйтесь параметром ```prefix=```.

In [None]:
age_dummies = pd.get_dummies(df_titanic['Age_category_1'], prefix="age_cat_")
age_dummies

Присоединить наши новые признаки к датасету можно методом ```.join()```.

In [None]:
df_titanic = df_titanic.join(pd.get_dummies(df_titanic['Age_category_1'], prefix="age_cat_"))

In [None]:
df_titanic

### Горизонтальные и вертикальные объединения, функции merge() и concat()

"Горизонтальные" объединения (аналог JOIN в SQL) в pandas выполняются функцией или методом ```merge()```. По умолчанию оъединение производится по колонкам с совпадающими именами и только по ключам, которые включаются в оба DataFrame'а.

Создадим DataFrame с номерами грузовиков и некоторой абстрактной статистикой по ним.

In [None]:
trucks = ['X101AP', 'T123TM', 'X098AP', 'T123TM',  'X098AP', 'X101AP']
df_trucklog = pd.DataFrame({'truck':trucks, 'week':[12,10,5,6,7,9], 'month':[212,310,85,186,217,299]}, columns=['truck', 'week', 'month'])
df_trucklog

И создадим DataFrame со справочником по этим грузовикам, которые включают, например, марку. 

In [None]:
df_trucks = pd.DataFrame({'plate_number': df_trucklog['truck'].unique(),
'brand': ['VOLVO', 'RENAULT', 'MAN']}, columns=['plate_number', 'brand'])
df_trucks

Предположим, заказчику захотелось увидеть в отчете по этим грузовикам не только номер, но и марку, а в изначальном датасете она отсутствует. Мы можем "вытащить" марку из справочника, выполнив функцию ```merge()```.

Укажем в параметрах названия полей, по которым надо выполнить объединение. В результате будет возвращен новый DataFrame.

In [None]:
df_trucklog.merge(df_trucks, left_on='truck', right_on='plate_number')

Добавим в журнал по грузовикам машину, которой нет в справочнике.

In [None]:
df_trucklog = df_trucklog.append({'week': 5, 'month': 20, 'truck':'X055XT'}, ignore_index=True)
df_trucklog

Если мы хотим, чтобы данные по этой машине также присутствовали в отчете, мы можем включить все ключи слева параметром ```how='left'```.

In [None]:
df_trucklog.merge(df_trucks, left_on='truck', right_on='plate_number', how='left')

"Вертикальное" объединение таблиц возможно с помощью функции ```concat()```. На вход она получает список датафреймов, которые надо объединить. Если вы используете сгенерированные ключи, не забудьте указать параметр ```ignore_keys=True```.

In [None]:
df_trucklog1 = pd.DataFrame({'truck':trucks, 'week':[2,7,6,6,2,1], 'month':[50,25,110,162,272,292]}, columns=['truck', 'week', 'month'])
df_trucklog1

In [None]:
df_trucklog_new = pd.concat([df_trucklog, df_trucklog1], ignore_index=True)
df_trucklog_new

__???__ А как разбить DataFrame? 

__ЗАДАНИЕ__

Есть таблица студентов и номеров их зачетных книжек. Есть несколько объектов Series с оценками по различным предметам, где индексы - номера зачетных книжек. Нужно получить следующие данные:
1. Получить объединенный табель по всем предметам и студентам.
2. Получить список студентов, сдавших сессию на "хорошо" и "отлично"
3. Получить список студентов, которые сдали не все экзамены

In [None]:
df_students = pd.DataFrame({'surname': ['Ivanov', 'Petrov', 'Sidorov', 'Kuznetsov', 'Kotova', 'Ivanov'],\
                           'logbook': ['X01', 'X02', 'X04', 'X03', 'X05', 'X06', ]})
s_physics = pd.Series([5,5,2,3,4], index=['X05', 'X02', 'X03', 'X06', 'X01', ])
s_calculus = pd.Series([4,3,5,5,4,5], index=['X02', 'X01', 'X04', 'X05', 'X06', 'X03'])
s_linalg = pd.Series([5,2,3,4], index=['X01', 'X03', 'X05', 'X06'])

# ваш код здесь
