# Библиотека Pandas

<p><img src="https://www.pngarts.com/files/1/Baby-Panda-PNG-Download-Image.png" style="width:200px; float:left"> </p>

<a href="http://pandas.pydata.org/">Pandas</a> - библиотека для обработки и анализа данных. Предназначена для данных разной природы - матричных, панельных данных, временных рядов. Претендует на звание самого мощного и гибкого средства для анализа данных с открытым исходным кодом.


Загрузка любой библиотеки выглядит следующим образом: <br /> 
**import** название [**as** псевдоним]

Обычно список импортируемых библиотек задается в самом начале ноутбука

In [None]:
# загрузили библиотеку и задали ее псевдоним, по которому далее к ней будем обращаться: pd
import pandas as pd

## Классы в Pandas

В пандас есть два типа структур данных:
- `Series`: одномерный массив с именованными индексами (чаще всего, данные одного типа)
- `DataFrame`: двухмерный массив, имеет табличную структуру, легко изменяется по размерам, может содержать в себе данные разных типов

Оба типа можно создавать вручную с помощью функций из самой библиотеки:
- `pandas.Series(data=None, index=None, dtype=None)`
- `pandas.DataFrame(data=None, index=None, columns=None, dtype=None)`

- **data** - данные, которые надо записать в структуру
- **index** - индексы строк
- **columns** - названия столбцов
- **dtype** - тип данных

Кроме `data`, остальные параметры опциональны

In [None]:
pd.Series([1, 2, 3, 5, 8, 13.5, 'asd', pd.datetime(2018, 1, 13)])

In [None]:
#можно задать словарь

d = dict({
    'City': ['MSK', 'SPB', 'NN', 'SPB'],
    'Temperature': [-3, +2, -3, +2],
    'State': ['Cloudy', 'Clear', 'Snow', 'Clear'],
    'Date':[pd.datetime(2017, 1, 16), pd.datetime(2017, 1, 13), pd.datetime(2017, 3, 13), pd.datetime(2017, 1, 1)]
})

pd.DataFrame(d)

In [None]:
# можно задать список
weather = pd.DataFrame([['MSK', 'SPB', 'NN', 'SPB'],[-3, +2, -3, +2],
                        ['Cloudy', 'Clear', 'Snow', 'Clear'],
                        [pd.datetime(2017, 1, 16), pd.datetime(2017, 1, 13), pd.datetime(2017, 3, 13), pd.datetime(2017, 1, 1)]], 
                       index = ['City', 'Temperature', 'State', 'Date'])
weather

In [None]:
# траспонируем таблицу, чтобы получить в интересующем нас виде
weather = weather.transpose()
weather

В библиотеке есть:

- **функции**: маленькие программы, выполняющие серию команд
- **методы**: функции, присущие исключительно объекту класса

weather - это объект класса DataFrame <br />
transpose() - это метод класса DataFrame, примененный к объекту weather <br />

## Загрузка и запись данных
Функции типа .read_формат и 
.to формат считывают и записывают данные соответственно. <br /> Полный список можно найти в документации:
http://pandas.pydata.org/pandas-docs/stable/io.html

Научимся считывать данные в формате csv (comma separated value) функцией:

- <a href="http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html#pandas.read_csv"> pd.read_csv()</a>: 

Аргументов у нее очень много, критически важные:
 - **filepath_or_buffer** - текстовая строка с названием (адресом) файла
 - **sep** - разделитель между данными
 - **header** - номер строки, в которой в файле указаны названия столбцов, None, если нет
 - **names** - список с названиями колонок
 - **index_col** - или номер столбца, или список,  или ничего - названия строк
 
 <a href="https://docs.google.com/spreadsheets/d/1tvaY9HyAyUwidqpZj11x_CVhlXHprnDog7JHou_3Tho/edit?usp=sharing"> Скачайте данные </a>

In [None]:
# Скорее всего, данные в папке загрузки. 
# Если текущий ноутбук лежит у вас на компьютере в папке, отличной от папки, куда загрузились данные, нужно указать полный путь
# Если оба файла в одной папке, достаточно указать FoodConsumptionInEurope.csv

# у меня они в разных папках
foodCons = pd.read_csv('data/FoodConsumptionInEurope.csv')
# Выведем на печать
foodCons

In [None]:
# Cчитаем так, чтобы первый столбец стал названием строк
foodCons = pd.read_csv('data/FoodConsumptionInEurope.csv', index_col = 0)
foodCons

In [None]:
# транспонируем и применим метод head, чтобы посмотреть на первую строчку
foodCons = foodCons.transpose()
foodCons

In [None]:
# Запишем в папку рядом с вашим ноутбуком переделанный файл
foodCons.to_csv('Food.csv')

## Просмотр данных
Методы:
- head(): первые записи
- tail(): последние записи
- describe(): таблича с описательными статистиками

In [None]:
foodCons.head(1)

In [None]:
foodCons.tail(3)

In [None]:
foodCons.describe()

## Сортировка данных в таблице
Методы:
- sort_index - сортировка либо по столбцам, либо по строкам
- sort_values - сортировка по значению

In [None]:
foodCons.sort_index(axis = 'index', ascending = False)

In [None]:
foodCons.sort_index(axis = 'columns', ascending = True)

In [None]:
foodCons.sort_values(by = 'Eggs', ascending = True)

## Выбор данных из датафрейма

In [None]:
#Выбор по столбцу
#foodCons['RedMeat']
foodCons.RedMeat

In [None]:
#Выбор по строкам
foodCons[0:2]

In [None]:
foodCons['Albania':'Belgium']

In [None]:
#Выбор строки по названию
foodCons.loc['Austria']

In [None]:
#пара столбцов
foodCons.loc[:, ['RedMeat', 'Eggs']]

In [None]:
#пара столбцов
foodCons.loc[['Austria','Belgium'], ['RedMeat', 'Eggs']]

In [None]:
#пара столбцов
foodCons.loc['Austria', 'RedMeat']

In [None]:
#Выбор строки по номеру
foodCons.iloc[1]

In [None]:
#Выбор одного элемента
foodCons.iloc[1,0]

In [None]:
foodCons.iloc[0:3,1:4]

In [None]:
foodCons.iloc[:,1]

In [None]:
foodCons.iloc[1,:]

## Выбор с условием

Допустим, что нам нужны не только целом столбцы или "слайсы" данных, но данные, соответствующие определенным условиям

In [None]:
foodCons[foodCons > 5]

In [None]:
foodCons[foodCons['RedMeat'] > 5]

In [None]:
foodCons[foodCons['RedMeat'] > 5]['Eggs']

## Вставка/Замена данных

In [None]:
foodCons.at['Austria', 'RedMeat'] = 9
foodCons.loc['Austria']

In [None]:
foodCons.iat[1, 0] = 8.9
foodCons.iloc[1,:]

## Борьба с пропущенными значениями
- pd.isna(DataFrame) - есть ли пропущенные
- fillna(value = x) - заполнить пропуски данными
- dropna(axis, how) - удалить строки или столбцы; how = 'any' - если хотя бы в одной ячейке есть пропуск; how = 'all' - если во всех ячейках есть пропуски

In [None]:
#сделаем так, чтобы в данных появились дыры
foodCons = pd.read_csv('Food.csv', index_col = 0)
foodCopy = foodCons[foodCons > 4]
foodCopy

In [None]:
#Проверка на пропущенные значения
pd.isnull(foodCopy)

In [None]:
foodCopy.fillna(value = 0)

In [None]:
foodCopy = foodCons[foodCons > 8]
foodCopy.dropna(axis = 1, how = 'any')

## Вставка столбцов и строк
Столбцы вставляются очень просто. 
Например, добавим столбец с регионами Европы

Европейские регионы: <br />
- Северная Европа: 0 <br />
- Южная Европа: 1 <br />
- Западная Европа: 2 <br />
- Восточная Европа: 3 <br />

In [None]:
foodCons['Region'] = [1, 2, 2, 3, 3, 0, 2, 0, 2, 1, 3, 2, 1, 2, 0, 3, 1, 3, 1, 0, 2, 2, 3, 2]
foodCons

А строчки - методом append

In [None]:
s = foodCons.iloc[3]
foodCons.append(s)

## Группировка данных
Метод groupby группирует по столбцу

In [None]:
foodCons.groupby('Region').sum()

## Задача
Скачайте данные по <a href=https://www.dropbox.com/s/f2e3afgxw90qluw/yob2015.txt?dl=0>ссылке</a>. <br />
В файле представлена информация об именах новорожденных в США в 2015 году в формате: "name, gender, count"

0. Данные в формате .txt, но отлично считываются изученной функцией для чтения :)
1. Укажите наименования заголовков Name, Gender, Count
2. Выведите первые 10 строк
3. Посчитайте, сколько всего новорожденных
4. Посчитайте, сколько новорожденных девочек
5. Посчитайте долю девочек среди новорожденных и округлите до двух знаков после запятой

# Итоги

## Библиотека pandas:

###  Функции для создания объектов
- pd.Series()
- pd.DataFrame()
- pd.read_csv()
- pd.isna()

### Методы
- pd.DataFrame.transpose()
- pd.DataFrame.head()
- pd.DataFrame.tail()
- pd.DataFrame.rename()
- pd.DataFrame.loc()
- pd.DataFrame.iloc()
- pd.DataFrame.fillna()
- pd.DataFrame.dropna()
- pd.DataFrame.append()
- pd.DataFrame.sum()