# Библиотека Pandas
 -  <a href="http://pandas.pydata.org/">Pandas</a> - библиотека для обработки и анализа данных. Предназначена для данных разной природы - матричных, панельных данных, временных рядов. Претендует на звание самого мощного и гибкого средства для анализа данных с открытым исходным кодом.
 
Загрузка любой библиотеки выглядит следующим образом: <br /> 
**import** название [**as** псевдоним]

Обычно список импортируемых библиотек задается в самом начале ноутбука

In [6]:
import pandas as pd
#загрузили библиотеку и задали ее псевдоним, по которому далее к ней будем обращаться: pd

## Классы в Pandas

В пандас есть два типа структур данных:
- Series: одномерный массив с именованными индексами (чаще всего, данные одного типа)
- DataFrame: двухмерный массив, имеет табличную структуру, легко изменяется по размерам, может содержать в себе данные разных типов

Оба типа можно создавать вручную с помощью функций из самой библиотеки:
- pandas.Series(data=None, index=None, dtype=None)
- pandas.DataFrame(data=None, index=None, columns=None, dtype=None)

- **data** - данные, которые надо записать в структуру
- **index** - индексы строк
- **columns** - названия столбцов
- **dtype** - тип данных

Кроме data, остальные параметры опциональны

In [4]:
pd.Series([1, 2, 3, 5, 8, 13.5, 'asd', pd.datetime(2018, 1, 13)])

0                      1
1                      2
2                      3
3                      5
4                      8
5                   13.5
6                    asd
7    2018-01-13 00:00:00
dtype: object

In [5]:
#можно задать словарь
d = dict({
    'City': ['MSK', 'SPB', 'NN', 'SPB'],
    'Temperature': [-3, +2, -3, +2],
    'State': ['Cloudy', 'Clear', 'Snow', 'Clear'],
    'Date':[pd.datetime(2017, 1, 16), pd.datetime(2017, 1, 13), pd.datetime(2017, 3, 13), pd.datetime(2017, 1, 1)]
})

pd.DataFrame(d)

Unnamed: 0,City,Date,State,Temperature
0,MSK,2017-01-16,Cloudy,-3
1,SPB,2017-01-13,Clear,2
2,NN,2017-03-13,Snow,-3
3,SPB,2017-01-01,Clear,2


In [None]:
#можно задать список
weather = pd.DataFrame([['MSK', 'SPB', 'NN', 'SPB'],[-3, +2, -3, +2],
                        ['Cloudy', 'Clear', 'Snow', 'Clear'],
                        [pd.datetime(2017, 1, 16), pd.datetime(2017, 1, 13), pd.datetime(2017, 3, 13), pd.datetime(2017, 1, 1)]], 
                       index = ['City', 'Temperature', 'State', 'Date'])
weather

In [None]:
#траспонируем таблицу, чтобы получить в интересующем нас виде
weather = weather.transpose()
weather

В библиотеке есть:

- **функции**: маленькие программы, выполняющие серию команд
- **методы**: функции, присущие исключительно объекту класса

weath - это объект класса DataFrame <br />
transpose() - это метод класса DataFrame, примененный к объекту weather <br />

## Загрузка и запись данных
Функции типа .read_формат и 
.to формат считывают и записывают данные соответственно. <br /> Полный список можно найти в документации:
http://pandas.pydata.org/pandas-docs/stable/io.html

Научимся считывать данные в формате csv (comma separated value) функцией:

- <a href="http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html#pandas.read_csv"> pd.read_csv()</a>: 

Аргументов у нее очень много, критически важные:
 - **filepath_or_buffer** - текстовая строка с названием (адресом) файла
 - **sep** - разделитель между данными
 - **header** - номер строки, в которой в файле указаны названия столбцов, None, если нет
 - **names** - список с названиями колонок
 - **index_col** - или номер столбца, или список,  или ничего - названия строк
 
 <a href="https://docs.google.com/spreadsheets/d/1tvaY9HyAyUwidqpZj11x_CVhlXHprnDog7JHou_3Tho/edit?usp=sharing"> Скачайте данные </a>

In [7]:
#Скорее всего, данные в папке загрузки. 
#Если текущий ноутбук лежит у вас на компьютере в папке, отличной от папки, куда загрузились данные, нужно указать полный путь
#Если оба файла в одной папке, достаточно указать FoodConsumptionInEurope.csv

#у меня они в разных папках
foodCons = pd.read_csv('/Users/maximnemkevich/Documents/Data Science/Repo/2. Введение в Pandas/Датасет/FoodConsumptionInEurope.csv')
#Выведем на печать
foodCons

Unnamed: 0,Country,Albania,Austria,Belgium,Bulgaria,Czechoslovakia,Denmark,E_Germany,Finland,France,...,Norway,Poland,Portugal,Romania,Spain,Sweden,Switzerland,UK,USSR,W_Germany
0,RedMeat,10.1,8.9,13.5,7.8,9.7,10.6,8.4,9.5,18.0,...,9.4,6.9,6.2,6.2,7.1,9.9,13.1,17.4,9.3,11.4
1,WhiteMeat,1.4,14.0,9.3,6.0,11.4,10.8,11.6,4.9,9.9,...,4.7,10.2,3.7,6.3,3.4,7.8,10.1,5.7,4.6,12.5
2,Eggs,0.5,4.3,4.1,1.6,2.8,3.7,3.7,2.7,3.3,...,2.7,2.7,1.1,1.5,3.1,3.5,3.1,4.7,2.1,4.1
3,Milk,8.9,19.9,17.5,8.3,12.5,25.0,11.1,33.7,19.5,...,23.3,19.3,4.9,11.1,8.6,24.7,23.8,20.6,16.6,18.8
4,Fish,0.2,2.1,4.5,1.2,2.0,9.9,5.4,5.8,5.7,...,9.7,3.0,14.2,1.0,7.0,7.5,2.3,4.3,3.0,3.4
5,Cereals,42.3,28.0,26.6,56.7,34.3,21.9,24.6,26.3,28.1,...,23.0,36.1,27.0,49.6,29.2,19.5,25.6,24.3,43.6,18.6
6,Starch,0.6,3.6,5.7,1.1,5.0,4.8,6.5,5.1,4.8,...,4.6,5.9,5.9,3.1,5.7,3.7,2.8,4.7,6.4,5.2
7,Nuts,5.5,1.3,2.1,3.7,1.1,0.7,0.8,1.0,2.4,...,1.6,2.0,4.7,5.3,5.9,1.4,2.4,3.4,3.4,1.5
8,Fr&Veg,1.7,4.3,4.0,4.2,4.0,2.4,3.6,1.4,6.5,...,2.7,6.6,7.9,2.8,7.2,2.0,4.9,3.3,2.9,3.8


In [9]:
#Cчитаем так, чтобы первый столбец стал названием строк
foodCons = pd.read_csv('/Users/maximnemkevich/Documents/Data Science/Repo/2. Введение в Pandas/Датасет/FoodConsumptionInEurope.csv', index_col = 0)
foodCons

Unnamed: 0_level_0,Albania,Austria,Belgium,Bulgaria,Czechoslovakia,Denmark,E_Germany,Finland,France,Greece,...,Norway,Poland,Portugal,Romania,Spain,Sweden,Switzerland,UK,USSR,W_Germany
Country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
RedMeat,10.1,8.9,13.5,7.8,9.7,10.6,8.4,9.5,18.0,10.2,...,9.4,6.9,6.2,6.2,7.1,9.9,13.1,17.4,9.3,11.4
WhiteMeat,1.4,14.0,9.3,6.0,11.4,10.8,11.6,4.9,9.9,3.0,...,4.7,10.2,3.7,6.3,3.4,7.8,10.1,5.7,4.6,12.5
Eggs,0.5,4.3,4.1,1.6,2.8,3.7,3.7,2.7,3.3,2.8,...,2.7,2.7,1.1,1.5,3.1,3.5,3.1,4.7,2.1,4.1
Milk,8.9,19.9,17.5,8.3,12.5,25.0,11.1,33.7,19.5,17.6,...,23.3,19.3,4.9,11.1,8.6,24.7,23.8,20.6,16.6,18.8
Fish,0.2,2.1,4.5,1.2,2.0,9.9,5.4,5.8,5.7,5.9,...,9.7,3.0,14.2,1.0,7.0,7.5,2.3,4.3,3.0,3.4
Cereals,42.3,28.0,26.6,56.7,34.3,21.9,24.6,26.3,28.1,41.7,...,23.0,36.1,27.0,49.6,29.2,19.5,25.6,24.3,43.6,18.6
Starch,0.6,3.6,5.7,1.1,5.0,4.8,6.5,5.1,4.8,2.2,...,4.6,5.9,5.9,3.1,5.7,3.7,2.8,4.7,6.4,5.2
Nuts,5.5,1.3,2.1,3.7,1.1,0.7,0.8,1.0,2.4,7.8,...,1.6,2.0,4.7,5.3,5.9,1.4,2.4,3.4,3.4,1.5
Fr&Veg,1.7,4.3,4.0,4.2,4.0,2.4,3.6,1.4,6.5,6.5,...,2.7,6.6,7.9,2.8,7.2,2.0,4.9,3.3,2.9,3.8


In [None]:
#транспонируем и применим метод head, чтобы посмотреть на первую строчку
foodCons = foodCons.transpose()
foodCons

In [None]:
#Запишем в папку рядом с вашим ноутбуком переделанный файл
foodCons.to_csv('Food.csv')

## Просмотр данных
Методы:
- head(): первые записи
- tail(): последние записи
- describe(): таблича с описательными статистиками

In [None]:
foodCons.head(1)

In [None]:
foodCons.tail(3)

In [None]:
foodCons.describe()

## Сортировка данных в таблице
Методы:
- sort_index - сортировка либо по столбцам, либо по строкам
- sort_values - сортировка по значению

In [10]:
foodCons.sort_index(axis = 'index', ascending = False)

Unnamed: 0_level_0,Albania,Austria,Belgium,Bulgaria,Czechoslovakia,Denmark,E_Germany,Finland,France,Greece,...,Norway,Poland,Portugal,Romania,Spain,Sweden,Switzerland,UK,USSR,W_Germany
Country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
WhiteMeat,1.4,14.0,9.3,6.0,11.4,10.8,11.6,4.9,9.9,3.0,...,4.7,10.2,3.7,6.3,3.4,7.8,10.1,5.7,4.6,12.5
Starch,0.6,3.6,5.7,1.1,5.0,4.8,6.5,5.1,4.8,2.2,...,4.6,5.9,5.9,3.1,5.7,3.7,2.8,4.7,6.4,5.2
RedMeat,10.1,8.9,13.5,7.8,9.7,10.6,8.4,9.5,18.0,10.2,...,9.4,6.9,6.2,6.2,7.1,9.9,13.1,17.4,9.3,11.4
Nuts,5.5,1.3,2.1,3.7,1.1,0.7,0.8,1.0,2.4,7.8,...,1.6,2.0,4.7,5.3,5.9,1.4,2.4,3.4,3.4,1.5
Milk,8.9,19.9,17.5,8.3,12.5,25.0,11.1,33.7,19.5,17.6,...,23.3,19.3,4.9,11.1,8.6,24.7,23.8,20.6,16.6,18.8
Fr&Veg,1.7,4.3,4.0,4.2,4.0,2.4,3.6,1.4,6.5,6.5,...,2.7,6.6,7.9,2.8,7.2,2.0,4.9,3.3,2.9,3.8
Fish,0.2,2.1,4.5,1.2,2.0,9.9,5.4,5.8,5.7,5.9,...,9.7,3.0,14.2,1.0,7.0,7.5,2.3,4.3,3.0,3.4
Eggs,0.5,4.3,4.1,1.6,2.8,3.7,3.7,2.7,3.3,2.8,...,2.7,2.7,1.1,1.5,3.1,3.5,3.1,4.7,2.1,4.1
Cereals,42.3,28.0,26.6,56.7,34.3,21.9,24.6,26.3,28.1,41.7,...,23.0,36.1,27.0,49.6,29.2,19.5,25.6,24.3,43.6,18.6


In [11]:
foodCons.sort_index(axis = 'columns', ascending = True)

Unnamed: 0_level_0,Albania,Austria,Belgium,Bulgaria,Czechoslovakia,Denmark,E_Germany,Finland,France,Greece,...,Norway,Poland,Portugal,Romania,Spain,Sweden,Switzerland,UK,USSR,W_Germany
Country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
RedMeat,10.1,8.9,13.5,7.8,9.7,10.6,8.4,9.5,18.0,10.2,...,9.4,6.9,6.2,6.2,7.1,9.9,13.1,17.4,9.3,11.4
WhiteMeat,1.4,14.0,9.3,6.0,11.4,10.8,11.6,4.9,9.9,3.0,...,4.7,10.2,3.7,6.3,3.4,7.8,10.1,5.7,4.6,12.5
Eggs,0.5,4.3,4.1,1.6,2.8,3.7,3.7,2.7,3.3,2.8,...,2.7,2.7,1.1,1.5,3.1,3.5,3.1,4.7,2.1,4.1
Milk,8.9,19.9,17.5,8.3,12.5,25.0,11.1,33.7,19.5,17.6,...,23.3,19.3,4.9,11.1,8.6,24.7,23.8,20.6,16.6,18.8
Fish,0.2,2.1,4.5,1.2,2.0,9.9,5.4,5.8,5.7,5.9,...,9.7,3.0,14.2,1.0,7.0,7.5,2.3,4.3,3.0,3.4
Cereals,42.3,28.0,26.6,56.7,34.3,21.9,24.6,26.3,28.1,41.7,...,23.0,36.1,27.0,49.6,29.2,19.5,25.6,24.3,43.6,18.6
Starch,0.6,3.6,5.7,1.1,5.0,4.8,6.5,5.1,4.8,2.2,...,4.6,5.9,5.9,3.1,5.7,3.7,2.8,4.7,6.4,5.2
Nuts,5.5,1.3,2.1,3.7,1.1,0.7,0.8,1.0,2.4,7.8,...,1.6,2.0,4.7,5.3,5.9,1.4,2.4,3.4,3.4,1.5
Fr&Veg,1.7,4.3,4.0,4.2,4.0,2.4,3.6,1.4,6.5,6.5,...,2.7,6.6,7.9,2.8,7.2,2.0,4.9,3.3,2.9,3.8


In [None]:
foodCons.sort_values(by = 'Eggs', ascending = True)

## Выбор данных из датафрейма

In [None]:
#Выбор по столбцу
#foodCons['RedMeat']
foodCons.RedMeat

In [None]:
#Выбор по строкам
foodCons[0:2]

In [None]:
foodCons['Albania':'Belgium']

In [None]:
#Выбор строки по названию
foodCons.loc['Austria']

In [None]:
#пара столбцов
foodCons.loc[:, ['RedMeat', 'Eggs']]

In [None]:
#пара столбцов
foodCons.loc[['Austria','Belgium'], ['RedMeat', 'Eggs']]

In [None]:
#пара столбцов
foodCons.loc['Austria', 'RedMeat']

In [None]:
#Выбор строки по номеру
foodCons.iloc[1]

In [None]:
#Выбор одного элемента
foodCons.iloc[1,0]

In [None]:
foodCons.iloc[0:3,1:4]

In [None]:
foodCons.iloc[:,1]

In [None]:
foodCons.iloc[1,:]

## Выбор с условием

Допустим, что нам нужны не только целом столбцы или "слайсы" данных, но данные, соответствующие определенным условиям

In [None]:
foodCons[foodCons > 5]

In [None]:
foodCons[foodCons['RedMeat'] > 5]

In [None]:
foodCons[foodCons['RedMeat'] > 5]['Eggs']

## Вставка/Замена данных

In [None]:
foodCons.at['Austria', 'RedMeat'] = 9
foodCons.loc['Austria']

In [None]:
foodCons.iat[1, 0] = 8.9
foodCons.iloc[1,:]

## Борьба с пропущенными значениями
- pd.isna(DataFrame) - есть ли пропущенные
- fillna(value = x) - заполнить пропуски данными
- dropna(axis, how) - удалить строки или столбцы; how = 'any' - если хотя бы в одной ячейке есть пропуск; how = 'all' - если во всех ячейках есть пропуски

In [None]:
#сделаем так, чтобы в данных появились дыры
foodCons = pd.read_csv('Food.csv', index_col = 0)
foodCopy = foodCons[foodCons > 4]
foodCopy

In [None]:
#Проверка на пропущенные значения
pd.isna(foodCopy)

In [None]:
foodCopy.fillna(value = 0)

In [None]:
foodCopy = foodCons[foodCons > 8]
foodCopy.dropna(axis = 1, how = 'any')

## Вставка столбцов и строк
Столбцы вставляются очень просто. 
Например, добавим столбец с регионами Европы

Европейские регионы: <br />
- Северная Европа: 0 <br />
- Южная Европа: 1 <br />
- Западная Европа: 2 <br />
- Восточная Европа: 3 <br />

In [None]:
foodCons['Region'] = [1, 2, 2, 3, 3, 0, 2, 0, 2, 1, 3, 2, 1, 2, 0, 3, 1, 3, 1, 0, 2, 2, 3, 2]
foodCons

А строчки - методом append

In [None]:
s = foodCons.iloc[3]
foodCons.append(s)

## Группировка данных
Метод groupby группирует по столбцу

In [None]:
foodCons.groupby('Region').sum()

## Задача
Скачайте данные по <a href=https://www.dropbox.com/s/f2e3afgxw90qluw/yob2015.txt?dl=0>ссылке</a>. <br />
В файле представлена информация об именах новорожденных в США в 2015 году в формате: "name, gender, count"

0. Данные в формате .txt, но отлично считываются изученной функцией для чтения :)
1. Укажите наименования заголовков Name, Gender, Count
2. Выведите первые 10 строк
3. Посчитайте, сколько всего новорожденных
4. Посчитайте, сколько новорожденных девочек
5. Посчитайте долю девочек среди новорожденных и округлите до двух знаков после запятой

# Итоги

## Библиотека pandas:

###  Функции для создания объектов
- pd.Series()
- pd.DataFrame()
- pd.read_csv()
- pd.isna()

### Методы
- pd.DataFrame.transpose()
- pd.DataFrame.head()
- pd.DataFrame.tail()
- pd.DataFrame.rename()
- pd.DataFrame.loc()
- pd.DataFrame.iloc()
- pd.DataFrame.fillna()
- pd.DataFrame.dropna()
- pd.DataFrame.append()
- pd.DataFrame.sum()