# ML T-Generation Занятие 2: Data Wrangling Основы работы с векторными данными и визуализацией. NumPy, Pandas и matplotlib.

# Pandas

**Pandas** - это библиотека Python, предоставляющая широкие возможности для анализа данных. С ее помощью очень удобно загружать, обрабатывать и анализировать табличные данные с помощью SQL-подобных запросов. В связке с библиотеками Matplotlib и Seaborn появляется возможность удобного визуального анализа табличных данных.

In [1]:
import pandas as pd
import numpy as np
#магия для отображения графиков в тетрадке
%matplotlib inline 

На первое время хорошо держать под рукой шпаргалку с набором полезных функций

In [2]:
from IPython.display import Image
Image('pandas1.png') 

FileNotFoundError: No such file or directory: 'pandas1.png'

FileNotFoundError: No such file or directory: 'pandas1.png'

<IPython.core.display.Image object>

In [3]:
from IPython.display import Image
Image('pandas2.jpg') 

FileNotFoundError: No such file or directory: 'pandas2.jpg'

FileNotFoundError: No such file or directory: 'pandas2.jpg'

<IPython.core.display.Image object>

Основными структурами данных в Pandas являются классы Series и DataFrame. Первый из них представляет собой одномерный индексированный массив данных некоторого фиксированного типа. Второй - это двухмерная структура данных, представляющая собой таблицу, каждый столбец которой содержит данные одного типа. Можно представлять её как словарь объектов типа Series. Структура DataFrame отлично подходит для представления реальных данных: строки соответствуют признаковым описаниям отдельных объектов, а столбцы соответствуют признакам.

Для начала рассмотрим простые примеры создания таких объектов и возможных операций над ними.

### Series

** Создание объекта Series из 5 элементов, индексированных буквами:**

In [4]:
salaries = pd.Series([400, 300, 200, 250], 
              index = ['Andrew', 'Bob', 
                       'Charles', 'Ann']) 
salaries                                                               

Andrew     400
Bob        300
Charles    200
Ann        250
dtype: int64

In [5]:
# тут можно наблюдать "консистентность" между библиотеками numpy и pandas
salaries[salaries > 250]

Andrew    400
Bob       300
dtype: int64

**Индексирование возможно в виде s.Name или s['Name'].**

In [6]:
salaries.Andrew == salaries['Andrew']

True

In [7]:
salaries['Andrew'], salaries.Andrew

(400, 400)

**Series поддерживает пропуски в данных.**

In [8]:
salaries['Carl'] = np.nan
salaries

Andrew     400.0
Bob        300.0
Charles    200.0
Ann        250.0
Carl         NaN
dtype: float64

In [9]:
salaries['Carl']

nan

In [10]:
salaries

Andrew     400.0
Bob        300.0
Charles    200.0
Ann        250.0
Carl         NaN
dtype: float64

In [11]:
salaries.fillna(salaries.median(), inplace=True)

In [12]:
salaries

Andrew     400.0
Bob        300.0
Charles    200.0
Ann        250.0
Carl       275.0
dtype: float64

**Объекты Series похожи на ndarray и могут быть переданы в качестве аргументов большинству функций из Numpy.**

In [13]:
print('Второй элемент серии', salaries[1], '\n')
# Smart indexing
print(salaries[:3], '\n')
print(len(salaries[salaries > 0]), 'Положительных значение\n')

Второй элемент серии 300.0 

Andrew     400.0
Bob        300.0
Charles    200.0
dtype: float64 

5 Положительных значение



In [14]:
salaries

Andrew     400.0
Bob        300.0
Charles    200.0
Ann        250.0
Carl       275.0
dtype: float64

Можно передавать в функции numpy

In [15]:
print(np.exp(salaries))

Andrew     5.221470e+173
Bob        1.942426e+130
Charles     7.225974e+86
Ann        3.746455e+108
Carl       2.697631e+119
dtype: float64


### DataFrame

### Создание и изменение

**Альтернативным способом является создание DataFrame из словаря numpy массивов или списков.**

In [16]:
df2 = pd.DataFrame({'A': np.random.random(5), 
                    'B': ['a', 'b', 'c', 'd', 'e'], 
                    'C': np.arange(5) > 2})
df2

Unnamed: 0,A,B,C
0,0.349769,a,False
1,0.245438,b,False
2,0.843681,c,False
3,0.107361,d,True
4,0.70269,e,True


In [17]:
type(df2)

pandas.core.frame.DataFrame

**Обращение к элементам (или целым кускам фрейма):**

In [18]:
print('Элемент на 3 позиции в столбце 3 = ', df2.at[3, 'B'], '\n')
print(df2.loc[1:4, 'A':'C'])

Элемент на 3 позиции в столбце 3 =  d 

          A  B      C
1  0.245438  b  False
2  0.843681  c  False
3  0.107361  d   True
4  0.702690  e   True


**Изменение элементов и добавление новых:**

In [19]:
df2.at[2, 'B'] = 'f'
df2

Unnamed: 0,A,B,C
0,0.349769,a,False
1,0.245438,b,False
2,0.843681,f,False
3,0.107361,d,True
4,0.70269,e,True


In [20]:
df2.loc[4]

A    0.70269
B          e
C       True
Name: 4, dtype: object

In [21]:
df2.loc[5] = [3.1415, 'c', False]
df2

Unnamed: 0,A,B,C
0,0.349769,a,False
1,0.245438,b,False
2,0.843681,f,False
3,0.107361,d,True
4,0.70269,e,True
5,3.1415,c,False


In [22]:
df1 = df2.copy()
df1

Unnamed: 0,A,B,C
0,0.349769,a,False
1,0.245438,b,False
2,0.843681,f,False
3,0.107361,d,True
4,0.70269,e,True
5,3.1415,c,False


In [23]:
df1.columns = ['A', 'B', 'C']
df3 = df1.append(df2)
df3

Unnamed: 0,A,B,C
0,0.349769,a,False
1,0.245438,b,False
2,0.843681,f,False
3,0.107361,d,True
4,0.70269,e,True
5,3.1415,c,False
0,0.349769,a,False
1,0.245438,b,False
2,0.843681,f,False
3,0.107361,d,True


#### Обработка пропущенных значений

In [24]:
df1.at['o2', 'A'] = np.nan
df1.at['o4', 'C'] = np.nan
df1

Unnamed: 0,A,B,C
0,0.349769,a,False
1,0.245438,b,False
2,0.843681,f,False
3,0.107361,d,True
4,0.70269,e,True
5,3.1415,c,False
o2,,,
o4,,,


**Булева маска для пропущенных значений (True - там, где был пропуск, иначе - False):**

In [25]:
pd.isnull(df1)

Unnamed: 0,A,B,C
0,False,False,False
1,False,False,False
2,False,False,False
3,False,False,False
4,False,False,False
5,False,False,False
o2,True,True,True
o4,True,True,True


**Можно удалить все строки, где есть хотя бы один пропуск.**

In [26]:
df1

Unnamed: 0,A,B,C
0,0.349769,a,False
1,0.245438,b,False
2,0.843681,f,False
3,0.107361,d,True
4,0.70269,e,True
5,3.1415,c,False
o2,,,
o4,,,


In [27]:
df1.dropna(axis=0)

Unnamed: 0,A,B,C
0,0.349769,a,False
1,0.245438,b,False
2,0.843681,f,False
3,0.107361,d,True
4,0.70269,e,True
5,3.1415,c,False


In [28]:
df1

Unnamed: 0,A,B,C
0,0.349769,a,False
1,0.245438,b,False
2,0.843681,f,False
3,0.107361,d,True
4,0.70269,e,True
5,3.1415,c,False
o2,,,
o4,,,


In [29]:
df1.shape

(8, 3)

In [30]:
df1.shape[0]*[0]

[0, 0, 0, 0, 0, 0, 0, 0]

In [31]:
df1['D'] = df1.shape[0]*[np.nan]

In [32]:
df1

Unnamed: 0,A,B,C,D
0,0.349769,a,False,
1,0.245438,b,False,
2,0.843681,f,False,
3,0.107361,d,True,
4,0.70269,e,True,
5,3.1415,c,False,
o2,,,,
o4,,,,


In [33]:
df1.dropna(how='all', axis=1)

Unnamed: 0,A,B,C
0,0.349769,a,False
1,0.245438,b,False
2,0.843681,f,False
3,0.107361,d,True
4,0.70269,e,True
5,3.1415,c,False
o2,,,
o4,,,


**Пропуски можно заменить каким-то значением.**

In [34]:
df1.fillna()

ValueError: Must specify a fill 'value' or 'method'.

## Пример первичного анализа данных с Pandas

In [None]:
import os
import pandas as pd

Рассмотрим данную библиотеку на примере [данных](https://www.kaggle.com/c/titanic/data) [соревнования](https://www.kaggle.com/c/titanic) о предсказании судьбы пассажиров лайнера "Титаник". Имеется некоторая информация о пассажирах, по которой необходимо предсказать выживаемость каждого из них.
* Какого типа данная задача?
* Что является объектами?
* Что является ответами?
* Какие могут быть признаки? Какие у них типы?

Скачаем данные:

In [None]:
pass_data = pd.read_csv('titanic.csv', sep='\t')

Данные представляют из себя таблицу, где строка — объект, столбец — признак. Для экономии места можно выводить заданное количество первых строк объекта при помощи метода head():

In [None]:
pass_data.tail(10)

In [None]:
pass_data.head(3)

In [None]:
pass_data

Посмотрим на признаки:

In [None]:
pass_data.columns

В этом ноутбуке мы думали, что названия столбцов начинаются с маленькой буквы, а в данных первая буква заглавная, придется исправить:

In [35]:
pass_data.info()

NameError: name 'pass_data' is not defined

In [36]:
pass_data = pass_data.rename(str.lower, axis="columns")

NameError: name 'pass_data' is not defined

По данным можно индексироваться при помощи номеров строк/столбцов или названий признаков:

In [37]:
pass_data[2:5]

NameError: name 'pass_data' is not defined

In [38]:
pass_data.iloc[1:5, 1:3]

NameError: name 'pass_data' is not defined

In [None]:
pass_data.loc[1:5, "survived":"pclass"]

In [None]:
pass_data['name'].head()

In [None]:
pass_data[['name', 'sex', 'pclass']].head()

Также действует и логическая индексация, которая позволяет рассматривать определенные группы объектов:

In [None]:
pass_data[pass_data['sex'] == 'female'].head() # женщины на борту

In [None]:
pass_data.shape

In [None]:
# TASK: вывести женщин старше 60 и мужчины на борту
# Ваш код здесь
# 

& - и | - или

In [None]:
# TASK: Посмотрим, сколько на борту было относительно молодых женщин,
# путешествующих в одиночку. Скорее всего, довольно мало,
# потому что в такое длительное путешествие молодых девушек одних не отпустили бы опекающие родственники.
# Ваш код здесь
# 

Кроме того, для заданного признака можно построить гистограмму:

In [None]:
pass_data.age.hist(bins = 10)

## Редактирование DataFrame

* Переименование признаков

In [None]:
pass_data.rename(columns={'sex': 'Sex'}, inplace=True)
pass_data.head()

* Применение преобразования к существующему признаку. Например, выделим фамилию:

In [None]:
# TASK: написать функцию возвращающее фамилию
def get_last_name():
    pass

* Добавление признака

In [None]:
pass_data['Last_name'] = last_names
pass_data.head()

* Удаление признака

In [None]:
pass_data.drop('Last_name', axis=1).head()

In [None]:
pass_data.head()

In [None]:
pass_data.drop('Last_name', axis=1, inplace=True)
pass_data.head()

* Работа с пропущенными данными

In [None]:
pass_data.info()

Методы isnull() и notnull() позволяют получить бинарный массив, отражающий отсутствие или наличие данных для каждого из объектов соответственно:

In [None]:
pass_data['cabin'].isnull().head()

pass_data[pass_data['cabin'].notnull()].head() # пассажиры с известным номером шлюпки эвакуации

* Сортировка объектов/признаков

In [None]:
pass_data.sort_values(by=['pclass', 'fare'], ascending=True).head()

In [None]:
pass_data.sort_values(by=['pclass', 'fare'], ascending=[True, False]).head()

## Группировка данных

Группировка при помощи метода groupby позволяет объединять данные в группы по одному или нескольким признакам и считать по ним общую статистику.

In [None]:
pass_data.groupby('Sex') # разбиение всех объектов на 2 группы по полу

In [None]:
pass_data.groupby('Sex')['pclass'].value_counts()

In [None]:
pass_data.groupby('pclass')['fare'].describe()

In [None]:
pass_data.groupby('Sex')['age'].mean() # средний возраст для пассажиров каждого из полов

Как известно, в первую очередь спасали женщин и детей в порядке повышения номера класса, в связи с этим доля выживших женщин, вероятно, будет выше, чем доля выживших мужчин. Проверим:

In [None]:
pass_data.groupby('Sex')['survived'].mean()

Аналогично для пассажиров различных классов:

In [None]:
pass_data.groupby('pclass')[['survived', 'age']].mean()

Рассмотренные выше статистические данные могут быть рассмотрены и в виде стандартного DataFrame:

In [None]:
pass_data.groupby('Sex', as_index=False)['survived'].mean()

## Сохранение данных

Также данные можно сохранить в файл:

In [None]:
pass_data.to_csv('titanic_2.csv', index=False)

# Самостоятельная работа  №2 

In [39]:
data = {'animal': ['cat', 'cat', 'snake', 'dog', 'dog', 'cat', 'snake', 'cat', 'dog', 'dog'],
        'age': [2.5, 3, 0.5, np.nan, 5, 2, 4.5, np.nan, 7, 3],
        'visits': [1, 3, 2, 3, 2, 3, 1, 1, 2, 1],
        'priority': ['yes', 'yes', 'no', 'yes', 'no', 'no', 'no', 'yes', 'no', 'no']}

labels = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']


In [42]:
# 1. создать датафрейм
df = pd.DataFrame(data, index=labels)
df

Unnamed: 0,animal,age,visits,priority
a,cat,2.5,1,yes
b,cat,3.0,3,yes
c,snake,0.5,2,no
d,dog,,3,yes
e,dog,5.0,2,no
f,cat,2.0,3,no
g,snake,4.5,1,no
h,cat,,1,yes
i,dog,7.0,2,no
j,dog,3.0,1,no


In [43]:
# Вывести первые 3 строки
df[:3]

Unnamed: 0,animal,age,visits,priority
a,cat,2.5,1,yes
b,cat,3.0,3,yes
c,snake,0.5,2,no


In [44]:
# Вывести значения где пропущены age
df.loc[df['age'].isnull()]

Unnamed: 0,animal,age,visits,priority
d,dog,,3,yes
h,cat,,1,yes


In [46]:
# Вывести сумму всех посещений
df['visits'].sum()

19

In [53]:
# Посчитать количество каждого типа в колонке animal
df['animal'].value_counts()

cat      4
dog      4
snake    2
Name: animal, dtype: int64

In [None]:
# Сохранить в формате csv
