# Python для анализа данных

## Введение в Pandas 

Pandas - библиотека для работы с табличными данными в питоне.
* Документация: https://pandas.pydata.org/
* 10 minutes intro: https://pandas.pydata.org/pandas-docs/stable/getting_started/10min.html
* Pandas Cheat-Sheet: https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf

In [121]:
import pandas as pd # импортировали библиотеку pandas и назвали ее pd 

In [122]:
data = pd.read_csv('train.csv')

Функция read_csv читает данные из файла формата csv данные и преобразует в pandas.DataFrame. Аналогичная функция read_excel может читать данные в офрмате xls(x).

Посмотрим на наши данные:

In [123]:
data.head(10) # функция head() показывает первые строки датафрейма, по умолчанию 5

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C


In [124]:
data.tail(10)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
881,882,0,3,"Markun, Mr. Johann",male,33.0,0,0,349257,7.8958,,S
882,883,0,3,"Dahlberg, Miss. Gerda Ulrika",female,22.0,0,0,7552,10.5167,,S
883,884,0,2,"Banfield, Mr. Frederick James",male,28.0,0,0,C.A./SOTON 34068,10.5,,S
884,885,0,3,"Sutehall, Mr. Henry Jr",male,25.0,0,0,SOTON/OQ 392076,7.05,,S
885,886,0,3,"Rice, Mrs. William (Margaret Norton)",female,39.0,0,5,382652,29.125,,Q
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


In [125]:
data.shape # функция shape показывает размерность датафрейма (строк, столбцов)

(891, 12)

In [126]:
data.columns # список столбцов 

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

Описание признаков из [источника данных](https://www.kaggle.com/competitions/titanic/data):

**PassengerId** - id пассажира

**Survived** бинарная переменная: выжил пассажирил (1) или нет (0)

**Pclass** - класс пассажира

**Name** - имя пассажира

**Sex** - пол пассажира

**Age** - возраст пассажира

**SibSp** - количество родственников (братьев, сестер, супругов) пассажира на борту

**Parch** - количество родственников (родителей / детей) пассажира на борту

**Ticket** - номер билета

**Fare** - тариф (стоимость билета)

**Cabin** - номер кабины

**Embarked** - порт, в котором пассажир сел на борт (C - Cherbourg, S - Southampton, Q = Queenstown)

Так можно обратиться к столбцу:

In [127]:
data['Age'].head()

0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: Age, dtype: float64

In [128]:
data.Age.head()

0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: Age, dtype: float64

In [129]:
data.age

AttributeError: 'DataFrame' object has no attribute 'age'

Или к нескольким столбцам сразу:

In [None]:
data[['Age', 'Sex']].head()

A так - к строке по индексу:

https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html

In [None]:
data.loc[3, ['Name', 'Age', 'Survived']]

In [None]:
data.iloc[3, 3:5]

In [None]:
data.loc[0]

In [None]:
data.iloc[0]

In [None]:
data.iloc[1:3] # строки с 1 по 3

In [None]:
data.dtypes

In [None]:
data.describe()

# data.describe().applymap('{:,.2f}'.format) # чтобы сделать форматирование читабельнее

In [None]:
data[['Age', 'Fare']].describe() # также можно применять только к отдельным колонкам

Статистики:

* count - количество непустых значений
* mean - среднее значение
* std - стандартное отклонение – мера разброса в наборе числовых данных. Выражаясь простыми словами, насколько далеко от среднего арифметического (mean) находятся точки данных. Чем выше значение стандартного отклонения, тем более разбросаны значения в выборке. И наоборот, чем ниже значение стандартного отклонения, тем более плотно упакованы значения.
* min - минимальное значение
* 25% - 25% перцентиль
* 50% - 50% перцентиль
* 75% - 75% перцентиль
* max - максимальное значение

Подробнее про квантили и перцентили: https://vk.com/@hsotalks-zachem-yaschiku-usy-kvartili-raspredeleniya

In [None]:
data.describe(include=['object'])

In [None]:
data['Age'].min()

In [None]:
data['Age'].max()

In [None]:
data['Age'].median()

In [None]:
data['Age'].quantile(0.9)

In [None]:
data['Age'].mean()

In [None]:
data['Age'] > data['Age'].mean()

In [None]:
data[data['Age'] > data['Age'].mean()]

In [None]:
data[data['Age'] > data['Age'].mean()]['Name'].head()

In [None]:
data[(data['Age'] > data['Age'].mean()) & (data['Pclass'] == 1)]

In [None]:
data[data['Fare'] > 200]

In [None]:
q = (data['Age'] > data['Age'].mean()) & (data['Pclass'] == 1) & \
    (data['Sex'] == 'female')

In [None]:
data[q].shape

In [None]:
data[q]

In [None]:
data[(data['Sex'] == 'female') | ((data['Pclass'] == 1))]

In [None]:
data[data['PassengerId'] == 2][['Name','Pclass']]

In [None]:
data.loc[1:3, 'Survived':'Sex'] # строки с 1 по 3, колонки от Survived до Sex

In [None]:
data.iloc[1:3, 1:5]

Кроме того, можно выбирать объекты, удовлетворяющие каким-то свойствам, например, все пассажиры-женщины:

In [None]:
data[data.Sex == 'female'].head()

Пассажиры первого класса:

In [None]:
data[(data.Pclass == 1) & (data.Sex == 'female')].shape

Пассажиры первого или второго классов:

In [None]:
data[data.Pclass.isin([1,2])].head()

In [None]:
data.Pclass.isin([1, 2])

Пассажиры младше 18:

In [None]:
data[data.Age < 18].shape

Девушки в возрасте от 18 до 25, путешествующие в одиночку (без каких-либо родственников):

In [None]:
data[(data.Sex == 'female') & (data.Age > 18) & (
    data.Age < 25) & (data.SibSp == 0) & (data.Parch == 0)]

Сколько таких путешественниц?

In [None]:
data[(data.Sex == 'female') & (data.Age > 18) & (data.Age < 25)
     & (data.SibSp == 0) & (data.Parch == 0) & (data.Survived == 0)].shape[0]

<hr>

### Задачи

1) Посчитайте количество пассажиров первого класса, которые сели на борт в Саутгемптоне.

In [None]:
# TODO

2) Сколько пассажиров третьего класса, которые путешествовали в компании 2 или более родственников?

In [None]:
# TODO

3) Сколько в среднем стоил билет первого класса?

In [None]:
# TODO

<hr>

Иногда нужно создать новый признак из уже существующих, например, нам интересно, сколько всего родственников путешествовало с каждым пассажиром - просто сложим столбцы SibSp и Parch и поместим сумму в новый столбец FamilySize. Такая процедура называет broadcasting. 

In [None]:
data['FamilySize'] = data['SibSp'] + data['Parch']
data.head()

А теперь давайте создадим переменную, которая бы нам показывала, что пассажир ехал в одиночку. Такой пассажир путешествовал без родственников. Мы напишем условие с помощью анонимной функции (1, если FamilySize равно 0 и 0 во всех остальных случаях) и применим ее к столбцу FamilySize с помощью метода .apply().

In [None]:
data['Alone'] = data['FamilySize'].apply(lambda x: 1 if x == 0 else 0)
data.head()

In [None]:
data[data['Alone'] == 0]

Функция, которую применяем к столбцу, может быть и посложнее. Давайте из каждого имени пассажира достанем его титул. Сначала потренируемся на одном пассажире.

In [None]:
data.loc[0]['Name']

Ок, выбрали имя. Это строка. Давайте подумаем, как достать из нее титул. Вроде бы титул всегда после фамилии. Разобьем строку по пробелу и доставим второй (первый по индексу) элемент.

In [None]:
data.loc[0]['Name'].split(', ')[1].split('.')[0]

In [None]:
data.loc[0]['Name'].split(',')[1].split('.')[0].strip()

Ура! Теперь напишем функцию, которая будет забирать титул из имени, а потом применим ее к колонке Name.

In [None]:
def return_title(full_name):
    return full_name.split(', ')[1].split('.')[0].strip() + '.'

Теперь сформируем новый столбец family_name из столбца Name с помощью написанной нами функции:

In [None]:
data['Title'] = data.Name.apply(return_title)

In [None]:
data.sample(5)

Кстати, удалить колонку можно так. В нашем анализе мы не будем использовать колонку Ticket, даайте удалим ее.

In [None]:
del data['Ticket']

In [None]:
data['Title'].unique()

In [None]:
data['Title'].nunique()

Полезно посмотреть, какие значения содержатся в столбце. Для категориальных данных можно посчитать частоту встречаемости каждого значения с помошью функции value_counts:

In [None]:
data['Title'].value_counts()

In [None]:
data['Title'].value_counts(normalize=True) # * 100

Очень много уникальных значений! Обычно это не очень хорошо для статистического анализа, давайте все такие титулы переиминуем в Misc (другие).

In [None]:
data['Title'] = data['Title'].apply(lambda x: 'Misc' if x not in ['Mr.', 'Miss.', 'Mrs.', 'Master.'] else x)

In [None]:
data['Title'].value_counts()

In [None]:
data['Pclass'].value_counts()

In [None]:
data['Embarked'].value_counts()

Данные можно сортировать:

In [None]:
data.sort_values(by=['Age']).head() # сортируем по возрасту, по умолчанию сортирвка по возрастанию

In [None]:
data.sort_values(by=['Age'], ascending=False).head() # сортируем по возрасту, теперь по убыванию

In [None]:
data.sort_values(
    by=['Age', 'Fare'],
    ascending=False).head(15)  # сортируем сперва по возрасту (по убыванию),
# потом стоимости билета  (по убыванию)

In [None]:
data.sort_values(by=['Age', 'Fare'], ascending=[False, True]).head(15)
# сортируем сперва по возрасту (по убыванию),
# потом стоимости билета  (по возрастанию)

И группировать:

In [None]:
data.groupby('Pclass')['Fare'].mean()

In [None]:
data.groupby('Pclass')[['Fare']].mean()

In [None]:
data.groupby('Pclass')[['Fare']].mean().shape

In [None]:
data.groupby('Pclass')[['Fare']].mean().index

In [None]:
data.groupby('Pclass')[['Fare']].mean().reset_index()

In [None]:
data.groupby('Pclass')['Fare'].min()

In [None]:
data[data['Fare'] == 0]

In [None]:
data.groupby('Pclass')['Fare'].max()

In [None]:
data.groupby('Pclass')['Fare'].agg(['min', 'max', 'median', 'mean'])

In [None]:
data.groupby('Sex') # разбиение всех объектов на 2 группы по полу - возращает просто сгруппированый датафрейм

In [None]:
# группируем по полу и считаем для каждого пассажирова разных классов
data.groupby('Sex')['Pclass'].value_counts()

In [None]:
data.groupby('Sex')['Age'].mean() # средний возраст для пассажиров каждого из полов

## И еще чуть-чуть! Работа с пропущенными значениями.

Если вы помните, то переменная Age содержит пропущенные значения. Давайте посмотрим информацию об этой колонке.


In [None]:
data[['Age']].info()  

# обратите внимание - двойные скобки. Так pandas нам вернет датафрейм из одной колонки, а не список.
# А метод info() работает только с датафреймом

In [None]:
data.shape

In [None]:
type(data['Age'])  # вот так - объект подобный списку (Series)

In [None]:
type(data[['Age']])  # а вот так - датафрейм

Вернемся к info(). Мы видим, что из 891 наблюдения у нас только 714 ненулевых значений. Значит, у этих пассажиров возраст неизвестен. Ваши идеи, что можно с этим сделать?

Есть разные варианты того, что делать с пропущенными значениями - от "не делать ничего и выкинуть их" до "давайте предскажем их значения с помощью нейронки". Почитать можно здесь: 

https://towardsdatascience.com/6-different-ways-to-compensate-for-missing-values-data-imputation-with-examples-6022d9ca0779

Мы с вами попробуем сделать второй по сложности вариант (после не делать ничего) и заменить их средним значением (средним или медианой). Для категориальных данных можно заполнять пропущенные значения модой.

Пропущенные значения могут быть закодированы по-разному - 0, 'No response', '999'. В итоге мы их всегда хотим привести к объекту NaN (not a number), с которым могут работать методы pandas. В нашем датасете они уже нужного формата. В других случаях, нужно будет отфильтровать значения и привести их к нужному виду.


In [None]:
print(data.loc[5, 'Age'])
print(type(data.loc[5, 'Age']))

In [None]:
data[data['Age'].isnull()].head() 
# выводим значения датафрейма, в которых отсутствует возраст
# Они возращают True методу .isnull()

In [None]:
data['Age'].median() # вспомним какая у нас медиана

In [None]:
data['Age_Median'] = data['Age'].fillna(data['Age'].median())  
# сохраняю результат заполнения в новую колонку

In [None]:
data[data['Age'].isnull()].head()  
# смотрим, что произошло с возрастом в новой колонке у тех, у кого он отсутсвовал

In [None]:
data.head() # А у всех остальных - их нормальный возраст.

Такой метод один из самых топорных, но сойдет для первого знакомства или черновика анализа в серьезном исследовании. Давайте попробуем теперь немного улучшить его. Посмотрим, как отличается медианный возраст для мужчин и женщин.

In [None]:
data.groupby('Sex')['Age'].median()

In [None]:
data.groupby('Sex')["Age"].transform('median')

Разница два года! Было бы логично в наших данных заполнять недостающие значения по полу.

In [130]:
data["Age_Median_Sex"] = data["Age"].fillna(data.groupby('Sex')["Age"]\
                                            .transform('median'))

In [131]:
data[data['Age'].isnull()].head() 

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_Median_Sex
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q,29.0
17,18,1,2,"Williams, Mr. Charles Eugene",male,,0,0,244373,13.0,,S,29.0
19,20,1,3,"Masselmani, Mrs. Fatima",female,,0,0,2649,7.225,,C,27.0
26,27,0,3,"Emir, Mr. Farred Chehab",male,,0,0,2631,7.225,,C,29.0
28,29,1,3,"O'Dwyer, Miss. Ellen ""Nellie""",female,,0,0,330959,7.8792,,Q,27.0


In [132]:
data.head() # Опять проверяем, что это все применилось только к нужным людям

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_Median_Sex
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,22.0
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,38.0
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,26.0
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,35.0
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,35.0


Разберем как работает предыдущий кусок кода

In [98]:
# эта функция возвращает нам колонку возраст, где все значения заменены медианой по условию пола
# data.groupby('Sex') - группирует наши значения по полу
# ['Age'] - колонка, с которой работаем
# transform('median') - высчитывает медианный возраст для каждого пола и подставляет ее вместо значения

data.groupby('Sex')['Age'].transform('median').head()

0    29.0
1    27.0
2    27.0
3    27.0
4    29.0
Name: Age, dtype: float64

In [135]:
data.iloc[5]

PassengerId                      6
Survived                         0
Pclass                           3
Name              Moran, Mr. James
Sex                           male
Age                            NaN
SibSp                            0
Parch                            0
Ticket                      330877
Fare                        8.4583
Cabin                          NaN
Embarked                         Q
Age_Median_Sex                29.0
Name: 5, dtype: object

In [136]:
data['Age'] = data['Age'].fillna(data['Age_Median_Sex'])

In [137]:
data.iloc[5]

PassengerId                      6
Survived                         0
Pclass                           3
Name              Moran, Mr. James
Sex                           male
Age                           29.0
SibSp                            0
Parch                            0
Ticket                      330877
Fare                        8.4583
Cabin                          NaN
Embarked                         Q
Age_Median_Sex                29.0
Name: 5, dtype: object

<hr>

## Задание
Заполните осутствующие значения переменной "возраст" на основании титула.

In [101]:
# TODO

<hr>

### Заполнение по моде для категориальных переменных

Тоже самое (почти!) работает и для категориальных переменных.

In [138]:
data[data["Embarked"].isnull()]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_Median_Sex
61,62,1,1,"Icard, Miss. Amelie",female,38.0,0,0,113572,80.0,B28,,38.0
829,830,1,1,"Stone, Mrs. George Nelson (Martha Evelyn)",female,62.0,0,0,113572,80.0,B28,,62.0


Давайте посмотрим, что возвращает нам функция мода - не число, как например median или mean, а список. 

In [139]:
data['Embarked'].mode()

0    S
Name: Embarked, dtype: object

Чтобы передать ее результат методу fillna, нам нужно "вытащить" значение из него (а это мы умеем делать - оно лежит под нулевым индексом).

In [140]:
data['Embarked'].mode()[0]

'S'

In [141]:
# применяем
data["Embarked_Mode"] = data["Embarked"].fillna(data['Embarked'].mode()[0])

In [142]:
# проверяем
data.loc[61]

PassengerId                        62
Survived                            1
Pclass                              1
Name              Icard, Miss. Amelie
Sex                            female
Age                              38.0
SibSp                               0
Parch                               0
Ticket                         113572
Fare                             80.0
Cabin                             B28
Embarked                          NaN
Age_Median_Sex                   38.0
Embarked_Mode                       S
Name: 61, dtype: object

In [148]:
data[data["Embarked"].isnull()]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_Median_Sex,Embarked_Mode
61,62,1,1,"Icard, Miss. Amelie",female,38.0,0,0,113572,80.0,B28,,38.0,S
829,830,1,1,"Stone, Mrs. George Nelson (Martha Evelyn)",female,62.0,0,0,113572,80.0,B28,,62.0,S


### Самое важное! Сохраним результаты изменений таблицы

In [149]:
data.to_csv('titanic_new.csv')