# Семинар по библиотеке Pandas

Библиотека Pandas - важная библиотека, с которой мы будем активно работать в курсе. Pandas $-$ это модуль для первичной работы с данными, с помощью которого можно проводить простой анализ данных и предобработку данных..
Основные возможности:
* удобное чтение и запись данных из csv, txt, xls, SQL databases, HDF5
* удобная работа с пропусками в данных
* поиск, сортировка, выборка объектов, удовлетворяющих заданным критериям
* возможности по соединению датасетов
* красивая визуализация

Импорт библиотеки:

In [1]:
import pandas as pd

### Загрузка данных и создание датафреймов

*csv, tsv (с табом)*

colmun1, column2

text1,32

text2,45

text3,879

__Наиболее популярные форматы данных (при скачивании датасета из интернета)__:
* _csv_ (comma separated file), _tsv_ (tab separated file) - таблицы, записанные в текстовые файлы с простой структурой. Эти файлы можно открывать в обычном текстовом редакторе. Pandas позволяет считывать эти данные именно в формате таблицы.
* _xls_ (eXceL Spreadsheet $-$ таблицы Microsoft)
* _json_ (JavaScript Object Notation, используется для _сериализации_ структур языка, то есть сохранения сложных объектов, например, вложенных списков или словарей python). Json-текст представляет собой либо набор пар ключ: значение, либо упорядоченный набор значений
* _txt_ в иной специфичной для задачи форме (например, vowpal-wabbit и uci bag-of-words для <<мешка слов>>)

В pandas есть функции для считывания во всех этих форматах.

В реальной жизни данные хранятся в базах данных, откуда с помощью sql-подобных языков из них составляют файлы в указанных выше форматах.

__Чтение из csv с помощью pandas__:
[pandas.read_csv()](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html)
У функции несколько параметров, основные необходимые:
* filepath_or_buffer (перый и единственный обязательный аргумент) --- имя файла
* sep $-$ разделитель (; , \t ...)
* quotechar $-$ символ кавычек, все что внутри считается за строку (разделители также могут входить в эту строку; ' " ...)
* names $-$ список названий колонок
* header $-$ номер строки файла (с 0), которую нужно считать заголовком
* dtype $-$ словарь, сопоставляющий именам колонок типы данных в них
* na_values $-$ строка/список/словарь (ключи $-$ названия колонок) строковых значений, которые нужно считать пропуском.

По умолчанию names=None и header=0, то есть названия колонок берутся из первой строки файла. Можно передать названия через names. Если вы не хотите давать названия, укажите header=None, тогда названия будут даны автоматически индексами с 0. Учтите, что названия нужны при дальнейшей работе с данными (если вы только не собираетесь взять оттуда только numpy-матрицу; в этом случае они не понадобятся). Следите за длиной списка названий, он должен совпадать с реальным числом колонок в файле (а в противном случае вы получите ошибки)! Чтобы заменить заголовки, записанные в файле, нужно установить header=0 и передать names.

В функцию pd.read\_csv можно передавать как путь к файлу, хранящемуся на компьютере, так и ссылку на файл в Интернете.

Для чтения xls: [pandas.read_excel](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_excel.html)

Для чтения sql: [pandas.read_sql](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_sql.html)


Считывание данных:

In [5]:
?pd.read_csv

In [64]:
data = pd.read_csv("https://raw.githubusercontent.com/iad34/seminars/master/materials/data_sem1.csv",
                   sep=";")

In [7]:
data

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,Braund; Mr. Owen Harris,male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,Cumings; Mrs. John Bradley (Florence Briggs Th...,female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,Heikkinen; Miss. Laina,female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,Futrelle; Mrs. Jacques Heath (Lily May Peel),female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,Allen; Mr. William Henry,male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,Montvila; Rev. Juozas,male,27.0,0,0,211536,13.0000,,S
887,888,1,1,Graham; Miss. Margaret Edith,female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston; Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,Behr; Mr. Karl Howell,male,26.0,0,0,111369,30.0000,C148,C


Название колонок:

In [8]:
data.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

Мы будем работать с данными Titanic: он содержит информаицию о пассажирах корабля, включая их демографические характеристики и выжил пассажир или нет.

Посмотреть первые строки:

In [9]:
data.head(10)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,Braund; Mr. Owen Harris,male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,Cumings; Mrs. John Bradley (Florence Briggs Th...,female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,Heikkinen; Miss. Laina,female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,Futrelle; Mrs. Jacques Heath (Lily May Peel),female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,Allen; Mr. William Henry,male,35.0,0,0,373450,8.05,,S
5,6,0,3,Moran; Mr. James,unknown,,0,0,330877,8.4583,,Q
6,7,0,1,McCarthy; Mr. Timothy J,male,54.0,0,0,17463,51.8625,E46,S
7,8,0,3,Palsson; Master. Gosta Leonard,male,2.0,3,1,349909,21.075,,S
8,9,1,3,Johnson; Mrs. Oscar W (Elisabeth Vilhelmina Berg),female,27.0,0,2,347742,11.1333,,S
9,10,1,2,Nasser; Mrs. Nicholas (Adele Achem),female,14.0,1,0,237736,30.0708,,C


In [11]:
data.tail(10)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
881,882,0,3,Markun; Mr. Johann,male,33.0,0,0,349257,7.8958,,S
882,883,0,3,Dahlberg; Miss. Gerda Ulrika,female,22.0,0,0,7552,10.5167,,S
883,884,0,2,Banfield; Mr. Frederick James,male,28.0,0,0,C.A./SOTON 34068,10.5,,S
884,885,0,3,Sutehall; Mr. Henry Jr,male,25.0,0,0,SOTON/OQ 392076,7.05,,S
885,886,0,3,Rice; Mrs. William (Margaret Norton),female,39.0,0,5,382652,29.125,,Q
886,887,0,2,Montvila; Rev. Juozas,male,27.0,0,0,211536,13.0,,S
887,888,1,1,Graham; Miss. Margaret Edith,female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston; Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,Behr; Mr. Karl Howell,male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,Dooley; Mr. Patrick,male,32.0,0,0,370376,7.75,,Q


In [12]:
type(data)

pandas.core.frame.DataFrame

In [16]:
pd.DataFrame(data['Survived'])

Unnamed: 0,Survived
0,0
1,1
2,1
3,1
4,0
...,...
886,0
887,1
888,0
889,1


Методы в пандас работают либо с Series, либо с DataFrame, но есть и те, которые работают и с тем и с другим, но они не стабильны.

In [None]:
data

Переменная, которую возвращает функция чтения, ссылается на _датафрейм_; это основная структура данных в pandas. Его можно создать и вручную:

In [24]:
df = pd.DataFrame({'AAA' : [4,5,6,7], 'BBB' : [10,20,30,40], 'CCC' : [100,50,-30,-50]})
df

Unnamed: 0,AAA,BBB,CCC
0,4,10,100
1,5,20,50
2,6,30,-30
3,7,40,-50


Ключ - название колонок.


### Работа со строками и столбцами датафрейма

Датафрейм - это таблица. Названия строк:

In [25]:
data.index

RangeIndex(start=0, stop=891, step=1)

Названия столбов:

In [26]:
data.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

Полезный функционал:
* параметр df.dtypes $-$ типы колонок
* метод [df.fillna(value)](http://pandas.pydata.org/pandas-docs/version/0.17.1/generated/pandas.DataFrame.fillna.html), value $-$ на что заменить (скаляр или словарь с ключами-названиями колонок)
* методы df.head([N]) и df.tail([N]) $-$ показать N (необязательный аргумент) первых или последних значений
* параметры df.index, df.columns и df.values $-$ соответственно индексы строк датафрейма, названия колонок и np.array, составленный из значений датафрейма
* метод df.T $-$ транспонировать данные (поменять строки и столбцы местами)
* сортировка данных по индексу (по названиям строк) и по значениям колонки, например df.sort_index(axis=1, ascending=False) и df.sort_values(by='B')
* метод df.copy() $-$ копировать датафрейм

Все структуры данных, показываемые и возвращаемые pandas, имеют тип, придуманный разработчиками pandas (а не стандартный для python список или словарь). Все эти типы имеют удобный интерфейс обращения к своим элементам (индексация, slicing), но иногда кажутся непривычными. Например, df[smth], как указано выше, должен выдать колонку, имеющую название smth (если она существует в датафрейме).

В датафрейме могут храниться данные разных типов (главное, чтобы тип был один и тот же внутри колонки), например float, int, string.

Выбор нескольких столбцов:

In [27]:
data.dtypes

PassengerId      int64
Survived         int64
Pclass           int64
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Cabin           object
Embarked        object
dtype: object

In [30]:
# df.fillna()

In [29]:
data.dropna()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,Cumings; Mrs. John Bradley (Florence Briggs Th...,female,38.0,1,0,PC 17599,71.2833,C85,C
3,4,1,1,Futrelle; Mrs. Jacques Heath (Lily May Peel),female,35.0,1,0,113803,53.1000,C123,S
6,7,0,1,McCarthy; Mr. Timothy J,male,54.0,0,0,17463,51.8625,E46,S
10,11,1,3,Sandstrom; Miss. Marguerite Rut,female,4.0,1,1,PP 9549,16.7000,G6,S
11,12,1,1,Bonnell; Miss. Elizabeth,female,58.0,0,0,113783,26.5500,C103,S
...,...,...,...,...,...,...,...,...,...,...,...,...
871,872,1,1,Beckwith; Mrs. Richard Leonard (Sallie Monypeny),female,47.0,1,1,11751,52.5542,D35,S
872,873,0,1,Carlsson; Mr. Frans Olof,male,33.0,0,0,695,5.0000,B51 B53 B55,S
879,880,1,1,Potter; Mrs. Thomas Jr (Lily Alexenia Wilson),female,56.0,0,1,11767,83.1583,C50,C
887,888,1,1,Graham; Miss. Margaret Edith,female,19.0,0,0,112053,30.0000,B42,S


In [34]:
data['PassengerId']

0        1
1        2
2        3
3        4
4        5
      ... 
886    887
887    888
888    889
889    890
890    891
Name: PassengerId, Length: 891, dtype: int64

In [37]:
data.PassengerId

0        1
1        2
2        3
3        4
4        5
      ... 
886    887
887    888
888    889
889    890
890    891
Name: PassengerId, Length: 891, dtype: int64

In [39]:
data[["Age", "Sex", "Cabin"]].tail(10)

Unnamed: 0,Age,Sex,Cabin
881,33.0,male,
882,22.0,female,
883,28.0,male,
884,25.0,male,
885,39.0,female,
886,27.0,male,
887,19.0,female,B42
888,,female,
889,26.0,male,C148
890,32.0,male,


In [13]:
print(data.index[2:5])
print(data.columns[0])
print(data.dtypes)

RangeIndex(start=2, stop=5, step=1)
PassengerId
PassengerId      int64
Survived         int64
Pclass           int64
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Cabin           object
Embarked        object
dtype: object


В машинном обучении библиотеку удобно использовать со следующей интерпретацией: по строкам датафрейма находятся объекты, по столбцам - признаки и целевая переменная. В нашем датафрейме целевая переменная задана в столбце Survived. Если мы бы хотели выделить часть датафрейма без этого столбца, мы бы использовали такой код:

In [41]:
data.drop("Survived", axis=1).head() # axis = 0 - rows, axis = 1 - columns

Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,3,Braund; Mr. Owen Harris,male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,Cumings; Mrs. John Bradley (Florence Briggs Th...,female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,3,Heikkinen; Miss. Laina,female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,Futrelle; Mrs. Jacques Heath (Lily May Peel),female,35.0,1,0,113803,53.1,C123,S
4,5,3,Allen; Mr. William Henry,male,35.0,0,0,373450,8.05,,S


Обратите внимание, что столбец не удалился из датафрейма навсегда. Наоборот, результат нашей операции записан в выводе, и если бы мы хотели его сохранить, мы должны были бы присвоить результат операции новой переменной.

Индексация по строкам:

.loc # по названиеям строк и стобцов

.iloc # по числовым индексам строк и столбцов

In [49]:
pd.DataFrame(data.loc[3:5, "Parch"])

Unnamed: 0,Parch
3,0
4,0
5,0


In [48]:
data.iloc[3:5, 2:5]

Unnamed: 0,Pclass,Name,Sex
3,1,Futrelle; Mrs. Jacques Heath (Lily May Peel),female
4,3,Allen; Mr. William Henry,male


In [46]:
# data.iloc[8:10, "Parch"] there is no index, that's why we'll see errors

In [16]:
data2 = data.iloc[data.index % 2 == 0].head(5)

# data2 = data.loc

data2

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,Braund; Mr. Owen Harris,male,22.0,1,0,A/5 21171,7.25,,S
2,3,1,3,Heikkinen; Miss. Laina,female,26.0,0,0,STON/O2. 3101282,7.925,,S
4,5,0,3,Allen; Mr. William Henry,male,35.0,0,0,373450,8.05,,S
6,7,0,1,McCarthy; Mr. Timothy J,male,54.0,0,0,17463,51.8625,E46,S
8,9,1,3,Johnson; Mrs. Oscar W (Elisabeth Vilhelmina Berg),female,27.0,0,2,347742,11.1333,,S


In [52]:
# data.index % 2 == 0

Использовать столбец Name для задания названий строк (index):

In [65]:
data.set_index(data["Name"], inplace=True) # inplace - возвращает не копию, а датафрейм

In [66]:
data.drop(['Name', "Sex"], axis=1)

Unnamed: 0_level_0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
Braund; Mr. Owen Harris,1,0,3,22.0,1,0,A/5 21171,7.2500,,S
Cumings; Mrs. John Bradley (Florence Briggs Thayer),2,1,1,38.0,1,0,PC 17599,71.2833,C85,C
Heikkinen; Miss. Laina,3,1,3,26.0,0,0,STON/O2. 3101282,7.9250,,S
Futrelle; Mrs. Jacques Heath (Lily May Peel),4,1,1,35.0,1,0,113803,53.1000,C123,S
Allen; Mr. William Henry,5,0,3,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...
Montvila; Rev. Juozas,887,0,2,27.0,0,0,211536,13.0000,,S
Graham; Miss. Margaret Edith,888,1,1,19.0,0,0,112053,30.0000,B42,S
"Johnston; Miss. Catherine Helen ""Carrie""",889,0,3,,1,2,W./C. 6607,23.4500,,S
Behr; Mr. Karl Howell,890,1,1,26.0,0,0,111369,30.0000,C148,C


In [67]:
data.head()

Unnamed: 0_level_0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
Braund; Mr. Owen Harris,1,0,3,Braund; Mr. Owen Harris,male,22.0,1,0,A/5 21171,7.25,,S
Cumings; Mrs. John Bradley (Florence Briggs Thayer),2,1,1,Cumings; Mrs. John Bradley (Florence Briggs Th...,female,38.0,1,0,PC 17599,71.2833,C85,C
Heikkinen; Miss. Laina,3,1,3,Heikkinen; Miss. Laina,female,26.0,0,0,STON/O2. 3101282,7.925,,S
Futrelle; Mrs. Jacques Heath (Lily May Peel),4,1,1,Futrelle; Mrs. Jacques Heath (Lily May Peel),female,35.0,1,0,113803,53.1,C123,S
Allen; Mr. William Henry,5,0,3,Allen; Mr. William Henry,male,35.0,0,0,373450,8.05,,S


Теперь строки индексируются с помощью Name (выделено жирным в начале каждой строки).

Считывание данных без названий колонок и придумывание своих названий колонкам:

In [71]:
data_m = pd.read_csv("https://archive.ics.uci.edu/ml/machine-learning-databases/mushroom/agaricus-lepiota.data",
                     header=None)

In [72]:
data_m

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,13,14,15,16,17,18,19,20,21,22
0,p,x,s,n,t,p,f,c,n,k,...,s,w,w,p,w,o,p,k,s,u
1,e,x,s,y,t,a,f,c,b,k,...,s,w,w,p,w,o,p,n,n,g
2,e,b,s,w,t,l,f,c,b,n,...,s,w,w,p,w,o,p,n,n,m
3,p,x,y,w,t,p,f,c,n,n,...,s,w,w,p,w,o,p,k,s,u
4,e,x,s,g,f,n,f,w,b,k,...,s,w,w,p,w,o,e,n,a,g
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8119,e,k,s,n,f,n,a,c,b,y,...,s,o,o,p,o,o,p,b,c,l
8120,e,x,s,n,f,n,a,c,b,y,...,s,o,o,p,n,o,p,b,v,l
8121,e,f,s,n,f,n,a,c,b,n,...,s,o,o,p,o,o,p,b,c,l
8122,p,k,y,n,f,y,f,c,n,b,...,k,w,w,p,w,o,e,w,v,l


In [74]:
data_m.columns = ["col"+str(i) for i in range(23)]

In [75]:
data_m.head()

Unnamed: 0,col0,col1,col2,col3,col4,col5,col6,col7,col8,col9,...,col13,col14,col15,col16,col17,col18,col19,col20,col21,col22
0,p,x,s,n,t,p,f,c,n,k,...,s,w,w,p,w,o,p,k,s,u
1,e,x,s,y,t,a,f,c,b,k,...,s,w,w,p,w,o,p,n,n,g
2,e,b,s,w,t,l,f,c,b,n,...,s,w,w,p,w,o,p,n,n,m
3,p,x,y,w,t,p,f,c,n,n,...,s,w,w,p,w,o,p,k,s,u
4,e,x,s,g,f,n,f,w,b,k,...,s,w,w,p,w,o,e,n,a,g


In [79]:
# Пример, который не меняет ориг таблицу
dy = pd.DataFrame({'a' : [2, 43, 2], 'b' : [12, 43, 23]})
dy

Unnamed: 0,a,b
0,2,12
1,43,43
2,2,23


In [78]:
dy.iloc[0,0]

2

In [80]:
# Пример, который меняет ориг таблицу
do = pd.DataFrame({'a' : [2, 43, 2], 'b' : [12, 43, 23]})
do

Unnamed: 0,a,b
0,2,12
1,43,43
2,2,23


In [82]:
a = do['a']

In [84]:
a[0] = 123132
do

Unnamed: 0,a,b
0,123132,12
1,43,43
2,2,23


In [85]:
# Безопасное копирование
du = pd.DataFrame({'a' : [2, 43, 2], 'b' : [12, 43, 23]})
du

Unnamed: 0,a,b
0,2,12
1,43,43
2,2,23


In [96]:
a = du.copy()
a

Unnamed: 0,a,b
0,2,12
1,43,43
2,2,23


In [93]:
a['a'] = 32324
a

Unnamed: 0,a,b
0,32324,12
1,32324,43
2,32324,23


In [90]:
du

Unnamed: 0,a,b
0,2,12
1,43,43
2,2,23


### Анализ и преобразование датафрейма

Основная информация по датафрейму:

In [22]:
data.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


По этим статистикам можно понять, одинаковый ли масштаб имеют признаки (например, Age измеряется от 0 до 80, а Pclass в единицах - от 1 до 3). Также можно понять, есть ли пропуски в данных (по count). Например, в графе Age есть пропуски.

Уникальные значения в столбце:

In [24]:
set(data["Sex"])

{'female', 'male', 'unknown'}

In [97]:
data['Sex'].unique()

array(['male', 'female', 'unknown'], dtype=object)

Уникальные значения в столбце с числом строк с таким значением:

In [99]:
data["Sex"].value_counts()

male       574
female     312
unknown      5
Name: Sex, dtype: int64

Перекодирование столбца с помощью функции map:

In [100]:
sex = data["Sex"]
sex.map({"male":1, "female":-1, "unknown":0}).head()

Name
Braund; Mr. Owen Harris                                1
Cumings; Mrs. John Bradley (Florence Briggs Thayer)   -1
Heikkinen; Miss. Laina                                -1
Futrelle; Mrs. Jacques Heath (Lily May Peel)          -1
Allen; Mr. William Henry                               1
Name: Sex, dtype: int64

Функция apply: применение функции поэлементно к столбцу или строке (+ создание нового столбца, потому что apply возвращает результат и никак не модифицирует датафрейм)

In [101]:
data["NewAge"] = data["Age"].apply(lambda x: x+100)

In [102]:
data.head()

Unnamed: 0_level_0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,NewAge
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
Braund; Mr. Owen Harris,1,0,3,Braund; Mr. Owen Harris,male,22.0,1,0,A/5 21171,7.25,,S,122.0
Cumings; Mrs. John Bradley (Florence Briggs Thayer),2,1,1,Cumings; Mrs. John Bradley (Florence Briggs Th...,female,38.0,1,0,PC 17599,71.2833,C85,C,138.0
Heikkinen; Miss. Laina,3,1,3,Heikkinen; Miss. Laina,female,26.0,0,0,STON/O2. 3101282,7.925,,S,126.0
Futrelle; Mrs. Jacques Heath (Lily May Peel),4,1,1,Futrelle; Mrs. Jacques Heath (Lily May Peel),female,35.0,1,0,113803,53.1,C123,S,135.0
Allen; Mr. William Henry,5,0,3,Allen; Mr. William Henry,male,35.0,0,0,373450,8.05,,S,135.0


Функция groupby: создание групп по значению какого-то столбца (или группы столбцов)

In [29]:
data.groupby("Sex")

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x119fac210>

In [105]:
data.groupby("Sex")['Age'].max()

Sex
female     63.0
male       80.0
unknown    39.0
Name: Age, dtype: float64

In [106]:
data.groupby("Sex")['Age'].apply(lambda x: x.mean())

Sex
female     27.953846
male       30.774590
unknown    19.276667
Name: Age, dtype: float64

Создаем столбец с фамилией:

In [107]:
data["Family"] = data["Name"].apply(lambda s: s.split(";")[0])

In [108]:
data.head(1)

Unnamed: 0_level_0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,NewAge,Family
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
Braund; Mr. Owen Harris,1,0,3,Braund; Mr. Owen Harris,male,22.0,1,0,A/5 21171,7.25,,S,122.0,Braund


Сколько человек в каждой семье (семья - множество людей с одной фамилией Family)?

In [34]:
data.groupby("Family")["Age"].count().head()

Family
Abbing     1
Abbott     2
Abelson    2
Adahl      1
Adams      1
Name: Age, dtype: int64

In [36]:
grouped_family = data.groupby("Family")["Age"]

In [43]:
grouped_family.mean()

Family
Abbing           42.0
Abbott           25.5
Abelson          29.0
Adahl            30.0
Adams            26.0
                 ... 
de Mulder        30.0
de Pelsmaeker    16.0
del Carlo        29.0
van Billiard     40.5
van Melkebeke     NaN
Name: Age, Length: 667, dtype: float64

Сколько семей, в которых больше трех человек?

In [48]:
data.head()

Unnamed: 0_level_0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,NewAge,Family
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
Braund; Mr. Owen Harris,1,0,3,Braund; Mr. Owen Harris,male,22.0,1,0,A/5 21171,7.25,,S,122.0,Braund
Cumings; Mrs. John Bradley (Florence Briggs Thayer),2,1,1,Cumings; Mrs. John Bradley (Florence Briggs Th...,female,38.0,1,0,PC 17599,71.2833,C85,C,138.0,Cumings
Heikkinen; Miss. Laina,3,1,3,Heikkinen; Miss. Laina,female,26.0,0,0,STON/O2. 3101282,7.925,,S,126.0,Heikkinen
Futrelle; Mrs. Jacques Heath (Lily May Peel),4,1,1,Futrelle; Mrs. Jacques Heath (Lily May Peel),female,35.0,1,0,113803,53.1,C123,S,135.0,Futrelle
Allen; Mr. William Henry,5,0,3,Allen; Mr. William Henry,male,35.0,0,0,373450,8.05,,S,135.0,Allen


In [111]:
(data.groupby("Family").count() > 3).sum()

PassengerId    22
Survived       22
Pclass         22
Name           22
Sex            22
Age            16
SibSp          22
Parch          22
Ticket         22
Fare           22
Cabin           2
Embarked       22
NewAge         16
dtype: int64

In [112]:
sum(data['Fare'].isna()) # Fare не имеет не заданных значений

0

Выбор строк по условию (индексация по строкам по массиву из True и False)

In [119]:
data[(data.Age > 10) & (data.Sex=="male")].head()
# binary 'and' (&)

Unnamed: 0_level_0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,NewAge,Family
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
Braund; Mr. Owen Harris,1,0,3,Braund; Mr. Owen Harris,male,22.0,1,0,A/5 21171,7.25,,S,122.0,Braund
Allen; Mr. William Henry,5,0,3,Allen; Mr. William Henry,male,35.0,0,0,373450,8.05,,S,135.0,Allen
McCarthy; Mr. Timothy J,7,0,1,McCarthy; Mr. Timothy J,male,54.0,0,0,17463,51.8625,E46,S,154.0,McCarthy
Saundercock; Mr. William Henry,13,0,3,Saundercock; Mr. William Henry,male,20.0,0,0,A/5. 2151,8.05,,S,120.0,Saundercock
Fynney; Mr. Joseph J,21,0,2,Fynney; Mr. Joseph J,male,35.0,0,0,239865,26.0,,S,135.0,Fynney


### Задания:

1. Какова доля семей, в которых минимальный возраст меньше 20 (семьи с детьми)?

In [139]:
# your code here
(data.groupby("Family")["Age"].min() < 20).sum() / len(data["Family"].unique())

0.18590704647676162

2. Какова доля выживших пассажиров из класса 3? А пассажиров из класса 1?

In [57]:
# your code here
data.groupby("Pclass")['Survived'].mean()

Pclass
1    0.629630
2    0.472826
3    0.242363
Name: Survived, dtype: float64

In [150]:
# your code here
data.groupby(data.Pclass == 1)["Survived"].mean()

Pclass
False    0.305185
True     0.629630
Name: Survived, dtype: float64

3. Сколько пассажиров выжило, а сколько - нет?

In [151]:
#your code here
data.Survived.mean()

0.3838383838383838

4. Создайте столбец "IsChild", который равен 1, если возраст меньше 20, и 0 иначе. Для пропущенных значений поведение функции может быть произвольным.

In [158]:
# your code here
data["IsChild"] = data["Age"].apply(lambda x: x < 20)
data["IsChild"] = data["IsChild"].astype(int) #Risky
data

Unnamed: 0_level_0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,NewAge,Family,IsChild
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
Braund; Mr. Owen Harris,1,0,3,Braund; Mr. Owen Harris,male,22.0,1,0,A/5 21171,7.2500,,S,122.0,Braund,0
Cumings; Mrs. John Bradley (Florence Briggs Thayer),2,1,1,Cumings; Mrs. John Bradley (Florence Briggs Th...,female,38.0,1,0,PC 17599,71.2833,C85,C,138.0,Cumings,0
Heikkinen; Miss. Laina,3,1,3,Heikkinen; Miss. Laina,female,26.0,0,0,STON/O2. 3101282,7.9250,,S,126.0,Heikkinen,0
Futrelle; Mrs. Jacques Heath (Lily May Peel),4,1,1,Futrelle; Mrs. Jacques Heath (Lily May Peel),female,35.0,1,0,113803,53.1000,C123,S,135.0,Futrelle,0
Allen; Mr. William Henry,5,0,3,Allen; Mr. William Henry,male,35.0,0,0,373450,8.0500,,S,135.0,Allen,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
Montvila; Rev. Juozas,887,0,2,Montvila; Rev. Juozas,male,27.0,0,0,211536,13.0000,,S,127.0,Montvila,0
Graham; Miss. Margaret Edith,888,1,1,Graham; Miss. Margaret Edith,female,19.0,0,0,112053,30.0000,B42,S,119.0,Graham,1
"Johnston; Miss. Catherine Helen ""Carrie""",889,0,3,"Johnston; Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S,,Johnston,0
Behr; Mr. Karl Howell,890,1,1,Behr; Mr. Karl Howell,male,26.0,0,0,111369,30.0000,C148,C,126.0,Behr,0


5. Какова доля выживших женщин из первого класса? А доля выживших мужчин из 3 класса?

In [179]:
# your code here
# !data.groupby(by = ["Sex", "Pclass"])["Survived"].mean()!
data.groupby((data.Sex == "female") & (data.Pclass == 1))["Survived"].mean()

False    0.314931
True     0.968085
Name: Survived, dtype: float64

In [194]:
new_data

Unnamed: 0,Survived
False,0.540293
True,0.136232


In [193]:
new_data = pd.DataFrame(data.groupby((data.Sex == "male") & (data.Pclass == 3))["Survived"].mean())
new_data.loc[True]

Survived    0.136232
Name: True, dtype: float64