Pandas - это библиотека Python, предоставляющая широкие возможности для анализа данных. С ее помощью очень удобно загружать, обрабатывать и анализировать табличные данные с помощью SQL-подобных запросов. 

In [1]:
#Для начала работы импортируем модуль pandas
import pandas as pd #создадим краткий псевдоним при импорте модуля
import numpy as np

Основными структурами данных в Pandas являются классы Series и DataFrame. Первый из них представляет собой одномерный индексированный массив данных некоторого фиксированного типа. Второй - это двухмерная структура данных, представляющая собой таблицу, каждый столбец которой содержит данные одного типа. Можно представлять её как словарь объектов типа Series. Структура DataFrame отлично подходит для представления реальных данных: строки соответствуют признаковым описаниям отдельных объектов, а столбцы соответствуют признакам.

Для начала рассмотрим простые примеры создания таких объектов и возможных операций над ними.

### Series 

Структура/объект Series представляет из себя объект, похожий на одномерный массив (питоновский список, например), но отличительной его чертой является наличие ассоциированных меток, т.н. индексов, вдоль каждого элемента из списка. Такая особенность превращает его в ассоциативный массив или словарь в Python.

In [2]:
my_series = pd.Series([5, 6, 7, 8, 9, 10])
my_series

0     5
1     6
2     7
3     8
4     9
5    10
dtype: int64

В строковом представлении объекта Series, индекс находится слева, а сам элемент справа. Если индекс явно не задан, то pandas автоматически создаёт RangeIndex от 0 до N-1, где N общее количество элементов. Также стоит обратить, что у Series есть тип хранимых элементов, в нашем случае это int64, т.к. мы передали целочисленные значения.

In [3]:
my_series.index

RangeIndex(start=0, stop=6, step=1)

In [4]:
my_series.values

array([ 5,  6,  7,  8,  9, 10], dtype=int64)

Доступ к элементам объекта Series возможны по их индексу (вспоминается аналогия со словарем и доступом по ключу).

In [5]:
my_series[4]

9

**Индексы можно задавать явно:**

In [6]:
my_series2 = pd.Series([5, 6, 7, 8, 9, 10], index=['a', 'b', 'c', 'd', 'e', 'f'])
my_series2

a     5
b     6
c     7
d     8
e     9
f    10
dtype: int64

**Делать выборку по нескольким индексам и осуществлять групповое присваивание:**

In [7]:
my_series2[['a', 'b', 'f']]

a     5
b     6
f    10
dtype: int64

In [8]:
my_series2[['a', 'b', 'f']] = 0
my_series2

a    0
b    0
c    7
d    8
e    9
f    0
dtype: int64

**Фильтровать Series как душе заблагорассудится, а также применять математические операции и многое другое:**

In [9]:
my_series2[my_series2 > 0]

c    7
d    8
e    9
dtype: int64

In [10]:
my_series2[my_series2 > 0] * 2

c    14
d    16
e    18
dtype: int64

**Если Series напоминает нам словарь, где ключом является индекс, а значением сам элемент, то можно сделать так:**

In [11]:
my_series3 = pd.Series({'a': 5, 'b': 6, 'c': 7, 'd': 8})
my_series3

a    5
b    6
c    7
d    8
dtype: int64

In [12]:
'd' in my_series3

True

**Индекс можно поменять "на лету", присвоив список атрибуту index объекта Series**

In [13]:
my_series3.index = ['A', 'B', 'C', 'D']
my_series3

A    5
B    6
C    7
D    8
dtype: int64

Имейте в виду, что список с индексами по длине должен совпадать с количеством элементов в Series.

### DataFrame 

Объект DataFrame лучше всего представлять себе в виде обычной таблицы и это правильно, ведь DataFrame является табличной структурой данных. В любой таблице всегда присутствуют строки и столбцы. Столбцами в объекте DataFrame выступают объекты Series, строки которых являются их непосредственными элементами.

DataFrame проще всего сконструировать на примере питоновского словаря:

In [14]:
df = pd.DataFrame({'country': ['Kazakhstan', 'Russia', 'Belarus', 'Ukraine'],
                   'population': [17.04, 143.5, 9.5, 45.5],
                   'square': [2724902, 17125191, 207600, 603628]
                  })

In [15]:
df

Unnamed: 0,country,population,square
0,Kazakhstan,17.04,2724902
1,Russia,143.5,17125191
2,Belarus,9.5,207600
3,Ukraine,45.5,603628


Чтобы убедиться, что столбец в DataFrame это Series, извлекаем любой:

In [16]:
df['country']

0    Kazakhstan
1        Russia
2       Belarus
3       Ukraine
Name: country, dtype: object

In [17]:
type(df['country'])

pandas.core.series.Series

Объект DataFrame имеет 2 индекса: по строкам и по столбцам. Если индекс по строкам явно не задан (например, колонка по которой нужно их строить), то pandas задаёт целочисленный индекс RangeIndex от 0 до N-1, где N это количество строк в таблице.

In [18]:
df.columns

Index(['country', 'population', 'square'], dtype='object')

In [19]:
df.index

RangeIndex(start=0, stop=4, step=1)

В таблице у нас 4 элемента от 0 до 3. 

**Доступ по индексу в DataFrame**

Индекс по строкам можно задать разными способами, например, при формировании самого объекта DataFrame или "на лету":

In [70]:
df = pd.DataFrame({'country': ['Kazakhstan', 'Russia', 'Belarus', 'Ukraine'],
                   'population': [17.04, 143.5, 9.5, 45.5],
                   'square': [2724902, 17125191, 207600, 603628]}, 
                  index=['KZ', 'RU', 'BY', 'UA'])

In [71]:
df

Unnamed: 0,country,population,square
KZ,Kazakhstan,17.04,2724902
RU,Russia,143.5,17125191
BY,Belarus,9.5,207600
UA,Ukraine,45.5,603628


In [72]:
df.index = ['KZ', 'RU', 'BY', 'UA']

In [73]:
df.index.name = 'Country Code'

In [74]:
df

Unnamed: 0_level_0,country,population,square
Country Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
KZ,Kazakhstan,17.04,2724902
RU,Russia,143.5,17125191
BY,Belarus,9.5,207600
UA,Ukraine,45.5,603628


In [75]:
df['country']

Country Code
KZ    Kazakhstan
RU        Russia
BY       Belarus
UA       Ukraine
Name: country, dtype: object

**Доступ к строкам по индексу возможен несколькими способами:**

.loc - используется для доступа по строковой метке

.iloc - используется для доступа по числовому значению (начиная от 0)

In [76]:
df.loc['KZ']

country       Kazakhstan
population         17.04
square           2724902
Name: KZ, dtype: object

In [79]:
df.iloc[0]

country       Kazakhstan
population         17.04
square           2724902
Name: KZ, dtype: object

**Можно делать выборку по индексу и интересующим колонкам:**

In [28]:
df.loc[['KZ', 'RU'], 'population']

Country Code
KZ     17.04
RU    143.50
Name: population, dtype: float64

**Сбросить индексы можно вот так:**

In [29]:
df = df.reset_index()
df

Unnamed: 0,Country Code,country,population,square
0,KZ,Kazakhstan,17.04,2724902
1,RU,Russia,143.5,17125191
2,BY,Belarus,9.5,207600
3,UA,Ukraine,45.5,603628


**Добавим новый столбец, в котором население (в миллионах) поделим на площадь страны, получив тем самым плотность:**

In [30]:
df['density'] = df['population'] / df['square'] * 1000000

In [31]:
df

Unnamed: 0,Country Code,country,population,square,density
0,KZ,Kazakhstan,17.04,2724902,6.253436
1,RU,Russia,143.5,17125191,8.379469
2,BY,Belarus,9.5,207600,45.761079
3,UA,Ukraine,45.5,603628,75.37755


**Не нравится новый столбец? Не проблема, удалим его:**

In [32]:
df = df.drop(['density'], axis='columns')
df

Unnamed: 0,Country Code,country,population,square
0,KZ,Kazakhstan,17.04,2724902
1,RU,Russia,143.5,17125191
2,BY,Belarus,9.5,207600
3,UA,Ukraine,45.5,603628


**Переименовывать столбцы нужно через метод rename:**

In [33]:
df = df.rename(columns={'Country Code': 'country_code'})
df

Unnamed: 0,country_code,country,population,square
0,KZ,Kazakhstan,17.04,2724902
1,RU,Russia,143.5,17125191
2,BY,Belarus,9.5,207600
3,UA,Ukraine,45.5,603628


### Чтение и запись данных

pandas поддерживает все самые популярные форматы хранения данных: csv, excel, sql, буфер обмена, html и многое другое:

In [34]:
df.to_csv('filename.csv', index = False)

In [35]:
df = pd.read_csv('filename.csv', sep=',')

In [36]:
df.head()

Unnamed: 0,country_code,country,population,square
0,KZ,Kazakhstan,17.04,2724902
1,RU,Russia,143.5,17125191
2,BY,Belarus,9.5,207600
3,UA,Ukraine,45.5,603628


### Пример первичного анализа данных с Pandas 

Pandas - это библиотека для работы с данными в виде таблице. Пандас напоминает нам таблицу Excel, где есть столбцы их имена и строки, куда пишутся значения столбцов. Однако главной абстракцией пандас является то, что столбцы-это признаки, а строких их значения. Получается, что каждая строка - это пример для обучения модели, а столбцы это признаки каждого примера.


В данном разделе мы рассмотрим работу с пандас на примере данных с рейтингового агенства TMDB - оно оценивает популярность фильмов. Нам дан файл с портала facebook в котором описаны посты с фильмами, их режиссеры, год создания, количество "лайков" под фильмом и много другое.

Описание колонок данных: https://www.kaggle.com/anandakshay44/linear-regression-analysis-of-imdb-dataset/data

In [37]:
data=pd.read_csv('movie_metadata.csv', sep=',') #загрузка данных с разделителем ','

In [38]:
data.head(10) #покажем первые 10 строк таблицы с "головы", тоже можно делать и с отдельным столбцом или их набором

Unnamed: 0,color,director_name,num_critic_for_reviews,duration,director_facebook_likes,actor_3_facebook_likes,actor_2_name,actor_1_facebook_likes,gross,genres,...,num_user_for_reviews,language,country,content_rating,budget,title_year,actor_2_facebook_likes,imdb_score,aspect_ratio,movie_facebook_likes
0,Color,James Cameron,723.0,178.0,0.0,855.0,Joel David Moore,1000.0,760505847.0,Action|Adventure|Fantasy|Sci-Fi,...,3054.0,English,USA,PG-13,237000000.0,2009.0,936.0,7.9,1.78,33000
1,Color,Gore Verbinski,302.0,169.0,563.0,1000.0,Orlando Bloom,40000.0,309404152.0,Action|Adventure|Fantasy,...,1238.0,English,USA,PG-13,300000000.0,2007.0,5000.0,7.1,2.35,0
2,Color,Sam Mendes,602.0,148.0,0.0,161.0,Rory Kinnear,11000.0,200074175.0,Action|Adventure|Thriller,...,994.0,English,UK,PG-13,245000000.0,2015.0,393.0,6.8,2.35,85000
3,Color,Christopher Nolan,813.0,164.0,22000.0,23000.0,Christian Bale,27000.0,448130642.0,Action|Thriller,...,2701.0,English,USA,PG-13,250000000.0,2012.0,23000.0,8.5,2.35,164000
4,,Doug Walker,,,131.0,,Rob Walker,131.0,,Documentary,...,,,,,,,12.0,7.1,,0
5,Color,Andrew Stanton,462.0,132.0,475.0,530.0,Samantha Morton,640.0,73058679.0,Action|Adventure|Sci-Fi,...,738.0,English,USA,PG-13,263700000.0,2012.0,632.0,6.6,2.35,24000
6,Color,Sam Raimi,392.0,156.0,0.0,4000.0,James Franco,24000.0,336530303.0,Action|Adventure|Romance,...,1902.0,English,USA,PG-13,258000000.0,2007.0,11000.0,6.2,2.35,0
7,Color,Nathan Greno,324.0,100.0,15.0,284.0,Donna Murphy,799.0,200807262.0,Adventure|Animation|Comedy|Family|Fantasy|Musi...,...,387.0,English,USA,PG,260000000.0,2010.0,553.0,7.8,1.85,29000
8,Color,Joss Whedon,635.0,141.0,0.0,19000.0,Robert Downey Jr.,26000.0,458991599.0,Action|Adventure|Sci-Fi,...,1117.0,English,USA,PG-13,250000000.0,2015.0,21000.0,7.5,2.35,118000
9,Color,David Yates,375.0,153.0,282.0,10000.0,Daniel Radcliffe,25000.0,301956980.0,Adventure|Family|Fantasy|Mystery,...,973.0,English,UK,PG,250000000.0,2009.0,11000.0,7.5,2.35,10000


In [39]:
#Можно не только посмотреть структуру данных но и типы данных, число заполненых полей
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5043 entries, 0 to 5042
Data columns (total 28 columns):
color                        5024 non-null object
director_name                4939 non-null object
num_critic_for_reviews       4993 non-null float64
duration                     5028 non-null float64
director_facebook_likes      4939 non-null float64
actor_3_facebook_likes       5020 non-null float64
actor_2_name                 5030 non-null object
actor_1_facebook_likes       5036 non-null float64
gross                        4159 non-null float64
genres                       5043 non-null object
actor_1_name                 5036 non-null object
movie_title                  5043 non-null object
num_voted_users              5043 non-null int64
cast_total_facebook_likes    5043 non-null int64
actor_3_name                 5020 non-null object
facenumber_in_poster         5030 non-null float64
plot_keywords                4890 non-null object
movie_imdb_link              5043 non-

**Замечания по данным**
1. Внизу мы видим число полей типа float-13, int-3 и объект (обычно строка или набор символов) -12
2. Колонка слева - имена столбцов
3. Колонка справа - число не нулевых значений по соответствующему признаку
4. Сверху общее число колонок и строк:
        RangeIndex: 5043 entries, 0 to 5042, Data columns (total 28 columns)

**Итого сразу видим:** 
число строк-записей 5043, число столбцов 28, есть столбцы разных типов, а так же имеются пропуски.
Как работать с пропусками и разными типами данных рассмотрим в будущих уроках

In [40]:
#Обращаться к data frame можно по имени столбца, посмотрим на заголовки фильмов
data['movie_title']

0                                                 Avatar 
1               Pirates of the Caribbean: At World's End 
2                                                Spectre 
3                                  The Dark Knight Rises 
4       Star Wars: Episode VII - The Force Awakens    ...
5                                            John Carter 
6                                           Spider-Man 3 
7                                                Tangled 
8                                Avengers: Age of Ultron 
9                 Harry Potter and the Half-Blood Prince 
10                    Batman v Superman: Dawn of Justice 
11                                      Superman Returns 
12                                     Quantum of Solace 
13            Pirates of the Caribbean: Dead Man's Chest 
14                                       The Lone Ranger 
15                                          Man of Steel 
16              The Chronicles of Narnia: Prince Caspian 
17            

In [41]:
#Обращение к строке в data по индексу строки при помощи срезов и .iloc[,]
data.iloc[0,:]

color                                                                    Color
director_name                                                    James Cameron
num_critic_for_reviews                                                     723
duration                                                                   178
director_facebook_likes                                                      0
actor_3_facebook_likes                                                     855
actor_2_name                                                  Joel David Moore
actor_1_facebook_likes                                                    1000
gross                                                              7.60506e+08
genres                                         Action|Adventure|Fantasy|Sci-Fi
actor_1_name                                                       CCH Pounder
movie_title                                                            Avatar 
num_voted_users                                     

In [42]:
#Обращение к строке в data по названию колонки, индекса и .ix[,]
data.ix[0,'movie_title']

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  


'Avatar\xa0'

In [43]:
#ix схож с .loc
data.loc[0,'movie_title']

'Avatar\xa0'

In [44]:
"""
Cоздать новый столбец просто, как в словаре нам достаточно написать новое имя 
и передать значениевоспользуемся ранее изученной ламбда функцией и новым методом apply
apply-каждому значению столбца для которого вызывается метод присваивает результат функции lambda

"""

data['is_liked']=data['movie_facebook_likes'].apply(lambda x: 1 if x>0 else 0) #если число лайков у фильма больше 0 - он лайкнут

data[['is_liked', 'movie_facebook_likes']].head() #пример вывода двух столбцов отдельно от всех

Unnamed: 0,is_liked,movie_facebook_likes
0,1,33000
1,0,0
2,1,85000
3,1,164000
4,0,0


**Необходимо подсчитать, сколько черно-белых и цветных фильмов снимал режиссер. В этом нам поможет метод .groupby.**

In [45]:
data.groupby(['director_name', 'color'])['director_name'].count()

director_name               color           
A. Raven Cruz               Color                1
Aaron Hann                  Color                1
Aaron Schneider             Color                1
Aaron Seltzer               Color                1
Abel Ferrara                Color                1
Adam Brooks                 Color                1
Adam Carolla                Color                1
Adam Goldberg               Color                1
Adam Green                  Color                1
Adam Jay Epstein            Color                1
Adam Marcus                 Color                1
Adam McKay                  Color                6
Adam Rapp                   Color                1
Adam Rifkin                 Color                2
Adam Shankman               Color                8
Adrian Lyne                 Color                4
Adrienne Shelly             Color                1
Agnieszka Holland           Color                1
Agnieszka Wojtowicz-Vosloo  Color    

**Индексация**

In [46]:
# Показать все фильмы, которые снимал Adam McKay

data[data.director_name == 'Adam McKay']

Unnamed: 0,color,director_name,num_critic_for_reviews,duration,director_facebook_likes,actor_3_facebook_likes,actor_2_name,actor_1_facebook_likes,gross,genres,...,language,country,content_rating,budget,title_year,actor_2_facebook_likes,imdb_score,aspect_ratio,movie_facebook_likes,is_liked
294,Color,Adam McKay,265.0,116.0,285.0,107.0,Will Ferrell,12000.0,119219978.0,Action|Comedy|Crime,...,English,USA,PG-13,100000000.0,2010.0,8000.0,6.7,2.35,16000,1
571,Color,Adam McKay,164.0,122.0,285.0,989.0,Leslie Bibb,8000.0,148213377.0,Action|Comedy|Sport,...,English,USA,PG-13,73000000.0,2006.0,1000.0,6.6,2.35,0,0
660,Color,Adam McKay,173.0,106.0,285.0,105.0,Adam Scott,8000.0,100468793.0,Comedy,...,English,USA,R,65000000.0,2008.0,3000.0,6.9,2.35,0,0
934,Color,Adam McKay,272.0,143.0,285.0,7000.0,Will Ferrell,11000.0,2175312.0,Comedy,...,English,USA,PG-13,50000000.0,2013.0,8000.0,6.3,2.35,41000,1
1756,Color,Adam McKay,426.0,130.0,285.0,767.0,Christian Bale,33000.0,70235322.0,Biography|Comedy|Drama|History,...,English,USA,R,28000000.0,2015.0,23000.0,7.8,2.35,99000,1
1902,Color,Adam McKay,181.0,98.0,285.0,7000.0,Will Ferrell,640000.0,84136909.0,Comedy,...,English,USA,PG-13,26000000.0,2004.0,8000.0,7.2,1.85,0,0


In [47]:
# Показать все фильмы, которые снимал Adam McKay и длительность которых больше 120 минут

data[(data['duration']>120) & (data.director_name == 'Adam McKay')]

Unnamed: 0,color,director_name,num_critic_for_reviews,duration,director_facebook_likes,actor_3_facebook_likes,actor_2_name,actor_1_facebook_likes,gross,genres,...,language,country,content_rating,budget,title_year,actor_2_facebook_likes,imdb_score,aspect_ratio,movie_facebook_likes,is_liked
571,Color,Adam McKay,164.0,122.0,285.0,989.0,Leslie Bibb,8000.0,148213377.0,Action|Comedy|Sport,...,English,USA,PG-13,73000000.0,2006.0,1000.0,6.6,2.35,0,0
934,Color,Adam McKay,272.0,143.0,285.0,7000.0,Will Ferrell,11000.0,2175312.0,Comedy,...,English,USA,PG-13,50000000.0,2013.0,8000.0,6.3,2.35,41000,1
1756,Color,Adam McKay,426.0,130.0,285.0,767.0,Christian Bale,33000.0,70235322.0,Biography|Comedy|Drama|History,...,English,USA,R,28000000.0,2015.0,23000.0,7.8,2.35,99000,1


In [48]:
# Показать сумму, затраченную на все фильмы, которые снимал Adam McKay и длительность которых больше 120 минут

sum(data['budget'][(data['duration']>120) & (data.director_name == 'Adam McKay')])

151000000.0

In [49]:
# Показать фильм с максимальным imdb_score

data[data.imdb_score == max(data.imdb_score)]

Unnamed: 0,color,director_name,num_critic_for_reviews,duration,director_facebook_likes,actor_3_facebook_likes,actor_2_name,actor_1_facebook_likes,gross,genres,...,language,country,content_rating,budget,title_year,actor_2_facebook_likes,imdb_score,aspect_ratio,movie_facebook_likes,is_liked
2765,Color,John Blanchard,,65.0,0.0,176.0,Andrea Martin,770.0,,Comedy,...,English,Canada,,,,179.0,9.5,1.33,0,0


### Практическое задание. Анализ данных пассажиров "Титаника"

Считаем данные из файла в память в виде объекта Pandas.DataFrame

In [50]:
titanic_df = pd.read_csv('titanic.csv', sep = ',')

**1. Данные представлены в виде таблицы. Посмотрим на первые 5 строк:**

In [51]:
titanic_df.head(5)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [52]:
titanic_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
PassengerId    891 non-null int64
Survived       891 non-null int64
Pclass         891 non-null int64
Name           891 non-null object
Sex            891 non-null object
Age            714 non-null float64
SibSp          891 non-null int64
Parch          891 non-null int64
Ticket         891 non-null object
Fare           891 non-null float64
Cabin          204 non-null object
Embarked       889 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 83.6+ KB


In [53]:
titanic_df.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


**2. Возьмем первые 10 элементов столбца Parch - количество родителей и детей пассажира на борту:**

In [54]:
titanic_df['Parch'][:10]

0    0
1    0
2    0
3    0
4    0
5    0
6    0
7    1
8    2
9    0
Name: Parch, dtype: int64

**3. Отберем пассажиров, которые сели в Cherbourg (Embarked=C) и заплатили более 200 у.е. (fare > 200).**

Убедитесь, что Вы понимаете, как эта конструкция работает. <br />
Если нет - посмотрите, как вычисляется выражение в квадратных в скобках.

In [55]:
titanic_df[(titanic_df['Embarked'] == 'C') & (titanic_df['Fare'] > 200)]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
118,119,0,1,"Baxter, Mr. Quigg Edmond",male,24.0,0,1,PC 17558,247.5208,B58 B60,C
258,259,1,1,"Ward, Miss. Anna",female,35.0,0,0,PC 17755,512.3292,,C
299,300,1,1,"Baxter, Mrs. James (Helene DeLaudeniere Chaput)",female,50.0,0,1,PC 17558,247.5208,B58 B60,C
311,312,1,1,"Ryerson, Miss. Emily Borie",female,18.0,2,2,PC 17608,262.375,B57 B59 B63 B66,C
377,378,0,1,"Widener, Mr. Harry Elkins",male,27.0,0,2,113503,211.5,C82,C
380,381,1,1,"Bidois, Miss. Rosalie",female,42.0,0,0,PC 17757,227.525,,C
557,558,0,1,"Robbins, Mr. Victor",male,,0,0,PC 17757,227.525,,C
679,680,1,1,"Cardeza, Mr. Thomas Drake Martinez",male,36.0,0,1,PC 17755,512.3292,B51 B53 B55,C
700,701,1,1,"Astor, Mrs. John Jacob (Madeleine Talmadge Force)",female,18.0,1,0,PC 17757,227.525,C62 C64,C
716,717,1,1,"Endres, Miss. Caroline Louise",female,38.0,0,0,PC 17757,227.525,C45,C


**4. Сколько мужчин / жещин находилось на борту?**

In [56]:
sum(titanic_df['Sex'] == 'male')

577

In [57]:
titanic_df['Sex'][(titanic_df['Sex'] == 'male')].count()

577

In [58]:
sum(titanic_df['Sex'] == 'female')

314

**5. Сколько в среднем заплатил один пассажир? Сколько все пассажиры заплатили в сумме?**

In [59]:
print("Mean fare: ", np.mean(titanic_df['Fare']))

Mean fare:  32.2042079685746


In [60]:
np.sum(titanic_df['Fare'])

28693.9493

In [61]:
sum(titanic_df['Fare'])

28693.949299999967

**6. Необходимо подсчитать, сколько женщин и мужчин выжило, а сколько нет. В этом нам поможет метод .groupby.**

In [62]:
titanic_df.groupby(['Sex', 'Survived'])['PassengerId'].count()

Sex     Survived
female  0            81
        1           233
male    0           468
        1           109
Name: PassengerId, dtype: int64

**7. А теперь проанализируем в разрезе класса кабины:**

In [63]:
titanic_df.groupby(['Pclass', 'Survived'])['PassengerId'].count()

Pclass  Survived
1       0            80
        1           136
2       0            97
        1            87
3       0           372
        1           119
Name: PassengerId, dtype: int64

In [64]:
titanic_df.groupby(['Sex', 'Pclass', 'Survived'])['PassengerId'].count()

Sex     Pclass  Survived
female  1       0             3
                1            91
        2       0             6
                1            70
        3       0            72
                1            72
male    1       0            77
                1            45
        2       0            91
                1            17
        3       0           300
                1            47
Name: PassengerId, dtype: int64

In [80]:
titanic_df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.0750,,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C
