<p style="align: center;"><img align=center src="https://s8.hostingkartinok.com/uploads/images/2018/08/308b49fcfbc619d629fe4604bceb67ac.jpg" style="height:450px;" width=500/></p>

<h3 style="text-align: center;"><b>Школа глубокого обучения ФПМИ МФТИ</b></h3>
<h3 style="text-align: center;"><b>Базовый поток. Осень 2020</b></h3>

<h1 style="text-align: center;"><b>Неделя 1. Библиотека Pandas</b></h1>

Библиотека `pandas` активно используется в современном data science для работы с данными, которые могут быть представлены в виде таблиц (а это очень, очень большая часть данных)

`pandas` есть в пакете Anaconda, но если вдруг у Вас её по каким-то причинам нет, то можно установить, раскомментировав следующую команду:

In [8]:
#pip install pandas

In [2]:
import numpy as np
import pandas as pd #Стандартное сокращение для pandas. Всегда используйте его!

# pd.Series

Тип данных pd.Series представляет собой одномерный набор данных. Отсутствующий данные записываются как `np.nan` (в этот день термометр сломался или метеоролог был пьян); они не участвуют в вычислении средних, среднеквадратичных отклонений и т.д.

### Создание
Создадим Series из списка температур

In [4]:
some_list = [1, 3, 5, np.nan, 6, 8]
ser_1 = pd.Series(some_list)
ser_1

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

In [5]:
# Так же можно в явном виде указать индексы, чтобы потом было более удобно обращаться к элементам
ind = ['1st day', '2nd day', '3rd day', '4th day', '5rd day', '6th day']

ser_2 = pd.Series(some_list, index=ind)
ser_2

1st day    1.0
2nd day    3.0
3rd day    5.0
4th day    NaN
5rd day    6.0
6th day    8.0
dtype: float64

In [6]:
ser_2['4th day']

nan

In [8]:
# А еще можно дать pd.Series имя, чтобы было совсем красиво
ser_3 = pd.Series(some_list, index=ind, name='Temperature')
ser_3

1st day    1.0
2nd day    3.0
3rd day    5.0
4th day    NaN
5rd day    6.0
6th day    8.0
Name: Temperature, dtype: float64

### Индексирование
С индексами можно работать так же, как и в случае с обычным list.

In [9]:
print(ser_3[0])

print('-----------')

print(ser_3[1:3])

print('-----------')

print(ser_3[::-1])

1.0
-----------
2nd day    3.0
3rd day    5.0
Name: Temperature, dtype: float64
-----------
6th day    8.0
5rd day    6.0
4th day    NaN
3rd day    5.0
2nd day    3.0
1st day    1.0
Name: Temperature, dtype: float64


  print(ser_3[0])


### Индексирование pd.Series по условиям

In [10]:
date_range = pd.date_range('20190101', periods=10)
ser_4 = pd.Series(np.random.rand(10), date_range)
ser_4

2019-01-01    0.563074
2019-01-02    0.123251
2019-01-03    0.973318
2019-01-04    0.001950
2019-01-05    0.881574
2019-01-06    0.990725
2019-01-07    0.519609
2019-01-08    0.295538
2019-01-09    0.988411
2019-01-10    0.919471
Freq: D, dtype: float64

In [11]:
ser_4 > 0.5

2019-01-01     True
2019-01-02    False
2019-01-03     True
2019-01-04    False
2019-01-05     True
2019-01-06     True
2019-01-07     True
2019-01-08    False
2019-01-09     True
2019-01-10     True
Freq: D, dtype: bool

В качестве индекса можно указать выражение, и нам будут возвращены только те элементы, для которых значение является `True`

In [12]:
ser_4[ser_4 > 0.5]

2019-01-01    0.563074
2019-01-03    0.973318
2019-01-05    0.881574
2019-01-06    0.990725
2019-01-07    0.519609
2019-01-09    0.988411
2019-01-10    0.919471
dtype: float64

In [15]:
ser_4[(ser_4 > 0.6) | (ser_4 < 0.2)]

2019-01-02    0.123251
2019-01-03    0.973318
2019-01-04    0.001950
2019-01-05    0.881574
2019-01-06    0.990725
2019-01-09    0.988411
2019-01-10    0.919471
dtype: float64

### Сортировки
Тип `pd.Series` можно отсортировать как по значениям, так и по индексу.

In [16]:
ser_4.sort_index()

2019-01-01    0.563074
2019-01-02    0.123251
2019-01-03    0.973318
2019-01-04    0.001950
2019-01-05    0.881574
2019-01-06    0.990725
2019-01-07    0.519609
2019-01-08    0.295538
2019-01-09    0.988411
2019-01-10    0.919471
Freq: D, dtype: float64

In [17]:
ser_4.sort_values()

2019-01-04    0.001950
2019-01-02    0.123251
2019-01-08    0.295538
2019-01-07    0.519609
2019-01-01    0.563074
2019-01-05    0.881574
2019-01-10    0.919471
2019-01-03    0.973318
2019-01-09    0.988411
2019-01-06    0.990725
dtype: float64

### Операции с series
Тип `pd.Series` можно модифицировать проще, чем стандартный ``list`` из Python.

In [18]:
ser_4 + 100

2019-01-01    100.563074
2019-01-02    100.123251
2019-01-03    100.973318
2019-01-04    100.001950
2019-01-05    100.881574
2019-01-06    100.990725
2019-01-07    100.519609
2019-01-08    100.295538
2019-01-09    100.988411
2019-01-10    100.919471
Freq: D, dtype: float64

In [19]:
np.exp(ser_4)

2019-01-01    1.756062
2019-01-02    1.131168
2019-01-03    2.646712
2019-01-04    1.001952
2019-01-05    2.414697
2019-01-06    2.693187
2019-01-07    1.681369
2019-01-08    1.343849
2019-01-09    2.686962
2019-01-10    2.507964
Freq: D, dtype: float64

In [20]:
term_1 = pd.Series(np.random.randint(0, 10, 5))
term_2 = pd.Series(np.random.randint(0, 10, 6))

term_1 + term_2

0    11.0
1    15.0
2     7.0
3     5.0
4     3.0
5     NaN
dtype: float64

In [21]:
term_1.shape

(5,)

# pd.DataFrame

Тип данных pd.DataFrame представляет собой двумерную таблицу с данными. Имеет индекс и набор столбцов (возможно, имеющих разные типы). Таблицу можно построить, например, из словаря, значениями в котором являются одномерные наборы данных.
### Создание и основные объекты

In [22]:
# Dataframe можно составить из словаря. Ключ будет соответсовать колонке
some_dict = {'one': pd.Series([1,2,3], index=['a','b','c']),
             'two': pd.Series([1,2,3,4], index=['a','b','c','d']),
             'three': pd.Series([5,6,7,8], index=['a','b','c','d'])}
df = pd.DataFrame(some_dict)
df

Unnamed: 0,one,two,three
a,1.0,1,5
b,2.0,2,6
c,3.0,3,7
d,,4,8


In [27]:
#Альтернативно, из списка списков с аргументом columns

some_array = [[1,1,5], [2,2,6], [3,3,7], [np.nan, 4,8]]
df = pd.DataFrame(some_array, index=['a', 'b', 'c', 'd'], columns=['one', 'two', 'three'])
df

Unnamed: 0,one,two,three
a,1.0,1,5
b,2.0,2,6
c,3.0,3,7
d,,4,8


In [51]:
df.values

array([[10.,  1.,  5.,  5.],
       [20.,  2.,  6.,  2.],
       [30.,  3.,  7.,  1.],
       [nan,  4.,  8.,  4.]])

In [29]:
df.columns

Index(['one', 'two', 'three'], dtype='object')

In [30]:
df.columns = ['first_column', 'second_column', 'third_column']
df.index = [1,2,3,4]
df

Unnamed: 0,first_column,second_column,third_column
1,1.0,1,5
2,2.0,2,6
3,3.0,3,7
4,,4,8


### Индексирование 
Есть очень много способов индексировать DataFrame в Pandas. Не все из них хорошие! Вот несколько удобных, но не универсальных.

#### По колонкам
Индексирование по колонке возращает pd.Series. Можно выбирать не одну колонку, а сразу несколько. Тогда снова вернётся pd.DataFrame.

In [31]:
first_column = df['first_column']
first_column

1    1.0
2    2.0
3    3.0
4    NaN
Name: first_column, dtype: float64

In [34]:
subset_dataframe = df[['first_column', 'second_column']]

subset_dataframe

Unnamed: 0,first_column,second_column
1,1.0,1
2,2.0,2
3,3.0,3
4,,4


#### По строкам
Можно писать любые слайлы, как в Python-списке. Они будут применяться к строкам. Нельзя обращаться по элементу!

In [35]:
df[1] #не сработает

KeyError: 1

In [38]:
df[:1]

Unnamed: 0,first_column,second_column,third_column
1,1.0,1,5


In [39]:
df[1:4]

Unnamed: 0,first_column,second_column,third_column
2,2.0,2,6
3,3.0,3,7
4,,4,8


#### Универсальное индексирование: .loc и .iloc

.loc и .iloc --- это два взаимозаменяемых атрибута, которые позволяют индексировать по обеим осям сразу. Путаницы не возникает из-за фиксированного порядка перечисления осей.

In [40]:
#По индексам: 
df.iloc[1:3, :2]

Unnamed: 0,first_column,second_column
2,2.0,2
3,3.0,3


In [43]:
df.loc[1:3, 'first_column':'third_column']

Unnamed: 0,first_column,second_column,third_column
1,1.0,1,5
2,2.0,2,6
3,3.0,3,7


Лучше использовать по умолчанию либо только loc, либо только .iloc! А лучше вообще всегда только .iloc, чтобы не запутаться.

### Модификации датасета, создание новых колонок
Можно просто брать и создавать новую колонку. Синтаксис тут вполне естественный.

In [48]:
new_column = [5,2,1,4]
df['new_column'] = new_column
df

Unnamed: 0,first_column,second_column,third_column,new_column
1,10.0,1,5,5
2,20.0,2,6,2
3,30.0,3,7,1
4,,4,8,4


Аналогично, можно применять к отдельным колонкам арифметические операции (ведь колонки --- это Series!)

In [45]:
df['first_column'] = df['first_column'] * 10
df

Unnamed: 0,first_column,second_column,third_column,new_column
1,10.0,1,5,5
2,20.0,2,6,2
3,30.0,3,7,1
4,,4,8,4


## Реальный датасет
Мы будем работать с датасетом ``Титаник``. Файлы необходимо скачать локально или загрузить с помощью функции ниже.
![alt text](https://drive.google.com/uc?id=1Tb52nFFsjI8sqv0AlMpx25aNJ62xzp5w)

Информация о файлах: 
 - *titanic_data.csv* содержит различную информацию о пассажирах Титаника (билет, класс, возраст и т.п.)
 - *titanic_surv.csv* содержит для каждого пассажира из первого файла информацию о том, выжил ли этот пассажир (метка 1) или нет (метка 0)


### Чтение из файла
Обычно данные хранятся в виде таблиц в файлах формата .csv или .xlsx. На этом семинаре мы будем загружать данные из .csv файлов.


 
Загрузим первый файл

In [3]:
# df_1 = pd.read_csv('titanic_data.csv')
# pass_link = 'https://www.dropbox.com/s/lyzcuxu1pdrw5qb/titanic_data.csv?dl=1'
# titanik_passengers = pd.read_csv(pass_link, ) #index_col=?
titanik_passengers = pd.read_csv("titanic_data.csv")

In [3]:
print('Всего пассажиров: ', len(titanik_passengers))
titanik_passengers.head()

Всего пассажиров:  891


Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


### Разная информация о датасете

Можно узнать размер таблицы, информацию о значениях таблицы, различные статистики по значениям.

In [4]:
titanik_passengers.values.shape

(891, 11)

In [5]:
titanik_passengers.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 11 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Pclass       891 non-null    int64  
 2   Name         891 non-null    object 
 3   Sex          891 non-null    object 
 4   Age          714 non-null    float64
 5   SibSp        891 non-null    int64  
 6   Parch        891 non-null    int64  
 7   Ticket       891 non-null    object 
 8   Fare         891 non-null    float64
 9   Cabin        204 non-null    object 
 10  Embarked     889 non-null    object 
dtypes: float64(2), int64(4), object(5)
memory usage: 76.7+ KB


In [6]:
print('Максимальная цена за билет:', titanik_passengers['Fare'].max())
print('Медианная цена:', titanik_passengers['Fare'].median())

Максимальная цена за билет: 512.3292
Медианная цена: 14.4542


In [7]:
titanik_passengers.groupby(['Pclass'])['Fare'].mean()

Pclass
1    84.154687
2    20.662183
3    13.675550
Name: Fare, dtype: float64

In [8]:
titanik_passengers['Age'].value_counts()

Age
24.00    30
22.00    27
18.00    26
19.00    25
28.00    25
         ..
36.50     1
55.50     1
0.92      1
23.50     1
74.00     1
Name: count, Length: 88, dtype: int64

In [13]:
titanik_passengers.describe()

pandas.core.frame.DataFrame

In [15]:
titanik_passengers[titanik_passengers["Pclass"] == 3]

Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
2,3,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
4,5,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
5,6,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
7,8,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.0750,,S
...,...,...,...,...,...,...,...,...,...,...,...
882,883,3,"Dahlberg, Miss. Gerda Ulrika",female,22.0,0,0,7552,10.5167,,S
884,885,3,"Sutehall, Mr. Henry Jr",male,25.0,0,0,SOTON/OQ 392076,7.0500,,S
885,886,3,"Rice, Mrs. William (Margaret Norton)",female,39.0,0,5,382652,29.1250,,Q
888,889,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S


In [17]:
old_passengers = titanik_passengers[titanik_passengers["Age"] > 50]["Name"]
print(old_passengers)
print(old_passengers.sort_values())

6                                McCarthy, Mr. Timothy J
11                              Bonnell, Miss. Elizabeth
15                      Hewlett, Mrs. (Mary D Kingcome) 
33                                 Wheadon, Mr. Edward H
54                        Ostby, Mr. Engelhart Cornelius
                             ...                        
820    Hays, Mrs. Charles Melville (Clara Jennings Gr...
829            Stone, Mrs. George Nelson (Martha Evelyn)
851                                  Svensson, Mr. Johan
857                               Daly, Mr. Peter Denis 
879        Potter, Mrs. Thomas Jr (Lily Alexenia Wilson)
Name: Name, Length: 64, dtype: object
275                Andrews, Miss. Kornelia Theodosia
571    Appleton, Mrs. Edward Dale (Charlotte Lamson)
493                          Artagaveytia, Mr. Ramon
630             Barkworth, Mr. Algernon Henry Wilson
150                       Bateman, Rev. Robert James
                           ...                      
33               

In [41]:
array = []
for i, name in titanik_passengers[["PassengerId", "Name"]].values:
    if name.startswith("A"):
        array.append(i)
print(array)


[5, 14, 26, 41, 50, 69, 92, 115, 120, 145, 147, 183, 193, 208, 211, 234, 245, 262, 276, 280, 298, 306, 309, 354, 364, 366, 370, 402, 461, 494, 499, 519, 542, 543, 572, 611, 701, 731, 747, 781, 785, 807, 811, 814, 834, 835, 841, 846, 851, 856, 875]


In [18]:
d = {"Name": [], "Age": [], "Ticket": []}
for name, age, ticket in titanik_passengers.iloc[:, [2, 4, 7]].values:
    if name.startswith("A"):
        d["Name"].append(name)
        d["Age"].append(age)
        d["Ticket"].append(ticket)
print(pd.DataFrame(d))

                                                 Name    Age  \
0                            Allen, Mr. William Henry  35.00   
1                         Andersson, Mr. Anders Johan  39.00   
2   Asplund, Mrs. Carl Oscar (Selma Augusta Emilia...  38.00   
3      Ahlin, Mrs. Johan (Johanna Persdotter Larsson)  40.00   
4       Arnold-Franchi, Mrs. Josef (Josefine Franchi)  18.00   
5                     Andersson, Miss. Erna Alexandra  17.00   
6                          Andreasson, Mr. Paul Edvin  20.00   
7                               Attalah, Miss. Malake  17.00   
8                   Andersson, Miss. Ellis Anna Maria   2.00   
9                          Andrew, Mr. Edgardo Samuel  18.00   
10       Andersson, Mr. August Edvard ("Wennerstrom")  27.00   
11              Asplund, Master. Clarence Gustaf Hugo   9.00   
12    Andersen-Jensen, Miss. Carla Christine Nielsine  19.00   
13                        Albimona, Mr. Nassef Cassem  26.00   
14                                     A

## Задание 1 
Опишите данный датасет: какое расределение женщин/мужчин в нем? Сколько пассажиров ехало в каждом классе? Какой средний/минимальный/максимальный возраст пассажиров?

In [20]:
print(len(titanik_passengers["Sex"] == "female") / len(titanik_passengers["Sex"] == "male"))

passengers_in_class = {}
for i in titanik_passengers["Pclass"]:
    if not (f"{i}" in passengers_in_class.keys()):
        passengers_in_class[f"{i}"] = 0
    passengers_in_class[f"{i}"] += 1
print(passengers_in_class)

print(titanik_passengers["Age"].sum() / len(titanik_passengers["Age"]))
print(titanik_passengers["Age"].min())
print(titanik_passengers["Age"].max())

1.0
{'3': 491, '1': 216, '2': 184}
23.79929292929293
0.42
80.0


## Задание 2. 
Сгруппируйте записи по классам пассажиров, в каждой группе посчитайте средний возраст. Используйте метод ``pandas.DataFrame.groupby``.

In [36]:
p_d = {}
for i, age in titanik_passengers.iloc[:, [1, 4]].values:
    if not (f"{i}" in p_d.keys()):
        p_d[f"{i}"] = [0, 0]
    p_d[f"{i}"][0] += 1
    p_d[f"{i}"][1] += np.nan_to_num(age)

for i, e in p_d.items():
    print(i, e[1] / e[0], sep=": ")
titanik_passengers.iloc[:, [1, 4]]

3.0: 18.177026476578412
1.0: 32.92324074074074
2.0: 28.09146739130435


Unnamed: 0,Pclass,Age
0,3,22.0
1,1,38.0
2,3,26.0
3,1,35.0
4,3,35.0
...,...,...
886,2,27.0
887,1,19.0
888,3,
889,1,26.0


## Слияние таблиц
Таблицы можно сливать несколькими способами. Мы рассмотрим слияние по индексу: метод называется ``pd.join``.

In [116]:
df_3 = pd.Series(np.random.rand(891),name="Randomnumbers")
df_4 = titanik_passengers.join(df_3)
df_4

Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Randomnumbers
0,1,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S,0.378468
1,2,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,0.469816
2,3,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S,0.258262
3,4,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S,0.342627
4,5,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S,0.403891
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S,0.640740
887,888,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S,0.273238
888,889,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S,0.178872
889,890,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C,0.763986


In [117]:
df_4["Randomnumbers"] > 0.5

0      False
1      False
2      False
3      False
4      False
       ...  
886     True
887    False
888    False
889     True
890    False
Name: Randomnumbers, Length: 891, dtype: bool

In [118]:
df_4[df_4["Randomnumbers"] > 0.5]

Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Randomnumbers
5,6,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q,0.858024
7,8,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.0750,,S,0.771409
10,11,3,"Sandstrom, Miss. Marguerite Rut",female,4.0,1,1,PP 9549,16.7000,G6,S,0.672881
13,14,3,"Andersson, Mr. Anders Johan",male,39.0,1,5,347082,31.2750,,S,0.903249
15,16,2,"Hewlett, Mrs. (Mary D Kingcome)",female,55.0,0,0,248706,16.0000,,S,0.546426
...,...,...,...,...,...,...,...,...,...,...,...,...
880,881,2,"Shelley, Mrs. William (Imanita Parrish Hall)",female,25.0,0,1,230433,26.0000,,S,0.584874
884,885,3,"Sutehall, Mr. Henry Jr",male,25.0,0,0,SOTON/OQ 392076,7.0500,,S,0.854534
885,886,3,"Rice, Mrs. William (Margaret Norton)",female,39.0,0,5,382652,29.1250,,Q,0.605966
886,887,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S,0.640740


Теперь считаем данные по тому, кто выжил, а кто нет.

In [114]:
#df_2 = pd.read_csv('titanic_surv.csv')
surv_link = 'https://www.dropbox.com/s/v35x9i6a1tc7emm/titanic_surv.csv?dl=1'
df_2 = pd.read_csv(surv_link)


In [115]:
df_2

Unnamed: 0,Survived
0,0
1,1
2,1
3,1
4,0
...,...
886,0
887,1
888,0
889,1


### Задание 3.
Слейте два датасета titanik_passengers и Survived.

In [None]:
#YOUR CODE

Построим матрицу корреляций пола, стоимости билета и класса. Для этого сначала отберём признаки.

In [119]:
df_for_corr = titanik_passengers[['Sex','Fare','Pclass']]

Проблема заключается в том, что Fare и Pclass - это числа, а Sex - это строка. Заменим все строки "male" на число 0, а строки "female" на число 1.

In [120]:
df_for_corr['Sex']

0        male
1      female
2      female
3      female
4        male
        ...  
886      male
887    female
888    female
889      male
890      male
Name: Sex, Length: 891, dtype: object

In [121]:
df_for_corr['Sex'] == 'male'

0       True
1      False
2      False
3      False
4       True
       ...  
886     True
887    False
888    False
889     True
890     True
Name: Sex, Length: 891, dtype: bool

In [123]:
df_for_corr.loc[df_for_corr['Sex'] == 'male', 'Sex'] = 0
df_for_corr.loc[df_for_corr['Sex'] == 'female', 'Sex'] = 1

In [124]:
df_for_corr

Unnamed: 0,Sex,Fare,Pclass
0,0,7.2500,3
1,1,71.2833,1
2,1,7.9250,3
3,1,53.1000,1
4,0,8.0500,3
...,...,...,...
886,0,13.0000,2
887,1,30.0000,1
888,1,23.4500,3
889,0,30.0000,1


In [126]:
df_for_corr['Sex'] = df_for_corr['Sex'].astype('float')
df_for_corr['Pclass'] = df_for_corr['Pclass'].astype('float')
df_for_corr

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_for_corr['Sex'] = df_for_corr['Sex'].astype('float')
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_for_corr['Pclass'] = df_for_corr['Pclass'].astype('float')


Unnamed: 0,Sex,Fare,Pclass
0,0.0,7.2500,3.0
1,1.0,71.2833,1.0
2,1.0,7.9250,3.0
3,1.0,53.1000,1.0
4,0.0,8.0500,3.0
...,...,...,...
886,0.0,13.0000,2.0
887,1.0,30.0000,1.0
888,1.0,23.4500,3.0
889,0.0,30.0000,1.0


In [127]:
df_for_corr.corr()

Unnamed: 0,Sex,Fare,Pclass
Sex,1.0,0.182333,-0.1319
Fare,0.182333,1.0,-0.5495
Pclass,-0.1319,-0.5495,1.0


### Задание 4. 
а) Сколько всего выживших пассажиров?
б) Сколько выживших пассажиров по каждому из возрастов (например, сколько выжило 21-летних, 22-летних, 23-летних, и т.д.)?
в) Постройте матрицу корреляций факта выживания, пола, стоимости билета и возраста.
г*) Постройте матрицу корреляций факта выживания, пола, стоимости билета, последней цифры номера билета и возраста.

In [None]:
#YOUR CODE