## Предобработка данных в Pandas

In [36]:
import pandas as pd
import re #работа с регулярными выражениями

>Для того, чтобы начать работать с данными, необходимо сначала загрузить их из файла. В данном задании мы будем работать с данными в формате CSV, предназначенном для хранения табличных данных: столбцы разделяются запятой, первая строка содержит имена столбцов.

Посмотрим на пример загрузки данных в Pandas:

>Данные будут загружены в виде DataFrame, с помощью которого можно удобно работать с ними. В данном случае параметр index_col='PassengerId' означает, что колонка PassengerId задает нумерацию строк данного датафрейма.



In [37]:
# чтение данных из csv файла

data = pd.read_csv('titanic.csv', index_col='PassengerId')

>Для того, чтобы посмотреть что представляют из себя данные, можно воспользоваться несколькими способами:

In [38]:
# можно взять срез

data[:100]

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...
96,0,3,"Shorney, Mr. Charles Joseph",male,,0,0,374910,8.0500,,S
97,0,1,"Goldschmidt, Mr. George B",male,71.0,0,0,PC 17754,34.6542,A5,C
98,1,1,"Greenfield, Mr. William Bertram",male,23.0,0,1,PC 17759,63.3583,D10 D12,C
99,1,2,"Doling, Mrs. John T (Ada Julia Bone)",female,34.0,0,1,231919,23.0000,,S


In [39]:
# можно воспользоваться методом датафрейма

data.head()

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [40]:
# доступ к столбцам датафрейма

data['Sex']

PassengerId
1        male
2      female
3      female
4      female
5        male
        ...  
887      male
888    female
889    female
890      male
891      male
Name: Sex, Length: 891, dtype: object

>Для подсчета некоторых статистик (количества, среднее, максимум, минимум) можно также использовать методы датафрейма:

In [41]:
# Какое количество мужчин и женщин ехало на корабле?

data['Sex'].value_counts() 

male      577
female    314
Name: Sex, dtype: int64

In [42]:
# Какой части пассажиров удалось выжить?

c = data['Survived']
print (c)
data['Survived'].value_counts()

PassengerId
1      0
2      1
3      1
4      1
5      0
      ..
887    0
888    1
889    0
890    1
891    0
Name: Survived, Length: 891, dtype: int64


0    549
1    342
Name: Survived, dtype: int64

In [43]:
# выжить удалось

(342/891)*100

38.38383838383838

In [44]:
# Какую долю пассажиры первого класса составляли среди всех пассажиров?

data['Pclass'].value_counts()

3    491
1    216
2    184
Name: Pclass, dtype: int64

In [45]:
# доля пассажиров 1го класса

survival_rate = (216/891)*100
print (survival_rate)

24.242424242424242


In [46]:
# Какого возраста были пассажиры? Посчитайте среднее и медиану возраста пассажиров.

data['Age']

PassengerId
1      22.0
2      38.0
3      26.0
4      35.0
5      35.0
       ... 
887    27.0
888    19.0
889     NaN
890    26.0
891    32.0
Name: Age, Length: 891, dtype: float64

In [47]:
data['Age'].mean()

29.69911764705882

In [48]:
data['Age'].median()

28.0

In [49]:
# Коррелируют ли число братьев/сестер/супругов с числом родителей/детей? 
# Посчитайте корреляцию Пирсона между признаками SibSp и Parch.

data.corr() # метод 1

Unnamed: 0,Survived,Pclass,Age,SibSp,Parch,Fare
Survived,1.0,-0.338481,-0.077221,-0.035322,0.081629,0.257307
Pclass,-0.338481,1.0,-0.369226,0.083081,0.018443,-0.5495
Age,-0.077221,-0.369226,1.0,-0.308247,-0.189119,0.096067
SibSp,-0.035322,0.083081,-0.308247,1.0,0.414838,0.159651
Parch,0.081629,0.018443,-0.189119,0.414838,1.0,0.216225
Fare,0.257307,-0.5495,0.096067,0.159651,0.216225,1.0


In [50]:
data.columns

Index(['Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp', 'Parch', 'Ticket',
       'Fare', 'Cabin', 'Embarked'],
      dtype='object')

In [51]:
data.SibSp.corr(data.Parch) # метод 2

0.41483769862015557

In [52]:
# Какое самое популярное женское имя на корабле?

data['Name'] # Данные очень разнородные и шумные, но из них требуется извлечь необходимую информацию. 

PassengerId
1                                Braund, Mr. Owen Harris
2      Cumings, Mrs. John Bradley (Florence Briggs Th...
3                                 Heikkinen, Miss. Laina
4           Futrelle, Mrs. Jacques Heath (Lily May Peel)
5                               Allen, Mr. William Henry
                             ...                        
887                                Montvila, Rev. Juozas
888                         Graham, Miss. Margaret Edith
889             Johnston, Miss. Catherine Helen "Carrie"
890                                Behr, Mr. Karl Howell
891                                  Dooley, Mr. Patrick
Name: Name, Length: 891, dtype: object

In [53]:
# Самым популярным оказалось имя 'Анна'

def clean_name(name):

    # Первое слово до запятой - фамилия
    s = re.search('^[^,]+, (.*)', name)
    if s:
        name = s.group(1)

    # Если есть скобки - то имя пассажира в них
    s = re.search('\(([^)]+)\)', name)
    if s:
        name = s.group(1)
    
    # Удаляем обращения
    name = re.sub('(Miss\. |Mrs\. |Ms\. )', '', name)
    # Берем первое оставшееся слово и удаляем кавычки
    name = name.split(' ')[0].replace('"', '')
    return name

names = data[data['Sex'] == 'female']['Name'].map(clean_name)
name_counts = names.value_counts()

print(name_counts.head(1).index.values)

['Anna']
