Celem wykonanego ćwiczenia jest wyczyszczenie uszkodzonego zbioru danych i przygotowanie go do analizy.

In [1]:
import pandas as pd
import numpy as np
import csv

Pierwszym krokiem jest zaimportowanie niezbędnych bibliotek.

In [2]:
df = pd.read_csv('TitanicMess.tsv',delimiter='\t')

Kolejnym wczytanie pliku źródłowego. Separatorem tego dokumentu jest tabulacja.

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 892 entries, 0 to 891
Data columns (total 13 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   PassengerId  892 non-null    int64 
 1   Survived     892 non-null    int64 
 2   Pclass       892 non-null    int64 
 3   Name         892 non-null    object
 4   Sex          892 non-null    object
 5   Age          719 non-null    object
 6   SibSp        892 non-null    int64 
 7   Parch        892 non-null    int64 
 8   Ticket       892 non-null    object
 9   Fare         892 non-null    object
 10  Cabin        207 non-null    object
 11  Embarked     890 non-null    object
 12  ship         892 non-null    object
dtypes: int64(5), object(8)
memory usage: 90.7+ KB


Tak prezentują się dane naszego zbioru. Możemy zaobserować nazwy kolumn, liczbę wartości różnych od NULL, typ danych jakie przechowuje dana kolumna. Nasze dane to 892 wiersze przedstawiające dane dotyczące przeżywalności katastrofy statku pasażerskiego Titanic. Za pomocą tej prostej prezentacji możemy zaobserwować następujące problemy. Nazwy kolumn mają różny sposób formatowania, należałoby je ujednolicić. Same nazwy niektóych kolumn nie wskazują jednoznacznie na ich wartość, można pokusić się o próbę dokładniejszego opisu. W przypadku kolumn Age, Cabin oraz Embarked możemy zaobserwować brakujące wartości, trzeba się temu przyjżeć i spróbować rozwiązać tę sprawę. Ostanim fragmentem możliwym do zaobserwowania jest typ danych i próba określenia jego poprawności.

In [4]:
df.head(20)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,ship
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,725,,S,Titanic
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,712833,C85,C,Titanic
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7925,,S,Titanic
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,531,C123,S,Titanic
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,805,,S,Titanic
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,84583,,Q,Titanic
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,518625,E46,S,Titanic
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21075,,S,Titanic
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,111333,,S,Titanic
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,300708,,C,Titanic


Dzięki tak przedstawionym danym możemy zaobserwować przykładowe wiersze z naszego zbioru. Dane te są dziwnie sformatowane. W kolumnach występują niepoprawne wartości, czasem również zdarzają się pomyłki, literóki i błędy w danych. Kilka kolumn przedstawia się jako zbędne do analizy, w dalszych krokach będzie konieczna głębsza analiza.

In [5]:
df.isnull().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            173
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          685
Embarked         2
ship             0
dtype: int64

Sprawdzenie pustych wartości potwierdza nam problem dużego stopnia w przypadku kolumny Cabin oraz Age. W przypadku Embarked są to 2 wiersze, w których brakuje danych.

In [6]:
df['Survived'].value_counts()

0    547
1    345
Name: Survived, dtype: int64

Sprawdzenie jakie oraz ile danych znajduje się w kolumnie Survived.

In [7]:
df['Pclass'].value_counts()

3    491
1    217
2    184
Name: Pclass, dtype: int64

Sprawdzenie jakie oraz ile danych znajduje się w kolumnie Pclass.

In [8]:
df['Name'].value_counts()

Sandstrom, Miss. Marguerite Ru&5$$                 3
Hoyt, Mr. Frederick Maxfield                       2
Simonius-Blumer, Col. Oberst Alfons                1
Cherry, Miss. Gladys                               1
Harris, Mr. George                                 1
                                                  ..
Alexander, Mr. William                             1
Hansen, Mr. Claus Peter                            1
Widener, Mr. Harry Elkins                          1
Kent, Mr. Edward Austin                            1
Andersen-Jensen, Miss. Carla Christine Nielsine    1
Name: Name, Length: 889, dtype: int64

Sprawdzenie jakie oraz ile danych znajduje się w kolumnie Pclass. Można zauważyć powtarzające się wartości, dodatkowo z racji przyjętego formatu danych możliwe jest, że niektóre wartości powtarzają się jednak program nie wykazuje ich w sposób natychmiastowy.

In [9]:
for i in df.index:
    print(df.at[i, 'Name'])

Braund, Mr. Owen Harris
Cumings, Mrs. John Bradley (Florence Briggs Thayer)
Heikkinen, Miss. Laina
Futrelle, Mrs. Jacques Heath (Lily May Peel)
Allen, Mr. William Henry
Moran, Mr. James
McCarthy, Mr. Timothy J
Palsson, Master. Gosta Leonard
Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)
Nasser, Mrs. Nicholas (Adele Achem)
Sandstrom, Miss. Marguerite Ru&5$$
Bonnell, Miss. Elizabeth
Saundercock, Mr. William Henry
Sandstrom, Miss. Marguerite Ru&5$$
Vestrom, Miss. Hulda Amanda Adolfina
Hewlett, Mrs. (Mary D Kingcome)
Rice, Master. Eugene
Williams, Mr. Charles Eugene
Vander Planke, Mrs. Julius (Emelia Maria Vandemoortele)
Masselmani, Mrs. Fatima
Fynney, Mr. Joseph J
Beesley, Mr. Lawrence
McGowan, Miss. Anna "Annie"
Sandstrom, Miss. Marguerite Ru&5$$
Palsson, Miss. Torborg Danira
Asplund, Mrs. Carl Oscar (Selma Augusta Emilia Johansson)
Emir, Mr. Farred Chehab
Fortune, Mr. Charles Alexander
O'Dwyer, Miss. Ellen "Nellie"
Todoroff, Mr. Lalio
Uruchurtu, Don. Manuel E
Spencer, Mrs. William Au

Taka przezentacja danych i szybkie ich przeglądnięcie może pokazać kilka problemów znajdujścych się w danych.

In [10]:
df[(df['Name'] == "Mr. Frederick Maxfield Hoyt") | (df['Name'] == "Sandstrom, Miss. Marguerite Ru&5$$")]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,ship
10,11,1,3,"Sandstrom, Miss. Marguerite Ru&5$$",female,4,1,1,PP 9549,167,G6,S,Titanic
13,11,1,3,"Sandstrom, Miss. Marguerite Ru&5$$",female,4,1,1,PP 9549,167,G6,S,Titanic
23,11,1,3,"Sandstrom, Miss. Marguerite Ru&5$$",female,4,1,1,PP 9549,167,G6,S,Titanic
891,1000,1,1,Mr. Frederick Maxfield Hoyt,male,38,1,0,19943,90,C93,S,Titanic


Na podstawie zapytania odwołując się do powtarzających się wartości można uzyskać informację o tym, że PassengerId nie jest wartością unikatową i powtarza się dla kilku wierszy. Wiersze te posiadają tożsame wartości i należałoby je zniwelować.

In [11]:
df['PassengerId'].value_counts()

225    3
11     3
295    1
306    1
305    1
      ..
592    1
591    1
590    1
589    1
1      1
Name: PassengerId, Length: 888, dtype: int64

Korzystając z poprzedniego wypisania, można było sprawdzić jak wygląda sprawa dla parametru PassengerId.

In [12]:
df[(df['PassengerId'] == 11) | (df['PassengerId'] == 225)]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,ship
10,11,1,3,"Sandstrom, Miss. Marguerite Ru&5$$",female,4,1,1,PP 9549,167,G6,S,Titanic
13,11,1,3,"Sandstrom, Miss. Marguerite Ru&5$$",female,4,1,1,PP 9549,167,G6,S,Titanic
23,11,1,3,"Sandstrom, Miss. Marguerite Ru&5$$",female,4,1,1,PP 9549,167,G6,S,Titanic
224,225,1,1,"Hoyt, Mr. Frederick Maxfield",male,38,1,0,19943,90,C93,S,Titanic
520,225,1,1,"Hoyt, Mr. Frederick Maxfield",male,38,1,0,19943,90,C93,S,Titanic
678,225,1,1,"Hoytt, Mr. Frederick Maxfield",male,38,1,0,19943,90,C93,S,Titanic


Wypisując te dane można zobserwować, że dane te są niepoprawnie formatowane i dodatkowo można pokusić się o ich weryfikacje w sposób kompleksowy aby pozbyć się duplikatów i pomyłek.

In [13]:
df['Sex'].value_counts()

male       576
female     312
femmale      1
mal          1
fem          1
malef        1
Name: Sex, dtype: int64

Sprawdzenie wartości dla zmiennej Sex obrazuje nam, że w przypasku tej kolumny występują różne wartości dla określenia płci męskiej oraz żeńskiej. Należało by ujednolicić zapis.

In [14]:
df['Age'].value_counts()

24      30
22      27
18      26
19      25
30      24
        ..
.9       1
55,5     1
24,5     1
36,5     1
34,5     1
Name: Age, Length: 93, dtype: int64

Wypisanie wartości dla zmiennej Age nie daje nam za dużo informacji. Można jednak zauważyć problemy z formatowniem. Znaki , oraz . są stosowane zamiennie i mogą sprawiać problemy przy poprawnych obliczeniach i analizach. Dodatkowo można by sprawdzić czy zmienna ta nie przechowuje wartości nieodpowiednich. Wartości poniżej 0 oraz powyżej 100 można uznać za niepoprawne.

In [15]:
for i in df.index:
    print(df.at[i, 'Age'])

22
38
26
35
35
nan
54
2
27
14
4
58
20
4
14
55
2
nan
31
nan
35
34
15
4
8
38
nan
19
nan
nan
40
.9
nan
66
28
42
nan
21
18
14
40
27
nan
3
19
nan
nan
nan
nan
18
7
21
49
29
65
nan
21
28,5
5
11
22
38
45
4
nan
nan
29
19
17
26
32
16
21
26
32
25
nan
nan
0,83
30
22
29
nan
28
17
33
16
nan
23
24
29
20
46
26
59
nan
71
23
34
34
28
nan
21
33
37
28
21
nan
38
nan
47
14,5
22
20
17
21
70,5
29
24
2
21
nan
32,5
32,5
54
12
nan
24
nan
45
33
20
47
29
25
23
19
37
16
24
nan
22
24
19
18
19
27
9
36,5
42
51
22
55,5
40,5
nan
51
16
30
nan
nan
44
40
26
17
1
9
nan
45
nan
28
61
4
1
21
56
18
nan
50
30
36
nan
nan
9
1
4
nan
nan
45
40
36
32
19
19
3
44
58
nan
42
nan
24
28
nan
34
45,5
18
2
32
26
16
40
24
35
22
30
nan
31
27
42
32
30
16
27
51
4435
38
22
19
20,5
18
nan
35
29
59
5
24
nan
44
8
19
33
nan
nan
29
22
30
44
25
24
37
54
nan
29
62
30
41
29
nan
30
35
50
nan
3
52
40
nan
36
16
25
58
35
nan
25
41
37
nan
63
45
nan
7
35
65
28
16
19
nan
33
30
22
42
22
26
19
36
24
24
nan
23,5
2
nan
50
nan
nan
19
nan
nan
0,92
nan
17
30
30
24
18
2

Dzięki temu wypisaniu wartości możemy w lepszy sposób zaobserwować wspomniane wcześniej problemy z danymi przechowywanymi w kolumnie Age

In [16]:
df['SibSp'].value_counts()

0    606
1    212
2     28
4     18
3     16
8      7
5      5
Name: SibSp, dtype: int64

Kolumna SibSp przedstawia ilość rodzeństwa oraz małżonków. Dane nie wydają się niepoprawne.

In [17]:
df['Parch'].value_counts()

0    679
1    120
2     80
3      5
5      4
4      4
Name: Parch, dtype: int64

Kolumna Parch przedstawia ilość rodziców oraz dzieci. Dane nie wydają się niepoprawne.

In [18]:
df['Ticket'].value_counts()

1601          7
CA. 2343      7
347082        6
3101295       6
347088        6
             ..
C.A. 18723    1
17764         1
347071        1
113767        1
341826        1
Name: Ticket, Length: 680, dtype: int64

Wartości kolumny Ticket są tak różne, że należałoby się zastanowić czy jest ona konieczna do naszej analizy.

In [19]:
df['Fare'].value_counts()

8,05       43
13         42
7,8958     38
7,75       34
26         31
           ..
55,4417     1
22,025      1
7,7292      1
9,8417      1
9,8458      1
Name: Fare, Length: 250, dtype: int64

W przypadku Fare można zaobserwować nierewgularny sposób formatowania, dodatkowo najprzwdopodobniej występuje w niej problem ze znakami , oraz .

In [20]:
for i in df.index:
    print(df.at[i, 'Fare'])

7,25
71,2833
7,925
53,1
8,05
8,4583
51,8625
21,075
11,1333
30,0708
16,7
26,55
8,05
16,7
7,8542
16
29,125
13
18
7,225
26
13
8,0292
16,7
21,075
31,3875
7,225
263
7,8792
7,8958
27,7208
146,5208
7,75
10,5
82,1708
52
7,2292
8,05
18
11,2417
9,475
21
7,8958
41,5792
7,8792
8,05
15,5
7,75
21,6792
17,8
39,6875
7,8
76,7292
26
61,9792
35,5
10,5
7,2292
27,75
46,9
7,2292
80
83,475
27,9
27,7208
15,2458
10,5
8,1583
7,925
8,6625
10,5
46,9
73,5
14,4542
56,4958
7,65
7,8958
8,05
29
12,475
9
9,5
7,7875
47,1
10,5
15,85
34,375
8,05
263
8,05
8,05
7,8542
61,175
20,575
7,25
8,05
34,6542
63,3583
23
26
7,8958
7,8958
77,2875
8,6542
7,925
7,8958
7,65
7,775
7,8958
24,15
52
14,4542
8,05
9,825
14,4583
7,925
7,75
21
247,5208
31,275
73,5
8,05
30,0708
13
77,2875
11,2417
7,75
7,1417
22,3583
6,975
7,8958
7,05
14,5
26
13
15,0458
26,2833
53,1
9,2167
79,2
15,2458
7,75
15,85
6,75
11,5
36,75
7,7958
34,375
26
13
12,525
66,6
8,05
14,5
7,3125
61,3792
7,7333
8,05
8,6625
69,55
16,1
15,75
7,775
8,6625
39,6875
20,525
55
27,9
25,925
56

Faktycznie problemy założone w poprzednim kroku występują w tej kolumnie i konieczne będzie podjęcie działąń w celu jej napawy. 

In [21]:
df['Embarked'].value_counts()

S     643
C     167
Q      76
So      2
Qe      1
Co      1
Name: Embarked, dtype: int64

Embarked natomiast pokazuje problem podobny do tego z kolumny Sex, zawiera ona różne wartości dla określenia tych samych danych.

In [22]:
df['ship'].value_counts()

Titanic    892
Name: ship, dtype: int64

Wartość ship nie wnosi nic do zbiru danych. Wszystkie wartości tej kolumny są jednakowe, każdy z pasażerów był gościem statku Titanic.

In [23]:
df.columns= df.columns.str.strip().str.lower()
df.rename(columns = {'passengerid': 'passenger_id','sibsp':'siblings_spouses','parch': 'parents_children'}, inplace = True)

Pierwszym krokiem poprawy prezentowania danych będzie zmiana nazw przedstawionych kolumn na małe litery oraz poprawa nazewnictwa tak aby była ona bardziej zrozumiała dla dalszych kroków oraz analizy danych.

Następne kroki dotyczyły unormowania zapisu przedstawionego w kolumnie name.

In [24]:
for i in df.index:
    text = df.name.values[i]
    left_text = text.partition(", ")[0]
    right_text = text.partition(",")[2]
    df.name.values[i] = right_text + " " + left_text

In [25]:
df['name'] = df['name'].str.replace(r'[^\w\s]\d+', '')

In [26]:
for i in df.index:
    print(df.at[i, 'name'])

 Mr. Owen Harris Braund
 Mrs. John Bradley (Florence Briggs Thayer) Cumings
 Miss. Laina Heikkinen
 Mrs. Jacques Heath (Lily May Peel) Futrelle
 Mr. William Henry Allen
 Mr. James Moran
 Mr. Timothy J McCarthy
 Master. Gosta Leonard Palsson
 Mrs. Oscar W (Elisabeth Vilhelmina Berg) Johnson
 Mrs. Nicholas (Adele Achem) Nasser
 Miss. Marguerite Ru$$ Sandstrom
 Miss. Elizabeth Bonnell
 Mr. William Henry Saundercock
 Miss. Marguerite Ru$$ Sandstrom
 Miss. Hulda Amanda Adolfina Vestrom
 Mrs. (Mary D Kingcome) Hewlett
 Master. Eugene Rice
 Mr. Charles Eugene Williams
 Mrs. Julius (Emelia Maria Vandemoortele) Vander Planke
 Mrs. Fatima Masselmani
 Mr. Joseph J Fynney
 Mr. Lawrence Beesley
 Miss. Anna "Annie" McGowan
 Miss. Marguerite Ru$$ Sandstrom
 Miss. Torborg Danira Palsson
 Mrs. Carl Oscar (Selma Augusta Emilia Johansson) Asplund
 Mr. Farred Chehab Emir
 Mr. Charles Alexander Fortune
 Miss. Ellen "Nellie" O'Dwyer
 Mr. Lalio Todoroff
 Don. Manuel E Uruchurtu
 Mrs. William Augustus (Marie 

 Mr. Johan Svensson Lundahl
 Dr. Max Stahelin-Maeglin
 Mr. William Henry Marsh Parr
 Miss. Mabel Skoog
 Miss. Mary Davis
 Mr. Antti Gustaf Leinonen
 Mr. Harvey Collyer
 Mrs. Juha (Maria Emilia Ojala) Panula
 Mr. Percival Thorneycroft
 Mr. Hans Peder Jensen
 Mlle. Emma Sagesser
 Miss. Margit Elizabeth Skoog
 Mr. Choong Foo
 Miss. Eugenie Baclini
 Mr. Henry Sleeper Harper
 Mr. Liudevit Cor
 Col. Oberst Alfons Simonius-Blumer
 Mr. Edward Willey
 Miss. Amy Zillah Elsie Stanley
 Mr. Mito Mitkoff
 Miss. Elsie Doling
 Mr. Johannes Halvorsen Kalvik
 Miss. Hanora "Norah" O'Leary
 Miss. Hanora "Nora" Hegarty
 Mr. Leonard Mark Hickman
 Mr. Alexander Radeff
 Mrs. John (Catherine) Bourke
 Mr. George Floyd Eitemiller
 Mr. Arthur Webster Newell
 Dr. Henry William Frauenthal
 Mr. Mohamed Badt
 Mr. Edward Pomeroy Colley
 Mr. Peju Coleff
 Mr. Eino William Lindqvist
 Mr. Lewis Hickman
 Mr. Reginald Fenton Butler
 Mr. Knud Paust Rommetvedt
 Mr. Jacob Cook
 Mrs. Elmer Zebley (Juliet Cummins Wright) Taylor


In [27]:
for i in df.index:
    name_split = df.name.values[i]
    name = name_split.partition("(")[0]
    real_name1 = name_split.partition("(")[2]
    real_name2 = real_name1.partition(")")[0]
    name2 = real_name1.partition(") ")[2]
    if real_name2:
        df.name.values[i] = name + name2 + "(" + real_name2 + ")"
    else:
        df.name.values[i] = name + name2

Zmieniono kolejność występowania tytułowania, imienia, nazwiska oraz ksywki i osoby. Co umożliwiło dokładne porównanie wszystkich wierszy i redukcje ich o wartości powtarzające się.

In [28]:
df['name'].value_counts()

 Mr. Frederick Maxfield Hoyt                          3
 Miss. Marguerite Ru$$ Sandstrom                      3
 Miss. Katherine "Katie" Mullens                      1
 Mr. Pekka Pietari Hakkarainen                        1
 Mr. Ernest Portage Tomlin                            1
                                                     ..
 Miss. Anna Ward                                      1
 Mr. Husein Sivic                                     1
 Mrs. Alexander Oskar Holverson(Mary Aline Towner)    1
 Mr. Mohamed Badt                                     1
 Miss. Agnes McCoy                                    1
Name: name, Length: 888, dtype: int64

Jak można zaobserować, po naniesionych zmianach wartości te przedstawiają się następująco.

In [29]:
df = df.drop_duplicates('passenger_id',keep='first')

kolejnym krokiem było usunięcie duplikatów. Po poprzednich analizach wiadomym było, że passenger_id jest wartością, według której można wyfiltrować powtórzenia w danych.

In [30]:
for i in df.index:
    print(df.at[i, 'name'])

 Mr. Owen Harris Braund
 Mrs. John Bradley Cumings(Florence Briggs Thayer)
 Miss. Laina Heikkinen
 Mrs. Jacques Heath Futrelle(Lily May Peel)
 Mr. William Henry Allen
 Mr. James Moran
 Mr. Timothy J McCarthy
 Master. Gosta Leonard Palsson
 Mrs. Oscar W Johnson(Elisabeth Vilhelmina Berg)
 Mrs. Nicholas Nasser(Adele Achem)
 Miss. Marguerite Ru$$ Sandstrom
 Miss. Elizabeth Bonnell
 Mr. William Henry Saundercock
 Miss. Hulda Amanda Adolfina Vestrom
 Mrs. Hewlett(Mary D Kingcome)
 Master. Eugene Rice
 Mr. Charles Eugene Williams
 Mrs. Julius Vander Planke(Emelia Maria Vandemoortele)
 Mrs. Fatima Masselmani
 Mr. Joseph J Fynney
 Mr. Lawrence Beesley
 Miss. Anna "Annie" McGowan
 Miss. Torborg Danira Palsson
 Mrs. Carl Oscar Asplund(Selma Augusta Emilia Johansson)
 Mr. Farred Chehab Emir
 Mr. Charles Alexander Fortune
 Miss. Ellen "Nellie" O'Dwyer
 Mr. Lalio Todoroff
 Don. Manuel E Uruchurtu
 Mrs. William Augustus Spencer(Marie Eugenie)
 Miss. Mary Agatha Glynn
 Mr. Edward H Wheadon
 Mr. Edgar

 Miss. Ruth Taussig
 Mr. John Denzil Jarvis
 Mr. Maxmillian Frolicher-Stehli
 Mr. Eliezer Gilinski
 Mr. Joseph Murdlin
 Mr. Matti Rintamaki
 Mrs. Walter Bertram Stephenson(Martha Eustis)
 Mr. William James Elsbury
 Miss. Mary Bourke
 Mr. John Henry Chapman
 Mr. Jean Baptiste Van Impe
 Miss. Jessie Wills Leitch
 Mr. Alfred Johnson
 Mr. Hanna Boulos
 Sir. Cosmo Edmund Duff Gordon("Mr Morgan")
 Mrs. Sidney Samuel Jacobsohn(Amy Frances Christy)
 Mr. Petco Slabenoff
 Mr. Charles H Harrington
 Mr. Ernst William Torber
 Mr. Harry Homer("Mr E Haven")
 Mr. Edvard Bengtsson Lindell
 Mr. Milan Karaic
 Mr. Robert Williams Daniel
 Mrs. Joseph Laroche(Juliette Marie Louise Lafargue)
 Miss. Elizabeth W Shutes
 Mrs. Anders Johan Andersson(Alfrida Konstantia Brogren)
 Mr. Jose Neto Jardin
 Miss. Margaret Jane Murphy
 Mr. John Horgan
 Mr. William Alfred Brocklebank
 Miss. Alice Herman
 Mr. Ernst Gilbert Danbom
 Mrs. William Arthur Lobb(Cordelia K Stanlick)
 Miss. Marion Louise Becker
 Mr. Lawrence Gavey

Ostatecznie dane dotyczące pasażerów po oczyszczeniu prezentują się tak.

In [31]:
df['sex'] = df['sex'].str.replace("(^f)([A-Za-z]+)*", 'female')

Konieczne było poprawienie błędnych wartości w kolumnie sex dotyczące kobiet.

In [32]:

df['sex'] = df['sex'].str.replace("(^m)([A-Za-z]+)*",'male')


Oraz dane w tejże kolumnie dotyczące mężczyzn.

In [33]:
df['sex'].value_counts()

male      576
female    312
Name: sex, dtype: int64

Tak prezentują się dane w kolumnie sex po zmienach.

In [34]:
df['age'] = df['age'].str.replace(r'[^\d]', '')
df['age'] = df['age'].str.replace(",", '.')
df["age"] = df["age"].apply(pd.to_numeric, errors='coerce')

Z kolumny age usunięto wszystkie wartości, które nie były liczbowe. Następnie ujednolicono znak dziesiętny na .
Oraz zmieniono wartości występujące w kolumnie na numeryczna.

In [35]:
df = df.drop(df[(df.age < 0) | (df.age > 100)].index)

Kolejnym krokiem było usunięcie warości niepoprawnych. Wartości poniżej 0 oraz powyżej 100 uznane zostały za błędne.

In [36]:
df['age'] = df['age'].interpolate()

Wartości wieku, które nie były określone zostały zastąpione wartościami korzystając z metody interpolacji.

In [37]:
df['age'] = df['age'].round(decimals=0)

Następnie zaokrąglono wartości aby nie powodowały problemu w ich odczytywaniu.

In [38]:
for i in df.index:
    print(df.at[i, 'age'])

22.0
38.0
26.0
35.0
35.0
44.0
54.0
2.0
27.0
14.0
4.0
58.0
20.0
14.0
55.0
2.0
16.0
31.0
33.0
35.0
34.0
15.0
8.0
38.0
28.0
19.0
26.0
33.0
40.0
9.0
38.0
66.0
28.0
42.0
32.0
21.0
18.0
14.0
40.0
27.0
15.0
3.0
19.0
19.0
19.0
18.0
18.0
18.0
7.0
21.0
49.0
29.0
65.0
43.0
21.0
5.0
11.0
22.0
38.0
45.0
4.0
12.0
21.0
29.0
19.0
17.0
26.0
32.0
16.0
21.0
26.0
32.0
25.0
44.0
64.0
83.0
30.0
22.0
29.0
28.0
28.0
17.0
33.0
16.0
20.0
23.0
24.0
29.0
20.0
46.0
26.0
59.0
65.0
71.0
23.0
34.0
34.0
28.0
24.0
21.0
33.0
37.0
28.0
21.0
30.0
38.0
42.0
47.0
22.0
20.0
17.0
21.0
29.0
24.0
2.0
21.0
38.0
54.0
12.0
18.0
24.0
34.0
45.0
33.0
20.0
47.0
29.0
25.0
23.0
19.0
37.0
16.0
24.0
23.0
22.0
24.0
19.0
18.0
19.0
27.0
9.0
42.0
51.0
22.0
36.0
51.0
16.0
30.0
35.0
39.0
44.0
40.0
26.0
17.0
1.0
9.0
27.0
45.0
36.0
28.0
61.0
4.0
1.0
21.0
56.0
18.0
34.0
50.0
30.0
36.0
27.0
18.0
9.0
1.0
4.0
18.0
31.0
45.0
40.0
36.0
32.0
19.0
19.0
3.0
44.0
58.0
50.0
42.0
33.0
24.0
28.0
31.0
34.0
18.0
2.0
32.0
26.0
16.0
40.0
24.0
35.0
22.0
30.0
30.0


Tak przezentuje się wiek po jego poprawieniu.

In [39]:
df['embarked'] = df['embarked'].str.replace("(^S)([A-Za-z]+)*", 'southampton')
df['embarked'] = df['embarked'].str.replace("(^C)([A-Za-z]+)*", 'cherbourg')
df['embarked'] = df['embarked'].str.replace("(^Q)([A-Za-z]+)*", 'queenstown')

Poprawiono dane znajdujące się w kolumnie embarked ujednolicając zapis wartości.

In [40]:
for i in df.index:
    print(df.at[i, 'embarked'])

southampton
cherbourg
southampton
southampton
southampton
queenstown
southampton
southampton
southampton
cherbourg
southampton
southampton
southampton
southampton
southampton
queenstown
southampton
southampton
cherbourg
southampton
southampton
queenstown
southampton
southampton
cherbourg
southampton
queenstown
southampton
cherbourg
cherbourg
queenstown
southampton
cherbourg
southampton
cherbourg
southampton
southampton
cherbourg
southampton
southampton
cherbourg
cherbourg
queenstown
southampton
queenstown
queenstown
cherbourg
southampton
southampton
southampton
cherbourg
southampton
cherbourg
southampton
southampton
southampton
southampton
cherbourg
nan
southampton
southampton
cherbourg
cherbourg
southampton
southampton
southampton
southampton
southampton
southampton
southampton
cherbourg
southampton
southampton
southampton
southampton
southampton
southampton
southampton
southampton
queenstown
southampton
southampton
southampton
southampton
southampton
southampton
southampton
southampt

Tak prezentują się one po poprawie.

In [41]:
df['pclass'] = df['pclass'].apply(str)
df['pclass'] = df['pclass'].str.replace("1", 'upper_class')
df['pclass'] = df['pclass'].str.replace("2", 'middle_class')
df['pclass'] = df['pclass'].str.replace("3", 'lower_class')

Ten sam  zabieg został przeprowadzony na kolumnie pclass.

In [42]:
for i in df.index:
    print(df.at[i, 'pclass'])

lower_class
upper_class
lower_class
upper_class
lower_class
lower_class
upper_class
lower_class
lower_class
middle_class
lower_class
upper_class
lower_class
lower_class
middle_class
lower_class
middle_class
lower_class
lower_class
middle_class
middle_class
lower_class
lower_class
lower_class
lower_class
upper_class
lower_class
lower_class
upper_class
upper_class
lower_class
middle_class
upper_class
upper_class
lower_class
lower_class
lower_class
lower_class
lower_class
middle_class
lower_class
middle_class
lower_class
lower_class
lower_class
lower_class
lower_class
lower_class
lower_class
lower_class
upper_class
middle_class
upper_class
upper_class
middle_class
middle_class
lower_class
lower_class
upper_class
upper_class
lower_class
upper_class
lower_class
middle_class
lower_class
lower_class
lower_class
middle_class
lower_class
middle_class
lower_class
lower_class
lower_class
lower_class
lower_class
middle_class
lower_class
lower_class
lower_class
lower_class
upper_class
middle_class


A oto wyniki wykonanej czynności.

In [43]:
df_gender = pd.get_dummies(df['sex'])
df = pd.concat([df, df_gender], axis=1)

Następnym krokiem było utworzenie z dostępnych tabel cech jakościowych, a następnie przekształcenie ich w zmienne zastępcze. Wykonano to dla kolumny sex.

In [44]:
print(df)

     passenger_id  survived       pclass  \
0               1         0  lower_class   
1               2         1  upper_class   
2               3         1  lower_class   
3               4         1  upper_class   
4               5         0  lower_class   
..            ...       ...          ...   
887           888         1  upper_class   
888           889         0  lower_class   
889           890         1  upper_class   
890           891         0  lower_class   
891          1000         1  upper_class   

                                                  name     sex   age  \
0                               Mr. Owen Harris Braund    male  22.0   
1     Mrs. John Bradley Cumings(Florence Briggs Tha...  female  38.0   
2                                Miss. Laina Heikkinen  female  26.0   
3           Mrs. Jacques Heath Futrelle(Lily May Peel)  female  35.0   
4                              Mr. William Henry Allen    male  35.0   
..                                     

In [45]:
df_embarked = pd.get_dummies(df['embarked'])
df = pd.concat([df, df_embarked], axis=1)

Również dla kolumny embarked.

In [46]:
print(df)

     passenger_id  survived       pclass  \
0               1         0  lower_class   
1               2         1  upper_class   
2               3         1  lower_class   
3               4         1  upper_class   
4               5         0  lower_class   
..            ...       ...          ...   
887           888         1  upper_class   
888           889         0  lower_class   
889           890         1  upper_class   
890           891         0  lower_class   
891          1000         1  upper_class   

                                                  name     sex   age  \
0                               Mr. Owen Harris Braund    male  22.0   
1     Mrs. John Bradley Cumings(Florence Briggs Tha...  female  38.0   
2                                Miss. Laina Heikkinen  female  26.0   
3           Mrs. Jacques Heath Futrelle(Lily May Peel)  female  35.0   
4                              Mr. William Henry Allen    male  35.0   
..                                     

In [47]:
pclass = pd.get_dummies(df['pclass'])
df = pd.concat([df, pclass], axis=1)

Oraz ostatecznie dla kolumny pclass.

In [48]:
print(df)

     passenger_id  survived       pclass  \
0               1         0  lower_class   
1               2         1  upper_class   
2               3         1  lower_class   
3               4         1  upper_class   
4               5         0  lower_class   
..            ...       ...          ...   
887           888         1  upper_class   
888           889         0  lower_class   
889           890         1  upper_class   
890           891         0  lower_class   
891          1000         1  upper_class   

                                                  name     sex   age  \
0                               Mr. Owen Harris Braund    male  22.0   
1     Mrs. John Bradley Cumings(Florence Briggs Tha...  female  38.0   
2                                Miss. Laina Heikkinen  female  26.0   
3           Mrs. Jacques Heath Futrelle(Lily May Peel)  female  35.0   
4                              Mr. William Henry Allen    male  35.0   
..                                     

In [49]:
column_order = ['passenger_id', 'name', 'female', 'male', 'age', 'survived', 'upper_class', 'middle_class', 'lower_class','cabin', 'ship', 'ticket', 'pclass', 'embarked', 'sex', 'siblings_spouses', 'parents_children', 'fare', 'cherbourg', 'queenstown', 'southampton']


df = df.reindex(columns=column_order)

Uporządkowano kolejność kolumn aby dane prezentowały się w sposób poprawny i przyjazny dla użytkownika.

In [50]:
df.dtypes

passenger_id          int64
name                 object
female                uint8
male                  uint8
age                 float64
survived              int64
upper_class           uint8
middle_class          uint8
lower_class           uint8
cabin                object
ship                 object
ticket               object
pclass               object
embarked             object
sex                  object
siblings_spouses      int64
parents_children      int64
fare                 object
cherbourg             uint8
queenstown            uint8
southampton           uint8
dtype: object

Sprawdzono typy zmiennych i nadal wymagało dokonać kilku zmian aby zbiór był poprawnie zakodowany.

In [51]:
df.age = df.age.astype(int)
df.survived = df.survived.astype(int)
df.siblings_spouses = df.siblings_spouses.astype(int)
df.parents_children = df.parents_children.astype(int)
df['fare'] = df['fare'].str.replace(r'[^\d]', '')
df['fare'] = df['fare'].str.replace(",", '.')
df['fare'] = pd.to_numeric(df['fare'],errors='coerce')

Dokonano zmian na wcześniej poprawionych danych tak aby typ odpowiadał przechowywanej zawartości.

In [52]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 868 entries, 0 to 891
Data columns (total 21 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   passenger_id      868 non-null    int64 
 1   name              868 non-null    object
 2   female            868 non-null    uint8 
 3   male              868 non-null    uint8 
 4   age               868 non-null    int32 
 5   survived          868 non-null    int32 
 6   upper_class       868 non-null    uint8 
 7   middle_class      868 non-null    uint8 
 8   lower_class       868 non-null    uint8 
 9   cabin             200 non-null    object
 10  ship              868 non-null    object
 11  ticket            868 non-null    object
 12  pclass            868 non-null    object
 13  embarked          866 non-null    object
 14  sex               868 non-null    object
 15  siblings_spouses  868 non-null    int32 
 16  parents_children  868 non-null    int32 
 17  fare            

Tak wygląda podsumowanie po dokonanych zmianach dotyczących typów danych.

In [53]:
df.head(20)

Unnamed: 0,passenger_id,name,female,male,age,survived,upper_class,middle_class,lower_class,cabin,...,ticket,pclass,embarked,sex,siblings_spouses,parents_children,fare,cherbourg,queenstown,southampton
0,1,Mr. Owen Harris Braund,0,1,22,0,0,0,1,,...,A/5 21171,lower_class,southampton,male,1,0,725,0,0,1
1,2,Mrs. John Bradley Cumings(Florence Briggs Tha...,1,0,38,1,1,0,0,C85,...,PC 17599,upper_class,cherbourg,female,1,0,712833,1,0,0
2,3,Miss. Laina Heikkinen,1,0,26,1,0,0,1,,...,STON/O2. 3101282,lower_class,southampton,female,0,0,7925,0,0,1
3,4,Mrs. Jacques Heath Futrelle(Lily May Peel),1,0,35,1,1,0,0,C123,...,113803,upper_class,southampton,female,1,0,531,0,0,1
4,5,Mr. William Henry Allen,0,1,35,0,0,0,1,,...,373450,lower_class,southampton,male,0,0,805,0,0,1
5,6,Mr. James Moran,0,1,44,0,0,0,1,,...,330877,lower_class,queenstown,male,0,0,84583,0,1,0
6,7,Mr. Timothy J McCarthy,0,1,54,0,1,0,0,E46,...,17463,upper_class,southampton,male,0,0,518625,0,0,1
7,8,Master. Gosta Leonard Palsson,0,1,2,0,0,0,1,,...,349909,lower_class,southampton,male,3,1,21075,0,0,1
8,9,Mrs. Oscar W Johnson(Elisabeth Vilhelmina Berg),1,0,27,1,0,0,1,,...,347742,lower_class,southampton,female,0,2,111333,0,0,1
9,10,Mrs. Nicholas Nasser(Adele Achem),1,0,14,1,0,1,0,,...,237736,middle_class,cherbourg,female,1,0,300708,1,0,0


Podgląd danych pokazuje nam jednak, że nie jest to koniec pracy nad zbioerem danych. Trzeba jeszcze dokonać ostatnich poprawek aby był on gotowy do analizy.

In [54]:
columns_to_drop = ['name','cabin','ship','ticket','pclass','embarked','sex']
df.drop(columns_to_drop, inplace=True, axis=1)

Jednym z ostanich kroków jest usunięcie błędnych lub niepotrzebych kolumn. 

In [55]:
df.isnull().sum()

passenger_id        0
female              0
male                0
age                 0
survived            0
upper_class         0
middle_class        0
lower_class         0
siblings_spouses    0
parents_children    0
fare                0
cherbourg           0
queenstown          0
southampton         0
dtype: int64

Ostatnie sprawdzenie wartości w kolumnach. Brak wartości nie występuje już w zbiorze danych.

In [56]:
df["age"] = (df["age"]-df["age"].min()) / (df["age"].max()-df["age"].min())
df["fare"] = (df["fare"]-df["fare"].min()) / (df["fare"].max()-df["fare"].min())

Z powodu dużego rozstrzału wartości w kolumnach age oraz fare zastosowano normalizacje min - max.

In [57]:
df.head(20)

Unnamed: 0,passenger_id,female,male,age,survived,upper_class,middle_class,lower_class,siblings_spouses,parents_children,fare,cherbourg,queenstown,southampton
0,1,0,1,0.230769,0,0,0,1,1,0,0.000142,0,0,1
1,2,1,0,0.406593,1,1,0,0,1,0,0.139136,1,0,0
2,3,1,0,0.274725,1,0,0,1,0,0,0.001547,0,0,1
3,4,1,0,0.373626,1,1,0,0,1,0,0.000104,0,0,1
4,5,0,1,0.373626,0,0,0,1,0,0,0.000157,0,0,1
5,6,0,1,0.472527,0,0,0,1,0,0,0.01651,0,1,0
6,7,0,1,0.582418,0,1,0,0,0,0,0.101229,0,0,1
7,8,0,1,0.010989,0,0,0,1,3,1,0.004114,0,0,1
8,9,1,0,0.285714,1,0,0,1,0,2,0.021731,0,0,1
9,10,1,0,0.142857,1,0,1,0,1,0,0.058694,1,0,0


Tak przezentują się dane po normalizacji. Teraz dane te przyjmują wartości od 0 do 1 i są dużo bardziej przyjazne do przeprowadzania analizy.

In [58]:
df = df.set_index('passenger_id')

Ostatnim krokiem przed podzieleniem zbioru na treningowy oraz testowy było ustawienie indeksu danych na zmienną passenger_id.

In [59]:
train=df.sample(frac=0.7,random_state=200)
test=df.drop(train.index)

Dokonano podziału danych na zbiór treningowy i testowy.

In [60]:
train

Unnamed: 0_level_0,female,male,age,survived,upper_class,middle_class,lower_class,siblings_spouses,parents_children,fare,cherbourg,queenstown,southampton
passenger_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
362,0,1,0.307692,0,0,1,0,1,0,0.054107,1,0,0
771,0,1,0.252747,0,0,0,1,0,0,0.000019,0,0,1
42,1,0,0.285714,0,0,1,0,1,0,0.000004,0,0,1
413,1,0,0.351648,1,1,0,0,1,0,0.000018,0,1,0
33,1,0,0.406593,1,0,0,1,0,0,0.000151,0,1,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
408,0,1,0.021978,1,0,1,0,1,1,0.000366,0,0,1
473,1,0,0.351648,1,0,1,0,1,2,0.000542,0,0,1
860,0,1,0.340659,0,0,0,1,0,0,0.014110,1,0,0
477,0,1,0.362637,0,0,1,0,1,0,0.000004,0,0,1


Tak prezentuje się zbiór treningowy.

In [61]:
test

Unnamed: 0_level_0,female,male,age,survived,upper_class,middle_class,lower_class,siblings_spouses,parents_children,fare,cherbourg,queenstown,southampton
passenger_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
1,0,1,0.230769,0,0,0,1,1,0,0.000142,0,0,1
3,1,0,0.274725,1,0,0,1,0,0,0.001547,0,0,1
7,0,1,0.582418,0,1,0,0,0,0,0.101229,0,0,1
8,0,1,0.010989,0,0,0,1,3,1,0.004114,0,0,1
11,1,0,0.032967,1,0,0,1,1,1,0.000033,0,0,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...
879,0,1,0.406593,0,0,0,1,0,0,0.015412,0,0,1
881,1,0,0.263736,1,0,1,0,0,1,0.000005,0,0,1
884,0,1,0.296703,0,0,1,0,0,0,0.000020,0,0,1
887,0,1,0.285714,0,0,1,0,0,0,0.000003,0,0,1


Tak prezentuje się zbiór testowy.

In [62]:
df.to_csv('TitanicCleaned.tsv', sep = '\t')