# Zbiór Titanic - czyszczzenie i przygotowanie do analizy

### Załadowanie bibliotek
Pakiet Numpy służy do wykonywania operacji matematycznych, a pakiet Pandas do manipulacji zbiorem danych.

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

from numbers import Number
from scipy import stats
%pylab inline

Populating the interactive namespace from numpy and matplotlib


Wczytanie danych

In [2]:
tt = pd.read_csv('C:/Test/TitanicMess.tsv', sep='\t', decimal=',')

Wyświetlenie pierwszych 5 wierszy zbioru danych. Mozna zobserować, iż zestaw danych składa się z 13 wierszy. Brakujące wartości występują w kolumnie wiek i kabina.

In [3]:
tt.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,ship
0,1,0,3,"Braund, Mr. Owen Harris",male,22,1,0,A/5 21171,725,,S,Titanic
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38,1,0,PC 17599,712833,C85,C,Titanic
2,3,1,3,"Heikkinen, Miss. Laina",female,26,0,0,STON/O2. 3101282,7925,,S,Titanic
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35,1,0,113803,531,C123,S,Titanic
4,5,0,3,"Allen, Mr. William Henry",male,35,0,0,373450,805,,S,Titanic


Dane zbioru:
Data Dictionary

    Survived: 0 = Nie, 1 = Tak
    pclass: Klasa biletu 1 = 1st, 2 = 2nd, 3 = 3rd
    sibsp: liczba rodzeństwa / małżonków na pokładzie
    parch:  liczba rodziców / dzieci na pokładzie Titanica
    ticket: Numer biletu
    cabin: Numer kabiny
    embarked: Port zaokrętowania
    
W zbiorze danych znajduje się 892 wierszy i 13 kolumn. 

In [4]:
tt.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 892 entries, 0 to 891
Data columns (total 13 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   PassengerId  892 non-null    int64 
 1   Survived     892 non-null    int64 
 2   Pclass       892 non-null    int64 
 3   Name         892 non-null    object
 4   Sex          892 non-null    object
 5   Age          719 non-null    object
 6   SibSp        892 non-null    int64 
 7   Parch        892 non-null    int64 
 8   Ticket       892 non-null    object
 9   Fare         892 non-null    object
 10  Cabin        207 non-null    object
 11  Embarked     890 non-null    object
 12  ship         892 non-null    object
dtypes: int64(5), object(8)
memory usage: 90.7+ KB


Wyświetlenie brakujących wartości. W kolumnie wiek (brak 173) wierszy oraz wystąpienie brakujących wartości w kolumnie Cabin (685 wartości) oraz Embarked (2 wartości).

Brakujące wartości znajdują się w kolumnach Wiek , Kabina i Mijesce zaokrętowania . Wiek to numeryczny typ danych i kabina , zaokrętowane są typu danych obiektu, który może być ciągiem znaków lub znakiem.

In [5]:
tt.isnull().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            173
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          685
Embarked         2
ship             0
dtype: int64

Wywołanie wartości służącej do przeglądania podstawowych szczegółów statystycznych, takich jak percentyl, średnia, standardowa itp. ramki danych lub serii wartości liczbowych. 
 Na podstawie tych statystyk podsumowujących możemy wywnioskować, czy istnieją wartości odstające, czy nie, które efekty oznaczają. W przypadku zbioru danych tytanicznych nie ma żadnych wartości odstających

In [6]:
tt.describe()

Unnamed: 0,PassengerId,Survived,Pclass,SibSp,Parch
count,892.0,892.0,892.0,892.0,892.0
mean,445.762332,0.386771,2.307175,0.525785,0.371076
std,257.990085,0.487284,0.83675,1.10219,0.768468
min,1.0,0.0,1.0,0.0,0.0
25%,223.75,0.0,2.0,0.0,0.0
50%,444.5,0.0,3.0,0.0,0.0
75%,668.25,1.0,3.0,1.0,0.0
max,1000.0,1.0,3.0,8.0,5.0


Uzyskany wymiar danych w celu zobserowania liczby kolum i liczbe obserwacji danych, z których składa się zbiór danych, ukazując, że zbiór danych składa się z 892 wierszy i 13 kolum.

In [7]:
tt.shape

(892, 13)

Sprawdzenie typu danych każdej kolumny w zestawie.

In [8]:
tt.dtypes

PassengerId     int64
Survived        int64
Pclass          int64
Name           object
Sex            object
Age            object
SibSp           int64
Parch           int64
Ticket         object
Fare           object
Cabin          object
Embarked       object
ship           object
dtype: object

Po wywołaniu powyższych informacji o zbiorze danych widać, że w kolumnach Wiek, Kabina i Zaokrętowano brakuje wpisów. Ponieważ kolumna „Kabina” nie jest istotna dla analizy danych, usunę tę kolumnę, jednak będę musiał znaleźć sposób, w jaki zaktualizuje się brakujące grupy wiekowe i zaokrętowany port.

Mozna zobserować liczbe wartości innych niż null w każdej kolumnie z jej typem danych.

In [9]:
tt.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 892 entries, 0 to 891
Data columns (total 13 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   PassengerId  892 non-null    int64 
 1   Survived     892 non-null    int64 
 2   Pclass       892 non-null    int64 
 3   Name         892 non-null    object
 4   Sex          892 non-null    object
 5   Age          719 non-null    object
 6   SibSp        892 non-null    int64 
 7   Parch        892 non-null    int64 
 8   Ticket       892 non-null    object
 9   Fare         892 non-null    object
 10  Cabin        207 non-null    object
 11  Embarked     890 non-null    object
 12  ship         892 non-null    object
dtypes: int64(5), object(8)
memory usage: 90.7+ KB


In [10]:
tt[tt['Embarked']=='S'].shape[0]

643

In [11]:
tt[tt['Embarked']=='C'].shape[0]

167

In [12]:
tt[tt['Embarked']=='Q'].shape[0]

76

Zastąpienie wartości 

In [13]:
tt.Cabin = tt.Cabin.fillna("Nieznane")
print(tt.isnull().sum())

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            173
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin            0
Embarked         2
ship             0
dtype: int64


 Brakujące porty zaokrętowania.
Aby zapełnić brakujące porty zaokrętowane, muszę najpierw ustalić, czy osoby z brakującymi informacjami mogły podróżować z innymi osobami. 

In [14]:

missing_ports = tt[tt['Embarked'].isnull()]
missing_ports

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,ship
61,62,1,1,"Icard, Miss. Amelie",female,38,0,0,113572,80,B28,,Titanic
829,830,1,1,"Stone, Mrs. George Nelson (Martha Evelyn)",female,62,0,0,113572,80,B28,,Titanic


Wyszukiwanie według numeru biletu i kabiny.

In [15]:
tt[(tt['Embarked'].notnull()) & ((tt['Ticket'] == '113572') | (tt['Cabin'] == 'B28'))]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,ship


Ponieważ wyszukiwanie podobnych rekordów nie przyniosło żadnych wyników i wydaje się, że obaj podróżowali w tej samej kabinie i z tym samym numerem biletu, a większość pasażerów podróżowała z Southhampton, zdecydowałem się użyć Southhampton jako brakującej wartości.

In [16]:
tt['Embarked'].fillna('S',inplace=True)
tt.fillna({'Embarked':'S'})

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,ship
0,1,0,3,"Braund, Mr. Owen Harris",male,22,1,0,A/5 21171,725,Nieznane,S,Titanic
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38,1,0,PC 17599,712833,C85,C,Titanic
2,3,1,3,"Heikkinen, Miss. Laina",female,26,0,0,STON/O2. 3101282,7925,Nieznane,S,Titanic
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35,1,0,113803,531,C123,S,Titanic
4,5,0,3,"Allen, Mr. William Henry",male,35,0,0,373450,805,Nieznane,S,Titanic
...,...,...,...,...,...,...,...,...,...,...,...,...,...
887,888,1,1,"Graham, Miss. Margaret Edith",female,19,0,0,112053,30,B42,S,Titanic
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,2345,Nieznane,S,Titanic
889,890,1,1,"Behr, Mr. Karl Howell",male,26,0,0,111369,30,C148,C,Titanic
890,891,0,3,"Dooley, Mr. Patrick",male,32,0,0,370376,775,Nieznane,Q,Titanic


In [17]:
tt.Embarked.fillna('S', inplace=True)
tt.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,ship
0,1,0,3,"Braund, Mr. Owen Harris",male,22,1,0,A/5 21171,725,Nieznane,S,Titanic
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38,1,0,PC 17599,712833,C85,C,Titanic
2,3,1,3,"Heikkinen, Miss. Laina",female,26,0,0,STON/O2. 3101282,7925,Nieznane,S,Titanic
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35,1,0,113803,531,C123,S,Titanic
4,5,0,3,"Allen, Mr. William Henry",male,35,0,0,373450,805,Nieznane,S,Titanic


In [18]:
tt.isnull().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            173
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin            0
Embarked         0
ship             0
dtype: int64

Zamiana przecinków na kropki.

In [19]:
tt["Age"] = tt["Age"].str.replace(",","").astype(float)

tt.head(10)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,ship
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,725,Nieznane,S,Titanic
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,712833,C85,C,Titanic
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7925,Nieznane,S,Titanic
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,531,C123,S,Titanic
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,805,Nieznane,S,Titanic
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,84583,Nieznane,Q,Titanic
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,518625,E46,S,Titanic
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21075,Nieznane,S,Titanic
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,111333,Nieznane,S,Titanic
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,300708,Nieznane,C,Titanic


Brak wieku. W tym celu aby uzupelnić brakujące grup wiekowe należy użyć średniego wieku opartego na płci i klasie.

In [20]:
missing_ages = tt[tt['Age'].isnull()]

Określenie średniej wiek na podstawie płci i klasy. Użyto funkcji aby sprawdzić, czy wiek jest zerowy i zastąpić średnią z ramką danych o średnim wieku.

In [21]:
mean_ages = tt.groupby(['Sex','Pclass'])['Age'].mean()

def remove_na_ages(row):

    if pd.isnull(row['Age']):
        return mean_ages[row['Sex'],row['Pclass']]
    else:
        return row['Age']

tt['Age'] =tt.apply(remove_na_ages, axis=1)

In [22]:
tt.head(50)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,ship
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,725,Nieznane,S,Titanic
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,712833,C85,C,Titanic
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7925,Nieznane,S,Titanic
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,531,C123,S,Titanic
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,805,Nieznane,S,Titanic
5,6,0,3,"Moran, Mr. James",male,42.229249,0,0,330877,84583,Nieznane,Q,Titanic
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,518625,E46,S,Titanic
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21075,Nieznane,S,Titanic
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,111333,Nieznane,S,Titanic
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,300708,Nieznane,C,Titanic


In [23]:
tt.isnull().sum()

PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            1
SibSp          0
Parch          0
Ticket         0
Fare           0
Cabin          0
Embarked       0
ship           0
dtype: int64

Wiedząc, że każda kolumna jest liczbowa lub kategorialna, można usunąć wartości mające wartośc null w zbiorze lub kolumne posiadająca większą liczbe wartości null.

In [24]:
# Usuwanie wierszy 
tt1=tt.dropna()

In [25]:
# Modyfikacja niezerowych wartości.
tt1.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 891 entries, 0 to 891
Data columns (total 13 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          891 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    object 
 10  Cabin        891 non-null    object 
 11  Embarked     891 non-null    object 
 12  ship         891 non-null    object 
dtypes: float64(1), int64(5), object(7)
memory usage: 97.5+ KB


Usuwanie wartości null które mają maksymalną liczbe wartości. Ustawienie limitu na 70% w celu usuwania wartości null większych oraz równych temu procentowi w celu usuwania z ramki danych.

In [26]:
# Ustawienie limitu oraz wyrzucenie  kolumn za pomocą limitu.
limit = len(tt) * 0.7
new=tt.dropna(axis=1, thresh=limit)

Wartośc kolmny kabin została zachowana ponieważ zastapiliśmy brakujące wartości najczęściej występująca wartością. Zastosowanie tej metody można używać gdy liczba probek w zbiorze ma wystarczającą liczbe zerowych wartości.

In [27]:
# Wyświetllenie kolumn z zestawu danych
new.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked', 'ship'],
      dtype='object')

In [28]:
# Zastapienie wartości zerowych średnią, medianą.
# Wartość null w kolumnie wieku.
tt['Age'].isnull().sum()

1

Zastąpienie pustych wartości średnią lub medianą. 
Stoswoana średnia liczbowych danych kolumnowych jest stosowana do zastępowania wartości zerowychw sytuacji gdy rozkład danych jest normalny. Mediana jest używana, również gdy dane zawierają wartości odstające. Średnią lub mediane stosuje się gdy dane mają więcej wystąpień określonej  wartości lub częściej.

In [29]:
# Średnia wieku
tt['Age'].mean()

43.402563356460114

In [30]:
# Mediana wieku
tt['Age'].median()

31.0

In [31]:
# Zestawienie wieku.
tt['Age'].mode()

0    42.229249
dtype: float64

Posiadając średnią 43,mediane 31 oraz tryb 42 oraz 0 dla wartości wiek można zasąpić wartości null średnią ponieważ kolumna wieku nie zawiera odstających wartości.

In [32]:
# Zastąpienie wartości null średnią
tt['Age'] = tt['Age'].replace(np.nan, tt['Age'].mean())
# Druga wartośc zastąpienia średniej
tt['Age'] = tt['Age'].fillna(tt['Age'].mean())

Sprawdzenie cłkowitej wartości null w kolumnie wiek.

In [33]:
# Sprawdzenie wartości null w kolumnie wiek.
tt['Age'].isnull().sum()

0

Posiadając liczbę wartości null w kolumnie Age równą 0 więc wartości zerowe w Age są zastępowane są przez średnią. Porownanie wartości czy dane są zastp,owane średnią lub medianą przez obserwację, która ma wartość zerową przed i po tym kroku. Zaobserowoano, że wartość średnia zostaje zastąpiona na swojej pozycji. Podobnie można również zastąpić wartości null medianą i modą.
Można również wypełnić wartości null poprzednią wartością w kolumnie, za pmoća wartością wsteczną lub następną występującą wartością w kolumnie.

In [34]:
# Przypisanie wartości stosując mediane.
tt['Age'] = tt['Age'].fillna(tt['Age'].median())
tt['Age'] = tt['Age'].fillna(tt['Age'].mode())

In [35]:
# Wypełnienie wartości do tyłu oraz w przód w celu przypisania poprzedzających lub następnych wartości.
tt['Age'] = tt['Age'].fillna(method='bfill')
tt['Age'] = tt['Age'].fillna(method='ffill')

Kolumny Kabina i Zaokrętowany mają kategoryczny typ danych. Wywołanie pierwszych wierszy dwóch kolum w celu dowiedzenia się jaki typ wartości zawierają dwie kolumny ponieważ są tego typu.

In [36]:
# Wartości kategoryzujące w danych.
tt[['Cabin','Embarked']].head()

Unnamed: 0,Cabin,Embarked
0,Nieznane,S
1,C85,C
2,Nieznane,S
3,C123,S
4,Nieznane,S


In [37]:
# Liczba brakujących wartości.
tt[['Cabin', 'Embarked']].isnull().sum()

Cabin       0
Embarked    0
dtype: int64

Kolumna Embarked może zawierać częstsze wartości. Ponieważ wartości są typem klasy dzięki czemu można zastąpąwać zerowe wartości najczęstszymi z nich.
Najczęstszą wartością w kolumnie zaokrętowania jest S więc zastąpioni wszystkie wartości zerowych w kolumnie zaokretowanie najczęstszą wartością. 

In [38]:
# Najczęściej wystepująca wartośc w danych Embarked
tt['Embarked'].value_counts()

S     645
C     167
Q      76
So      2
Co      1
Qe      1
Name: Embarked, dtype: int64

In [39]:
# Zastąpienie wartości null najczęściej występującą wartością.
tt['Embarked'] = tt['Embarked'].fillna(tt['Embarked'].value_counts().index[0])

In [40]:
# Wyświetlenie ilości wartości null w kolumnie Embarked.
tt['Embarked'].isnull().sum()

0

In [41]:
# Wartości liczb dla zadanej kolumny.
tt['Embarked'].value_counts()

S     645
C     167
Q      76
So      2
Co      1
Qe      1
Name: Embarked, dtype: int64

In [42]:
# Zastąpienie wartości null kolumny Cabin za pomocą wwartości Unknown.
tt['Cabin'] = tt['Cabin'].fillna('Nieznane')

In [43]:
# Wartości kolumny kabiny.
tt['Cabin'].value_counts().head()

Nieznane       685
G6               6
C93              5
B96 B98          4
C23 C25 C27      4
Name: Cabin, dtype: int64

In [44]:
# Sprawdzenie wartości null w kolumnie Cabin.
tt['Cabin'].isnull().sum()

0

In [45]:
# Podgląd zmodyfikowanych wartości zbioru danych 
tt.shape

(892, 13)

In [46]:
# Ilość niezerowych wartości w zmodyfikowanym zbiorze danych.
tt.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 892 entries, 0 to 891
Data columns (total 13 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  892 non-null    int64  
 1   Survived     892 non-null    int64  
 2   Pclass       892 non-null    int64  
 3   Name         892 non-null    object 
 4   Sex          892 non-null    object 
 5   Age          892 non-null    float64
 6   SibSp        892 non-null    int64  
 7   Parch        892 non-null    int64  
 8   Ticket       892 non-null    object 
 9   Fare         892 non-null    object 
 10  Cabin        892 non-null    object 
 11  Embarked     892 non-null    object 
 12  ship         892 non-null    object 
dtypes: float64(1), int64(5), object(7)
memory usage: 90.7+ KB


Podsumowanie brakujących wartości w danych kolumnach. Poszczególne kolumny zostały wyczyszczone umozliwiając dokładną analize danych.

In [47]:
tt.isnull().sum()

PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
Cabin          0
Embarked       0
ship           0
dtype: int64

In [48]:
# Zapis do pliku
tt.to_csv('C:/Test/TitanicCleaned.csv',sep=';')

Wnioski:
Braki danych są bardzo ważne w analizowaniu danych ponieważ duża część algorytmów np. uczenia maszynowego nie radzi sobie dobrze z brakami danych. Stosując dane z brakującymi danymi do analizowania danych można wyciągnąć nidokładne wnioski z analizowanych danych.
Korzystając z kolumn lub funkcji, które nie mają brakujących wartości, możemy przewidzieć wartości null w innych kolumnach przy użyciu algorytmów uczenia maszynowego dla danych typu numerycznego i kategorialnego.

Usuwanie kolumny z większą liczbą wartości null może być wykonane tylko wtedy, gdy usunięta kolumna nie wpływa na naszą analizę lub ta kolumna jest poza zakresem naszego modelu. Usunięcie danych prowadzi do utraty informacji, przez co nie uzyskamy pożądanego wyniku podczas prognozowania.