# Import wymaganych pakietów

In [1]:
import numpy as np
import pandas as pd

# Wczytanie pliku

In [2]:
df = pd.read_csv("Zbiór danych Titanic.arff.txt", header = 0, na_values = "?")
df.head(20)

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
0,1,1,"Allen, Miss. Elisabeth Walton",female,29.0,0,0,24160,211.3375,B5,S,2,,"St Louis, MO"
1,1,1,"Allison, Master. Hudson Trevor",male,0.9167,1,2,113781,151.55,C22 C26,S,11,,"Montreal, PQ / Chesterville, ON"
2,1,0,"Allison, Miss. Helen Loraine",female,2.0,1,2,113781,151.55,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"
3,1,0,"Allison, Mr. Hudson Joshua Creighton",male,30.0,1,2,113781,151.55,C22 C26,S,,135.0,"Montreal, PQ / Chesterville, ON"
4,1,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",female,25.0,1,2,113781,151.55,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"
5,1,1,"Anderson, Mr. Harry",male,48.0,0,0,19952,26.55,E12,S,3,,"New York, NY"
6,1,1,"Andrews, Miss. Kornelia Theodosia",female,63.0,1,0,13502,77.9583,D7,S,10,,"Hudson, NY"
7,1,0,"Andrews, Mr. Thomas Jr",male,39.0,0,0,112050,0.0,A36,S,,,"Belfast, NI"
8,1,1,"Appleton, Mrs. Edward Dale (Charlotte Lamson)",female,53.0,2,0,11769,51.4792,C101,S,D,,"Bayside, Queens, NY"
9,1,0,"Artagaveytia, Mr. Ramon",male,71.0,0,0,PC 17609,49.5042,,C,,22.0,"Montevideo, Uruguay"


<b>Ilość wartości brakujących w danych kolumnach:</b>

In [3]:
df.isnull().sum()

pclass          0
survived        0
name            0
sex             0
age           263
sibsp           0
parch           0
ticket          0
fare            1
cabin        1014
embarked        2
boat          823
body         1188
home.dest     564
dtype: int64

<b>Procentowy udział wartości brakujących:</b>

In [4]:
df.isnull().mean() * 100

pclass        0.000000
survived      0.000000
name          0.000000
sex           0.000000
age          20.091673
sibsp         0.000000
parch         0.000000
ticket        0.000000
fare          0.076394
cabin        77.463713
embarked      0.152788
boat         62.872422
body         90.756303
home.dest    43.086325
dtype: float64

Wartości brakujące mają widoczny udział dla kolumn: <b>age</b>, <b>cabin</b>, <b>boat</b>, <b>body</b>, <b>home.dest</b>

<b>Ilość cech:</b>

In [5]:
len(df.columns)

14

Zbiór zawiera 14 cech:
- <b>pclass</b> - klasa, którą podrożował dany pasażer
- <b>survived</b> - 0 = zginął w katastrofie; 1 = przeżył
- <b>name</b> - dane osobowe pasażera
- <b>sex</b> - płeć
- <b>age</b> - wiek
- <b>sibsp</b> - ilość rodzeństwa lub małżonków danego pasażera na pogładzie
- <b>parch</b> - ilość rodziców i dzieci danego pasażera na pokładzie
- <b>ticket</b> - nr biletu
- <b>fare</b> - opłata za podróż
- <b>cabin</b> - nr kabiny
- <b>embarked</b> - port, w którym pasażer wsiadł (S - Southampton, C - Cherbourg, Q - Queenstown)
- <b>boat</b> - oznaczenie łodzi ratunkowej, do której wsiadł pasażer
- <b>body</b> - nr identyfikacyjny ciała (jeśli zginął w katastrofie i udało się odnaleźć ciało)
- <b>home.dest</b> - miejsce zamieszkania lub cel podróży

Już na pierwszy rzut oka można zauważyć sporo wartości NaN w kolumnach body i boat, co jest zrozumiałe, gdyż najczęściej brakuje ich dla pasażerów, którzy zginęli w katastrofie (nie zdążyli wsiąść na łódź ratunkową, nie udało się znaleźć ich ciał)

Można również dostrzec powtarzające się wartości w kolumnach: <b>ticket, fare, czy też cabin</b>



Przed użyciem funkcji <b>isnull()</b> należało przy wczytaniu ustalić, że wartości NA w zbiorze danych są oznaczone przez znaki zapytania (normalnie za wartości NA uznaje się po prostu puste pola)

<b>Dla upewnienia się, że wartości brakujące nie były oznaczone w inny sposób:</b>

In [6]:
df.isnull().sum() + df.notnull().sum() == len(df)

pclass       True
survived     True
name         True
sex          True
age          True
sibsp        True
parch        True
ticket       True
fare         True
cabin        True
embarked     True
boat         True
body         True
home.dest    True
dtype: bool

Możemy stworzyć zmienną kategoryczną, np. dla zmiennej <b>body</b>, która poinformuje nas o wartości brakującej.
Dodatkowo możemy użyć operacji <b>groupby</b>, aby zmapować brakujące wartości danej kolumny i powiązanie z wartością <b>survived</b> (0 lub 1)

In [7]:
df['BodyNull'] = np.where(df['body'].isnull(), 1, 0)
df.groupby(['survived'])['BodyNull'].mean()

survived
0    0.850433
1    1.000000
Name: BodyNull, dtype: float64

In [8]:
#to samo w jednej linijce
df.groupby(['survived'])['body'].apply(lambda x: np.where(x.isnull(), 1, 0).mean())

survived
0    0.850433
1    1.000000
Name: body, dtype: float64

In [9]:
df.head(10)[['survived', 'body','BodyNull']]

Unnamed: 0,survived,body,BodyNull
0,1,,1
1,1,,1
2,0,,1
3,0,135.0,0
4,0,,1
5,1,,1
6,1,,1
7,0,,1
8,1,,1
9,0,22.0,0


Operacja ta pozwoliła nam zobaczyć jaki jest odsetek brakującej wartości zmiennej <b>body</b> w zależności czy ktoś przeżył katastrofę.

Dochodzimy do oczywistego wniosku, że dla tych, którzy przeżyli, wartości brakujące body mają 100% udziału w tej grupie (nie szukano i identyfikowano ciał ocalałych).

Dla tych, którzy zginęli udział ten jednak też jest bardzo duży (85%), co oznacza, że nie odnaleziono i zidentyfikowano aż 85% ciał ofiar.

Możemy zrobić takie mapowanie według zmiennej survived dla wszystkich zmiennych, dla których przedtem zauważyliśmy znaczny udział wartości brakujących:

In [10]:
#dla czytelności pokazuję z dokładnością do 2 miejsc po przecinku
df.groupby(["survived"])[['boat', 'body', 'home.dest', 'age', 'cabin']].apply(lambda x: x.isnull().mean()).style.format(precision = 2)

Unnamed: 0_level_0,boat,body,home.dest,age,cabin
survived,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0,0.99,0.85,0.51,0.23,0.87
1,0.05,1.0,0.31,0.15,0.61


Albo też pogrupować według innej zmiennej, np. <b>pclass</b>

In [11]:
df.groupby("pclass")[['boat', 'body', 'home.dest', 'age', 'cabin']].apply(lambda x: x.isnull().mean()).style.format(precision = 2)

Unnamed: 0_level_0,boat,body,home.dest,age,cabin
pclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,0.38,0.89,0.11,0.12,0.21
2,0.6,0.89,0.06,0.06,0.92
3,0.76,0.92,0.72,0.29,0.98


Można pójść jeszcze krok dalej i pogrupować według obu tych zmiennych:

In [12]:
df.groupby(["survived", "pclass"])[['boat', 'body', 'home.dest', 'age', 'cabin']].apply(lambda x: x.isnull().mean()).style.format(precision = 2)

Unnamed: 0_level_0,Unnamed: 1_level_0,boat,body,home.dest,age,cabin
survived,pclass,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
0,1,0.98,0.72,0.07,0.16,0.28
0,2,0.99,0.8,0.09,0.08,0.96
0,3,0.99,0.9,0.73,0.3,0.99
1,1,0.01,1.0,0.12,0.1,0.17
1,2,0.07,1.0,0.02,0.03,0.86
1,3,0.08,1.0,0.7,0.28,0.95


<b>Na podstawie analizy powyższych tabel można dojść do wniosków:</b>
- dla zmiennych <b>home.dest, age i cabin</b> rozkład udziału wartości brakujących według klasy jest niezależny od tego czy pasażerowie przeżyli katastrofę
- wartości brakujące dla <b>home.dest</b> są wyraźnie zależne od klasy (najwięcej dla 3). Nieznacznie wyższy udział wartości NA dla zmiennej home.dest przy grupowaniu według survived dla zmarłych może być związany z tym, że większość ofiar katastrofy to pasażerowie 3 klasy (sprawdzenie poniżej)
- wartości NA dla zmiennej <b>boat</b> są jednoznacznie zależne od tego czy ktoś przeżył katastrofę (NA związane ze śmiercią)
- wartości NA dla <b>age</b> nie są wyraźnie zależne od żadnej ze zmiennych, według których grupowaliśmy
- wartości NA dla zmiennej <b>body</b> nie występują jeśli ktoś przeżył katastrofę (oczywiste - nie szukano i identyfikowano ciał ocalałych). Dla zmarłych jednak także jest on niezależny od klasy (bardzo wysokie udziały procentowe wartości brakujących w każdej)

In [13]:
# ilość ofiar według klasy
df[df['survived'] == 0]['pclass'].value_counts()

pclass
3    528
2    158
1    123
Name: count, dtype: int64

<b>Podsumowanie:</b>
- możemy usunąć wartości brakujące z kolumn <b>fare i embarked</b> - ze względu na małą ilość zakładamy, że są to wartości typu <b>MCAR</b>
- wartości brakujące typu <b>MAR</b> - <b>boat, body</b> (zależne, przynajmniej częściowo, od survived), <b>cabin, home.dest</b> (zależne od klasy).
Do tej grupy zaliczymy też <b>age</b>, ponieważ brakujące wartości w tej kolumnie są związane z brakami np. w cabin (pokazane poniżej)
Kolumnę boat w zasadzie w całości można usunąć ze zbioru (brak nowej informacji - bardzo silne powiązanie z survived).
Innych danych brakujących ze względu na dużą ilość nie można po prostu usunąć. Rozwiązaniem jest np. wypełnienie braków (imputacja).


In [14]:
# odsetek brakujących wartości dla innych zmiennych, gdy wartości brakuje dla age
df[df['age'].isnull()].isnull().mean()

pclass       0.000000
survived     0.000000
name         0.000000
sex          0.000000
age          1.000000
sibsp        0.000000
parch        0.000000
ticket       0.000000
fare         0.000000
cabin        0.912548
embarked     0.000000
boat         0.737643
body         0.996198
home.dest    0.771863
BodyNull     0.000000
dtype: float64

In [15]:
# odsetek wartości not-null dla innych zmiennych, gdy wartości brakuje dla age
df[df['age'].isnull()].notnull().mean()

pclass       1.000000
survived     1.000000
name         1.000000
sex          1.000000
age          0.000000
sibsp        1.000000
parch        1.000000
ticket       1.000000
fare         1.000000
cabin        0.087452
embarked     1.000000
boat         0.262357
body         0.003802
home.dest    0.228137
BodyNull     1.000000
dtype: float64