In [1]:
import pandas as pd
import numpy as np

#### Objaśnienie kolumn
Mamy w zestawie 14 cech (features)

pclass - klasa podróży  
survived {0,1} - czy pasażer przeżył  
name - imię i nazwisko   
sex {'female','male'} - płeć  
age - wiek    
sibsp - być może jest to liczba rodzeństwa i współmałżonkowie na pokładzie, coś z rodziną, bo mają ten sam numer biletu   
parch - rodzice/dzieci na pokładzie, parents, children  
ticket - numer biletu, rodziny mają ten sam numer   
fare - cena biletu   
cabin - numer kabiny   
embarked {'C','Q','S'} - port zaokrętowania (C = Cherbourg, Q = Queenstown, S = Southampton)   
boat - nr łodzi ratunkowej, jeśli pasażer przeżył   
body - nr ciała znalezionego po katastrofie   
home.dest - docelowe miejsce pasażera/ miejsce zamieszkania    

#### Wczytanie danych i wyświetlenie 20 pierwszych wierszy

In [2]:
df = pd.read_csv("titanic.txt", skiprows=17, na_values='?', header=None) 
columns = ['pclass', 'survived', 'name', 'sex', 'age', 'sibsp', 'parch', 'ticket', 'fare', 'cabin', 'embarked', 'boat', 'body', 'home.dest']
df.columns=columns
df.head(20)


Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
0,1,0,"Baxter, Mr. Quigg Edmond",male,24.0,0,1,PC 17558,247.5208,B58 B60,C,,,"Montreal, PQ"
1,1,1,"Baxter, Mrs. James (Helene DeLaudeniere Chaput)",female,50.0,0,1,PC 17558,247.5208,B58 B60,C,6,,"Montreal, PQ"
2,1,1,"Bazzani, Miss. Albina",female,32.0,0,0,11813,76.2917,D15,C,8,,
3,1,0,"Beattie, Mr. Thomson",male,36.0,0,0,13050,75.2417,C6,C,A,,"Winnipeg, MN"
4,1,1,"Beckwith, Mr. Richard Leonard",male,37.0,1,1,11751,52.5542,D35,S,5,,"New York, NY"
5,1,1,"Beckwith, Mrs. Richard Leonard (Sallie Monypeny)",female,47.0,1,1,11751,52.5542,D35,S,5,,"New York, NY"
6,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C,5,,"New York, NY"
7,1,1,"Bidois, Miss. Rosalie",female,42.0,0,0,PC 17757,227.525,,C,4,,
8,1,1,"Bird, Miss. Ellen",female,29.0,0,0,PC 17483,221.7792,C97,S,8,,
9,1,0,"Birnbaum, Mr. Jakob",male,25.0,0,0,13905,26.0,,C,,148.0,"San Francisco, CA"


#### Sparwdzenie ilości brakujących danych
###### Poniższy kod pokazuje, że 7 z 14 cech posiada wartości NaN
Są to kolumny age, fare, cabin, embarked, boat, body, home.dest

In [3]:
total_missing=df.isnull().sum()
total_missing

pclass          0
survived        0
name            0
sex             0
age           262
sibsp           0
parch           0
ticket          0
fare            1
cabin        1011
embarked        2
boat          816
body         1175
home.dest     563
dtype: int64

In [4]:
mean_missing=df.isnull().mean()
mean_missing

pclass       0.000000
survived     0.000000
name         0.000000
sex          0.000000
age          0.202630
sibsp        0.000000
parch        0.000000
ticket       0.000000
fare         0.000773
cabin        0.781903
embarked     0.001547
boat         0.631090
body         0.908739
home.dest    0.435422
dtype: float64

In [5]:
percent_missing=df.isnull().mean()*100
percent_missing

pclass        0.000000
survived      0.000000
name          0.000000
sex           0.000000
age          20.262954
sibsp         0.000000
parch         0.000000
ticket        0.000000
fare          0.077340
cabin        78.190255
embarked      0.154679
boat         63.109049
body         90.873937
home.dest    43.542150
dtype: float64

#### Mapowanie kolumny z brakującymi wartościami ze zmienną Survived
##### Procent brakujących danych w wybranych kolumnach w zależności od tego, czy pasażer przeżył

In [25]:
cols = ['age', 'fare', 'embarked', 'body', 'cabin', 'boat', 'home.dest']
null_stats = pd.DataFrame()
for col in cols:
    temp = df.assign(**{f'{col}_Null': df[col].isnull().astype(int)})
    stats = temp.groupby('survived')[f'{col}_Null'].mean() * 100
    null_stats[col] = stats
null_stats = null_stats.T
null_stats.columns = ['Not Survived (%)', 'Survived (%)']
null_stats = null_stats.round(2)
display(null_stats)

Unnamed: 0,Not Survived (%),Survived (%)
age,23.57,14.87
fare,0.12,0.0
embarked,0.0,0.41
body,85.29,100.0
cabin,87.91,62.32
boat,98.88,4.68
home.dest,51.25,30.96


#### Dodatkowa analiza
##### Zależnośc pomiędzy brakującymi danymi wieku, a klasą biletów:

In [28]:
df['age_null'] = df['age'].isnull().astype(int)
missing_by_class = df.groupby('pclass')['age_null'].mean() * 100
missing_by_class = missing_by_class.round(2)
print(missing_by_class)


pclass
1    12.38
2     5.78
3    29.34
Name: age_null, dtype: float64


##### Zależność pomiędzy brakiem podanego wieku, a home.dest

In [29]:
df['age_null'] = df['age'].isnull().astype(int)
df['home_dest_present'] = df['home.dest'].notnull().astype(int)
missing_age_by_home_dest = df.groupby('home_dest_present')['age_null'].mean() * 100
missing_age_by_home_dest.index = ['Brak home.dest', 'Jest home.dest']
missing_age_by_home_dest = missing_age_by_home_dest.round(2)
print(missing_age_by_home_dest)


Brak home.dest    36.06
Jest home.dest     8.08
Name: age_null, dtype: float64


##### Zależność pomiędzy brakiem kabiny, a klasą biletu

In [31]:
df['cabin_null'] = df['cabin'].isnull().astype(int)
missing_cabin_by_class = df.groupby('pclass')['cabin_null'].mean() * 100
missing_cabin_by_class = missing_cabin_by_class.round(2)
print(missing_cabin_by_class)

pclass
1    20.85
2    91.70
3    97.74
Name: cabin_null, dtype: float64


#### Moje obserwacje na temat % brakujących danych

##### 1) age
Ponad 20% brakujących danych, jest to dość spory odsetek, trzeba to zbadać, bo np. w imieniu i nazwisku nie mamy brakujących danych, więc ta różnica wydaje się dość dziwna.

##### 2) fare
Jest to tylko jeden brakujący rekord, dlatego pominięcie go w mojej analizie nie powinno wywołać nieprawidłowości.

##### 3) cabin
Ponad 78% brakujących danych, jest to bardzo duży odsetek, zakładając, że był to numer kabiny, być może część z pasażerów nie miała jej wykupionej, np. tańsza klasa, natomiast są też tańsze bilety, które mają przypisaną kabinę.

##### 4) embarked 
Zaledwie 0,15% brakujących danych, są to dwa przypadki, ich pominięcie nie powinno stworzyć problemu.

##### 5) boat
Ponad 63% brakująch danych, zmienna ściśle powiązana z tym, czy pasażer przeżył (zmienna survived).

##### 6) body
Najwięcej, bo ponad 90% brakujących danych, ponownie będzie to najprawdopodobniej powiązane z survived.


##### 7) home.dest 
Ponad 43% brakujących danych, trzeba to poddać dokładniejszej analizie.


#### Wnioski z mapowania zmiennych ze zmienną *survived*

##### 1) age_Null 
Według mnie jest to MAR, ponieważ home.dest_Null nie ma podanego miejsca urodzenia, dlatego o tych osobach może być mniej informacji.

##### 2) fare_Null
Można to zakwalifikować do MCAR,  pojedynczy losowy przypadek.

##### 3) cabin_Null
Jest tu zależność, ponieważ osoby bez kabiny częściej przynależą do tańszych klas i zapłaciły mniej za bilety, jest to MNAR.

##### 4) embarked_Null
Ponownie MCAR, losowy brak danych.

##### 5) boat_Null
Jest to powiązane z przeżyciem, osoby bez łodzi ratunkowej były bardziej skazane na śmierć, osób z tańszych klas w łodziach było zdecydowanie mniej, to MNAR.

##### 6) body_Null
Łatwo wywnioskować, że jeżeli osoba przeżyła, to nie będzie posiadać numeru identyfikacyjnego zwłok. Numer pojawia się u osób, które nie przeżyły rejsu i nie były na łodziach, numer nie jest wpisany u wszystkich zmarłych, części z ciał nie odnaleziono, jest to MNAR.

##### 7) home.dest_Null
To również może zostać zakwalifikowane do MNAR, ponieważ mamy dużo więcej informacji o osobach z klas wyższych, niż z klasy 3.

### Co zrobić z brakującymi danymi?

##### 1) age 
- brakujące dane można uzupełnić medianą wieku pasażerów

##### 2) fare 
- ponieważ jest to tylko jeden brak, można uzupełnić 0

##### 3) cabin
- tutaj można zastosować etykietę missing

##### 4) embarked 
- dominująca w zbiorze jest wartość 'S', można się pokusić o uzupełnienie brakujących danych właśnie tą wartością

##### 5) boat
- etykieta missing

##### 6) body
- etykieta missing

##### 7) home.dest
- nie mam do końca pomysłu, co zrobić z brakującymi danymi w tej kolumnie, myślę, że jest ich za dużo, by je wyrzucić

### Podsumowanie działań dotyczących braków danych

| Kolumna      | Typ braku | Proponowane działanie              |
|--------------|-----------|------------------------------------|
| age          | MAR       | Uzupełnić medianą                  |
| fare         | MCAR      | Uzupełnić wartością 0              |
| cabin        | MNAR      | Zastąpić etykietą "missing"        |
| embarked     | MCAR      | Uzupełnić dominującą wartością 'S' |
| boat         | MNAR      | Zastąpić etykietą "missing"        |
| body         | MNAR      | Zastąpić etykietą "missing"        |
| home.dest    | MNAR      | Potrzebna dalsza analiza           |
