In [1]:
import arff
import numpy as np
import pandas as pd

with open('titanic.arff', 'r', encoding='utf-8') as f:
    data = arff.load(f)

### **Westępna inspekcja pierwszych 20 wierszy** 

In [2]:
titanic = pd.DataFrame(data['data'], columns=[attr[0] for attr in data['attributes']])
titanic.head(20)

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
0,1.0,1,"Allen, Miss. Elisabeth Walton",female,29.0,0.0,0.0,24160,211.3375,B5,S,2,,"St Louis, MO"
1,1.0,1,"Allison, Master. Hudson Trevor",male,0.9167,1.0,2.0,113781,151.55,C22 C26,S,11,,"Montreal, PQ / Chesterville, ON"
2,1.0,0,"Allison, Miss. Helen Loraine",female,2.0,1.0,2.0,113781,151.55,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"
3,1.0,0,"Allison, Mr. Hudson Joshua Creighton",male,30.0,1.0,2.0,113781,151.55,C22 C26,S,,135.0,"Montreal, PQ / Chesterville, ON"
4,1.0,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",female,25.0,1.0,2.0,113781,151.55,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"
5,1.0,1,"Anderson, Mr. Harry",male,48.0,0.0,0.0,19952,26.55,E12,S,3,,"New York, NY"
6,1.0,1,"Andrews, Miss. Kornelia Theodosia",female,63.0,1.0,0.0,13502,77.9583,D7,S,10,,"Hudson, NY"
7,1.0,0,"Andrews, Mr. Thomas Jr",male,39.0,0.0,0.0,112050,0.0,A36,S,,,"Belfast, NI"
8,1.0,1,"Appleton, Mrs. Edward Dale (Charlotte Lamson)",female,53.0,2.0,0.0,11769,51.4792,C101,S,D,,"Bayside, Queens, NY"
9,1.0,0,"Artagaveytia, Mr. Ramon",male,71.0,0.0,0.0,PC 17609,49.5042,,C,,22.0,"Montevideo, Uruguay"


In [3]:
titanic.describe()

Unnamed: 0,pclass,age,sibsp,parch,fare,body
count,1309.0,1046.0,1309.0,1309.0,1308.0,121.0
mean,2.294882,29.881135,0.498854,0.385027,33.295479,160.809917
std,0.837836,14.4135,1.041658,0.86556,51.758668,97.696922
min,1.0,0.1667,0.0,0.0,0.0,1.0
25%,2.0,21.0,0.0,0.0,7.8958,72.0
50%,3.0,28.0,0.0,0.0,14.4542,155.0
75%,3.0,39.0,1.0,0.0,31.275,256.0
max,3.0,80.0,8.0,9.0,512.3292,328.0


In [4]:
titanic.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1309 entries, 0 to 1308
Data columns (total 14 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   pclass     1309 non-null   float64
 1   survived   1309 non-null   object 
 2   name       1309 non-null   object 
 3   sex        1309 non-null   object 
 4   age        1046 non-null   float64
 5   sibsp      1309 non-null   float64
 6   parch      1309 non-null   float64
 7   ticket     1309 non-null   object 
 8   fare       1308 non-null   float64
 9   cabin      295 non-null    object 
 10  embarked   1307 non-null   object 
 11  boat       486 non-null    object 
 12  body       121 non-null    float64
 13  home.dest  745 non-null    object 
dtypes: float64(6), object(8)
memory usage: 143.3+ KB


In [5]:
print("Liczba cech: ", titanic.shape[1])

Liczba cech:  14


* Już w pierwszych wierszach widać sporą ilość brakujących danych w kolumnach 'boat' oraz 'body', trochę mniej w kolumnie 'cabin'.
* Kolumny mają różne rodzaje danych: tekstowe('name', 'home.dest'), numeryczne('age', 'fare'), kategoryczne('survived', 'sex').

### **Brakujące dane**
Znaki zpytania `?` w pliku arff są ładowane jako `np.nan` dla kolumn typu `float` lub `None` dla kolumn typu `object`, więc nie trzeba ich samemu przygotowywać do dalszej analizy danych.

In [6]:
titanic.isnull().sum()

pclass          0
survived        0
name            0
sex             0
age           263
sibsp           0
parch           0
ticket          0
fare            1
cabin        1014
embarked        2
boat          823
body         1188
home.dest     564
dtype: int64

In [7]:
titanic.isnull().mean()

pclass       0.000000
survived     0.000000
name         0.000000
sex          0.000000
age          0.200917
sibsp        0.000000
parch        0.000000
ticket       0.000000
fare         0.000764
cabin        0.774637
embarked     0.001528
boat         0.628724
body         0.907563
home.dest    0.430863
dtype: float64

In [8]:
titanic['age_Null'] = np.where(titanic['age'].isnull(), 1, 0)
titanic['fare_Null'] = np.where(titanic['fare'].isnull(), 1, 0)
titanic['cabin_Null'] = np.where(titanic['cabin'].isnull(), 1, 0)
titanic['embarked_Null'] = np.where(titanic['embarked'].isnull(), 1, 0)
titanic['boat_Null'] = np.where(titanic['boat'].isnull(), 1, 0)
titanic['body_Null'] = np.where(titanic['body'].isnull(), 1, 0)
titanic['home.dest_Null'] = np.where(titanic['home.dest'].isnull(), 1, 0)

### **Rodzaje brakujących danych**
**MAR (Missing at Random)**: brakujące dane, których wystepowanie częściowo zależy od innych obserwowanych zmiennych w zestawie danych.

**MCAR (Missing Completely at Random)**: brakujące dane, które nie mają związku z żadnymi innymi zmiennymi w zestawie danych ani z samymi brakującymi danymi.

**MNAR (Missing Not at Random)**: brakujące dane, których występowanie związane jest z pewnym mechanizmem przyczynowo-skutkowym.

##### **Prawdopodobne rodzaje brakujących danych i ich ilości**:
* `age` - **MAR**: Możliwe, iż nie przechowywano informacji o dokładnym wieku dzieci.
* `fare`(cena biletu) - **MCAR**: Prawdopodobnie to pojedynczy błąd zapisu lub bilet grupowy.
* `cabin` - **MNAR**: Możliwe, że pasażerowie w pierwszej byli dodatkowo podzieleni na kabiny celem większego komfortu. Z kolei pasażerowie z 2 i 3 klasy, którzy często nie mieli przydzielonej kabiny, mogli mieć mniej komfortowe warunki, a ich brak danych w tej kolumnie może wynikać na przykład z braku rejestracji w publicznych częściach statku.
* `embarked` - **MCAR**: Prawdopodobnie błąd zapisu informacji.
* `boat` - **MNAR**: Informacja o numerze łodzi ewakuacyjnej. Brakujące wartości dotyczą osób, które nie dostały się na żadną łódź i zginęły.
* `body` - **MNAR**: Numer ciała nadawano tylko osobom, których ciało zostało odnalezione i zidentyfikowane. Większości zmarłych nie odnaleziono, a tym którzy przeżyli nie nadawano numeru.
* `home.dest` - **MAR/MNAR**: Brakujące wartości występują głównie u pasażerów III klasy. Być może byli to ludzie wyjeżdżający za pracą i sami nie wiedzieli, gdzie ich życie poniesie. Możliwe też, że w celu umilenia podróży pasażerom wyższych klas przechowywano takie informacje (np. aby zapewnić im dalszy transport nawet po zakończeniu rejsu, podobnie jak w dzisiejszych czasach linie lotnicze zapewniają transport między lotniskiem a hotelem dla pasażerów wyższych klas).

In [21]:
titanic.groupby('sex')['survived'].value_counts(normalize=True).unstack()

survived,0,1
sex,Unnamed: 1_level_1,Unnamed: 2_level_1
female,0.272532,0.727468
male,0.809015,0.190985


In [15]:
titanic.groupby('sex')['age_Null'].mean()

sex
female    0.167382
male      0.219454
Name: age_Null, dtype: float64

In [9]:
titanic.groupby('pclass')['cabin_Null'].mean()

pclass
1.0    0.207430
2.0    0.916968
3.0    0.977433
Name: cabin_Null, dtype: float64

In [10]:
titanic.groupby('survived')['boat_Null'].mean()

survived
0    0.988875
1    0.046000
Name: boat_Null, dtype: float64

In [11]:
titanic.groupby('survived')['body_Null'].mean()

survived
0    0.850433
1    1.000000
Name: body_Null, dtype: float64

In [12]:
titanic.groupby('pclass')['home.dest_Null'].mean()

pclass
1.0    0.105263
2.0    0.057762
3.0    0.724965
Name: home.dest_Null, dtype: float64

##### **Przykład skrócenia kodu to jednej linijki**

In [13]:
titanic.groupby('survived')['boat'].apply(lambda x: x.isnull().mean())

survived
0    0.988875
1    0.046000
Name: boat, dtype: float64

### **Dalsze postępowanie z brakującymi danymi**
* `age` - Wypełnienie brakujących wartości medianą, lub przewidzieć je na podstawie innych danych za pomocą regresji.
* `fare` - Wypełnienie wartości medianą. Brakujących danych jest na tyle mało, że szkoda wysiłku na budowanie modelu regresji.
* `cabin` - Oprócz `pclass` nie ma większego związku z innymi kolumnami. Według mnie nie jest to też szczególnie ważna informacja, więc można wypełnić brakujące wartości np. zerem lub usunąć kolumnę.
* `embarked` - Tylko dwa brakujące wiersze, jest to zmienna kategoryczna, więc można wypełnić je najczęściej występującą wartością.
* `boat` - Silna zależność z kolumną `survived`. Możemy uzupełnić wartością np. zero dla tych, którzy nie przetrwali i pozostawić `np.nan` dla tych, którzy przeżyli.
* `body` - Ze względu na ogromną ilość brakujących danych (ponad 90%) i fakt, że brakujące dane w tej kolumnie nie wnoszą istotnej informacji (są związane z tym, że osoby nie przeżyły), najlepszym rozwiązaniem wydaje się być usunięcie kolumny z zestawu danych.
* `home.dest` - Dużo unikalnych wartości, więc ciężko będzie wyciągnąć z nich jakieś informacje. Można usunąć kolumnę lub na przykład wyciągnąć z niej jedynie informacje o kraju docelowym.

In [14]:
len(titanic['home.dest'].unique())

370