In [37]:
import pandas as pd
import numpy as np
import arff

In [38]:
with open('titanic_dataset.arff', 'r') as file:
    titanic_arff = arff.load(file)


print(titanic_arff.keys())

# Pobranie atrybutów i danych
attributes = titanic_arff['attributes']
data = titanic_arff['data']

# Utworzenie DataFrame z odpowiednimi nazwami kolumn
columns = [attr[0] for attr in attributes]
df = pd.DataFrame(data, columns=columns)
df.head(50)


dict_keys(['description', 'relation', 'attributes', 'data'])


Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
0,1.0,1,"Allen, Miss. Elisabeth Walton",female,29.0,0.0,0.0,24160,211.3375,B5,S,2,,"St Louis, MO"
1,1.0,1,"Allison, Master. Hudson Trevor",male,0.9167,1.0,2.0,113781,151.55,C22 C26,S,11,,"Montreal, PQ / Chesterville, ON"
2,1.0,0,"Allison, Miss. Helen Loraine",female,2.0,1.0,2.0,113781,151.55,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"
3,1.0,0,"Allison, Mr. Hudson Joshua Creighton",male,30.0,1.0,2.0,113781,151.55,C22 C26,S,,135.0,"Montreal, PQ / Chesterville, ON"
4,1.0,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",female,25.0,1.0,2.0,113781,151.55,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"
5,1.0,1,"Anderson, Mr. Harry",male,48.0,0.0,0.0,19952,26.55,E12,S,3,,"New York, NY"
6,1.0,1,"Andrews, Miss. Kornelia Theodosia",female,63.0,1.0,0.0,13502,77.9583,D7,S,10,,"Hudson, NY"
7,1.0,0,"Andrews, Mr. Thomas Jr",male,39.0,0.0,0.0,112050,0.0,A36,S,,,"Belfast, NI"
8,1.0,1,"Appleton, Mrs. Edward Dale (Charlotte Lamson)",female,53.0,2.0,0.0,11769,51.4792,C101,S,D,,"Bayside, Queens, NY"
9,1.0,0,"Artagaveytia, Mr. Ramon",male,71.0,0.0,0.0,PC 17609,49.5042,,C,,22.0,"Montevideo, Uruguay"


In [39]:
df.isnull().sum()
df.isnull().mean()

pclass       0.000000
survived     0.000000
name         0.000000
sex          0.000000
age          0.200917
sibsp        0.000000
parch        0.000000
ticket       0.000000
fare         0.000764
cabin        0.774637
embarked     0.001528
boat         0.628724
body         0.907563
home.dest    0.430863
dtype: float64

In [40]:
df.groupby('survived')['boat'].apply(lambda x: x.isnull().mean())

survived
0    0.988875
1    0.046000
Name: boat, dtype: float64

### Wnioski - boat

Obliczenia wykazały, że wartości null w kolumnie boat w ponad 99% przypadków dotyczą osób, które nie przeżyły katastrofy. Oznacza to, że brak tej informacji jest ściśle związany z faktem, że dana osoba nie została przypisana do żadnej łodzi ratunkowej, ponieważ z dużym prawdopodobieństwem nie została uratowana.
### Propozycja rozwiązania
- Zamianę null na wartość kategoryczną (np. "no_boat"), co pozwoli modelom uwzględniać tę informację jako istotny czynnik.

W kontekście modelowania: nie traktować tych braków jako noise, ale jako cechę predykcyjną, ponieważ są silnie skorelowane z przeżyciem.


In [41]:
df.groupby('survived')['body'].apply(lambda x: x.isnull().mean())
df.sort_values("body")

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
1263,3.0,0,"van Billiard, Master. Walter John",male,11.5,1.0,1.0,A/5. 851,14.5000,,S,,1.0,
1096,3.0,0,"Palsson, Master. Gosta Leonard",male,2.0,3.0,1.0,349909,21.0750,,S,,4.0,
1153,3.0,0,"Robins, Mrs. Alexander A (Grace Charity Laury)",female,47.0,1.0,0.0,A/5. 3337,14.5000,,S,,7.0,
741,3.0,0,"Daher, Mr. Shedid",male,22.5,0.0,0.0,2698,7.2250,,C,,9.0,
1294,3.0,0,"Williams, Mr. Leslie",male,28.5,0.0,0.0,54636,16.1000,,S,,14.0,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1302,3.0,0,"Yousif, Mr. Wazli",male,,0.0,0.0,2647,7.2250,,C,,,
1303,3.0,0,"Yousseff, Mr. Gerious",male,,0.0,0.0,2627,14.4583,,C,,,
1305,3.0,0,"Zabour, Miss. Thamine",female,,1.0,0.0,2665,14.4542,,C,,,
1307,3.0,0,"Zakarian, Mr. Ortin",male,27.0,0.0,0.0,2670,7.2250,,C,,,


### Wnioski - body
Według analizy wartość null w kolumnie body, oznacza, że osoba przeżyła i ciało nie dostało identyfikatora, lub ciała nie odnaleziono.
### Propozycja rozwiązania

Zamiast uzupełniać wartości `null` lub usuwać kolumnę, proponuje się następujące podejście:

- **Utworzenie zmiennej binarnej** `body_found`, która przyjmuje wartość:
  - `1` – ciało odnalezione (czyli `body` zawiera wartość liczbową),
  - `0` – ciało nieodnalezione lub osoba przeżyła (czyli `body` to `null`):


df.groupby(['survived','pclass'])['cabin'].apply(lambda x: x.isnull().sum() / df['cabin'].isnull().sum())



### Wnioski - cabin
Braki w kolumnie cabin nie są losowe — zależą od klasy pasażerskiej i przeżycia, co oznacza, że są to dane typu Missing Not At Random(MNAR).
Osoby z niższych klas (szczególnie 3. klasa) i osoby, które nie przeżyły, mają znacznie większy odsetek braków w cabin.
Lepsza dokumentacja lub przypisanie kabiny mogła wiązać się z wyższą klasą biletu.
Prawdopodobnie pasażerowie kl. 3 nie mieli przypisanych kabin i zaden wspolokator nie potwierdził przebywania w tej samej kabinie.

### Propozycja rozwiązania

Zachować oryginalną kolumnę cabin, ponieważ dla niektórych modeli (np. drzewa decyzyjne) obecność/nieobecność danych może być informatywna.

Unikać uzupełniania wartości null arbitralnie – np. średnią, najczęstszą wartością – ponieważ może to zniekształcić dane, które są silnie powiązane z cechami klasowymi i przeżyciem.



### Wnioski - home.dest
Home dest zawiera wartość tekstowa przedstawiającą adres pasażera.

### Propozycja rozwiązania

Najlepiej zastąpić wartość `null` wartośćia `unknown`


In [60]:
df.groupby(['survived',df['body'].isnull()])['age'].apply(lambda x: x.isnull().mean())

survived  body 
0         False    0.008264
          True     0.274709
1         True     0.146000
Name: age, dtype: float64

### Wnioski - age
Wartość `null` w kolumnie `age` jest powiązana z odnalezieniem i identyfikacją ciała. Prawdopodobie nie zbierano danych o wieku pasażerów.
Nie odnalezienie ciała wiązało się z brakiem dokumentów do identyfikacji.
