In [4]:
import pandas as pd
import arff
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [5]:
with open("Titanic.arff", "r") as file:
    data = arff.load(file)

df = pd.DataFrame(data['data'], columns=[attr[0] for attr in data['attributes']])
display(df.head(10))

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
0,1.0,1,"Allen, Miss. Elisabeth Walton",female,29.0,0.0,0.0,24160,211.3375,B5,S,2,,"St Louis, MO"
1,1.0,1,"Allison, Master. Hudson Trevor",male,0.9167,1.0,2.0,113781,151.55,C22 C26,S,11,,"Montreal, PQ / Chesterville, ON"
2,1.0,0,"Allison, Miss. Helen Loraine",female,2.0,1.0,2.0,113781,151.55,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"
3,1.0,0,"Allison, Mr. Hudson Joshua Creighton",male,30.0,1.0,2.0,113781,151.55,C22 C26,S,,135.0,"Montreal, PQ / Chesterville, ON"
4,1.0,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",female,25.0,1.0,2.0,113781,151.55,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"
5,1.0,1,"Anderson, Mr. Harry",male,48.0,0.0,0.0,19952,26.55,E12,S,3,,"New York, NY"
6,1.0,1,"Andrews, Miss. Kornelia Theodosia",female,63.0,1.0,0.0,13502,77.9583,D7,S,10,,"Hudson, NY"
7,1.0,0,"Andrews, Mr. Thomas Jr",male,39.0,0.0,0.0,112050,0.0,A36,S,,,"Belfast, NI"
8,1.0,1,"Appleton, Mrs. Edward Dale (Charlotte Lamson)",female,53.0,2.0,0.0,11769,51.4792,C101,S,D,,"Bayside, Queens, NY"
9,1.0,0,"Artagaveytia, Mr. Ramon",male,71.0,0.0,0.0,PC 17609,49.5042,,C,,22.0,"Montevideo, Uruguay"


## 1. Liczebność etykiet dla zmiennych jakościowych

In [13]:
zmienne_jakosciowe = ['pclass', 'survived', 'name', 'sex', 'ticket', 'cabin', 'embarked', 'boat', 'home.dest']

for zmienna in zmienne_jakosciowe:
    print('Liczba etykiet zmiennej {}: {}'.format(zmienna, len(df[zmienna].unique())))

Liczba etykiet zmiennej pclass: 3
Liczba etykiet zmiennej survived: 2
Liczba etykiet zmiennej name: 1307
Liczba etykiet zmiennej sex: 2
Liczba etykiet zmiennej ticket: 929
Liczba etykiet zmiennej cabin: 187
Liczba etykiet zmiennej embarked: 4
Liczba etykiet zmiennej boat: 28
Liczba etykiet zmiennej home.dest: 370


## 2. Liczba wszystkich pasażerów

In [17]:
print(f"Liczba etykiet zmiennej {'name'}: {len(df['name'].unique())}")

Liczba etykiet zmiennej name: 1307


## 3. Analiza kardynalności cech

Kardynalność cech odnosi się do liczby unikalnych wartości, jakie może przyjmować dana zmienna. Wyróżniamy dwie grupy:

**Zmienne o niskiej kardynalności:**
- `pclass`
- `survived`
- `sex`
- `parch`
- `embarked`
- `boat`  
Zawierają stosunkowo niewiele unikalnych etykiet.

**Zmienne o wysokiej kardynalności:**
- `name`
- `ticket`
- `cabin`
- `home.dest`  
Zawierają dużą liczbę różnych wartości.


## 4. Liczba unikalnych etykiet w `cabin`

In [55]:
unique_cabin = df['cabin'].dropna().unique()
print('Liczba unikalnych kabin: {}'.format(len(unique_cabin)))
print('Unikalne etykiety kabin:', unique_cabin)

Liczba unikalnych kabin: 186
Unikalne etykiety kabin: ['B5' 'C22 C26' 'E12' 'D7' 'A36' 'C101' 'C62 C64' 'B35' 'A23' 'B58 B60'
 'D15' 'C6' 'D35' 'C148' 'C97' 'B49' 'C99' 'C52' 'T' 'A31' 'C7' 'C103'
 'D22' 'E33' 'A21' 'B10' 'B4' 'E40' 'B38' 'E24' 'B51 B53 B55' 'B96 B98'
 'C46' 'E31' 'E8' 'B61' 'B77' 'A9' 'C89' 'A14' 'E58' 'E49' 'E52' 'E45'
 'B22' 'B26' 'C85' 'E17' 'B71' 'B20' 'A34' 'C86' 'A16' 'A20' 'A18' 'C54'
 'C45' 'D20' 'A29' 'C95' 'E25' 'C111' 'C23 C25 C27' 'E36' 'D34' 'D40'
 'B39' 'B41' 'B102' 'C123' 'E63' 'C130' 'B86' 'C92' 'A5' 'C51' 'B42' 'C91'
 'C125' 'D10 D12' 'B82 B84' 'E50' 'D33' 'C83' 'B94' 'D49' 'D45' 'B69'
 'B11' 'E46' 'C39' 'B18' 'D11' 'C93' 'B28' 'C49' 'B52 B54 B56' 'E60'
 'C132' 'B37' 'D21' 'D19' 'C124' 'D17' 'B101' 'D28' 'D6' 'D9' 'B80' 'C106'
 'B79' 'C47' 'D30' 'C90' 'E38' 'C78' 'C30' 'C118' 'D36' 'D48' 'D47' 'C105'
 'B36' 'B30' 'D43' 'B24' 'C2' 'C65' 'B73' 'C104' 'C110' 'C50' 'B3' 'A24'
 'A32' 'A11' 'A10' 'B57 B59 B63 B66' 'C28' 'E44' 'A26' 'A6' 'A7' 'C31'
 'A19' 'B

## 5.Redukcja zmiennej `cabin` do CabinReduced

In [51]:
df['Cabin'] = df['cabin'].astype(str)
df['CabinReduced'] = df['Cabin'].str[0]
df[['Cabin', 'CabinReduced']].head(20)

Unnamed: 0,Cabin,CabinReduced
0,B5,B
1,C22 C26,C
2,C22 C26,C
3,C22 C26,C
4,C22 C26,C
5,E12,E
6,D7,D
7,A36,A
8,C101,C
9,,N


## 6. Liczba etykiet po redukcji + obliczenie redukcji kardynalności

In [52]:
original_cardinality = len(df['Cabin'].dropna().unique())
reduced_cardinality = len(df['CabinReduced'].unique())

print(f"Po redukcji: {reduced_cardinality}")

reduction = 100 * (original_cardinality - reduced_cardinality) / original_cardinality
print(f"Redukcja kardynalności: {reduction:.2f}%")

Po redukcji: 9
Redukcja kardynalności: 95.19%


## 7. Uzasadnienie redukcji zmiennej `cabin`

Zmienna `cabin` zawiera bardzo szczegółowe informacje – każda wartość to konkretna kabina pasażera. Tych kabin jest jednak tak wiele, że zmienna ma bardzo wysoką kardynalność, co może utrudniać analizę.

Aby temu zapobiec, zostawiliśmy tylko pierwszą literę kabiny. Zazwyczaj wskazuje ona na pokład, więc zachowujemy ogólną informację o lokalizacji pasażera, a jednocześnie upraszczamy dane.

Dzięki temu zbiór staje się bardziej przejrzysty. Minusem takiej redukcji jest to, że tracimy szczegóły – np. dwa różne numery kabin na tym samym pokładzie będą traktowane tak samo.