# Titanic - analiza danych o pasażerach
<img src="titanic.png">

## O Danych
Dane o pasażerach Titanica

Zbiór danych zawiera informacje o pasażerach RMS Titanic, który zatonął 15 kwietnia 1912 roku po zderzeniu z górą
lodową. Dane obejmują takie atrybuty jak klasa podróży, wiek, płeć, liczba rodzeństwa/małżonków na pokładzie,
liczba rodziców/dzieci na pokładzie, cena biletu oraz miejsce zaokrętowania.

Zbiór zawiera także informację o tym, czy pasażer przeżył katastrofę.

Titanic przewoził ponad 2,200 osób, z czego ponad 1,500 zginęło, co czyni tę katastrofę jedną z najbardziej
tragicznych w historii morskiej.


## O Danych
Kolumny:
* **pclass** - Klasa biletu
* **survived** - Czy pasażer przeżył katastrofę
* **name** - Imię i nazwisko pasażera
* **sex** - Płeć pasażera
* **age** - Wiek pasażera
* **sibsp** - Liczba rodzeństwa/małżonków na pokładzie
* **parch** - Liczba rodziców/dzieci na pokładzie
* **ticket** - Numer biletu
* **fare** - Cena biletu
* **cabin** - Numer kabiny
* **embarked** - Port, w którym pasażer wszedł na pokład (C = Cherbourg, Q = Queenstown, S = Southampton)
* **boat** - Numer łodzi ratunkowej
* **body** - Numer ciała (jeśli pasażer nie przeżył i ciało zostało odnalezione)
* **home.dest** - Miejsce docelowe

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from itables import show
from statsmodels.graphics.mosaicplot import mosaic

# 1. Przegląd i analiza danych dotyczących Titanica i jego pasażerów.

## 1.1 Wczytanie danych i przegląd losowych wartości.

In [2]:
df = pd.read_csv('26__titanic.csv', sep=",")
df

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
0,1.0,1.0,"Allen, Miss. Elisabeth Walton",female,29.0000,0.0,0.0,24160,211.3375,B5,S,2,,"St Louis, MO"
1,1.0,1.0,"Allison, Master. Hudson Trevor",male,0.9167,1.0,2.0,113781,151.5500,C22 C26,S,11,,"Montreal, PQ / Chesterville, ON"
2,1.0,0.0,"Allison, Miss. Helen Loraine",female,2.0000,1.0,2.0,113781,151.5500,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"
3,1.0,0.0,"Allison, Mr. Hudson Joshua Creighton",male,30.0000,1.0,2.0,113781,151.5500,C22 C26,S,,135.0,"Montreal, PQ / Chesterville, ON"
4,1.0,0.0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",female,25.0000,1.0,2.0,113781,151.5500,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1305,3.0,0.0,"Zabour, Miss. Thamine",female,,1.0,0.0,2665,14.4542,,C,,,
1306,3.0,0.0,"Zakarian, Mr. Mapriededer",male,26.5000,0.0,0.0,2656,7.2250,,C,,304.0,
1307,3.0,0.0,"Zakarian, Mr. Ortin",male,27.0000,0.0,0.0,2670,7.2250,,C,,,
1308,3.0,0.0,"Zimmerman, Mr. Leo",male,29.0000,0.0,0.0,315082,7.8750,,S,,,


In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1310 entries, 0 to 1309
Data columns (total 14 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   pclass     1309 non-null   float64
 1   survived   1309 non-null   float64
 2   name       1309 non-null   object 
 3   sex        1309 non-null   object 
 4   age        1046 non-null   float64
 5   sibsp      1309 non-null   float64
 6   parch      1309 non-null   float64
 7   ticket     1309 non-null   object 
 8   fare       1308 non-null   float64
 9   cabin      295 non-null    object 
 10  embarked   1307 non-null   object 
 11  boat       486 non-null    object 
 12  body       121 non-null    float64
 13  home.dest  745 non-null    object 
dtypes: float64(7), object(7)
memory usage: 143.4+ KB


In [4]:
df[['pclass', 'survived', 'name', 'sex', 'age', 'sibsp', 'parch']].sample(6, random_state=42)

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch
701,3.0,0.0,"Calic, Mr. Petar",male,17.0,0.0,0.0
994,3.0,0.0,"Mardirosian, Mr. Sarkis",male,,0.0,0.0
350,2.0,1.0,"Brown, Miss. Edith Eileen",female,15.0,0.0,2.0
986,3.0,0.0,"Maenpaa, Mr. Matti Alexanteri",male,22.0,0.0,0.0
409,2.0,0.0,"Fox, Mr. Stanley Hubert",male,36.0,0.0,0.0
917,3.0,1.0,"Karun, Mr. Franz",male,39.0,0.0,1.0


In [5]:
df[['ticket', 'fare', 'cabin', 'embarked', 'boat', 'body', 'home.dest']].sample(6, random_state=42)

Unnamed: 0,ticket,fare,cabin,embarked,boat,body,home.dest
701,315086,8.6625,,S,,,
994,2655,7.2292,F E46,C,,,
350,29750,39.0,,S,14.0,,"Cape Town, South Africa / Seattle, WA"
986,STON/O 2. 3101275,7.125,,S,,,
409,229236,13.0,,S,,236.0,"Rochester, NY"
917,349256,13.4167,,C,15.0,,


#### Po wczytaniu danych mamy informację o 1310 wierszach i 14 kolumnach. 
#### Zauważyć można, że w wierszu 1309, we wszystkich kolumnach są puste wartości, należy zatem usunąć ten wiersz przed przystąpieniem, do dalszej analizy.
#### Po przeglądzie losowych wartości widać, że istnieje wiele pustych wartości w niektórych kolumnach. W dalszej analizie, należy zastanowić się, czy brakujące wartości będą miały istotny wpływ na wyniki analizy i czy będzie potrzeba wypełnienia tych wartości.

#### Jeden z wierszy ma puste wartości we wszystkich kolumnach

In [6]:
empty_rows = df[df.isnull().all(axis=1)]
empty_rows

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
1309,,,,,,,,,,,,,,


#### Usuwam wiersz z pustymi wartościami.

In [7]:
df = df.dropna(how = 'all')

## 1.2 Sprawdzenie wartości unikatowych.

In [8]:
pd.DataFrame(df.nunique())

Unnamed: 0,0
pclass,3
survived,2
name,1307
sex,2
age,98
sibsp,7
parch,8
ticket,929
fare,281
cabin,186


#### Krótkie spostrzeżenia o wartościach unikatowych:
* **pclass** - 3 klasy biletów (ilu pasażerów w każdej klasie)
* **survived** - 2 wartości oznaczające czy pasażer ocalał, czy nie(sprawdzić ilu ocalonych)
* **name** - 1307 nazwisk na 1309 rekordów (sprawdzić duplikaty)
* **sex** - 2 wartości oznaczające płeć (sprawdzić ile kobiet/mężczyzn)
* **age** - 98 wartości określających wiek (w losowych danych widać wiek podany jako ułamek, zamienić na liczby całkowite, ponownie sprawdzić wartości unikatowe)
* **sibsp** - 7 wartości dla liczby rodzeństwa/małżonków na pokładzie
* **parch** - 8 wartości dla rodziców/dzieci na pokładzie
* **ticket** - 929 wartości z numerem biletu (sprawdzić duplikaty, dlaczego występują)
* **fare** - 281 wartości z różną ceną biletu(sprawdzić od czego uzależniona cena)
* **cabin** - 186 numerów kabin
* **embarked** - 3 rożne porty wejścia pasażerów na pokład
* **boat** - 27 numerów łodzi ratunkowych(jakieś zależności?)
* **body** - 121 wartości dla odnalezionych ciał ofiar katastrofy
* **home.dest** - 369 wartości dla celu podróży pasażerów(sprawdzić korelację ocalony cel podrózy)




## 1.3 Przegląd danych statystycznych.

In [9]:
df.describe()

Unnamed: 0,pclass,survived,age,sibsp,parch,fare,body
count,1309.0,1309.0,1046.0,1309.0,1309.0,1308.0,121.0
mean,2.294882,0.381971,29.881135,0.498854,0.385027,33.295479,160.809917
std,0.837836,0.486055,14.4135,1.041658,0.86556,51.758668,97.696922
min,1.0,0.0,0.1667,0.0,0.0,0.0,1.0
25%,2.0,0.0,21.0,0.0,0.0,7.8958,72.0
50%,3.0,0.0,28.0,0.0,0.0,14.4542,155.0
75%,3.0,1.0,39.0,1.0,0.0,31.275,256.0
max,3.0,1.0,80.0,8.0,9.0,512.3292,328.0


##### Mamy 7 kolumn numerycznych, przechowujących dane o klasie bilety, ocalałych, wieku, rodzeństwa/małżonków, rodziców/dzeici, cenie biletu, odnalezionym ciele ofiary.
##### Katastrofę przeżyło 38% pasażerów.
##### Najmłodszy z pasażerów miał mniej niż rok, najstarszy 80 lat, średni wiek to ok 30 lat.
##### 49% pasażerów podróżowało z małżonkiem lub rodzeństwem.
##### 38% pasażerów było rodzicami/dziećmi
##### Średnia cena biletu to 33. najtańszy bilet kosztował 0, najdroższy 512.
##### Odnaleziono 121 ciał.

# 2 Analiza brakujących wartości.

In [10]:
pd.DataFrame(df.isnull().sum())

Unnamed: 0,0
pclass,0
survived,0
name,0
sex,0
age,263
sibsp,0
parch,0
ticket,0
fare,1
cabin,1014


#### Brakujące dane:
* **age** 263 dane o wieku (naprawić średnią dla mężczyzn i kobiet?)
* **fare** 1 cena biletu (naprawić średnią ceną)
* **cabin** 1014 danych o numerze kabiny
* **embarked** 2 informacje o porcie wejścia pasażerów na pokład
* **boat** 823 numer łodzi ratunkowej, w której przebywał pasażer (sprawdzic brakujące wartośći dla ocalałych pasażerów)
* **body** 1188 numer ciała
* **home.dst** 564 celu podróży.

In [75]:
!jupyter nbconvert titanic_prezentation1.ipynb --to slides --no-input --no-prompt

[NbConvertApp] Converting notebook titanic_prezentation1.ipynb to slides
[NbConvertApp] Writing 293010 bytes to titanic_prezentation1.slides.html
