# Czyszczenie zbioru Titanic
### Autor: Bartosz Mścichecki

## Cel pracy

Celem przygotowanej pracy jest jak najlepsze przygotowanie zbioru danych o nazwie ,,TitanicMess'' do celów analaizy. W skład przygotowania danych wchodzą takie operacje jak:
* usunięcie zbędnych, do analizy, kolumn,
* zlikwidowanie brakujących wartości poprzez uzupełnienie ich średnią lub usunięcie wystąpień, które posiadają brakujące wartości,
* zaokrąglenie wartości zmiennych, jeśli jest to potrzebne,
* połączenie wartości kolumn w jedną dodatkową kolumnę.

## Rozwiązanie

Przed rozpoczęciem rozwiązywania problemu należy zaimportować potrzebne biblioteki:
* **numPy** - jest podstawowym pakietem do obliczeń w Pythonie,
* **pandas** - biblioteka ,,open source'', która służy do manipulacji oraz analizy danych,
* **math** - zapewnia dostęp do funkcji matematycznych zdefiniowanych przez standard C.

In [128]:
import numpy as np
import pandas as pd
import math

Kolejnym krokiem jest wczytanie zbioru danych do zmiennej:

In [129]:
dataset = pd.read_csv('TitanicMess.tsv', sep='\t', thousands=',')

Po wczytaniu danych można zapoznać się ze zbiorem:

In [130]:
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 892 entries, 0 to 891
Data columns (total 13 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  892 non-null    int64  
 1   Survived     892 non-null    int64  
 2   Pclass       892 non-null    int64  
 3   Name         892 non-null    object 
 4   Sex          892 non-null    object 
 5   Age          719 non-null    float64
 6   SibSp        892 non-null    int64  
 7   Parch        892 non-null    int64  
 8   Ticket       892 non-null    object 
 9   Fare         892 non-null    object 
 10  Cabin        207 non-null    object 
 11  Embarked     890 non-null    object 
 12  ship         892 non-null    object 
dtypes: float64(1), int64(5), object(7)
memory usage: 90.7+ KB


In [131]:
dataset.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,ship
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,725,,S,Titanic
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,712833,C85,C,Titanic
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7925,,S,Titanic
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,531,C123,S,Titanic
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,805,,S,Titanic


Można zauważyć, że zbiór składa się z 891 instacji oraz 12 zmiennych. Zmienne przedstawiają się następująco:
* **PassengerId** - identyfikator pasażera,
* **Survived** - czy pasażer przeżył: 1 - przeżył, 0 - nie przeżył,
* **Pclass** - klasa, którą podróżował pasażer: 1, 2 lub 3,
* **Name** - imię i nazwisko pasażera,
* **Sex** - płeć pasażera,
* **Age** - wiek w latach,
* **SibSp** - liczba pasażerów w postaci rodzeństwa lub męża/żony, z którymi pasażer podróżował,
* **Parch** - ilość dzieci lub rodziców,
* **Ticket** - numer biletu,
* **Fare** - cena biletu,
* **Cabin** - numer kabiny,
* **Embarked** - port w którym wysiadał: C - Cherboug, Q - Queenstown, S - Southampton,
* **ship** - nazwa statku.

Po zapoznaniu się ze zbiorem warto zauważyć, że kolumna **Fare**, która zawiera opłaty za bilet, jest zdefiniowana przez typ ,,object''. Moim zdaniem jest to nieprawidłowe rozwiązanie. W związku z tym wykonane zostały poniższe operacje:

In [132]:
dataset['Fare'] = dataset['Fare'].str.replace(',','.')
dataset['Fare'] = dataset['Fare'].str.replace(r'[^0-9\.]+', '')
dataset['Fare'] = pd.to_numeric(dataset['Fare'])
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 892 entries, 0 to 891
Data columns (total 13 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  892 non-null    int64  
 1   Survived     892 non-null    int64  
 2   Pclass       892 non-null    int64  
 3   Name         892 non-null    object 
 4   Sex          892 non-null    object 
 5   Age          719 non-null    float64
 6   SibSp        892 non-null    int64  
 7   Parch        892 non-null    int64  
 8   Ticket       892 non-null    object 
 9   Fare         892 non-null    float64
 10  Cabin        207 non-null    object 
 11  Embarked     890 non-null    object 
 12  ship         892 non-null    object 
dtypes: float64(2), int64(5), object(6)
memory usage: 90.7+ KB


W wyniku powyższych działań wszystkie znaki ,, , '' zmieniły się na ,, . '' oraz wszystkie znaki, które nie były liczbowe zostały usunięte. Następnie typ kolumny ,,Fare'' został zmieniony na ,,float64'' co lepiej ją definiuje.

Kolejną operacją, która dotyczy typu kolumn w zbiorze danych jest fakt, że kilka z nich posiada nieprawidłowy typ danych. Są to kolumny **Survived**, **Pclass**, **Sex** oraz **Embarked**. Moim zdaniem powinny być one zdefiniowane przez typ ,,category'', który określa kolumny zawierające skończoną listę wartości tekstowych (typ ,,object'' definiuje kolumny zawierające tekst). Zostało to wykonane za pomocą poniższych operacji:

In [133]:
dataset["Survived"] = dataset["Survived"].astype("category")
dataset["Pclass"] = dataset["Pclass"].astype("category")
dataset["Sex"] = dataset["Sex"].astype("category")
dataset["Embarked"] = dataset["Embarked"].astype("category")
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 892 entries, 0 to 891
Data columns (total 13 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   PassengerId  892 non-null    int64   
 1   Survived     892 non-null    category
 2   Pclass       892 non-null    category
 3   Name         892 non-null    object  
 4   Sex          892 non-null    category
 5   Age          719 non-null    float64 
 6   SibSp        892 non-null    int64   
 7   Parch        892 non-null    int64   
 8   Ticket       892 non-null    object  
 9   Fare         892 non-null    float64 
 10  Cabin        207 non-null    object  
 11  Embarked     890 non-null    category
 12  ship         892 non-null    object  
dtypes: category(4), float64(2), int64(3), object(4)
memory usage: 66.9+ KB


Po określeniu typów kolumn i głębszemu przeanalizowaniu zbioru danych zdecydowałem się usunąć kolumny **Ticket**, **Cabin**, **Ship** oraz **Name**. Zawierają one dane, które nieprzydadzą się podczas przyszłej analizy danych.

In [134]:
dataset = dataset.drop(['Ticket', 'Cabin', 'ship', 'Name'], axis=1)
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 892 entries, 0 to 891
Data columns (total 9 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   PassengerId  892 non-null    int64   
 1   Survived     892 non-null    category
 2   Pclass       892 non-null    category
 3   Sex          892 non-null    category
 4   Age          719 non-null    float64 
 5   SibSp        892 non-null    int64   
 6   Parch        892 non-null    int64   
 7   Fare         892 non-null    float64 
 8   Embarked     890 non-null    category
dtypes: category(4), float64(2), int64(3)
memory usage: 39.1 KB


Jak możemy zauważyć kolumny zostały usunięte.

W kolejnym kroku czyszczenia danych jest zlikwidowanie brakującyh wartości. Zapoznając się ze zbiorem można zauważyć, że występują one w dwóch zmiennych: **Age** oraz **Embarked**. Aby pozbyć się brakujących danych możemy zastosować dwie drogi:
* usunięcie wierszy z brakującymi wartościami,
* zastąpienie brakujących danych wartością maksymalną, minimalną lub średnią z danych występujących w kolumnie.

Biorąc pod uwagę, że w zmiennej **Age** występuje wiele brakujących wartości usunięcie ich może spowodować utrudnienie w przyszłej analizie danych. W związku z tym zostały one zastąpione wartością średnią ze wszystkich wystąpień. Brakujące wartości w zmiennej **Embarked** są jedynie w dwóch wystąpieniach, więc zostaną one usunięte ze zbioru.

In [135]:
dataset['Age'] = dataset['Age'].fillna(dataset['Age'].mean())
dataset = dataset[dataset['Embarked'].notna()]
dataset.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 890 entries, 0 to 891
Data columns (total 9 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   PassengerId  890 non-null    int64   
 1   Survived     890 non-null    category
 2   Pclass       890 non-null    category
 3   Sex          890 non-null    category
 4   Age          890 non-null    float64 
 5   SibSp        890 non-null    int64   
 6   Parch        890 non-null    int64   
 7   Fare         890 non-null    float64 
 8   Embarked     890 non-null    category
dtypes: category(4), float64(2), int64(3)
memory usage: 45.8 KB


Jak widać, w zmiennej **Age** nie występują już brakujące dane, a cały zbiór został pomniejszony o dwa wystąpienia, które znajdowały się w zmiennej **Embarked**

Kolejną rzeczą, która odnosi się do zmiennej **Age** jest fakt, że reprezentowana jest przez typ ,,float64''. Oznacza to, że występują w niej liczby zmiennoprzecinkowe. Znając definicję zmiennej (zawiera ona dane reprezenujące wiek) możemy zmienić rozwiązanie prezentacji danych na liczby całkowite. Podobne rozwiązanie możemy zastosować w zmiennej **Fare**.

In [136]:
dataset['Age'] = dataset['Age'].apply(math.ceil)
dataset['Fare'] = dataset['Fare'].apply(math.ceil)
dataset.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 890 entries, 0 to 891
Data columns (total 9 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   PassengerId  890 non-null    int64   
 1   Survived     890 non-null    category
 2   Pclass       890 non-null    category
 3   Sex          890 non-null    category
 4   Age          890 non-null    int64   
 5   SibSp        890 non-null    int64   
 6   Parch        890 non-null    int64   
 7   Fare         890 non-null    int64   
 8   Embarked     890 non-null    category
dtypes: category(4), int64(5)
memory usage: 45.8 KB


Po wykonaniu powyższych operacji w zbiorze występują zmienne reprezentowane za pomocą liczb całkowitych oraz danych kategorycznych

Ostatnim krokiem czyszczenia danych jest zoptymalizowanie liczby osób, które podróżowały razem z pasażerem. Biorąc pod uwagę, że w zmiennej **SibSp** przechowywana jest liczba współpasażerów w postaci rodzeństwa lub męża/żony, a w zmiennej **Parch** liczba współpasażerów w postaci rodzciów i dzieci można połączyć wartości z tych dwóch zmiennych w jedną, jako sumę współpasażerów.

In [137]:
familySize = pd.DataFrame(dataset.apply(lambda x: x.SibSp+x.Parch, axis=1), columns=["FamilySize"])
dataset = dataset.join(familySize)
dataset.head()

Unnamed: 0,PassengerId,Survived,Pclass,Sex,Age,SibSp,Parch,Fare,Embarked,FamilySize
0,1,0,3,male,22,1,0,8,S,1
1,2,1,1,female,38,1,0,72,C,1
2,3,1,3,female,26,0,0,8,S,0
3,4,1,1,female,35,1,0,54,S,1
4,5,0,3,male,35,0,0,9,S,0


Po wykonaniu powyższych operacji dodana została nowa zmienna **FamilySize** do zbioru danych, która zawiera sumę wartości zmiennych **SipSp** oraz **Parch**. W związku z tym należy usunąć te zmienne, ponieważ nie będą one już potrzebne. 

In [138]:
dataset = dataset.drop(['SibSp', 'Parch'], axis=1)
dataset.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 890 entries, 0 to 891
Data columns (total 8 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   PassengerId  890 non-null    int64   
 1   Survived     890 non-null    category
 2   Pclass       890 non-null    category
 3   Sex          890 non-null    category
 4   Age          890 non-null    int64   
 5   Fare         890 non-null    int64   
 6   Embarked     890 non-null    category
 7   FamilySize   890 non-null    int64   
dtypes: category(4), int64(4)
memory usage: 78.8 KB


Na tym etapie oczyszczanie danych zostało zakończone. Należy teraz zapisać dane do nowego pliku o nazwie ,,TitanicCleaned.tsv'', który będzie zawierał oczyszczone dane.

In [139]:
dataset.to_csv('TitanicCleaned.tsv')

## Podsumowanie

Zbiór danych został oczyszczony i zoptymalizowany w celu przyszłej analizy. Zostały wykonane wszystkie czynności, które zostały podane we wprowadzeniu oraz została dodana dodatkowa zmienna o nazwie FamilySize, która zawiera liczbę współpasażerów danego podróżnego. Operacje te spowodowały, moim zdaniem, że zbiór jest bardziej czytelny oraz łatwiejszy do analizy dla przyszłego eksperta.