# SIwB - Czyszczenie danych
# Bartłomiej Gil



## Wstęp

### Sprawozdanie z laboratorium **"Czyszczenie danych i przygotowanie zbioru do analizy"** składa się z kilku etapów, które umieściłem w oddzielnych punktach. W trakcie pracy przygotowałem zbiór `TitanicMess.tsv` do analizy korzystając z różnych technik poznanych w trakcie zajęć.

## 1. Załadowanie i wyświetlenie danych

#### zaimportowanie niezbędnych bibliotek

In [58]:
import pandas as pd
import numpy as np

#### załadowanie pliku (seperator: tabulator, kolumna indeksująca: _PassengerId_

In [59]:
tit = pd.read_csv("TitanicMess.tsv", sep="\t", index_col="PassengerId")

#### wyświetlenie próbki (pierwszych rekordów) danych

In [60]:
tit.head(15)

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,ship
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,725,,S,Titanic
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,712833,C85,C,Titanic
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7925,,S,Titanic
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,531,C123,S,Titanic
5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,805,,S,Titanic
6,0,3,"Moran, Mr. James",male,,0,0,330877,84583,,Q,Titanic
7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,518625,E46,S,Titanic
8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21075,,S,Titanic
9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,111333,,S,Titanic
10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,300708,,C,Titanic


## 2. Zapoznanie z danymi
#### Wyświetlenie liczby wierszy

In [61]:
tit.shape[0]

892

#### Wyświetlenie informacji o kolumnach

In [62]:
tit.shape[1]

12

In [63]:
tit.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 892 entries, 1 to 1000
Data columns (total 12 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   Survived  892 non-null    int64 
 1   Pclass    892 non-null    int64 
 2   Name      892 non-null    object
 3   Sex       892 non-null    object
 4   Age       719 non-null    object
 5   SibSp     892 non-null    int64 
 6   Parch     892 non-null    int64 
 7   Ticket    892 non-null    object
 8   Fare      892 non-null    object
 9   Cabin     207 non-null    object
 10  Embarked  890 non-null    object
 11  ship      892 non-null    object
dtypes: int64(4), object(8)
memory usage: 90.6+ KB


## 3. Czyszczenie i poprawa danych
Czyszczenie i poprawa danych przebiegać będzie wg określonego schematu:
* Wyświetlenie unikalnych wartości w ramach kolumny
* Wyświetlenie liczby pustych rekordów
* Ewentualna poprawa danych
* Ewentualne uzupełnienie brakujących danych

### 3.1. Kolumna _ship_

#### Liczba brakujących wartości, unikalne wartości:


In [64]:
tit["ship"].isnull().sum()

0

In [65]:
tit["ship"].unique()

array(['Titanic'], dtype=object)

#### **Wniosek**  
Wartość kolumny dla każdego wiersza jest taka sama. Wynika to z faktu, że zbiór danych dotyczy statku *Titanic*. Kolumnę można usunąć, jest bezużyteczna jeśli chodzi o analizę

#### Usunięcie kolumny

In [66]:
titClean = tit.drop(columns="ship")

### 3.2. Kolumna _Survived_

#### Liczba brakujących wartości, unikalne wartości:

In [67]:
tit["Survived"].isnull().sum()

0

In [68]:
tit["Survived"].unique()

array([0, 1], dtype=int64)

#### Wniosek
Kolumna jest wypełniona wartościami 0 (ozn. śmierć pasażera) oraz 1 (ozn. przeżycie pasażera). Nie ma wartości brakujących.

### 3.3. Kolumna _Pclass_
#### Liczba brakujących wartości, unikalne wartości:

In [69]:
tit["Pclass"].isnull().sum()

0

In [70]:
tit["Pclass"].unique()

array([3, 1, 2], dtype=int64)

#### Wniosek
Kolumna jest wypełniona wartościami 3, 1, 2 (ozn. klasę, w jakiej podróżował pasażer). Nie ma wartości brakujących.

### 3.4. Kolumna _Cabin_
#### Liczba brakujących wartości, unikalne wartości

In [71]:
tit["Cabin"].isnull().sum()

685

In [72]:
tit["Cabin"].unique()

array([nan, 'C85', 'C123', 'E46', 'G6', 'C103', 'D56', 'C23 C25 C27',
       'B78', 'D33', 'B30', 'C52', 'B28', 'C83', 'F33', 'F G73', 'E31',
       'A5', 'D10 D12', 'D26', 'C110', 'B58 B60', 'E101', 'F E69', 'D47',
       'B86', 'F2', 'C2', 'E33', 'B19', 'A7', 'C49', 'F4', 'A32', 'B4',
       'B80', 'A31', 'D36', 'D15', 'C93', 'C78', 'D35', 'C87', 'B77',
       'E67', 'B94', 'C125', 'C99', 'C118', 'D7', 'A19', 'B49', 'D',
       'C22 C26', 'C106', 'C65', 'E36', 'C54', 'B57 B59 B63 B66', 'C7',
       'E34', 'C32', 'B18', 'C124', 'C91', 'E40', 'T', 'C128', 'D37',
       'B35', 'E50', 'C82', 'B96 B98', 'E10', 'E44', 'A34', 'C104',
       'C111', 'C92', 'E38', 'D21', 'E12', 'E63', 'A14', 'B37', 'C30',
       'D20', 'B79', 'E25', 'D46', 'C95', 'B38', 'B39', 'B22', 'C86',
       'C70', 'A16', 'C101', 'C68', 'A10', 'E68', 'B41', 'A20', 'D19',
       'D50', 'D9', 'A23', 'B50', 'A26', 'D48', 'E58', 'C126', 'B71',
       'B51 B53 B55', 'D49', 'B5', 'B20', 'F G63', 'C62 C64', 'E24',
       'C90'

#### Wniosek
Brak zdecydowanej większości wartości. Wartości niemożliwe do przyporządkowania matematycznie. Kolumna nie znajdzie zastosowania w analizie i może zostać usunięta.
#### Usunięcie kolumny

In [73]:
titClean = titClean.drop(columns="Cabin")

### 3.5. Kolumna _Sex_
#### Liczba brakujących wartości, unikalne wartości

In [74]:
tit["Sex"].isnull().sum()

0

In [75]:
tit["Sex"].unique()

array(['male', 'female', 'malef', 'mal', 'fem', 'femmale'], dtype=object)

#### Wniosek
Kolumna nie ma brakujących wartości, ale popełniono kilka błędów, które należy poprawić:
* zamiana _malef_ na _male_
* zamiana _mal_ na _male_
* zamiana _fem_ na _female_
* zamiana _femmale_ na _female_

#### Poprawa wartości

In [76]:
titClean["Sex"] = titClean["Sex"].replace(["malef"],"male")
titClean["Sex"] = titClean["Sex"].replace(["fem"],"female")
titClean["Sex"] = titClean["Sex"].replace(["mal"],"male")
titClean["Sex"] = titClean["Sex"].replace(["femmale"],"female")

### 3.6. Kolumna _Embarked_
#### Liczba brakujących wartości, unikalne wartości

In [77]:
tit["Embarked"].isnull().sum()

2

In [78]:
tit["Embarked"].unique()

array(['S', 'C', 'Q', 'So', nan, 'Co', 'Qe'], dtype=object)

#### Wniosek
Prawdopodobnie wystąpiły błędy wartości, dla pewności wyświetlam liczbę poszczególnych wartości:

In [79]:
tit["Embarked"].value_counts()

S     643
C     167
Q      76
So      2
Qe      1
Co      1
Name: Embarked, dtype: int64

#### Wniosek 2
Doszło do literówek, konieczne będzie poprawienie wartości: 
* zamiana _So_ na _S_
* zamiana _Co_ na _C_
* zamiana _Qe_ na _Q_

#### Zamiana wartości

In [80]:
titClean["Embarked"] = titClean["Embarked"].replace("So", "S")
titClean["Embarked"] = titClean["Embarked"].replace("Co", "C")
titClean["Embarked"] = titClean["Embarked"].replace("Qe", "Q")

#### Uzupełnienie wartości
Brakuje dwóch wartości, ze względu na typ wartości nie można uzupełnić ich matematycznie. Uzupełniam je losowo.

In [81]:
import random
values = ["S", "C", "Q"]
titClean["Embarked"] = titClean["Embarked"].fillna(random.choice(values))

### 3.7. Kolumna _Age_
#### Liczba brakujących wartości, unikalne wartości

In [82]:
tit["Age"].isnull().sum()

173

In [83]:
tit["Age"].unique()

array(['22', '38', '26', '35', nan, '54', '2', '27', '14', '4', '58',
       '20', '55', '31', '34', '15', '8', '19', '40', '.9', '66', '28',
       '42', '21', '18', '3', '7', '49', '29', '65', '28,5', '5', '11',
       '45', '17', '32', '16', '25', '0,83', '30', '33', '23', '24', '46',
       '59', '71', '37', '47', '14,5', '70,5', '32,5', '12', '9', '36,5',
       '51', '55,5', '40,5', '44', '1', '61', '56', '50', '36', '45,5',
       '4435', '20,5', '62', '41', '52', '63', '23,5', '0,92', '43', '60',
       '39', '10', '64', '13', '48', '0,75', '-3', '-12', '53', '57',
       '80', '250', '70', '24,5', '6', '0,67', '30,5', '0,42', '34,5',
       '74'], dtype=object)

#### Wniosek
Brakuje wielu wartości, ale można je uzupełnić. Część danych jest niepoprawna, przez co typ danych jest _object_.

#### Poprawa wartości
Wartości nieparsowalne, mniejsze od 0 oraz większe od 120 zostaną zastąpione wartością _nan (not a number)_. Następnie zostaną wyświetlone unikalne wartości w celu dalszej obróbki danych.

In [84]:
for i, row in titClean.iterrows():
    try:
        if float(row["Age"]) >= 0 or float(row["Age"]) <= 120:
            titClean.at[i, "Age"] = float(row["Age"])
        else:
            titClean.at[i, "Age"] = np.NaN
    except ValueError:
        titClean.at[i, "Age"] = np.NaN

titClean["Age"].unique()

array([22.0, 38.0, 26.0, 35.0, nan, 54.0, 2.0, 27.0, 14.0, 4.0, 58.0,
       20.0, 55.0, 31.0, 34.0, 15.0, 8.0, 19.0, 40.0, 0.9, 66.0, 28.0,
       42.0, 21.0, 18.0, 3.0, 7.0, 49.0, 29.0, 65.0, 5.0, 11.0, 45.0,
       17.0, 32.0, 16.0, 25.0, 30.0, 33.0, 23.0, 24.0, 46.0, 59.0, 71.0,
       37.0, 47.0, 12.0, 9.0, 51.0, 44.0, 1.0, 61.0, 56.0, 50.0, 36.0,
       4435.0, 62.0, 41.0, 52.0, 63.0, 43.0, 60.0, 39.0, 10.0, 64.0, 13.0,
       48.0, -3.0, -12.0, 53.0, 57.0, 80.0, 250.0, 70.0, 6.0, 74.0],
      dtype=object)

#### Zmiana typu kolumny
Dane są poprawne, więc można zmienić typ kolumny na _float_


In [85]:
titClean[["Age"]] = titClean[["Age"]].astype(float)

#### Uzupełnienie brakujących wartości
Kolumna zawiera wartości liczbowe, więc można uzupełnić brakujące wartości średnią uzupełnionych wartości.

In [86]:
titClean["Age"].mean()

36.301008645533145

In [87]:
titClean["Age"] = titClean["Age"].fillna(round(titClean["Age"].mean()))

### 3.8. Kolumna _Fare_
#### Liczba brakujących wartości, liczba unikalnych wartości

In [88]:
tit["Fare"].isnull().sum()

0

In [89]:
tit["Fare"].unique()

array(['7,25', '71,2833', '7,925', '53,1', '8,05', '8,4583', '51,8625',
       '21,075', '11,1333', '30,0708', '16,7', '26,55', '7,8542', '16',
       '29,125', '13', '18', '7,225', '26', '8,0292', '31,3875', '263',
       '7,8792', '7,8958', '27,7208', '146,5208', '7,75', '10,5',
       '82,1708', '52', '7,2292', '11,2417', '9,475', '21', '41,5792',
       '15,5', '21,6792', '17,8', '39,6875', '7,8', '76,7292', '61,9792',
       '35,5', '27,75', '46,9', '80', '83,475', '27,9', '15,2458',
       '8,1583', '8,6625', '73,5', '14,4542', '56,4958', '7,65', '29',
       '12,475', '9', '9,5', '7,7875', '47,1', '15,85', '34,375',
       '61,175', '20,575', '34,6542', '63,3583', '23', '77,2875',
       '8,6542', '7,775', '24,15', '9,825', '14,4583', '247,5208',
       '31,275', '7,1417', '22,3583', '6,975', '7,05', '14,5', '15,0458',
       '26,2833', '9,2167', '79,2', '6,75', '11,5', '36,75', '7,7958',
       '12,525', '66,6', '7,3125', '61,3792', '7,7333', '69,55', '16,1',
       '15,75', '2

#### Wniosek
Występują wartości mniejsze od 0. Zostaną one zastąpione wartością 0, a każda wartość zostanie zaokrąglona do dwóch miejsc po przecinku

#### Poprawa danych

In [90]:
titClean["Fare"] = pd.to_numeric(titClean["Fare"].astype(str).str.replace(',','.'), errors='coerce').round(2)
for i, row in titClean.iterrows():
    if row["Fare"] <= 0:
            titClean.at[i, "Fare"] = 0

Wyświetlenie poprawionych wartości unikalnych:

In [91]:
titClean["Fare"].unique()

array([  7.25,  71.28,   7.92,  53.1 ,   8.05,   8.46,  51.86,  21.08,
        11.13,  30.07,  16.7 ,  26.55,   7.85,  16.  ,  29.12,  13.  ,
        18.  ,   7.22,  26.  ,   8.03,  31.39, 263.  ,   7.88,   7.9 ,
        27.72, 146.52,   7.75,  10.5 ,  82.17,  52.  ,   7.23,  11.24,
         9.48,  21.  ,  41.58,  15.5 ,  21.68,  17.8 ,  39.69,   7.8 ,
        76.73,  61.98,  35.5 ,  27.75,  46.9 ,  80.  ,  83.48,  27.9 ,
        15.25,   8.16,   8.66,  73.5 ,  14.45,  56.5 ,   7.65,  29.  ,
        12.48,   9.  ,   9.5 ,   7.79,  47.1 ,  15.85,  34.38,  61.18,
        20.58,  34.65,  63.36,  23.  ,  77.29,   8.65,   7.78,  24.15,
         9.82,  14.46, 247.52,  31.28,   7.14,  22.36,   6.98,   7.05,
        14.5 ,  15.05,  26.28,   9.22,  79.2 ,   6.75,  11.5 ,  36.75,
        12.52,  66.6 ,   7.31,  61.38,   7.73,  69.55,  16.1 ,  15.75,
        20.52,  55.  ,  25.92,  33.5 ,  30.7 ,  25.47,  28.71,   0.  ,
        39.  ,  22.02,  50.  ,   8.4 ,   6.5 ,  10.46,  18.79,  31.  ,
      

### 3.9. Pozostałe kolumny
Kolumny _Ticket_ i _Name_ zawierają nazwiska oraz numery biletów, których nie da się matematycznie poprawić.
Kolumny _SibSp_ i _Parch_ są uzupełnione, więc ich nie zmieniono.

## 4. Usunięcie powtarzających się wierszy
W trakcie czyszczenia danych usunięto powtarzające się wiersze

In [92]:
titClean = titClean.drop_duplicates()

#### Sprawdzenie czy liczba wierszy się zmniejszyła

In [93]:
titClean.shape[0]

889

## 5. Wyświetlenie próbki danych zmodyfikowanego zbioru danych

In [94]:
titClean.head(25)

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.28,C
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.92,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,S
5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,S
6,0,3,"Moran, Mr. James",male,36.0,0,0,330877,8.46,Q
7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.86,S
8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.08,S
9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.13,S
10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.07,C


## 6. Zapis danych do pliku

In [96]:
titClean.to_csv('TitanicCleaned.tsv', sep = '\t')