# Systemy Inteligentne w Biznesie
## Laboratorium: Czyszczenie danych i przygotowanie zbioru do analizy
## Ilona Kusztykiewicz, 2020/21Z



## 1. Wstęp
Rzadko bywa tak, że mamy "fajne" dane, tzn. takie które nadają się bezpośrednio do podpięcia pod algorytmy dokonujące obliczeń (czy to statystycznych czy uczenia maszynowego).

Najczęściej konieczne jest wykonanie wstępnego przygotowania danych, które może polegać na (mogą występować wszystkie etapy, a mogą występować tylko wybrane) ich modyfikacji, czyszczeniu, rozdzielaniu, ujednolicaniu i/lub ponownemu scalaniu. Ogólne jest to zwykle najbardziej żmudny praco- i czasochłonny etap w pracy analityka danych. Ocenia się, że zajmuje on czasem nawet do 80% czasu całego projektu analizy...

Celem laboratorium jest wykonanie czyszczenia danych znajdujących się w przekazanym zbiorze oraz przygotowanie ich do analizy, z wykorzystaniem ich modyfikacji, ujednolicania czy rozdzielania. W tym celu zostanie wykorzystana biblioteka `pandas` języka Python.  
Wykonana praca nad zbiorem składa się z kilku etapów, każdy z nich został umieszczony w oddzielnym rozdziale.

## 2. Załadowanie danych z dysku / zbioru danych do pamięci
Na początku działania notebooka importowane są niezbędne biblioteki: `pandas` oraz `numpy` umożliwiające pracę nad zbiorami danych. Następnie przekazane dane zostają wczytane. Warto zwrócić uwagę na dodatkowe parametry:
* `sep = "\t"` oznacza, że seperatorem w pliku jest tabulator
* `index_col="PassengerId"` oznacza, że kolumną indeksującą jest PassengerId - nie jest wówczas tworzona dodatkowa kolumna z indeksem
* `titanicdata`  to nazwa obiektu do którego ładujemy dane z dysku

In [1]:
import pandas as pd
import numpy as np

titanicdata = pd.read_csv("TitanicMess.tsv", sep="\t", index_col="PassengerId")

## 3. Wyświetlenie próbki załadowany danych

Przed właściwą obróbką i czyszczeniem danych warto wiedzieć z jakimi danymi mamy do czynienia. Wyświetlonych zostanie więc pierwszych dziesięć rekordów znajdujących się w podanym do czyszczenia zbiorze.

In [3]:
titanicdata.head(50)

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,ship
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,725,,S,Titanic
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,712833,C85,C,Titanic
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7925,,S,Titanic
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,531,C123,S,Titanic
5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,805,,S,Titanic
6,0,3,"Moran, Mr. James",male,,0,0,330877,84583,,Q,Titanic
7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,518625,E46,S,Titanic
8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21075,,S,Titanic
9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,111333,,S,Titanic
10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,300708,,C,Titanic


## 4. Wyświetlenie podstawowych informacji o danych

W celu dalszego poznania charakteru danych oraz określenia problemów do rozwiązania podczas czyszczenia danych, warto poznać główne parametry załadowanego zbioru. Można tu poznać m.in. z ich liczbę, typy danych, liczbę  brakujących wartości.

### 4.1. Wyświetlenie liczby wierszy i kolumn

In [4]:
titanicdata.shape

(892, 12)

### 4.2. Wyświetlenie informacji o typach załadowanych danych

In [6]:
titanicdata.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 892 entries, 1 to 1000
Data columns (total 12 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   Survived  892 non-null    int64 
 1   Pclass    892 non-null    int64 
 2   Name      892 non-null    object
 3   Sex       892 non-null    object
 4   Age       719 non-null    object
 5   SibSp     892 non-null    int64 
 6   Parch     892 non-null    int64 
 7   Ticket    892 non-null    object
 8   Fare      892 non-null    object
 9   Cabin     207 non-null    object
 10  Embarked  890 non-null    object
 11  ship      892 non-null    object
dtypes: int64(4), object(8)
memory usage: 90.6+ KB


## 5. Interpretacja załadowanych danych

Analizując wyniki z punktów 3 i 3 można wyciągnąć następujące ogólne wnioski, które w dalszej części pracy będą potwierdzane lub realizowane poprzez modyfikację i czyszczenie danych:
* Kolumna `Survived` zawiera wartości liczbowe i nie ma brakujących wartości - przyjmijmy że kolumna ta powinna zawierać 2 wartości:
    * 0 - oznaczająca śmierć pasażera
    * 1 - oznaczająca przeżycie pasażera
* Kolumna `PClass` zawiera liczby całkowite i nie ma brakujących wartości - przyjmijmy że będzie docelowo zawierała wartości 1, 2 i 3 - oznaczające numer klasy
* Kolumna `Sex` nie ma brakujących wartości - należy doprowadzić do sytuacji, w której będzie zawierała wartości "female" oraz "male"
* W przypadku kolumny `Embarked` brakuje 2 wartości, kolumny `Age` - 173 wartości, kolumny `Cabin` - aż 685 wartości, co stanowi blisko 80% brakujących danych w kolumnie. Pozostałe kolumny mają uzupełnione wszystkie wartości.
* Kolumny `Age` oraz `Fare` zostały niepoprawnie odczytane jako ogólny typ `object` - prawdopodobnie z powodu błędów we wprowadzonych danych nie wszystkie wartości zostały poprawnie zinterpretowane jako liczby
* Kolumna `ship` zawiera 892 informacje o statku - ze względu na charakter analizowanego zbioru prawdopodobnie zawiera jedną unikalną wartość `Titanic`

## 6. Czyszczenie / usunięcie kolumny `ship`
Pierwszą szczegółowo analizowaną i modyfikowaną kolumną jest kolumna `ship` oznaczająca nazwę statku. Wiemy już, że nie posiada ona brakujących wartości. Przeanalizujmy, jakie wartości w niej występują:


In [8]:
titanicdata["ship"].unique()

array(['Titanic'], dtype=object)

Ze zwróconej tablicy wynika, że w kolumnie znajduje się tylko jedna wartość - Titanic. Jest to uzasadnione faktem, że zbiór danych dotyczy pasażerów jednego statku - Titanica. W związku z tym kolumna ta nie będzie użyteczna w dalszych rozważaniach i analizie danych - można ją usunąć:

In [17]:
titanicdata2 = titanicdata.drop(columns="ship")
titanicdata2.head(10)

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,725,,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,712833,C85,C
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7925,,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,531,C123,S
5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,805,,S
6,0,3,"Moran, Mr. James",male,,0,0,330877,84583,,Q
7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,518625,E46,S
8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21075,,S
9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,111333,,S
10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,300708,,C


## 7. Czyszczenie kolumny `Survived`
Kolejną analizowaną kolumną jest kolumna `Survived`. Należy się przekonać, czy początkowe założenie, że w kolumnie tej znajdują się wyłącznie wartości 0 (oznaczające śmierć pasażera) oraz 1 (oznaczające przeżycie pasażera). Wyświetlmy unikalne wartości tej kolumny:

In [18]:
titanicdata2["Survived"].unique()

array([0, 1])

Początkowe założenie jest prawdziwe - kolumna jest całkowicie wypełniona poprawnymi wartościami - w związku z tym żadna ingerencja ani modyfikacje danych nie są wskazane.

## 8. Czyszczenie kolumny `Pclass`
Następnym krokiem analizy jest przejrzenie wartości kolumny `Pclass`. Analiza polega na sprawdzeniu, czy początkowe założenie, że w kolumnie tej znajdują się wyłącznie wartości 1, 2 oraz 3, które wskazują na numer klasy. Wyświetlmy unikalne wartości tej kolumny:

In [19]:
titanicdata2["Pclass"].unique()

array([3, 1, 2])

Wniosek był poprawny, zatem zawartość kolumny nie musi być dalej obrabiana / czyszczona.

## 9. Czyszczenie kolumny `Cabin`
Sprawdźmy procent pustych wartości w kolumnie `Cabin`:

In [21]:
(titanicdata2["Cabin"].isnull().sum() / titanicdata2.shape[0])*100

76.79372197309418

Brakuje blisko 80% wartości w analizowanej kolumnie. Ze względu na fakt że brakuje zdecydowanej większości danych, postanowiono usunąć tę kolumnę ze zbioru danych ponieważ nie znalazłaby ona zastosowania w dalszej analizie.

In [22]:
titanicdata2 = titanicdata2.drop(columns="Cabin")
titanicdata2.head(10)

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,725,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,712833,C
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7925,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,531,S
5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,805,S
6,0,3,"Moran, Mr. James",male,,0,0,330877,84583,Q
7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,518625,S
8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21075,S
9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,111333,S
10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,300708,C


## 10. Czyszczenie kolumny `Sex`
Zgodnie z początkową analizą tej kolumny, powinny znajdować się w niej wartości wyłącznie `male` oraz `female`. Sprawdźmy zatem, czy tak jest poprzez wyświetlenie zawartości unikalnych wartości danych w tej kolumnie:

In [23]:
titanicdata2["Sex"].unique()

array(['male', 'female', 'malef', 'mal', 'fem', 'femmale'], dtype=object)

Poza przewidywanymi wartościami w kolumnie znajdują się również inne. Ich analiza pozwala przypuszczać, że powstały one w wyniku literówek lub skrótów stosowanych przez osoby wprowadzające dane. W związku z tym w celu przygotowania kolumny do analizy zastąpiono błędne wartości ich poprawnymi odpowiednikami (`malef`, `mal` poprawiono na `male`; `fem` oraz `femmale` zmieniono na `female`)

In [26]:
titanicdata2["Sex"] = titanicdata2["Sex"].replace(["malef","mal"],"male")
titanicdata2["Sex"] = titanicdata2["Sex"].replace(["fem","femmale"],"female")
titanicdata2["Sex"].unique()

array(['male', 'female'], dtype=object)

Po wykonaniu powyższych instrukcji wszystkie dane w kolumnie `Sex` są już poprawne.

## 11. Czyszczenie kolumny `Embarked`
Czyszczenie kolumny `Embarked` rozpoczęto od przypomnienia liczby brakujących wartości oraz wyświetlenia unikalnych wartości w tej kolumnie.

In [27]:
titanicdata2["Embarked"].isnull().sum()

2

In [28]:
titanicdata2["Embarked"].unique()

array(['S', 'C', 'Q', 'So', nan, 'Co', 'Qe'], dtype=object)

Po analizie zwróconych danych można podejrzewać, że wartości `So`, `Co` oraz `Qe` powstały w wyniku pomyłki, w związku z tym można dokonać odpowiednich poprawek (`So` zostanie zmienione na `S`, `Co` na `C`, `Qe` na `Q`).

In [29]:
titanicdata2["Embarked"] = titanicdata2["Embarked"].replace("So", "S")
titanicdata2["Embarked"] = titanicdata2["Embarked"].replace("Co", "C")
titanicdata2["Embarked"] = titanicdata2["Embarked"].replace("Qe", "Q")
titanicdata2["Embarked"].unique()

array(['S', 'C', 'Q', nan], dtype=object)

Ze względu na fakt, że brakuje zaledwie dwóch wartości, można podjąć próbę ich wypełnienia. Biorąc pod uwagę fakt, że brakuje ok. 0.002% wartości uzupełnienie ich wartościami losowymi nie będzie miało znaczenia dla analizy.

In [31]:
import random
embarkedValues = [x for x in titanicdata2["Embarked"].unique() if pd.notnull(x)]
titanicdata2["Embarked"] = titanicdata2["Embarked"].fillna(random.choice(embarkedValues))

## 12. Czyszczenie kolumny `Age`
Kolumna `Age` została odczytana jako typ `Object`, co jest oznacza że dane wejściowe zostały zinterpretowane jako typy złożone a nie numeryczne, czego można by się spodziewać dla zmiennej `Age`. Przeanalizujmy wartości znajdujące się w tej kolumnie i postarajmy się doprowadzić do sytuacji, w której będzie możliwe zmienienie typu wartości na typ przechowujący liczby rzeczywiste (`float64`).

Wyświetlmy unikalne wartości załadowane do tej kolumny:

In [32]:
titanicdata2["Age"].unique()

array(['22', '38', '26', '35', nan, '54', '2', '27', '14', '4', '58',
       '20', '55', '31', '34', '15', '8', '19', '40', '.9', '66', '28',
       '42', '21', '18', '3', '7', '49', '29', '65', '28,5', '5', '11',
       '45', '17', '32', '16', '25', '0,83', '30', '33', '23', '24', '46',
       '59', '71', '37', '47', '14,5', '70,5', '32,5', '12', '9', '36,5',
       '51', '55,5', '40,5', '44', '1', '61', '56', '50', '36', '45,5',
       '4435', '20,5', '62', '41', '52', '63', '23,5', '0,92', '43', '60',
       '39', '10', '64', '13', '48', '0,75', '-3', '-12', '53', '57',
       '80', '250', '70', '24,5', '6', '0,67', '30,5', '0,42', '34,5',
       '74'], dtype=object)

Jak widać kolumna `Age` zawoiera szereg błędnych danych:
* występują wartości błędne np. .9 - nie mówimy że ktoś ma 0.9 lat
* występują wartości niemożliwe np. -12, -3, 250, 44435 - trudno spodziewać się że osoby w wieku powyżej 100 lat będą brały w wycieczce statkiem

Aby wyeliminować dane poza typowym zakresem długości ludzkiego życia, postanowiono zastąpić wartości błędne oraz nienależące do przedziału [1,100] wartością `nan`

In [40]:
for i, row in titanicdata2.iterrows():
    try:
        if float(row["Age"]) < 1 or float(row["Age"]) > 100:
            titanicdata2.at[i, "Age"] = np.NaN
        else:
            titanicdata2.at[i, "Age"] = float(row["Age"])
    except ValueError:
        titanicdata2.at[i, "Age"] = np.NaN

titanicdata2["Age"].unique()

array([22., 38., 26., 35., nan, 54.,  2., 27., 14.,  4., 58., 20., 55.,
       31., 34., 15.,  8., 19., 40., 66., 28., 42., 21., 18.,  3.,  7.,
       49., 29., 65.,  5., 11., 45., 17., 32., 16., 25., 30., 33., 23.,
       24., 46., 59., 71., 37., 47., 12.,  9., 51., 44.,  1., 61., 56.,
       50., 36., 62., 41., 52., 63., 43., 60., 39., 10., 64., 13., 48.,
       53., 57., 80., 70.,  6., 74.])

W chwili obecnej wszystkie wartości tej kolumny są już wartościami liczbowymi, więc należy zmienić typ danych na `float64`. 

In [41]:
titanicdata2[["Age"]] = titanicdata2[["Age"]].astype(float)

Wyświetlenie statystyk dla kolumny m.in. wartość minimalna, maksymalna, średnia, kwartyle:

In [42]:
titanicdata2["Age"].describe()

count    689.000000
mean      29.785196
std       14.380937
min        1.000000
25%       20.000000
50%       28.000000
75%       38.000000
max       80.000000
Name: Age, dtype: float64

Jest wiele sposobów uzupełniania brakujących wartości. Jednym z nich jest wypełnianie ich średnią arytmetyczną istniejących wartości. Wartość średnia w kolumnie wynosi ok. 30 i tą wartością uzupełniono brakujące pola w analizowanej kolumnie.

In [43]:
titanicdata2["Age"] = titanicdata2["Age"].fillna(round(titanicdata2["Age"].mean()))

## 13. Czyszczenie kolumny `Fare`
Kolumna `Fare`, podobnie jak kolumna `Age` została zinterpretowana jako typ `object`, co wskazuje na błędy załadowanych danych. Przeanalizujmy występujące w niej wartości.

In [44]:
titanicdata2["Fare"].unique()

array(['7,25', '71,2833', '7,925', '53,1', '8,05', '8,4583', '51,8625',
       '21,075', '11,1333', '30,0708', '16,7', '26,55', '7,8542', '16',
       '29,125', '13', '18', '7,225', '26', '8,0292', '31,3875', '263',
       '7,8792', '7,8958', '27,7208', '146,5208', '7,75', '10,5',
       '82,1708', '52', '7,2292', '11,2417', '9,475', '21', '41,5792',
       '15,5', '21,6792', '17,8', '39,6875', '7,8', '76,7292', '61,9792',
       '35,5', '27,75', '46,9', '80', '83,475', '27,9', '15,2458',
       '8,1583', '8,6625', '73,5', '14,4542', '56,4958', '7,65', '29',
       '12,475', '9', '9,5', '7,7875', '47,1', '15,85', '34,375',
       '61,175', '20,575', '34,6542', '63,3583', '23', '77,2875',
       '8,6542', '7,775', '24,15', '9,825', '14,4583', '247,5208',
       '31,275', '7,1417', '22,3583', '6,975', '7,05', '14,5', '15,0458',
       '26,2833', '9,2167', '79,2', '6,75', '11,5', '36,75', '7,7958',
       '12,525', '66,6', '7,3125', '61,3792', '7,7333', '69,55', '16,1',
       '15,75', '2

W kolumnie mamy do czynienia z wartościami niemożliwymi (-90, 0) - zastąpmy te wartości oraz inne błędne błędne  wartością `nan`. Dodatkowym problemem występującym wśród zawartości tej kolumny jest liczba miejsc po przecinku. Załóżmy że cena wyrażona jest zmienną rzeczywistą z dwoma miejscami po przecinku.

In [45]:
titanicdata2["Fare"] = pd.to_numeric(titanicdata2["Fare"].astype(str).str.replace(',','.'), errors='coerce').round(2)
for i, row in titanicdata2.iterrows():
    if row["Fare"] <= 0:
            titanicdata2.at[i, "Fare"] = np.NaN

titanicdata2["Fare"].unique()

array([  7.25,  71.28,   7.92,  53.1 ,   8.05,   8.46,  51.86,  21.08,
        11.13,  30.07,  16.7 ,  26.55,   7.85,  16.  ,  29.12,  13.  ,
        18.  ,   7.22,  26.  ,   8.03,  31.39, 263.  ,   7.88,   7.9 ,
        27.72, 146.52,   7.75,  10.5 ,  82.17,  52.  ,   7.23,  11.24,
         9.48,  21.  ,  41.58,  15.5 ,  21.68,  17.8 ,  39.69,   7.8 ,
        76.73,  61.98,  35.5 ,  27.75,  46.9 ,  80.  ,  83.48,  27.9 ,
        15.25,   8.16,   8.66,  73.5 ,  14.45,  56.5 ,   7.65,  29.  ,
        12.48,   9.  ,   9.5 ,   7.79,  47.1 ,  15.85,  34.38,  61.18,
        20.58,  34.65,  63.36,  23.  ,  77.29,   8.65,   7.78,  24.15,
         9.82,  14.46, 247.52,  31.28,   7.14,  22.36,   6.98,   7.05,
        14.5 ,  15.05,  26.28,   9.22,  79.2 ,   6.75,  11.5 ,  36.75,
        12.52,  66.6 ,   7.31,  61.38,   7.73,  69.55,  16.1 ,  15.75,
        20.52,  55.  ,  25.92,  33.5 ,  30.7 ,  25.47,  28.71,    nan,
        39.  ,  22.02,  50.  ,   8.4 ,   6.5 ,  10.46,  18.79,  31.  ,
      

Wartości brakujące uzupełniono wartością średnią dla kolumny.

In [46]:
titanicdata2["Fare"] = titanicdata2["Fare"].fillna(round(titanicdata2["Fare"].mean()))

## 15. Czyszczenie pozostałych kolumn
Kolumna `Ticket` nie została zmodyfikowana ze względu na różnorodny typ danych zawarty w jej wartościach, natomiast kolumna `Name` zostanie wykorzystana jako jedna z kolumn wyłącznie w celu usunięcia duplikatów.


## 16. Usunięcie ewntualnych duplikatów
Na zakończenie analizy postanowiono usunąć ewentualne duplikaty danych. W tym celu sprawdzono, ile ich jest na podstawie kolumn `Name` oraz `Ticket`:

In [49]:
duplicates = filter(None, titanicdata2.duplicated(subset=["Name", "Ticket"]))
duplicateCount = 0
for element in duplicates:
    duplicateCount = duplicateCount + 1
    
print('Duplikatów: ', duplicateCount)

Duplikatów:  3


Duplikaty można usunąć:

In [50]:
titanicdata2 = titanicdata2.drop_duplicates(subset=["Name", "Ticket"])
titanicdata2.shape[0]

889

## 17. Zapis wynikowego pliku

In [51]:
titanicdata2.to_csv('TitanicCleaned.tsv', sep = '\t')

## 18. Wnioski
Korzystając z różnych funkcji biblioteki `Pandas` oraz `Numpy` przygotowano dane do analizy poprzez ich wyczyszczenie, uzupełnienie brakujących wartości oraz usunięcie wszelkich błędnych lub nadmiarowych danych.