# **Systemy inteligentne w biznesie 2020/21**
## **Czyszczenie danych i przygotowanie do analizy**
### _Wojciech Brunné_

#### Celem niniejszego opracowania było przygotowanie danych zawartych w pliku "TitanicMess.tsv" do dalszej analizy.

 ## 1. Import danych

In [37]:
from IPython.display import display
import pandas as pd

input_path="TitanicMess.tsv"
output_path="TitanicCleaned.tsv"
separator='\t'

data_file=pd.read_csv(input_path, sep=separator)

## 2. Analiza danych

* ## Wstępny przegląd danych

In [38]:
demonstration_table=data_file.head(10).to_html()
display({'text/html':'Pierwsze 10 wierszy tabeli danych:'+ demonstration_table}, raw=True)
data_file_size=len(data_file.index)
display({'text/html':'Ilość wierszy w tabeli danych: <b>' + str(data_file_size)+'</b>'}, raw=True)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,ship
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,725,,S,Titanic
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Thayer)",female,38.0,1,0,PC 17599,712833,C85,C,Titanic
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7925,,S,Titanic
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,531,C123,S,Titanic
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,805,,S,Titanic
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,84583,,Q,Titanic
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,518625,E46,S,Titanic
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21075,,S,Titanic
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,111333,,S,Titanic
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,300708,,C,Titanic


* ## Sprawdzenie zbioru danych pod względem zduplikowanych danych

In [39]:
duplicates=data_file[data_file.duplicated()]
duplicates_count=len(duplicates.index)
print('Zbiór danych zawiera ' + str(duplicates_count)+' zduplikowane wiersze.')

Zbiór danych zawiera 3 zduplikowane wiersze.


Zduplikowane wiersze zostaną usunięte.

* ## Analiza ilościowa danych w poszczególnych kolumnach

In [40]:
amount_of_data_per_column=data_file.count()
amount_of_data_per_column.name='Ilość danych na kolumnę'
display(amount_of_data_per_column.to_frame())

Unnamed: 0,Ilość danych na kolumnę
PassengerId,892
Survived,892
Pclass,892
Name,892
Sex,892
Age,719
SibSp,892
Parch,892
Ticket,892
Fare,892


Analizując otrzymaną tabelę zawierającą ilość danych w poszczególnych kolumnach można zauważyć, że:
1. W kolumnie "Cabin" brakuje ponad 75% danych, co za tym idzie nie da się ich uzupełnić w rozsądny sposób zatem rekomendowanie jest usuniecie całej kolumny.
2. W kolumnie "AGE" brak jest około 20% danych, uzupełnienie ich jest dość problematyczne zatem rekomendowane jest usunięcie wierszy z brakującymi danymi.
3. W kolumnie "Embarked" brak jest danych tylko dla dwóch rekordów, również w tym przypadku podjęto decyzję o usunięciu tych wierszy

* ## Analiza jakościowa w wybranych kolumnach. 

### _Przegląd wartośći słownikowych_

### Analiza kolumny "Sex"

In [41]:
print('Wartości unikatowe dla kolumny "Sex":')
print(data_file['Sex'].unique())

Wartości unikatowe dla kolumny "Sex":
['male' 'female' 'malef' 'mal' 'fem' 'femmale']


Otrzymane wartości unikatowe, pokazują wpisane błędne wartości słownikowe dla tej kolumny.
Błędne wartośći zostaną poprawione wg. klucza:
* dane rozpoczynające się od litery "m" zostaną nadpisane poprawną wartością "male"
* dane rozpoczynające się od litery "f" zostaną nadpisane poprawną wartością "female"

### Analiza kolumny "Embarked"

In [42]:
print('Wartości unikatowe dla kolumny "Embarked":')
print(data_file['Embarked'].unique())

Wartości unikatowe dla kolumny "Embarked":
['S' 'C' 'Q' 'So' nan 'Co' 'Qe']


Otrzymane wartości unikatowe, pokazują wpisane błędne wartości słownikowe dla tej kolumny.
Błędne wartośći zostaną poprawione wg. klucza:
* brakujące dane zostaną usunięte jak ustalono w analizie ilościowej
* dane rozpoczynające się od litery "S" zostaną nadpisane poprawną wartością "S"
* dane rozpoczynające się od litery "C" zostaną nadpisane poprawną wartością "C"
* dane rozpoczynające się od litery "Q" zostaną nadpisane poprawną wartością "Q"

### _Przegląd wartości liczbowych_

### Analiza kolumny "Age"

In [43]:
print('Wartości unikatowe dla kolumny"Age":')
print(data_file['Age'].unique())

Wartości unikatowe dla kolumny"Age":
['22' '38' '26' '35' nan '54' '2' '27' '14' '4' '58' '20' '55' '31' '34'
 '15' '8' '19' '40' '.9' '66' '28' '42' '21' '18' '3' '7' '49' '29' '65'
 '28,5' '5' '11' '45' '17' '32' '16' '25' '0,83' '30' '33' '23' '24' '46'
 '59' '71' '37' '47' '14,5' '70,5' '32,5' '12' '9' '36,5' '51' '55,5'
 '40,5' '44' '1' '61' '56' '50' '36' '45,5' '4435' '20,5' '62' '41' '52'
 '63' '23,5' '0,92' '43' '60' '39' '10' '64' '13' '48' '0,75' '-3' '-12'
 '53' '57' '80' '250' '70' '24,5' '6' '0,67' '30,5' '0,42' '34,5' '74']


Otrzymane warości unikatowe wskazują że wpisane są zarówno wartości ujemne, większe niż 150 (najstarszy człowiek na świecie Mbah Ghoto miał 146 lat), wartości nie będące liczbami całkowitymi. Wiersze zawierające te dane zostaną usunięte z uwagi na fakt że poprawa tych danych nie jest możliwa. 

## 3. Czyszczenie danych

### 3.1 Usunięcie duplikatów

In [44]:
data_file=data_file.drop_duplicates()
data_file_size=len(data_file.index)
display({'text/html':'Ilość wierszy w tabeli danych po usunieciu duplikatów: <b>' + str(data_file_size)+'</b>'}, raw=True)

### 3.2 Usunięcie kolum "Cabin" i "Ship"

In [46]:
columns_to_drop=['Cabin','ship']
data_file=data_file.drop(columns=columns_to_drop)
demonstration_table=data_file.head(10).to_html()
display({'text/html':'Pierwsze 10 wierszy tabeli danych po usunieciu kolumn:'+ demonstration_table}, raw=True)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,725,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Thayer)",female,38.0,1,0,PC 17599,712833,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7925,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,531,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,805,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,84583,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,518625,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21075,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,111333,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,300708,C


Kolumna "ship" została również usunieta z uwagi, że jest tylko jedna wartość we wszystkich wiersza, wobec czego ta kolumna nie wnosi nic do dalszej analizy.  

### 3.3 Usunięcie brakujących i błędnych danych dla kolumny "Age" 

In [48]:
data_file['Age']=data_file['Age'].apply(lambda a: str(a) if str(a).isdigit() and int(a) < 150 else None)
data_file=data_file.dropna()
print('Wartości unikatowe dla kolumny"Age" po korektach:')
print(data_file['Age'].unique())
data_file_size=len(data_file.index)
display({'text/html':'Ilość wierszy w tabeli danych po usunieciu błędnych i brakujących wartośći w kolumnie "Age": <b>' + str(data_file_size)+'</b>'}, raw=True)

Wartości unikatowe dla kolumny"Age" po korektach:
['22' '38' '26' '35' '54' '2' '27' '14' '4' '58' '20' '55' '31' '34' '15'
 '8' '19' '40' '66' '28' '42' '21' '18' '3' '7' '49' '29' '65' '5' '11'
 '45' '17' '32' '16' '25' '30' '33' '23' '24' '46' '59' '71' '37' '47'
 '12' '9' '51' '44' '1' '61' '56' '50' '36' '62' '41' '52' '63' '43' '60'
 '39' '10' '64' '13' '48' '53' '57' '80' '70' '6' '74']


Uzyskano wartości dozwolone

### 3.4 Poprawa błędnych warości w kolumnie "Sex".

In [49]:
data_file['Sex']=data_file['Sex'].apply(lambda s: 'male' if s.startswith('m') else 'female' if  s.startswith('f') else None)
print('Wartości unikatowe dla kolumny "Sex":')
print(data_file['Sex'].unique())

Wartości unikatowe dla kolumny "Sex":
['male' 'female']


Uzyskano wartości dozwolone

### 3.5 Poprawa błędnych warości w kolumnie "Embarked"

In [51]:
data_file['Embarked']=data_file['Embarked'].apply(lambda e: 'S' if e.startswith('S') else 'C' if  e.startswith('C') else 'Q' if  e.startswith('Q') else None)
print('Wartości unikatowe dla kolumny "Embarked":')
print(data_file['Embarked'].unique())

Wartości unikatowe dla kolumny "Embarked":
['S' 'C' 'Q']


Uzyskano wartości dozwolone

## 4. Podsumowanie

### Zapisanie przygotowanej tabeli do pliku

In [53]:
data_file.to_csv(output_path, sep=separator)

In [52]:
demonstration_table=data_file.head(10).to_html()
display({'text/html':'Pierwsze 10 wierszy przygotowanej tabeli danych:'+ demonstration_table}, raw=True)
data_file_size=len(data_file.index)
display({'text/html':'Ilość wierszy w przygotowanej tabeli danych: <b>' + str(data_file_size)+'</b>'}, raw=True)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22,1,0,A/5 21171,725,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Thayer)",female,38,1,0,PC 17599,712833,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26,0,0,STON/O2. 3101282,7925,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35,1,0,113803,531,S
4,5,0,3,"Allen, Mr. William Henry",male,35,0,0,373450,805,S
6,7,0,1,"McCarthy, Mr. Timothy J",male,54,0,0,17463,518625,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2,3,1,349909,21075,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27,0,2,347742,111333,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14,1,0,237736,300708,C
10,11,1,3,"Sandstrom, Miss. Marguerite Ru&5$$",female,4,1,1,PP 9549,167,S


Podczas realizacji zadania wykorzystano podstawowe techniki związane z czyszczeniem danych:
* usunięcie duplikatów
* usunięcie brakujących i błędnych wartośći (usuwanie kolumn i wierszy)
* poprawa danych słownikowych (literówki)

Z uwagi na fakt że w zasadzie każdy nowy problem do rozwiązania (nowy zbiór danych), wymaga nowego spojrzenia i będą w nim inne problemy do rozwiązania nie jest możliwe stworzenie narzędzia bedacego rozwiązaniem wszystkich problemów.
Skrypt został podzielony na wiele części, tak aby można było w miarę wykorzystać jego poszczególne częci do analizy innych zbiorów.