# Załadowanie Danych 

In [1]:
from IPython.display import display
import pandas as pd 

csv_input_path="TitanicMess.tsv"
csv_output_path="TitanicCleaned.tsv"
separator='\t'

df=pd.read_csv(csv_input_path, sep=separator)

sample_table=df.head(5).to_html()
display({'text/html': '<li>Przykładowe wiersze:' + sample_table}, raw=True)

df_size=len(df.index)
display({'text/html':'<li>Ilość wierszy:<br> <b>'+str(df_size)+'</b>'}, raw=True)


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,ship
0,1,0,3,"Braund, Mr. Owen Harris",male,22,1,0,A/5 21171,725,,S,Titanic
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Thayer)",female,38,1,0,PC 17599,712833,C85,C,Titanic
2,3,1,3,"Heikkinen, Miss. Laina",female,26,0,0,STON/O2. 3101282,7925,,S,Titanic
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35,1,0,113803,531,C123,S,Titanic
4,5,0,3,"Allen, Mr. William Henry",male,35,0,0,373450,805,,S,Titanic


# Przegląd ilościowy danych 

In [2]:
count_per_column=df.count()
count_per_column.name='Ilość wartości w kolumnie'
display(count_per_column.to_frame())

Unnamed: 0,Ilość wartości w kolumnie
PassengerId,892
Survived,892
Pclass,892
Name,892
Sex,892
Age,719
SibSp,892
Parch,892
Ticket,892
Fare,892


Po danych ilościowych widać, że około 80% wierszy nie ma uzupełnionej wartości w kolumnie Cabin. Wartość danych w tej kolumnie w perspektywie całego zbioru jest właściwie żadna dlatego zostaje usunięta ze zbioru.

# Usunięcie zbędnych kolumn w analizie

Usunięto kolumny: 
<br>
Cabin - zbyt dużo brakujących danych
<br>
Ship - wartość jest zawsze taka sama
<br>
Ticket - dane nie wnoszą żadnej wartości do analizy

In [3]:
#Jeśli nie chcesz usuwać żadnych kolumn pozostaw pustą tablicę, lub usuń tą część skryptu.
to_drop=['Cabin','Ticket','ship']
df=df.drop(columns=to_drop)
sample_table=df.head(5).to_html()
display({'text/html': '<li>Przykładowe wiersze po usunięciu kolumn:' + sample_table}, raw=True)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Fare,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22,1,0,725,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Thayer)",female,38,1,0,712833,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26,0,0,7925,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35,1,0,531,S
4,5,0,3,"Allen, Mr. William Henry",male,35,0,0,805,S


# Weryfikacja i usunięcie duplikatów

In [4]:
duplicates=df[df.duplicated()]
duplicates_size=len(duplicates.index)
display({'text/html':'<li>Ilość usuniętych duplikatów:<br> <b>'+str(duplicates_size)+'</b>'}, raw=True)

df=df.drop_duplicates()

df_size=len(df.index)
display({'text/html':'<li>Ilość wierszy po usunięciu duplikatów:<br> <b>'+str(df_size)+'</b>'}, raw=True)

# Obsłużenie brakujących/błędnych wartości wartości

W przypadku brakujących wartości wiersze zostaną usunięte.
Dla kolumny Age występują wartości ujemne i cząstkowe wieku, lub powyżej 150. Takie dane zostaną potrakotawane jako brakujące ponieważ nie da się jednoznacznie określić jaki miał być wynik.

In [5]:
#Weryfikacja czy kolumnie wiek wiersz posiada tylko cyfry.
df['Age']=df['Age'].apply(lambda x: str(x) if str(x).isdigit() and int(x) < 150 else None)
df=df.dropna()

sample_table=df.head(1000).to_html()
display({'text/html': '<li>Przykładowe wiersze po usunięciu wierszy z pustymi / błędnymi danymi:' + sample_table}, raw=True)

df_size=len(df.index)
display({'text/html':'<li>Ilość wierszy po usunięciu ze zbioru wierszy z pustymi / błędnymi danymi:<br> <b>'+str(df_size)+'</b>'}, raw=True)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Fare,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22,1,0,725,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Thayer)",female,38,1,0,712833,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26,0,0,7925,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35,1,0,531,S
4,5,0,3,"Allen, Mr. William Henry",male,35,0,0,805,S
6,7,0,1,"McCarthy, Mr. Timothy J",male,54,0,0,518625,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2,3,1,21075,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27,0,2,111333,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14,1,0,300708,C
10,11,1,3,"Sandstrom, Miss. Marguerite Ru&5$$",female,4,1,1,167,S


Weryfikacja wartości słownikowych dla kolumn:<br>
<li>Sex<br>
<li>Embarked<br>
Ujednolicenie błędnych wartości (literówek)

In [8]:

print('Otrzymane wartości SEX:')
print(df['Sex'].unique())

print('\n Otrzymane wartości EMBARKED:')
print(df['Embarked'].unique())

df['Sex']=df['Sex'].apply(lambda x: 'male' if x.startswith('m') else 'female' if  x.startswith('f') else None)
df['Embarked']=df['Embarked'].apply(lambda x: x[:1])

print('\n Poprawione wartości: SEX:')
print(df['Sex'].unique())

print('\n Poprawione wartości EMBARKED:')
print(df['Embarked'].unique())


Otrzymane wartości SEX:
['male' 'female']

 Otrzymane wartości EMBARKED:
['S' 'C' 'Q']

 Poprawione wartości: SEX:
['male' 'female']

 Poprawione wartości EMBARKED:
['S' 'C' 'Q']


# Zapis do pliku

In [9]:
df.to_csv(csv_output_path, sep=separator)