# Dane: czyszczenie i przygotowanie do analizy

Poniżej przedstawiono proces analizy surowych danych oraz ich czyszczenia. W poniższym opracowaniu skorzystano z języka Python 3.8.2 oraz biblioteki pandas.

## Import bibliotek i wczytanie pliku

Na początek zaimportowano biblioteki pandas, numpy oraz regular expressions. 

In [319]:
import pandas as pd
import numpy as np
import re

Kolejno wczytano plik źródłowy z danymi. Na wstępie wiadomo, że plik jest plikiem w którym separatorem kolumn jest tabulacja.

In [320]:
df = pd.read_csv('.\\TitanicMess.tsv', sep='\t')

## Wstępna analiza zbioru

Następnie przyjrzano się wielkości zbioru oraz pierwszym kilku początkowym oraz końcowym rekordom pliku, żeby zapoznać się z jego budową. 

In [321]:
df.shape

(892, 13)

Zbiór zawiera 13 kolumn oraz 892 wiersze.

In [322]:
df.head(10)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,ship
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,725,,S,Titanic
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,712833,C85,C,Titanic
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7925,,S,Titanic
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,531,C123,S,Titanic
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,805,,S,Titanic
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,84583,,Q,Titanic
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,518625,E46,S,Titanic
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21075,,S,Titanic
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,111333,,S,Titanic
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,300708,,C,Titanic


In [323]:
df.tail(10)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,ship
882,883,0,3,"Dahlberg, Miss. Gerda Ulrika",female,22.0,0,0,7552,105167,,S,Titanic
883,884,0,2,"Banfield, Mr. Frederick James",male,28.0,0,0,C.A./SOTON 34068,105,,S,Titanic
884,885,0,3,"Sutehall, Mr. Henry Jr",male,25.0,0,0,SOTON/OQ 392076,705,,S,Titanic
885,886,0,3,"Rice, Mrs. William (Margaret Norton)",female,39.0,0,5,382652,29125,,Q,Titanic
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13,,S,Titanic
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30,B42,S,Titanic
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,2345,,S,Titanic
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30,C148,C,Titanic
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,775,,Q,Titanic
891,1000,1,1,Mr. Frederick Maxfield Hoyt,male,38.0,1,0,19943,90,C93,S,Titanic


Następnie przyjrzano sie typom, do jakich zostały automatycznie zakwalifikowane poszczególne kolumny z danymi.

In [324]:
df.dtypes

PassengerId     int64
Survived        int64
Pclass          int64
Name           object
Sex            object
Age            object
SibSp           int64
Parch           int64
Ticket         object
Fare           object
Cabin          object
Embarked       object
ship           object
dtype: object

Kolejno wstępnie przyjrzano się zawartości kolumn o typie object.

In [325]:
df_describe_object = df.describe(include=['object'])
print(df_describe_object)

                                      Name   Sex  Age    Ticket  Fare Cabin  \
count                                  892   892  719       892   892   207   
unique                                 889     6   93       680   250   145   
top     Sandstrom, Miss. Marguerite Ru&5$$  male   24  CA. 2343  8,05    G6   
freq                                     3   576   30         7    43     6   

       Embarked     ship  
count       890      892  
unique        6        1  
top           S  Titanic  
freq        643      892  


Oraz kolumnom o typach numerycznych.

In [326]:
df_describe_number = df.describe(include=[np.number])
print(df_describe_number)

       PassengerId    Survived      Pclass       SibSp       Parch
count   892.000000  892.000000  892.000000  892.000000  892.000000
mean    445.762332    0.386771    2.307175    0.525785    0.371076
std     257.990085    0.487284    0.836750    1.102190    0.768468
min       1.000000    0.000000    1.000000    0.000000    0.000000
25%     223.750000    0.000000    2.000000    0.000000    0.000000
50%     444.500000    0.000000    3.000000    0.000000    0.000000
75%     668.250000    1.000000    3.000000    1.000000    0.000000
max    1000.000000    1.000000    3.000000    8.000000    5.000000


## Kolumny

Sekcja poświęcona analizie zawartości poszczególnych kolumn.

### Kolumna - PassengerId

Przyjrzano się kolumnie `PassengerId`, czy jest unikatowa i spełnia warunek stworzenia z niej indeksu.

In [327]:
df['PassengerId'].value_counts()

225    3
11     3
295    1
306    1
305    1
      ..
592    1
591    1
590    1
589    1
1      1
Name: PassengerId, Length: 888, dtype: int64

In [328]:
df.loc[df['PassengerId'].isin([225,11])]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,ship
10,11,1,3,"Sandstrom, Miss. Marguerite Ru&5$$",female,4,1,1,PP 9549,167,G6,S,Titanic
13,11,1,3,"Sandstrom, Miss. Marguerite Ru&5$$",female,4,1,1,PP 9549,167,G6,S,Titanic
23,11,1,3,"Sandstrom, Miss. Marguerite Ru&5$$",female,4,1,1,PP 9549,167,G6,S,Titanic
224,225,1,1,"Hoyt, Mr. Frederick Maxfield",male,38,1,0,19943,90,C93,S,Titanic
520,225,1,1,"Hoyt, Mr. Frederick Maxfield",male,38,1,0,19943,90,C93,S,Titanic
678,225,1,1,"Hoytt, Mr. Frederick Maxfield",male,38,1,0,19943,90,C93,S,Titanic


Usunięto duplikaty oraz zweryfikowano czy kolumna `PassengerId` zawiera unikatowe wielkości.

In [329]:
df.drop_duplicates(keep=False,inplace=True)

In [330]:
df.shape

(887, 13)

In [331]:
df['PassengerId'].is_unique

True

Po weryfikacji zdecydowano sie na ustawienie kolumny `PassengerId` jako kolumny ID dla całego zbioru.

In [332]:
df.set_index('PassengerId', inplace=True)

### Kolumna - ship

Usunięto kolumnę `ship`, która zawierała jednolity wpis na całej swojej zawartości - nie wnosząc żadnych nowych danych do zbioru.

In [333]:
df.drop(['ship'], inplace=True, axis=1)

I zweryfikowano usunięcie.

In [334]:
df.dtypes

Survived     int64
Pclass       int64
Name        object
Sex         object
Age         object
SibSp        int64
Parch        int64
Ticket      object
Fare        object
Cabin       object
Embarked    object
dtype: object

### Kolumny - dane jakościowe
Dla kolumn z automatycznie przydzielonym typem number `Survived`, `Pclass`, a które powinny być zakwafilikowane jako dane jakościowe przekonwertowano typ na `category`. Podobnie postąpiono z kolumną `Sex` oraz `Embarked`.

In [335]:
df.astype({'Survived': 'category', 'Pclass': 'category', 'Sex': 'category', 'Embarked': 'category'}).dtypes

Survived    category
Pclass      category
Name          object
Sex         category
Age           object
SibSp          int64
Parch          int64
Ticket        object
Fare          object
Cabin         object
Embarked    category
dtype: object

Przed dalszymi pracami zweryfikowano ilość brakujących danych w każdej z kolumn.

In [336]:
df.isnull().sum()

Survived      0
Pclass        0
Name          0
Sex           0
Age         173
SibSp         0
Parch         0
Ticket        0
Fare          0
Cabin       685
Embarked      2
dtype: int64

### Kolumna - Survived

Następnie przystąpiono do analizy zawartości poszczególnych kolum i oczyszczania danych w nich zawartych. 

Pracę rozpcoczęto od kolumn, z typem określonym na `category` - weryfikując zawarte dane i dokonując ewentualnych ujednoliceń.

In [337]:
df['Survived'].unique()

array([0, 1], dtype=int64)

Dla kolumny `Survived` nie trzeba było przeprowadzać żadnych dodatkowych operacji.

### Kolumna - Pclass

In [338]:
df['Pclass'].unique()

array([3, 1, 2], dtype=int64)

Zawartość kolumny `Pclass` również nie wymagała dodatkowych zmian.

### Kolumna - Sex

In [339]:
df['Sex'].unique()

array(['male', 'female', 'malef', 'mal', 'fem', 'femmale'], dtype=object)

Dla kolumny `Sex` widzimy kilka różnych unikatowych wartości, mimo spodziewanych 2. Aby usystematyzować dane przystąpiono do podmiany wartości na należące do jednej z dwóch możliwych wartości `['male', 'female']`. Przygotowano słownik zawierający docelową wartość oraz wartości z których należy dokonać poprawki. Po wykonaniu kodu zweryfikowano czy dane w kolumnie są unikatowe.

In [340]:
replace = {
    'male' : ['malef', 'mal'],
    'female': ['femmale', 'fem']
}
for col in replace:
    for col_repl in replace[col]:
        df.replace({'Sex': col_repl}, col, inplace=True)        
        
df['Sex'].unique()

array(['male', 'female'], dtype=object)

### Kolumna - Embarked

Kolejno przystąpiono do weryfikacji kolumny `Embarked`.

In [341]:
df['Embarked'].unique()

array(['S', 'C', 'Q', 'So', nan, 'Co', 'Qe'], dtype=object)

W tym przypadku zauważono kilka wartości, spodziewając się trzech - skrótów nazw portów z których Titanic wypłynął.

In [342]:
replace = {
    'S' : ['So'],
    'C' : ['Co'],
    'Q' : ['Qe'],
    np.nan: ['nan'],
}

for col in replace:
    for col_repl in replace[col]:
        df.replace({'Embarked': col_repl}, col, inplace=True)        

df['Embarked'].unique()

array(['S', 'C', 'Q', nan], dtype=object)

### Kolumna - Name

Następnie rozpoczęto prace nad kolumnami typu object, zacznając od kolumny `Name`.

In [343]:
df['Name'].value_counts()

Peuchen, Major. Arthur Godfrey                         1
Brewe, Dr. Arthur Jackson                              1
Daniel, Mr. Robert Williams                            1
Willey, Mr. Edward                                     1
Nye, Mrs. (Elizabeth Ramell)                           1
                                                      ..
Nirva, Mr. Iisakki Antino Aijo                         1
Swift, Mrs. Frederick Joel (Margaret Welles Barron)    1
Moor, Master. Meier                                    1
Nakid, Miss. Maria ("Mary")                            1
Cribb, Mr. John Hatfield                               1
Name: Name, Length: 887, dtype: int64

Kolumna po weryfikacji wygląda na wolną od zduplikowanych wartości.

### Kolumna - Age

Kolejną kolumną na którą zwrócono uwagę była kolumn `Age` - została zakwalifikowana do typu `Object` - mimo że z wcześniejszego przeglądu danych sugerowanym typem powinien być typ liczbowy.

In [344]:
df['Age'].describe()

count     714
unique     93
top        24
freq       30
Name: Age, dtype: object

Z podsumowania widać występowanie 93 unikatowych wartości w obrębie tej kolumny.

In [345]:
df['Age'].unique()

array(['22', '38', '26', '35', nan, '54', '2', '27', '14', '58', '20',
       '55', '31', '34', '15', '8', '19', '40', '.9', '66', '28', '42',
       '21', '18', '3', '7', '49', '29', '65', '28,5', '5', '11', '45',
       '4', '17', '32', '16', '25', '0,83', '30', '33', '23', '24', '46',
       '59', '71', '37', '47', '14,5', '70,5', '32,5', '12', '9', '36,5',
       '51', '55,5', '40,5', '44', '1', '61', '56', '50', '36', '45,5',
       '4435', '20,5', '62', '41', '52', '63', '23,5', '0,92', '43', '60',
       '39', '10', '64', '13', '48', '0,75', '-3', '-12', '53', '57',
       '80', '250', '70', '24,5', '6', '0,67', '30,5', '0,42', '34,5',
       '74'], dtype=object)

W tym występowanie kilku wartości, które w stosunku do kolumny zawierajacej wiek są nie odpowiednie np. -3, -12, 4435.

W ramach prac nad tą kolumną należy:
- przekonwertować wartości, w których występuje `,` lub `.` jako separator dziesiętny do jednolitej postaci,
- określić działanie co do wierszy z ujemnym wiekiem - określając czy należy te usunąć, czy też uznać za błąd i zastąpić wartością NaN lub wartością bezwzględną lub też zweryfikować w innych źródłach o ile te będą dostępne
- określić działanie co do wierszy z wiekiem przekraczającym znacznie udokumentowaną długość życia człowieka

Na początek przystąpiono do przekonwertowania danych zawierających wiek z `,` do `.`, a następnie do liczb tworząc nową kolumnę `Age_Fixed`.

In [346]:
df['Age_Fixed'] = [x.replace(',', '.') for x in df['Age'].astype(str)]
sorted(df['Age_Fixed'].unique())

['-12',
 '-3',
 '.9',
 '0.42',
 '0.67',
 '0.75',
 '0.83',
 '0.92',
 '1',
 '10',
 '11',
 '12',
 '13',
 '14',
 '14.5',
 '15',
 '16',
 '17',
 '18',
 '19',
 '2',
 '20',
 '20.5',
 '21',
 '22',
 '23',
 '23.5',
 '24',
 '24.5',
 '25',
 '250',
 '26',
 '27',
 '28',
 '28.5',
 '29',
 '3',
 '30',
 '30.5',
 '31',
 '32',
 '32.5',
 '33',
 '34',
 '34.5',
 '35',
 '36',
 '36.5',
 '37',
 '38',
 '39',
 '4',
 '40',
 '40.5',
 '41',
 '42',
 '43',
 '44',
 '4435',
 '45',
 '45.5',
 '46',
 '47',
 '48',
 '49',
 '5',
 '50',
 '51',
 '52',
 '53',
 '54',
 '55',
 '55.5',
 '56',
 '57',
 '58',
 '59',
 '6',
 '60',
 '61',
 '62',
 '63',
 '64',
 '65',
 '66',
 '7',
 '70',
 '70.5',
 '71',
 '74',
 '8',
 '80',
 '9',
 'nan']

In [347]:
df['Age_Fixed'] = pd.to_numeric(df['Age_Fixed'], errors='coerce')

In [348]:
df['Age_Fixed'].describe()

count     714.000000
mean       36.057521
std       165.713028
min       -12.000000
25%        20.000000
50%        28.000000
75%        38.000000
max      4435.000000
Name: Age_Fixed, dtype: float64

Następnie podejrzano wiersze w których występował wiek ujemny.

In [349]:
df.loc[df['Age_Fixed'] < 0]

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_Fixed
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
508,1,1,"Bradley, Mr. George (""George Arthur Brayton"")",male,-3,0,0,111427,2655,,S,-3.0
523,0,3,"Lahoud, Mr. Sarkis",male,-12,0,0,2624,7225,,C,-12.0


Po jednostkowej weryfikacji obu nazwisk w [dostępnych](https://www.encyclopedia-titanica.org/titanic-victim/sarkis-lahoud-ishaq-mowad.html) [źródłach](https://www.encyclopedia-titanica.org/titanic-survivor/george-brereton.html) zdecydowano się na przypisanie właściwego wieku dla obu przypadków. 

In [350]:
df.loc[508, 'Age_Fixed'] = 37.0
df.loc[523, 'Age_Fixed'] = 35.0
df.loc[[508,523]]

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_Fixed
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
508,1,1,"Bradley, Mr. George (""George Arthur Brayton"")",male,-3,0,0,111427,2655,,S,37.0
523,0,3,"Lahoud, Mr. Sarkis",male,-12,0,0,2624,7225,,C,35.0


W następnym kroku sprawdzono przypadki z wiekiem przekraczającym 100 lat.

In [351]:
df.loc[df['Age_Fixed'] > 100]

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_Fixed
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
224,0,3,"Nenkoff, Mr. Christo",male,4435,0,0,349234,78958,,S,4435.0
667,0,2,"Butler, Mr. Reginald Fenton",male,250,0,0,234686,13,,S,250.0


Zweryfikowano dane wymienionych pasażerów w [dostępnych](https://www.encyclopedia-titanica.org/titanic-victim/christo-nenkoff.html) [źródłach](https://www.encyclopedia-titanica.org/titanic-victim/reginald-fenton-butler.html) i poprawiono dane.

In [352]:
df.loc[224, 'Age_Fixed'] = 22.0
df.loc[667, 'Age_Fixed'] = 25.0
df.loc[[224,667]]

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_Fixed
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
224,0,3,"Nenkoff, Mr. Christo",male,4435,0,0,349234,78958,,S,22.0
667,0,2,"Butler, Mr. Reginald Fenton",male,250,0,0,234686,13,,S,25.0


Usunięto oryginalną kolumnę i zastąpiono ją kolumną z poprawionymi wartościami.

In [353]:
df.drop(['Age'], inplace=True, axis=1)
df.rename(columns={"Age_Fixed": "Age"}, inplace=True)
df.columns

Index(['Survived', 'Pclass', 'Name', 'Sex', 'SibSp', 'Parch', 'Ticket', 'Fare',
       'Cabin', 'Embarked', 'Age'],
      dtype='object')

### Kolumna - Ticket

W następnym etapie przyjrzano sie kolumnie `Ticket`.

In [354]:
df['Ticket'].value_counts().head(20)

CA. 2343        7
1601            7
3101295         6
347082          6
347088          6
382652          5
CA 2144         5
S.O.C. 14879    5
PC 17757        4
113781          4
113760          4
349909          4
LINE            4
W./C. 6608      4
347077          4
2666            4
17421           4
19950           4
4133            4
C.A. 31921      3
Name: Ticket, dtype: int64

W obrębie kolumny Ticket występuje wiele różnych wartości, niektóre powtarzające się - na jednym 'numerze' biletu mogło podróżować kilka osób. Zdecydowano o pozostawieniu kolumny bez dodatkowych zmian, ze względu na brak danych pozwalających na dokonanie skutecznego ujednolicenia numeracji.

### Kolumna - Fare

Kolejno przyjrzano sie kolumnie `Fare`, która zawierać powinna wartość opłaty za bilet wyrażoną w funtach. 

W kontekście historycznym warto zwrócić uwagę na ówczesną budowę waluty, która nie była dziesiętna. Jeden funt dzielił się na 20 szylingów, który to każdy dzielił się na 12 pensów. Stąd wartości biletów nie są zaokrąglane do setnych części.

In [355]:
sorted(df['Fare'].unique())

['-90',
 '0',
 '10,1708',
 '10,4625',
 '10,5',
 '10,5167',
 '106,425',
 '108,9',
 '11,1333',
 '11,2417',
 '11,5',
 '110,8833',
 '113,275',
 '12',
 '12,275',
 '12,2875',
 '12,35',
 '12,475',
 '12,525',
 '12,65',
 '12,875',
 '120',
 '13',
 '13,4167',
 '13,5',
 '13,7917',
 '13,8583',
 '13,8625',
 '133,65',
 '134,5',
 '135,6333',
 '14',
 '14,1083',
 '14,4',
 '14,4542',
 '14,4583',
 '14,5',
 '146,5208',
 '15',
 '15,0458',
 '15,05',
 '15,1',
 '15,2458',
 '15,5',
 '15,55',
 '15,7417',
 '15,75',
 '15,85',
 '15,9',
 '15,9a',
 '151,55',
 '153,4625',
 '16',
 '16,1',
 '16,7',
 '164,8667',
 '17,4',
 '17,8',
 '18',
 '18,75',
 '18,7875',
 '19,2583',
 '19,5',
 '19,9667',
 '20,2125',
 '20,25',
 '20,525',
 '20,575',
 '21',
 '21,075',
 '21,6792',
 '211,3375',
 '211,5',
 '22,025',
 '22,3583',
 '22,525',
 '221,7792',
 '227,525',
 '23',
 '23,25',
 '23,45',
 '24',
 '24,15',
 '247,5208',
 '25,4667',
 '25,5875',
 '25,925',
 '25,9292',
 '26',
 '26,25',
 '26,2833',
 '26,2875',
 '26,3875',
 '26,55',
 '262,375',
 

Kolumna powinna zostać automatycznie zakwalifikowana do typu liczbowego, jednakże zastosowano zły znak `,` zamiast `.` jako separator dziesiętny. Wśród wartości zauważyć można też takie, w których występują litery. Na początek przekonwertowano wszystkie `,` na `.`. Oraz następnie do dalszej analizy wyciągnięto wartości nie będące liczbami.

In [356]:
df['Fare'] = [x.replace(',', '.') for x in df['Fare'].astype(str)]
sorted([s for s in df['Fare'].unique() if not(re.match(r'^-?\d+(?:\.\d+)?$', s))])

['15.9a']

Wartość przypuszczalnie jest literówką, stąd zdecydowano o poprawieniu jej na `15.9`, które pojawia sie już w wartościach.

In [357]:
df[df['Fare'] =='15.9a']

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
490,1,3,"Coutts, Master. Eden Leslie ""Neville""",male,1,1,C.A. 37671,15.9a,,S,9.0


In [358]:
df.loc[490, 'Fare'] = 15.9

In [359]:
df.loc[490]

Survived                                        1
Pclass                                          3
Name        Coutts, Master. Eden Leslie "Neville"
Sex                                          male
SibSp                                           1
Parch                                           1
Ticket                                 C.A. 37671
Fare                                         15.9
Cabin                                         NaN
Embarked                                        S
Age                                             9
Name: 490, dtype: object

W kolejnym etapie przekonwertowano całą kolumnę na typ numeryczny.

In [360]:
df['Fare'] = pd.to_numeric(df['Fare'])

Oraz zweryfikowano czy konwersja przebiegła pomyślnie.

In [361]:
df['Fare'].describe()

count    887.000000
mean      31.995574
std       49.926230
min      -90.000000
25%        7.895800
50%       14.454200
75%       30.695800
max      512.329200
Name: Fare, dtype: float64

W kolejnym etapie sprawdzono linię zawierajacą ujemną cenę biletu.

In [362]:
df[df['Fare'] == -90.0]

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
246,0,1,"Minahan, Dr. William Edward",male,2,0,19928,-90.0,C78,Q,44.0


Po zweryfikowaniu pasażera w innym źródle poprawiono wartość do właściwej tj. 90.0.

In [363]:
df.loc[246, 'Fare'] = 90.0
df.loc[246]

Survived                              0
Pclass                                1
Name        Minahan, Dr. William Edward
Sex                                male
SibSp                                 2
Parch                                 0
Ticket                            19928
Fare                                 90
Cabin                               C78
Embarked                              Q
Age                                  44
Name: 246, dtype: object

### Kolumna - Cabin

Kolejna kolumną do przygotowania `cabin`.

In [364]:
sorted(df['Cabin'].unique().astype(str))

['A10',
 'A14',
 'A16',
 'A19',
 'A20',
 'A23',
 'A24',
 'A26',
 'A31',
 'A32',
 'A34',
 'A36',
 'A5',
 'A7',
 'B101',
 'B102',
 'B18',
 'B19',
 'B20',
 'B22',
 'B28',
 'B3',
 'B30',
 'B35',
 'B37',
 'B38',
 'B39',
 'B4',
 'B41',
 'B42',
 'B49',
 'B5',
 'B50',
 'B51 B53 B55',
 'B57 B59 B63 B66',
 'B58 B60',
 'B69',
 'B71',
 'B77',
 'B78',
 'B79',
 'B80',
 'B82 B84',
 'B86',
 'B94',
 'B96 B98',
 'C101',
 'C103',
 'C104',
 'C106',
 'C110',
 'C111',
 'C118',
 'C123',
 'C124',
 'C125',
 'C126',
 'C128',
 'C148',
 'C2',
 'C22 C26',
 'C23 C25 C27',
 'C30',
 'C32',
 'C45',
 'C46',
 'C47',
 'C49',
 'C50',
 'C52',
 'C54',
 'C62 C64',
 'C65',
 'C68',
 'C7',
 'C70',
 'C78',
 'C82',
 'C83',
 'C85',
 'C86',
 'C87',
 'C90',
 'C91',
 'C92',
 'C93',
 'C95',
 'C99',
 'D',
 'D10 D12',
 'D11',
 'D15',
 'D17',
 'D19',
 'D20',
 'D21',
 'D26',
 'D28',
 'D30',
 'D33',
 'D35',
 'D36',
 'D37',
 'D45',
 'D46',
 'D47',
 'D48',
 'D49',
 'D50',
 'D56',
 'D6',
 'D7',
 'D9',
 'E10',
 'E101',
 'E12',
 'E121',
 'E17',

Zawartość kolumny pozostanie bez zmian, w kontekście dalszej analizy i ilości stwierdzonych braków w tej kolumnie (patrz początek analizy) można zastanowić się nad pominięciem kolumny jako, że zawartość może zaburzyć wyniki.

### Kolumna - SibSp

Kolumna zawiera wartości liczbowe wskazujące na ilość rodzeństwa/małżonków na pokładzie. Spodziewane są wartości liczbowe całkowite.

In [365]:
sorted(df['SibSp'].unique())

[0, 1, 2, 3, 4, 5, 8]

Wartości zgadzają się z przewidywaniami. Dalsza obróbka nie jest wymagana, w trakcie analizy można zweryfikować np. po korelacji z numerami biletów, nazwiskami czy liczba osób spokrewnionych oddaje stan faktyczny w zbiorze danych.

### Kolumna - Parch

Kolumna zawiera wartości liczbowe wskazujące na ilość rodziców/dzieci na pokładzie w relacji do danej osoby. Spodziewane dane powinny być liczbami całkowitymi.

In [366]:
sorted(df['Parch'].unique())

[0, 1, 2, 3, 4, 5]

Wartości zgadzają się z przewidywaniami. Dalsza obróbka nie jest wymagana, w trakcie analizy można zweryfikować np. po korelacji z numerami biletów, nazwiskami czy liczba osób spokrewnionych oddaje stan faktyczny w zbiorze danych.

## Podsumowanie

Po zakończonych pracach przejrzano raz jeszcze poszczególne kolumny danych.

In [367]:
df.dtypes

Survived      int64
Pclass        int64
Name         object
Sex          object
SibSp         int64
Parch         int64
Ticket       object
Fare        float64
Cabin        object
Embarked     object
Age         float64
dtype: object

Typy kolumn oraz ich zawartość zgadzają się z założeniami (kolumny `Survived` oraz `Pclass` zostały ponownie automatycznie przekwalifikowane do innych typów).

Zawartość przedstawia się następująco.

In [368]:
df_describe_object = df.describe(exclude=[np.number])
print(df_describe_object)

                                  Name   Sex    Ticket        Cabin Embarked
count                              887   887       887          202      885
unique                             887     2       680          145        3
top     Peuchen, Major. Arthur Godfrey  male  CA. 2343  C23 C25 C27        S
freq                                 1   576         7            4      640


In [369]:
df.describe()

Unnamed: 0,Survived,Pclass,SibSp,Parch,Fare,Age
count,887.0,887.0,887.0,887.0,887.0,714.0
mean,0.383315,2.307779,0.523112,0.369786,32.198505,29.683571
std,0.486468,0.835834,1.104718,0.769561,49.795449,14.531901
min,0.0,1.0,0.0,0.0,0.0,0.42
25%,0.0,2.0,0.0,0.0,7.8958,20.125
50%,0.0,3.0,0.0,0.0,14.4542,28.0
75%,1.0,3.0,1.0,0.0,30.8479,38.0
max,1.0,3.0,8.0,5.0,512.3292,80.0


Przykładowe kilka losowych rekordów:

In [370]:
df.sample(20)

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
70,0,3,"Kink, Mr. Vincenz",male,2,0,315151,8.6625,,S,26.0
407,0,3,"Widegren, Mr. Carl/Charles Peter",male,0,0,347064,7.75,,S,51.0
866,1,2,"Bystrom, Mrs. (Karolina)",female,0,0,236852,13.0,,S,42.0
685,0,2,"Brown, Mr. Thomas William Solomon",male,1,1,29750,39.0,,S,60.0
594,0,3,"Bourke, Miss. Mary",female,0,2,364848,7.75,,Q,
134,1,2,"Weisz, Mrs. Leopold (Mathilde Francoise Pede)",female,1,0,228414,26.0,,S,29.0
600,1,1,"Duff Gordon, Sir. Cosmo Edmund (""Mr Morgan"")",male,1,0,PC 17485,56.9292,A20,C,49.0
140,0,1,"Giglio, Mr. Victor",male,0,0,PC 17593,79.2,B86,C,24.0
734,0,2,"Berriman, Mr. William John",male,0,0,28425,13.0,,S,23.0
589,0,3,"Gilinski, Mr. Eliezer",male,0,0,14973,8.05,,S,22.0


## Eksport pliku

Plik zapisano do formatu .csv.

In [372]:
df.to_csv("./output.csv")