# Analiza ankiety stackoverflow 2020
## Kamil Misiak

W tym sprawozdaniu przeprowadzę analizę zbioru danych zawierające dane z ankiety przeprowadzonej przez portal stackoverflow. Zbiór danych zostanie załadowany, oczyszczony i przeanalizowany.

## Agenda
1. Załadowanie zbioru danych i wstępne statystyki
2. Przygotowanie danych
3. Analiza i wizualizacja danych

## Krok 1: Załadowanie zbioru danych i wstępne statystyki

In [None]:
# Przygotowanie danych
import pandas as pd
import numpy as np

# Wizualizacja
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline

# Klasyfikacja
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_val_score

# Scieżki do plików (dane, schemat)
data_file_name = './data/survey_results_public.csv'
schema_file_name = './data/survey_results_schema.csv'

# Załadowanie zbioru
data_raw = pd.read_csv(data_file_name, sep=',', header=0)

#### Następnie przyjrzmy się atrybutom które występują w zbiorze danych

In [2]:
data_raw.columns

Index(['Respondent', 'MainBranch', 'Hobbyist', 'Age', 'Age1stCode', 'CompFreq',
       'CompTotal', 'ConvertedComp', 'Country', 'CurrencyDesc',
       'CurrencySymbol', 'DatabaseDesireNextYear', 'DatabaseWorkedWith',
       'DevType', 'EdLevel', 'Employment', 'Ethnicity', 'Gender', 'JobFactors',
       'JobSat', 'JobSeek', 'LanguageDesireNextYear', 'LanguageWorkedWith',
       'MiscTechDesireNextYear', 'MiscTechWorkedWith',
       'NEWCollabToolsDesireNextYear', 'NEWCollabToolsWorkedWith', 'NEWDevOps',
       'NEWDevOpsImpt', 'NEWEdImpt', 'NEWJobHunt', 'NEWJobHuntResearch',
       'NEWLearn', 'NEWOffTopic', 'NEWOnboardGood', 'NEWOtherComms',
       'NEWOvertime', 'NEWPurchaseResearch', 'NEWPurpleLink', 'NEWSOSites',
       'NEWStuck', 'OpSys', 'OrgSize', 'PlatformDesireNextYear',
       'PlatformWorkedWith', 'PurchaseWhat', 'Sexuality', 'SOAccount',
       'SOComm', 'SOPartFreq', 'SOVisitFreq', 'SurveyEase', 'SurveyLength',
       'Trans', 'UndergradMajor', 'WebframeDesireNextYear',
  

#### Następnie wyświetlimy 5 pierwszych rekordów

In [3]:
data_raw.head()

Unnamed: 0,Respondent,MainBranch,Hobbyist,Age,Age1stCode,CompFreq,CompTotal,ConvertedComp,Country,CurrencyDesc,...,SurveyEase,SurveyLength,Trans,UndergradMajor,WebframeDesireNextYear,WebframeWorkedWith,WelcomeChange,WorkWeekHrs,YearsCode,YearsCodePro
0,1,I am a developer by profession,Yes,,13,Monthly,,,Germany,European Euro,...,Neither easy nor difficult,Appropriate in length,No,"Computer science, computer engineering, or sof...",ASP.NET Core,ASP.NET;ASP.NET Core,Just as welcome now as I felt last year,50.0,36,27.0
1,2,I am a developer by profession,No,,19,,,,United Kingdom,Pound sterling,...,,,,"Computer science, computer engineering, or sof...",,,Somewhat more welcome now than last year,,7,4.0
2,3,I code primarily as a hobby,Yes,,15,,,,Russian Federation,,...,Neither easy nor difficult,Appropriate in length,,,,,Somewhat more welcome now than last year,,4,
3,4,I am a developer by profession,Yes,25.0,18,,,,Albania,Albanian lek,...,,,No,"Computer science, computer engineering, or sof...",,,Somewhat less welcome now than last year,40.0,7,4.0
4,5,"I used to be a developer by profession, but no...",Yes,31.0,16,,,,United States,,...,Easy,Too short,No,"Computer science, computer engineering, or sof...",Django;Ruby on Rails,Ruby on Rails,Just as welcome now as I felt last year,,15,8.0


#### Oraz końcowe 5 rekordów

In [4]:
data_raw.tail()

Unnamed: 0,Respondent,MainBranch,Hobbyist,Age,Age1stCode,CompFreq,CompTotal,ConvertedComp,Country,CurrencyDesc,...,SurveyEase,SurveyLength,Trans,UndergradMajor,WebframeDesireNextYear,WebframeWorkedWith,WelcomeChange,WorkWeekHrs,YearsCode,YearsCodePro
64456,64858,,Yes,,16.0,,,,United States,,...,,,,"Computer science, computer engineering, or sof...",,,,,10.0,Less than 1 year
64457,64867,,Yes,,,,,,Morocco,,...,,,,,,,,,,
64458,64898,,Yes,,,,,,Viet Nam,,...,,,,,,,,,,
64459,64925,,Yes,,,,,,Poland,,...,,,,,Angular;Angular.js;React.js,,,,,
64460,65112,,Yes,,,,,,Spain,,...,,,,"Computer science, computer engineering, or sof...",ASP.NET Core;jQuery,Angular;Angular.js;ASP.NET Core;jQuery,,,,


#### Podgląd zbioru

In [5]:
print(data_raw.shape)
print('\n')
print(data_raw.dtypes)

(64461, 61)


Respondent              int64
MainBranch             object
Hobbyist               object
Age                   float64
Age1stCode             object
                       ...   
WebframeWorkedWith     object
WelcomeChange          object
WorkWeekHrs           float64
YearsCode              object
YearsCodePro           object
Length: 61, dtype: object


#### Liczba atrybutów oraz typ danych

In [6]:
data_raw.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 64461 entries, 0 to 64460
Data columns (total 61 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   Respondent                    64461 non-null  int64  
 1   MainBranch                    64162 non-null  object 
 2   Hobbyist                      64416 non-null  object 
 3   Age                           45446 non-null  float64
 4   Age1stCode                    57900 non-null  object 
 5   CompFreq                      40069 non-null  object 
 6   CompTotal                     34826 non-null  float64
 7   ConvertedComp                 34756 non-null  float64
 8   Country                       64072 non-null  object 
 9   CurrencyDesc                  45472 non-null  object 
 10  CurrencySymbol                45472 non-null  object 
 11  DatabaseDesireNextYear        44070 non-null  object 
 12  DatabaseWorkedWith            49537 non-null  object 
 13  D

Jak widać w zbiorze mamy 64461 rekrody, które zawierają 61 atrybutów.
#### Następnie wyświetlimy podstawowe statystki opisowe atrybutów

In [7]:
data_raw.describe()

Unnamed: 0,Respondent,Age,CompTotal,ConvertedComp,WorkWeekHrs
count,64461.0,45446.0,34826.0,34756.0,41151.0
mean,32554.079738,30.834111,3.190464e+242,103756.1,40.782174
std,18967.44236,9.585392,inf,226885.3,17.816383
min,1.0,1.0,0.0,0.0,1.0
25%,16116.0,24.0,20000.0,24648.0,40.0
50%,32231.0,29.0,63000.0,54049.0,40.0
75%,49142.0,35.0,125000.0,95000.0,44.0
max,65639.0,279.0,1.1111110000000001e+247,2000000.0,475.0


#### Do zbioru danych dodatkowo dołączony jest plik zawierający opisy zawartości atrybutów

In [8]:
schema_raw = pd.read_csv(schema_file_name, index_col='Column')
pd.set_option('display.max_rows', schema_raw.shape[0]+1)
pd.set_option('max_colwidth', None)
schema_raw

Unnamed: 0_level_0,QuestionText
Column,Unnamed: 1_level_1
Respondent,Randomized respondent ID number (not in order of survey response time)
MainBranch,"Which of the following options best describes you today? Here, by ""developer"" we mean ""someone who writes code."""
Hobbyist,Do you code as a hobby?
Age,"What is your age (in years)? If you prefer not to answer, you may leave this question blank."
Age1stCode,"At what age did you write your first line of code or program? (e.g., webpage, Hello World, Scratch project)"
CompFreq,"Is that compensation weekly, monthly, or yearly?"
CompTotal,"What is your current total compensation (salary, bonuses, and perks, before taxes and deductions), in `CurrencySymbol`? Please enter a whole number in the box below, without any punctuation. If you are paid hourly, please estimate an equivalent weekly, monthly, or yearly salary. If you prefer not to answer, please leave the box empty."
ConvertedComp,"Salary converted to annual USD salaries using the exchange rate on 2020-02-19, assuming 12 working months and 50 working weeks."
Country,Where do you live?
CurrencyDesc,"Which currency do you use day-to-day? If your answer is complicated, please pick the one you're most comfortable estimating in."


Następnie przygotujemy zmienną dzięki której będziemy mogli odczytywać pytanie należące do danej kolumny.

In [9]:
schema_raw = pd.read_csv(schema_file_name, index_col='Column').QuestionText

In [28]:
# Dowolna nazwa kolumny
schema_raw['WorkWeekHrs']

'On average, how many hours per week do you work? Please enter a whole number in the box.'

## Krok 2: Przygotowanie danych

Niektóre kolumny posiadają źle określony typ danych, co może skutkować błędami w dalszym przygotowaniu zbioru do analizy. Nasze przygotowanie rozpoczniemy od wskazania prawidłowego typu danych w kolumnach.

Atrybut "Age" zawiera liczby typu "float" odzielone znakiem przecinka, co jest błędnie rozpoznawana przez interpreter. Aby typ kolumny został prawidłowo przekonwerotowany do typu float, musimy zamienieć znak przecnika na kropkę.

In [11]:
selected_columns = [
    # Demographics
    'Country',
    'Age',
    'Gender',
    'EdLevel',
    'UndergradMajor',
    # Programming experience
    'Hobbyist',
    'Age1stCode',
    'YearsCode',
    'YearsCodePro',
    'LanguageWorkedWith',
    'LanguageDesireNextYear',
    'NEWLearn',
    'NEWStuck',
    # Employment
    'Employment',
    'DevType',
    'WorkWeekHrs',
    'JobSat',
    'JobFactors',
    'NEWOvertime',
    'NEWEdImpt'
]

W atrybucie "Fare" dodatkowo jeden z wierszy zawiera znak alfanumeryczny. Musimy przefiltrować wartości kolumny, aby zawierała tylko cyfry.

In [12]:
len(selected_columns)

20

Po przekstałecniu typów danych tak prezentują się kolumny oraz 10 pierwszych wierszy zbioru.

In [13]:
data = data_raw[selected_columns].copy()

In [14]:
schema = schema_raw[selected_columns]

Wyświetlimy podstawowe informacje o ramce danych

In [15]:
data.shape

(64461, 20)

In [16]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 64461 entries, 0 to 64460
Data columns (total 20 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   Country                 64072 non-null  object 
 1   Age                     45446 non-null  float64
 2   Gender                  50557 non-null  object 
 3   EdLevel                 57431 non-null  object 
 4   UndergradMajor          50995 non-null  object 
 5   Hobbyist                64416 non-null  object 
 6   Age1stCode              57900 non-null  object 
 7   YearsCode               57684 non-null  object 
 8   YearsCodePro            46349 non-null  object 
 9   LanguageWorkedWith      57378 non-null  object 
 10  LanguageDesireNextYear  54113 non-null  object 
 11  NEWLearn                56156 non-null  object 
 12  NEWStuck                54983 non-null  object 
 13  Employment              63854 non-null  object 
 14  DevType                 49370 non-null

Następnie określimy pradwidłowe typy dla naszy danych

Zaczniemy od atrybutu "Age1stCode"

In [17]:
schema['Age1stCode']

'At what age did you write your first line of code or program? (e.g., webpage, Hello World, Scratch project)'

Według pytania, atrybut powinnien zawierać wartości liczbowe określające wiek osoby ankietowanej

In [18]:
data['Age1stCode'].unique()

array(['13', '19', '15', '18', '16', '14', '12', '20', '42', '8', '25',
       '22', '30', '17', '21', '10', '46', '9', '7', '11', '6', nan, '31',
       '29', '5', 'Younger than 5 years', '28', '38', '23', '27', '41',
       '24', '53', '26', '35', '32', '40', '33', '36', '54', '48', '56',
       '45', '44', '34', 'Older than 85', '39', '51', '68', '50', '37',
       '47', '43', '52', '85', '64', '55', '58', '49', '76', '72', '73',
       '83', '63'], dtype=object)

Jak widać trafiają się również ciągi znaków np, "Older than 85". Zamiennimy te wartości na puste, ponieważ określają one warotści odstające, które nie są przydatne w anzalizie. Wykonamy tą samą operacje dla 'YearsCode' oraz 'YearsCodePro' ponieważ te atrybuty określają podobne wartości. Poniższe operacje przekstzałcą wartości liczobwe na liczby, a ciągi znaków na wartości puste.

In [19]:
data['Age1stCode'] = pd.to_numeric(data['Age1stCode'], errors='coerce')
data['YearsCode'] = pd.to_numeric(data['YearsCode'], errors='coerce')
data['YearsCodePro'] = pd.to_numeric(data['YearsCodePro'], errors='coerce')

Wyświetlimy podstawe informacje po przekształceniu wartości

In [20]:
data.describe()

Unnamed: 0,Age,Age1stCode,YearsCode,YearsCodePro,WorkWeekHrs
count,45446.0,57473.0,56784.0,44133.0,41151.0
mean,30.834111,15.476572,12.782051,8.869667,40.782174
std,9.585392,5.114081,9.490657,7.759961,17.816383
min,1.0,5.0,1.0,1.0,1.0
25%,24.0,12.0,6.0,3.0,40.0
50%,29.0,15.0,10.0,6.0,40.0
75%,35.0,18.0,17.0,12.0,44.0
max,279.0,85.0,50.0,50.0,475.0


Wydaje się, że występuje problem z kolumną wieku, ponieważ minimalna wartość to 1, a maksymalna to 279. Jest to częsty problem z ankietami: odpowiedzi mogą zawierać nieprawidłowe wartości z powodu przypadkowych lub celowych błędów podczas odpowiadania. Prostym rozwiązaniem byłoby zignorowanie wierszy, w których wiek jest wyższy niż 100 lat lub niższy niż 10 lat, jako nieprawidłowe odpowiedzi na ankietę. Możemy to zrobić za pomocą metody .drop,

In [21]:
data.drop(data[data['Age'] < 10].index, inplace=True)
data.drop(data[data['Age'] > 100].index, inplace=True)

To samo dotyczy WorkWeekHrs. Zignorujmy wpisy, w których wartość kolumny jest większa niż 140 godzin. (~ 20 godzin dziennie).

In [22]:
data.drop(data[data['WorkWeekHrs'] > 140].index, inplace=True)

Kolumna płeć pozwala również na wybranie wielu opcji. Usuniemy wartości zawierające więcej niż jedną opcję, aby uprościć naszą analizę.

In [23]:
data['Gender'].value_counts()

Man                                                            45895
Woman                                                           3835
Non-binary, genderqueer, or gender non-conforming                385
Man;Non-binary, genderqueer, or gender non-conforming            121
Woman;Non-binary, genderqueer, or gender non-conforming           92
Woman;Man                                                         73
Woman;Man;Non-binary, genderqueer, or gender non-conforming       25
Name: Gender, dtype: int64

In [24]:
data.where(~(data['Gender'].str.contains(';', na=False)), np.nan, inplace=True)

Wyczyściliśmy teraz i przygotowaliśmy zbiór danych do analizy. Przyjrzyjmy się próbce wierszy z ramki danych.

In [25]:
data.sample(10)

Unnamed: 0,Country,Age,Gender,EdLevel,UndergradMajor,Hobbyist,Age1stCode,YearsCode,YearsCodePro,LanguageWorkedWith,LanguageDesireNextYear,NEWLearn,NEWStuck,Employment,DevType,WorkWeekHrs,JobSat,JobFactors,NEWOvertime,NEWEdImpt
41569,United Kingdom,,,"Bachelor’s degree (B.A., B.S., B.Eng., etc.)","A social science (such as anthropology, psychology, political science, etc.)",No,23.0,6.0,5.0,C#;HTML/CSS;JavaScript;SQL;TypeScript,C++;Go;Python,Every few months,,Employed full-time,"Developer, back-end",37.5,Slightly dissatisfied,"Languages, frameworks, and other technologies I’d be working with;Office environment or company culture;Opportunities for professional development",Sometimes: 1-2 days per month but less than weekly,Fairly important
28505,United States,25.0,Man,"Bachelor’s degree (B.A., B.S., B.Eng., etc.)",Mathematics or statistics,Yes,13.0,7.0,3.0,Go;Java;Rust;TypeScript,Rust,Every few months,Play games;Visit Stack Overflow;Go for a walk or other physical activity;Do other work and come back later,Employed full-time,"Developer, back-end;Developer, mobile",40.0,Very satisfied,"Languages, frameworks, and other technologies I’d be working with;Specific department or team I’d be working on;Remote work options",Occasionally: 1-2 days per quarter but less than monthly,Critically important
44103,Hungary,,,Some college/university study without earning a degree,"Computer science, computer engineering, or software engineering",No,16.0,4.0,2.0,,,,,Employed full-time,"Developer, back-end",38.0,Slightly satisfied,,Sometimes: 1-2 days per month but less than weekly,Not at all important/not necessary
14815,United Kingdom,24.0,Man,"Bachelor’s degree (B.A., B.S., B.Eng., etc.)","A natural science (such as biology, chemistry, physics, etc.)",Yes,16.0,7.0,3.0,C#;JavaScript;Objective-C;Ruby;TypeScript,C#;Go;JavaScript;TypeScript,Once a year,Call a coworker or friend;Visit Stack Overflow;Watch help / tutorial videos;Do other work and come back later,Employed full-time,"Database administrator;Developer, back-end;Developer, front-end;Developer, full-stack;Developer, mobile",37.5,Very satisfied,Flex time or a flexible schedule;Remote work options;Opportunities for professional development,Occasionally: 1-2 days per quarter but less than monthly,Fairly important
56866,Senegal,,,,,No,,,,Java;SQL,Java;JavaScript,Every few months,Meditate;Call a coworker or friend;Visit Stack Overflow;Do other work and come back later,Employed full-time,,,,,,
14129,Mexico,28.0,Woman,"Bachelor’s degree (B.A., B.S., B.Eng., etc.)","Fine arts or performing arts (such as graphic design, music, studio art, etc.)",No,15.0,9.0,6.0,Bash/Shell/PowerShell;HTML/CSS;Java;JavaScript;SQL;TypeScript,Dart;HTML/CSS;JavaScript;Python;SQL;TypeScript,Every few months,Meditate;Visit Stack Overflow;Go for a walk or other physical activity;Panic;Do other work and come back later;Visit another developer community (please name):,Employed full-time,"Database administrator;Designer;Developer, back-end;Developer, front-end;Developer, full-stack",45.0,Slightly satisfied,"Languages, frameworks, and other technologies I’d be working with;Financial performance or funding status of the company or organization;Office environment or company culture",Rarely: 1-2 days per year or less,Somewhat important
63099,Russian Federation,,,Some college/university study without earning a degree,,Yes,,,,,,,,Employed full-time,,,,,,
63395,Viet Nam,,,,,Yes,,,,,,,,Employed full-time,,,,,,
45163,Turkey,26.0,Man,"Bachelor’s degree (B.A., B.S., B.Eng., etc.)","Another engineering discipline (such as civil, electrical, mechanical, etc.)",Yes,18.0,7.0,3.0,HTML/CSS;JavaScript;PHP,C#;Dart;JavaScript;Python;TypeScript,Every few months,Visit Stack Overflow;Watch help / tutorial videos;Do other work and come back later,Employed full-time,"Developer, back-end;Developer, desktop or enterprise applications;Developer, front-end;Developer, full-stack;Developer, mobile",40.0,Very satisfied,Remote work options;Opportunities for professional development;Family friendliness,Occasionally: 1-2 days per quarter but less than monthly,Fairly important
17097,United States,40.0,Man,"Master’s degree (M.A., M.S., M.Eng., MBA, etc.)","A humanities discipline (such as literature, history, philosophy, etc.)",Yes,8.0,20.0,8.0,Bash/Shell/PowerShell;HTML/CSS;Java;SQL,Bash/Shell/PowerShell;Go;HTML/CSS;Kotlin;SQL,Once a year,Meditate;Visit Stack Overflow;Watch help / tutorial videos,Employed full-time,Senior executive/VP,,,,,Very important


## Krok 3: Analiza i wizualizacja danych

#### Sprawdzamy ile atrybutów ma wartości puste

In [30]:
total = data.isnull().sum().sort_values(ascending=False)
percent_1 = data.isnull().sum()/data.isnull().count()*100
percent_2 = (round(percent_1, 1)).sort_values(ascending=False)
missing_data = pd.concat([total, percent_2], axis=1, keys=['Total', '%'])
missing_data.head(5)

Unnamed: 0,Total,%
WorkWeekHrs,23493,36.5
NEWOvertime,21430,33.3
YearsCodePro,20512,31.9
JobSat,19471,30.3
Age,19238,29.9


#### Heatmapa brakujących wartości

In [27]:
sns.heatmap(data.isnull(),yticklabels=False,cbar=False,cmap='viridis')

NameError: name 'sns' is not defined

Jak widać najwięcej pustych wartości zawierają kolumny "Age" oraz "Cabin". Ilość brakujących wartości atrybutu "Age" to około 20%, w dalszej części spróbujemy uzupełnić brakujące wartości. Natomiast braki atrybutu "Cabin" są na tyle duże, że nie jesteśmy w stanie przewidzieć wartości brakujących atrybutów.

#### Uzupełnimy brakujące wartośći atrybutu "Age"

Przyjrzymy się rozkładowi atrybutu "Age" ze względu na klasę poróży pasażerów, jak widać jedna z wartości przyjmuje wartość ponad 4000. Jest to dana odstająca, którą należy usunąć przed dalszą analizą.

In [None]:
plt.figure(figsize=(12,7))
sns.boxplot(x='Pclass', y='Age', data=data, palette='winter')

Usuwamy odstające wartości z atrybutu wiek. Przyjmuję że wszystkie wartości powyżej 100 oraz poniżej 0 są odstające. Wartość od 0 do 100, stanowią standardową długość życia człowieka.

In [None]:
max_thresold = 100
min_thresold = 0
data[(data.Age > max_thresold) | (data.Age < min_thresold)]

In [None]:
data.loc[(data.Age > max_thresold) | (data.Age < min_thresold), 'Age'] = np.nan

In [None]:
plt.figure(figsize=(12,7))
sns.boxplot(x='Pclass', y='Age', data=data, palette='winter')

Teraz możemy rozwiązać problem z brakującymi wartościami atrybutu "Age". Utworzę tablicę zawierającą liczby losowe, które są obliczane na podstawie średniej wartości wieku w odniesieniu do odchylenia standardowego.

In [None]:
mean = data["Age"].mean()
std = data["Age"].std()
is_null = data["Age"].isnull().sum()

#  Losujmey wartości z przedziału wartości średniej i odchylenia standardowego atrybutu "Age"
rand_age = np.random.randint(mean - std, mean + std, size = is_null)

# Uzpełniamy puste wartości w atrybucie "Age" wylosowanymi wartościami
age_slice = data["Age"].copy()
age_slice[np.isnan(age_slice)] = rand_age
data["Age"] = age_slice
data["Age"] = data["Age"].astype(int)
data["Age"].isnull().sum()

Ponownie heatmap. Jak widać brakujące wartości atrybutu "Age" zostały usunięte.

In [None]:
sns.heatmap(data.isnull(),yticklabels=False,cbar=False,cmap='viridis')

#### Następnie zajmiemy się wartością atrybutu "Cabin"
Atrybut "Cabin" zawiera bardzo dużo brakujących wartości. Atrybut "Cabin" przyjumuje zazwyczaj wzór „C123”, gdzie litera odnosi się do pokładu. Dlatego zamierzam ją wyodrębnić i stworzyć nowy atrybut, który zawiera tablicę pokładów. Następnie przekonwertujemy tą wartość na zmienną numeryczną. Brakujące wartości zostaną zamienione na zero.

In [None]:
import re
deck = {"A": 1, "B": 2, "C": 3, "D": 4, "E": 5, "F": 6, "G": 7, "U": 8}

data['Cabin'] = data['Cabin'].fillna("U0")
data['Deck'] = data['Cabin'].map(lambda x: re.compile("([a-zA-Z]+)").search(x).group())
data['Deck'] = data['Deck'].map(deck)
data['Deck'] = data['Deck'].fillna(0)
data['Deck'] = data['Deck'].astype(int)
    
# Możemy teraz usunąć atrybut Cabin
data = data.drop(['Cabin'], axis=1)

Wygląd zbioru po preprocessingu

In [None]:
data

#### Przygotowanie wartośći atrybutu "Embarked"

Ponieważ atrybut "Embarked" ma tylko 2 brakujące wartości, wypełnimy je najczęściej występującymi wartościami.

In [None]:
data['Embarked'].describe()

In [None]:
common_value = 'S'

data['Embarked'] = data['Embarked'].fillna(common_value)

Zamienimy wartości atrybutu "Embarked", na wartości numeryczne

In [None]:
data['Embarked'].unique()

In [None]:
ports = {"S": 0, "C": 1, "Q": 2, "So": 0, "Co": 1, "Qe": 2}

data['Embarked'] = data['Embarked'].map(ports)

#### Przygotowanie wartośći atrybutu "Name"

Wykorzystamy atrybut "Name", aby wyodrębnić tytuły z jego wartości. Stworzymy na podstawie tych wartości nowy atrybut.

In [None]:
titles = {"Mr": 1, "Miss": 2, "Mrs": 3, "Master": 4, "Rare": 5}

# Wyodrębnie tytułów
data['Title'] = data.Name.str.extract(' ([A-Za-z]+)\.', expand=False)

# Zamiana rzadko występujących tytułów na te bardziej popularne
data['Title'] = data['Title'].replace(['Lady', 'Countess','Capt', 'Col','Don', 'Dr',\
                                        'Major', 'Rev', 'Sir', 'Jonkheer', 'Dona'], 'Rare')
data['Title'] = data['Title'].replace('Mlle', 'Miss')
data['Title'] = data['Title'].replace('Ms', 'Miss')
data['Title'] = data['Title'].replace('Mme', 'Mrs')

# Zamiana tytłów na wartości numeryczne
data['Title'] = data['Title'].map(titles)

# Uzupełnienie pustych wartości, wartością 0
data['Title'] = data['Title'].fillna(0)

data = data.drop(['Name'], axis=1)

#### Przygotowanie wartości atrybutu "Sex"

Wartości występujące w atrybucie "Sex"

In [None]:
data['Sex'].unique()

Zamieniamy wartości atrybutu "Sex", na wartości numeryczne.

In [None]:
genders = {"male": 0, "female": 1, "malef": 0, "mal": 0, "fem": 1, "femmale": 1}
data['Sex'] = data['Sex'].map(genders)

#### Przygotowanie wartości atrybutu "Ticket"

In [None]:
data['Ticket'].describe()

Ponieważ atrybut Ticket ma 681 unikalnych wartości, przekształcenie ich w przydatne kategorie byłoby nieco trudniejsze. Więc usuniemy go ze zbioru danych.

In [None]:
data = data.drop(['Ticket'], axis=1)

## Krok 5: Pomiar dokładności klasyfikacji na przygotowanym zbiorze danych

W ostatnim kroku usnuniemy jeszcze ze zbioru niepotrzebne atrybuty, takie jak:  
PassengerId - Atrybut okresląjący id pasażera, nie wnoszący nic do analizy danych  
ship - Atrybut zawsze przyjmujący tą samą wartość.  
Survived - Atrybut decyzyjny

In [None]:
X_data = data.drop(["PassengerId", "ship",  "Survived"], axis=1)
X_data

In [None]:
Y_data = data.Survived;

decision_tree = DecisionTreeClassifier()
scores = cross_val_score(decision_tree, X_data, Y_data, cv=10)
scores
print("%0.2f accuracy with a standard deviation of %0.2f" % (scores.mean(), scores.std()))

Udało się uzyskać dokładność na poziomie około 78%.

## Krok 6: Zapis zbioru i podsumowanie

#### Zapis zbioru do pliku

In [None]:
data.to_csv('./data/TitanicCleaned.tsv', sep='\t')

#### Podusmowanie
Przygotowanie zbioru pozwala wykorzystać go w różnego rodzaju analizach. Również przygotowany zbiór pozowli zauważyć więcej zależnosći w danych oraz uzyskać lepsze wyniki podczas wykorzystania algorytmów uczenia maszynowego.