# Motivação
Um dos conjuntos de dados mais populares para iniciantes em ciência de dados e machine learning é o conjuntos de dados sobre o naufrágio do navio mais famoso da história: Titanic. 

Escolhi este conjunto de dados para praticar métodos de análise e visualização de dados e chegar em conclusões interessantes.

O conjunto contém diversas informações sobre os passageiros abordo da primeira e única viagem do Titanic, como idade, gênero, local de embarque e se sobreviveu ao desastre.



# Resumo
Primeiro pratiquei técnicas básicas para limpeza e exploração dos dados detalhados neste notebook.

Depois criei visualizações de dados explicativas para destacar as principais descobertas encontradas neste conjunto de dados. As visualizações estão disponíveis no tableau Public: https://public.tableau.com/profile/daniel.rosenfeld#!/vizhome/Udacity-NFDSII-PROJETO2_v4/Histria1?publish=yes



## Data Wrangling
   - Carga dos dados;
   - Aplicação dos métodos básicos para limpeza dos dados;
   - Aplicação dos métodos básicos para exploração;
   - Exportação do dataset utilizado para gerar as visualizações no tableau public;

In [1]:
#Carga dos dados
%config IPCompleter.greedy=True
import numpy as np
import pandas as pd
titanic_train = pd.read_csv('titanic-data-udacity.csv')

In [2]:
#Verificação das primeiras linhas
titanic_train.head( n = 5 ) 

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [3]:
#Atualização do nome das colunas
titanic_train.rename(index=str, inplace = True, columns={"PassengerId": "IdPassageiro","Survived": "Sobrevivente","Pclass":"Classe", "Name": "Nome", "Sex": "Sexo", "Age":"Idade", "SibSp": "Qtd irmaos e conjuges", "Parch": "Qtd pais e filhos","Fare":"Valor passagem", "Cabin":"IdCabine","Embarked":"Local Embarque"})
titanic_train.head( n = 5 ) 

Unnamed: 0,IdPassageiro,Sobrevivente,Classe,Nome,Sexo,Idade,Qtd irmaos e conjuges,Qtd pais e filhos,Ticket,Valor passagem,IdCabine,Local Embarque
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [4]:
#Verificação da quantidade de linhas e colunas
titanic_train.shape

(891, 12)

In [63]:
titanic_train.dtypes


IdPassageiro               int64
Sobrevivente               int64
Classe                     int64
Nome                      object
Sexo                      object
Idade                    float64
Qtd irmaos e conjuges      int64
Qtd pais e filhos          int64
Ticket                    object
Valor passagem           float64
IdCabine                  object
Local Embarque            object
dtype: object

In [5]:
#Verificação de linhas duplicadas
titanic_train.duplicated().sum()

0

In [6]:
#Verificação da consistencia dos dados através de estatistica descritiva
titanic_train.describe()

Unnamed: 0,IdPassageiro,Sobrevivente,Classe,Idade,Qtd irmaos e conjuges,Qtd pais e filhos,Valor passagem
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


In [7]:
#Verifica a quantidade e percentual de valores e colunos vazias no dataframe
print (titanic_train.isnull().sum())
print (titanic_train.isnull().sum()/titanic_train.shape[0])

IdPassageiro               0
Sobrevivente               0
Classe                     0
Nome                       0
Sexo                       0
Idade                    177
Qtd irmaos e conjuges      0
Qtd pais e filhos          0
Ticket                     0
Valor passagem             0
IdCabine                 687
Local Embarque             2
dtype: int64
IdPassageiro             0.000000
Sobrevivente             0.000000
Classe                   0.000000
Nome                     0.000000
Sexo                     0.000000
Idade                    0.198653
Qtd irmaos e conjuges    0.000000
Qtd pais e filhos        0.000000
Ticket                   0.000000
Valor passagem           0.000000
IdCabine                 0.771044
Local Embarque           0.002245
dtype: float64


In [8]:
#Remove a dados sobre a sobre Cabine e Ticket.
# - 77% dos dados para Cabine estão nulos e Classe é algo equivalente a localização do passageiro no navio.
# - Para esta análise, a informação ticket não agrega.
titanic_train.drop(['IdCabine', "Ticket"], axis=1)
titanic_train.head( n = 1 ) 

Unnamed: 0,IdPassageiro,Sobrevivente,Classe,Nome,Sexo,Idade,Qtd irmaos e conjuges,Qtd pais e filhos,Ticket,Valor passagem,IdCabine,Local Embarque
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S


In [9]:
#Verificação do subconjunto de dados - Casos com nulos na coluna idade e embarque
print(titanic_train[titanic_train["Idade"].isnull()].describe())
print(titanic_train[titanic_train["Local Embarque"].isnull()].describe())

       IdPassageiro  Sobrevivente      Classe  Idade  Qtd irmaos e conjuges  \
count    177.000000    177.000000  177.000000    0.0             177.000000   
mean     435.581921      0.293785    2.598870    NaN               0.564972   
std      250.552901      0.456787    0.763216    NaN               1.626316   
min        6.000000      0.000000    1.000000    NaN               0.000000   
25%      230.000000      0.000000    3.000000    NaN               0.000000   
50%      452.000000      0.000000    3.000000    NaN               0.000000   
75%      634.000000      1.000000    3.000000    NaN               0.000000   
max      889.000000      1.000000    3.000000    NaN               8.000000   

       Qtd pais e filhos  Valor passagem  
count         177.000000      177.000000  
mean            0.180791       22.158567  
std             0.534145       31.874608  
min             0.000000        0.000000  
25%             0.000000        7.750000  
50%             0.000000      

- Fato curioso sobre o subconjunto: Pelo menos 75% dos dados nulos são de passageiros da terceira classe.

In [10]:
#Imputação simplificada nos valores nulos, baseado na média e moda do total do dataset original.
filled_df = titanic_train.copy()

filled_df['Idade'].fillna(filled_df['Idade'].mean(), inplace=True)
filled_df['Local Embarque'].fillna(filled_df['Local Embarque'].mode(), inplace=True)

In [11]:
#Verifica impacto no conjunto de dados após a imputação, comparando estatística entre dataset original x dataset atualizado
filled_df.describe()

Unnamed: 0,IdPassageiro,Sobrevivente,Classe,Idade,Qtd irmaos e conjuges,Qtd pais e filhos,Valor passagem
count,891.0,891.0,891.0,891.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,13.002015,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,22.0,0.0,0.0,7.9104
50%,446.0,0.0,3.0,29.699118,0.0,0.0,14.4542
75%,668.5,1.0,3.0,35.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


In [12]:
titanic_train.describe()

Unnamed: 0,IdPassageiro,Sobrevivente,Classe,Idade,Qtd irmaos e conjuges,Qtd pais e filhos,Valor passagem
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


Conclusão: Dado o impacto na estatística (exemplo: quartis do atributo idade), não sera utilizdo o dataset "filled_df" que contempla imputação de dados para a etapa de visualização de dados.

In [13]:
#Verifica correlação entre os atributos do dataset
titanic_train.corr()

Unnamed: 0,IdPassageiro,Sobrevivente,Classe,Idade,Qtd irmaos e conjuges,Qtd pais e filhos,Valor passagem
IdPassageiro,1.0,-0.005007,-0.035144,0.036847,-0.057527,-0.001652,0.012658
Sobrevivente,-0.005007,1.0,-0.338481,-0.077221,-0.035322,0.081629,0.257307
Classe,-0.035144,-0.338481,1.0,-0.369226,0.083081,0.018443,-0.5495
Idade,0.036847,-0.077221,-0.369226,1.0,-0.308247,-0.189119,0.096067
Qtd irmaos e conjuges,-0.057527,-0.035322,0.083081,-0.308247,1.0,0.414838,0.159651
Qtd pais e filhos,-0.001652,0.081629,0.018443,-0.189119,0.414838,1.0,0.216225
Valor passagem,0.012658,0.257307,-0.5495,0.096067,0.159651,0.216225,1.0


- Ideias para gerar as visualizações
    - Como eram os passageiros ?
        - Qual a idade? - idosos > 60 , crianças 0-12 adolecentes12-18, adultos18-60
        - A maioria eram homens ou mulheres?
        - Todos viajavam em família ou tinha alguém sozinho?
        - De qual classe eram?
        - Onde embarcaram?
    - Caracteristicas por grupo
        - O valor das passagens grupos (sexo, idade, classe, local de embarque)
        - A maioria dos h
    - Correlação
        - Sobreviventes x classe, idade, sozinho ou famíllia, 

In [51]:
#Exportacao
#Dado o impacto identificado na comparação, escolhemos carregar os dados originais afim de não impactar as visualizações
titanic_train.to_csv(path_or_buf='data-wrangling-titanic.csv',index=False)

In [52]:
#Para ratificar se a exportação foi correta, criei novos dataframe e comparei parte dos dados

In [54]:
titanic_train_wrangling = pd.read_csv('data-wrangling-titanic.csv')
titanic_train_origem = pd.read_csv('titanic-data-udacity.csv')

In [61]:
#selecionando Idade < 5
titanic_train_wrangling.loc[titanic_train_wrangling['Idade'] <= 5, ["Idade"]].groupby("Idade")['Idade'].count()

Idade
0.42      1
0.67      1
0.75      2
0.83      2
0.92      1
1.00      7
2.00     10
3.00      6
4.00     10
5.00      4
6.00      3
7.00      3
8.00      4
9.00      8
10.00     2
Name: Idade, dtype: int64

In [62]:
titanic_train_origem.loc[titanic_train_origem['Age'] <= 5, ["Age"]].groupby("Age")['Age'].count()

Age
0.42      1
0.67      1
0.75      2
0.83      2
0.92      1
1.00      7
2.00     10
3.00      6
4.00     10
5.00      4
6.00      3
7.00      3
8.00      4
9.00      8
10.00     2
Name: Age, dtype: int64

# Visualizações

 As visualizações com as descobertas encontradas neste conjunto de dados esta disponíveis no tableau Public: https://public.tableau.com/profile/daniel.rosenfeld#!/vizhome/Udacity-NFDSII-PROJETO2_v4/Histria1?publish=yes



# Recursos:
- http://felipegalvao.com.br/blog/2016/03/31/estatistica-descritiva-com-python/
- http://minerandodados.com.br/index.php/2017/09/26/python-para-analise-de-dados/
- http://felipegalvao.com.br/blog/2016/02/29/manipulacao-de-dados-com-python-pandas/
- https://www.kaggle.com/bltxr9/data-analysis-of-titanic-data-set
- https://paulovasconcellos.com.br/competicao-kaggle-titanic-tutorial-5b11993774f7
- Latitude e Longitude dos portos de embarque no google maps
- https://www.tableau.com/pt-br/learn/tutorials/on-demand/drill-down-and-hierarchies
- https://www.tableau.com/pt-br/about/blog/2017/2/top-10-tableau-table-calculations-65417
-Porquê o reino unido teve a maior quantidade de passageiros. https://www.gapminder.org/tools/#_state_time_value=1909;&marker_select@_geo=fra&trailStartTime=1908&labelOffset@:-0.032&:0.153;;&_geo=gbr&trailStartTime=1908&labelOffset@:0.236&:-0.227;;&_geo=irl&trailStartTime=1908&labelOffset@:-0.051&:-0.12;;;;;&data_/_lastModified:1525632389411&lastModified:1525632389411;&chart-type=bubbles

