## Desafio Meireles & Freitas (AllDesk)

In [130]:
# Imports
import pandas as pd
import numpy as np

In [131]:
# Carregar DataSet
train = pd.read_csv("train.csv")

In [132]:
train.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [133]:
train.rename(columns={'PassengerId':'ID', 'Survived': 'Sobreviveu?', 'Pclass': 'Classe', 'Name':'Nome', 'Sex':'Sexo', 'Age': 'Idade', 'SibSp':'Acompanhado?', 'Parch': 'AcompEspecial', 'Ticket': 'Passagem', 'Fare': 'Valor', 'Cabin': 'Cabine', 'Embarked': 'PortoDeEmbarque'}, inplace = True)

In [134]:
train.head(100)

Unnamed: 0,ID,Sobreviveu?,Classe,Nome,Sexo,Idade,Acompanhado?,AcompEspecial,Passagem,Valor,Cabine,PortoDeEmbarque
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
95,96,0,3,"Shorney, Mr. Charles Joseph",male,,0,0,374910,8.0500,,S
96,97,0,1,"Goldschmidt, Mr. George B",male,71.0,0,0,PC 17754,34.6542,A5,C
97,98,1,1,"Greenfield, Mr. William Bertram",male,23.0,0,1,PC 17759,63.3583,D10 D12,C
98,99,1,2,"Doling, Mrs. John T (Ada Julia Bone)",female,34.0,0,1,231919,23.0000,,S


In [135]:
# Nesta etapa faremos uma analise dos sobreviventes, por alguns parâmetros.
train2 = train.groupby('Sobreviveu?')

In [136]:
# Logo ao realizar a media dos dados dos sobreviventes temos que, em média as pessoas que sobreviveram estavam em 
# acomodacoes de classes mais superiores (entre 1ª e 2ª classe), 
# já as que morreram estavam em classes mais inferiores (2ª e 3ª classe).

# Outra analise que está relacionada com a primeira é o valor da passagem, onde a maior parte dos sobreviventes pagaram
# uma passagem com valor maior do que as pessoas que morreram, logo esta analise reforça a ideia de que tiveram mais sobreviventes
# de acomodações mais superiores a bordo, do que quem pagou por acomodações mais inferiores.
train2.mean()

Unnamed: 0_level_0,ID,Classe,Idade,Acompanhado?,AcompEspecial,Valor
Sobreviveu?,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
0,447.016393,2.531876,30.626179,0.553734,0.32969,22.117887
1,444.368421,1.950292,28.34369,0.473684,0.464912,48.395408


In [137]:
# Nesta etapa faremos uma analise dos sobreviventes, atraves do sexo.
train3 = train.groupby('Sexo')

In [138]:
train3.mean()
# Nesta analise é possivel verificar que a média dos sobreviventes foi predominantemente feminina do que masculina, pois
# a média de sobreviventes do sexo feminino está mais proximo de 1 (sobreviveu) do que o do sexo masculino.

Unnamed: 0_level_0,ID,Sobreviveu?,Classe,Idade,Acompanhado?,AcompEspecial,Valor
Sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
female,431.028662,0.742038,2.159236,27.915709,0.694268,0.649682,44.479818
male,454.147314,0.188908,2.389948,30.726645,0.429809,0.235702,25.523893


In [139]:
# Para validar esta analise é interessante aplicar o desvio padrao desta amostra
train3.std()
# Assim fica visivel que o DP das duas classes analisadas é bem semelhante, assim não tendo uma divergência 
# elevada entre os dados.

Unnamed: 0_level_0,ID,Sobreviveu?,Classe,Idade,Acompanhado?,AcompEspecial,Valor
Sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
female,256.846324,0.438211,0.85729,14.110146,1.15652,1.022846,57.997698
male,257.486139,0.391775,0.81358,14.678201,1.061811,0.612294,43.138263


In [140]:
train.dropna(inplace = True) 
train_v2 = train.describe()
train_v2.head(10)
# No DataFrame seguinte temos um compilado de funções estatísticas, como média, desvio padrão e quartil.

Unnamed: 0,ID,Sobreviveu?,Classe,Idade,Acompanhado?,AcompEspecial,Valor
count,183.0,183.0,183.0,183.0,183.0,183.0,183.0
mean,455.36612,0.672131,1.191257,35.674426,0.464481,0.47541,78.682469
std,247.052476,0.470725,0.515187,15.643866,0.644159,0.754617,76.347843
min,2.0,0.0,1.0,0.92,0.0,0.0,0.0
25%,263.5,0.0,1.0,24.0,0.0,0.0,29.7
50%,457.0,1.0,1.0,36.0,0.0,0.0,57.0
75%,676.0,1.0,1.0,47.5,1.0,1.0,90.0
max,890.0,1.0,3.0,80.0,3.0,4.0,512.3292


In [141]:
train_v2.to_csv('train_v2.csv')