In [24]:
#Importações
import pandas as pd

In [25]:
#Passando os dados do arquivo train.csv para um DataFrame
df = pd.read_csv('train.csv')

In [26]:
#Renomeando as colunas
df.columns = ['IdPassageiro', 'Sobreviveu', 'Classe', 'Nome', 'Sexo', 'Idade', 'IrmaosConjuge',
       'PaisFilhos', 'Bilhete', 'Tarifa', 'Cabine', 'PortaoEmbarque']

In [27]:
'''Tratando os dados do tipo string e object em letras maiúscula para melhor resultados em pesquisas
O método map faz um mapeamento por todo o DataFrame utilizando a função lambda que percorre as colunas
e quando itendifica uma coluna do tipo STR ou OBJECT ela faz o tratamento.
Se o valor não está nas características desejada o else faz deixar como está'''
df = df.map(lambda x: x.upper().strip() if isinstance(x, str or object) else x)

In [28]:
#Formatando a coluna Tarifa para duas casas decimais
df['Tarifa'] = df['Tarifa'].round(2)

In [29]:
#Calculando a média de tarifa e arredondando o valor
df['Tarifa'].mean().round()

np.float64(32.0)

In [30]:
'''Calculando a média de tarifa de uma forma 'manual somando todos os valores da coluna tarida
e dividindo com o tamanho de indexes da mesma coluna'''
(df['Tarifa'].sum() / len(df['Tarifa'])).round()

np.float64(32.0)

In [31]:
#Calculando a média de idade e arredondando
df['Idade'].mean().round()

np.float64(30.0)

In [32]:
#Identificando o maior valor da coluna Idade com iloc
df['Idade'].iloc[df['Idade'].idxmax()]

np.float64(80.0)

In [33]:
#Obtendo os dados do index do maior valor da coluna Idade utilizando loc
df[['Nome', 'Idade', 'Sexo', 'Classe', 'Sobreviveu']].loc[df['Idade'].idxmax()]

Nome          BARKWORTH, MR. ALGERNON HENRY WILSON
Idade                                         80.0
Sexo                                          MALE
Classe                                           1
Sobreviveu                                       1
Name: 630, dtype: object

In [34]:
"""Traduzindo os valores de uma coluna utilizando a função replace para fazer amudança no DataFrame. 
Funcionaria também da seguinte maneira:
df['Sexo'] = df['Sexo'].map({'FEMALE':'FEMININO', 'MALE':'MASCULINO'})
O que eu faço é basicamente por exemplo: Buscar os valores 'FEMALE' na coluna e mudar para 'FEMININO' e da mesma forma
para o 'MALE' transformando em 'MASCULINO'."""
df['Sexo'] = df['Sexo'].replace({'FEMALE': 'FEMININO', 'MALE':'MASCULINO'})

In [35]:
'''Este código é somente para efeito de visualização.
Mas com este exemplo podemos fazer alterações para dois valores e transforma-los em um.'''
df['Sexo'].replace(['FEMININO','MASCULINO'], 'PESSOA')

0      PESSOA
1      PESSOA
2      PESSOA
3      PESSOA
4      PESSOA
        ...  
886    PESSOA
887    PESSOA
888    PESSOA
889    PESSOA
890    PESSOA
Name: Sexo, Length: 891, dtype: object

In [36]:
"""Aqui estamos agrupando colunas utilizando a função groupby e exibindo estatísticas baseadas nas colunas
mencionadas dentro do groupby e passando como parâmetro numeric_only=True dentro da função mean para mapear
somente as colunas que possuem valores que possibilitan cálculo mesmo que o seu cálculo não tenha uma
visualização interessante por exemplo as colunas IdPassageiro, classe, IrmaosConjuge e PaisFilhos.
Com a exibição deste dados nas colunas que mais fazem sentido podemos observar:
Taxa de sobrevivência para o sexo FEMININO = 74%
Texa de sobrevivência para o sexo MASCULINO = 18-19%
Média da idade das mulheres a bordo = 23
Média da idade dos homens a bordo = 24
Média de tarifa paga das mulheres = ₤44
Média de tarifa paga dos homens = ₤25"""
#Exibindo a média das colunas numéricas agrupadas por sexo
df.groupby('Sexo').mean(numeric_only=True)

Unnamed: 0_level_0,IdPassageiro,Sobreviveu,Classe,Idade,IrmaosConjuge,PaisFilhos,Tarifa
Sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
FEMININO,431.028662,0.742038,2.159236,27.915709,0.694268,0.649682,44.479936
MASCULINO,454.147314,0.188908,2.389948,30.726645,0.429809,0.235702,25.524073


In [37]:
"""Esta visualização é agrupada por duas colunas (Sexo e Classe) onde é criado dois blocos (FEMININO e MASCULINO)
e dentro de cada bloco são distribuidos os valores por classe, logo podemos visualizar os dados da seguinte forma:
96-97% das mulheres de 1ª classe sobreviveram
92% das mulheres de 2ª classe sobreviveram
50% das mulheres de 3ª classe sobreviveram
-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=
36-37% dos homens de 1ª classe sobreviveram
15-16% dos homens de 2ª classe sobreviveram
13% dos homens de 3ª classe sobreviveram"""
df.groupby(['Sexo','Classe']).mean(numeric_only=True)

Unnamed: 0_level_0,Unnamed: 1_level_0,IdPassageiro,Sobreviveu,Idade,IrmaosConjuge,PaisFilhos,Tarifa
Sexo,Classe,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
FEMININO,1,469.212766,0.968085,34.611765,0.553191,0.457447,106.125745
FEMININO,2,443.105263,0.921053,28.722973,0.486842,0.605263,21.970132
FEMININO,3,399.729167,0.5,21.75,0.895833,0.798611,16.119097
MASCULINO,1,455.729508,0.368852,41.281386,0.311475,0.278689,67.226066
MASCULINO,2,447.962963,0.157407,30.740707,0.342593,0.222222,19.741759
MASCULINO,3,455.51585,0.135447,26.507589,0.498559,0.224784,12.66196


In [38]:
"""Uma das mulhores visualçizações dos dados é feita com o crosstab onde passamos por parâmetro 2 colunas para
os dados de ambas se cruzarem e gerar um quadro de vizualização. Sendo assim podemos destacar:
De 216 pessoas de 1ª classe 80 morreram e 136 sobreviveram
De 184 pessoas de 2ª classe 97 morreram e 87 sobreviveram
De 491 pessoas de 3ª classe 372 morreram e 119 sobreviveram
A coluna vertical All define que de 891 pessoas 549 morreram e de 891 pessoas 342 pessoas sobreviveram"""
pd.crosstab(df['Sobreviveu'], df['Classe'], margins=True)

Classe,1,2,3,All
Sobreviveu,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,80,97,372,549
1,136,87,119,342
All,216,184,491,891


In [39]:
"""Exemplificando novamente com as colunas Sobreviveu e Sexo destacando que:
De 314 mulheres 81 morreram e 233 sobreviveram
De 577 homens 468 morreram e 109 sobreviveram
"""
pd.crosstab(df['Sobreviveu'], df['Sexo'], margins=True)

Sexo,FEMININO,MASCULINO,All
Sobreviveu,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,81,468,549
1,233,109,342
All,314,577,891


In [None]:
"""Um tipo de visualização básica também é utilizando o sort_values para visualizar os dados com base na
ordem da coluna escolhida passada no parâmetro da função sort_values, neste caso Idade:"""
df[['Nome', 'Classe', 'Idade', 'Sexo', 'Sobreviveu']].sort_values('Idade', ascending=True)

Unnamed: 0,Nome,Classe,Idade,Sexo,Sobreviveu
803,"THOMAS, MASTER. ASSAD ALEXANDER",3,0.42,MASCULINO,1
755,"HAMALAINEN, MASTER. VILJO",2,0.67,MASCULINO,1
644,"BACLINI, MISS. EUGENIE",3,0.75,FEMININO,1
469,"BACLINI, MISS. HELENE BARBARA",3,0.75,FEMININO,1
78,"CALDWELL, MASTER. ALDEN GATES",2,0.83,MASCULINO,1
...,...,...,...,...,...
859,"RAZI, MR. RAIHED",3,,MASCULINO,0
863,"SAGE, MISS. DOROTHY EDITH ""DOLLY""",3,,FEMININO,0
868,"VAN MELKEBEKE, MR. PHILEMON",3,,MASCULINO,0
878,"LALEFF, MR. KRISTO",3,,MASCULINO,0


In [41]:
df

Unnamed: 0,IdPassageiro,Sobreviveu,Classe,Nome,Sexo,Idade,IrmaosConjuge,PaisFilhos,Bilhete,Tarifa,Cabine,PortaoEmbarque
0,1,0,3,"BRAUND, MR. OWEN HARRIS",MASCULINO,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"CUMINGS, MRS. JOHN BRADLEY (FLORENCE BRIGGS TH...",FEMININO,38.0,1,0,PC 17599,71.28,C85,C
2,3,1,3,"HEIKKINEN, MISS. LAINA",FEMININO,26.0,0,0,STON/O2. 3101282,7.92,,S
3,4,1,1,"FUTRELLE, MRS. JACQUES HEATH (LILY MAY PEEL)",FEMININO,35.0,1,0,113803,53.10,C123,S
4,5,0,3,"ALLEN, MR. WILLIAM HENRY",MASCULINO,35.0,0,0,373450,8.05,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"MONTVILA, REV. JUOZAS",MASCULINO,27.0,0,0,211536,13.00,,S
887,888,1,1,"GRAHAM, MISS. MARGARET EDITH",FEMININO,19.0,0,0,112053,30.00,B42,S
888,889,0,3,"JOHNSTON, MISS. CATHERINE HELEN ""CARRIE""",FEMININO,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"BEHR, MR. KARL HOWELL",MASCULINO,26.0,0,0,111369,30.00,C148,C
