In [40]:
#Importações
import pandas as pd

In [41]:
#Passando os dados do arquivo train.csv para um DataFrame
df = pd.read_csv('train.csv')

In [42]:
#Renomeando as colunas
df.columns = ['IdPassageiro', 'Sobreviveu', 'Classe', 'Nome', 'Sexo', 'Idade', 'IrmaosConjuge',
       'PaisFilhos', 'Bilhete', 'Tarifa', 'Cabine', 'PortaoEmbarque']

In [43]:
'''Tratando os dados do tipo string e object em letras maiúscula para melhor resultados em pesquisas
O método map faz um mapeamento por todo o DataFrame utilizando a função lambda que percorre as colunas
e quando itendifica uma coluna do tipo STR ou OBJECT ela faz o tratamento.
Se o valor não está nas características desejada o else faz deixar como está'''
df = df.map(lambda x: x.upper().strip() if isinstance(x, str or object) else x)

In [44]:
#Formatando a coluna Tarifa para duas casas decimais
df['Tarifa'] = df['Tarifa'].round(2)

In [45]:
#Calculando a média de tarifa e arredondando o valor
df['Tarifa'].mean().round()

np.float64(32.0)

In [46]:
'''Calculando a média de tarifa de uma forma 'manual somando todos os valores da coluna tarida
e dividindo com o tamanho de indexes da mesma coluna'''
(df['Tarifa'].sum() / len(df['Tarifa'])).round()

np.float64(32.0)

In [47]:
#Calculando a média de idade e arredondando
df['Idade'].mean().round()

np.float64(30.0)

In [48]:
#Identificando o maior valor da coluna Idade com iloc
df['Idade'].iloc[df['Idade'].idxmax()]

np.float64(80.0)

In [49]:
#Obtendo os dados do index do maior valor da coluna Idade utilizando loc
df[['Nome', 'Idade', 'Sexo', 'Classe', 'Sobreviveu']].loc[df['Idade'].idxmax()]

Nome          BARKWORTH, MR. ALGERNON HENRY WILSON
Idade                                         80.0
Sexo                                          MALE
Classe                                           1
Sobreviveu                                       1
Name: 630, dtype: object

In [50]:
"""Traduzindo os valores de uma coluna utilizando a função replace para fazer amudança no DataFrame. 
Funcionaria também da seguinte maneira:
df['Sexo'] = df['Sexo'].map({'FEMALE':'FEMININO', 'MALE':'MASCULINO'})
O que eu faço é basicamente por exemplo: Buscar os valores 'FEMALE' na coluna e mudar para 'FEMININO' e da mesma forma
para o 'MALE' transformando em 'MASCULINO'."""
df['Sexo'] = df['Sexo'].replace({'FEMALE': 'FEMININO', 'MALE':'MASCULINO'})

In [51]:
'''Este código é somente para efeito de visualização.
Mas com este exemplo podemos fazer alterações para dois valores e transforma-los em um.'''
df['Sexo'].replace(['FEMININO','MASCULINO'], 'PESSOA')

0      PESSOA
1      PESSOA
2      PESSOA
3      PESSOA
4      PESSOA
        ...  
886    PESSOA
887    PESSOA
888    PESSOA
889    PESSOA
890    PESSOA
Name: Sexo, Length: 891, dtype: object

In [52]:
"""Aqui estamos agrupando colunas utilizando a função groupby e exibindo estatísticas baseadas nas colunas
mencionadas dentro do groupby e passando como parâmetro numeric_only=True dentro da função mean para mapear
somente as colunas que possuem valores que possibilitan cálculo mesmo que o seu cálculo não tenha uma
visualização interessante por exemplo as colunas IdPassageiro, classe, IrmaosConjuge e PaisFilhos.
Com a exibição deste dados nas colunas que mais fazem sentido podemos observar:
Taxa de sobrevivência para o sexo FEMININO = 74%
Texa de sobrevivência para o sexo MASCULINO = 18-19%
Média da idade das mulheres a bordo = 23
Média da idade dos homens a bordo = 24
Média de tarifa paga das mulheres = ₤44
Média de tarifa paga dos homens = ₤25"""
#Exibindo a média das colunas numéricas agrupadas por sexo
df.groupby('Sexo').mean(numeric_only=True)

Unnamed: 0_level_0,IdPassageiro,Sobreviveu,Classe,Idade,IrmaosConjuge,PaisFilhos,Tarifa
Sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
FEMININO,431.028662,0.742038,2.159236,27.915709,0.694268,0.649682,44.479936
MASCULINO,454.147314,0.188908,2.389948,30.726645,0.429809,0.235702,25.524073


In [53]:
"""Esta visualização é agrupada por duas colunas (Sexo e Classe) onde é criado dois blocos (FEMININO e MASCULINO)
e dentro de cada bloco são distribuidos os valores por classe, logo podemos visualizar os dados da seguinte forma:
96-97% das mulheres de 1ª classe sobreviveram
92% das mulheres de 2ª classe sobreviveram
50% das mulheres de 3ª classe sobreviveram
-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=
36-37% dos homens de 1ª classe sobreviveram
15-16% dos homens de 2ª classe sobreviveram
13% dos homens de 3ª classe sobreviveram"""
df.groupby(['Sexo','Classe']).mean(numeric_only=True)

Unnamed: 0_level_0,Unnamed: 1_level_0,IdPassageiro,Sobreviveu,Idade,IrmaosConjuge,PaisFilhos,Tarifa
Sexo,Classe,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
FEMININO,1,469.212766,0.968085,34.611765,0.553191,0.457447,106.125745
FEMININO,2,443.105263,0.921053,28.722973,0.486842,0.605263,21.970132
FEMININO,3,399.729167,0.5,21.75,0.895833,0.798611,16.119097
MASCULINO,1,455.729508,0.368852,41.281386,0.311475,0.278689,67.226066
MASCULINO,2,447.962963,0.157407,30.740707,0.342593,0.222222,19.741759
MASCULINO,3,455.51585,0.135447,26.507589,0.498559,0.224784,12.66196


In [54]:
"""Uma das mulhores visualçizações dos dados é feita com o crosstab onde passamos por parâmetro 2 colunas para
os dados de ambas se cruzarem e gerar um quadro de vizualização. Sendo assim podemos destacar:
De 216 pessoas de 1ª classe 80 morreram e 136 sobreviveram
De 184 pessoas de 2ª classe 97 morreram e 87 sobreviveram
De 491 pessoas de 3ª classe 372 morreram e 119 sobreviveram
A coluna vertical All define que de 891 pessoas 549 morreram e de 891 pessoas 342 pessoas sobreviveram"""
pd.crosstab(df['Sobreviveu'], df['Classe'], margins=True)

Classe,1,2,3,All
Sobreviveu,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,80,97,372,549
1,136,87,119,342
All,216,184,491,891


In [55]:
"""Exemplificando novamente com as colunas Sobreviveu e Sexo destacando que:
De 314 mulheres 81 morreram e 233 sobreviveram
De 577 homens 468 morreram e 109 sobreviveram
"""
pd.crosstab(df['Sobreviveu'], df['Sexo'], margins=True)

Sexo,FEMININO,MASCULINO,All
Sobreviveu,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,81,468,549
1,233,109,342
All,314,577,891


In [56]:
"""Um tipo de visualização básica também é utilizando o sort_values para visualizar os dados com base na
ordem da coluna escolhida passada no parâmetro da função sort_values, neste caso Idade:"""
df[['Nome', 'Classe', 'Idade', 'Sexo', 'Sobreviveu']].sort_values('Idade', ascending=True)

Unnamed: 0,Nome,Classe,Idade,Sexo,Sobreviveu
803,"THOMAS, MASTER. ASSAD ALEXANDER",3,0.42,MASCULINO,1
755,"HAMALAINEN, MASTER. VILJO",2,0.67,MASCULINO,1
644,"BACLINI, MISS. EUGENIE",3,0.75,FEMININO,1
469,"BACLINI, MISS. HELENE BARBARA",3,0.75,FEMININO,1
78,"CALDWELL, MASTER. ALDEN GATES",2,0.83,MASCULINO,1
...,...,...,...,...,...
859,"RAZI, MR. RAIHED",3,,MASCULINO,0
863,"SAGE, MISS. DOROTHY EDITH ""DOLLY""",3,,FEMININO,0
868,"VAN MELKEBEKE, MR. PHILEMON",3,,MASCULINO,0
878,"LALEFF, MR. KRISTO",3,,MASCULINO,0


In [57]:
"""Outra visualização básica também é utilizando o sort_index que simplesmente vai organizar os indexes
passando como parâmetro ascending=False para mostrar do último valor para o primeiro"""
df[['Nome', 'Classe', 'Idade', 'Sexo', 'Sobreviveu']].sort_index(ascending=False)

Unnamed: 0,Nome,Classe,Idade,Sexo,Sobreviveu
890,"DOOLEY, MR. PATRICK",3,32.0,MASCULINO,0
889,"BEHR, MR. KARL HOWELL",1,26.0,MASCULINO,1
888,"JOHNSTON, MISS. CATHERINE HELEN ""CARRIE""",3,,FEMININO,0
887,"GRAHAM, MISS. MARGARET EDITH",1,19.0,FEMININO,1
886,"MONTVILA, REV. JUOZAS",2,27.0,MASCULINO,0
...,...,...,...,...,...
4,"ALLEN, MR. WILLIAM HENRY",3,35.0,MASCULINO,0
3,"FUTRELLE, MRS. JACQUES HEATH (LILY MAY PEEL)",1,35.0,FEMININO,1
2,"HEIKKINEN, MISS. LAINA",3,26.0,FEMININO,1
1,"CUMINGS, MRS. JOHN BRADLEY (FLORENCE BRIGGS TH...",1,38.0,FEMININO,1


In [58]:
"""Uma das principais formas de verificar inconsistência nos dados é usando a função isnull()
isso retornará resultados booleanos(False ou True) sendo False para um dado que não está incompleto e
True quando se trata de um dado incompleto."""
df.isnull()

Unnamed: 0,IdPassageiro,Sobreviveu,Classe,Nome,Sexo,Idade,IrmaosConjuge,PaisFilhos,Bilhete,Tarifa,Cabine,PortaoEmbarque
0,False,False,False,False,False,False,False,False,False,False,True,False
1,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,True,False
3,False,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,True,False
...,...,...,...,...,...,...,...,...,...,...,...,...
886,False,False,False,False,False,False,False,False,False,False,True,False
887,False,False,False,False,False,False,False,False,False,False,False,False
888,False,False,False,False,False,True,False,False,False,False,True,False
889,False,False,False,False,False,False,False,False,False,False,False,False


In [59]:
"""Uma forma mais acertiva para verificar de um modo mais amplo e verificar dados que estão faltando,
é utilizar além da função isnull é utilizando também a função sum() que retornará uma lista númerica com
as somas de cada coluna para os dados faltantes. Reparamos então:
Na coluna Idade 177 dados em falta
Na coluna Cabine 687 dados em falta
Na coluna PortaoEmbarque 2 dados em falta
Para um modelo preditivo uma coluna com muitos dados em falta pode ser prejudicial para os resultados,
sendo assim aconselhado em não utilizar esta coluna em comparações e simulações, neste caso a coluna
PortaoEmbarque."""
df.isnull().sum()

IdPassageiro        0
Sobreviveu          0
Classe              0
Nome                0
Sexo                0
Idade             177
IrmaosConjuge       0
PaisFilhos          0
Bilhete             0
Tarifa              0
Cabine            687
PortaoEmbarque      2
dtype: int64

In [60]:
"""Dentro do isnull além de fazer a visualização de todo o DataFrame podemos utilizar para uma
coluna específica:"""
df['PortaoEmbarque'].isnull()

0      False
1      False
2      False
3      False
4      False
       ...  
886    False
887    False
888    False
889    False
890    False
Name: PortaoEmbarque, Length: 891, dtype: bool

In [61]:
"""Com df['Coluna'].isnull podemos fazer a leitura direta dos index juntamente com a função loc,
observando entao que o index 61 e o index 829 são os indexes responsáveis pelos dados faltantes."""
df.loc[df['PortaoEmbarque'].isnull()]

Unnamed: 0,IdPassageiro,Sobreviveu,Classe,Nome,Sexo,Idade,IrmaosConjuge,PaisFilhos,Bilhete,Tarifa,Cabine,PortaoEmbarque
61,62,1,1,"ICARD, MISS. AMELIE",FEMININO,38.0,0,0,113572,80.0,B28,
829,830,1,1,"STONE, MRS. GEORGE NELSON (MARTHA EVELYN)",FEMININO,62.0,0,0,113572,80.0,B28,


In [62]:
"""Uma forma de analisar a estrutura dos dados de uma coluna é utilizando a função unique() que
tratá os valores únicos da respectiva coluna por exemplo:
Queremos tratar esses 2 dados faltantes da coluna PortaoEmbarque e queremos saber os valores que estão
disponíveis nesta coluna. Aplicando da seguinta maneira: df['PortaoEmbarque'].unique():
Teremos então a visão de que nesta coluna os valores que ocorrem são:
S, C, Q, nan. Isso significa que podemos substituir os valores faltantes por S, C ou Q."""
df['PortaoEmbarque'].unique()

array(['S', 'C', 'Q', nan], dtype=object)

In [63]:
"""Uma forma comum para podermos apontar o dado a ser preenchido é utilizando a função mode() que
identifica o valor na coluna que mais ocorre. A linha de código df['PortaoEmbarque'].mode() nos retorna:
S, assim sabemos agora que a maioria das pessoas que embarcaram no Titanic utilizaram o portão de embarque S."""
df['PortaoEmbarque'].mode()

0    S
Name: PortaoEmbarque, dtype: object

In [64]:
"""Uma forma visual para podermos comparar os dados de um Data Frame e seus atributos é utilizando a função
describe() que nos retornará descrições como: count, unique, top, freq. dentro da função devemos passar oque
será incluso nesta visualização, neste caso estou passando include='O' para incluir as coluna de tipo String/
Object.
Observamos então que:
Temos uma contagem de 889(+2 por conta dos dados em branco) pessoas que embarcaram
3 valores unicos(unique) que são os portões S, C e Q
O portão S é identificado como top pois é ele que mais ocorre na coluna
O portão S identificado como freq indica que ele tem uma frequência de 644 ocorrências de 891 pessoas que
embarcaram. Ou seja, definitivamente podemos supor que os dados faltantes podem ser alocados no portão S."""
df.describe(include='O')

Unnamed: 0,Nome,Sexo,Bilhete,Cabine,PortaoEmbarque
count,891,891,891,204,889
unique,891,2,681,147,3
top,"DOOLEY, MR. PATRICK",MASCULINO,347082,G6,S
freq,1,577,7,4,644
