# Case - Titanic
## Base de Dados
### - Base de dados contendo caracteristicas dos passageiros do Titanic.
## Objetivos:
### - Analisar a taxa de mortalidade de diferente categorias (variáveis), e idetificar se há alguma categoria que possui prioridade para acesso aos bote salva vidas.

## Conhecimentos aplicados
### Estatística:
        - Análise exploratoria das variáveis qualitativas (Tabela de Frequência/Histograma)
        - Análise exploratoria das variáveis quantitativas (Medidas Resumo (Média, Soma e Contagem))
        - Probabilidade (Chance de ocorrer determinado resultado, no caso "Tx sobrevivência")
        - Correlação entre variável qualitativa e variável qualitativa binária (IV "Infomation Value")
### Python:
        - Importar bibliotécas (Pandas/Numpy/DateTime)
        - Importar Base de Dados (CSV)
        - Comando de visualização do DataFrame (Display, Head e Tail)
        - Comando de análise de informações sobre as variáveis (info)
        - Comando para visualização de valores nulos (isnull().sum())
        - Conversão de tipo de variável (astype)
        - Utilizar "For In" para execuar tarefas repetitivas (no caso, para criar tabela de frequência de todas variáveis                 qualitativas)
        - Criar tabela de frequência (Value_Counts)
        - Criar tabela com medidas resumos das variáveis quantitativas (describe)
        - Criar colunas condicionais (np.where)
        - Criar variável faixa de valores para variáveis quantitativas (pd.cut)
        - Criar tabelas dinâmicas (pivot_table)
        - Criar funções para execução de tarefas repetitivas (def)
        - Criar novas colunas para o DataFrame
        - Ordenar DataFrame (sort_values)

In [None]:
# Importando Bibliotecas
import pandas as pd
import numpy as np

In [2]:
df_titanic=pd.read_csv('df_titanic.csv')

In [3]:
display(df_titanic)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,725.0,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,712833.0,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7925.0,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,531.0,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,805.0,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,775.0,,Q
891,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,725.0,,S
892,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,725.0,,S


In [4]:
# Renomeando as colunas
df_titanic.rename(columns={'PassengerId':'IdPassageiro','Survived':'Sobreviveu','Pclass':'Classe','Name':'Nome','Sex':'Sexo','Age':'Idade','Fare':'Preco','Cabin':'Cabine','Embarked':'Embarcou'},inplace=True)

In [5]:
df_titanic.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 894 entries, 0 to 893
Data columns (total 12 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   IdPassageiro  894 non-null    int64  
 1   Sobreviveu    894 non-null    int64  
 2   Classe        894 non-null    int64  
 3   Nome          894 non-null    object 
 4   Sexo          894 non-null    object 
 5   Idade         717 non-null    float64
 6   SibSp         894 non-null    int64  
 7   Parch         894 non-null    int64  
 8   Ticket        894 non-null    object 
 9   Preco         894 non-null    float64
 10  Cabine        204 non-null    object 
 11  Embarcou      892 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.9+ KB


In [6]:
# Correção tipo das variáveis
df_titanic['Sobreviveu']=df_titanic['Sobreviveu'].astype(str)
df_titanic['Classe']=df_titanic['Classe'].astype(str)

In [7]:
df_titanic.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 894 entries, 0 to 893
Data columns (total 12 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   IdPassageiro  894 non-null    int64  
 1   Sobreviveu    894 non-null    object 
 2   Classe        894 non-null    object 
 3   Nome          894 non-null    object 
 4   Sexo          894 non-null    object 
 5   Idade         717 non-null    float64
 6   SibSp         894 non-null    int64  
 7   Parch         894 non-null    int64  
 8   Ticket        894 non-null    object 
 9   Preco         894 non-null    float64
 10  Cabine        204 non-null    object 
 11  Embarcou      892 non-null    object 
dtypes: float64(2), int64(3), object(7)
memory usage: 83.9+ KB


In [8]:
# Identificar valores "null"
df_titanic.isnull().sum()

IdPassageiro      0
Sobreviveu        0
Classe            0
Nome              0
Sexo              0
Idade           177
SibSp             0
Parch             0
Ticket            0
Preco             0
Cabine          690
Embarcou          2
dtype: int64

In [9]:
# Histograma das variáveis qualitativas
for coluna in df_titanic.columns:
    if df_titanic[coluna].dtypes =='object':
        df_vc=pd.DataFrame(df_titanic[coluna].value_counts())
        display(df_vc)

Unnamed: 0,Sobreviveu
0,552
1,342


Unnamed: 0,Classe
3,494
1,216
2,184


Unnamed: 0,Nome
"Braund, Mr. Owen Harris",4
"Boulos, Mr. Hanna",1
"Frolicher-Stehli, Mr. Maxmillian",1
"Gilinski, Mr. Eliezer",1
"Murdlin, Mr. Joseph",1
...,...
"Kelly, Miss. Anna Katherine ""Annie Kate""",1
"McCoy, Mr. Bernard",1
"Johnson, Mr. William Cahoone Jr",1
"Keane, Miss. Nora A",1


Unnamed: 0,Sexo
male,580
female,314


Unnamed: 0,Ticket
1601,7
CA. 2343,7
347082,7
3101295,6
CA 2144,6
...,...
9234,1
19988,1
2693,1
PC 17612,1


Unnamed: 0,Cabine
B96 B98,4
G6,4
C23 C25 C27,4
C22 C26,3
F33,3
...,...
E34,1
C7,1
C54,1
E36,1


Unnamed: 0,Embarcou
S,647
C,168
Q,77


In [17]:
# Medidas Resumo das Variáveis Quantitativas (Opção 1)
df_titanic.describe()

Unnamed: 0,IdPassageiro,Idade,SibSp,Parch,Preco
count,894.0,717.0,894.0,894.0,894.0
mean,444.506711,38.351464,0.524609,0.380313,127234.7
std,258.208297,56.416639,1.101235,0.805005,410497.6
min,1.0,1.0,0.0,0.0,0.0
25%,221.25,21.0,0.0,0.0,161.0
50%,444.5,29.0,0.0,0.0,2415.0
75%,667.75,40.0,1.0,0.0,78958.0
max,891.0,705.0,8.0,6.0,5123292.0


In [16]:
# Medidas Resumo das Variáveis Quantitativas (Opção 2)

for coluna in df_titanic.columns:
    if df_titanic[coluna].dtypes =='int64' or df_titanic[coluna].dtypes =='float64':
        df_qt_new=pd.Series({'Variável':coluna,'Soma':df_titanic[coluna].sum(),'Contagem':df_titanic[coluna].count(),
                            'Média':df_titanic[coluna].mean(),'DesvioPadrão':df_titanic[coluna].std(),
                             'Mínimo':df_titanic[coluna].min(),'Máximo':df_titanic[coluna].max()})
        df_qt_new=pd.DataFrame([df_qt_new])
        display(df_qt_new)

Unnamed: 0,Variável,Soma,Contagem,Média,DesvioPadrão,Mínimo,Máximo
0,IdPassageiro,397389,894,444.506711,258.208297,1,891


Unnamed: 0,Variável,Soma,Contagem,Média,DesvioPadrão,Mínimo,Máximo
0,Idade,27498.0,717,38.351464,56.416639,1.0,705.0


Unnamed: 0,Variável,Soma,Contagem,Média,DesvioPadrão,Mínimo,Máximo
0,SibSp,469,894,0.524609,1.101235,0,8


Unnamed: 0,Variável,Soma,Contagem,Média,DesvioPadrão,Mínimo,Máximo
0,Parch,340,894,0.380313,0.805005,0,6


Unnamed: 0,Variável,Soma,Contagem,Média,DesvioPadrão,Mínimo,Máximo
0,Preco,113747819.0,894,127234.696868,410497.551557,0.0,5123292.0


In [18]:
# Analisando as medidas resumos das variáveis quantitativas, percebi um possível "erro" nas informações da idade dos passageiros
# Analisado as informações da idade (coloquei em ordem decrescente para visualizar os maiores valores, que estão "estranhos")
df_titanic['Idade'].sort_values(ascending=False).head(10)
# Tratando a variável idade (notei que o "erro", é que em algumas idades a mesma esta sendo multiplicada por 10)



116    705.0
152    555.0
203    455.0
331    455.0
153    405.0
525    405.0
148    365.0
843    345.0
123    325.0
122    325.0
Name: Idade, dtype: float64

In [19]:
# Corrigindo Valores de Idade (valores superiores a 100, estou dividindo por 10)
df_titanic['Idade']=np.where(df_titanic['Idade']>100,df_titanic['Idade']/10,df_titanic['Idade'])


In [20]:
# Medidas Resumo das Variáveis Quantitativas (Idade Corrigida)
df_titanic.describe()

Unnamed: 0,IdPassageiro,Idade,SibSp,Parch,Preco
count,894.0,717.0,894.0,894.0,894.0
mean,444.506711,30.380753,0.524609,0.380313,127234.7
std,258.208297,14.931901,1.101235,0.805005,410497.6
min,1.0,1.0,0.0,0.0,0.0
25%,221.25,21.0,0.0,0.0,161.0
50%,444.5,28.5,0.0,0.0,2415.0
75%,667.75,39.0,1.0,0.0,78958.0
max,891.0,92.0,8.0,6.0,5123292.0


In [21]:
# Crindo Faixas de Valores (Idade)
# 1º passo - criar lista com os valores que vão ser nosso divisores de faixas
classe_idade=[0,10,20,30,40,50,60,70,80,100]
# 2º passo - criar lista com as faixas
labels_idade=['1 a 10','11 a 20','21 a 30','31 a 40','41 a 50','51 a 60','61 a 70','71 a 80','81+']
# 3º passo - criar coluna no 'df'
df_titanic['Faixa Etária']=pd.cut(x=df_titanic['Idade'],bins=classe_idade,labels=labels_idade)
# Correção tipo das variáveis
df_titanic['Faixa Etária']=df_titanic['Faixa Etária'].astype(str)


In [22]:
# Histograma das variáveis qualitativas (Variáveis corrigidas)
for coluna in df_titanic.columns:
    if df_titanic[coluna].dtypes =='object':
        df_vc=pd.DataFrame(df_titanic[coluna].value_counts())
        display(df_vc)

Unnamed: 0,Sobreviveu
0,552
1,342


Unnamed: 0,Classe
3,494
1,216
2,184


Unnamed: 0,Nome
"Braund, Mr. Owen Harris",4
"Boulos, Mr. Hanna",1
"Frolicher-Stehli, Mr. Maxmillian",1
"Gilinski, Mr. Eliezer",1
"Murdlin, Mr. Joseph",1
...,...
"Kelly, Miss. Anna Katherine ""Annie Kate""",1
"McCoy, Mr. Bernard",1
"Johnson, Mr. William Cahoone Jr",1
"Keane, Miss. Nora A",1


Unnamed: 0,Sexo
male,580
female,314


Unnamed: 0,Ticket
1601,7
CA. 2343,7
347082,7
3101295,6
CA 2144,6
...,...
9234,1
19988,1
2693,1
PC 17612,1


Unnamed: 0,Cabine
B96 B98,4
G6,4
C23 C25 C27,4
C22 C26,3
F33,3
...,...
E34,1
C7,1
C54,1
E36,1


Unnamed: 0,Embarcou
S,647
C,168
Q,77


Unnamed: 0,Faixa Etária
21 a 30,233
,177
31 a 40,155
11 a 20,115
41 a 50,87
1 a 10,57
51 a 60,42
61 a 70,18
71 a 80,7
81+,3


In [16]:
# Criar uma Função que Calcule o IV (Variáveis Qualitativas x Sobreviveu?)
def IV(variavel,nome):
    nome=pd.DataFrame(df_titanic.pivot_table(index=variavel,columns='Sobreviveu',aggfunc={'Sobreviveu':'count'}))
    nome['freq_rel_0']=nome[('Sobreviveu','0')]/nome[('Sobreviveu', '0')].sum()
    nome['freq_rel_1']=nome[('Sobreviveu','1')]/nome[('Sobreviveu', '1')].sum()
    nome['freq_abs']=nome[('Sobreviveu','0')]+nome[('Sobreviveu','1')]
    nome['freq_rel_total']=nome['freq_abs']/nome['freq_abs'].sum()
    nome['tx_sobrevivente']=nome[('Sobreviveu','1')]/nome['freq_abs']
    nome['ODDS']=nome[('Sobreviveu','1')]/nome[('Sobreviveu','0')]
    nome['LN_ODDS']=np.log(nome['ODDS'])
    nome['IV']=(nome['freq_rel_1']-nome['freq_rel_0'])*nome['LN_ODDS']
    display(nome)
    print(nome['IV'].sum())

In [17]:
IV('Classe','df_classe_iv')
IV('Sexo','df_sexo_iv')
IV('Embarcou','df_embarcou_iv')
IV('Faixa Etária','df_faixa_etaria_iv')

Unnamed: 0_level_0,Sobreviveu,Sobreviveu,freq_rel_0,freq_rel_1,freq_abs,freq_rel_total,tx_sobrevivente,ODDS,LN_ODDS,IV
Sobreviveu,0,1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
Classe,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2
1,80,136,0.144928,0.397661,216,0.241611,0.62963,1.7,0.530628,0.134107
2,97,87,0.175725,0.254386,184,0.205817,0.472826,0.896907,-0.108803,-0.008559
3,375,119,0.679348,0.347953,494,0.552573,0.240891,0.317333,-1.147803,0.380376


0.5059244147101499


Unnamed: 0_level_0,Sobreviveu,Sobreviveu,freq_rel_0,freq_rel_1,freq_abs,freq_rel_total,tx_sobrevivente,ODDS,LN_ODDS,IV
Sobreviveu,0,1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
Sexo,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2
female,81,233,0.146739,0.681287,314,0.35123,0.742038,2.876543,1.056589,0.564797
male,471,109,0.853261,0.318713,580,0.64877,0.187931,0.231423,-1.46351,0.782316


1.347112689744976


Unnamed: 0_level_0,Sobreviveu,Sobreviveu,freq_rel_0,freq_rel_1,freq_abs,freq_rel_total,tx_sobrevivente,ODDS,LN_ODDS,IV
Sobreviveu,0,1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
Embarcou,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2
C,75,93,0.13587,0.273529,168,0.188341,0.553571,1.24,0.215111,0.029612
Q,47,30,0.085145,0.088235,77,0.086323,0.38961,0.638298,-0.44895,-0.001387
S,430,217,0.778986,0.638235,647,0.725336,0.335394,0.504651,-0.683888,0.096257


0.1244821401200059


Unnamed: 0_level_0,Sobreviveu,Sobreviveu,freq_rel_0,freq_rel_1,freq_abs,freq_rel_total,tx_sobrevivente,ODDS,LN_ODDS,IV
Sobreviveu,0,1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
Faixa Etária,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2
1 a 10,26.0,31.0,0.047101,0.090643,57.0,0.063973,0.54386,1.192308,0.175891,0.007659
11 a 20,71.0,44.0,0.128623,0.128655,115.0,0.129068,0.382609,0.619718,-0.47849,-1.5e-05
21 a 30,149.0,84.0,0.269928,0.245614,233.0,0.261504,0.360515,0.563758,-0.57313,0.013935
31 a 40,86.0,69.0,0.155797,0.201754,155.0,0.173962,0.445161,0.802326,-0.220241,-0.010122
41 a 50,53.0,34.0,0.096014,0.099415,87.0,0.097643,0.390805,0.641509,-0.443931,-0.00151
51 a 60,25.0,17.0,0.04529,0.049708,42.0,0.047138,0.404762,0.68,-0.385662,-0.001704
61 a 70,13.0,5.0,0.023551,0.01462,18.0,0.020202,0.277778,0.384615,-0.955511,0.008534
71 a 80,4.0,3.0,0.007246,0.008772,7.0,0.007856,0.428571,0.75,-0.287682,-0.000439
81+,,3.0,,0.008772,,,,,,
,125.0,52.0,0.226449,0.152047,177.0,0.198653,0.293785,0.416,-0.87707,0.065256


0.08159390916481947


In [67]:
# Analisando Dados - relacionando variáveis (Classe e Sexo)
df_analise=df_titanic.pivot_table(index=['Classe','Sexo'],columns='Sobreviveu',aggfunc={'IdPassageiro':'count'})
df_analise['Tx_sobrevivente']=df_analise[('IdPassageiro', '1')]/(df_analise[('IdPassageiro', '1')]+df_analise[('IdPassageiro', '0')])

df_analise2=df_titanic.pivot_table(index=['Classe'],columns='Sexo',aggfunc={'IdPassageiro':'count'})
df_analise2['Freq_rel_Female']=df_analise2[('IdPassageiro', 'female')]/df_analise2[('IdPassageiro', 'female')].sum()
df_analise2['Freq_rel_male']=df_analise2[('IdPassageiro', 'male')]/df_analise2[('IdPassageiro', 'male')].sum()
df_analise2['Prop_male/female']=df_analise2[('IdPassageiro',   'male')]/df_analise2[('IdPassageiro',   'female')]

In [68]:
display(df_analise)
display(df_analise2)


Unnamed: 0_level_0,Unnamed: 1_level_0,IdPassageiro,IdPassageiro,Tx_sobrevivente
Unnamed: 0_level_1,Sobreviveu,0,1,Unnamed: 4_level_1
Classe,Sexo,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
1,female,3,91,0.968085
1,male,77,45,0.368852
2,female,6,70,0.921053
2,male,91,17,0.157407
3,female,72,72,0.5
3,male,303,47,0.134286


Unnamed: 0_level_0,IdPassageiro,IdPassageiro,Freq_rel_Female,Freq_rel_male,Prop_male/female
Sexo,female,male,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Classe,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
1,94,122,0.299363,0.210345,1.297872
2,76,108,0.242038,0.186207,1.421053
3,144,350,0.458599,0.603448,2.430556


In [71]:
# Analisando Dados - relacionando variáveis (Faixa Etária e Sexo)
df_analise3=df_titanic.pivot_table(index=['Faixa Etária','Sexo'],columns='Sobreviveu',aggfunc={'IdPassageiro':'count'})
df_analise3['Tx_sobrevivente']=df_analise3[('IdPassageiro', '1')]/(df_analise3[('IdPassageiro', '1')]+df_analise3[('IdPassageiro', '0')])

df_analise4=df_titanic.pivot_table(index=['Faixa Etária'],columns='Sexo',aggfunc={'IdPassageiro':'count'})
df_analise4['Freq_rel_Female']=df_analise4[('IdPassageiro', 'female')]/df_analise4[('IdPassageiro', 'female')].sum()
df_analise4['Freq_rel_male']=df_analise4[('IdPassageiro', 'male')]/df_analise4[('IdPassageiro', 'male')].sum()
df_analise4['Prop_male/female']=df_analise4[('IdPassageiro',   'male')]/df_analise4[('IdPassageiro',   'female')]

In [72]:
display(df_analise3)
display(df_analise4)

Unnamed: 0_level_0,Unnamed: 1_level_0,IdPassageiro,IdPassageiro,Tx_sobrevivente
Unnamed: 0_level_1,Sobreviveu,0,1,Unnamed: 4_level_1
Faixa Etária,Sexo,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
1 a 10,female,12.0,17.0,0.586207
1 a 10,male,14.0,14.0,0.5
11 a 20,female,12.0,34.0,0.73913
11 a 20,male,59.0,10.0,0.144928
21 a 30,female,20.0,61.0,0.753086
21 a 30,male,129.0,23.0,0.151316
31 a 40,female,9.0,46.0,0.836364
31 a 40,male,77.0,23.0,0.23
41 a 50,female,10.0,21.0,0.677419
41 a 50,male,43.0,13.0,0.232143


Unnamed: 0_level_0,IdPassageiro,IdPassageiro,Freq_rel_Female,Freq_rel_male,Prop_male/female
Sexo,female,male,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Faixa Etária,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
1 a 10,29.0,28.0,0.092357,0.048276,0.965517
11 a 20,46.0,69.0,0.146497,0.118966,1.5
21 a 30,81.0,152.0,0.257962,0.262069,1.876543
31 a 40,55.0,100.0,0.175159,0.172414,1.818182
41 a 50,31.0,56.0,0.098726,0.096552,1.806452
51 a 60,14.0,28.0,0.044586,0.048276,2.0
61 a 70,3.0,15.0,0.009554,0.025862,5.0
71 a 80,2.0,5.0,0.006369,0.008621,2.5
81+,,3.0,,0.005172,
,53.0,124.0,0.16879,0.213793,2.339623


In [None]:
# Insights
# 1 - Taxa de sobrevivência das mulheres é muito superior ao dos homens, essa diferença pode se por conta de a mulher ter
# prioridade para embarcar nos bote salva vidas
# 2 - Taxa de sobrevivêcia de crianças e idosos (70+) é superior as demais faixas etárias,essa diferença pode se por conta 
# de a crianças e idosos terem prioridade para embarcar nos bote salva vidas
# 3 - Taxa de sobrevivencia das pessoas que estavam de terceira classe é inferior ao das pessoas que estavam de primeira
# e segunda classe, isso pode ser causado por dois fatores, primeiro, fato dos passageiros de terceira classe ter maior
# dificuldade de acesso aos botes, segundo, pelo fato de haver uma maior proporção (homem/mulher) do que em outras classes.