# Análise dados Titanic

Neste Lab vamos analisar os dados do Titanic. Estes dados representam os passageiros do navio e suas características. Podemos dizer que a variável target seria se um passageiro sobreviveu ou não, representado pela variável **Survived**

**Quais hipóteses queremos testar?**
- Há mais mulheres que sobreviveram do que homens;
- Pessoas de classes maiores tendem a sobreviver mais;
- Pessoas com familiares no návio, possue uma taxa de  sobrevivência maior.

## Vamos começar importando as bibliotecas necessária

In [20]:
import pandas as pd
import numpy as np

## Overview dos Dados

**Subir CSV para Colab, ler CSV para datataframe e apresentar uma visão geral dos dados**

In [100]:
df = pd.read_csv("titanic.csv")

In [101]:
df.head(10)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,665,1,3.0,"Lindqvist, Mr. Eino William",male,20.0,1,0,STON/O 2. 3101285,-3.123435,,S
1,646,1,1.0,"Harper, Mr. Henry Sleeper",MALE,48.0,1,0,PC 17572,76.7292,D33,C
2,181,0,3.0,"Sage, Miss. Constance Gladys",FEMALE,,8,2,CA. 2343,69.55,,S
3,292,1,1.0,"Bishop, Mrs. Dickinson H (Helen Walton)",female,19.0,1,0,11967,91.0792,B49,C
4,823,0,1.0,"Reuchlin, Jonkheer. John George",male,38.0,0,0,19972,0.0,,S
5,400,1,2.0,"Trout, Mrs. William H (Jessie L)",female,28.0,0,0,240929,12.65,,PORT S
6,541,1,1.0,"Crosby, Miss. Harriet R",female,36.0,0,2,WE/P 5735,71.0,B22,PORT S
7,341,1,2.0,"Navratil, Master. Edmond Roger",male,2.0,1,1,230080,26.0,F2,PORT S
8,581,1,,"Christy, Miss. Julie Rachel",female,25.0,1,1,237789,30.0,,S
9,843,1,1.0,"Serepeca, Miss. Augusta",female,30.0,0,0,113798,31.0,,C


**Significado de cada coluna:**

`PassengerId` = Id dos passageiros;

`Survived` = Informa se o passageiro sobreviveu. Onde "1" o passageiro sobreviveu e "0" ele morreu;

`Pclass` = Indica qual é a classe que a pessoa estava acomodada;

`Name` = Nome do indivíduo;

`Sex` = Sexo da pessoa;

`Age` = Idade dos passageiros;

`SibSp` = Essa coluna informa a quantidade de irmãos e parceiro que a pessoa tinha;

`Parch` = Quantidade de pais e filhos que tinha no návio;

`Ticket` = Id da passagem;

`Fare` = Quanto que custou a passagem;

`Cabin` = Número da cabine;

`Embarked` = Qual porto o passageiro embarcou.

In [102]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1098 entries, 0 to 1097
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  1098 non-null   int64  
 1   Survived     1098 non-null   int64  
 2   Pclass       983 non-null    float64
 3   Name         1098 non-null   object 
 4   Sex          1098 non-null   object 
 5   Age          875 non-null    float64
 6   SibSp        1098 non-null   int64  
 7   Parch        1098 non-null   int64  
 8   Ticket       1098 non-null   object 
 9   Fare         1082 non-null   float64
 10  Cabin        250 non-null    object 
 11  Embarked     1095 non-null   object 
dtypes: float64(3), int64(4), object(5)
memory usage: 103.1+ KB


In [103]:
# Overview apenas das colunas númericas
df.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,1098.0,1098.0,983.0,875.0,1098.0,1098.0,1082.0
mean,450.107468,0.386157,2.323499,29.457909,0.526412,0.3898,29.271991
std,258.784719,0.487089,0.83161,14.437504,1.142425,0.810801,48.490367
min,1.0,0.0,1.0,0.42,0.0,0.0,-88.096315
25%,226.25,0.0,2.0,20.0,0.0,0.0,7.8594
50%,449.5,0.0,3.0,28.0,0.0,0.0,13.0
75%,675.75,1.0,3.0,38.0,1.0,0.0,30.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


**Visão detalhada das colunas**

- Variaveis categoricas:

In [104]:
df['Sex'].value_counts()

male      471
MALE      241
female    238
FEMALE    148
Name: Sex, dtype: int64

In [105]:
df['Pclass'].value_counts(dropna = False)

3.0    550
1.0    232
2.0    201
NaN    115
Name: Pclass, dtype: int64

In [106]:
df['Embarked'].value_counts(dropna = False)

S         445
PORT S    348
C         122
PORT C     87
PORT Q     50
Q          43
NaN         3
Name: Embarked, dtype: int64

- Variaveis quantitativas:

In [107]:
df['Age'].quantile(np.linspace(0, 1, 11))

0.0     0.42
0.1    13.00
0.2    19.00
0.3    22.00
0.4    25.00
0.5    28.00
0.6    31.00
0.7    36.00
0.8    41.00
0.9    49.00
1.0    80.00
Name: Age, dtype: float64

In [108]:
df['Fare'].quantile(np.linspace(0, 1, 11))

0.0    -88.096315
0.1      7.050000
0.2      7.750000
0.3      7.895800
0.4      9.478320
0.5     13.000000
0.6     18.787500
0.7     26.387500
0.8     39.000000
0.9     76.729200
1.0    512.329200
Name: Fare, dtype: float64

## Corrigir Inconsistências

Vamos analisar se existem inconsistências nos dados como dados duplicados, valores faltantes entre outros. 

Para cada problema, é necessário analisar se existem padrões e qual a melhor maneira de corrigir.

### Analisar e corrigir dados duplicados

In [80]:
# Verificando quantas linhas duplicatas tem o dataframe
df.duplicated().sum()

33

In [81]:
# Deletando todas as linhas que possui valores duplicados
df = df.drop_duplicates()
# ou: df.drop_duplicates(inplace = True)

In [82]:
# Validando se o nosso ajuste deu certo
df.duplicated().sum()

0

### Analisar e corrigir dados faltantes/incorretos

**Tratando Coluna Sex**

A coluna possui erro de grafia, temos que padronizar os valores.

In [33]:
df['Sex'].unique()

array(['male', 'MALE', 'FEMALE', 'female'], dtype=object)

In [34]:
df['Sex'] = df['Sex'].str.lower()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """Entry point for launching an IPython kernel.


In [35]:
df['Sex'].unique()

array(['male', 'female'], dtype=object)

**Tratando Coluna Embarked**

A coluna também possui erro de grafia e temos que padronizar os valores, porém essa coluna também possui valores faltantes.

In [36]:
df['Embarked'].unique()

array(['S', 'C', 'PORT S', 'PORT Q', 'Q', 'PORT C', nan], dtype=object)

In [37]:
embarked_dict = {
    'S' : 'PORT S', 
    'C' : "PORT C", 
    'PORT S' : 'PORT S', 
    'PORT Q' : 'PORT Q', 
    'Q' : 'PORT Q', 
    'PORT C' : 'PORT C'
}

In [38]:
df['Embarked'] = df['Embarked'].map(embarked_dict)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """Entry point for launching an IPython kernel.


In [39]:
df['Embarked'].unique()

array(['PORT S', 'PORT C', 'PORT Q', nan], dtype=object)

In [40]:
df['Embarked'].value_counts(dropna = False)

PORT S    685
PORT C    175
PORT Q     82
NaN         2
Name: Embarked, dtype: int64

In [41]:
# Como na nossa amostra só há 2 valores ausentes não é possível identificar um padrão entre os dados
df['Embarked'] = df['Embarked'].fillna("UNDEFINED")

In [42]:
df['Embarked'].value_counts(dropna = False)

PORT S       685
PORT C       175
PORT Q        82
UNDEFINED      2
Name: Embarked, dtype: int64

**Tratando Coluna Age**

Valores faltantes.

In [43]:
df[df['Age'].isna()].head(10)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
2,181,0,3.0,"Sage, Miss. Constance Gladys",female,,8,2,CA. 2343,69.55,,PORT S
13,728,1,,"Mannion, Miss. Margareth",female,,0,0,36866,7.7375,,PORT Q
14,414,0,2.0,"Cunningham, Mr. Alfred Fleming",male,,0,0,239853,0.0,,PORT S
16,389,0,3.0,"Sadlier, Mr. Matthew",male,,0,0,367655,7.7292,,PORT Q
17,739,0,3.0,"Ivanoff, Mr. Kanio",male,,0,0,349201,7.8958,,PORT S
19,681,0,,"Peters, Miss. Katie",female,,0,0,330935,8.1375,,PORT Q
26,833,0,3.0,"Saad, Mr. Amin",male,,0,0,2671,7.2292,,PORT C
37,741,1,1.0,"Hawksford, Mr. Walter James",male,,0,0,16988,30.0,D45,PORT S
39,565,0,3.0,"Meanwell, Miss. (Marion Ogden)",female,,0,0,SOTON/O.Q. 392087,-3.674268,,PORT S
51,359,1,3.0,"McGovern, Miss. Mary",female,,0,0,330931,7.8792,,PORT Q


In [44]:
df['Age'].isna().sum()

189

In [45]:
(df['Age'].isna().sum() / len(df)) * 100

20.021186440677965

In [46]:
df[df['Age'].isna()]['Sex'].value_counts()

male      131
female     58
Name: Sex, dtype: int64

In [47]:
# Valores relativos a população da amostra
df[df['Age'].isna()]['Sex'].value_counts() / df['Sex'].value_counts()

male      0.213703
female    0.175227
Name: Sex, dtype: float64

In [48]:
df[df['Age'].isna()]['Survived'].value_counts() / df['Survived'].value_counts()

0    0.227979
1    0.156164
Name: Survived, dtype: float64

In [49]:
df.groupby('Sex')['Age'].mean()

Sex
female    28.062271
male      30.704710
Name: Age, dtype: float64

In [50]:
df['Family'] = df['SibSp'] + df['Parch']

In [51]:
df['Family'].describe()

count    944.000000
mean       0.908898
std        1.647056
min        0.000000
25%        0.000000
50%        0.000000
75%        1.000000
max       10.000000
Name: Family, dtype: float64

In [52]:
df['Has_Relatives'] = df['Family'] > 0

In [53]:
df['Has_Relatives'].value_counts()

False    572
True     372
Name: Has_Relatives, dtype: int64

In [54]:
df.groupby('Has_Relatives')['Age'].mean()

Has_Relatives
False    32.074419
True     26.672831
Name: Age, dtype: float64

In [55]:
df.groupby('Pclass')['Age'].mean()

Pclass
1.0    38.423509
2.0    30.227346
3.0    25.234370
Name: Age, dtype: float64

OBS: Identificado a coluna "Age" está fortemente relacionada a coluna "Pclass".

In [56]:
df['Age'] = df['Age'].fillna(df.groupby('Pclass')['Age'].transform('mean'))

In [57]:
df['Age'].isna().sum()

19

In [58]:
df['Age'] = df['Age'].fillna(df.groupby('Has_Relatives')['Age'].transform('mean'))

In [59]:
df['Age'].isna().sum()

0

In [60]:
df['Age'].describe()

count    944.000000
mean      29.389952
std       12.996794
min        0.420000
25%       22.000000
50%       27.000000
75%       36.000000
max       80.000000
Name: Age, dtype: float64

**Tratando a coluna Pclass**

Valores faltantes.

In [61]:
(df['Pclass'].isna().sum() / len(df)) * 100

10.59322033898305

In [62]:
df.groupby('Pclass')['Fare'].mean()

Pclass
1.0    77.092913
2.0    18.065069
3.0    12.157590
Name: Fare, dtype: float64

In [63]:
df.groupby('Pclass')['Fare'].quantile([0.25, 0.75])

Pclass      
1.0     0.25    30.000000
        0.75    90.539600
2.0     0.25    11.500000
        0.75    26.000000
3.0     0.25     7.732275
        0.75    15.136450
Name: Fare, dtype: float64

In [64]:
def preencher_pclass(row):
  if pd.isna(row['Pclass']):
    if row['Fare'] < 15:
      return 3.0
    elif row['Fare'] < 26:
      return 2.0
    else:
      return 1.0
  else:
    return row['Pclass']

In [65]:
# Testando função:
linha = df[df['Pclass'].isna()].iloc[0]
preencher_pclass(linha)

1.0

In [66]:
df[df['Pclass'].isna()].iloc[0]

PassengerId                              581
Survived                                   1
Pclass                                   NaN
Name             Christy, Miss. Julie Rachel
Sex                                   female
Age                                     25.0
SibSp                                      1
Parch                                      1
Ticket                                237789
Fare                                    30.0
Cabin                                    NaN
Embarked                              PORT S
Family                                     2
Has_Relatives                           True
Name: 8, dtype: object

In [67]:
df['Pclass'] = df.apply(preencher_pclass, axis = 1)

In [68]:
df['Pclass'].isna().sum()

0

**Tratando a coluna fare**

Valores zerados, negativos e faltantes.

In [69]:
df['Fare']

0      -3.123435
1      76.729200
2      69.550000
3      91.079200
4       0.000000
         ...    
939   -27.186775
940    13.000000
941    30.000000
942    23.450000
943    30.000000
Name: Fare, Length: 944, dtype: float64

In [70]:
df['Fare'].isna().sum()

14

In [71]:
(df['Fare'] <= 0).sum()

76

In [72]:
df['Fare'] = np.where(df['Fare'] <= 0, np.nan, df['Fare'])

In [73]:
df['Fare'].isna().sum()

90

In [74]:
# Vimos anteriormente que o Pclass afeta muito a nossa coluna Fare
df['Fare'].fillna(df.groupby('Pclass')['Fare'].transform('mean'), inplace = True)

In [75]:
df['Fare'].isna().sum()

0

In [76]:
(df['Fare'] == 0).sum()

0

In [77]:
df['Fare'].quantile(np.linspace(0, 1, 11))

0.0      4.01250
0.1      7.75000
0.2      7.89580
0.3      8.66250
0.4     13.00000
0.5     14.45420
0.6     20.80607
0.7     26.55000
0.8     41.90752
0.9     79.65000
1.0    512.32920
Name: Fare, dtype: float64

In [78]:
df['Fare'].mean()

32.561701167038336

## Analisar probabilidade de sobrevivência por grupos

**Hipótese 1: Há mais mulheres que sobreviveram do que homens.**

In [79]:
df['Survived'].mean()

0.3866525423728814

In [83]:
df.groupby('Sex')['Survived'].mean()

Sex
female    0.744548
male      0.189831
Name: Survived, dtype: float64

**Conclusão:**

Aproximadamente 38% das pessoas que estavam no Titanic sobreviveram e podemos concluir que 74% dessa porcentagem eram mulheres, comprovando que a nossa hipótese é <u>verdadeira</u>.

**Hipótese 2: Pessoas de classes maiores tendem a sobreviver mais.**

In [91]:
df.groupby('Pclass')['Survived'].mean()

Pclass
1.0    0.608696
2.0    0.463277
3.0    0.255952
Name: Survived, dtype: float64

**Conclusão:**

Da nossa taxa de 38% de sobrevivência, aproximadamente:

60% = 1º classe;

46% = 2º classe;

23% = 3º classe.

Mostrando que a nossa hipótese é <u>verdadeira</u>, pois quando maior a classe, maior a taxa de sobrevivẽncia.

**Hipótese 3: Pessoas com familiares no návio, possue uma taxa de  sobrevivência maior.**

In [99]:
df.groupby('Has_Relatives')['Survived'].mean()

Has_Relatives
False    0.304348
True     0.509749
Name: Survived, dtype: float64

**Conclusão:**

Nossa hipótese é <u>verdadeira</u>, pois da nossa taxa de sobrevivência das pessoas que tem parentes é de 20% a mais.