###  Tratamento de dados utilizando o dataset ["Titanic: Machine Learning from Disaster"](https://web.stanford.edu/class/archive/cs/cs109/cs109.1166/problem12.html)

#### Informações sobre as colunas do dataset:

* Survived (sobreviveu): Um campo "flag" que indica se o passageiro sobreviveu (valor 1) ou não (valor 0).
* Pclass (classe no navio): O passageiro poderia estar na primeira classe ou em outra.
* Name (nome): Nome dos passageiros.
* Sex (gênero): Gênero do passageiro.
* Age (idade): Idade do passageiro.
* Siblings/Spouses Aboard (Irmãos/cônjuges a bordo): Parentes a bordo.
* Parents/Children Aboard (Pais/filhos a bordo): Parentes a bordo.
* Fare (tarifa): Preço pago na passagem.

***

#### Tarefas:

* Extrair informações sobre o dataset:

    - N° de registros e variáveis;

    - Informações sobre os tipos de variáveis e alterações pertinentes;
    
####

* Ajustes/formatação dos dados:

    - Remoção de registros repetidos/duplicados;

    - Unificar as colunas 'Siblings/Spouses Aboard' e 'Parents/Children Aboard';

    - Criar categorias para a idade do passageiro:

    > Passageiros com idades entre 0 e 12 anos: Criança
    
    > Passageiros com idades entre 12 e 18: Adolescente
    
    > Passageiros com idades entre 18 e 65: Adulto
    
    > Passageiros com idade maior que 65: Idoso
    
    
    - Exibir frequências (absoluta e percentual) por categoria;
    
    - Exclusão de colunas desnecessárias.
 
####   
* Perguntas a serem respondidas:

    - Quantas classes distintas (PClass) existem?
    - Qual a quantidade de sobreviventes e não sobreviventes?
    - Quantos idosos estavam a bordo e quantos sobreviveram?
    - Das pessoas que sobreviveram, qual a taxa de sobrevivência entre homens e mulheres?
    - Qual foi o valor médio da passagem entre os que sobreviveram e os que não sobreviveram?

***

In [102]:
# Importação de bibliotecas:

import pandas as pd

In [103]:
# Importação dos dados:

titanic = pd.read_csv('data/titanic.csv')
titanic.head()

Unnamed: 0,Survived,Pclass,Name,Sex,Age,Siblings/Spouses Aboard,Parents/Children Aboard,Fare
0,0,3,Mr. Owen Harris Braund,male,22.0,1,0,7.25
1,1,1,Mrs. John Bradley (Florence Briggs Thayer) Cum...,female,38.0,1,0,71.2833
2,1,3,Miss. Laina Heikkinen,female,26.0,0,0,7.925
3,1,1,Mrs. Jacques Heath (Lily May Peel) Futrelle,female,35.0,1,0,53.1
4,0,3,Mr. William Henry Allen,male,35.0,0,0,8.05


In [104]:
# Mais informações sobre os dados: Quantidade de registros e variáveis

print(f'O dataset possui {titanic.shape[0]} registros e {titanic.shape[1]} variáveis')

O dataset possui 887 registros e 8 variáveis


In [105]:
# Descrição dos tipos de dados presentes:

titanic.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 887 entries, 0 to 886
Data columns (total 8 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   Survived                 887 non-null    int64  
 1   Pclass                   887 non-null    int64  
 2   Name                     887 non-null    object 
 3   Sex                      887 non-null    object 
 4   Age                      887 non-null    float64
 5   Siblings/Spouses Aboard  887 non-null    int64  
 6   Parents/Children Aboard  887 non-null    int64  
 7   Fare                     887 non-null    float64
dtypes: float64(2), int64(4), object(2)
memory usage: 55.6+ KB


In [106]:
# Removendo possíveis registros duplicados:

titanic.drop_duplicates(keep = 'last', inplace = True)

In [107]:
# Alterações de tipo/formatação dos dados:

# Alterando as informações de idade do tipo float para o tipo int:

titanic['Age'] = titanic['Age'].astype(int)

# Passando as informações sobre o gênero para letras maiúsculas:

titanic['Sex'] = titanic['Sex'].str.upper()

In [108]:
# Unificando as colunas 'Siblings/Spouses Aboard' e 'Parents/Children Aboard' em uma nova coluna:

titanic['Relatives_aboard'] = titanic['Siblings/Spouses Aboard'] + titanic['Parents/Children Aboard']
titanic.head()

Unnamed: 0,Survived,Pclass,Name,Sex,Age,Siblings/Spouses Aboard,Parents/Children Aboard,Fare,Relatives_aboard
0,0,3,Mr. Owen Harris Braund,MALE,22,1,0,7.25,1
1,1,1,Mrs. John Bradley (Florence Briggs Thayer) Cum...,FEMALE,38,1,0,71.2833,1
2,1,3,Miss. Laina Heikkinen,FEMALE,26,0,0,7.925,0
3,1,1,Mrs. Jacques Heath (Lily May Peel) Futrelle,FEMALE,35,1,0,53.1,1
4,0,3,Mr. William Henry Allen,MALE,35,0,0,8.05,0


In [109]:
# Extraindo o valor da idade mínima e da idade máxima dos passageiros a fim de categorizar as idades:

print(f'O passageiro mais novo possuía {titanic["Age"].min()} anos e o mais velho, {titanic["Age"].max()} anos')

O passageiro mais novo possuía 0 anos e o mais velho, 80 anos


In [110]:
# Categorizando a variável 'Age':

faixas = [0,12,18,65,80]
labels = ['Criança', 'Adolescente', 'Adulto', 'Idoso']

titanic['Faixa_etária'] = pd.cut(x = titanic['Age'], bins = faixas, labels = labels, include_lowest = True )

titanic.head()

Unnamed: 0,Survived,Pclass,Name,Sex,Age,Siblings/Spouses Aboard,Parents/Children Aboard,Fare,Relatives_aboard,Faixa_etária
0,0,3,Mr. Owen Harris Braund,MALE,22,1,0,7.25,1,Adulto
1,1,1,Mrs. John Bradley (Florence Briggs Thayer) Cum...,FEMALE,38,1,0,71.2833,1,Adulto
2,1,3,Miss. Laina Heikkinen,FEMALE,26,0,0,7.925,0,Adulto
3,1,1,Mrs. Jacques Heath (Lily May Peel) Futrelle,FEMALE,35,1,0,53.1,1,Adulto
4,0,3,Mr. William Henry Allen,MALE,35,0,0,8.05,0,Adulto


In [111]:
# Exibindo frequências por categoria:

pd.Categorical(titanic['Faixa_etária']).describe()

Unnamed: 0_level_0,counts,freqs
categories,Unnamed: 1_level_1,Unnamed: 2_level_1
Criança,79,0.089064
Adolescente,87,0.098083
Adulto,711,0.801578
Idoso,10,0.011274


In [112]:
# Excluindo colunas desnecessárias:

titanic.drop(columns = ['Siblings/Spouses Aboard', 'Parents/Children Aboard'], inplace = True)
titanic.head()

Unnamed: 0,Survived,Pclass,Name,Sex,Age,Fare,Relatives_aboard,Faixa_etária
0,0,3,Mr. Owen Harris Braund,MALE,22,7.25,1,Adulto
1,1,1,Mrs. John Bradley (Florence Briggs Thayer) Cum...,FEMALE,38,71.2833,1,Adulto
2,1,3,Miss. Laina Heikkinen,FEMALE,26,7.925,0,Adulto
3,1,1,Mrs. Jacques Heath (Lily May Peel) Futrelle,FEMALE,35,53.1,1,Adulto
4,0,3,Mr. William Henry Allen,MALE,35,8.05,0,Adulto


In [113]:
# Quantas classes distintas (PClass) existem?

titanic['Pclass'].unique()

array([3, 1, 2])

In [114]:
# Qual a quantidade de sobreviventes e não sobreviventes?

filtro_sobreviventes = titanic['Survived'] == 1
filtro_mortos = titanic['Survived'] == 0

sobreviventes = titanic.loc[filtro_sobreviventes].shape[0]
mortos = titanic.loc[filtro_mortos].shape[0]

print(f'Dentre os passageiros listados em nosso dataset, {sobreviventes} sobreviveram e {mortos} faleceram.')

Dentre os passageiros listados em nosso dataset, 342 sobreviveram e 545 faleceram.


In [115]:
# Quantos idosos estavam a bordo e quantos sobreviveram?

filtro_idosos = titanic['Faixa_etária'] == 'Idoso'

idosos = titanic.loc[filtro_idosos].shape[0]
idosos_sobreviventes = titanic.loc[(filtro_idosos) & (filtro_sobreviventes)].shape[0]

print(f'Havia {idosos} idosos a bordo do Titanic. Dentre eles, {idosos_sobreviventes} sobreviveu/sobreviveram.')

Havia 10 idosos a bordo do Titanic. Dentre eles, 1 sobreviveu/sobreviveram.


In [116]:
# Das pessoas que sobreviveram, qual a taxa de sobrevivência entre homens e mulheres?

filtro_homem = titanic['Sex'] == 'MALE'

homens_sobreviventes = titanic.loc[(filtro_sobreviventes) & (filtro_homem)].shape[0]
mulheres_sobreviventes = titanic.loc[(filtro_sobreviventes) & (~filtro_homem)].shape[0]

print(f'Dentre os passageiros sobreviventes, {homens_sobreviventes} eram homens e {mulheres_sobreviventes} eram mulheres.')

Dentre os passageiros sobreviventes, 109 eram homens e 233 eram mulheres.


In [117]:
# Qual a taxa de sobrevivência entre homens e mulheres?

taxa_homens = (homens_sobreviventes *100) / sobreviventes
taxa_mulheres = (mulheres_sobreviventes * 100) / sobreviventes

print(f'A taxa entre homens sobreviventes foi de {taxa_homens}% e a de mulheres foi de {taxa_mulheres}%.')

A taxa entre homens sobreviventes foi de 31.871345029239766% e a de mulheres foi de 68.12865497076024%.


In [118]:
# Qual foi o valor médio da passagem entre os que sobreviveram e os que não sobreviveram?

valor_medio_sobreviventes = titanic.loc[filtro_sobreviventes, 'Fare'].mean().round(2)
valor_medio_nao_sobreviventes = titanic.loc[~filtro_sobreviventes, 'Fare'].mean().round(2)

print(f'O valor médio das passagens dos sobreviventes foi de {valor_medio_sobreviventes} libras, enquanto que o dos mortos foi de {valor_medio_nao_sobreviventes} libras.')

O valor médio das passagens dos sobreviventes foi de 48.4 libras, enquanto que o dos mortos foi de 22.21 libras.
