# Exercicío da Semana - Titanic

### Introdução:

Neste notebook, será realizada  uma análise exploratória dos dados do Titanic. Ele contém informações sobre os passageiros que estavam a bordo do RMS Titanic durante sua viagem inaugural, incluindo detalhes como nome, sexo, idade, classe da cabine, tarifa paga, sobrevivência entre outros.

Além disso conjunto de dados contém as seguintes colunas:

- `sex`: **Gênero / Sexo**
- `age`: **Idade**
- `sibsp`: **Irmãos / Irmãs a bordo**
- `parch`: **Pais / Filhos a bordo do Titanic**
- `fare`: **Tarifa do Passageiro**
- `embarked`: **Porto de Embarque**
- `class`: **Classe do Bilhete em Número**
- `who`: **Categorias (homem, mulher, criança)**
- `alone`: **Estava sozinho no navio ou não**
- `survived`: **Sobrevivência**

Dessa forma, iremos explorar os dados e obter insights a partir deles.

### Carregando o dataset em um DataFrame Pandas e mostrando as primeiras 3 linhas:

In [56]:
import pandas as pd

In [71]:
# Carregar o dataset em um DataFrame Pandas
titanic_data = pd.read_csv('Titanic.csv')  # Substitua 'seu_arquivo.csv' pelo nome do seu arquivo CSV

# Mostrar as primeiras 3 linhas do DataFrame
titanic_data.head(3)

Unnamed: 0,sex,age,sibsp,parch,fare,embarked,class,who,alone,survived
0,male,22.0,1,0,7.25,S,Third,man,False,0
1,female,38.0,1,0,71.2833,C,First,woman,False,1
2,female,26.0,0,0,7.925,S,Third,woman,True,1


### Processamento:

Vou criando uma função de pré-processamento que deverá realizar as ações de deleção de colunas, classificação, remoção de nulos, reset de índice e criação de uma cópia do DataFrame inicial.

In [99]:
 # Deleção de colunas não necessárias
def preprocess_data(titanic_data):
    columns_to_drop = ['fare', 'parch']
    titanic_data = titanic_data.drop(columns=columns_to_drop)
    
    # Retorna o DataFrame após a deleção das colunas
    return titanic_data

titanic_data



Unnamed: 0,sex,age,sibsp,embarked,class,who,alone,survived
0,male,22.0,1,S,Third,man,False,0
1,female,38.0,1,C,First,woman,False,1
2,female,26.0,0,S,Third,woman,True,1
3,female,35.0,1,S,First,woman,False,1
4,male,35.0,0,S,Third,man,True,0
...,...,...,...,...,...,...,...,...
886,male,27.0,0,S,Second,man,True,0
887,female,19.0,0,S,First,woman,True,1
888,female,,1,S,Third,woman,False,0
889,male,26.0,0,C,First,man,True,1


In [102]:
# Ordenar os valores por uma coluna (por exemplo, 'sex')
titanic_data = titanic_data.sort_values(by='age')
titanic_data

Unnamed: 0,sex,age,sibsp,embarked,class,who,alone,survived
803,male,0.42,0,C,Third,child,False,1
755,male,0.67,1,S,Second,child,False,1
644,female,0.75,2,C,Third,child,False,1
469,female,0.75,2,C,Third,child,False,1
831,male,0.83,1,S,Second,child,False,1
...,...,...,...,...,...,...,...,...
859,male,,0,C,Third,man,True,0
863,female,,8,S,Third,woman,False,0
868,male,,0,S,Third,man,True,0
878,male,,0,S,Third,man,True,0


In [104]:
# Remoção de valores nulos
titanic_data = titanic_data.dropna()
titanic_data

Unnamed: 0,sex,age,sibsp,embarked,class,who,alone,survived
803,male,0.42,0,C,Third,child,False,1
755,male,0.67,1,S,Second,child,False,1
644,female,0.75,2,C,Third,child,False,1
469,female,0.75,2,C,Third,child,False,1
831,male,0.83,1,S,Second,child,False,1
...,...,...,...,...,...,...,...,...
116,male,70.50,0,Q,Third,man,True,0
493,male,71.00,0,C,First,man,True,0
96,male,71.00,0,C,First,man,True,0
851,male,74.00,0,S,Third,man,True,0


In [113]:
# Criar uma cópia do DataFrame inicial
def preprocess_data(titanic_data):
    titanic_data_copy = titanic_data.copy()

    return titanic_data, titanic_data_copy

titanic_data_copy

Unnamed: 0,sex,age,sibsp,embarked,class,who,alone,survived
803,male,0.42,0,C,Third,child,False,1
755,male,0.67,1,S,Second,child,False,1
644,female,0.75,2,C,Third,child,False,1
469,female,0.75,2,C,Third,child,False,1
831,male,0.83,1,S,Second,child,False,1
...,...,...,...,...,...,...,...,...
116,male,70.50,0,Q,Third,man,True,0
493,male,71.00,0,C,First,man,True,0
96,male,71.00,0,C,First,man,True,0
851,male,74.00,0,S,Third,man,True,0


In [124]:
# Aplicar a função de pré-processamento
datatitanic_processed, data_copy = preprocess_data(data)

#### Apresentando dois insights gerados a partir do dataset:



1- Idade Média dos Passageiros:

In [120]:
average_age = datatitanic_processed['age'].mean()
print(f"A idade média dos passageiros é: {average_age:.2f} anos")

A idade média dos passageiros é: 29.70 anos


2- Porcentagem de Sobreviventes:

In [125]:
survival_percentage = (datatitanic_processed['survived'].sum() / len(datatitanic_processed)) * 100
print(f"A porcentagem de sobreviventes é: {survival_percentage:.2f}%")

A porcentagem de sobreviventes é: 38.38%


#### Bônus: Tradução das colunas do dataset Titanic para o português

In [129]:
# Mapeamento das colunas do DataFrame
colunas_traduzidas = {
    'sex': 'sexo',
    'age': 'idade',
    'sibsp': 'irmaos_conjuges',
    'embarked': 'porto_embarque',
    'class': 'classe',
    'who': 'categoria',
    'alone': 'sozinho',
    'survived': 'sobreviveu'
}

# Renomeando as colunas 
datatitanic_processed = datatitanic_processed.rename(columns=colunas_traduzidas)

datatitanic_processed

Unnamed: 0,sexo,idade,irmaos_conjuges,porto_embarque,classe,categoria,sozinho,sobreviveu
0,male,22.0,1,S,Third,man,False,0
1,female,38.0,1,C,First,woman,False,1
2,female,26.0,0,S,Third,woman,True,1
3,female,35.0,1,S,First,woman,False,1
4,male,35.0,0,S,Third,man,True,0
...,...,...,...,...,...,...,...,...
886,male,27.0,0,S,Second,man,True,0
887,female,19.0,0,S,First,woman,True,1
888,female,,1,S,Third,woman,False,0
889,male,26.0,0,C,First,man,True,1
