# Desafio de An√°lise Explorat√≥ria de Dados (EDA) e Pr√©-processamento
## Dataset: Titanic

* Este notebook cont√©m as etapas de carregamento, renomea√ß√£o de colunas, solu√ß√£o de desafios de an√°lise estat√≠stica e as primeiras a√ß√µes de limpeza e pr√©-processamento de dados.

### **Pr√©-requisito:** Certifique-se de que o arquivo `titanic.csv` foi carregado para o ambiente `/content/` do Colab.

In [None]:
import pandas as pd
import numpy as np
import os

mapa_colunas = {
    'PassengerId': 'id_passageiro',
    'Survived': 'sobreviveu',
    'Pclass': 'classe_p',
    'Name': 'nome',
    'Sex': 'sexo',
    'Age': 'idade',
    'SibSp': 'irmao_conjuge',
    'Parch': 'pais_filhos',
    'Ticket': 'bilhete',
    'Fare': 'tarifa',
    'Cabin': 'cabine',
    'Embarked': 'embarque'
}

caminho_arquivo = '/content/titanic.csv'

if os.path.exists(caminho_arquivo):
    df = pd.read_csv(caminho_arquivo)
    df = df.rename(columns=mapa_colunas)
    
    print(" DataFrame carregado e colunas renomeadas com sucesso!")
    print("\nNovas colunas:", df.columns.tolist())
    print("\nIn√≠cio do DataFrame (Head):")
    print(df.head())
else:
    print(f" ERRO: Arquivo 'titanic.csv' n√£o encontrado em {caminho_arquivo} .")
    df = None

‚úÖ DataFrame carregado e colunas renomeadas com sucesso!

Novas colunas: ['id_passageiro', 'sobreviveu', 'classe_p', 'nome', 'sexo', 'idade', 'irmao_conjuge', 'pais_filhos', 'bilhete', 'tarifa', 'cabine', 'embarque']

In√≠cio do DataFrame (Head):
   id_passageiro  sobreviveu  classe_p  \
0              1           0         3   
1              2           1         1   
2              3           1         3   
3              4           1         1   
4              5           0         3   

                                                nome    sexo  idade  \
0                            Braund, Mr. Owen Harris    male   22.0   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female   38.0   
2                             Heikkinen, Miss. Laina  female   26.0   
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  female   35.0   
4                           Allen, Mr. William Henry    male   35.0   

   irmao_conjuge  pais_filhos           bilhete   tarifa cabine embarque

# üéØ Solu√ß√£o dos Desafios de An√°lise

Utilizaremos o DataFrame `df` com as colunas em Portugu√™s para responder √†s perguntas usando fun√ß√µes de filtragem e agrega√ß√£o do Pandas.

**Desafios:**
1.  Filtrar n√£o sobreviventes da 1¬™ classe e calcular a porcentagem.
2.  Contar passageiros por `sexo` e `embarque`.
3.  Idade m√©dia dos `sobreviventes` e `n√£o sobreviventes`.

In [None]:
if df is not None:
    total_primeira = df[df['classe_p'] == 1].shape[0]

    nao_sobreviveram_primeira = df[(df['classe_p'] == 1) & (df['sobreviveu'] == 0)].shape[0]

    if total_primeira > 0:
        porcentagem_nao_sobreviveram = (nao_sobreviveram_primeira / total_primeira) * 100
        print("\n--- 1. An√°lise da 1¬™ Classe ---")
        print(f"N√£o Sobreviventes na 1¬™ Classe: {nao_sobreviveram_primeira}")
        print(f"Total na 1¬™ Classe: {total_primeira}")
        print(f"Porcentagem de N√£o Sobreviventes (1¬™ Classe): **{porcentagem_nao_sobreviveram:.2f}%**")
    else:
        print("Dados da 1¬™ classe n√£o encontrados.")

    print("\n--- 2. Contagem por Sexo e Porto de Embarque ---")

    contagem_cruzada = pd.crosstab(df['sexo'], df['embarque'], dropna=False)
    
    print("\n=== Contagem Cruzada (Sexo vs. Embarque) ===")
    print(contagem_cruzada)

    print("\n=== Contagem Total por Sexo ===")
    print(df['sexo'].value_counts())

    print("\n--- 3. Idade M√©dia por Status de Sobreviv√™ncia ---")

    media_idades = df.groupby('sobreviveu')['idade'].mean()
    
    print(f"Idade M√©dia (N√£o Sobreviventes = 0): **{media_idades.get(0, 0):.2f} anos**")
    print(f"Idade M√©dia (Sobreviventes = 1): **{media_idades.get(1, 0):.2f} anos**")

else:
    print("N√£o foi poss√≠vel executar os desafios. Verifique o carregamento na C√©lula 2.")


--- 1. An√°lise da 1¬™ Classe ---
N√£o Sobreviventes na 1¬™ Classe: 80
Total na 1¬™ Classe: 216
Porcentagem de N√£o Sobreviventes (1¬™ Classe): **37.04%**

--- 2. Contagem por Sexo e Porto de Embarque ---

=== Contagem Cruzada (Sexo vs. Embarque) ===
embarque   C   Q    S  NaN
sexo                      
female    73  36  203    2
male      95  41  441    0

=== Contagem Total por Sexo ===
sexo
male      577
female    314
Name: count, dtype: int64

--- 3. Idade M√©dia por Status de Sobreviv√™ncia ---
Idade M√©dia (N√£o Sobreviventes = 0): **30.63 anos**
Idade M√©dia (Sobreviventes = 1): **28.34 anos**


# Limpeza e Pr√©-processamento (Segunda Parte)

Agora vamos iniciar o pr√©-processamento, tratando os valores ausentes (NaN) nas colunas cr√≠ticas:

1.  **`cabine`**: Removida devido √† alta propor√ß√£o de valores faltantes.
2.  **`idade`**: Imputada com a **mediana**, pois √© mais robusta contra outliers do que a m√©dia.
3.  **`embarque`**: Imputada com o **modo** (valor mais frequente), pois √© uma vari√°vel categ√≥rica.

Ao final, verificamos se todos os valores ausentes foram tratados.

In [None]:
if df is not None:
    print("--- INICIANDO LIMPEZA ROBUSTA E PR√â-PROCESSAMENTO ---")

    if 'embarque' in df.columns:
        moda_embarque = df['embarque'].mode()[0] 
        df['embarque'].fillna(moda_embarque, inplace=True)
        print(f" 'embarque' imputado com o Modo ('{moda_embarque}').")
    else:
        print(" Coluna 'embarque' n√£o encontrada para imputa√ß√£o. Pulando...")

    if 'idade' in df.columns:
        mediana_idade = df['idade'].median()
        df['idade'].fillna(mediana_idade, inplace=True)
        print(f" 'idade' imputada com a Mediana ({mediana_idade:.2f}).")
    else:
        print(" Coluna 'idade' n√£o encontrada para imputa√ß√£o. Pulando...")
        
    if 'cabine' in df.columns:
        df.drop('cabine', axis=1, inplace=True)
        print(" Coluna 'cabine' removida.")
    else:
        print(" Coluna 'cabine' j√° foi removida. Continuando...")
   
    colunas_para_dummies = []
    if 'sexo' in df.columns:
        colunas_para_dummies.append('sexo')
    if 'embarque' in df.columns:
        colunas_para_dummies.append('embarque')
        
    if colunas_para_dummies:
        df_dummies = pd.get_dummies(df[colunas_para_dummies], drop_first=True, prefix=colunas_para_dummies)

        df = pd.concat([df.drop(colunas_para_dummies, axis=1), df_dummies], axis=1)
        print(f" Vari√°veis categ√≥ricas {colunas_para_dummies} codificadas (One-Hot Encoding).")
    else:
        print(" Colunas categ√≥ricas j√° parecem estar codificadas ou foram removidas.")

    print("\n--- Verifica√ß√£o Final de Valores Ausentes ---")
    print(df.isnull().sum())
    
    print("\n Pr√©-processamento e Codifica√ß√£o conclu√≠dos com sucesso!")
    print(f"Dimens√µes finais: {df.shape}")

--- INICIANDO LIMPEZA ROBUSTA E PR√â-PROCESSAMENTO ---
 Coluna 'embarque' n√£o encontrada para imputa√ß√£o. Pulando...
 'idade' imputada com a Mediana (28.00).
 Coluna 'cabine' j√° foi removida. Continuando...
 Colunas categ√≥ricas j√° parecem estar codificadas ou foram removidas.

--- Verifica√ß√£o Final de Valores Ausentes ---
id_passageiro    0
sobreviveu       0
classe_p         0
nome             0
idade            0
irmao_conjuge    0
pais_filhos      0
bilhete          0
tarifa           0
sexo_male        0
embarque_Q       0
embarque_S       0
dtype: int64

 Pr√©-processamento e Codifica√ß√£o conclu√≠dos com sucesso!
Dimens√µes finais: (891, 12)


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['idade'].fillna(mediana_idade, inplace=True)


In [None]:
if df is not None:
    print("\n--- PASSO 7: CODIFICA√á√ÉO DE VARI√ÅVEIS CATEG√ìRICAS ---")
    
    colunas_originais = ['sexo', 'embarque']
    
    colunas_para_codificar = [col for col in colunas_originais if col in df.columns]

    if not colunas_para_codificar:
        print(" Vari√°veis 'sexo' e 'embarque' j√° foram codificadas ou removidas.")
        print("Continuando a execu√ß√£o com o DataFrame atual.")
        
    else:
        df_dummies = pd.get_dummies(df[colunas_para_codificar], drop_first=True)
        
        df = pd.concat([df.drop(colunas_para_codificar, axis=1), df_dummies], axis=1)

        print(f" Vari√°veis '{colunas_para_codificar}' codificadas com sucesso.")
        print(f"Novo formato do DataFrame: {df.shape[0]} linhas x {df.shape[1]} colunas.")
        print("\nNovas Colunas (In√≠cio):")
        print(df.head(3))


--- PASSO 7: CODIFICA√á√ÉO DE VARI√ÅVEIS CATEG√ìRICAS ---
 Vari√°veis 'sexo' e 'embarque' j√° foram codificadas ou removidas.
Continuando a execu√ß√£o com o DataFrame atual.


In [None]:
if df is not None:
    print("\n--- PASSO 8: AN√ÅLISE BIVARIADA (SOBREVIV√äNCIA) ---")

    coluna_sexo_analise = 'sexo_male' 
    
    if coluna_sexo_analise in df.columns:
        sobrevivencia_por_sexo = pd.crosstab(df[coluna_sexo_analise], df['sobreviveu'], normalize='index') * 100
        sobrevivencia_por_sexo.index = ['Mulher (sexo_male=0)', 'Homem (sexo_male=1)'] 
        sobrevivencia_por_sexo.columns = ['N√£o Sobreviveu (%)', 'Sobreviveu (%)']

        print("\n=== Taxa de Sobreviv√™ncia por Sexo (Usando Coluna Codificada) ===")
        print(sobrevivencia_por_sexo.round(2))
    else:
        print(f" A coluna {coluna_sexo_analise} n√£o foi encontrada. Verifique se a C√©lula 7 (Codifica√ß√£o) foi executada corretamente.")

    sobrevivencia_por_classe = pd.crosstab(df['classe_p'], df['sobreviveu'], normalize='index') * 100
    sobrevivencia_por_classe.columns = ['N√£o Sobreviveu (%)', 'Sobreviveu (%)']

    print("\n\n=== Taxa de Sobreviv√™ncia por Classe (Pclass) ===")
    print(sobrevivencia_por_classe.round(2))
    
    print("\n--- Insights Chave ---")
    print("\nO resultado do `pd.crosstab` confirma que **Mulheres** tinham uma chance de sobreviv√™ncia dramaticamente maior (~74%) do que Homens (~19%).") 
    print("Al√©m disso, a **Classe** √© um forte preditor, com passageiros da 1¬™ Classe tendo as maiores taxas de sobreviv√™ncia (mais de 62%).")


--- PASSO 8: AN√ÅLISE BIVARIADA (SOBREVIV√äNCIA) ---

=== Taxa de Sobreviv√™ncia por Sexo (Usando Coluna Codificada) ===
                      N√£o Sobreviveu (%)  Sobreviveu (%)
Mulher (sexo_male=0)               25.80           74.20
Homem (sexo_male=1)                81.11           18.89


=== Taxa de Sobreviv√™ncia por Classe (Pclass) ===
          N√£o Sobreviveu (%)  Sobreviveu (%)
classe_p                                    
1                      37.04           62.96
2                      52.72           47.28
3                      75.76           24.24

--- Insights Chave ---

O resultado do `pd.crosstab` confirma que **Mulheres** tinham uma chance de sobreviv√™ncia dramaticamente maior (~74%) do que Homens (~19%).
Al√©m disso, a **Classe** √© um forte preditor, com passageiros da 1¬™ Classe tendo as maiores taxas de sobreviv√™ncia (mais de 62%).
