# Análise Exploratória de Dados (EDA) - Titanic Dataset

Este notebook contém a análise exploratória do dataset do Titanic, incluindo:
- Carregamento e visão geral dos dados
- Análise de valores faltantes
- Análise estatística descritiva
- Visualizações exploratórias
- Identificação de padrões e insights


## 1. Importação de Bibliotecas


In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings

# Configurações
warnings.filterwarnings('ignore')
sns.set_style('whitegrid')
plt.rcParams['figure.figsize'] = (12, 6)

# Para garantir reprodutibilidade
np.random.seed(42)

print("Bibliotecas importadas com sucesso!")


Bibliotecas importadas com sucesso!


## 2. Carregamento dos Dados


In [None]:
# Carregar dataset
df = pd.read_csv('../input/titanic.csv')

print(f"Dataset carregado com sucesso!")
print(f"Dimensões: {df.shape[0]} linhas e {df.shape[1]} colunas")


## 3. Visão Geral dos Dados


In [None]:
# Primeiras linhas
df.head(10)


In [None]:
# Informações sobre os tipos de dados
df.info()


In [None]:
# Estatísticas descritivas
df.describe()


## 4. Análise de Valores Faltantes


In [None]:
# Valores faltantes
missing_data = pd.DataFrame({
    'Total': df.isnull().sum(),
    'Percentual': (df.isnull().sum() / len(df)) * 100
})
missing_data = missing_data[missing_data['Total'] > 0].sort_values('Total', ascending=False)

print("Valores Faltantes:")
print(missing_data)


In [None]:
# Visualização de valores faltantes
plt.figure(figsize=(10, 6))
sns.heatmap(df.isnull(), cbar=True, cmap='viridis', yticklabels=False)
plt.title('Mapa de Valores Faltantes')
plt.tight_layout()
plt.show()


## 5. Análise da Variável Target (Survived)


In [None]:
# Distribuição de sobreviventes
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Contagem
survival_counts = df['Survived'].value_counts()
axes[0].bar(survival_counts.index, survival_counts.values, color=['#d62728', '#2ca02c'])
axes[0].set_xlabel('Sobreviveu')
axes[0].set_ylabel('Contagem')
axes[0].set_title('Distribuição de Sobrevivência')
axes[0].set_xticks([0, 1])
axes[0].set_xticklabels(['Não (0)', 'Sim (1)'])

# Percentual
axes[1].pie(survival_counts.values, labels=['Não Sobreviveu', 'Sobreviveu'], 
            autopct='%1.1f%%', colors=['#d62728', '#2ca02c'], startangle=90)
axes[1].set_title('Percentual de Sobrevivência')

plt.tight_layout()
plt.show()

print(f"\nTaxa de sobrevivência: {df['Survived'].mean():.2%}")


## 6. Análise por Variáveis Categóricas


In [None]:
# Sobrevivência por Sexo
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Contagem
pd.crosstab(df['Sex'], df['Survived']).plot(kind='bar', ax=axes[0], color=['#d62728', '#2ca02c'])
axes[0].set_title('Sobrevivência por Sexo')
axes[0].set_xlabel('Sexo')
axes[0].set_ylabel('Contagem')
axes[0].set_xticklabels(axes[0].get_xticklabels(), rotation=0)
axes[0].legend(['Não Sobreviveu', 'Sobreviveu'])

# Taxa de sobrevivência
survival_by_sex = df.groupby('Sex')['Survived'].mean()
survival_by_sex.plot(kind='bar', ax=axes[1], color='steelblue')
axes[1].set_title('Taxa de Sobrevivência por Sexo')
axes[1].set_xlabel('Sexo')
axes[1].set_ylabel('Taxa de Sobrevivência')
axes[1].set_xticklabels(axes[1].get_xticklabels(), rotation=0)
axes[1].set_ylim([0, 1])

plt.tight_layout()
plt.show()

print("\nTaxa de sobrevivência por sexo:")
print(survival_by_sex)


In [None]:
# Sobrevivência por Classe (Pclass)
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Contagem
pd.crosstab(df['Pclass'], df['Survived']).plot(kind='bar', ax=axes[0], color=['#d62728', '#2ca02c'])
axes[0].set_title('Sobrevivência por Classe')
axes[0].set_xlabel('Classe')
axes[0].set_ylabel('Contagem')
axes[0].set_xticklabels(axes[0].get_xticklabels(), rotation=0)
axes[0].legend(['Não Sobreviveu', 'Sobreviveu'])

# Taxa de sobrevivência
survival_by_class = df.groupby('Pclass')['Survived'].mean()
survival_by_class.plot(kind='bar', ax=axes[1], color='steelblue')
axes[1].set_title('Taxa de Sobrevivência por Classe')
axes[1].set_xlabel('Classe')
axes[1].set_ylabel('Taxa de Sobrevivência')
axes[1].set_xticklabels(axes[1].get_xticklabels(), rotation=0)
axes[1].set_ylim([0, 1])

plt.tight_layout()
plt.show()

print("\nTaxa de sobrevivência por classe:")
print(survival_by_class)


In [None]:
# Sobrevivência por Porto de Embarque (Embarked)
if 'Embarked' in df.columns:
    fig, axes = plt.subplots(1, 2, figsize=(14, 5))
    
    # Contagem
    pd.crosstab(df['Embarked'], df['Survived']).plot(kind='bar', ax=axes[0], color=['#d62728', '#2ca02c'])
    axes[0].set_title('Sobrevivência por Porto de Embarque')
    axes[0].set_xlabel('Porto de Embarque')
    axes[0].set_ylabel('Contagem')
    axes[0].set_xticklabels(axes[0].get_xticklabels(), rotation=0)
    axes[0].legend(['Não Sobreviveu', 'Sobreviveu'])
    
    # Taxa de sobrevivência
    survival_by_embarked = df.groupby('Embarked')['Survived'].mean()
    survival_by_embarked.plot(kind='bar', ax=axes[1], color='steelblue')
    axes[1].set_title('Taxa de Sobrevivência por Porto de Embarque')
    axes[1].set_xlabel('Porto de Embarque')
    axes[1].set_ylabel('Taxa de Sobrevivência')
    axes[1].set_xticklabels(axes[1].get_xticklabels(), rotation=0)
    axes[1].set_ylim([0, 1])
    
    plt.tight_layout()
    plt.show()
    
    print("\nTaxa de sobrevivência por porto de embarque:")
    print(survival_by_embarked)


## 7. Análise por Variáveis Numéricas


In [None]:
# Distribuição de Idade
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Histograma
axes[0].hist(df['Age'].dropna(), bins=30, color='steelblue', edgecolor='black', alpha=0.7)
axes[0].set_title('Distribuição de Idade')
axes[0].set_xlabel('Idade')
axes[0].set_ylabel('Frequência')

# Por sobrevivência
df[df['Survived']==0]['Age'].hist(bins=30, ax=axes[1], alpha=0.5, color='red', label='Não Sobreviveu')
df[df['Survived']==1]['Age'].hist(bins=30, ax=axes[1], alpha=0.5, color='green', label='Sobreviveu')
axes[1].set_title('Distribuição de Idade por Sobrevivência')
axes[1].set_xlabel('Idade')
axes[1].set_ylabel('Frequência')
axes[1].legend()

plt.tight_layout()
plt.show()


In [None]:
# Distribuição de Tarifa (Fare)
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Histograma
axes[0].hist(df['Fare'].dropna(), bins=30, color='steelblue', edgecolor='black', alpha=0.7)
axes[0].set_title('Distribuição de Tarifa')
axes[0].set_xlabel('Tarifa')
axes[0].set_ylabel('Frequência')

# Por sobrevivência (escala log para melhor visualização)
df[df['Survived']==0]['Fare'].hist(bins=30, ax=axes[1], alpha=0.5, color='red', label='Não Sobreviveu')
df[df['Survived']==1]['Fare'].hist(bins=30, ax=axes[1], alpha=0.5, color='green', label='Sobreviveu')
axes[1].set_title('Distribuição de Tarifa por Sobrevivência')
axes[1].set_xlabel('Tarifa')
axes[1].set_ylabel('Frequência')
axes[1].legend()

plt.tight_layout()
plt.show()


## 8. Matriz de Correlação


In [None]:
# Matriz de correlação para variáveis numéricas
numeric_cols = df.select_dtypes(include=[np.number]).columns
correlation_matrix = df[numeric_cols].corr()

plt.figure(figsize=(10, 8))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', center=0, 
            square=True, linewidths=1, fmt='.2f')
plt.title('Matriz de Correlação - Variáveis Numéricas')
plt.tight_layout()
plt.show()


## 9. Análises Combinadas


In [None]:
# Sobrevivência por Sexo e Classe
fig, ax = plt.subplots(figsize=(12, 6))

survival_sex_class = df.groupby(['Sex', 'Pclass'])['Survived'].mean().unstack()
survival_sex_class.plot(kind='bar', ax=ax, color=['#c7e9c0', '#74c476', '#238b45'])
ax.set_title('Taxa de Sobrevivência por Sexo e Classe')
ax.set_xlabel('Sexo')
ax.set_ylabel('Taxa de Sobrevivência')
ax.set_xticklabels(ax.get_xticklabels(), rotation=0)
ax.legend(title='Classe', labels=['1ª Classe', '2ª Classe', '3ª Classe'])
ax.set_ylim([0, 1])

plt.tight_layout()
plt.show()

print("\nTaxa de sobrevivência por sexo e classe:")
print(survival_sex_class)


## 10. Insights e Conclusões da EDA

**Principais Descobertas:**

1. **Sexo**: Mulheres tiveram taxa de sobrevivência significativamente maior que homens
2. **Classe**: Passageiros da 1ª classe tiveram maior taxa de sobrevivência
3. **Idade**: Crianças tiveram tendência maior de sobrevivência
4. **Tarifa**: Tarifas mais altas correlacionam com maior sobrevivência (ligado à classe)
5. **Valores Faltantes**: Idade e Cabin têm valores faltantes significativos

**Próximos Passos:**
- Tratamento de valores faltantes
- Feature Engineering
- Criação do modelo de Regressão Logística
