# 📊 Análise Estatística com Python - Titanic Dataset

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

sns.set(style="whitegrid")


## 🔹 Carregamento do Dataset

In [None]:
url = "https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv"
df = pd.read_csv(url)
df.head()


## 🔹 Análise Exploratória Inicial

In [None]:
print("Dimensão:", df.shape)
print("\nTipos de dados:\n", df.dtypes)
print("\nValores nulos:\n", df.isnull().sum())


## 🔹 Estatísticas Descritivas

In [None]:
df.describe()

## 🔹 Limpeza de Dados

In [None]:
# Excluir colunas com muitos valores nulos ou irrelevantes
df = df.drop(columns=["Cabin", "Ticket", "Name"])

# Preencher valores ausentes em 'Age' com a mediana
df["Age"].fillna(df["Age"].median(), inplace=True)

# Remover linhas com valores nulos restantes
df.dropna(inplace=True)


## 🔹 Visualizações

In [None]:
# Histograma de Idades
sns.histplot(df["Age"], kde=True)
plt.title("Distribuição de Idades")
plt.show()

# Sobrevivência por sexo
sns.countplot(data=df, x="Survived", hue="Sex")
plt.title("Sobreviventes por Sexo")
plt.show()


## 🔹 Correlação entre Variáveis Numéricas

In [None]:
plt.figure(figsize=(8,6))
sns.heatmap(df.corr(), annot=True, cmap="coolwarm")
plt.title("Mapa de Correlação")
plt.show()


## 🔹 Relações Cruzadas com `groupby`

In [None]:
# Taxa de sobrevivência por classe
survival_by_class = df.groupby("Pclass")["Survived"].mean()
print("Taxa de sobrevivência por classe:\n", survival_by_class)


---
🔚 Fim da análise inicial. Você pode expandir o projeto com testes de hipótese, regressão, ou outros métodos estatísticos!