In [1]:
# Célula 1: Importações
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import math

# Configuração para melhorar a visualização dos gráficos
%matplotlib inline
sns.set_style('whitegrid')
plt.rcParams['figure.figsize'] = (12, 8)

print("Bibliotecas importadas com sucesso!")

ModuleNotFoundError: No module named 'pandas'

In [None]:
# Célula 2: Leitura do Arquivo CSV

caminho_do_arquivo = 'https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv'

# Se o seu arquivo estiver no mesmo diretório do notebook, você pode usar:
# caminho_do_arquivo = 'seu_arquivo.csv'

try:
    df = pd.read_csv(caminho_do_arquivo)
    print("Arquivo CSV carregado com sucesso!")
    print(f"O dataset tem {df.shape[0]} linhas e {df.shape[1]} colunas.")
except FileNotFoundError:
    print(f"Erro: O arquivo não foi encontrado no caminho '{caminho_do_arquivo}'")

# Exibe as 5 primeiras linhas para uma inspeção rápida
df.head()

In [None]:
# Célula 3: Identificação dos Tipos de Colunas

# Seleciona colunas numéricas (números inteiros e de ponto flutuante)
colunas_numericas = df.select_dtypes(include=['int64', 'float64']).columns.tolist()

# Seleciona colunas categóricas (tipo 'object', que geralmente armazena texto)
colunas_categoricas = df.select_dtypes(include=['object']).columns.tolist()

# Excluímos colunas de ID ou com alta cardinalidade que não agregam em gráficos de categoria
# (Ajuste essa lista conforme seu dataset)
colunas_para_excluir = ['Name', 'ID']
colunas_categoricas = [col for col in colunas_categoricas if col not in colunas_para_excluir]


print("Colunas Numéricas Identificadas:")
print(colunas_numericas)
print("\nColunas Categóricas para Análise:")
print(colunas_categoricas)

In [None]:
# Célula 4: Grid de Gráficos para Variáveis Numéricas

# Define o número de colunas do grid
n_cols = 3
# Calcula o número de linhas necessárias
n_rows = math.ceil(len(colunas_numericas) / n_cols)

# Cria a figura e os eixos (subplots)
fig, axes = plt.subplots(n_rows, n_cols, figsize=(15, n_rows * 4))
# Achata o array de eixos para facilitar a iteração
axes = axes.flatten()

# Itera sobre cada coluna numérica e seu eixo correspondente
for i, col in enumerate(colunas_numericas):
    sns.histplot(data=df, x=col, kde=True, ax=axes[i])
    axes[i].set_title(f'Distribuição de {col}', fontsize=14)
    axes[i].set_xlabel('') # Remove o label do eixo x para um visual mais limpo

# Remove eixos vazios (se o número de gráficos não preencher o grid perfeitamente)
for i in range(len(colunas_numericas), len(axes)):
    fig.delaxes(axes[i])

# Ajusta o layout para evitar sobreposição de títulos
plt.tight_layout()
plt.show()