# 1. Inspeção e Análise Inicial dos Dados PISA

Este notebook realiza a análise inicial do dataset PISA, focando em indicadores econômicos e educacionais.

## Objetivos
1. Carregar e examinar a estrutura dos dados
2. Analisar distribuições das variáveis principais
3. Identificar e tratar valores ausentes
4. Criar visualizações iniciais
5. Calcular estatísticas descritivas básicas

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

%matplotlib inline
plt.style.use('seaborn')
pd.set_option('display.max_columns', None)

## 1. Carregamento dos Dados

In [None]:
# Carrega o dataset
df = pd.read_csv('../data/economics_and_education_dataset_CSV.csv')

# Exibe informações básicas
print('Shape:', df.shape)
print('\nInformações do Dataset:')
df.info()

## 2. Análise de Valores Ausentes

In [None]:
# Calcula percentual de valores ausentes
missing_values = df.isnull().sum()
missing_pct = (missing_values / len(df)) * 100

# Cria DataFrame com informações sobre valores ausentes
missing_df = pd.DataFrame({
    'Missing Values': missing_values,
    'Percentage': missing_pct
})

# Exibe apenas colunas com valores ausentes
print('Colunas com valores ausentes:')
print(missing_df[missing_df['Missing Values'] > 0].sort_values('Percentage', ascending=False))

## 3. Estatísticas Descritivas

In [None]:
# Estatísticas numéricas
print('Estatísticas Descritivas:')
print(df.describe())

# Contagem de valores únicos em variáveis categóricas
categorical_cols = ['country', 'sex']
for col in categorical_cols:
    print(f'\nDistribuição de {col}:')
    print(df[col].value_counts())

## 4. Visualizações Iniciais

In [None]:
# Configuração para múltiplos gráficos
fig, axes = plt.subplots(2, 2, figsize=(15, 12))

# 1. Distribuição das notas
sns.histplot(data=df, x='rating', bins=30, ax=axes[0,0])
axes[0,0].set_title('Distribuição das Notas PISA')

# 2. Gastos em educação vs. Notas
sns.scatterplot(
    data=df,
    x='expenditure_on _education_pct_gdp',
    y='rating',
    ax=axes[0,1]
)
axes[0,1].set_title('Gastos em Educação vs. Notas')

# 3. PIB per capita vs. Notas
sns.scatterplot(
    data=df,
    x='gdp_per_capita_ppp',
    y='rating',
    ax=axes[1,0]
)
axes[1,0].set_title('PIB per capita vs. Notas')

# 4. Boxplot de notas por sexo
sns.boxplot(
    data=df,
    x='sex',
    y='rating',
    ax=axes[1,1]
)
axes[1,1].set_title('Notas por Sexo')

plt.tight_layout()
plt.show()

## 5. Correlações entre Variáveis

In [None]:
# Seleciona apenas variáveis numéricas
numeric_cols = df.select_dtypes(include=[np.number]).columns

# Calcula correlações
correlations = df[numeric_cols].corr()

# Plota mapa de calor
plt.figure(figsize=(12, 8))
sns.heatmap(
    correlations,
    annot=True,
    cmap='coolwarm',
    center=0,
    fmt='.2f'
)
plt.title('Mapa de Correlações')
plt.show()

## 6. Análise Temporal

In [None]:
# Calcula médias por ano
yearly_stats = df.groupby('time').agg({
    'rating': ['mean', 'std'],
    'expenditure_on _education_pct_gdp': 'mean',
    'gdp_per_capita_ppp': 'mean'
}).round(2)

print('Estatísticas por Ano:')
print(yearly_stats)

# Plota evolução temporal
fig, ax = plt.subplots(figsize=(12, 6))
yearly_stats['rating']['mean'].plot(marker='o')
plt.title('Evolução das Notas PISA ao Longo do Tempo')
plt.xlabel('Ano')
plt.ylabel('Nota Média')
plt.grid(True)
plt.show()