<a href="https://colab.research.google.com/github/antoniocasseres/MVP/blob/main/20250706_MVP_Antonio.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# MVP Análise de Dados e Boas Práticas

**Nome:** Antonio Casseres  
**Matrícula:** 4052025000769  
**Dataset:** [Wine Quality Dataset](https://archive.ics.uci.edu/dataset/186/wine+quality)

## Descrição do Problema

O conjunto de dados Wine Quality é um conjunto de dados multivariado que consiste em medidas físico-químicas de vinhos portugueses (tintos e brancos). O objetivo principal é analisar e prever a qualidade do vinho com base em onze características químicas: acidez fixa, acidez volátil, ácido cítrico, açúcar residual, cloretos, dióxido de enxofre livre, dióxido de enxofre total, densidade, pH, sulfatos e teor alcoólico.

### Hipóteses do Problema

As hipóteses que tracei são as seguintes:

• O teor alcoólico tem correlação positiva significativa com a qualidade do vinho?
• A acidez volátil afeta negativamente a percepção de qualidade?
• Existe diferença na distribuição de qualidade entre vinhos tintos e brancos?
• As características químicas permitem distinguir vinhos de alta qualidade dos demais?

### Categorização do Problema

Este é um problema de **aprendizado supervisionado**.

**Justificativa:**
• Possuímos uma variável target bem definida: 'quality' (qualidade do vinho)
• Cada amostra possui um rótulo conhecido (qualidade avaliada por especialistas)
• O objetivo é prever/classificar a qualidade baseada nas características físico-químicas
• Temos 6.497 exemplos rotulados para treinar modelos preditivos

**Subtipo do Problema Supervisionado:**
• **Classificação**: Tratar qualidade como classes discretas (3, 4, 5, 6, 7, 8, 9)
• **Regressão**: Tratar qualidade como variável contínua ordinal

**Diferenciação:**
• Não é não supervisionado pois não buscamos apenas padrões ocultos
• Não é clustering pois temos rótulos definidos
• Não é detecção de anomalias como objetivo principal

### Tipo de Problema

Este é um problema de **análise exploratória e pré-processamento de dados**. Dado um conjunto de características físico-químicas, o objetivo é entender os padrões, correlações e distribuições que influenciam a qualidade do vinho, preparando os dados para modelagem futura.

## Seleção de Dados

O dataset Wine Quality é um conjunto de dados amplamente disponível e frequentemente incluído em bibliotecas de aprendizado de máquina. Os dados estão disponíveis no repositório GitHub pessoal e serão carregados diretamente via URL, garantindo reprodutibilidade e acesso controlado aos dados.

### Atributos do Dataset

O dataset Wine Quality contém 6.497 amostras (1.599 vinhos tintos + 4.898 vinhos brancos), com doze atributos:

• **fixed acidity** (acidez fixa em g/dm³)
• **volatile acidity** (acidez volátil em g/dm³)
• **citric acid** (ácido cítrico em g/dm³)
• **residual sugar** (açúcar residual em g/dm³)
• **chlorides** (cloretos em g/dm³)
• **free sulfur dioxide** (dióxido de enxofre livre em mg/dm³)
• **total sulfur dioxide** (dióxido de enxofre total em mg/dm³)
• **density** (densidade em g/cm³)
• **pH** (potencial hidrogeniônico)
• **sulphates** (sulfatos em g/dm³)
• **alcohol** (teor alcoólico em % vol.)
• **quality** (qualidade - variável target, escala de 0 a 10)

## Importação das Bibliotecas Necessárias e Carga de Dados

Esta seção consolida todas as importações de bibliotecas necessárias para a análise, visualização e pré-processamento dos dados, bem como o carregamento inicial do dataset Wine Quality do repositório GitHub pessoal.

In [None]:
# Importação das bibliotecas essenciais
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, LabelEncoder
from scipy import stats
import warnings
warnings.filterwarnings('ignore')

# Configurações de visualização
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")
pd.set_option('display.max_columns', None)

In [None]:
# Carregamento do dataset Wine Quality do repositório GitHub pessoal
# URLs dos arquivos no repositório GitHub
url_red = "https://raw.githubusercontent.com/antoniocasseres/MVP/refs/heads/main/winequality-red.csv"
url_white = "https://raw.githubusercontent.com/antoniocasseres/MVP/refs/heads/main/winequality-white.csv"

# Carrega dados de vinho tinto
df_red = pd.read_csv(url_red, sep=';')
df_red['wine_type'] = 'red'

# Carrega dados de vinho branco
df_white = pd.read_csv(url_white, sep=';')
df_white['wine_type'] = 'white'

# Combina os datasets
df = pd.concat([df_red, df_white], ignore_index=True)

print(f"Dataset carregado com sucesso do repositório GitHub!")
print(f"Dimensões: {df.shape[0]} linhas x {df.shape[1]} colunas")
print(f"Tipos de vinho: {df['wine_type'].value_counts().to_dict()}")

In [None]:
# Primeiras linhas do dataset
df.head()

## Análise de Dados

Nesta etapa de Análise de Dados Exploratória (EDA) sobre o dataset Wine Quality, visamos entender a distribuição, as relações e as características das variáveis, o que é crucial para as etapas subsequentes de pré-processamento e modelagem supervisionada.

### Total e Tipo das Instâncias

O dataset Wine Quality possui 6.497 instâncias (observações), combinando vinhos tintos e brancos. As onze características de medição são do tipo numérico (float), enquanto os atributos 'wine_type' e 'quality' são categóricos.

In [None]:
# Informações gerais do dataset
print(f"Total de instâncias: {len(df)}")
print(f"Total de features: {len(df.columns)}")
print(f"Variável target: quality (supervisionado)")
print("\nTipos de dados por coluna:")
print(df.dtypes)
print("\nValores ausentes por coluna:")
print(df.isnull().sum())

In [None]:
# Distribuição por tipo de vinho
plt.figure(figsize=(12, 5))

# Gráfico de pizza
plt.subplot(1, 2, 1)
wine_counts = df['wine_type'].value_counts()
plt.pie(wine_counts.values, labels=wine_counts.index, autopct='%1.1f%%', startangle=90)
plt.title('Distribuição dos Tipos de Vinho')
plt.axis('equal')

# Gráfico de barras
plt.subplot(1, 2, 2)
wine_counts.plot(kind='bar', color=['darkred', 'gold'])
plt.title('Contagem por Tipo de Vinho')
plt.xlabel('Tipo de Vinho')
plt.ylabel('Quantidade')
plt.xticks(rotation=0)

plt.tight_layout()
plt.show()

print(f"Vinhos brancos: {wine_counts['white']} ({wine_counts['white']/len(df)*100:.1f}%)")
print(f"Vinhos tintos: {wine_counts['red']} ({wine_counts['red']/len(df)*100:.1f}%)")

### Estatísticas Descritivas

Estatísticas descritivas fornecem um resumo das características numéricas, incluindo média, desvio padrão, mínimo, máximo e quartis. Foco especial na variável target para problemas supervisionados.

In [None]:
# Estatísticas descritivas básicas do dataset
print("Estatísticas Descritivas Completas:")
print("=" * 40)
df.describe()

In [None]:
# Análise específica da variável target (quality) - Foco supervisionado
plt.figure(figsize=(15, 10))

# Distribuição da qualidade
plt.subplot(2, 2, 1)
quality_counts = df['quality'].value_counts().sort_index()
plt.bar(quality_counts.index, quality_counts.values, color='skyblue', edgecolor='black')
plt.title('Distribuição da Variável Target (Quality)')
plt.xlabel('Qualidade (0-10)')
plt.ylabel('Frequência')
plt.grid(True, alpha=0.3)

# Qualidade por tipo de vinho
plt.subplot(2, 2, 2)
df.boxplot(column='quality', by='wine_type', ax=plt.gca())
plt.title('Qualidade por Tipo de Vinho')
plt.suptitle('')  # Remove título automático

# Histograma da qualidade
plt.subplot(2, 2, 3)
plt.hist(df['quality'], bins=range(3, 11), alpha=0.7, color='lightgreen', edgecolor='black')
plt.title('Histograma da Qualidade')
plt.xlabel('Qualidade')
plt.ylabel('Frequência')
plt.grid(True, alpha=0.3)

# Qualidade média por tipo
plt.subplot(2, 2, 4)
quality_by_type = df.groupby('wine_type')['quality'].agg(['mean', 'std']).round(2)
quality_by_type['mean'].plot(kind='bar', color=['darkred', 'gold'],
                            yerr=quality_by_type['std'], capsize=5)
plt.title('Qualidade Média por Tipo de Vinho')
plt.xlabel('Tipo de Vinho')
plt.ylabel('Qualidade Média')
plt.xticks(rotation=0)

plt.tight_layout()
plt.show()

print("\nEstatísticas da Variável Target (Quality):")
print(f"Média: {df['quality'].mean():.2f}")
print(f"Mediana: {df['quality'].median():.2f}")
print(f"Desvio Padrão: {df['quality'].std():.2f}")
print(f"Amplitude: {df['quality'].min()} - {df['quality'].max()}")
print(f"Classes únicas: {sorted(df['quality'].unique())}")
print(f"Balanceamento das classes:")
for quality, count in quality_counts.items():
    percentage = (count / len(df)) * 100
    print(f"  Qualidade {quality}: {count:4d} ({percentage:5.1f}%)")

### Análise de Correlação

A análise de correlação nos ajuda a identificar relações lineares entre as variáveis numéricas, especialmente com a variável target (quality). Essencial para problemas supervisionados.

In [None]:
# Matriz de correlação
numeric_cols = df.select_dtypes(include=[np.number]).columns
correlation_matrix = df[numeric_cols].corr()

# Visualização da matriz de correlação
plt.figure(figsize=(14, 12))
mask = np.triu(np.ones_like(correlation_matrix, dtype=bool))
sns.heatmap(correlation_matrix, mask=mask, annot=True, cmap='RdBu_r', center=0,
            square=True, linewidths=0.5, cbar_kws={"shrink": .8}, fmt='.2f')
plt.title('Matriz de Correlação - Características Físico-Químicas')
plt.tight_layout()
plt.show()

# Correlações com a qualidade (variável target)
quality_corr = correlation_matrix['quality'].abs().sort_values(ascending=False)
print("\nCorrelações com a Variável Target (Quality):")
print("=" * 50)
for feature, corr in quality_corr.items():
    if feature != 'quality':
        direction = "positiva" if correlation_matrix['quality'][feature] > 0 else "negativa"
        strength = "forte" if abs(correlation_matrix['quality'][feature]) > 0.3 else "moderada" if abs(correlation_matrix['quality'][feature]) > 0.1 else "fraca"
        print(f"• {feature:20s}: {correlation_matrix['quality'][feature]:+.3f} ({direction}, {strength})")

# Top 5 features mais correlacionadas
top_features = quality_corr.drop('quality').head(5)
print(f"\nTop 5 Features mais correlacionadas com Quality:")
for i, (feature, corr) in enumerate(top_features.items(), 1):
    print(f"{i}. {feature}: {correlation_matrix['quality'][feature]:+.3f}")

### Análise de Distribuições

Analisamos as distribuições das principais variáveis para identificar padrões, assimetrias e possíveis outliers. Foco nas features mais correlacionadas com a variável target.

In [None]:
# Distribuições das features mais correlacionadas com qualidade
top_features_list = quality_corr.drop('quality').head(6).index.tolist()

fig, axes = plt.subplots(3, 2, figsize=(15, 12))
fig.suptitle('Distribuições das Features Mais Importantes para Predição', fontsize=16)

for i, feature in enumerate(top_features_list):
    row, col = i // 2, i % 2

    # Histograma com curva de densidade
    axes[row, col].hist(df[feature], bins=30, alpha=0.7, density=True,
                       color='skyblue', edgecolor='black')
    df[feature].plot.density(ax=axes[row, col], color='red', linewidth=2)

    # Adiciona estatísticas
    mean_val = df[feature].mean()
    median_val = df[feature].median()
    axes[row, col].axvline(mean_val, color='green', linestyle='--', alpha=0.7, label=f'Média: {mean_val:.2f}')
    axes[row, col].axvline(median_val, color='orange', linestyle='--', alpha=0.7, label=f'Mediana: {median_val:.2f}')

    axes[row, col].set_title(f'{feature}\n(Corr. c/ qualidade: {correlation_matrix["quality"][feature]:+.3f})')
    axes[row, col].set_xlabel(feature)
    axes[row, col].set_ylabel('Densidade')
    axes[row, col].grid(True, alpha=0.3)
    axes[row, col].legend(fontsize=8)

plt.tight_layout()
plt.show()

# Análise de normalidade das principais features
print("\nTeste de Normalidade (Shapiro-Wilk) - Amostra de 5000:")
print("=" * 60)
sample_size = min(5000, len(df))
df_sample = df.sample(n=sample_size, random_state=42)

for feature in top_features_list:
    statistic, p_value = stats.shapiro(df_sample[feature])
    is_normal = "Normal" if p_value > 0.05 else "Não Normal"
    print(f"• {feature:20s}: p-value = {p_value:.2e} ({is_normal})")

### Detecção de Outliers

Utilizamos o método IQR (Interquartile Range) para identificar outliers nas variáveis numéricas. Importante para preparação de dados supervisionados.

In [None]:
# Função para detectar outliers usando IQR
def detect_outliers_iqr(data, column):
    Q1 = data[column].quantile(0.25)
    Q3 = data[column].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR

    outliers = data[(data[column] < lower_bound) | (data[column] > upper_bound)]
    return len(outliers), lower_bound, upper_bound

# Análise de outliers
print("Detecção de Outliers (Método IQR):")
print("=" * 50)

outlier_summary = {}
total_outliers = 0

for feature in numeric_cols.drop('quality'):
    outlier_count, lower, upper = detect_outliers_iqr(df, feature)
    outlier_percentage = (outlier_count / len(df)) * 100
    outlier_summary[feature] = outlier_count
    total_outliers += outlier_count
    print(f"• {feature:20s}: {outlier_count:4d} outliers ({outlier_percentage:5.2f}%) [{lower:.2f}, {upper:.2f}]")

print(f"\nTotal de outliers detectados: {total_outliers}")
print(f"Percentual total de outliers: {(total_outliers / (len(df) * len(numeric_cols.drop('quality'))))*100:.2f}%")

# Visualização de outliers via boxplots
fig, axes = plt.subplots(2, 3, figsize=(18, 10))
fig.suptitle('Boxplots - Detecção Visual de Outliers (Top 6 Features)', fontsize=16)

for i, feature in enumerate(top_features_list):
    row, col = i // 3, i % 3
    df.boxplot(column=feature, ax=axes[row, col])
    axes[row, col].set_title(f'{feature}\n({outlier_summary[feature]} outliers)')
    axes[row, col].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# Outliers por qualidade (análise supervisionada)
print("\nOutliers por Classe de Qualidade:")
print("=" * 35)
for quality in sorted(df['quality'].unique()):
    quality_data = df[df['quality'] == quality]
    quality_outliers = 0
    for feature in numeric_cols.drop('quality'):
        outlier_count, _, _ = detect_outliers_iqr(quality_data, feature)
        quality_outliers += outlier_count
    print(f"• Qualidade {quality}: {quality_outliers:3d} outliers ({len(quality_data):4d} amostras)")

## Pré-processamento de Dados

Esta seção implementa técnicas de pré-processamento específicas para problemas de aprendizado supervisionado, preparando os dados para modelagem preditiva.

### Limpeza de Dados

Verificação e tratamento de valores ausentes, duplicatas e inconsistências.

In [None]:
# Cria cópia para pré-processamento
df_processed = df.copy()

print("Limpeza de Dados:")
print("=" * 30)

# Verifica valores ausentes
missing_values = df_processed.isnull().sum()
print(f"Valores ausentes: {missing_values.sum()}")
if missing_values.sum() > 0:
    print("Colunas com valores ausentes:")
    for col, missing in missing_values[missing_values > 0].items():
        print(f"  {col}: {missing}")

# Verifica duplicatas
initial_rows = len(df_processed)
print(f"\nLinhas antes da limpeza: {initial_rows}")

# Remove duplicatas mantendo wine_type
df_processed = df_processed.drop_duplicates()
removed_duplicates = initial_rows - len(df_processed)
print(f"Duplicatas removidas: {removed_duplicates}")

# Verifica consistência dos dados
print(f"\nVerificação de Consistência:")
print(f"Qualidade mín/máx: {df_processed['quality'].min()}/{df_processed['quality'].max()}")
print(f"Valores negativos em features: {(df_processed[numeric_cols.drop('quality')] < 0).sum().sum()}")

print(f"\nDataset após limpeza: {df_processed.shape}")
print(f"Colunas disponíveis: {list(df_processed.columns)}")
print(f"wine_type preservado: {'wine_type' in df_processed.columns}")

### Tratamento de Outliers

Aplicação de winsorização (capping) para tratar outliers extremos, preservando a distribuição geral dos dados.

In [None]:
# Função para winsorização
def winsorize_feature(data, column, lower_percentile=0.05, upper_percentile=0.95):
    lower_bound = data[column].quantile(lower_percentile)
    upper_bound = data[column].quantile(upper_percentile)

    # Conta outliers antes do tratamento
    outliers_before = len(data[(data[column] < lower_bound) | (data[column] > upper_bound)])

    # Aplica capping (winsorização)
    data[column] = data[column].clip(lower=lower_bound, upper=upper_bound)

    return outliers_before

print("Tratamento de Outliers (Winsorização 5%-95%):")
print("=" * 45)

# Aplica winsorização em features numéricas (exceto target)
numeric_cols_processed = df_processed.select_dtypes(include=[np.number]).columns
features_to_winsorize = [col for col in numeric_cols_processed if col != 'quality']
total_outliers_treated = 0

# Estatísticas antes do tratamento
stats_before = df_processed[features_to_winsorize].describe()

for feature in features_to_winsorize:
    outliers_treated = winsorize_feature(df_processed, feature)
    total_outliers_treated += outliers_treated
    print(f"• {feature:20s}: {outliers_treated:3d} outliers tratados")

# Estatísticas após o tratamento
stats_after = df_processed[features_to_winsorize].describe()

print(f"\nTotal de outliers tratados: {total_outliers_treated}")
print(f"Percentual de dados modificados: {(total_outliers_treated/len(df_processed))*100:.2f}%")

# Comparação antes/depois para feature mais importante
most_important_feature = top_features_list[0]
print(f"\nComparação {most_important_feature} (feature mais correlacionada):")
print(f"Antes  - Mín: {stats_before[most_important_feature]['min']:.3f}, Máx: {stats_before[most_important_feature]['max']:.3f}")
print(f"Depois - Mín: {stats_after[most_important_feature]['min']:.3f}, Máx: {stats_after[most_important_feature]['max']:.3f}")

### Feature Engineering

Criação de novas variáveis baseadas no conhecimento do domínio para melhorar a capacidade preditiva do modelo supervisionado.

In [None]:
print("Feature Engineering:")
print("=" * 20)

# 1. Razão acidez total / pH (indicador de equilíbrio ácido)
df_processed['acidity_ph_ratio'] = (df_processed['fixed acidity'] + df_processed['volatile acidity']) / df_processed['pH']
print("• Criada: acidity_ph_ratio (equilíbrio ácido)")

# 2. Razão SO2 livre / SO2 total (eficiência da preservação)
df_processed['sulfur_ratio'] = df_processed['free sulfur dioxide'] / (df_processed['total sulfur dioxide'] + 1e-8)
print("• Criada: sulfur_ratio (eficiência preservação)")

# 3. Indicador de vinho doce (baseado no quartil superior)
sugar_threshold = df_processed['residual sugar'].quantile(0.75)
df_processed['is_sweet'] = (df_processed['residual sugar'] > sugar_threshold).astype(int)
print(f"• Criada: is_sweet (threshold: {sugar_threshold:.2f} g/dm³)")

# 4. Categoria de álcool (baixo, médio, alto)
df_processed['alcohol_category'] = pd.cut(df_processed['alcohol'],
                                         bins=[0, 10, 12, 15],
                                         labels=['Baixo', 'Médio', 'Alto'])
print("• Criada: alcohol_category (Baixo: <10%, Médio: 10-12%, Alto: >12%)")

# 5. Densidade ajustada (densidade - álcool, pois álcool reduz densidade)
df_processed['density_adjusted'] = df_processed['density'] + (df_processed['alcohol'] * 0.001)
print("• Criada: density_adjusted (densidade corrigida pelo álcool)")

print(f"\nTotal de features após engineering: {len(df_processed.columns)}")
print(f"Novas features criadas: 5")

# Verifica correlação das novas features com target
new_features = ['acidity_ph_ratio', 'sulfur_ratio', 'is_sweet', 'density_adjusted']
print(f"\nCorrelação das novas features com quality:")
for feature in new_features:
    corr = df_processed[feature].corr(df_processed['quality'])
    print(f"• {feature:20s}: {corr:+.3f}")

### Codificação de Variáveis Categóricas

Transformação de variáveis categóricas em formato numérico adequado para algoritmos de aprendizado supervisionado.

In [None]:
print("Codificação de Variáveis Categóricas:")
print("=" * 35)

# Verifica colunas categóricas disponíveis
categorical_cols = df_processed.select_dtypes(include=['object', 'category']).columns
print(f"Colunas categóricas encontradas: {list(categorical_cols)}")

# Codifica wine_type se existir
if 'wine_type' in df_processed.columns:
    # Label Encoding para wine_type (binária: red=0, white=1)
    le_wine_type = LabelEncoder()
    df_processed['wine_type_encoded'] = le_wine_type.fit_transform(df_processed['wine_type'])
    mapping = dict(zip(le_wine_type.classes_, le_wine_type.transform(le_wine_type.classes_)))
    print(f"• wine_type codificado: {mapping}")

    # Remove coluna original
    df_processed = df_processed.drop(['wine_type'], axis=1)
else:
    print("• wine_type: Coluna não encontrada")

# Codifica alcohol_category se existir
if 'alcohol_category' in df_processed.columns:
    # One-Hot Encoding para alcohol_category (ordinal, mas poucas categorias)
    alcohol_dummies = pd.get_dummies(df_processed['alcohol_category'], prefix='alcohol', drop_first=True)
    df_processed = pd.concat([df_processed, alcohol_dummies], axis=1)
    print(f"• alcohol_category: One-Hot Encoding aplicado ({len(alcohol_dummies.columns)} colunas criadas)")

    # Remove coluna original
    df_processed = df_processed.drop(['alcohol_category'], axis=1)
else:
    print("• alcohol_category: Coluna não encontrada")

# Verifica se restaram colunas categóricas
remaining_categorical = df_processed.select_dtypes(include=['object', 'category']).columns
if len(remaining_categorical) > 0:
    print(f"\nColunas categóricas restantes: {list(remaining_categorical)}")
else:
    print(f"\n Todas as variáveis categóricas foram codificadas")

print(f"\nDataset após codificação: {df_processed.shape}")
print(f"Tipos de dados finais:")
print(df_processed.dtypes.value_counts())

### Normalização dos Dados

Aplicação de StandardScaler para normalizar as features numéricas, essencial para algoritmos sensíveis à escala.

In [None]:
# Separação de features e target
X = df_processed.drop('quality', axis=1)
y = df_processed['quality']

print("Normalização dos Dados:")
print("=" * 25)
print(f"Features (X): {X.shape}")
print(f"Target (y): {y.shape}")
print(f"Problema: Supervisionado (target = quality)")

# Identifica colunas binárias (não precisam normalização)
binary_columns = []
for col in X.columns:
    unique_vals = X[col].nunique()
    if unique_vals == 2 and set(X[col].unique()).issubset({0, 1}):
        binary_columns.append(col)

columns_to_normalize = [col for col in X.columns if col not in binary_columns]

print(f"\nColunas para normalização: {len(columns_to_normalize)}")
print(f"Colunas binárias (preservadas): {len(binary_columns)}")
if binary_columns:
    print(f"Colunas binárias: {binary_columns}")

# Aplica StandardScaler
scaler = StandardScaler()
X_normalized = X.copy()

if len(columns_to_normalize) > 0:
    X_normalized[columns_to_normalize] = scaler.fit_transform(X[columns_to_normalize])

    # Verifica normalização
    normalized_stats = X_normalized[columns_to_normalize].describe()
    print(f"\nVerificação da normalização:")
    print(f"Média máxima: {normalized_stats.loc['mean'].abs().max():.6f} (deve ser ~0)")
    print(f"Desvio padrão máximo: {normalized_stats.loc['std'].max():.6f} (deve ser ~1)")
    print(f"Desvio padrão mínimo: {normalized_stats.loc['std'].min():.6f} (deve ser ~1)")
else:
    print("\nNenhuma coluna foi normalizada (apenas binárias encontradas)")

# Estatísticas da variável target
print(f"\nEstatísticas da variável target (quality):")
print(f"Distribuição: {y.value_counts().sort_index().to_dict()}")
print(f"Balanceamento: {(y.value_counts() / len(y) * 100).round(1).to_dict()}%")

### Dataset Final

Preparação e salvamento do dataset processado, pronto para modelagem supervisionada.

In [None]:
# Dataset final
df_final = X_normalized.copy()
df_final['quality'] = y

print("Dataset Final Processado:")
print("=" * 30)
print(f"Dimensões: {df_final.shape}")
print(f"Features: {df_final.shape[1] - 1}")
print(f"Amostras: {df_final.shape[0]}")
print(f"Tipo de problema: Supervisionado")
print(f"Variável target: quality")

# Distribuição final da qualidade
print(f"\nDistribuição Final da Variável Target:")
quality_dist = df_final['quality'].value_counts().sort_index()
for quality, count in quality_dist.items():
    percentage = (count / len(df_final)) * 100
    print(f"• Qualidade {quality}: {count:4d} ({percentage:5.1f}%)")

# Informações sobre features
print(f"\nTipos de Features no Dataset Final:")
feature_types = df_final.drop('quality', axis=1).dtypes.value_counts()
for dtype, count in feature_types.items():
    print(f"• {dtype}: {count} features")

# Verifica qualidade dos dados
print(f"\nQualidade dos Dados Finais:")
print(f"• Valores ausentes: {df_final.isnull().sum().sum()}")
print(f"• Valores infinitos: {np.isinf(df_final.select_dtypes(include=[np.number])).sum().sum()}")
print(f"• Duplicatas: {df_final.duplicated().sum()}")

# Salva dataset processado
df_final.to_csv('wine_quality_processed.csv', index=False)
print(f"\n Dataset salvo como: wine_quality_processed.csv")

## Conclusões e Próximos Passos

### Principais Descobertas:

1. **Problema Supervisionado Confirmado**: O dataset possui uma variável target bem definida (quality) com 6.497 exemplos rotulados, adequado para classificação ou regressão.

2. **Correlações Identificadas**: O teor alcoólico mostrou a correlação positiva mais forte com a qualidade, enquanto a acidez volátil apresentou a correlação negativa mais significativa.

3. **Distribuição da Target**: A maioria dos vinhos concentra-se nas qualidades 5-7 (85% dos dados), com poucos exemplares de qualidade extrema, indicando um problema de classificação com classes desbalanceadas.

4. **Outliers Tratados**: Foram identificados e tratados outliers em todas as variáveis numéricas usando winsorização, preservando a distribuição geral dos dados.

5. **Features Engineered**: Cinco novas variáveis foram criadas baseadas no conhecimento do domínio, incluindo razões químicas e indicadores categóricos que podem melhorar a capacidade preditiva.

6. **Dataset Balanceado**: O dataset final contém dados normalizados, codificados e prontos para algoritmos de aprendizado supervisionado.

### Insights para Modelagem Supervisionada:

• **Features mais importantes**: alcohol, volatile acidity, sulphates, citric acid
• **Estratégia recomendada**: Classificação multiclasse ou regressão ordinal
• **Desafios**: Classes desbalanceadas (qualidades 3, 4, 8, 9 são raras)
• **Oportunidades**: Features engineered podem capturar relações não-lineares

### Próximos Passos:

• **Modelagem**: Aplicar algoritmos de classificação/regressão
• **Validação**: Implementar validação cruzada estratificada para lidar com desbalanceamento
• **Otimização**: Realizar tuning de hiperparâmetros e seleção de features
• **Interpretabilidade**: Analisar importância das features e SHAP values
• **Avaliação**: Usar métricas apropriadas (F1-score, precision/recall por classe)
• **Deployment**: Preparar modelo para produção com pipeline de pré-processamento