In [None]:
# PREPARAÇÃO DOS DADOS - REGRESSÃO (Prever Qualidade)
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
import pandas as pd
import numpy as np

# Carregar dados
dados_vinho = pd.read_csv('winequality.csv')

print("=== PREPARANDO DADOS PARA REGRESSÃO ===")

# 1. Separar características e objetivo
features = dados_vinho.drop(['quality', 'classe'], axis=1)
target_regressao = dados_vinho['quality']

print(f"Características: {features.shape}")
print(f"Distribuição da qualidade:")
distribuicao_qualidade = dados_vinho['quality'].value_counts().sort_index()
for qualidade, quantidade in distribuicao_qualidade.items():
    print(f"  - Qualidade {qualidade}: {quantidade} amostras")

# 2. Dividir em treino e teste
features_treino_reg, features_teste_reg, alvo_treino_reg, alvo_teste_reg = train_test_split(
    features, 
    target_regressao, 
    test_size=0.2, 
    random_state=42
)

print(f"\nDivisão treino/teste:")
print(f"  Treino: {features_treino_reg.shape} - {len(alvo_treino_reg)} amostras")
print(f"  Teste: {features_teste_reg.shape} - {len(alvo_teste_reg)} amostras")

# 3. Normalizar os dados
normalizador_regressao = StandardScaler()
features_treino_reg_normalizadas = normalizador_regressao.fit_transform(features_treino_reg)
features_teste_reg_normalizadas = normalizador_regressao.transform(features_teste_reg)

print(f"\nDados normalizados:")
print(f"  Treino normalizado: {features_treino_reg_normalizadas.shape}")
print(f"  Teste normalizado: {features_teste_reg_normalizadas.shape}")

# 4. Estatísticas dos dados de treino
print(f"\n=== ESTATÍSTICAS DOS DADOS DE TREINO ===")
print(f"Qualidade (treino) - Mínimo: {alvo_treino_reg.min()}, Máximo: {alvo_treino_reg.max()}")
print(f"Qualidade (treino) - Média: {alvo_treino_reg.mean():.2f}, Mediana: {alvo_treino_reg.median()}")

# 5. Variáveis disponíveis para uso
print(f"\n=== VARIÁVEIS DISPONÍVEIS ===")
print("""
VARIÁVEIS PARA REGRESSÃO:
- features_treino_reg_normalizadas: Features de treino normalizadas
- features_teste_reg_normalizadas: Features de teste normalizadas  
- alvo_treino_reg: Qualidades de treino (3-9)
- alvo_teste_reg: Qualidades de teste (3-9)
- normalizador_regressao: Objeto para normalizar novos dados
""")

=== PREPARANDO DADOS PARA REGRESSÃO ===
Características: (5911, 11)
Distribuição da qualidade:
  - Qualidade 3: 15 amostras
  - Qualidade 4: 177 amostras
  - Qualidade 5: 1924 amostras
  - Qualidade 6: 2594 amostras
  - Qualidade 7: 1014 amostras
  - Qualidade 8: 182 amostras
  - Qualidade 9: 5 amostras

Divisão treino/teste:
  Treino: (4728, 11) - 4728 amostras
  Teste: (1183, 11) - 1183 amostras

Dados normalizados:
  Treino normalizado: (4728, 11)
  Teste normalizado: (1183, 11)

=== ESTATÍSTICAS DOS DADOS DE TREINO ===
Qualidade (treino) - Mínimo: 3, Máximo: 9
Qualidade (treino) - Média: 5.84, Mediana: 6.0

=== VARIÁVEIS DISPONÍVEIS ===

VARIÁVEIS PARA REGRESSÃO:
- features_treino_reg_normalizadas: Features de treino normalizadas
- features_teste_reg_normalizadas: Features de teste normalizadas  
- alvo_treino_reg: Qualidades de treino (3-9)
- alvo_teste_reg: Qualidades de teste (3-9)
- normalizador_regressao: Objeto para normalizar novos dados



In [None]:
# REGRESSÃO COM SCIKIT-LEARN 
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
import numpy as np

print("=== MODELO DE REGRESSÃO ===")

# Modelo
modelo_regressao = LinearRegression()
modelo_regressao.fit(features_treino_reg_normalizadas, alvo_treino_reg)

# Previsões
previsoes = modelo_regressao.predict(features_teste_reg_normalizadas)

# Métricas
print(f"RMSE: {np.sqrt(mean_squared_error(alvo_teste_reg, previsoes)):.4f}")
print(f"MAE: {mean_absolute_error(alvo_teste_reg, previsoes):.4f}")
print(f"R²: {r2_score(alvo_teste_reg, previsoes):.4f}")

# Importância das features
importancia = pd.DataFrame({
    'feature': features.columns,
    'importancia': abs(modelo_regressao.coef_)  # Valor absoluto
}).sort_values('importancia', ascending=False)

print("\nTop 5 features mais importantes:")
print(importancia.head())

=== MODELO DE REGRESSÃO ===
RMSE: 0.7141
MAE: 0.5582
R²: 0.3096

Top 5 features mais importantes:
                feature  importancia
10              alcohol     0.327842
3        residual sugar     0.200796
1      volatile acidity     0.179783
7               density     0.162302
5   free sulfur dioxide     0.139022


In [None]:
# Regressão com Modelo Manual