# Problema: Regressão Linear

* **Regressão**: predição de saídas contínuas

### Carga de pacotes e dados

In [None]:
import numpy as np
import pandas as pd
import joblib
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score

In [None]:
# Gerar dados simulados


### Análise exploratória dos dados

In [None]:
# Convertendo para DataFrame para facilitar a análise
data = pd.DataFrame(np.c_[X, y], columns=['X', 'y'])
data.head(5)

In [None]:
# Estatísticas Descritivas
print("Estatísticas descritivas de X e y:")


In [None]:
# Visualização de Dispersão (Scatter Plot)
plt.figure(figsize=(8, 6))
plt.scatter(data['X'], data['y'], color='blue')
plt.title('Gráfico de Dispersão entre X e y')
plt.xlabel('X')
plt.ylabel('y')
plt.show()


In [None]:
# Correlação entre X e y


In [None]:
# Histograma de X
plt.figure(figsize=(14, 6))
plt.hist(data['X'], bins=10, color='green', alpha=0.7)
plt.title('Histograma de X')
plt.xlabel('X')
plt.ylabel('Frequência')


In [None]:
# Histograma de y
plt.figure(figsize=(14, 6))
plt.hist(data['y'], bins=10, color='purple', alpha=0.7)
plt.title('Histograma de y')
plt.xlabel('y')
plt.ylabel('Frequência')
plt.show()

### Dividir os dados em treino e teste

### Treinar o modelo

In [None]:
# Ajustar o modelo de regressão linear


In [None]:
# Exibir coeficientes
print(f'Intercepto: {model.intercept_[0]:.2f}')
print(f'Coeficiente Angular: {model.coef_[0][0]:.2f}')

### Avaliar o modelo

In [None]:
# Avaliando o modelo usando o Mean Squared Error (MSE) e o coeficiente de determinação R²
mse = mean_squared_error(y_train, y_pred_train)
r2 = r2_score(y_train, y_pred_train)

print(f'Mean Squared Error (MSE): {mse:.2f}')
print(f'Coeficiente de Determinação (R²): {r2:.2f}')

In [None]:
# Visualizar os resultados com dados de TREINO
plt.scatter(X_train, y_train, color='blue', label='Dados Reais')
plt.plot(X_train, y_pred_train, color='red', label='Regressão Linear')
plt.xlabel('X')
plt.ylabel('y')
plt.title('Regressão Linear Simples Dados de Treino')
plt.legend()
plt.show()

In [None]:
# Avaliando o modelo usando o Mean Squared Error (MSE) e o coeficiente de determinação R²
mse = mean_squared_error(y_test, y_pred_test)
r2 = r2_score(y_test, y_pred_test)

print(f'Mean Squared Error (MSE): {mse:.2f}')
print(f'Coeficiente de Determinação (R²): {r2:.2f}')

In [None]:
# Visualizar os resultados com dados de TESTE
plt.scatter(X_test, y_test, color='blue', label='Dados Reais')
plt.plot(X_test, y_pred_test, color='red', label='Regressão Linear')
plt.xlabel('X')
plt.ylabel('y')
plt.title('Regressão Linear Simples Dados de Teste')
plt.legend()
plt.show()

#### Salvando o modelo treinado

In [None]:
joblib.dump(model, 'modelo_regressao_linear.pkl')
print("Modelo salvo com sucesso.")

### Fazer previsões com o modelo

In [None]:
# Carregar o modelo salvo
model_loaded = joblib.load('modelo_regressao_linear.pkl')

# Fazer previsões com o modelo carregado
X_new = np.array([[0.34908024]])
y_pred = model_loaded.predict(X_new)
y_pred

# Classificação com Regressão Logística

* **Classificação**: prever rótulos de classe categóricos


In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LogisticRegression

In [None]:
# Gerar dados simulados
np.random.seed(42)
num_samples = 100
X = np.random.randn(num_samples, 2)
y = (X[:, 0] + X[:, 1] > 0).astype(int)

In [None]:
y

In [None]:
# Ajustar o modelo de regressão logística
model = LogisticRegression()
model.fit(X, y)

In [None]:
# Plotar os dados e a fronteira de decisão
x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
xx, yy = np.meshgrid(np.linspace(x_min, x_max, 200),np.linspace(y_min, y_max, 200))
Z = model.predict(np.c_[xx.ravel(), yy.ravel()])
Z = Z.reshape(xx.shape)

plt.contourf(xx, yy, Z, alpha=0.2)
plt.scatter(X[:, 0], X[:, 1], c=y, edgecolors='k', cmap=plt.cm.Paired)
plt.xlabel('Característica 1')
plt.ylabel('Característica 2')
plt.title('Classificação com Regressão Logística')
plt.show()


# Clusterização com K-Means

  * **Agrupamento**: permite descobrir estruturas escondidas nos dados, encontrando grupos naturais nos dados

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans

* Cluster 1: Centrados em (0, -3), na parte inferior do gráfico.
* Cluster 2: Centrados em (3, 3), no canto superior direito.
* Cluster 3: Centrados em (-3, 3), no canto superior esquerdo.

In [None]:
# Gerar dados simulados
np.random.seed(42)

# Gera uma matriz de dimensões (100, 2) com números aleatórios seguindo uma distribuição normal padrão (média 0, desvio padrão 1).
# + np.array([0, -3]): desloca todos os pontos em 0 unidades no eixo X e -3 unidades no eixo Y.
X1 = np.random.randn(100, 2) + np.array([0, -3])
X2 = np.random.randn(100, 2) + np.array([3, 3])
X3 = np.random.randn(100, 2) + np.array([-3, 3])

#Vertical Stack:Empilha verticalmente as matrizes X1, X2 e X3.
X = np.vstack([X1, X2, X3])

In [None]:
# Aplicar K-Means
kmeans = KMeans(n_clusters=3, random_state=42)
y_pred = kmeans.fit_predict(X)

In [None]:
# Visualização
plt.scatter(X[:, 0], X[:, 1], c=y_pred, cmap='viridis', edgecolors='k')
plt.scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1],s=200, c='red', label='Centroides')
plt.xlabel('Característica 1')
plt.ylabel('Característica 2')
plt.title('Clusterização com K-Means')
plt.legend()
plt.show()