# Resumo de Machine Learning para Prova Intermediária

In [1]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.decomposition import TruncatedSVD
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
from sklearn.preprocessing import PolynomialFeatures

## 1. Álgebra Linear

### 1.1 Produto Escalar de Tuplas

O produto escalar (ou produto interno) de duas tuplas é a soma dos produtos de seus elementos correspondentes.

def produto_escalar(a, b):
    return sum(x*y for x, y in zip(a, b))

a = (1, 2, 3)
b = (4, 5, 6)
print(f"Produto escalar de {a} e {b}: {produto_escalar(a, b)}")

### 1.2 Multiplicação de Matrizes

A multiplicação de matrizes é uma operação fundamental em álgebra linear.

In [None]:
A = np.array([[1, 2], [3, 4]])
B = np.array([[5, 6], [7, 8]])
C = np.dot(A, B)
print("Multiplicação de matrizes:")
print(f"A:\n{A}")
print(f"B:\n{B}")
print(f"A * B:\n{C}")

### 1.3 Combinação Linear

Uma combinação linear é a soma de vetores multiplicados por escalares.

In [None]:
def combinacao_linear(vetores, coeficientes):
    return sum(c*v for c, v in zip(coeficientes, vetores))

v1 = np.array([1, 2, 3])
v2 = np.array([4, 5, 6])
coef = [2, -1]
resultado = combinacao_linear([v1, v2], coef)
print(f"Combinação linear: {coef[0]}*{v1} + {coef[1]}*{v2} = {resultado}")

## 2. Matrizes

### 2.1 Representação de Dados em Matrizes

In [None]:
# Exemplo de conjunto de dados
dados = np.array([
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9]
])
print("Matriz de dados:")
print(dados)

### 2.2 Organização de Problemas como Operações Matriciais

Muitos problemas em machine learning podem ser expressos como operações matriciais.

In [None]:
# Exemplo: transformação linear
A = np.array([[2, 0], [0, 3]])
x = np.array([1, 1])
y = np.dot(A, x)
print(f"Transformação linear: A * x = {y}")

## 3. Singular Value Decomposition (SVD)

SVD é uma técnica de fatoração de matrizes útil para redução de dimensionalidade e análise de dados.


In [None]:
# Exemplo de SVD
X = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
svd = TruncatedSVD(n_components=2)
X_reduzido = svd.fit_transform(X)

print("Matriz original:")
print(X)
print("\nMatriz reduzida:")
print(X_reduzido)

# Identificação de outliers (exemplo simplificado)
distancias = np.sum(X_reduzido**2, axis=1)
threshold = np.percentile(distancias, 95)
outliers = np.where(distancias > threshold)[0]
print(f"\nÍndices dos possíveis outliers: {outliers}")

# Similaridade por distância cosseno
def cosine_similarity(a, b):
    return np.dot(a, b) / (np.linalg.norm(a) * np.linalg.norm(b))

sim = cosine_similarity(X_reduzido[0], X_reduzido[1])
print(f"\nSimilaridade cosseno entre os dois primeiros pontos: {sim}")

## 4. Clustering

### 4.1 K-means

K-means é um algoritmo de clustering que agrupa dados em k clusters.


In [None]:
# Exemplo de K-means
X = np.array([[1, 2], [1.5, 1.8], [5, 8], [8, 8], [1, 0.6], [9, 11]])

kmeans = KMeans(n_clusters=2, random_state=42)
kmeans.fit(X)

plt.scatter(X[:, 0], X[:, 1], c=kmeans.labels_, cmap='viridis')
plt.scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1], marker='x', s=200, linewidths=3, color='r')
plt.title('K-means Clustering')
plt.show()

### 4.2 Silhouette Score

O Silhouette Score é uma medida de quão bem cada ponto se encaixa em seu cluster atribuído.


In [None]:
silhouette_avg = silhouette_score(X, kmeans.labels_)
print(f"Silhouette Score médio: {silhouette_avg}")

## 5. Otimização

### 5.1 Gradient Descent

Gradient Descent é um algoritmo de otimização usado para encontrar mínimos de funções.

In [None]:
def funcao_objetivo(x):
    return x**2 + 5*x + 6

def derivada(x):
    return 2*x + 5

def gradient_descent(learning_rate, num_iterations):
    x = 0  # Ponto inicial
    for _ in range(num_iterations):
        grad = derivada(x)
        x = x - learning_rate * grad
    return x

resultado = gradient_descent(0.1, 100)
print(f"Mínimo encontrado: x = {resultado}, f(x) = {funcao_objetivo(resultado)}")

# Visualização
x = np.linspace(-10, 5, 100)
y = funcao_objetivo(x)
plt.plot(x, y)
plt.scatter([resultado], [funcao_objetivo(resultado)], color='red')
plt.title('Função Objetivo e Mínimo Encontrado')
plt.show()

## 6. Regressão Linear

A regressão linear modela a relação entre variáveis independentes e uma variável dependente.


In [None]:
# Exemplo de regressão linear
X = np.array([[1], [2], [3], [4], [5]])
y = np.array([2, 4, 5, 4, 5])

model = LinearRegression()
model.fit(X, y)

print(f"Coeficiente: {model.coef_[0]}")
print(f"Intercepto: {model.intercept_}")

plt.scatter(X, y)
plt.plot(X, model.predict(X), color='red')
plt.title('Regressão Linear')
plt.show()

## 7. Feature Engineering

### 7.1 Transformação Polinomial

In [None]:
X = np.array([[1], [2], [3], [4], [5]])
y = np.array([1, 4, 9, 16, 25])

poly = PolynomialFeatures(degree=2)
X_poly = poly.fit_transform(X)

model = LinearRegression()
model.fit(X_poly, y)

X_test = np.linspace(0, 6, 100).reshape(-1, 1)
X_test_poly = poly.transform(X_test)

plt.scatter(X, y)
plt.plot(X_test, model.predict(X_test_poly), color='red')
plt.title('Regressão Polinomial')
plt.show()

## 8. Aplicação

### 8.1 Análise Exploratória, Construção e Avaliação de Modelo

In [None]:
# Gerando dados sintéticos
np.random.seed(42)
X = np.random.rand(100, 1) * 10
y = 2 * X + 1 + np.random.randn(100, 1)

# Divisão treino-teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Construção do modelo
model = LinearRegression()
model.fit(X_train, y_train)

# Avaliação do modelo
y_pred = model.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
print(f"Erro Quadrático Médio: {mse}")

# Visualização
plt.scatter(X_train, y_train, label='Dados de Treino')
plt.scatter(X_test, y_test, label='Dados de Teste')
plt.plot(X, model.predict(X), color='red', label='Regressão')
plt.legend()
plt.title('Modelo de Regressão Linear')
plt.show()