# <font color='blue'>KNN Hands-On</font>
# <font color='blue'>Capítulo 1</font>


In [1]:
# Versão da Linguagem Python
from platform import python_version
print('Versão da Linguagem Python usada neste Jupyter Notebook:', python_version())

Versão da Linguagem Python usada neste Jupyter Notebook: 3.9.12


# Exemplo com dataset Iris

In [2]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.datasets import load_iris

# Carregar conjunto de dados de exemplo (Iris dataset)
iris = load_iris()
X = iris.data  # Características
y = iris.target  # Classes

# Dividir o conjunto de dados em conjunto de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Criar um classificador KNN com k=3
knn = KNeighborsClassifier(n_neighbors=3)

# Treinar o classificador com o conjunto de treinamento
knn.fit(X_train, y_train)

# Fazer previsões no conjunto de teste
y_pred = knn.predict(X_test)

# Avaliar a precisão do modelo
accuracy = accuracy_score(y_test, y_pred)
print("Acurácia do KNN:", accuracy)

Acurácia do KNN: 1.0


# Nearest Neighbors

## Nearest Neighbors Não Supervisionados

### BallTree

In [12]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.datasets import load_iris

# Carregar conjunto de dados de exemplo (Íris dataset)
iris = load_iris()
X = iris.data  # Características
y = iris.target  # Classes

# Dividir o conjunto de dados em conjunto de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Criar um classificador KNN com BallTree e k=3
knn = KNeighborsClassifier(n_neighbors=3, algorithm='ball_tree')

# Treinar o classificador com o conjunto de treinamento
knn.fit(X_train, y_train)

# Fazer previsões no conjunto de teste
y_pred = knn.predict(X_test)

# Avaliar a precisão do modelo
accuracy = accuracy_score(y_test, y_pred)
print("Acurácia do KNN com BallTree:", accuracy)


Acurácia do KNN com BallTree: 1.0


### Recomendação de filmes com BallTree

In [17]:
import pandas as pd
from sklearn.neighbors import NearestNeighbors
from sklearn.preprocessing import StandardScaler

# Carregar conjunto de dados de avaliações de filmes
movies = pd.read_csv('dataset/movies.csv')
ratings = pd.read_csv('dataset/ratings.csv')

# Calcular média de avaliação por filme
movie_ratings = ratings.groupby('movieId').agg({'rating': 'mean', 'userId': 'count'})
movie_ratings.rename(columns={'rating': 'avg_rating', 'userId': 'num_ratings'}, inplace=True)

# Juntar informações dos filmes com média de avaliação
movies = pd.merge(movies, movie_ratings, on='movieId')

# Selecionar apenas algumas características relevantes para o exemplo
features = ['avg_rating', 'num_ratings']

# Padronizar os dados
scaler = StandardScaler()
X = scaler.fit_transform(movies[features])

# Criar e treinar o modelo KNN com BallTree
knn = NearestNeighbors(n_neighbors=5, algorithm='ball_tree')
knn.fit(X)

# Função para encontrar filmes semelhantes
def find_similar_movies(movie_index):
    distances, indices = knn.kneighbors([X[movie_index]])
    similar_movies = [(movies.iloc[idx]['title'], distances.squeeze()[i]) for i, idx in enumerate(indices.squeeze())]
    return similar_movies

# Exemplo: Encontrar filmes semelhantes ao filme com índice 0
similar_movies = find_similar_movies(0)
print("Filmes semelhantes ao filme:", movies.iloc[0]['title'])
for movie, distance in similar_movies[1:]:  # Exclui o filme em si da lista
    print(f"{movie} (Distância: {distance})")


Filmes semelhantes ao filme: Toy Story (1995)
Star Wars: Episode V - The Empire Strikes Back (1980) (Distância: 0.38299165451262984)
Terminator 2: Judgment Day (1991) (Distância: 0.4058879034472924)
Schindler's List (1993) (Distância: 0.4147618738457047)
Fight Club (1999) (Distância: 0.42626982607196917)


## Fim