# k-vecino más cercano (KNN). 

*Se utiliza para clasificar nuevos puntos de datos en función de la "distancia" para conocer los datos. Encuentra los k vecinos más cercanos, según tu métrica de distancia. Que todos voten sobre la clasificación. Eso es todo*

*Es un concepto simple: defina alguna métrica de distancia entre los elementos de su conjunto de datos y encuentre los elementos de K closets. Luego puede usar esos elementos para predecir alguna propiedad de un elemento de prueba, haciendo que de alguna manera "voten" sobre él. Como ejemplo, veamos los datos de movieleens. Trataremos de adivinar la calificación de una película mirando las 10 películas que están cerca de ella en términos de géneros y popularidad. Para empezar, cargaremos cada calificación en el conjunto de datos en un Dataframe de Pandas*

In [1]:
import pandas as pd
import numpy as np
from ast import literal_eval
import re
import warnings
warnings.filterwarnings("ignore")

r_cols = ['user_id', 'movie_id', 'rating']
ratings = pd.read_csv(r'C:\Users\Dell Inspiron\Python_notebook\csv\DataScience-Python3\ml-100k\u.data', sep='\t', names=r_cols, usecols=range(3))
ratings.head()

Unnamed: 0,user_id,movie_id,rating
0,0,50,5
1,0,172,5
2,0,133,1
3,196,242,3
4,186,302,3


*Ahora agruparemos todo por ID de película y calcularemos el número total de calificaciones (la popularidad de cada película) y la calificación promedio de cada película.*

In [2]:
movieProperties = ratings.groupby('movie_id').agg({'rating': [np.size, np.mean]})
movieProperties.head()

Unnamed: 0_level_0,rating,rating
Unnamed: 0_level_1,size,mean
movie_id,Unnamed: 1_level_2,Unnamed: 2_level_2
1,452,3.878319
2,131,3.206107
3,90,3.033333
4,209,3.550239
5,86,3.302326


*El número bruto de clasificación no es muy útil para calcular distancias entre películas, por lo que crearemos un nuevo Dataframe que contenga el número normalizado de clasificaciones. Entonces, un valor de 0 significa que nadie lo relató, y el valor de 1 significará que es la película más popular que existe.*

In [3]:
movieNumRatings = pd.DataFrame(movieProperties['rating']['size'])
movieNormalizedNumRatings = movieNumRatings.apply(lambda x: (x - np.min(x)) / (np.max(x) - np.min(x)))
movieNormalizedNumRatings.head()

Unnamed: 0_level_0,size
movie_id,Unnamed: 1_level_1
1,0.773585
2,0.222985
3,0.152659
4,0.356775
5,0.145798


*Ahora vamos a obtener la información del género del archivo ITEM. La forma en que esto funciona es que hay 19 campos, cada uno correspondiente a un género específico: un valor de '0' significa que no está en ese género, y '1' significa que está en ese género. Una película puede tener más de un género asociado. Mientras estamos en eso, pondremos todo en una gran diccionario de phyton llamada movieDict. Cada entrada contendrá el nombre de la película, la lista de valores de género, la puntuación de popularidad normalizada y la calificación promedio de cada película*

In [4]:
movieDict = {}
with open(r'C:\Users\Dell Inspiron\Python_notebook\csv\DataScience-Python3\ml-100k\u.item', encoding = "ISO-8859-1") as f:
    temp = ''
    for line in f:
        #line.decode("ISO-8859-1")
        fields = line.rstrip('\n').split('|')
        movieID = int(fields[0])
        name = fields[1]
        genres = fields[5:25]
        genres = map(int, genres)
        movieDict[movieID] = (name, np.array(list(genres)), movieNormalizedNumRatings.loc[movieID].get('size'), movieProperties.loc[movieID].rating.get('mean'))


*Por ejemplo, aquí está el registro con el que terminamos para la película ID 1, "Toy Story":*

In [5]:
print(movieDict[1])

('Toy Story (1995)', array([0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]), 0.7735849056603774, 3.8783185840707963)


*Ahora definamos una función que calcula la "distancia" entre dos películas en función de cuán similares son sus géneros y cuán similar es su popularidad. Solo para asegurarnos de que funciona, calcularemos la distancia entre los ID de película 2 y 4:*

In [6]:
from scipy import spatial

def ComputeDistance(a, b):
    genresA = a[1]
    genresB = b[1]
    genreDistance = spatial.distance.cosine(genresA, genresB)
    popularityA = a[2]
    popularityB = b[2]
    popularityDistance = abs(popularityA - popularityB)
    return genreDistance + popularityDistance
    
ComputeDistance(movieDict[2], movieDict[4])

0.8004574042309892

*Recuerde que cuanto mayor sea la distancia, menos similares serán las películas. Veamos qué son realmente las películas 2 y 4, y confirmemos que no son tan similares:*

In [7]:
print(movieDict[2])
print(movieDict[4])

('GoldenEye (1995)', array([0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0]), 0.22298456260720412, 3.2061068702290076)
('Get Shorty (1995)', array([0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]), 0.3567753001715266, 3.550239234449761)


*Ahora, solo necesitamos un pequeño código para calcular la distancia entre alguna película de prueba dada (Toy Story, en este ejemplo) y todas las películas en nuestro conjunto de datos. Cuando ordene los por distancia, e imprima la K vecinos más cercanos:*

In [8]:
import operator

def getNeighbors(movieID, K):
    distances = []
    for movie in movieDict:
        if (movie != movieID):
            dist = ComputeDistance(movieDict[movieID], movieDict[movie])
            distances.append((movie, dist))
    distances.sort(key=operator.itemgetter(1))
    neighbors = []
    for x in range(K):
        neighbors.append(distances[x][0])
    return neighbors

K = 10
avgRating = 0
neighbors = getNeighbors(1, K)
for neighbor in neighbors:
    avgRating += movieDict[neighbor][3]
    print (movieDict[neighbor][0] + " " + str(movieDict[neighbor][3]))
    
avgRating /= K

Liar Liar (1997) 3.156701030927835
Aladdin (1992) 3.8127853881278537
Willy Wonka and the Chocolate Factory (1971) 3.6319018404907975
Monty Python and the Holy Grail (1974) 4.0664556962025316
Full Monty, The (1997) 3.926984126984127
George of the Jungle (1997) 2.685185185185185
Beavis and Butt-head Do America (1996) 2.7884615384615383
Birdcage, The (1996) 3.4436860068259385
Home Alone (1990) 3.0875912408759123
Aladdin and the King of Thieves (1996) 2.8461538461538463


*Mientras estábamos en ello, calculamos la calificación promedio de los 10 vecinos más cercanos a Toy Story:*

In [9]:
avgRating

3.3445905900235564

*¿Cómo se compara esto con la calificación promedio real de Toy Story?*

In [10]:
movieDict[1]

('Toy Story (1995)',
 array([0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]),
 0.7735849056603774,
 3.8783185840707963)