# Bitácora de exploración
## Collective Intelligence - Making Recommendations

### Filtros colaborativos

Se desarrollará un sistema de recomendación basado coincidencias de un usuario con otros.

Un algorítmo de *filtrado colaborativo* usualmente funciona buscando en un grupo grande de personas y encontrando un conjunto mas pequeño con gustos similares a los de cierto usuario.

En general, filtrado colaborativo es el proceso de filtrado de información o patrones usando técnicas que involucran la colaboración entre múltiples agentes, puntos de vista, fuentes de datos, etc.

### Recolectando preferencias

Lo primero que se tiene que considerar es una representación que nos permita hablar de **personas** y sus **gustos** sobre determinados **ítems**. En este caso las personas serán críticos de películas, los gustos se representarán como las calificaciones que le asignan a películas, las cuales serán los ítems.

La representación con la que se trabajará será la de diccionarios anidados, si `d[a,b]` es un diccionario que relaciona `a` con `b`, la estructura que utilizaremos tiene la forma:

```
d[Nombre de persona, d[Nombre de película, Calificación]
```

Tanto el nombre del crítico como el nombre de la película son cadenas de caracteres; la calificación se representa como un valor numérico entre 1 y 5

In [1]:
# Un diccionario de críticos de cine con sus calificaciones de un
# conjunto pequeño de películas
critics = {
    "Lisa Rose" : {
        "Lady in the Water"  : 2.5,
        "Snakes on a Plane"  : 3.5,
        "Just My Luck"       : 3.0,
        "Superman Returns"   : 3.5,
        "You, Me and Dupree" : 2.5,
        "The Night Listener" : 3.0
    },
    "Gene Seymour" : {
        "Lady in the Water"  : 3.0,
        "Snakes on a Plane"  : 3.5,
        "Just My Luck"       : 1.5,
        "Superman Returns"   : 5.0,
        "The Night Listener" : 3.0,
        "You, Me and Dupree" : 3.5
    },
    "Michael Phillips" : {
        "Lady in the Water"  : 2.5,
        "Snakes on a Plane"  : 3.0,
        "Superman Returns"   : 3.5,
        "The Night Listener" : 4.0
    },
    "Claudia Puig" : {
        "You, Me and Dupree" : 2.5,
        "Snakes on a Plane"  : 3.5,
        "Just My Luck"       : 3.0,
        "Superman Returns"   : 4.0,
        "The Night Listener" : 4.5
    },
    "Mick LaSalle" : {
        "Lady in the Water"  : 3.0,
        "Snakes on a Plane"  : 4.0,
        "Just My Luck"       : 2.0,
        "Superman Returns"   : 3.0,
        "The Night Listener" : 3.0,
        "You, Me and Dupree" : 2.0
    },
    "Jack Matthews" : {
        "Lady in the Water"  : 3.0,
        "Snakes on a Plane"  : 4.0,
        "You, Me and Dupree" : 3.5,
        "Superman Returns"   : 5.0,
        "The Night Listener" : 3.0
    },
    "Toby" : {
        "Snakes on a Plane"  : 4.5,
        "You, Me and Dupree" : 1.0,
        "Superman Returns"   : 4.0
    }
}

### Encontrando usuarios similares

Para determinar que tan similar son los gustos de dos personas se pueden utilizar varias métricas, las cuales llamamos *puntuaciones de similitud*

En este ejercicio se implementarán dos: la *distancia Euclideana* y la *correlación de Pearson*

In [2]:
# Obtiene una lista con los ítems en común entre dos usuarios
def shared_items(data, user_a, user_b):
    return [item for item in data[user_a] if item in data[user_b]]

In [3]:
shared_items(critics, "Gene Seymour", "Lisa Rose")

['Lady in the Water',
 'Snakes on a Plane',
 'Just My Luck',
 'Superman Returns',
 'You, Me and Dupree',
 'The Night Listener']

In [4]:
def critics_ratings(data, user_a, user_b):
    shared = shared_items(data, user_a, user_b)
    c_a = [data[user_a][item] for item in shared]
    c_b = [data[user_b][item] for item in shared]
    n = len(shared)
    return c_a, c_b, n

In [5]:
c_a, c_b, n = critics_ratings(critics, "Gene Seymour", "Lisa Rose")
print "c_a = ", c_a
print "c_b = ", c_b
print "n   = ", n

c_a =  [3.0, 3.5, 1.5, 5.0, 3.5, 3.0]
c_b =  [2.5, 3.5, 3.0, 3.5, 2.5, 3.0]
n   =  6


In [6]:
def normalize(vec):
    max_val = float(max(vec))
    return map(lambda x: x/max_val, vec)

In [7]:
v = [1, 4, 2.3, 5.8, 2.9, 0.31]
normalize(v)

[0.1724137931034483,
 0.6896551724137931,
 0.396551724137931,
 1.0,
 0.5,
 0.05344827586206897]

#### Puntuación de la distancia Euclideana

Considerando $n$ películas calificadas por una cantidad de críticos, podemos encontrar que tan similar son dos personas si tomamos un espacio $n$-dimensional en donde un punto es un crítico y sus coordenadas se determinan por la calificación que le asignó dicho crítico a las películas.

La distancia Euclideana en este caso será calculada entre dos críticos considerando las películas que calificaron en común.

$$f(c^{(a)}, c^{(b)}) = \sqrt{(c^{(a)}_1 - c^{(b)}_1)^2 + \dots (c^{(a)}_n - c^{(b)}_n)^2}$$

donde $c^{(r)}_{i}$ es la calificación que le asignó el crítico $r$ a la película $i$

In [8]:
from math import sqrt

In [9]:
# Calcula la distancia euclideana entre dos usuarios en la base de datos
def euclidean_distance(data, user_a, user_b):
    c_a, c_b, n = critics_ratings(data, user_a, user_b)
    return sqrt(sum(map(lambda x,y: pow(x-y,2), c_a, c_b)))

In [10]:
euclidean_distance(critics, "Gene Seymour", "Lisa Rose")

2.3979157616563596

In [11]:
euclidean_distance(critics, "Toby", "Jack Matthews")

2.7386127875258306

In [12]:
# Calcula similaridad = 1/(1+distancia)
def euclidean_similarity(data, user_a, user_b):
    return 1/(1+euclidean_distance(data, user_a, user_b))

In [13]:
euclidean_similarity(critics, "Gene Seymour", "Lisa Rose")

0.29429805508554946

#### Puntuación de la correlación de Pearson

Una manera mas sofisticada para determinar la similaridad entre los intereses de dos personas es usando el coeficiente de correlación de Pearson.

Considerando a dos críticos $a$ y $b$ podemos encontrar que tan similares son sus gustos si tomamos las películas que calificaron en común y las colocamos en un espacio bidimensional, en donde cada punto es $(c^{(a)}_i, c^{(b)}_i)$. Donde $c^{(r)}_i$ es la calificación que le asignó el crítico $r$ a la película $i$.

Se hace una regresión lineal con los puntos para obtener una recta con la que podemos determinar que tan cerca o lejos están las calificaciones de los críticos de ella.

Hay dos casos extremos que debemos considerar, primero el caso en el que dos críticos no tienen películas calificadas en común y luego el caso bizarro en el que la similaridad se indetermine (considere el caso de la similaridad de Pearson con "Luque" y "Moises".

En ambos casos se regresa 0 (lo que significa que no hay correlación entre estos dos críticos). Para el caso en el que se indetermina el resultado es por una división por cero, la cual puede ocurrir si se permiten las calificaciones de 0 o si los dos críticos tienen solo una película en común y uno de ellos la calificó con 1, es un caso peculiar que no sé como arreglar, así que lo dejaremos en que no hay correlación en este caso.

In [14]:
def pearson_similarity(data, user_a, user_b):
    c_a, c_b, n = critics_ratings(data, user_a, user_b)
    if n == 0: return 0
    sum_c_a = sum(c_a)
    sum_c_b = sum(c_b)
    sum_c_a_sq = sum(map(lambda x,y:x*y, c_a, c_a))
    sum_c_b_sq = sum(map(lambda x,y:x*y, c_b, c_b))
    sum_c_prod = sum(map(lambda x,y:x*y, c_a, c_b))
    numerator = sum_c_prod - (sum_c_a*sum_c_b/float(n))
    denominator = sqrt((sum_c_a_sq-pow(sum_c_a,2)/float(n))*
                       (sum_c_b_sq-pow(sum_c_b,2)/float(n)))
    if denominator == 0: return 0
    return numerator/denominator

In [15]:
pearson_similarity(critics, "Toby", "Lisa Rose")

0.9912407071619299

#### Puntuación de correlación Tanimoto

Esta puntuación se basa en que se pueden tomar dos vectores binarios y considerar su intersección dividida entre su unión para hablar de su similaridad. Es parecido a considerar sus coincidencias (intersección) y luego considerar todas las opiniones que han realizado (unión), la división permite expresar una proporción de coincidencias entre dos críticos.

Se expande este concepto para hablar de valores no binarios.

In [16]:
def tanimoto_similarity(data, user_a, user_b):
    c_a, c_b, n = critics_ratings(data, user_a, user_b)
    if n == 0: return 0
    c_a = normalize(c_a)
    c_b = normalize(c_b)
    v1v2, v1v1, v2v2 = 0.0, 0.0, 0.0
    for i in range(n):
        v1v2 += c_a[i]*c_b[i]
        v1v1 += c_a[i]*c_a[i]
        v2v2 += c_b[i]*c_b[i]
    return v1v2 / (v1v1 + v2v2 - v1v2)

In [17]:
tanimoto_similarity(critics, "Toby", "Jack Matthews")

0.8679486434671467

#### Ordenando usuarios

Se implementa una función que a partir de un usuario, regresa una lista ordenada de otros usuarios (de mas similares a menos similares).

In [18]:
def recommend_critics(data, user, similarity=pearson_similarity):
    return sorted([(similarity(data, user, other), other)
                  for other in data if other != user])[::-1]

In [19]:
recommend_critics(critics, "Toby")

[(0.9912407071619299, 'Lisa Rose'),
 (0.9244734516419049, 'Mick LaSalle'),
 (0.8934051474415647, 'Claudia Puig'),
 (0.66284898035987, 'Jack Matthews'),
 (0.38124642583151164, 'Gene Seymour'),
 (-1.0, 'Michael Phillips')]

In [20]:
def top_recommended_critics(data, user, n=5, similarity=pearson_similarity):
    return recommend_critics(data, user, similarity)[:n]

In [21]:
top_recommended_critics(critics, "Toby", n=3)

[(0.9912407071619299, 'Lisa Rose'),
 (0.9244734516419049, 'Mick LaSalle'),
 (0.8934051474415647, 'Claudia Puig')]

### Recomendando ítems

Hasta ahora se ha mostrado como podemos determinar que crítico de película es el mas similar a un determinado usuario. Sin embargo, lo que se desea no es una recomendación de críticos, si no una recomendación de películas.

Para no depender únicamente del crítico mas similar al usuario, debemos de tomar en cuenta a varios críticos con varios grados de similaridad. Podemos ponderar linealmente las calificaciones de las películas con el grado de similaridad del crítico. De esta manera tomamos en cuenta a todos los críticos pero a los mas similares los tomamos más en cuenta que los menos similares.

In [22]:
def recommend_movies(data, user, similarity=pearson_similarity):
    totals = {}
    similarity_sums = {}
    for critic in data:
        if critic == user: continue
        critic_score = similarity(data, user, critic)
        if critic_score <= 0: continue
        for movie in data[critic]:
            if movie not in data[user] or data[user][movie] == 0:
                totals.setdefault(movie,0)
                totals[movie]+=data[critic][movie]*critic_score
                similarity_sums.setdefault(movie, 0)
                similarity_sums[movie] += critic_score
    rankings = [(total/similarity_sums[movie],movie)
               for movie, total in totals.items()]
    return sorted(rankings)[::-1]

In [23]:
recommend_movies(critics, "Toby")

[(3.3477895267131013, 'The Night Listener'),
 (2.8325499182641614, 'Lady in the Water'),
 (2.5309807037655645, 'Just My Luck')]

In [24]:
recommend_movies(critics, "Toby", similarity=euclidean_similarity)

[(3.457128694491423, 'The Night Listener'),
 (2.778584003814924, 'Lady in the Water'),
 (2.4224820423619167, 'Just My Luck')]

In [25]:
recommend_movies(critics, "Toby", similarity=tanimoto_similarity)

[(3.431328106008647, 'The Night Listener'),
 (2.793400828435959, 'Lady in the Water'),
 (2.384149459994899, 'Just My Luck')]

En el caso de Toby, los tres criterios de similaridad nos resulta en el mismo orden de las top 3 películas, pero con puntuaciones distintas.

### Coincidiendo productos

Otro mecanismo para recomendarle a un usuario películas es asociar a las películas entre sí. Similar a sugerencias parecidas a "A los críticos que les agradó esta película, también les agradó...".

In [26]:
def invert_data(data):
    result = {}
    for person in data:
        for item in data[person]:
            result.setdefault(item, {})
            result[item][person] = data[person][item]
    return result

In [27]:
movies = invert_data(critics)
movies

{'Just My Luck': {'Claudia Puig': 3.0,
  'Gene Seymour': 1.5,
  'Lisa Rose': 3.0,
  'Mick LaSalle': 2.0},
 'Lady in the Water': {'Gene Seymour': 3.0,
  'Jack Matthews': 3.0,
  'Lisa Rose': 2.5,
  'Michael Phillips': 2.5,
  'Mick LaSalle': 3.0},
 'Snakes on a Plane': {'Claudia Puig': 3.5,
  'Gene Seymour': 3.5,
  'Jack Matthews': 4.0,
  'Lisa Rose': 3.5,
  'Michael Phillips': 3.0,
  'Mick LaSalle': 4.0,
  'Toby': 4.5},
 'Superman Returns': {'Claudia Puig': 4.0,
  'Gene Seymour': 5.0,
  'Jack Matthews': 5.0,
  'Lisa Rose': 3.5,
  'Michael Phillips': 3.5,
  'Mick LaSalle': 3.0,
  'Toby': 4.0},
 'The Night Listener': {'Claudia Puig': 4.5,
  'Gene Seymour': 3.0,
  'Jack Matthews': 3.0,
  'Lisa Rose': 3.0,
  'Michael Phillips': 4.0,
  'Mick LaSalle': 3.0},
 'You, Me and Dupree': {'Claudia Puig': 2.5,
  'Gene Seymour': 3.5,
  'Jack Matthews': 3.5,
  'Lisa Rose': 2.5,
  'Mick LaSalle': 2.0,
  'Toby': 1.0}}

In [28]:
def recommend_similar_movies(data, movie, similarity=pearson_similarity):
    return sorted([(similarity(data, movie, other), other)
                  for other in data if other != movie])[::-1]

def top_recommended_similar_movies(data, movie, n=5, similarity=pearson_similarity):
    return recommend_similar_movies(data, movie, similarity)[:n]

In [29]:
top_recommended_similar_movies(movies, "Superman Returns")

[(0.6579516949597695, 'You, Me and Dupree'),
 (0.4879500364742689, 'Lady in the Water'),
 (0.11180339887498941, 'Snakes on a Plane'),
 (-0.1798471947990544, 'The Night Listener'),
 (-0.42289003161103106, 'Just My Luck')]

### Filtrado basado en ítems

### Usando el conjunto de datos de MovieLens

In [30]:
import csv
import os.path

def read_dataset():
    print "Checking existance of MovieLens dataset..."
    if not( os.path.exists("MovieLens/movies.csv") or
            os.path.exists("MovieLens/ratings.csv")):
        print "  Couldn't find files, you need to put the movies.csv and ratings.csv files inside a MovieLens directory relative to this file\n"
        print "  Download link for MovieLens datasets is http://grouplens.org/datasets/movielens/"
        return None

    print "MovieLens data set found!"
    print "The reading of the dataset will take a few minutes..."
    movies_path = "MovieLens/movies.csv"
    movies = dict()
    with open(movies_path, "r") as file:
        reader = csv.DictReader(file)
        for entry in reader:
            movie_id = entry["movieId"]
            title = entry["title"]
            movies[movie_id] = title

    ratings_path = "MovieLens/ratings.csv"
    dataset = dict()
    with open(ratings_path, "r") as file:
        reader = csv.DictReader(file)
        for entry in reader:
            user_id = int(entry["userId"])
            movie_id = entry["movieId"]
            movie_title = movies[movie_id]
            rating = float(entry["rating"])
            if not dataset.has_key(user_id):
                dataset[user_id] = dict()
            dataset[user_id][movie_title] = rating
    return dataset

In [31]:
data = read_dataset()

Checking existance of MovieLens dataset...
MovieLens data set found!
The reading of the dataset will take a few minutes...


In [36]:
recommend_movies(data, 2)

[(5.000000000000001, 'The Sea That Thinks (2000)'),
 (5.000000000000001, 'Taxi Blues (1990)'),
 (5.000000000000001, 'Rent-a-Cat (2012)'),
 (5.000000000000001, "George Carlin: It's Bad for Ya! (2008)"),
 (5.000000000000001, 'Big Night, The (1951)'),
 (5.000000000000001, 'Between the Devil and the Deep Blue Sea (1995)'),
 (5.0, 'Year Zero: The Silent Death of Cambodia (1979)'),
 (5.0, 'Who Killed Vincent Chin? (1987)'),
 (5.0, 'Welcome to Australia (1999)'),
 (5.0,
  "Uwasa No Onna (The Woman in the Rumor) (Her Mother's Profession) (1954)"),
 (5.0, 'Up in Smoke (1957)'),
 (5.0, 'Turkish Dance, Ella Lola (1898)'),
 (5.0, 'Tis kakomoiras (1963)'),
 (5.0, 'This Thing With Sarah (2013)'),
 (5.0, 'The great match (2007)'),
 (5.0, 'The Wrecking Crew (2008)'),
 (5.0, 'The War at Home (1979)'),
 (5.0, 'The Secret Country: The First Australians Fight Back (1986)'),
 (5.0, 'The Private Life of a Cat (1944)'),
 (5.0, 'The House on 56th Street (1933)'),
 (5.0, 'The Green (2011)'),
 (5.0, 'The Garden

In [33]:
recommend_movies(data, 1, similarity=euclidean_similarity)

[(5.000000000000001,
  'Consuming Kids: The Commercialization of Childhood (2008)'),
 (5.0, 'Yonkers Joe (2008)'),
 (5.0, 'Year Zero: The Silent Death of Cambodia (1979)'),
 (5.0, 'Who Killed Vincent Chin? (1987)'),
 (5.0, 'When I Walk (2013)'),
 (5.0, 'Welcome to Australia (1999)'),
 (5.0, 'Victor and the Secret of Crocodile Mansion (2012)'),
 (5.0, 'Turkish Dance, Ella Lola (1898)'),
 (5.0, 'This Thing With Sarah (2013)'),
 (5.0, 'The great match (2007)'),
 (5.0, 'The Wrecking Crew (2008)'),
 (5.0, 'The Secret Country: The First Australians Fight Back (1986)'),
 (5.0, 'The Sea That Thinks (2000)'),
 (5.0, 'The Old Gun (1975)'),
 (5.0, 'The House on 56th Street (1933)'),
 (5.0, 'The Green (2011)'),
 (5.0, 'The Garden of Sinners - Chapter 5: Paradox Paradigm (2008)'),
 (5.0, 'The Floating Castle (2012)'),
 (5.0, 'The Encounter (2010)'),
 (5.0, 'The Color of Milk (2004)'),
 (5.0, 'The Beautiful Story (1992)'),
 (5.0, 'Taxi Blues (1990)'),
 (5.0, 'Tales That Witness Madness (1973)'),
 (5

In [34]:
recommend_movies(data, 1, similarity=tanimoto_similarity)

[(5.000000000000001, 'The House on 56th Street (1933)'),
 (5.000000000000001, 'Lady of Chance, A (1928)'),
 (5.000000000000001, 'Flight of the Conchords: A Texan Odyssey (2006)'),
 (5.000000000000001, 'Eye In The Sky (Gun chung) (2007)'),
 (5.000000000000001, 'Divorce (1945)'),
 (5.000000000000001,
  'Consuming Kids: The Commercialization of Childhood (2008)'),
 (5.000000000000001, 'Blue Swallow (Cheong yeon) (2005)'),
 (5.0, 'Yonkers Joe (2008)'),
 (5.0, 'Year Zero: The Silent Death of Cambodia (1979)'),
 (5.0, 'Who Killed Vincent Chin? (1987)'),
 (5.0, 'When I Walk (2013)'),
 (5.0, 'Welcome to Australia (1999)'),
 (5.0, 'Victor and the Secret of Crocodile Mansion (2012)'),
 (5.0, 'Turkish Dance, Ella Lola (1898)'),
 (5.0, 'This Thing With Sarah (2013)'),
 (5.0, 'The great match (2007)'),
 (5.0, 'The Wrecking Crew (2008)'),
 (5.0, 'The Secret Country: The First Australians Fight Back (1986)'),
 (5.0, 'The Sea That Thinks (2000)'),
 (5.0, 'The Old Gun (1975)'),
 (5.0, 'The Green (2011)

## Vamos a probar que podemos jalar las portadas de la tmdb api.

Estamos utilizando un wrapper para simplificar las llamadas "tmdbsimple" hace falta bajarlo he instalarlo lo cual es posible utlizando pip:

pip install tmdbsimple

Una API key que todos podemos usar siempre y cuando no abusemos demasiado de ella (con el afan de hacer muchas llamadas nomas por nomas) es la siguiente: f5fb780312d3eef86ddf28bf083c9887 

In [38]:
import tmdbsimple as tmdb

tmdb.API_KEY = "f5fb780312d3eef86ddf28bf083c9887"
for i in range(0-5): 
    tituloRecomendado = recommend_movies(data, 1)[i][1]
    search = tmdb.Search()
    response = search.movie(query = tituloRecomendado)
    posterURL = "https://image.tmdb.org/t/p/w396" + str(response['results'][0]['poster_path'])
    posterURL