# GUIA ANALISIS DE CANASTA / ANALISIS DE ASOCIACION

## OBJETIVO
Realizar un proceso de análisis de reglas de asociación, con base en el conjunto de datos  de valoración de películas movielens ,a través de python notebook.


### 1.2.	 Conjunto de Datos

##### Descripcion:
El conjunto de datos movielens es el resultado de la interaccion de los usuarios con el sitio online movielens.org, lugar donde los usuarios registran sus valoraciones(ratings) únicamente a las películas que aparecen en su pagina. Estos datos son utilzzados con fines de investigación en minería de datos, en especial, análisis de market basket y recomendación de ítems.

El conjunto de datos se compone de varios archivos:
movies.csv :: Metadata de las peliculas: codificacion, nombre generos a los cuales pertenece.
ratings.csv :: Valoraciones de cada usuario a las distintas películas. Cada registro se corresponde con una valoración.
tags.csv : etiquetas colocadas  alas peliculas por los usuarios.
links.csv :: Enlace a otros sitios de valoracion como  http://www.imdb.com y https://www.themoviedb.org



### 2.	Desarrollo

In [6]:
import os
import pandas as pd
ratings_filename = './ratings.csv'
df = pd.read_csv(ratings_filename)
df.head(2)

Unnamed: 0,userId,movieId,rating,timestamp
0,1,31,2.5,1260759144
1,1,1029,3.0,1260759179


In [8]:
all_ratings = pd.read_csv(ratings_filename, delimiter=",")
all_ratings['timestamp'] = pd.to_datetime(all_ratings['timestamp'], unit="s")
all_ratings[:5]

Unnamed: 0,userId,movieId,rating,timestamp
0,1,31,2.5,2009-12-14 02:52:24
1,1,1029,3.0,2009-12-14 02:52:59
2,1,1061,3.0,2009-12-14 02:53:02
3,1,1129,2.0,2009-12-14 02:53:05
4,1,1172,4.0,2009-12-14 02:53:25


In [9]:
all_ratings[all_ratings["userId"] == 189]

Unnamed: 0,userId,movieId,rating,timestamp
25845,189,145,2.0,2000-09-04 19:17:29
25846,189,239,1.0,2000-09-04 19:20:25
25847,189,253,2.0,2000-09-04 19:16:31
25848,189,288,5.0,2000-09-04 18:34:49
25849,189,299,4.0,2000-09-04 18:47:54
25850,189,370,2.0,2000-09-04 19:19:24
25851,189,434,3.0,2000-09-04 19:19:01
25852,189,481,4.0,2000-09-04 19:17:29
25853,189,541,5.0,2000-09-04 18:37:30
25854,189,608,5.0,2000-09-04 19:12:14


In [10]:
# Realicemos una transformación de las valoraciones superiores a 3, como positivas y las menores a 3 como negativas en una nueva variable llamada favorable
all_ratings["favorable"] = all_ratings["rating"] > 3
all_ratings[10:15]

Unnamed: 0,userId,movieId,rating,timestamp,favorable
10,1,1371,2.5,2009-12-14 02:52:15,False
11,1,1405,1.0,2009-12-14 02:53:23,False
12,1,1953,4.0,2009-12-14 02:53:11,True
13,1,2105,4.0,2009-12-14 02:52:19,True
14,1,2150,3.0,2009-12-14 02:53:14,False


In [11]:
# Consultemos como fueron las valoraciones del usuario 1
all_ratings[all_ratings["userId"] == 1][:5]

Unnamed: 0,userId,movieId,rating,timestamp,favorable
0,1,31,2.5,2009-12-14 02:52:24,False
1,1,1029,3.0,2009-12-14 02:52:59,False
2,1,1061,3.0,2009-12-14 02:53:02,False
3,1,1129,2.0,2009-12-14 02:53:05,False
4,1,1172,4.0,2009-12-14 02:53:25,True


In [17]:
# El tipo range es una lista de números enteros en forma de sucesión, el cual es inmutable(no se puede modificar)
ratings = all_ratings[all_ratings["userId"].isin(range(200))]

#### Explique que hace el siguiente fragmento??
Se filtran solo los registros donde la columna favorable es true

In [20]:
favorable_ratings = ratings[ratings["favorable"]]
favorable_ratings[:5]

Unnamed: 0,userId,movieId,rating,timestamp,favorable
4,1,1172,4.0,2009-12-14 02:53:25,True
8,1,1339,3.5,2009-12-14 02:52:05,True
12,1,1953,4.0,2009-12-14 02:53:11,True
13,1,2105,4.0,2009-12-14 02:52:19,True
20,2,10,4.0,1996-06-21 11:11:33,True


### 2.1.	Sets y Frozensets

Un set en Python es una colección de elementos únicos , el cual no presenta un ordenamiento .
Podemos crear un set y agregarle elementos de la siguiente manera:


In [23]:
x = set(["Perl", "Python", "Java"])
x.add("SQL")
x

{'Java', 'Perl', 'Python', 'SQL'}

Por otra parte un frozenset por algo así como una coleccion congelada, término que muestra claramente su carácter estático. Podemos pensar en un frozenset como en un set en el que no podemos modificar su composición una vez creado.


### 2.2.	Diccionarios
Otro tipo de dato útil incluído en Python es el diccionario. Los diccionarios se encuentran a veces en otros lenguajes como “memorias asociativas” o “arreglos asociativos”. Se puede pensar  en un diccionario como un conjunto no ordenado de pares clave: valor, con el requerimiento de que las claves sean únicas (dentro de un diccionario en particular). Un par de llaves crean un diccionario vacío: {}. Colocar una lista de pares clave:valor separados por comas entre las llaves añade pares clave:valor iniciales al diccionario; esta también es la forma en que los diccionarios se presentan en la salida.
Las operaciones principales sobre un diccionario son guardar un valor con una clave y extraer ese valor dada la clave. También es posible borrar un par clave:valor con del. Si usa una clave que ya está en uso para guardar un valor, el valor que estaba asociado con esa clave se pierde. Es un error extraer un valor usando una clave no existente.
El método keys() de un diccionario devuelve una lista de todas las claves en uso de ese diccionario, en un orden arbitrario . Para verificar si una clave está en el diccionario, utilizar la palabra clave in.


In [33]:
favorable_reviews_by_users = dict((k, frozenset(v.values)) for k, v in favorable_ratings.groupby("userId")["movieId"])
len(favorable_reviews_by_users)

199

In [34]:
favorable_reviews_by_users.keys()

dict_keys([1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105, 106, 107, 108, 109, 110, 111, 112, 113, 114, 115, 116, 117, 118, 119, 120, 121, 122, 123, 124, 125, 126, 127, 128, 129, 130, 131, 132, 133, 134, 135, 136, 137, 138, 139, 140, 141, 142, 143, 144, 145, 146, 147, 148, 149, 150, 151, 152, 153, 154, 155, 156, 157, 158, 159, 160, 161, 162, 163, 164, 165, 166, 167, 168, 169, 170, 171, 172, 173, 174, 175, 176, 177, 178, 179, 180, 181, 182, 183, 184, 185, 186, 187, 188, 189, 190, 191, 192, 193, 194, 195, 196, 197, 198, 199])

In [36]:
num_favorable_by_movie = ratings[["movieId", "favorable"]].groupby("movieId").sum()
num_favorable_by_movie[:5]

Unnamed: 0_level_0,favorable
movieId,Unnamed: 1_level_1
1,54.0
2,21.0
3,9.0
4,0.0
5,10.0


In [38]:
#####################################
from collections import defaultdict

def find_frequent_itemsets(favorable_reviews_by_users, k_1_itemsets, min_support):
    counts = defaultdict(int)
    for user, reviews in favorable_reviews_by_users.items():
        for itemset in k_1_itemsets:
            if itemset.issubset(reviews):
                for other_reviewed_movie in reviews - itemset:
                    current_superset = itemset | frozenset((other_reviewed_movie,))
                    counts[current_superset] += 1
    return dict([(itemset, frequency) for itemset, frequency in counts.items() if frequency >= min_support])

#######################################

### 2.3.	Fragmentos   def
En Python, la definición de funciones se realiza mediante la instrucción def más un nombre de función descriptivo -para el cuál, aplican las mismas reglas que para el nombre de las variables- seguido de paréntesis de apertura y cierre. Como toda estructura de control en Python, la definición de la función finaliza con dos puntos (:) y el algoritmo que la compone, irá identado con 4 espacios:

In [39]:
########################################
import sys
frequent_itemsets = {}  # itemsets are sorted by length
min_support = 50

# candidatos k=1 convaloraciones favorablea mayors a min_support 
frequent_itemsets[1] = dict((frozenset((movie_id,)), row["favorable"])
                                for movie_id, row in num_favorable_by_movie.iterrows()
                                if row["favorable"] > min_support)

print("Existen {} peliculas con mas de {} favorable valoraciones".format(len(frequent_itemsets[1]), min_support))
sys.stdout.flush()
for k in range(2, 5):
    cur_frequent_itemsets = find_frequent_itemsets(favorable_reviews_by_users, frequent_itemsets[k-1],
                                                   min_support)
    if len(cur_frequent_itemsets) == 0:
        print("No se encuentran conjuntos de elementos frecuentes de tamanio {}".format(k))
        sys.stdout.flush()
        break
    else:
        print("Se encontraron {} conjuntos de elementos frecuentes de tamanio {}".format(len(cur_frequent_itemsets), k))
        #print(cur_frequent_itemsets)
        sys.stdout.flush()
        frequent_itemsets[k] = cur_frequent_itemsets
# Como no estamos interesados en conjuntos de tamanio 1, los removemos
del frequent_itemsets[1]
########################################


Existen 21 peliculas con mas de 50 favorable valoraciones
Se encontraron 157 conjuntos de elementos frecuentes de tamanio 2
Se encontraron 590 conjuntos de elementos frecuentes de tamanio 3
Se encontraron 1250 conjuntos de elementos frecuentes de tamanio 4


 Ahora creamos las reglas de asociacion. Todas son reglas candidatas, hasta que se verifica su confiabilidad

In [40]:
candidate_rules = []
for itemset_length, itemset_counts in frequent_itemsets.items():
    for itemset in itemset_counts.keys():
        for conclusion in itemset:
            premise = itemset - set((conclusion,))
            candidate_rules.append((premise, conclusion))
print("Hay {} reglas candidatas".format(len(candidate_rules)))

Hay 7084 reglas candidatas


In [41]:
# Cual es la salida para la siguiente instrucción??
print(candidate_rules[:5])

[(frozenset({527}), 50), (frozenset({50}), 527), (frozenset({50}), 296), (frozenset({296}), 50), (frozenset({527}), 110)]


#### Que significa?
En cada iteración realizada al conjunto de datos se reasigna el valor de la variable que se agregará al arreglo de reglas candidatas

In [43]:
###################################################
correct_counts = defaultdict(int)
incorrect_counts = defaultdict(int)
for user, reviews in favorable_reviews_by_users.items():
    for candidate_rule in candidate_rules:
        premise, conclusion = candidate_rule
        if premise.issubset(reviews):
            if conclusion in reviews:
                correct_counts[candidate_rule] += 1
            else:
                incorrect_counts[candidate_rule] += 1
rule_confidence = {candidate_rule: correct_counts[candidate_rule] / float(correct_counts[candidate_rule] + incorrect_counts[candidate_rule])
              for candidate_rule in candidate_rules}
###################################################


In [45]:
# Definimos el umbral minimo para la confiabilidad:
min_confidence = 0.9   

In [46]:
rule_confidence = {rule: confidence for rule, confidence in rule_confidence.items() 
                   if confidence > min_confidence}
print(len(rule_confidence))

407


In [48]:
from operator import itemgetter
sorted_confidence = sorted(rule_confidence.items(), key=itemgetter(1), reverse=True)
sorted_confidence

[((frozenset({589, 1210}), 1196), 1.0),
 ((frozenset({296, 589, 1210}), 1196), 1.0),
 ((frozenset({296, 480, 1196}), 260), 1.0),
 ((frozenset({296, 480, 1210}), 260), 1.0),
 ((frozenset({296, 356, 1210}), 1196), 1.0),
 ((frozenset({260, 589, 1210}), 1196), 1.0),
 ((frozenset({260, 589, 1270}), 1196), 1.0),
 ((frozenset({260, 356, 1198}), 1196), 1.0),
 ((frozenset({260, 356, 1210}), 1196), 1.0),
 ((frozenset({296, 1196, 1270}), 260), 1.0),
 ((frozenset({260, 480, 1270}), 1196), 1.0),
 ((frozenset({296, 1210, 1270}), 260), 1.0),
 ((frozenset({356, 589, 1210}), 1196), 1.0),
 ((frozenset({356, 1198, 1210}), 1196), 1.0),
 ((frozenset({589, 1198, 1210}), 1196), 1.0),
 ((frozenset({589, 1210, 1270}), 1196), 1.0),
 ((frozenset({1198, 1210, 1270}), 1196), 1.0),
 ((frozenset({318, 1198, 1210}), 1196), 1.0),
 ((frozenset({296, 2858, 4993}), 2959), 1.0),
 ((frozenset({1196, 2858, 2959}), 296), 1.0),
 ((frozenset({1210, 2858, 2959}), 296), 1.0),
 ((frozenset({50, 356, 2959}), 318), 1.0),
 ((frozens

In [49]:
for index in range(5):
    print("Regla #{0}".format(index + 1))
    (premise, conclusion) = sorted_confidence[index][0]
    print("Regla: Si un usuario recomienda {0}, tambien recomendará {1}".format(premise, conclusion))
    print(" - Confiabilidad: {0:.3f}".format(rule_confidence[(premise, conclusion)]))
    print("")

Regla #1
Regla: Si un usuario recomienda frozenset({1210, 589}), tambien recomendará 1196
 - Confiabilidad: 1.000

Regla #2
Regla: Si un usuario recomienda frozenset({296, 1210, 589}), tambien recomendará 1196
 - Confiabilidad: 1.000

Regla #3
Regla: Si un usuario recomienda frozenset({296, 480, 1196}), tambien recomendará 260
 - Confiabilidad: 1.000

Regla #4
Regla: Si un usuario recomienda frozenset({296, 480, 1210}), tambien recomendará 260
 - Confiabilidad: 1.000

Regla #5
Regla: Si un usuario recomienda frozenset({296, 1210, 356}), tambien recomendará 1196
 - Confiabilidad: 1.000



### 2.4.	Opcional::
Hasta aquí se tiene la implementación del algoritmo para la extracción de reglas de asociación apartir de los elementos frecuentes. Sin embargo, Si se quiere tener información de las películas asociadas a su identificador, para que las reglas sean un poco mas legibles, tendremos que leer el archivo donde se encuentran los detalles de las películas:

In [50]:
movies_filename = "./movies.csv"
movie_name_data = pd.read_csv(movies_filename, delimiter=",")
movie_name_data.head(5)


Unnamed: 0,movieId,title,genres
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,2,Jumanji (1995),Adventure|Children|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama|Romance
4,5,Father of the Bride Part II (1995),Comedy


In [52]:
# Podemos hacer una transformacion a variables dummy(binarias) apartir de los distintos generos de la pelicula.
pd.concat([movie_name_data, movie_name_data.genres.str.get_dummies(sep="|")], axis=1)

Unnamed: 0,movieId,title,genres,(no genres listed),Action,Adventure,Animation,Children,Comedy,Crime,...,Film-Noir,Horror,IMAX,Musical,Mystery,Romance,Sci-Fi,Thriller,War,Western
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy,0,0,1,1,1,1,0,...,0,0,0,0,0,0,0,0,0,0
1,2,Jumanji (1995),Adventure|Children|Fantasy,0,0,1,0,1,0,0,...,0,0,0,0,0,0,0,0,0,0
2,3,Grumpier Old Men (1995),Comedy|Romance,0,0,0,0,0,1,0,...,0,0,0,0,0,1,0,0,0,0
3,4,Waiting to Exhale (1995),Comedy|Drama|Romance,0,0,0,0,0,1,0,...,0,0,0,0,0,1,0,0,0,0
4,5,Father of the Bride Part II (1995),Comedy,0,0,0,0,0,1,0,...,0,0,0,0,0,0,0,0,0,0
5,6,Heat (1995),Action|Crime|Thriller,0,1,0,0,0,0,1,...,0,0,0,0,0,0,0,1,0,0
6,7,Sabrina (1995),Comedy|Romance,0,0,0,0,0,1,0,...,0,0,0,0,0,1,0,0,0,0
7,8,Tom and Huck (1995),Adventure|Children,0,0,1,0,1,0,0,...,0,0,0,0,0,0,0,0,0,0
8,9,Sudden Death (1995),Action,0,1,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
9,10,GoldenEye (1995),Action|Adventure|Thriller,0,1,1,0,0,0,0,...,0,0,0,0,0,0,0,1,0,0


In [56]:
# Ahora incluimos una function de busqueda, dado el id de la película (movieId).
def get_movie_name(movie_id):
    title_object = movie_name_data[movie_name_data["movieId"] == movie_id]["title"]
    title = title_object.values[0]
    return title;

In [57]:
get_movie_name(260)

'Star Wars: Episode IV - A New Hope (1977)'

In [59]:

#Y finalmente reescribimos la impression de las reglas de asociacion indicando el nombre de la película, y no el id.
##########################################################
for index in range(5):
    print("Regla #{0}".format(index + 1))
    (premise, conclusion) = sorted_confidence[index][0]
    premise_names = ", ".join(get_movie_name(idx) for idx in premise)
    conclusion_name = get_movie_name(conclusion)
    print("Regla: Si un usuario recomienda {0} , tambien recomendará  {1}".format(premise_names, conclusion_name))
    print(" - Confiabilidad: {0:.3f}".format(rule_confidence[(premise, conclusion)]))
    print("")

#############################################################


Regla #1
Regla: Si un usuario recomienda Star Wars: Episode VI - Return of the Jedi (1983), Terminator 2: Judgment Day (1991) , tambien recomendará  Star Wars: Episode V - The Empire Strikes Back (1980)
 - Confiabilidad: 1.000

Regla #2
Regla: Si un usuario recomienda Pulp Fiction (1994), Star Wars: Episode VI - Return of the Jedi (1983), Terminator 2: Judgment Day (1991) , tambien recomendará  Star Wars: Episode V - The Empire Strikes Back (1980)
 - Confiabilidad: 1.000

Regla #3
Regla: Si un usuario recomienda Pulp Fiction (1994), Jurassic Park (1993), Star Wars: Episode V - The Empire Strikes Back (1980) , tambien recomendará  Star Wars: Episode IV - A New Hope (1977)
 - Confiabilidad: 1.000

Regla #4
Regla: Si un usuario recomienda Pulp Fiction (1994), Jurassic Park (1993), Star Wars: Episode VI - Return of the Jedi (1983) , tambien recomendará  Star Wars: Episode IV - A New Hope (1977)
 - Confiabilidad: 1.000

Regla #5
Regla: Si un usuario recomienda Pulp Fiction (1994), Star Wars