## [Regla de aprendizaje mediante asociación](https://es.wikipedia.org/wiki/Reglas_de_asociación)

### Minería de reglas de asociación es un técnica para identificar relaciones subyacentes entre distintos objetos.

- Tomemos el caso de un supermercado donde los los clientes pueden comprar distintos objetos. Usualmente existe un patrón en lo que los clientes compran. Por ejemplo, las madres con bebes compran productos como pañales y leche. Las mujeres jovenes compran maquillaje mientras los hombres compran cervezas y frituras. En pocas palabras, las transacciones involucran un patrón. Mas ganancias pueden ser generadas si las relaciones entre los productos en diferentes transacciones pueden ser identificadas.

- En el caso, si el objeto A y B son comprados juntos mas frecuentemente entonces varios pasos pueden ser tomados para incrementar la ganancia. Por ejemplo:
    - A y B pueden estar colocados juntos para que cuando el cliente compra un producto no tiene que caminar mas para comprar el otro producto.
    - Personas que compran alguno de los productos pueden ser objeticos de campañas de publicidad para que compren el otro.
    - Descuentos colectivos pueden ser ofrecidos sobre estos productos si el cliente compra ambos.
    - A y B pueden ser empaquetados juntos
- El proceso que se usa para identificar las asociaciones entre productos se le llama minería de reglas de asociación

- El algoritmo Apriori para la minería de reglas de asociación
    - Diferentes algoritmos estadisticos han sido desarrollados para implementar la minería de reglas de asociación y Apriori es uno de estos.
    - Existen tres componentes principales de el algoritmo Apriori
        - Support(Soporte)
        - Confidence(Confianza)
        - Lift

 - Supongamos que tenemos un registro de mil transacciones de clientes y nosotros queremos encontrar el Support,Confidence y Lift para dos productos ej. hamburguesas y catsup. De las mil transacciones 100 incluyen catsup mientras que 150 incluyen hamburguesas. De las 150 transacciones donde una hamburguesa es comprada 50 incluyen catsup. Usando estos datos podemos encontrar el Support,Confidence y Lift.

- Soporte
    - Se refiere a cuan frecuentemente un producto aparece en el total de transacciones
    $$supp(X) = \frac{\vert \{ t \in T; X \subseteq t\}\vert}{\vert T \vert}$$

- En el caso de las mil transaciones, 100 incluyen catsup entonces el soporte para la castup puede ser calculado como:
    - $Supp(Castup) = 100/1000 = 10\%$

- Confianza
    - Se refiere a la probabilidad de que un producto B se comprado si un producto A es comprado. Se calcula como:
        - $$Confidence(X \Rightarrow Y) = \frac{Supp(X\cup Y)}{Supp(X)}$$

- Para nuestro problema tenemos que en 50 transaciones la catsup y las hamburguesas fueron compradas juntas mientras que en 150 transaciones hamburguesas fueron compradas. Entonces la probabilidad de que se compre catsup dado que fue comprada una hamburguesa puede ser representada como la confianza de $Hamburguesa \Rightarrow Catsup$ y es calculada como:
$$Confidence(Hamburguesa \Rightarrow Catsup) = 50/150 = 33.3\%$$

- Lift

    - $Lift(A \Rightarrow B)$ se refiere al incremento en el radio de venta de B cuando A es vendido. Es calculado como:
    $$Lift(A \Rightarrow B) = \frac{Confidence(A\Rightarrow B)}{Supp(B)}$$

- El $$Lift(Hamburguesa \Rightarrow Catsup)=\frac{(Confidence(Hamburguesa \Rightarrow Catsup))}{(Supp (Catsup))} = 33.3/10 = 3.33$$

- El Lift nos dice basicamente que la probabilidad de comprar catsup y hamburguesas juntas es 3.33 veces mas grande que solo comprar la catsup.

- $Lift = 1$ significa que no hay asociación entre los productos A y B.
- $Lift > 1$ signifca que los productos A y B es mas común comprarlos juntos
- $Lift < 1$ significa que es poco  probable que dos productos sean comprados juntos

- Pasos involucrados en el algoritmo Apriori
    - Para grandes conjuntos de datos pueden haber cientos de objetos y y cientos de miles de transaciones. El algoritmo Apriori trata de extraer reglas para cada combinación de objetos.
    - Por este motivo el proceso puede ser extremadamente lento debido al numero de combinaciones. Para agilizar este proceso necesitamos ejecutar los siguientes pasos:
        - Fijamos un valor minimo para el Soporte y la Confianza.
        - Extraer todos los subconjuntos que tienen un soporte mayor a un umbral minimo.
        - Elegir todas las reglas de los subconjuntos con una confianza mayor a un umbral minimo.
        - Ordenar las reglas en orden no creciente de Lift.

# [Regla Apriori]()

In [3]:
from apyori import apriori
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

In [4]:
store_data = pd.read_csv("Kaggle/store_data.csv",header=None)# 7500 transaciones en una semana en una tienda al menudeo
store_data.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19
0,shrimp,almonds,avocado,vegetables mix,green grapes,whole weat flour,yams,cottage cheese,energy drink,tomato juice,low fat yogurt,green tea,honey,salad,mineral water,salmon,antioxydant juice,frozen smoothie,spinach,olive oil
1,burgers,meatballs,eggs,,,,,,,,,,,,,,,,,
2,chutney,,,,,,,,,,,,,,,,,,,
3,turkey,avocado,,,,,,,,,,,,,,,,,,
4,mineral water,milk,energy bar,whole wheat rice,green tea,,,,,,,,,,,,,,,


In [5]:
store_data.info()
store_data = store_data.astype(str)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7501 entries, 0 to 7500
Data columns (total 20 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   0       7501 non-null   object
 1   1       5747 non-null   object
 2   2       4389 non-null   object
 3   3       3345 non-null   object
 4   4       2529 non-null   object
 5   5       1864 non-null   object
 6   6       1369 non-null   object
 7   7       981 non-null    object
 8   8       654 non-null    object
 9   9       395 non-null    object
 10  10      256 non-null    object
 11  11      154 non-null    object
 12  12      87 non-null     object
 13  13      47 non-null     object
 14  14      25 non-null     object
 15  15      8 non-null      object
 16  16      4 non-null      object
 17  17      4 non-null      object
 18  18      3 non-null      object
 19  19      1 non-null      object
dtypes: object(20)
memory usage: 1.1+ MB


In [6]:
store_list = store_data.values.tolist()

In [7]:
?apriori

[1;31mSignature:[0m [0mapriori[0m[1;33m([0m[0mtransactions[0m[1;33m,[0m [1;33m**[0m[0mkwargs[0m[1;33m)[0m[1;33m[0m[1;33m[0m[0m
[1;31mDocstring:[0m
Executes Apriori algorithm and returns a RelationRecord generator.

Arguments:
    transactions -- A transaction iterable object
                    (eg. [['A', 'B'], ['B', 'C']]).

Keyword arguments:
    min_support -- The minimum support of relations (float).
    min_confidence -- The minimum confidence of relations (float).
    min_lift -- The minimum lift of relations (float).
    max_length -- The maximum length of the relation (integer).
[1;31mFile:[0m      c:\users\melej\anaconda3\lib\site-packages\apyori.py
[1;31mType:[0m      function


In [8]:
associaton_rules = apriori(store_list, min_support=0.0045, min_confidence=0.2, min_lift=3, min_legth=2)# min_length es el número minimo de de objetos en las reglas
associaton_results = list(associaton_rules)

In [9]:
print(associaton_results[0])
print(associaton_results[0][2])
print(associaton_results[0][2][0])
print(associaton_results[0][2][0][3])

RelationRecord(items=frozenset({'chicken', 'light cream'}), support=0.004532728969470737, ordered_statistics=[OrderedStatistic(items_base=frozenset({'light cream'}), items_add=frozenset({'chicken'}), confidence=0.29059829059829057, lift=4.84395061728395)])
[OrderedStatistic(items_base=frozenset({'light cream'}), items_add=frozenset({'chicken'}), confidence=0.29059829059829057, lift=4.84395061728395)]
OrderedStatistic(items_base=frozenset({'light cream'}), items_add=frozenset({'chicken'}), confidence=0.29059829059829057, lift=4.84395061728395)
4.84395061728395


In [10]:
print(len(associaton_results))

48


In [11]:
for item in associaton_results:
    pair=item[0]
    print(pair)
    items = [x for x in pair]
    print("Rule: "+items[0]+" -> "+items[1])
    
    print("Support: "+str(item[1]))
    
    print("Confidence: "+str(item[2][0][2]))
    print("Lift: "+str(item[2][0][3]))
    print("============================")

frozenset({'chicken', 'light cream'})
Rule: chicken -> light cream
Support: 0.004532728969470737
Confidence: 0.29059829059829057
Lift: 4.84395061728395
frozenset({'escalope', 'mushroom cream sauce'})
Rule: escalope -> mushroom cream sauce
Support: 0.005732568990801226
Confidence: 0.3006993006993007
Lift: 3.790832696715049
frozenset({'pasta', 'escalope'})
Rule: pasta -> escalope
Support: 0.005865884548726837
Confidence: 0.3728813559322034
Lift: 4.700811850163794
frozenset({'ground beef', 'herb & pepper'})
Rule: ground beef -> herb & pepper
Support: 0.015997866951073192
Confidence: 0.3234501347708895
Lift: 3.2919938411349285
frozenset({'ground beef', 'tomato sauce'})
Rule: ground beef -> tomato sauce
Support: 0.005332622317024397
Confidence: 0.3773584905660377
Lift: 3.840659481324083
frozenset({'whole wheat pasta', 'olive oil'})
Rule: whole wheat pasta -> olive oil
Support: 0.007998933475536596
Confidence: 0.2714932126696833
Lift: 4.122410097642296
frozenset({'pasta', 'shrimp'})
Rule: pa

In [12]:
results = []
for item in associaton_results:
    
    pair = item[0] 
    items = [x for x in pair]
    
    value0 = str(items[0])
    value1 = str(items[1])

    value2 = str(item[1])[:7]

    value3 = str(item[2][0][2])[:7]
    value4 = str(item[2][0][3])[:7]
    
    rows = (value0, value1,value2,value3,value4)
    results.append(rows)

In [13]:
labels = ['Producto 1','Producto 2','Support','Confidence','Lift']
movie_suggestion = pd.DataFrame.from_records(results, columns = labels)

print(movie_suggestion)

           Producto 1            Producto 2  Support Confidence     Lift
0             chicken           light cream  0.00453    0.29059  4.84395
1            escalope  mushroom cream sauce  0.00573    0.30069  3.79083
2               pasta              escalope  0.00586    0.37288  4.70081
3         ground beef         herb & pepper  0.01599    0.32345  3.29199
4         ground beef          tomato sauce  0.00533    0.37735  3.84065
5   whole wheat pasta             olive oil  0.00799    0.27149  4.12241
6               pasta                shrimp  0.00506    0.32203  4.50667
7             chicken                   nan  0.00453    0.29059  4.84395
8           chocolate     frozen vegetables  0.00533    0.23255  3.25451
9         ground beef           cooking oil  0.00479    0.57142  3.28199
10           escalope  mushroom cream sauce  0.00573    0.30069  3.79083
11              pasta              escalope  0.00586    0.37288  4.70081
12        ground beef     frozen vegetables  0.0086

# Movies

In [15]:
movie_data = pd.read_csv('Kaggle/movie_dataset.csv', header = None)
movie_data.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,14,15,16,17,18,19,20,21,22,23
0,index,budget,genres,homepage,id,keywords,original_language,original_title,overview,popularity,...,runtime,spoken_languages,status,tagline,title,vote_average,vote_count,cast,crew,director
1,0,237000000,Action Adventure Fantasy Science Fiction,http://www.avatarmovie.com/,19995,culture clash future space war space colony so...,en,Avatar,"In the 22nd century, a paraplegic Marine is di...",150.437577,...,162.0,"[{""iso_639_1"": ""en"", ""name"": ""English""}, {""iso...",Released,Enter the World of Pandora.,Avatar,7.2,11800,Sam Worthington Zoe Saldana Sigourney Weaver S...,"[{'name': 'Stephen E. Rivkin', 'gender': 0, 'd...",James Cameron
2,1,300000000,Adventure Fantasy Action,http://disney.go.com/disneypictures/pirates/,285,ocean drug abuse exotic island east india trad...,en,Pirates of the Caribbean: At World's End,"Captain Barbossa, long believed to be dead, ha...",139.082615,...,169.0,"[{""iso_639_1"": ""en"", ""name"": ""English""}]",Released,"At the end of the world, the adventure begins.",Pirates of the Caribbean: At World's End,6.9,4500,Johnny Depp Orlando Bloom Keira Knightley Stel...,"[{'name': 'Dariusz Wolski', 'gender': 2, 'depa...",Gore Verbinski
3,2,245000000,Action Adventure Crime,http://www.sonypictures.com/movies/spectre/,206647,spy based on novel secret agent sequel mi6,en,Spectre,A cryptic message from Bond’s past sends him o...,107.37678799999999,...,148.0,"[{""iso_639_1"": ""fr"", ""name"": ""Fran\u00e7ais""},...",Released,A Plan No One Escapes,Spectre,6.3,4466,Daniel Craig Christoph Waltz L\u00e9a Seydoux ...,"[{'name': 'Thomas Newman', 'gender': 2, 'depar...",Sam Mendes
4,3,250000000,Action Crime Drama Thriller,http://www.thedarkknightrises.com/,49026,dc comics crime fighter terrorist secret ident...,en,The Dark Knight Rises,Following the death of District Attorney Harve...,112.31295,...,165.0,"[{""iso_639_1"": ""en"", ""name"": ""English""}]",Released,The Legend Ends,The Dark Knight Rises,7.6,9106,Christian Bale Michael Caine Gary Oldman Anne ...,"[{'name': 'Hans Zimmer', 'gender': 2, 'departm...",Christopher Nolan


In [16]:
movie_data.info()
movie_data = movie_data.astype(str)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4804 entries, 0 to 4803
Data columns (total 24 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   0       4804 non-null   object
 1   1       4804 non-null   object
 2   2       4776 non-null   object
 3   3       1713 non-null   object
 4   4       4804 non-null   object
 5   5       4392 non-null   object
 6   6       4804 non-null   object
 7   7       4804 non-null   object
 8   8       4801 non-null   object
 9   9       4804 non-null   object
 10  10      4804 non-null   object
 11  11      4804 non-null   object
 12  12      4803 non-null   object
 13  13      4804 non-null   object
 14  14      4802 non-null   object
 15  15      4804 non-null   object
 16  16      4804 non-null   object
 17  17      3960 non-null   object
 18  18      4804 non-null   object
 19  19      4804 non-null   object
 20  20      4804 non-null   object
 21  21      4761 non-null   object
 22  22      4804 non-null   

In [19]:
movie_list = movie_data.values.tolist()

In [20]:
association_rules = apriori(movie_list, min_support=0.0053, min_confidence=0.20, min_lift=3, min_length=2)
association_results = list(association_rules)

KeyboardInterrupt: 

In [None]:
print(len(association_results))

In [None]:
print(association_results[0])

In [None]:
results = []
for item in association_results:
    
    pair = item[0] 
    items = [x for x in pair]
    
    value0 = str(items[0])
    value1 = str(items[1])

    value2 = str(item[1])[:7]

    value3 = str(item[2][0][2])[:7]
    value4 = str(item[2][0][3])[:7]
    
    rows = (value0, value1,value2,value3,value4)
    results.append(rows)

In [None]:
labels = ['Titulo 1','Titulo 2','Support','Confidence','Lift']
movie_suggestion = pd.DataFrame.from_records(results, columns = labels)

print(movie_suggestion)

In [None]:
for item in association_results:
    pair=item[0]
    print(pair)
    items = [x for x in pair]
    print("Rule: "+items[0]+" -> "+items[1])
    
    print("Support: "+str(item[1]))
    
    print("Confidence: "+str(item[2][0][2]))
    print("Lift: "+str(item[2][0][3]))
    print("============================")