# Reglas de Asociación

Obtenga reglas de asociación interesantes del conjunto de datos usando el algoritmo “A priori”. Recuerde discretizar las variables numéricas. Genere reglas con diferentes niveles de confianza y soporte. Discuta los resultados. Si considera que debe eliminar variables porque son muy frecuentes y con eso puede recibir más “insights” de la generación de reglas. Hágalo y discútalo.


In [2]:
import pandas as pd
from mlxtend.frequent_patterns import apriori, association_rules

# Cargar el dataset
file_path = "movies.csv"
df = pd.read_csv(file_path, encoding="ISO-8859-1")

# Seleccionar las columnas categóricas relevantes
categorical_vars = ["genres", "productionCountry", "originalLanguage"]

# Convertir los valores categóricos en formato adecuado para Apriori
# Separar valores si hay múltiples categorías en una celda
df_apriori = df[categorical_vars].astype(str).apply(lambda x: x.str.split(',')).explode().reset_index()

# Crear una matriz de transacciones (One-Hot Encoding de cada categoría)
df_apriori = pd.get_dummies(df_apriori.set_index("index"))

# Aplicar el algoritmo Apriori con diferentes valores de soporte
min_support_values = [0.01, 0.05, 0.1]
min_confidence_values = [0.6, 0.7, 0.8]

association_results = {}
for min_support in min_support_values:
    # Generar los itemsets frecuentes
    frequent_itemsets = apriori(df_apriori, min_support=min_support, use_colnames=True)
    
    for min_confidence in min_confidence_values:
        # Generar reglas de asociación con diferentes niveles de confianza
        rules = association_rules(frequent_itemsets, metric="confidence", min_threshold=min_confidence)
        
        # Almacenar los resultados para comparación
        association_results[(min_support, min_confidence)] = rules

# Mostrar un ejemplo de reglas generadas
for key, rules_df in association_results.items():
    print(f"Reglas de Asociación (min_support={key[0]}, min_confidence={key[1]})")
    print(rules_df.head(), "\n")

# Evaluar si quitar características
# Si hay muchas reglas irrelevantes, podríamos eliminar variables con alta cardinalidad


TypeError: DataFrame.explode() missing 1 required positional argument: 'column'

In [3]:
import pandas as pd
from mlxtend.frequent_patterns import apriori, association_rules

# Cargar el dataset
file_path = "movies.csv"
df = pd.read_csv(file_path, encoding="ISO-8859-1")

# Seleccionar las columnas categóricas relevantes
categorical_vars = ["genres", "productionCountry", "originalLanguage"]

# Convertir los valores categóricos en formato adecuado para Apriori
# Separar valores si hay múltiples categorías en una celda y explotar cada columna
for col in categorical_vars:
    df[col] = df[col].astype(str).str.split(',')

df_apriori = df.explode(categorical_vars)  # Aplicar explode() correctamente

# Crear una matriz de transacciones (One-Hot Encoding de cada categoría)
df_apriori = pd.get_dummies(df_apriori[categorical_vars])

# Aplicar el algoritmo Apriori con diferentes valores de soporte
min_support_values = [0.01, 0.05, 0.1]
min_confidence_values = [0.6, 0.7, 0.8]

association_results = {}
for min_support in min_support_values:
    # Generar los itemsets frecuentes
    frequent_itemsets = apriori(df_apriori, min_support=min_support, use_colnames=True)
    
    for min_confidence in min_confidence_values:
        # Generar reglas de asociación con diferentes niveles de confianza
        rules = association_rules(frequent_itemsets, metric="confidence", min_threshold=min_confidence)
        
        # Almacenar los resultados para comparación
        association_results[(min_support, min_confidence)] = rules

# Mostrar un ejemplo de reglas generadas
for key, rules_df in association_results.items():
    print(f"Reglas de Asociación (min_support={key[0]}, min_confidence={key[1]})")
    print(rules_df.head(), "\n")

# Evaluar si quitar características
# Si hay muchas reglas irrelevantes, podríamos eliminar variables con alta cardinalidad

Reglas de Asociación (min_support=0.01, min_confidence=0.6)
                antecedents                                   consequents  \
0  (genres_Action|Thriller)                         (originalLanguage_en)   
1           (genres_Comedy)  (productionCountry_United States of America)   
2           (genres_Comedy)                         (originalLanguage_en)   
3     (genres_Comedy|Drama)                         (originalLanguage_en)   
4   (genres_Comedy|Romance)                         (originalLanguage_en)   

   antecedent support  consequent support  support  confidence      lift  \
0              0.0121              0.7772   0.0106    0.876033  1.127166   
1              0.0440              0.4971   0.0268    0.609091  1.225288   
2              0.0440              0.7772   0.0318    0.722727  0.929912   
3              0.0140              0.7772   0.0102    0.728571  0.937431   
4              0.0201              0.7772   0.0164    0.815920  1.049820   

   representativity 