## Importar bibliotecas

In [23]:
import pandas as pd
from mlxtend.preprocessing import TransactionEncoder
from mlxtend.frequent_patterns import apriori, association_rules

## Cargando los datos

In [24]:
# Cargar el conjunto de datos
lastfm_data = pd.read_csv("data/lastfm1.csv", sep=";")
lastfm_data

Unnamed: 0,user,artist
0,1,red hot chili peppers
1,1,the black dahlia murder
2,1,goldfrapp
3,1,dropkick murphys
4,1,le tigre
...,...,...
289948,19718,bob dylan
289949,19718,pixies
289950,19718,the clash
289951,19718,a tribe called quest


## Formato de transacción

In [25]:
transacciones = lastfm_data.groupby("user")["artist"].apply(list).reset_index()
transacciones["artist"] = transacciones["artist"].apply(lambda x: ','.join(x))
transacciones

Unnamed: 0,user,artist
0,1,"red hot chili peppers,the black dahlia murder,..."
1,3,"devendra banhart,boards of canada,cocorosie,ap..."
2,4,"tv on the radio,tool,kyuss,dj shadow,air,a tri..."
3,5,"dream theater,ac/dc,metallica,iron maiden,bob ..."
4,6,"lily allen,kanye west,sigur rós,pink floyd,ste..."
...,...,...
14995,19713,"armin van buuren,above & beyond,atb,ferry cors..."
14996,19714,"misfits,type o negative,arch enemy,red hot chi..."
14997,19715,"abba,james blunt,jason mraz,amy winehouse,quee..."
14998,19717,"marilyn manson,beyoncé,madonna,t.a.t.u.,katy p..."


## Graficar los artistas mas consumidos

In [26]:
import matplotlib.pyplot as plt

In [None]:
# Dividir las cadenas de productos y expandirlas en nuevas columnas
productos_divididos = transacciones['artist'].str.split(',', expand=True)

# Apilar las columnas para obtener una sola columna de productos
productos_apilados = productos_divididos.stack()

# Contar la frecuencia de cada producto
productos_contados = productos_apilados.value_counts()

# Mostrar los 10 productos más populares
productos_contados.head(10).plot(kind='bar')
plt.xlabel('Artista')
plt.ylabel('Frecuencia')
plt.title('Top 10 Productos Más Populares')
plt.show()

## Reglas de asociación por medio del algoritmo apriori

In [None]:
from mlxtend.frequent_patterns import apriori, association_rules
from mlxtend.preprocessing import TransactionEncoder

In [None]:
# Crear un codificador one-hot
te = TransactionEncoder()
transacciones_encoded = te.fit(transacciones["artist"].apply(lambda x: x.split(','))).transform(transacciones["artist"].apply(lambda x: x.split(',')))

In [None]:
transacciones_encoded_df = pd.DataFrame(transacciones_encoded, columns=te.columns_)
transacciones_encoded_df

In [None]:
# Obtenemos las reglas de asociación por medio del algoritmo apriori
frequent_artist = apriori(transacciones_encoded_df, min_support=0.02, use_colnames=True)
frequent_artist

In [None]:
# Generamos reglas de asociación
reglas = association_rules(frequent_artist, metric="confidence", min_threshold=0.2)
reglas = reglas.sort_values(by="confidence", ascending=False)
reglas

In [None]:
# Verificamos si hay reglas redundantes
redundantes = reglas.duplicated(subset=['antecedents', 'consequents'])
print(redundantes)

In [None]:
reglas_podadas = reglas[~redundantes]
reglas_podadas

In [None]:
import networkx as nx

In [None]:
# Creamos un grafo con las reglas
G = nx.DiGraph()
for i, row in reglas.iterrows():
    G.add_edge(row['antecedents'], row['consequents'], weight=row['confidence'])

# Visualizamos el grafo con layout circular
pos = nx.circular_layout(G)

# Redondeamos los valores de confianza a 3 decimales
edge_labels = {edge: f"{weight:.3f}" for edge, weight in nx.get_edge_attributes(G, 'weight').items()}

plt.figure(figsize=(24, 16))
nx.draw(G, pos, with_labels=True, font_weight='bold', node_size=2000, node_color="skyblue", font_size=8, edge_color='gray')
nx.draw_networkx_edge_labels(G, pos, edge_labels=edge_labels, font_color='red', font_size=8)
plt.show()