### **Práctica 2 - Machine Learning III**

**Objetivo**:
1. Analizar el conjunto de datos.
2. Crear un sistema de recomendación de artistas para usuarios.
   
**Entregar**: Este cuaderno de jupyter con el trabajo hecho y comentado.

**Datos**:

Los datos suministrados ya han sido procesados, limpiados y estructurados para simplificar su manejo y análisis.

Para aquellos interesados en explorar y manipular el conjunto de datos original, así como entender la estructura, podéis descargarlo directamente aquí:

https://grouplens.org/datasets/hetrec-2011/.

In [1]:
# Libraries
import pandas as pd
import matplotlib.pyplot as plt

In [2]:
# from google.colab import drive
# drive.mount('/content/drive')

In [3]:
base_path = "./data/hetrec2011-lastfm-2k"

In [4]:
artists = pd.read_csv(f"{base_path}/artists.dat", header=0, sep="\t")
user_tag_artist = pd.read_csv(f"{base_path}/user_taggedartists.dat", header=0, sep="\t")
tags = pd.read_csv(f"{base_path}/tags.dat", header=0, sep="\t", encoding="latin-1")
users = pd.read_csv(f"{base_path}/user_artists.dat", header=0, sep="\t")

# 1. Introducción al dataset

# Exploratory Data Analysis (EDA)

### Contexto del dataset:
El dataset contiene información de la red social de last.fm, etiquetas y estadisticas sobre cuanto se escucha a un artista de un set de 2.000 usuarios en un sistema de música online gratuito.

#### Archivos
* user_artists.dat - Este archivo contiene a los artistas escuchados por cada usuario + cuantas reproducciones.
* artists.dat - Archivo que contiene info sobre los artistas escuchados y etiquetados por los usarios
* tags.dat - Este archivo contiene los tags disponibles en el dataset.
* user_taggedartists.dat - Este archivo contiene la relacion entre tags de artistas dado por un usuario en particular.
* user_friends.dat - Relación entre los usuarios del dataset disponible.

#### Estadisticas de los datos:
* 1892 usuarios
* 17632 artistas
* 12717 relaciones entre usuarios
  * 25434 pares (user_i, user_j)
  * Media de 13.4 relaciones por usuario.
* 92834 relaciones entre usuarios y artista.
  * Tupla (Usuario, artista, # de reproducciones)
* 11946 tags
* 186479 tag assignments
 * Tupla (Usuario, tag, artista)  

In [5]:
artists.head()

Unnamed: 0,id,name,url,pictureURL
0,1,MALICE MIZER,http://www.last.fm/music/MALICE+MIZER,http://userserve-ak.last.fm/serve/252/10808.jpg
1,2,Diary of Dreams,http://www.last.fm/music/Diary+of+Dreams,http://userserve-ak.last.fm/serve/252/3052066.jpg
2,3,Carpathian Forest,http://www.last.fm/music/Carpathian+Forest,http://userserve-ak.last.fm/serve/252/40222717...
3,4,Moi dix Mois,http://www.last.fm/music/Moi+dix+Mois,http://userserve-ak.last.fm/serve/252/54697835...
4,5,Bella Morte,http://www.last.fm/music/Bella+Morte,http://userserve-ak.last.fm/serve/252/14789013...


In [6]:
users.head()
users.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 92834 entries, 0 to 92833
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype
---  ------    --------------  -----
 0   userID    92834 non-null  int64
 1   artistID  92834 non-null  int64
 2   weight    92834 non-null  int64
dtypes: int64(3)
memory usage: 2.1 MB


In [None]:
# Procedemos con un stacked bar chart, donde cada barra es un usuario, y cada color es un artista, sumando al numero total de reproducciones:
# Tenemos muchos usuarios, así que vamos a obtener para el EDA un muestreo de los 50 usuarios con mas reproducciones.

# You might already have this, but if not, you can aggregate as follows:
user_stacked_data = (
    users.groupby(["userID", "artistID"])
    .agg(total_listens=("weight", "sum"))
    .reset_index()
)
pivot_data = user_stacked_data.pivot(
    index="userID", columns="artistID", values="total_listens"
).fillna(0)

In [None]:
pivot_data.head()

In [7]:
# Step 4: Plot
pivot_data.plot(
    kind="bar", stacked=True, figsize=(10, 7), legend=False
)  # Adjust the size as needed
plt.title("Total Songs Listened per User by Artist")
plt.xlabel("User ID")
plt.ylabel("Total Songs Listened")
plt.show()

In [None]:
user_tag_artist.head()

Unnamed: 0,userID,artistID,tagID,day,month,year
0,2,52,13,1,4,2009
1,2,52,15,1,4,2009
2,2,52,18,1,4,2009
3,2,52,21,1,4,2009
4,2,52,41,1,4,2009


In [None]:
tags.head()

Unnamed: 0,tagID,tagValue
0,1,metal
1,2,alternative metal
2,3,goth rock
3,4,black metal
4,5,death metal
