In [None]:
# Instalar rpy2 para usar R
!pip install -q rpy2

# Activar celda m치gica para R
%load_ext rpy2.ipython

# Subir archivo
from google.colab import files
uploaded = files.upload()

# Cargar y explorar
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# Leer archivo
df = pd.read_csv("spotify_history.csv")

# Mostrar columnas
print("Columnas:", df.columns.tolist())

# Eliminar duplicados
df = df.drop_duplicates()

# Convertir fechas
df['ts'] = pd.to_datetime(df['ts'])
df['hour'] = df['ts'].dt.hour
df['day_of_week'] = df['ts'].dt.day_name()

# Convertir duraci칩n a minutos
df['minutes_played'] = df['ms_played'] / 60000

# Estad칤sticas generales
print("\nN칰mero total de registros:", len(df))
print("\nDuraci칩n total reproducida (horas):", round(df['minutes_played'].sum() / 60, 2))
print("\nPromedio de minutos por canci칩n:", round(df['minutes_played'].mean(), 2))

# Canciones m치s reproducidas
top_tracks = df['track_name'].value_counts().head(10)
print("\nTop 10 canciones m치s reproducidas:")
print(top_tracks)

# Artistas m치s reproducidos
top_artists = df['artist_name'].value_counts().head(10)
print("\nTop 10 artistas m치s reproducidos:")
print(top_artists)

# D칤as con m치s actividad
day_activity = df['day_of_week'].value_counts()
print("\nActividad por d칤a de la semana:")
print(day_activity)

# Horas con m치s actividad
hour_activity = df['hour'].value_counts().sort_index()
print("\nActividad por hora del d칤a:")
print(hour_activity)

# 游댳 Visualizaci칩n: actividad por d칤a
plt.figure(figsize=(8,5))
sns.countplot(data=df, x='day_of_week', order=['Monday','Tuesday','Wednesday','Thursday','Friday','Saturday','Sunday'])
plt.title('Reproducciones por D칤a de la Semana')
plt.ylabel('N칰mero de canciones')
plt.xlabel('D칤a')
plt.xticks(rotation=45)
plt.show()

# 游댳 Visualizaci칩n: actividad por hora
plt.figure(figsize=(10,5))
sns.histplot(df['hour'], bins=24, kde=False)
plt.title('Reproducciones por Hora del D칤a')
plt.xlabel('Hora')
plt.ylabel('N칰mero de canciones')
plt.show()

# 游댳 Visualizaci칩n: Heatmap d칤a vs hora
pivot_table = df.pivot_table(index='day_of_week', columns='hour', values='minutes_played', aggfunc='sum')
ordered_days = ['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday']
pivot_table = pivot_table.reindex(ordered_days)

plt.figure(figsize=(12,6))
sns.heatmap(pivot_table, cmap='YlGnBu')
plt.title("Heatmap: Actividad de Escucha por D칤a y Hora")
plt.xlabel("Hora del d칤a")
plt.ylabel("D칤a de la semana")
plt.show()

# Transferencia a R
import rpy2.robjects as ro
from rpy2.robjects import pandas2ri
pandas2ri.activate()
ro.globalenv['spotify_df'] = pandas2ri.py2rpy(df)


The rpy2.ipython extension is already loaded. To reload it, use:
  %reload_ext rpy2.ipython


KeyboardInterrupt: 

In [None]:
# Visualizaciones enriquecidas usando seaborn y matplotlib

import seaborn as sns
import matplotlib.pyplot as plt
import matplotlib.ticker as ticker

# Estilo visual general
sns.set(style="whitegrid")

# 1. Distribuci칩n de duraci칩n de las canciones reproducidas
plt.figure(figsize=(8,5))
sns.histplot(df['minutes_played'], bins=50, kde=True, color='mediumseagreen')
plt.title('Distribuci칩n de Minutos Reproducidos por Canci칩n')
plt.xlabel('Minutos reproducidos')
plt.ylabel('Frecuencia')
plt.show()

# 2. Top 10 artistas con m치s tiempo de reproducci칩n (no solo por frecuencia)
top_artists_time = df.groupby('artist_name')['minutes_played'].sum().sort_values(ascending=False).head(10)

plt.figure(figsize=(10,6))
sns.barplot(x=top_artists_time.values, y=top_artists_time.index, palette='Blues_d')
plt.title('Top 10 Artistas con M치s Tiempo de Reproducci칩n')
plt.xlabel('Minutos reproducidos')
plt.ylabel('Artista')
plt.show()

# 3. Boxplot: minutos por d칤a de la semana (ver distribuci칩n y outliers)
plt.figure(figsize=(10,6))
sns.boxplot(data=df, x='day_of_week', y='minutes_played',
            order=['Monday','Tuesday','Wednesday','Thursday','Friday','Saturday','Sunday'],
            palette='pastel')
plt.title('Distribuci칩n de Minutos por D칤a de la Semana')
plt.xlabel('D칤a')
plt.ylabel('Minutos reproducidos por canci칩n')
plt.ylim(0, 10)  # Limitar para mejor visualizaci칩n
plt.show()

# 4. Relaci칩n entre hora del d칤a y duraci칩n de reproducci칩n
plt.figure(figsize=(10,6))
sns.scatterplot(data=df, x='hour', y='minutes_played', alpha=0.3, color='purple')
plt.title('Relaci칩n entre Hora del D칤a y Duraci칩n de Reproducci칩n')
plt.xlabel('Hora')
plt.ylabel('Minutos reproducidos')
plt.xticks(range(0,24))
plt.show()

# 5. Canciones m치s reproducidas (top 10 por frecuencia)
top_tracks = df['track_name'].value_counts().head(10)

plt.figure(figsize=(10,6))
sns.barplot(x=top_tracks.values, y=top_tracks.index, palette='mako')
plt.title('Top 10 Canciones M치s Reproducidas')
plt.xlabel('N칰mero de veces reproducida')
plt.ylabel('Canci칩n')
plt.show()

# 6. Comparaci칩n: raz칩n de inicio de la canci칩n
plt.figure(figsize=(8,5))
sns.countplot(data=df, y='reason_start', order=df['reason_start'].value_counts().index, palette='Set2')
plt.title('Raz칩n por la que Inici칩 la Canci칩n')
plt.xlabel('N칰mero de canciones')
plt.ylabel('Raz칩n de inicio')
plt.show()

# 7. Comparaci칩n: plataforma de reproducci칩n
plt.figure(figsize=(8,5))
sns.countplot(data=df, y='platform', order=df['platform'].value_counts().index, palette='rocket')
plt.title('Plataforma de Reproducci칩n')
plt.xlabel('N칰mero de canciones')
plt.ylabel('Plataforma')
plt.show()

# 8. Gr치fico combinado d칤a vs duraci칩n total
total_minutes_by_day = df.groupby('day_of_week')['minutes_played'].sum().reindex(['Monday','Tuesday','Wednesday','Thursday','Friday','Saturday','Sunday'])

plt.figure(figsize=(10,6))
sns.barplot(x=total_minutes_by_day.index, y=total_minutes_by_day.values, palette='coolwarm')
plt.title('Duraci칩n Total de Reproducci칩n por D칤a')
plt.ylabel('Minutos')
plt.xlabel('D칤a de la Semana')
plt.show()


In [None]:
%%R
# Instalar librer칤as si es necesario
if (!require('dplyr')) install.packages('dplyr', repos='http://cran.us.r-project.org')
if (!require('ggplot2')) install.packages('ggplot2', repos='http://cran.us.r-project.org')

# Cargar librer칤as
library(dplyr)
library(ggplot2)

# Asegurar que sea un data.frame
spotify_df <- as.data.frame(spotify_df)

# Top 10 artistas m치s escuchados
top_artists <- spotify_df %>%
  group_by(artist_name) %>%
  summarise(total_plays = n()) %>%
  arrange(desc(total_plays)) %>%
  head(10)

print(top_artists)

# Gr치fico de barras
ggplot(top_artists, aes(x = reorder(artist_name, total_plays), y = total_plays)) +
  geom_bar(stat = 'identity', fill = 'steelblue') +
  coord_flip() +
  labs(title = 'Top 10 Artistas M치s Escuchados', x = 'Artista', y = 'Reproducciones')
