# <img style="float: left; padding-right: 20px; width: 200px" src="https://raw.githubusercontent.com/raxlab/imt2200-data/main/media/logo.jpg">  IMT 2200 - Introducción a Ciencia de Datos
**Pontificia Universidad Católica de Chile**<br>
**Instituto de Ingeniería Matemática y Computacional**<br>
**Semestre 2025-S2**<br>
**Profesor:** Rodrigo A. Carrasco <br>

# <h1><center>Actividad 05: Limpieza y Transformación de Datos</center></h1>

Esta actividad busca aplicar los conocimientos en transformación de datos para contestar algunas preguntas.

## Instrucciones

Esto Notebook contiene las instrucciones a realizar para la actividad. 

<b>Al finalizarla, deben subir el Notebook y los archivos generados en un único archivo .zip, al módulo de la Actividad 05 en Canvas.</b>

Para esta actividad trabajarán con el archivo `spotify_history.csv`, que contiene el historial de actividad de un usuario de Spotify durante varios años.

## Rúbrica

- Si han logrado todo (con errores menores): 7.0
- Si han logrado los puntos 1 y 2 (con errores menores): 5.0
- Si no han logrado hasta el punto 2.0: 1.0


## 1. Lectura y selección de columnas

a. Primero, lea el `spotify_history.csv` con Pandas como un único DataFrame y muestre todas las columnas del archivo original.

b. Para esta actividad, las columnas de nuestro interés son las siguientes:
```
['ts','ms_played',
'master_metadata_track_name', 'master_metadata_album_artist_name',
'master_metadata_album_album_name', 'episode_name',
'episode_show_name',
'reason_start', 'reason_end']
```
Seleccione solamente estas columnas para su DataFrame de trabajo.

c. Responda:
* ¿Cuántas filas tiene su dataset?

In [1]:
import pandas as pd

df = pd.read_csv("data2025/spotify_history.csv")
df.info() # o bien df.columns

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 41827 entries, 0 to 41826
Data columns (total 21 columns):
 #   Column                             Non-Null Count  Dtype  
---  ------                             --------------  -----  
 0   ts                                 41827 non-null  object 
 1   platform                           41827 non-null  object 
 2   ms_played                          41827 non-null  int64  
 3   conn_country                       41827 non-null  object 
 4   master_metadata_track_name         40859 non-null  object 
 5   master_metadata_album_artist_name  40859 non-null  object 
 6   master_metadata_album_album_name   40859 non-null  object 
 7   spotify_track_uri                  40859 non-null  object 
 8   episode_name                       968 non-null    object 
 9   episode_show_name                  968 non-null    object 
 10  spotify_episode_uri                968 non-null    object 
 11  audiobook_title                    0 non-null      flo

In [2]:
columns = ['ts','ms_played',
'master_metadata_track_name', 'master_metadata_album_artist_name',
'master_metadata_album_album_name', 'episode_name',
'episode_show_name',
'reason_start', 'reason_end']

df = df[columns]

In [3]:
df.info()

print(f"\nEl dataset inicial tiene {df.shape[0]:,} filas de datos.")

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 41827 entries, 0 to 41826
Data columns (total 9 columns):
 #   Column                             Non-Null Count  Dtype 
---  ------                             --------------  ----- 
 0   ts                                 41827 non-null  object
 1   ms_played                          41827 non-null  int64 
 2   master_metadata_track_name         40859 non-null  object
 3   master_metadata_album_artist_name  40859 non-null  object
 4   master_metadata_album_album_name   40859 non-null  object
 5   episode_name                       968 non-null    object
 6   episode_show_name                  968 non-null    object
 7   reason_start                       41827 non-null  object
 8   reason_end                         41827 non-null  object
dtypes: int64(1), object(8)
memory usage: 2.9+ MB

El dataset inicial tiene 41,827 filas de datos.


## 2. Limpieza


a. Revise si existen filas duplicadas en su dataset. Si es así, deje solamente la última aparición de la fila duplicada en su DataFrame. ¿Cuántas filas duplicadas hay?

b. Ahora, revise si hay filas cuyo valor en `ms_played` (milisegundos reproducidos) es menor a 1. Descarte todas estas filas.

c. ¿Cuántas filas quedaron en su DataFrame después de la limpieza?

In [4]:
print(f"Hay {df[df.duplicated].shape[0]:,} filas duplicadas.")
df[df.duplicated]

Hay 72 filas duplicadas.


Unnamed: 0,ts,ms_played,master_metadata_track_name,master_metadata_album_artist_name,master_metadata_album_album_name,episode_name,episode_show_name,reason_start,reason_end
15,2022-12-30T13:07:18Z,2957,No One Knows,Queens of the Stone Age,Songs For The Deaf,,,appload,endplay
691,2023-01-10T13:05:27Z,59773,Think Twice,Mo’Ju,Native Tongue,,,clickrow,endplay
883,2023-01-16T18:12:20Z,201786,Clean,Big Data,2.0,,,clickrow,trackdone
1298,2023-02-19T23:40:58Z,4945,Shapes in the Snow,Lewis Clarke,Upon White Winds,,,clickrow,endplay
2189,2023-03-19T00:38:49Z,265400,Beautiful Tango - Unplugged,Hindi Zahra,Handmade,,,trackdone,trackdone
...,...,...,...,...,...,...,...,...,...
37404,2025-04-20T18:35:12Z,247000,Calma,Nano Stern,Voy y Vuelvo,,,trackdone,trackdone
38215,2025-05-15T15:36:09Z,218720,De Selby (Part 1),Hozier,Unreal Unearth,,,clickrow,trackdone
38750,2025-05-19T19:43:41Z,174600,UP IN SMOKE,RIN,UP IN SMOKE,,,trackdone,trackdone
39162,2025-05-26T20:18:04Z,96717,Girl's Song In Winter,Vashti Bunyan,Some Things Just Stick In Your Mind,,,trackdone,trackdone


In [5]:
clean_df = df.drop_duplicates(keep='last').copy()

In [6]:
non_played = clean_df[clean_df.ms_played < 1]
print(f"Hay {non_played.shape[0]:,} reproducciones con 0ms de reproducción")

Hay 268 reproducciones con 0ms de reproducción


In [7]:
clean_df = clean_df[clean_df.ms_played > 0]

In [8]:
print(f"En el nuevo DF limpio hay {clean_df.shape[0]:,} filas")

En el nuevo DF limpio hay 41,487 filas


## 3. Transformación

Aplique las siguientes transformaciones a su DataFrame:

a. La columna `ts` (timestamp) muestra la fecha y hora de reproducción de la canción. Extraiga únicamente el año y agregue una nueva columna con este dato como número entero. ¿En qué año hubo más reproducciones?

b. El dataset contiene canciones y episodios de podcasts. Genere una nueva columna (categórica o booleana) que identifique a cada fila como "canción" o "episodio" y explique cómo realizó esta clasificación. ¿Cuántas filas hay de cada una de estas categorías? 

c. Responda:
¿Cuál es el podcast con mayor número de reproducciones en total?

In [9]:
# Tambien pueden usar datetime
clean_df['year'] = clean_df.ts.apply(lambda x: int(x[:4]))

clean_df.groupby("year").size()

year
2022      122
2023    15426
2024    18860
2025     7079
dtype: int64

El año con más reproducciones fue 2024.

In [10]:
def song_or_episode(row):
    if pd.isna(row['episode_name']):
        return "song"
    return "episode"

clean_df['category'] = clean_df.apply(song_or_episode, axis=1)
clean_df.category.value_counts()

category
song       40563
episode      924
Name: count, dtype: int64

Esto puede hacerse de varias formas. Un ejemplo: la columna "episode_name" solo tiene valor para los capítulos de podcasts. En la función `song_or_episode` revisamos si esta columna en nula (NaN): si lo es, la fila es una canción. En caso contrario, es un episodio.

In [11]:
episodes = clean_df[clean_df.category == 'episode']

episodes.groupby("episode_show_name").size().reset_index(name='count').sort_values("count", ascending=False).head()

Unnamed: 0,episode_show_name,count
16,Lateral with Tom Scott,211
18,Let's Learn Everything!,159
55,Wolf 359,153
24,Mom Can't Cook! A DCOM Podcast,94
42,The Case of the Greater Gatsby,33


El podcast con más reproducciones es Lateral with Tom Scott, con 211 reproducciones.

## 4. Variables categóricas

a. Las columnas `reason_start`y `reason_end` muestran, respectivamente, por qué se comenzó y se terminó la reproducción de una pista. Estas son columnas categóricas. Para ambas, muestre todas las categorías que aparecen en su dataset.
¿Son las mismas? Comente.

b. Vamos a crear una nueva columna llamada `skipped` (categórica o booleana), que identificará si la reproducción de la pista fue interrumpida intencionalmente por el usuario (saltada). Para esto, nos fijaremos en el valor de `reason_end` de cada fila. Considere una pista como "skipped" si su término está entre las siguientes categorías: `endplay`, `fwdbtn`, `backbtn`, y como "not skipped" en caso contrario.

c. Finalmente, responda:
¿Cuál es la canción más interrumpida (o saltada)? Responda con el nombre de la canción y el artista.

In [12]:
clean_df.reason_start.unique()

array(['fwdbtn', 'backbtn', 'trackdone', 'playbtn', 'appload', 'clickrow',
       'remote', 'trackerror', 'unknown'], dtype=object)

In [13]:
clean_df.reason_end.unique()

array(['fwdbtn', 'backbtn', 'trackdone', 'logout', 'endplay',
       'unexpected-exit-while-paused', 'remote', 'unexpected-exit',
       'unknown', 'trackerror'], dtype=object)

Hay algunas categorías compartidas (como fwdbtn, backbtn, trackdone, unknown), pero no son las mismas. Las razones de término incluyen "exits" (unexpected-exit, unexpected-exit-while-paused) que solo tienen sentido como término de una reproducción, no como comienzo.

In [14]:
def skipped(row):
    values = ['endplay', 'fwdbtn', 'backbtn'] 
    if row.reason_end in values:
        return True
    return False

clean_df['skipped'] = clean_df.apply(skipped, axis=1)

In [15]:
songs = clean_df[clean_df.category == 'song']
by_skip = songs.groupby(["master_metadata_track_name","master_metadata_album_artist_name", "skipped"]).size().reset_index(name='count')

by_skip[by_skip.skipped == True].sort_values("count", ascending=False).head()

Unnamed: 0,master_metadata_track_name,master_metadata_album_artist_name,skipped,count
2647,Drongo,YONAKA,True,53
11714,Year Zero,Ghost,True,49
9697,The Chain - 2004 Remaster,Fleetwood Mac,True,48
8680,Sisters of the Moon - 2015 Remaster,Fleetwood Mac,True,42
9975,The King's Affirmation,Iniko,True,37


La canción más interrumpida por el usuario es Drongo de YONAKA.