### **Introducción**

Vamos a analizar un conjunto de datos de canciones y sus estadísticas por semanas: `listas_musica.csv`    

Es un conjunto de datos que nos permite trabajar los conceptos de `pandas` y `numpy`.   

El ejercicio será guiado aunque se permite no ver las soluciones para realizar las tareas.  

Las columnas del `dataset` son:   

`date`: Tipo `date` - Fecha de la lista.    
`rank`: Tipo `int` - Posición del ranking de la canción en esa fecha.   
`song`: Tipo `str` - Nombre de la canción.  
`artist`: Tipo `str` - Artista.       
`last-week`: Tipo `int` - Posición en el ranking de la semana anterior.         
`peak-rank`: Tipo `int` - La mejor posición de la canción en el ranking.    
`weeks-on-board`: Tipo `int` - Número de semanas que la canción lleva en la lista.  

### **1. Carga de librerías**
Cargue las librerías `numpy`, `pandas` y `os`.

#### Solución

In [196]:
import numpy as np
import pandas as pd
import os

### **2. Carga del dataset**

Lea el dataset y conviértalo en un `dataframe`. 
  
Imprima el dataset una vez lo tenga.

#### Solución

In [197]:
df=pd.read_csv("listas_musica.csv")
df

Unnamed: 0,date,rank,song,artist,last-week,peak-rank,weeks-on-board
0,2021-11-06,1,Easy On Me,Adele,1.0,1,3
1,2021-11-06,2,Stay,The Kid LAROI & Justin Bieber,2.0,1,16
2,2021-11-06,3,Industry Baby,Lil Nas X & Jack Harlow,3.0,1,14
3,2021-11-06,4,Fancy Like,Walker Hayes,4.0,3,19
4,2021-11-06,5,Bad Habits,Ed Sheeran,5.0,2,18
...,...,...,...,...,...,...,...
330082,1958-08-04,96,Over And Over,Thurston Harris,,96,1
330083,1958-08-04,97,I Believe In You,Robert & Johnny,,97,1
330084,1958-08-04,98,Little Serenade,The Ames Brothers,,98,1
330085,1958-08-04,99,I'll Get By (As Long As I Have You),Billy Williams,,99,1


### **3. Limpieza de datos**

Rellene con `0` usando `fillna()`.

#### Solución

In [198]:
df.isnull().sum()/len(df)*100                                          #Comprobamos el porcentaje de nulos de cada columna del csv

date              0.000000
rank              0.000000
song              0.000000
artist            0.000000
last-week         9.788934
peak-rank         0.000000
weeks-on-board    0.000000
dtype: float64

In [199]:
def reparar_nulos(df):                                                   #Creamos función para la reparación
    for col in df.columns:                                               #Creamos bucle que itere sobre cada columna dentro de las columnas del df
        if df[col].dtype == 'int64' or df[col].dtype == 'float64':       #Si el type en la columa es un número entero o decimal, aplicamos lo siguiente:
            df[col] = df[col].fillna(df[col].mean())                     #El contenido de la columna pasa a rellenarse con la media de la columna 
    return df                                                            #La función debe devolver el df
 
df=reparar_nulos(df)  

In [200]:
df.isnull().sum()/len(df)*100                                           #Comprobamos de nuevo el porcentaje de nulos para asegurarnos que los valores nulos han sido reparados

date              0.0
rank              0.0
song              0.0
artist            0.0
last-week         0.0
peak-rank         0.0
weeks-on-board    0.0
dtype: float64

### **4. Imprima algunos valores de ejemplo**

Use `tail()` para imprimir algunos valores.

Fíjese en las columnas del dataset.

#### Solución

In [201]:
df.tail(10)                                                             #Imprimimos las 10 últimas filas del df

Unnamed: 0,date,rank,song,artist,last-week,peak-rank,weeks-on-board
330077,1958-08-04,91,The Purple People Eater Meets The Witch Doctor,Joe South,47.591631,91,1
330078,1958-08-04,92,Bird Dog,The Everly Brothers,47.591631,92,1
330079,1958-08-04,93,Are You Really Mine,Jimmie Rodgers,47.591631,93,1
330080,1958-08-04,94,She Was Only Seventeen (He Was One Year More),Marty Robbins,47.591631,94,1
330081,1958-08-04,95,Little Mary,Fats Domino,47.591631,95,1
330082,1958-08-04,96,Over And Over,Thurston Harris,47.591631,96,1
330083,1958-08-04,97,I Believe In You,Robert & Johnny,47.591631,97,1
330084,1958-08-04,98,Little Serenade,The Ames Brothers,47.591631,98,1
330085,1958-08-04,99,I'll Get By (As Long As I Have You),Billy Williams,47.591631,99,1
330086,1958-08-04,100,Judy,Frankie Vaughan,47.591631,100,1


### **5. Calcule los top 30 artistas**

Puede usar la función `value_counts`() y `head(...)`.

Fíjese en usar la columna correspondiente.

#### Solución

In [202]:
top30_artists=df["artist"].value_counts().head(30)                  
top30_artists

Taylor Swift             1023
Elton John                889
Madonna                   857
Drake                     787
Kenny Chesney             769
Tim McGraw                731
Keith Urban               673
Stevie Wonder             659
Rod Stewart               657
Mariah Carey              621
Michael Jackson           611
Chicago                   607
Rascal Flatts             604
Billy Joel                588
The Rolling Stones        585
The Beatles               585
Jason Aldean              572
Aretha Franklin           569
Rihanna                   566
P!nk                      564
Whitney Houston           561
Brad Paisley              559
Neil Diamond              553
George Strait             553
Luke Bryan                543
Carrie Underwood          541
Daryl Hall John Oates     540
The Beach Boys            531
Toby Keith                526
Bee Gees                  516
Name: artist, dtype: int64

### **6. Muestre el top 15 de canciones junto con su cantante**

#### Solución

In [203]:
top15_songs=df["song"].value_counts().head(15)                       #Obtenemos el top 15 de canciones más populares
top15_songs

Stay               224
Angel              205
Hold On            202
You                195
Heaven             194
I Like It          188
Crazy              176
Without You        174
Forever            164
Happy              157
Home               152
Please Don't Go    152
Someday            149
Lady               146
Smile              142
Name: song, dtype: int64

In [204]:
df_top15_songs=pd.DataFrame(top15_songs)                      #Convertimos el top15 en un df
df_top15_songs

Unnamed: 0,song
Stay,224
Angel,205
Hold On,202
You,195
Heaven,194
I Like It,188
Crazy,176
Without You,174
Forever,164
Happy,157


In [205]:
songs_and_artists=df[["song", "artist"]].set_index("song")               #Obtenemos, del df origina, el listado de canciones con su artista al lado
df_artist_songs=pd.DataFrame(songs_and_artists)                          #Convertimos esto en df
df_artist_songs


Unnamed: 0_level_0,artist
song,Unnamed: 1_level_1
Easy On Me,Adele
Stay,The Kid LAROI & Justin Bieber
Industry Baby,Lil Nas X & Jack Harlow
Fancy Like,Walker Hayes
Bad Habits,Ed Sheeran
...,...
Over And Over,Thurston Harris
I Believe In You,Robert & Johnny
Little Serenade,The Ames Brothers
I'll Get By (As Long As I Have You),Billy Williams


In [206]:
pd.merge(df_top15_songs, df_artist_songs, on=['song"], how = 'inner')

SyntaxError: unterminated string literal (detected at line 1) (3826144749.py, line 1)

In [None]:
artist_songs=df[["song", "artist"]].set_index("song")           #Del df inicial, extraemos el artista junto a la canción y reseteamos el índice para que sea "song" y no el índice
artist_songs

Unnamed: 0_level_0,artist
song,Unnamed: 1_level_1
Easy On Me,Adele
Stay,The Kid LAROI & Justin Bieber
Industry Baby,Lil Nas X & Jack Harlow
Fancy Like,Walker Hayes
Bad Habits,Ed Sheeran
...,...
Over And Over,Thurston Harris
I Believe In You,Robert & Johnny
Little Serenade,The Ames Brothers
I'll Get By (As Long As I Have You),Billy Williams


In [None]:
top15_songs_with_artist=df_top15_songs.left.join(df)

AttributeError: 'DataFrame' object has no attribute 'left'

In [None]:
# Calcular la frecuencia de cada canción
top15_songs = df["song"].value_counts().head(15)

# Crear un nuevo DataFrame con las 15 canciones más populares
songs_df = pd.DataFrame(top15_songs, columns=['Frequency'])

# Crear un DataFrame adicional con el nombre del artista correspondiente a cada canción
artists_info = df[['song', 'artist']].drop_duplicates().set_index('song')

# Unir los DataFrames usando el nombre de la canción como índice
top15_songs_with_artist = songs_df.join(artists_info)

# Mostrar el resultado
print(top15_songs_with_artist.value_counts().head())

Series([], dtype: int64)


### **7. Artistas más reproducidos por semanas**

Transforme la columna `date` en `datetime`.

Use `set_index` para crear un índice en la columna `date`.

Imprima el dataframe con el nuevo índice.

#### Solución

In [207]:
print(df["date"].dtype)                        #Comprobamos el tipo de datos que contiene la columna "date"

object


In [208]:
df["date"]=pd.to_datetime(df["date"])          #Los datos de la columna "date" pasarán a ser esos datos convertidos en "datetime"


In [209]:
print(df["date"].dtype)                         #Comprobamos que el tipo de datos contenidos en la columna "date" ha cambiado correctamente a "datetime"

datetime64[ns]


In [210]:
df.set_index("date",inplace=True)               #Establecemos el índice en "date" e imprimimos
df

Unnamed: 0_level_0,rank,song,artist,last-week,peak-rank,weeks-on-board
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2021-11-06,1,Easy On Me,Adele,1.000000,1,3
2021-11-06,2,Stay,The Kid LAROI & Justin Bieber,2.000000,1,16
2021-11-06,3,Industry Baby,Lil Nas X & Jack Harlow,3.000000,1,14
2021-11-06,4,Fancy Like,Walker Hayes,4.000000,3,19
2021-11-06,5,Bad Habits,Ed Sheeran,5.000000,2,18
...,...,...,...,...,...,...
1958-08-04,96,Over And Over,Thurston Harris,47.591631,96,1
1958-08-04,97,I Believe In You,Robert & Johnny,47.591631,97,1
1958-08-04,98,Little Serenade,The Ames Brothers,47.591631,98,1
1958-08-04,99,I'll Get By (As Long As I Have You),Billy Williams,47.591631,99,1


### **8. Encuentre los más y menos escuchados según un intervalo de tiempo**

Puede usar `resample(frecuencia)[columna]`.

Las frecuencias que puede usar son:

H - Horaria
D - Diaria
W - Semanal
M - Mensual
A - Anual
Puede usar `.agg([columnas])` para agregar los datos

#### Solución

In [211]:
df=df.resample("A").agg({"value":"mean"})

KeyError: "Column(s) ['value'] do not exist"