# ¡Hola Bienvenido al análisis de Natalia en el dataset MUSIC PROJECT! <a class="tocSkip"></a>

# Déjame escuchar música 

Los datos están almacenados en el archivo `/datasets/music_project_en.csv`.


## Etapa 1. Descripción de los datos <a id='data_review'></a>

Abrir el dataset y darle una mirada

In [None]:
# Importa pandas
import pandas as pd

In [None]:
# Leer el archivo y almacénalo en df
df= pd.read_csv('/datasets/music_project_en.csv')


In [None]:
# Obtén las 10 primeras filas de la tabla df

print(df.head(10))

     userID                        Track            artist   genre  \
0  FFB692EC            Kamigata To Boots  The Mass Missile    rock   
1  55204538  Delayed Because of Accident  Andreas Rönnberg    rock   
2    20EC38            Funiculì funiculà       Mario Lanza     pop   
3  A3DD03C9        Dragons in the Sunset        Fire + Ice    folk   
4  E2DC1FAE                  Soul People        Space Echo   dance   
5  842029A1                       Chains          Obladaet  rusrap   
6  4CB90AA5                         True      Roman Messer   dance   
7  F03E1C1F             Feeling This Way   Polina Griffith   dance   
8  8FA1D3BE                     L’estate       Julia Dalia  ruspop   
9  E772D5C0                    Pessimist               NaN   dance   

        City        time        Day  
0  Shelbyville  20:28:33  Wednesday  
1  Springfield  14:07:09     Friday  
2  Shelbyville  20:58:07  Wednesday  
3  Shelbyville  08:37:09     Monday  
4  Springfield  08:34:34     Monday  
5

In [None]:
# Información general sobre nuestros datos
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65079 entries, 0 to 65078
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0     userID  65079 non-null  object
 1   Track     63736 non-null  object
 2   artist    57512 non-null  object
 3   genre     63881 non-null  object
 4     City    65079 non-null  object
 5   time      65079 non-null  object
 6   Day       65079 non-null  object
dtypes: object(7)
memory usage: 3.5+ MB
None


Estas son nuestras observaciones sobre la tabla. Contiene siete columnas que almacenan los mismos tipos de datos: `object`.

Según la documentación:
- `' userID'`: identificador del usuario;
- `'Track'`: título de la canción;
- `'artist'`: nombre del artista;
- `'genre'`: género de la canción;
- `'City'`: ciudad del usuario;
- `'time'`: la hora exacta en la que se reprodujo la canción;
- `'Day'`: día de la semana.

Podemos ver dos problemas con el estilo en los encabezados de la tabla:
1. Algunos encabezados están en mayúsculas, otros en minúsculas.
2. Hay que renombrar las columnas




## Etapa 2. Preprocesamiento de los datos <a id='data_preprocessing'></a>

El primer paso es resolver los problemas con los encabezados. Después podemos avanzar a los valores ausentes y duplicados.

Vamos a corregir el formato en los encabezados de la tabla.


In [None]:
# Muestra los nombres de las columnas
print(df.columns)
columns=(df.columns)

Index(['  userID', 'Track', 'artist', 'genre', '  City  ', 'time', 'Day'], dtype='object')


Vamos cambiar los encabezados de la tabla siguiendo las reglas estilísticas convencionales:
*   Todos los caracteres deben ser minúsculas.
*   Elimina los espacios.
*   Si el nombre tiene varias palabras, utiliza snake_case, es decir, añade un guion bajo ( _ ) entre las palabras en lugar de un espacio.


In [None]:

# Bucle que itera sobre los encabezados y los pone todos en minúsculas

columnas_arregladas = []
for columnas in df.columns:
    columnas_arregladas.append(columnas.strip().lower().replace(' ', '_'))
    
print(columnas_arregladas)

df.columns = columnas_arregladas

print()

print(df.columns)


['userid', 'track', 'artist', 'genre', 'city', 'time', 'day']

Index(['userid', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')


In [None]:
# Cambia el nombre de la columna "userid"

column_new= {
    "userid": "user_id"
}
df.rename(columns=column_new, inplace=True)

print(df.columns)


Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')


Etapa 2.5. Comprueba el resultado. Muestra los encabezados una vez más:

In [None]:
# Comprueba el resultado: lista de encabezados
print(df.columns)

Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')


### Valores ausentes <a id='missing_values'></a>
Primero, encuentraremos el número de valores ausentes en la tabla.

In [None]:
# Calcula el número de valores ausentes

print(df.isna().sum())


user_id       0
track      1343
artist     7567
genre      1198
city          0
time          0
day           0
dtype: int64


In [None]:

# Bucle en los encabezados reemplazando los valores ausentes con 'unknown'

columns_to_replace = ['track', 'artist', 'genre']

for col in df.columns:
    df[col]= df[col].fillna('unknown')

    print (columns_to_replace)


['track', 'artist', 'genre']
['track', 'artist', 'genre']
['track', 'artist', 'genre']
['track', 'artist', 'genre']
['track', 'artist', 'genre']
['track', 'artist', 'genre']
['track', 'artist', 'genre']


In [None]:
# Cuenta los valores ausentes
print(df.isna().sum())

user_id    0
track      0
artist     0
genre      0
city       0
time       0
day        0
dtype: int64


### Duplicados <a id='duplicates'></a>
Encontremos el número de duplicados explícitos en la tabla. Una vez más, debes aplicar dos métodos para obtener la cantidad de duplicados explícitos.

In [None]:

# Cuenta los duplicados explícitos

print(df.duplicated().sum())


3826


In [None]:
# Elimina los duplicados explícitos

df.drop_duplicates(inplace=True)



In [None]:
# Comprueba de nuevo si hay duplicados

print(df.duplicated().sum())

0


Ahora queremos deshacernos de los duplicados implícitos en la columna `genre`. Por ejemplo, el nombre de un género se puede escribir de varias formas. Dichos errores también pueden afectar al resultado.

In [None]:
# Inspecciona los nombres de géneros únicos
unique_genre = sorted(df['genre'].unique())

print(unique_genre)

['acid', 'acoustic', 'action', 'adult', 'africa', 'afrikaans', 'alternative', 'ambient', 'americana', 'animated', 'anime', 'arabesk', 'arabic', 'arena', 'argentinetango', 'art', 'audiobook', 'avantgarde', 'axé', 'baile', 'balkan', 'beats', 'bigroom', 'black', 'bluegrass', 'blues', 'bollywood', 'bossa', 'brazilian', 'breakbeat', 'breaks', 'broadway', 'cantautori', 'cantopop', 'canzone', 'caribbean', 'caucasian', 'celtic', 'chamber', 'children', 'chill', 'chinese', 'choral', 'christian', 'christmas', 'classical', 'classicmetal', 'club', 'colombian', 'comedy', 'conjazz', 'contemporary', 'country', 'cuban', 'dance', 'dancehall', 'dancepop', 'dark', 'death', 'deep', 'deutschrock', 'deutschspr', 'dirty', 'disco', 'dnb', 'documentary', 'downbeat', 'downtempo', 'drum', 'dub', 'dubstep', 'eastern', 'easy', 'electronic', 'electropop', 'emo', 'entehno', 'epicmetal', 'estrada', 'ethnic', 'eurofolk', 'european', 'experimental', 'extrememetal', 'fado', 'film', 'fitness', 'flamenco', 'folk', 'folklor

In [None]:
# Función para reemplazar los duplicados implícitos


def replace_wrong_values():
    wrong_values = ['hip', 'hop'] 
    correct_value = 'hip-hop' 
    
    for value in wrong_values:
        df['genre'] = df['genre'].replace(value, correct_value)



In [None]:
# Elimina los duplicados implícitos

replace_wrong_values()

In [None]:
# Comprueba de nuevo los duplicados implícitos

print(sorted(df['genre'].unique()))



['acid', 'acoustic', 'action', 'adult', 'africa', 'afrikaans', 'alternative', 'ambient', 'americana', 'animated', 'anime', 'arabesk', 'arabic', 'arena', 'argentinetango', 'art', 'audiobook', 'avantgarde', 'axé', 'baile', 'balkan', 'beats', 'bigroom', 'black', 'bluegrass', 'blues', 'bollywood', 'bossa', 'brazilian', 'breakbeat', 'breaks', 'broadway', 'cantautori', 'cantopop', 'canzone', 'caribbean', 'caucasian', 'celtic', 'chamber', 'children', 'chill', 'chinese', 'choral', 'christian', 'christmas', 'classical', 'classicmetal', 'club', 'colombian', 'comedy', 'conjazz', 'contemporary', 'country', 'cuban', 'dance', 'dancehall', 'dancepop', 'dark', 'death', 'deep', 'deutschrock', 'deutschspr', 'dirty', 'disco', 'dnb', 'documentary', 'downbeat', 'downtempo', 'drum', 'dub', 'dubstep', 'eastern', 'easy', 'electronic', 'electropop', 'emo', 'entehno', 'epicmetal', 'estrada', 'ethnic', 'eurofolk', 'european', 'experimental', 'extrememetal', 'fado', 'film', 'fitness', 'flamenco', 'folk', 'folklor

## Etapa 3. Análisis

### Comparar el comportamiento de los usuarios en las dos ciudades <a id='activity'></a>

Queremos analizar si hay diferencias en la cantidad de canciones reproducidas en Springfield y Shelbyville. Para ello, usaremos los datos de dos días de la semana: lunes y viernes.

Compararemos cuántas canciones se escucharon en cada ciudad durante esos días para identificar posibles patrones de comportamiento.

In [None]:
# Cuenta las canciones reproducidas en cada ciudad
print(df['day'].unique())

print()

df_monday = df[df["day"] == 'Monday']
df_friday = df[df["day"] == 'Friday']

songs_monday = df_monday.groupby('city')['track'].count()
songs_friday = df_friday.groupby('city')['track'].count()

print("Canciones reproducidas el lunes:\n", songs_monday)
print()
print("\nCanciones reproducidas el viernes:\n", songs_friday)


['Wednesday' 'Friday' 'Monday']

Canciones reproducidas el lunes:
 city
Shelbyville     5614
Springfield    15740
Name: track, dtype: int64


Canciones reproducidas el viernes:
 city
Shelbyville     5895
Springfield    15945
Name: track, dtype: int64


Los dias viernes las reproducciones aumentan en ambas ciudades y tanto Lunes como Viernes, Springfield reproduce mas canciones

In [None]:



# Calcula las canciones reproducidas en cada uno de los dos días
songs_day = df.groupby(['day', 'city'])['track'].count()
songs_monday_friday = songs_day.loc[['Monday', 'Friday']]

print(songs_monday_friday)



day     city       
Monday  Shelbyville     5614
        Springfield    15740
Friday  Shelbyville     5895
        Springfield    15945
Name: track, dtype: int64


El dia con mayor actividad es viernes

In [None]:


# Implementamos la función number_tracks() con dos parámetros: day= y city=.

def number_tracks (day, city):
    # Almacena las filas del DataFrame donde el valor en la columna 'day' es igual al parámetro day=
    # Filtra las filas donde el valor en la columna 'city' es igual al parámetro city=
    filtered = df[(df['day'] == day) & (df['city'] == city)]
    # Extrae la columna 'user_id' de la tabla filtrada y aplica el método count()
    cantidad = filtered['user_id'].count()
    # Devuelve el número de valores de la columna 'user_id'
    return cantidad
print(number_tracks('Monday', 'Springfield'))



15740


In [None]:
# El número de canciones reproducidas en Springfield el lunes
print(number_tracks('Monday', 'Springfield'))

15740


In [None]:
# El número de canciones reproducidas en Shelbyville el lunes
print(number_tracks('Monday', 'Shelbyville'))

5614


In [None]:
# El número de canciones reproducidas en Springfield el viernes
print(number_tracks('Friday', 'Springfield'))

15945


In [None]:
# El número de canciones reproducidas en Shelbyville el viernes
print(number_tracks('Friday', 'Shelbyville'))

5895


# Conclusiones <a id='end'></a>

Conclusion que si existe una variación según día de la semana y ciudad por lo que se puede entrar a analizar otras medidas de tendencia central para ver realmente la variación segun diferentes variables, por otro lado tener cuidado con algunos géneros que pueden ser duplicados y también el tema de las mayúsculas para los días de la semana.

Poder dominar la presentación en DataFrames ayuda a tener la info digerida en tablas para poder sacar mejores conclusiones y las funciones sirven para que se puedan realizar las consultas necsearias solo cambiando los parámetros de la función.
