# Déjame escuchar la música

## Introducción <a id='intro'></a>

En este proyecto, se compara las preferencias musicales de las ciudades de Springfield y Shelbyville. Se estudiaron datos reales de transmisión de música online para probar la hipótesis (a continuación) y comparar el comportamiento de los usuarios y las usuarias de estas dos ciudades.

### Objetivo:
Prueba la hipótesis:
1. La actividad de los usuarios y las usuarias difiere según el día de la semana y dependiendo de la ciudad.

## Diccionario de datos 

- `' userID'`: identificador del usuario o la usuaria;
- `'Track'`: título de la canción;
- `'artist'`: nombre del artista;
- `'genre'`: género de la pista;
- `'City'`: ciudad del usuario o la usuaria;
- `'time'`: la hora exacta en la que se reprodujo la canción;
- `'Day'`: día de la semana.

## Etapa 1. Descripción de los datos <a id='data_review'></a>

In [1]:
# Importar pandas
import pandas as pd

In [2]:
# Leer el archivo y almacenarlo en df
df = pd.read_csv('./datasets/music_project_en.csv')

In [3]:
# Obtener las 10 primeras filas de la tabla df
df.head(10)

Unnamed: 0,userID,Track,artist,genre,City,time,Day
0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Shelbyville,20:28:33,Wednesday
1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Springfield,14:07:09,Friday
2,20EC38,Funiculì funiculà,Mario Lanza,pop,Shelbyville,20:58:07,Wednesday
3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Shelbyville,08:37:09,Monday
4,E2DC1FAE,Soul People,Space Echo,dance,Springfield,08:34:34,Monday
5,842029A1,Chains,Obladaet,rusrap,Shelbyville,13:09:41,Friday
6,4CB90AA5,True,Roman Messer,dance,Springfield,13:00:07,Wednesday
7,F03E1C1F,Feeling This Way,Polina Griffith,dance,Springfield,20:47:49,Wednesday
8,8FA1D3BE,L’estate,Julia Dalia,ruspop,Springfield,09:17:40,Friday
9,E772D5C0,Pessimist,,dance,Shelbyville,21:20:49,Wednesday


In [4]:
# Obtener la información general sobre nuestros datos
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65079 entries, 0 to 65078
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0     userID  65079 non-null  object
 1   Track     63736 non-null  object
 2   artist    57512 non-null  object
 3   genre     63881 non-null  object
 4     City    65079 non-null  object
 5   time      65079 non-null  object
 6   Day       65079 non-null  object
dtypes: object(7)
memory usage: 3.5+ MB



`1.   ¿Qué tipo de datos tenemos a nuestra disposición en las filas? ¿Y cómo podemos entender lo que almacenan las columnas?`

`2.   ¿Hay suficientes datos para proporcionar respuestas a nuestra hipótesis o necesitamos más información?`

`3.   ¿Notaste algún problema en los datos, como valores ausentes, duplicados o tipos de datos incorrectos?`

## Etapa 2. Preprocesamiento de datos <a id='data_preprocessing'></a>

El objetivo aquí es preparar los datos para que sean analizados.


In [5]:
# Muestra los nombres de las columnas
print(df.columns)


Index(['  userID', 'Track', 'artist', 'genre', '  City  ', 'time', 'Day'], dtype='object')


In [6]:
# Bucle en los encabezados poniendo todo en minúsculas
new_name = []

for old_name in df.columns:
    new_name.append(old_name.lower())

df.columns = new_name
print(new_name)

['  userid', 'track', 'artist', 'genre', '  city  ', 'time', 'day']


In [7]:
# Bucle en los encabezados eliminando los espacios
without_strip = []

for with_strip in new_name:
    without_strip.append(with_strip.strip())
    
df.columns = without_strip
print(without_strip)
    

['userid', 'track', 'artist', 'genre', 'city', 'time', 'day']


In [8]:
# Cambiar el nombre de la columna "userid"
name_no_space = []

for name_space in without_strip:
    name_no_space.append(name_space.replace('userid','user_id'))
    
df.columns = name_no_space
print(name_no_space)

['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day']


In [9]:
# Comprobar el resultado: la lista de encabezados
print(df.columns)

Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')


### Valores ausentes <a id='missing_values'></a>

In [10]:
# Calcular el número de valores ausentes
print(df.isna().sum())

user_id       0
track      1343
artist     7567
genre      1198
city          0
time          0
day           0
dtype: int64


In [11]:
# Bucle en los encabezados reemplazando los valores ausentes con 'unknown'
columnas_a_remplazar = ['track', 'artist', 'genre']

for cambio in columnas_a_remplazar:
    df[cambio].fillna('unknown', inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df[cambio].fillna('unknown', inplace=True)


In [12]:
# Contar valores ausentes
print(df.isna().sum())

user_id    0
track      0
artist     0
genre      0
city       0
time       0
day        0
dtype: int64


### Duplicados <a id='duplicates'></a>

In [13]:
# Contar duplicados explícitos
print(df.duplicated().sum())

3826


In [14]:
# Eliminar duplicados explícitos
df = df.drop_duplicates()

In [15]:
# Comprobar de nuevo si hay duplicados
print(df.duplicated().sum())

0


In [16]:
# Inspeccionar los nombres de géneros únicos
print(df['genre'].unique())

['rock' 'pop' 'folk' 'dance' 'rusrap' 'ruspop' 'world' 'electronic'
 'unknown' 'alternative' 'children' 'rnb' 'hip' 'jazz' 'postrock' 'latin'
 'classical' 'metal' 'reggae' 'triphop' 'blues' 'instrumental' 'rusrock'
 'dnb' 'türk' 'post' 'country' 'psychedelic' 'conjazz' 'indie'
 'posthardcore' 'local' 'avantgarde' 'punk' 'videogame' 'techno' 'house'
 'christmas' 'melodic' 'caucasian' 'reggaeton' 'soundtrack' 'singer' 'ska'
 'salsa' 'ambient' 'film' 'western' 'rap' 'beats' "hard'n'heavy"
 'progmetal' 'minimal' 'tropical' 'contemporary' 'new' 'soul' 'holiday'
 'german' 'jpop' 'spiritual' 'urban' 'gospel' 'nujazz' 'folkmetal'
 'trance' 'miscellaneous' 'anime' 'hardcore' 'progressive' 'korean'
 'numetal' 'vocal' 'estrada' 'tango' 'loungeelectronic' 'classicmetal'
 'dubstep' 'club' 'deep' 'southern' 'black' 'folkrock' 'fitness' 'french'
 'disco' 'religious' 'hiphop' 'drum' 'extrememetal' 'türkçe'
 'experimental' 'easy' 'metalcore' 'modern' 'argentinetango' 'old' 'swing'
 'breaks' 'eurofolk' 

In [17]:
# Función para reemplazar duplicados implícitos

def replace_wrong_genres(df, genre_column, wrong_genres, correct_genre):
    for wrong_value in wrong_genres:
        df[genre_column] = df[genre_column].replace(wrong_value, correct_genre)
    return df

In [18]:
# Eliminar duplicados implícitos
wrong_genres = ['hip', 'hop', 'hip-hop']
correct_genre = 'hiphop'

df = replace_wrong_genres(df, 'genre', wrong_genres, correct_genre)


In [19]:
# Comprobación de duplicados implícitos
print(df['genre'].nunique())

266


In [20]:
df[df['genre'] == "hiphop"].count()

user_id    3056
track      3056
artist     3056
genre      3056
city       3056
time       3056
day        3056
dtype: int64

### Tus observaciones <a id='data_preprocessing_conclusions'></a>

`Describe brevemente lo que has notado al analizar duplicados, cómo abordaste sus eliminaciones y qué resultados obtuviste.`

Al iniciar los datos ausentes se concentraban en 3 columnas, track, artist y genre dando un total de 10,108 (1343, 7567 y 1198, respectivamente) al utilizar el metodo replace () se modifico el DataSet y aquellos valores ausentes fueron cambiados por un unknown. 
Despues se contabilizo el total de valores duplicados, el cual consta de 3826 al usar el metodo drop_duplucates() se eliminaron aquellos que son inncesarios para el análisis.
En cuanto a los datos unicos, se observan bastantes en la lista de la columna 'genre' pero al haber declarado la funcion 'replace_wrong_genres', es posible ir modificando cada uno de los valores implicitos, basta con modificar los argumentos establecidos en la funcion, como se hizo con aquellos que tenian hip, hop y hip-hop. Dando como resultado un total de 266, cabe resaltar que antes de declarar la funcion habian 269 datos unicos en la columna 'genre'

## Etapa 3. Prueba de hipótesis <a id='hypothesis'></a>

### Hipótesis: comparar el comportamiento del usuario o la usuaria en las dos ciudades <a id='activity'></a>

La hipótesis afirma que existen diferencias en la forma en que los usuarios y las usuarias de Springfield y Shelbyville consumen música. Para comprobar esto, se usaron los datos de tres días de la semana: lunes, miércoles y viernes.

* Agrupar a los usuarios y las usuarias por ciudad.
* Comparar el número de canciones que cada grupo reprodujo el lunes, el miércoles y el viernes.


In [21]:
# Contar las canciones reproducidas en cada ciudad
canciones_x_ciudad = df.groupby('city')['track'].count()
print(canciones_x_ciudad)

city
Shelbyville    18512
Springfield    42741
Name: track, dtype: int64


In [22]:
# Calcular las canciones reproducidas en cada uno de los tres días
canciones_x_dia = df.groupby('day')['track'].count()
print(canciones_x_dia)

day
Friday       21840
Monday       21354
Wednesday    18059
Name: track, dtype: int64


In [23]:
# Declara la función number_tracks() con dos parámetros: day= y city=.

def number_tracks(day, city):
    # Almacena las filas del DataFrame donde el valor en la columna 'day' es igual al parámetro day=
    days = df[df['day'] == day]
    # Filtra las filas donde el valor en la columna 'city' es igual al parámetro city=
    cities = days[days['city'] == city]
    # Extrae la columna 'user_id' de la tabla filtrada y aplica el método count()
    user_count = cities['user_id'].count()
    # Devolver el número de valores de la columna 'user_id'
    return user_count

In [24]:
# Funcion para imprimir numero de canciones por dia y ciudad
def print_number_tracks(day, city):
    numero_de_canciones = number_tracks(day,city)
    print(f'Number of songs played on {day} in {city}: {numero_de_canciones}')

In [25]:
print_number_tracks("Monday", "Springfield")
print_number_tracks("Monday", "Shelbyville")

Number of songs played on Monday in Springfield: 15740


Number of songs played on Monday in Shelbyville: 5614


In [26]:
print_number_tracks("Wednesday", "Springfield")
print_number_tracks("Wednesday", "Shelbyville")

Number of songs played on Wednesday in Springfield: 11056


Number of songs played on Wednesday in Shelbyville: 7003


In [27]:
print_number_tracks("Friday", "Springfield")
print_number_tracks("Friday", "Shelbyville")

Number of songs played on Friday in Springfield: 15945
Number of songs played on Friday in Shelbyville: 5895


La hipotesis puede ser aceptada ya que segun el filtrado que se realizo, se puede observar firmemente que el total de canciones escuchadas varia y depende del dia de la semana y la ciudad en la que se escuchan. Por ejemplo las canciones escuchadas el dia viernes en Springfield es mayor a las escuchadas el mismo dia pero en la ciudad de Shelbyville

# Conclusiones <a id='end'></a>

En conclusion, la hipotesis planteada puede ser aceptada debido a se cumple lo establecido, es decir, la actividad de los usuarios y usuarias difiere según el dia de la semana y dependiendo de la ciudad en la que se encuentren, los resultados claramente exponen lo comentado anteriormente. Además con la información obtenida tambien se puede resaltar que la ciudad de Springfield es la que presenta mayor número de reproducciones en los 3 dias. Por lo cual si se esta haciendo un estudio para ventas de planes de membresias como spotify, o alguna otra finalidad sera de suma importancia centrarnos en esta ciudad y aplicar las promociones los dias viernes donde es un poco mas notorio el incremento de reproduccion de musica. 