# Evaluación musical entre dos ciudades

## Introducción <a id='intro'></a>

En este proyecto se comparará las preferencias musicales de las ciudades de Springfield y Shelbyville. Se usarán datos reales de transmisión de música online para probar la hipótesis a continuación y comparar el comportamiento de los usuarios y las usuarias de estas dos ciudades.

### Objetivo:

Se comprobará la hipótesis:
* La actividad de los usuarios y las usuarias difiere según el día de la semana y dependiendo de la ciudad.


## Descripción de los datos <a id='data_review'></a>

Abrir los datos y examinarlos

In [1]:
# Importar pandas
import pandas as pd

In [2]:
# Leer el archivo y almacenarlo en df
df = pd.read_csv(r"C:\Users\marco\Documents\tripleten_projects\final_projects\sprint2\music_project_en.csv")

In [3]:
# Obtener las 10 primeras filas de la tabla df
df.head(10)

Unnamed: 0,userID,Track,artist,genre,City,time,Day
0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Shelbyville,20:28:33,Wednesday
1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Springfield,14:07:09,Friday
2,20EC38,Funiculì funiculà,Mario Lanza,pop,Shelbyville,20:58:07,Wednesday
3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Shelbyville,08:37:09,Monday
4,E2DC1FAE,Soul People,Space Echo,dance,Springfield,08:34:34,Monday
5,842029A1,Chains,Obladaet,rusrap,Shelbyville,13:09:41,Friday
6,4CB90AA5,True,Roman Messer,dance,Springfield,13:00:07,Wednesday
7,F03E1C1F,Feeling This Way,Polina Griffith,dance,Springfield,20:47:49,Wednesday
8,8FA1D3BE,L’estate,Julia Dalia,ruspop,Springfield,09:17:40,Friday
9,E772D5C0,Pessimist,,dance,Shelbyville,21:20:49,Wednesday


In [4]:
# Obtener la información general sobre nuestros datos
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65079 entries, 0 to 65078
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0     userID  65079 non-null  object
 1   Track     63736 non-null  object
 2   artist    57512 non-null  object
 3   genre     63881 non-null  object
 4     City    65079 non-null  object
 5   time      65079 non-null  object
 6   Day       65079 non-null  object
dtypes: object(7)
memory usage: 3.5+ MB


### Conclusiones <a id='#data_review_conclusions'></a>

Observamos que es una tabla de 7 columnas, en la que todos los datos han sido almacenados como `object` a pesar de contener diferentes tipos de datos.

Según la documentación:
- `' userID'`: identificador del usuario o la usuaria;
- `'Track'`: título de la canción;
- `'artist'`: nombre del artista;
- `'genre'`: género de la pista;
- `'City'`: ciudad del usuario o la usuaria;
- `'time'`: la hora exacta en la que se reprodujo la canción;
- `'Day'`: día de la semana.

Podemos ver tres problemas con el estilo en los encabezados de la tabla:
1. Algunos encabezados están en mayúsculas, otros en minúsculas.
2. Hay espacios en algunos encabezados.
3. Falta el uso del snake case en el nombre de la primera columna.




#### Observaciones de los datos a procesar

* Se observa dentro de las primeras 10 filas, en la columna `' userID'`, no todos los datos mostrados tienen la misma longitud en un formato alfanumerico.
* En la décima fila se observa que hay un valor faltante en la columna `'artist'`.
* Habrá que revisar en la columna de `'artist'` (si es factible por la cantidad de datos) por inconsistencias ortográficas en el nombre de los artistas.
* Habrá que revisar número de valores únicos en la columna `'City'`, ya que deberían ser solo 2.
* El formato de datos en la columna de tiempo es de manera H:mm:ss
* Habrá que revisar valores únicos en la columna `'Day'` para verificar que solo sean 7 valores.
* Se observa que en las columnas `'Track'`,`'artist'` y `'genre'` hay datos faltantes.
* Se considera que hay suficiente información para poder responder a la hipótesis


## Preprocesamiento de datos <a id='data_preprocessing'></a>


### Estilo del encabezado <a id='header_style'></a>


In [5]:
# Se muestran los nombres de las columnas
df.columns

Index(['  userID', 'Track', 'artist', 'genre', '  City  ', 'time', 'Day'], dtype='object')

Se cambian los encabezados de la tabla para seguir buenas prácticas:
* Las letras deben ser minúsculas.
* Eliminar los espacios.
* Utilizar snake_case.

In [6]:
# Bucle para cambiar a minúsculas los encabezados

# Se crea una lista para ir agregando los nombres de las columnas una vez modificados
lower_col_names = []

# Se crea bucle para trabajar cada columna del df
for old_name in df.columns: 
    name_lower=old_name.lower() # Se cambia el formato del nombre a minúsculas y se guarda como name_lower
    lower_col_names.append(name_lower) # Se agrega el nombre cambiado a la lista lower_col_names

# Se hace el cambio del nombre de las columnas por el de la lista lower_col_names
df.columns=lower_col_names 
df.columns 

Index(['  userid', 'track', 'artist', 'genre', '  city  ', 'time', 'day'], dtype='object')

In [7]:
# Bucle para eliminar el espacio en los encabezados

# Se crea una lista para ir agregando los nombres de las columnas una vez modificados
stripped_col_names = [] 

# Se crea bucle para trabajar cada columna del DF
for old_name in df.columns: 
    name_stripped=old_name.strip() # Se recortan los espacios antes y despues del nombre y se guarda como name_stripped
    stripped_col_names.append(name_stripped) # Se agrega el nombre cambiado a la lista stripped_col_names

# Se hace el cambio del nombre de las columnas por el de la lista stripped_col_names
df.columns=stripped_col_names 
df.columns 

Index(['userid', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')

In [8]:
# Cambiar el nombre de la columna "userid" a snake case

# Se nombra al dataframe con el metodo rename() indicando que la columna userid se quiere cambiar y reemplazar con 'user_id'
df.rename(columns={'userid':'user_id'}, inplace=True) 
                                                    
df.columns

Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')

In [9]:
# Comprobar el cambio en la lista de encabezados
df.columns

Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')

### Valores ausentes <a id='missing_values'></a>


In [10]:
# Calcular el número de valores ausentes
print(df.isna().sum())

user_id       0
track      1343
artist     7567
genre      1198
city          0
time          0
day           0
dtype: int64


No todos los valores ausentes afectan a la investigación. Por ejemplo, los valores ausentes en `'track'` y `'artist'` no son relevantes, por lo que se asignarán como `'unknown'` (desconocido).

Los valores ausentes en `'genre'` pueden afectar la comparación entre las preferencias musicales de Springfield y Shelbyville.  Así que realizaremos lo siguiente:
* rellenar los valores ausentes con un valor predeterminado;
* evaluar cuánto podrían afectar los valores ausentes 

In [11]:
# Bucle en los encabezados reemplazando los valores ausentes con 'unknown'

# Se hace una lista con el nombre de las columnas a trabajar
columns_to_replace=['track','artist','genre']

# Se hace un bucle para trabajar con cada columna en la lista
for col in columns_to_replace: 
    df[col].fillna('unknown',inplace=True) # Sustituir por 'unknown' los valores nulos dentro de las columnas
                                           

In [12]:
# Comprobamos que ya no tengamos valores ausentes
print(df.isna().sum())

user_id    0
track      0
artist     0
genre      0
city       0
time       0
day        0
dtype: int64


### Duplicados <a id='duplicates'></a>

In [13]:
# Contamos los duplicados explícitos
print(df.duplicated().sum())

3826


In [14]:
# Eliminamos los duplicados explícitos
df.drop_duplicates(inplace=True)

In [15]:
# Comprobar de nuevo si hay duplicados
print(df.duplicated().sum())

0


Ahora queremos deshacernos de los duplicados implícitos en la columna `'genre'`. Por ejemplo, el nombre de un género se puede escribir de varias formas. Dichos errores también pueden afectar al resultado.

Para hacerlo, primero mostremos una lista de nombres de género únicos, ordenados en orden alfabético. Para ello:
* Extrae la columna `'genre'` del DataFrame.
* Llama al método que devolverá todos los valores únicos en la columna extraída.


In [16]:
# Revisar los nombres de géneros únicos
df['genre'].sort_values().unique()

array(['acid', 'acoustic', 'action', 'adult', 'africa', 'afrikaans',
       'alternative', 'ambient', 'americana', 'animated', 'anime',
       'arabesk', 'arabic', 'arena', 'argentinetango', 'art', 'audiobook',
       'avantgarde', 'axé', 'baile', 'balkan', 'beats', 'bigroom',
       'black', 'bluegrass', 'blues', 'bollywood', 'bossa', 'brazilian',
       'breakbeat', 'breaks', 'broadway', 'cantautori', 'cantopop',
       'canzone', 'caribbean', 'caucasian', 'celtic', 'chamber',
       'children', 'chill', 'chinese', 'choral', 'christian', 'christmas',
       'classical', 'classicmetal', 'club', 'colombian', 'comedy',
       'conjazz', 'contemporary', 'country', 'cuban', 'dance',
       'dancehall', 'dancepop', 'dark', 'death', 'deep', 'deutschrock',
       'deutschspr', 'dirty', 'disco', 'dnb', 'documentary', 'downbeat',
       'downtempo', 'drum', 'dub', 'dubstep', 'eastern', 'easy',
       'electronic', 'electropop', 'emo', 'entehno', 'epicmetal',
       'estrada', 'ethnic', 'eurofo

Un ejemplo en la lista para encontrar duplicados implícitos es el género `hiphop`. Estos pueden ser nombres escritos incorrectamente o nombres alternativos para el mismo género.

Se observan los siguientes duplicados implícitos:
* `hip`
* `hop`
* `hip-hop`

Para deshacernos de ellos, crearemos una función llamada `replace_wrong_genres()` con dos parámetros:
* `wrong_genres=`: lista que contiene todos los valores que necesitamos reemplazar.
* `correct_genre=`:string que utilizaremos como reemplazo.

Como resultado, la función debería corregir los nombres en la columna `'genre'` de la tabla `df`, es decir, remplazar cada valor de la lista `wrong_genres` por el valor en `correct_genre`.



In [17]:
# Función para reemplazar duplicados implícitos


def replace_wrong_genres(df,column,wrong_genres,correct_genre): 
    
    #Se crea bucle para trabajar cada género de la lista de géneros incorrectos
    for wrong_genre in wrong_genres: 
        
    # Se realiza el cambio en el nombre del género en la columna
        df[column]=df[column].replace(wrong_genre,correct_genre) 
        
    # Regresa el DF actualizado como resultado    
    return df 

In [18]:
# Eliminar duplicados implícitos

#Se hace una lista con el nombre de los géneros incorrectos
duplicates = ['hip','hop','hip-hop'] 

# Se define el nombre correcto en una variable
correct = 'hiphop' 

# Se actualiza el DF con la función que se realizó
df = replace_wrong_genres(df,'genre',duplicates,correct) 

In [19]:
# Se comprueba la corrección
df['genre'].sort_values().unique()

array(['acid', 'acoustic', 'action', 'adult', 'africa', 'afrikaans',
       'alternative', 'ambient', 'americana', 'animated', 'anime',
       'arabesk', 'arabic', 'arena', 'argentinetango', 'art', 'audiobook',
       'avantgarde', 'axé', 'baile', 'balkan', 'beats', 'bigroom',
       'black', 'bluegrass', 'blues', 'bollywood', 'bossa', 'brazilian',
       'breakbeat', 'breaks', 'broadway', 'cantautori', 'cantopop',
       'canzone', 'caribbean', 'caucasian', 'celtic', 'chamber',
       'children', 'chill', 'chinese', 'choral', 'christian', 'christmas',
       'classical', 'classicmetal', 'club', 'colombian', 'comedy',
       'conjazz', 'contemporary', 'country', 'cuban', 'dance',
       'dancehall', 'dancepop', 'dark', 'death', 'deep', 'deutschrock',
       'deutschspr', 'dirty', 'disco', 'dnb', 'documentary', 'downbeat',
       'downtempo', 'drum', 'dub', 'dubstep', 'eastern', 'easy',
       'electronic', 'electropop', 'emo', 'entehno', 'epicmetal',
       'estrada', 'ethnic', 'eurofo

### Observaciones <a id='data_preprocessing_conclusions'></a>

Al eliminar los duplicados se consiguió que realizaramos una comparación errónea al momento de poner a prueba nuestra hipótesis. Utilizamos el método de `drop_duplicates()` para quitar los duplicados explícitos, y creamos una función para iterar sobre nuestros datos y reemplazar los nombres de los géneros incorrectos, en este caso `hip hop`. Ahora que terminamos de revisar y limpiar nuestros datos, ya podemos continuar con nuestro análisis.

## Prueba de hipótesis <a id='hypothesis'></a>

### Hipótesis: comparar el comportamiento del usuario o la usuaria en las dos ciudades <a id='activity'></a>

La hipótesis afirma que existen diferencias en la forma en que los usuarios y las usuarias de Springfield y Shelbyville consumen música. Para comprobar esto, usaremos los datos de tres días de la semana: lunes, miércoles y viernes.

* Agruparemos a los usuarios y las usuarias por ciudad.
* Compararemos el número de canciones que cada grupo reprodujo el lunes, el miércoles y el viernes.


In [20]:
# Contar las canciones reproducidas en cada ciudad
df.groupby(by='city')['track'].count()

city
Shelbyville    18512
Springfield    42741
Name: track, dtype: int64

Se observa que en Springfield tienen una tendencia a reproducir 2.3 veces más canciones que Shelbyville.

In [21]:
# Calcular las canciones reproducidas en cada uno de los tres días
df.groupby(by='day')['track'].count().sort_values()

day
Wednesday    18059
Monday       21354
Friday       21840
Name: track, dtype: int64

Se observa que el dia con menos reproducciones es el Miércoles. El día con más reproducciones es el Viernes, y el Lunes el segundo lugar, con no mucha diferencia del Viernes. Podríamos deducir que los usuarios escuchan más música en estos días, el Lunes por ser el inicio de semana, y el Viernes porque está por comenzar el fin de semana.

Creamos una función para obtener el número de reproducciones por día y ciudad, usando estos dos como parámetros de la función. 

In [22]:
# Se declara la función number_tracks() con dos parámetros: day y city
def number_tracks(day,city): 
    
    # Se guardan las filas por 'day'
    filt_df=df[df['day'] == day]
    # Se actualiza filt_df a la filas filtradas por 'city'
    filt_df=filt_df[filt_df['city']==city]
    # Se extrae la columna 'user_id' y se aplica count()
    times_played=filt_df['user_id'].count()
    # Devolve el número de valores 
    return times_played

In [23]:
print('El número de canciones reproducidas en Springfield el lunes:',number_tracks('Monday','Springfield'))

El número de canciones reproducidas en Springfield el lunes: 15740


In [24]:
print('El número de canciones reproducidas en Shelbyville el lunes:',number_tracks('Monday','Shelbyville'))

El número de canciones reproducidas en Shelbyville el lunes: 5614


In [25]:
print('El número de canciones reproducidas en Springfield el miércoles:',number_tracks('Wednesday','Springfield'))

El número de canciones reproducidas en Springfield el miércoles: 11056


In [26]:
print('El número de canciones reproducidas en Shelbyville el miércoles:',number_tracks('Wednesday','Shelbyville'))

El número de canciones reproducidas en Shelbyville el miércoles: 7003


In [27]:
print('El número de canciones reproducidas en Springfield el viernes:',number_tracks('Friday','Springfield'))

El número de canciones reproducidas en Springfield el viernes: 15945


In [28]:
print('El número de canciones reproducidas en Shelbyville el viernes:',number_tracks('Friday','Shelbyville'))

El número de canciones reproducidas en Shelbyville el viernes: 5895


**Conclusiones**



La hipótesis trabajada es correcta. Se observan notorias diferencias entre las ciudades en la cantidad de canciones escuchadas, y una diferencia entre el Miércoles en comparación al Lunes y al Viernes. Siendo el Miércoles el día más alto en Shelbyville, y el Lunes y Viernes en Springfield.

# Conclusiones <a id='end'></a>

Las conclusiones se pueden observar desde tres puntos diferentes:

**1. Ciudad vs Ciudad** 

Podemos observar que al comparar ciudades, Springfield escucha 2.4 veces más en promedio de los tres días estudiados. Pudieramos estudiar los contextos sociales de cada ciudad para descubrir la razón de esto.

**2. Día vs Día**

Se observa que a pesar de que Lunes y Viernes están cercanos en cifras, el miércoles hay un descenso en las canciones reproducidas, pudiesemos pensar que al ser el inicio de semana y el inicio de fin de semana, son días en los que hay cambios de estados de ánimo por lo que representan estos días. Se pudiera amplificar el conocimiento en esta área si obtuvieramos las edades de los usuarios muestreados y ver la distribución de edad, o conociendo su estado actual de actividad laboral o estudiantil, ya que estos días pueden representar el comienzo o fin del tiempo laboral/estudiantil en la semana.

**3. Ciudad-Día vs. Ciudad-Día**

Se observa una tendencia distinta en los días de mayor escucha en cada ciudad. Siendo Lunes y Viernes en Springfield, y el Miércoles en Shelbyville. Usando información de la semana completa si podrían conocer más las tendencias junto con la edad de los usuarios, para ver la influencia de estos en el tiempo de escucha dependiendo el grupo de edad dominante en cada ciudad.