# Contenido <a id='back'></a>

* [Introducción](#intro)
* [Etapa 1. Descripción de los datos](#data_review)
    * [Conclusiones](#data_review_conclusions)
* [Etapa 2. Preprocesamiento de datos](#data_preprocessing)
    * [2.1 Estilo del encabezado](#header_style)
    * [2.2 Valores ausentes](#missing_values)
    * [2.3 Duplicados](#duplicates)
    * [2.4 Conclusiones](#data_preprocessing_conclusions)
* [Etapa 3. Prueba de hipótesis](#hypothesis)
    * [3.1 Hipótesis 1: actividad de los usuarios y las usuarias en las dos ciudades](#activity)
* [Conclusiones](#end)

# Déjame escuchar la música

# Introducción <a id='intro'></a>

En este proyecto, compararemos las preferencias musicales de las ciudades de Springfield y Shelbyville. Estudiaremos datos reales de transmisión de música online para probar la hipótesis a continuación y comparar el comportamiento de los usuarios y las usuarias de estas dos ciudades.

## Objetivo:
Prueba la hipótesis:
1. La actividad de los usuarios y las usuarias difiere según el día de la semana y dependiendo de la ciudad.


## Etapas
Los datos del comportamiento del usuario se almacenan en el archivo `/datasets/music_project_en.csv`. 

Primero, evaluaremos la calidad de los datos y verás si los problemas son significativos. Entonces, durante el preprocesamiento de datos, tomaremos en cuenta los problemas más críticos.

El proyecto consistirá en tres etapas:
 1. Descripción de los datos.
 2. Preprocesamiento de datos.
 3. Prueba de hipótesis.








[Volver a Contenidos](#back)

# Etapa 1. Descripción de los datos <a id='data_review'></a>


In [1]:
# Importar pandas
import pandas as pd

In [2]:
# Leer el archivo y almacenarlo en df
df = pd.read_csv('/datasets/music_project_en.csv')

In [3]:
# Obtener las 10 primeras filas de la tabla df
df.head(10)

Unnamed: 0,userID,Track,artist,genre,City,time,Day
0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Shelbyville,20:28:33,Wednesday
1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Springfield,14:07:09,Friday
2,20EC38,Funiculì funiculà,Mario Lanza,pop,Shelbyville,20:58:07,Wednesday
3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Shelbyville,08:37:09,Monday
4,E2DC1FAE,Soul People,Space Echo,dance,Springfield,08:34:34,Monday
5,842029A1,Chains,Obladaet,rusrap,Shelbyville,13:09:41,Friday
6,4CB90AA5,True,Roman Messer,dance,Springfield,13:00:07,Wednesday
7,F03E1C1F,Feeling This Way,Polina Griffith,dance,Springfield,20:47:49,Wednesday
8,8FA1D3BE,L’estate,Julia Dalia,ruspop,Springfield,09:17:40,Friday
9,E772D5C0,Pessimist,,dance,Shelbyville,21:20:49,Wednesday


In [4]:
# Obtener la información general sobre nuestros datos
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65079 entries, 0 to 65078
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0     userID  65079 non-null  object
 1   Track     63736 non-null  object
 2   artist    57512 non-null  object
 3   genre     63881 non-null  object
 4     City    65079 non-null  object
 5   time      65079 non-null  object
 6   Day       65079 non-null  object
dtypes: object(7)
memory usage: 3.5+ MB
None


**Descripción**
- `' userID'`: identificador del usuario o la usuaria;
- `'Track'`: título de la canción;
- `'artist'`: nombre del artista;
- `'genre'`: género de la pista;
- `'City'`: ciudad del usuario o la usuaria;
- `'time'`: la hora exacta en la que se reprodujo la canción;
- `'Day'`: día de la semana.


# Observaciones: <a id='data_review_conclusions'></a>
1. Según la documentación podemos entender que tenemos el momento en el que un usuario reprodujo una canción en un día de la semana
2. Se entiende la información acerca de la canción, su artista y su género 
3. La hipótesis solicita si difiere en cuanto al día de la semana y la ciudad , y tenemos documentado el día de la semana que se escuchó y la ciudad en la que se escuchó, así que es posible responder a la pregunta 
4. Sin embargo, si se pretende entender en cuanto a fecha, no es posible porque no se cuenta con la fecha en la que se escuchó 
5. No se sabe durante cuánto tiempo escuchó esa misma canción
6. En las columnas de 'Track', 'artist' y 'genre' tenemos valores ausentes
7. A primera vista no parece haber valores duplicados, sin embargo es muy probable que tendremos falsos duplicados en los nombres de usuario, ya que la información esta guardada por cada canción que escucharon. 
8. Debido a los nombres largos de canciones y artistas, se escriben '...'

[Volver a Contenidos](#back)

# Etapa 2. Preprocesamiento de datos <a id='data_preprocessing'></a>

El objetivo es preparar los datos para que sean analizados.


# 2.1 Estilo del encabezado <a id='header_style'></a>


In [5]:
# Muestra los nombres de las columnas
print(df.columns)

Index(['  userID', 'Track', 'artist', 'genre', '  City  ', 'time', 'Day'], dtype='object')


In [6]:
#Cambiamos los nombres de los encabezados poniendo todo en minúsculas
new_col_names = []
for old_name in df.columns:
    name_lowered = old_name.lower()
    new_col_names.append(name_lowered)
df.columns = new_col_names
print(df.columns)

Index(['  userid', 'track', 'artist', 'genre', '  city  ', 'time', 'day'], dtype='object')


In [7]:
# Eliminamos los espacios en los nombres de los encabezados
new_col_name1 = []
for old_name in df.columns:
    name_stripped = old_name.strip()
    new_col_name1.append(name_stripped)
df.columns = new_col_name1
print(df.columns)

Index(['userid', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')


In [8]:
# Cambiar el nombre de la columna "userid"
column_new = {'userid': 'user_id'}
df = df.rename(columns = column_new)
print(df.columns)

Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')


Comprobamos el resultado. 

In [9]:
# Comprobar el resultado: la lista de encabezados
print(df.columns)

Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')


[Volver a Contenidos](#back)

# 2.2 Valores ausentes <a id='missing_values'></a>


In [10]:
# Calcular el número de valores ausentes
print(df.isna().sum())

user_id       0
track      1343
artist     7567
genre      1198
city          0
time          0
day           0
dtype: int64


Reemplazaremos los valores ausentes en las columnas `'track'`, `'artist'` y `'genre'` con el string `'unknown'`.

In [11]:
# Bucle en los encabezados reemplazando los valores ausentes con 'unknown'
columns_to_replace = ['track', 'artist', 'genre']
for unknown_value in columns_to_replace:
    df[unknown_value].fillna('unknown', inplace=True)

Comprobamos el resultado.

In [12]:
# Contar valores ausentes
print(df.isna().sum())

user_id    0
track      0
artist     0
genre      0
city       0
time       0
day        0
dtype: int64


[Volver a Contenidos](#back)

# 2.3 Duplicados <a id='duplicates'></a>


In [13]:
# Contar duplicados explícitos
print(df.duplicated().sum())

3826


In [14]:
# Eliminar duplicados explícitos
df = df.drop_duplicates()

Comprobamos el resultado.

In [15]:
# Comprobar de nuevo si hay duplicados
print(df.duplicated().sum())

0


Ahora queremos deshacernos de los duplicados implícitos en la columna `genre`. Por ejemplo, el nombre de un género se puede escribir de varias formas. Dichos errores también pueden afectar al resultado.

In [16]:
# Inspeccionar los nombres de géneros únicos
df = df.sort_values(by='genre')
print(df['genre'].unique())

['acid' 'acoustic' 'action' 'adult' 'africa' 'afrikaans' 'alternative'
 'ambient' 'americana' 'animated' 'anime' 'arabesk' 'arabic' 'arena'
 'argentinetango' 'art' 'audiobook' 'avantgarde' 'axé' 'baile' 'balkan'
 'beats' 'bigroom' 'black' 'bluegrass' 'blues' 'bollywood' 'bossa'
 'brazilian' 'breakbeat' 'breaks' 'broadway' 'cantautori' 'cantopop'
 'canzone' 'caribbean' 'caucasian' 'celtic' 'chamber' 'children' 'chill'
 'chinese' 'choral' 'christian' 'christmas' 'classical' 'classicmetal'
 'club' 'colombian' 'comedy' 'conjazz' 'contemporary' 'country' 'cuban'
 'dance' 'dancehall' 'dancepop' 'dark' 'death' 'deep' 'deutschrock'
 'deutschspr' 'dirty' 'disco' 'dnb' 'documentary' 'downbeat' 'downtempo'
 'drum' 'dub' 'dubstep' 'eastern' 'easy' 'electronic' 'electropop' 'emo'
 'entehno' 'epicmetal' 'estrada' 'ethnic' 'eurofolk' 'european'
 'experimental' 'extrememetal' 'fado' 'film' 'fitness' 'flamenco' 'folk'
 'folklore' 'folkmetal' 'folkrock' 'folktronica' 'forró' 'frankreich'
 'französisch' 

In [17]:
# Función para reemplazar duplicados implícitos
def replace_wrong_genres(df,column,wrong_values, correct_value):
    for wrong_value in wrong_values:
        df[column] = df[column].replace(wrong_value, correct_value)
    return df
wrong_genres = ['hip','hop','hip-hop']
correct_genre = 'hiphop'     

In [18]:
# Eliminar duplicados implícitos
df = replace_wrong_genres(df,'genre',wrong_genres,correct_genre) 

Comprobamos el resultado.

In [19]:
# Comprobación de duplicados implícitos
print(df['genre'].unique())

['acid' 'acoustic' 'action' 'adult' 'africa' 'afrikaans' 'alternative'
 'ambient' 'americana' 'animated' 'anime' 'arabesk' 'arabic' 'arena'
 'argentinetango' 'art' 'audiobook' 'avantgarde' 'axé' 'baile' 'balkan'
 'beats' 'bigroom' 'black' 'bluegrass' 'blues' 'bollywood' 'bossa'
 'brazilian' 'breakbeat' 'breaks' 'broadway' 'cantautori' 'cantopop'
 'canzone' 'caribbean' 'caucasian' 'celtic' 'chamber' 'children' 'chill'
 'chinese' 'choral' 'christian' 'christmas' 'classical' 'classicmetal'
 'club' 'colombian' 'comedy' 'conjazz' 'contemporary' 'country' 'cuban'
 'dance' 'dancehall' 'dancepop' 'dark' 'death' 'deep' 'deutschrock'
 'deutschspr' 'dirty' 'disco' 'dnb' 'documentary' 'downbeat' 'downtempo'
 'drum' 'dub' 'dubstep' 'eastern' 'easy' 'electronic' 'electropop' 'emo'
 'entehno' 'epicmetal' 'estrada' 'ethnic' 'eurofolk' 'european'
 'experimental' 'extrememetal' 'fado' 'film' 'fitness' 'flamenco' 'folk'
 'folklore' 'folkmetal' 'folkrock' 'folktronica' 'forró' 'frankreich'
 'französisch' 

[Volver a Contenidos](#back)

# 2.4 Tus observaciones <a id='data_preprocessing_conclusions'></a>


1. Es útil eliminar todas las filas en las cuales están completamente duplicadas, para después trabajar en los duplicados menos evidentes. 
2. Fue necesario ordenar de forma alfabetica para que fuese más visible si había nombres de género mal escritos, para lo que se usó el método `sort_values()`. 
3. Con la ayuda de una función podemos reemplazar los valores sin necesidad de ir uno por uno, así si se tuvieran mas errores, solo se deben de crear las listas con esos valores. 
4. Sin embargo, aun sería necesario verificar si por ejemplo los valores 'nu','vi','ïîï' son géneros reales o de igual forma son errores.  

[Volver a Contenidos](#back)

# Etapa 3. Prueba de hipótesis <a id='hypothesis'></a>

# 3.1 Hipótesis: comparar el comportamiento del usuario o la usuaria en las dos ciudades <a id='activity'></a>

La hipótesis afirma que existen diferencias en la forma en que los usuarios y las usuarias de Springfield y Shelbyville consumen música. Para comprobar esto, usamos los datos de tres días de la semana: lunes, miércoles y viernes.

* Agrupamos a los usuarios y las usuarias por ciudad.
* Comparamos el número de canciones que cada grupo reprodujo el lunes, el miércoles y el viernes.


In [20]:
# Contar las canciones reproducidas en cada ciudad
city_reproductions = df.groupby('city')['track'].count()
print(city_reproductions)

city
Shelbyville    18512
Springfield    42741
Name: track, dtype: int64


`En la ciudad de Springfield se reproducen más del doble de canciones que en Shelbyville.`

In [21]:
# Calcular las canciones reproducidas en cada uno de los tres días
day_reproductions = df.groupby('day')['track'].count()
print(day_reproductions)

day
Friday       21840
Monday       21354
Wednesday    18059
Name: track, dtype: int64


`En los días viernes se reprodujeron más canciones, asumiendo que es por el inicio del fin de semana, siguiendo el día lunes y por último el miércoles.`

Ahora creamos una función que pueda contar entradas según ambos criterios simultáneamente.

In [22]:
# Declara la función number_tracks() con dos parámetros: day= y city=.
def number_tracks(day, city):
    filtered_value = df[df['day'] == day]
    filtered_value = filtered_value[filtered_value['city'] == city]
    filtered_value = filtered_value['user_id'].count()
    return filtered_value
    
    # Almacena las filas del DataFrame donde el valor en la columna 'day' es igual al parámetro day=
    
    # Filtra las filas donde el valor en la columna 'city' es igual al parámetro city=

    # Extrae la columna 'user_id' de la tabla filtrada y aplica el método count()

    # Devolve el número de valores de la columna 'user_id'    


Llamamos a `number_tracks()` seis veces, cambiando los valores de los parámetros para que recuperes los datos de ambas ciudades para cada uno de los tres días.

In [23]:
# El número de canciones reproducidas en Springfield el lunes
monday_springfield = number_tracks('Monday','Springfield')
print(monday_springfield)

15740


In [24]:
# El número de canciones reproducidas en Shelbyville el lunes
monday_shelbyville = number_tracks('Monday', 'Shelbyville')
print(monday_shelbyville)

5614


In [25]:
# El número de canciones reproducidas en Springfield el miércoles
wednesday_springfield = number_tracks('Wednesday','Springfield')
print(wednesday_springfield)

11056


In [26]:
# El número de canciones reproducidas en Shelbyville el miércoles
wednesday_shelbyville = number_tracks('Wednesday','Shelbyville')
print(wednesday_shelbyville)

7003


In [27]:
# El número de canciones reproducidas en Springfield el viernes
friday_springfield = number_tracks('Friday','Springfield')
print(friday_springfield)

15945


In [28]:
# El número de canciones reproducidas en Shelbyville el viernes
friday_shelbyville = number_tracks('Friday','Shelbyville')
print(friday_shelbyville)

5895


**Conclusiones**

`Nuestra hipótesis indica que la actividad difiere según el día de la semana y según la ciudad por lo que es aceptada por completo, ya que cada día es diferente en las diferentes ciudades, en el caso de la ciudad de Springfield, podemos afirmar que los días viernes hay más reproducciones, sin embargo en la ciudad de Shelbyville, el día con mayor reproducciones fue el día miércoles.`

[Volver a Contenidos](#back)

# Conclusiones <a id='end'></a>

Para resumir nuestros datos en una forma más sencilla de leer:
1. La ciudad con más número de reproducciones fue Springfield.
2. El orden acendente de mayor reproducciones de la ciudad de Springfield es Viernes, Lunes, Miércoles.
3. El orden ascendente de mayor reproducciones de la ciudad de Shelbyville es Miércoles, Viernes y Lunes. 

Cuando obtuvimos los resultados por día, se supuso que era por ser un día cercano al fin de semana, sin embargo en el caso de Shelbyville, no se respeta esta suposición, por lo que este análisis nos hace cuestionar en qué influye ese cambio. 

Además, podemos hacer otras hipótesis con respecto a los géneros y si hay alguna diferencia en cuanto a las ciudades y los días de la semana. 

De igual forma en qué influye la cantidad de reproducciones entre las ciudades.

Por las preguntas anteriores, se necesitarían realizar nuevas hipótesis y nuevos análisis.


[Volver a Contenidos](#back)