# Yandex.Music

# Contents <a id='back'></a>

* [Introducción](#intro)
* [Etapa 1. Descripción de los datos](#data_review)
    * [Conclusions](#data_review_conclusions)
* [Etapa 2. Data preprocessing](#data_preprocessing)
    * [2.1 Estilo del encabezado](#header_style)
    * [2.2 Valores ausentes](#missing_values)
    * [2.3 Duplicados](#duplicates)
    * [2.4 Conclusiones](#data_preprocessing_conclusions)
* [Etapa 3. Prueba de hipótesis](#hypotheses)
    * [3.1 Hipótesis 1: comparar el comportamiento del usuario en las dos ciudades](#activity)
    * [3.2 Hipótesis 2: música al principio y al final de la semana](#week)
    * [3.3 Hipótesis 3: preferencias de género en Springfield y Shelbyville](#genre)
* [Conclusiones](#end)

## Introducción <a id='intro'></a>
En este proyecto, se compararan las preferencias musicales de las ciudades de Springfield y Shelbyville. Se estudiaran datos reales de Yandex.Music para probar las hipótesis de abajo y comparar el comportamiento del usuario de esas dos ciudades.

### Objetivo: 
Prueba tres hipótesis: 
1. La actividad de los usuarios difiere según el día de la semana y dependiendo de la ciudad. 
2. Los lunes por la mañana, los habitantes de Springfield y Shelbyville escuchan diferentes géneros. Lo mismo ocurre con los viernes por la noche. 
3. Los oyentes de Springfield y Shelbyville tienen preferencias distintas. En Springfield prefieren el pop mientras que en Shelbyville hay más aficionados al rap.

### Etapas 
Los datos del comportamiento del usuario se almacenan en el archivo `/datasets/music_project_en.csv`. No hay ninguna información sobre la calidad de los datos así que necesitarás examinarlos antes de probar las hipótesis. 

Primero, evaluaremos la calidad de los datos y veremos si los problemas son significativos. Entonces, durante el preprocesamiento de datos, tomaremos en cuenta los problemas más críticos.
 
El proyecto consistirá en tres etapas:
 1. Descripción de los datos
 2. Preprocesamiento de datos
 3. Prueba de hipótesis
 
[Volver a Contenidos](#back)

## Etapa 1. Descripción de los datos <a id='data_review'></a>


In [2]:
# importando pandas
import pandas as pd

Lee el archivo `music_project_en.csv` de la carpeta `/datasets/` y guárdalo en la variable `df`:

In [5]:
# leyendo el archivo y almacenándolo en df
try:
    df = pd.read_csv('/datasets/music_project_en.csv')
except:
    df = pd.read_csv('C:/Users/jfcom/Documents/SPRINT1_Phyton_basico/music_project/datasets/music_project_en.csv')
    
df.describe()

Unnamed: 0,userID,Track,artist,genre,City,time,Day
count,65079,63736,57512,63881,65079,65079,65079
unique,41748,39666,37806,268,2,20392,3
top,A8AE9169,Brand,Kartvelli,pop,Springfield,08:14:07,Friday
freq,76,136,136,8850,45360,14,23149


Imprime las 10 primeras filas de la tabla:

In [None]:
# obteniendo las 10 primeras filas de la tabla df
df.head(10)

Obtener la información general sobre la tabla con un comando:

In [None]:
# obteniendo información general sobre los datos en df
df.info()

La tabla contiene siete columnas. Todas almacenan el mismo tipo de datos: objeto.

De acuerdo con la documentación:
- `'userID'` — identificador del usuario
- `'Track'` — título de la pista
- `'artist'` — nombre del artista
- `'genre'` — género
- `'City'` — ciudad del usuario
- `'time'` — el periodo de tiempo exacto en que se reprodujo la pista
- `'Day'` — día de la semana

Podemos ver tres problemas con el estilo en los nombres de las columnas:
1. Algunos nombres están en mayúsculas, otros en minúsculas.
2. Hay algunos espacios en algunos nombres.

El número de valores de las columnas es diferente. Esto significa que los datos contienen valores ausentes.


3. Hay un nombre que son dos palabras hay que separarlos con un "_"

### Conclusiones <a id='data_review_conclusions'></a> 

Cada fila de la tabla almacena datos de la pista que fue reproducida. Algunas columnas describen la pista en sí: su título, el artista y el género. El resto transmite la información del usuario: la ciudad de la que viene, el tiempo que ha reproducido la pista. 

Está claro que los datos son suficientes para probar la hipótesis. Sin embargo, hay valores ausentes.

Para continuar, necesitamos preprocesar los datos.

[Volver a Contenidos](#back)

## Etapa 2. Preprocesamiento de datos <a id='data_preprocessing'></a>
Corrige el formato en los encabezados de las columnas y ocúpate de los valores ausentes. Después, comprueba si hay duplicados en los datos.

### Estilo del encabezado <a id='header_style'></a>
Imprime el encabezado de la columna:

In [None]:
# la lista de los nombres de las columnas en la tabla df
df.columns

Cambia los nombres de las columnas de acuerdo con las reglas del buen estilo:
* Si el nombre tiene varias palabras, utiliza snake_case
* Todos los caracteres deben ser minúsculas
* Elimina los espacios

In [None]:
# Renombrando columnas
df = df.rename(
    columns={
        '  userID' : 'user_id',
        'Track' : 'track',
        '  City  ' : 'city',
        'Day' : 'day'
    }
)

Comprueba el resultado. Imprime los nombres de las columnas una vez más:

In [None]:
# comprobando el resultado: la lista de los nombres de las columnas
df.columns

[Volver a Contenidos](#back)

### Valores ausentes <a id='missing_values'></a>
Primero encuentraremos el número de valores ausentes en la tabla. Para ello, utilizamos dos métodos pandas:

In [None]:
# calculando valores ausentes
df.isnull().sum()

No todos los valores ausentes afectan a la investigación. Por ejemplo, los valores ausentes en la pista y artista no son cruciales. Simplemente puedes reemplazarlos por marcadores claros.

Pero los valores ausentes en `'genre'` pueden afectar la comparación entre las preferencias musicales de Springfield y Shelbyville. En la vida real, sería útil saber las razones por las cuales hay datos ausentes e intentar recuperarlos. Pero no tenemos esa oportunidad en este proyecto. Así que tendrás que:
* Rellenar esos valores ausentes con marcadores
* Evaluar cuánto podrían afectar los valores ausentes a tus cómputos.

Reemplazar los valores ausentes en `'track'`, `'artist'`, y `'genre'` con la string `'unknown'`. Para ello, crea la lista `columns_to_replace`, recórrela con un bucle `for` y reemplaza los valores ausentes en cada una de las columnas:

In [None]:
# recorriendo los nombres de las columnas y reemplazando los valores ausentes con 'unknown'
columns_to_replace = ['track','artist','genre']

for index in columns_to_replace:
    df[index] = df[index].fillna('unkown')
    
    


Asegúrate de que la tabla no contiene más valores ausentes. Cuenta de nuevo los valores ausentes.

In [None]:
# contando valores ausentes
df.isna().sum()

[Volver a Contenidos](#back)

### Duplicados <a id='duplicates'></a>
Encuentra el número de duplicados obvios en la tabla utilizando un comando:

In [None]:
# contando duplicado obvios
df.duplicated().sum()

Llama al método `pandas` para deshacerte de los duplicados obvios:

In [None]:
# eliminando duplicados obvios
df.drop_duplicates(inplace= True)
df.reset_index(drop=True)

Contamos los duplicados obvios una vez más para asegurarnos de que todos han sido eliminados:

In [None]:
# comprobando duplicados
df.duplicated().sum()

Ahora  eliminaremos los duplicados implícitos en la columna genre. Por ejemplo, el nombre de un género se puede escribir de varias formas. Dichos errores también pueden afectar a resultado.

Imprimimos una lista de nombres únicos de géneros, ordenados en orden alfabético. 
* Recupera la deseada columna DataFrame 
* Aplícale un método de orden
* Para la columna ordenada, llama al método que te devolverá todos los valores de columna únicos

In [None]:
# inspeccionando los nombres de géneros únicos

#recupero columna, ordeno, y busc valores únicos
df['genre'].sort_values().unique()

Buscamos en la lista para encontrar duplicados implícitos del género `hiphop`. Estos pueden ser nombres escritos incorrectamente o nombres alternativos para el mismo género.

Verás los siguientes duplicados implícitos:
* `hip`
* `hop`
* `hip-hop`

Para deshacernos de ellos, declaramos la función `replace_wrong_genres()` con dos parámetros: 
* `wrong_genres=` — la lista de duplicados
* `correct_genre=` — la string con el valor correcto

La función debería corregir los nombres en la columna `'genre'` de la tabla `df`, es decir, remplazamos cada valor de la lista `wrong_genres` con el valor en `correct_genre`.

In [None]:
# función para reemplazar duplicados implícitos
def replace_wrong_genres(wrong_genres,correct_genre):
    for wrong_genre in wrong_genres:
        df['genre'] = df['genre'].replace(wrong_genre,correct_genre)
        
        

Llamamos a `replace_wrong_genres()` y lepasamos argumentos para que retire los duplicados implícitos (`hip`, `hop` y `hip-hop`) y los reemplace por `hiphop`:

In [None]:
# eliminando duplicados implícitos
wrong_names_genres = ['hip', 'hop', 'hip-hop']
replace_name_genre = 'hiphop'

replace_wrong_genres(wrong_names_genres, replace_name_genre)

Nos aseguramos que los nombres duplicados han sido eliminados. Imprimimos la lista de valores únicos de la columna `'genre'`:

In [None]:
# revisando en busca de duplicados implícitos
df['genre'].sort_values().unique()


[Volver a Contenidos](#back)

### Conclusiones <a id='data_preprocessing_conclusions'></a>
Detectamos tres problemas con los datos:

- Estilos de encabezados incorrectos
- Valores ausentes
- Duplicados obvios e implícitos

Los encabezados han sido eliminados para conseguir que el procesamiento de la tabla sea más sencillo.

Todos los valores ausentes han sido reemplazados por `'unknown'`. Pero todavía tenemos que ver si los valores ausentes en `'genre'` afectan a nuestros cálculos.

La ausencia de duplicados hará que los resultados sean mas precisos y fáciles de entender.

Ahora ya podemos continuar probando las hipótesis. 

[Volver a Contenidos](#back)

## Etapa 3. Prueba de hipótesis <a id='hypotheses'></a>

### Hipótesis 1: comparar el comportamiento del usuario en las dos ciudades <a id='activity'></a>

De acuerdo con la primera hipótesis, los usuarios de Springfield y Shelbyville escuchan música de forma distinta. Comprueba esto utilizando los datos de tres días de la semana: lunes, miércoles y viernes.

* Divide a los usuarios en grupos por ciudad.
* Compara cuántas pistas reprodujo cada grupo el lunes, el miércoles y el viernes.


Evaluamos la actividad del usuario en cada ciudad. Agrupamos los datos por ciudad y encuentramos el número de canciones reproducidas en cada grupo.

In [None]:
# contando las pistas reproducidas en cada ciudad

df.groupby('city')['track'].count()


Springfield ha reproducido más pistas que Shelbyville. Pero eso no implica que los ciudadanos de Springfield escuchen música más a menudo. Esta ciudad es simplemente más grande y hay más usuarios.

Ahora agrupamos los datos por día de la semana y encuentra el número de pistas reproducidas el lunes, miércoles y viernes.

In [None]:
# calculando las pistas reproducidas en cada uno de los tres días
df.groupby('day')['track'].count()

El miércoles fue el día más silencioso de todos. Pero si consideramos las dos ciudades por separado podríamos llegar a una conclusión diferente.

Ya has visto cómo funciona el agrupar por ciudad o día. Ahora escribe la función que agrupará ambos.

Crea la función `number_tracks()` para calcular el número de canciones reproducidas en un determinado día y ciudad. Requerirá dos parámetros:
* día de la semana
* nombre de la ciudad

En la función, utiliza una variable para almacenar las filas de la tabla original, donde:
  * el valor de la columna `'day'` es igual al parámetro de día
  * el valor de la columna `'city'` es igual al parámetro de ciudad

Aplica un filtrado consecutivo con indexación lógica.

Después, calculamos los valores de la columna `'user_id'` en la tabla resultante. Almacenamos el resultado en la nueva variable. Recuperamos esta variable de la función.

In [None]:
# Función de recuperación

def number_tracks(day, city):
   
    track_list = df[(df['day'] == day) & (df['city'] == city)]
    track_list_count = track_list['user_id'].count()
    
    return track_list_count


Llamamod a `number_tracks()` seis veces, cambiando los valores de los parámetros, para que recuperemos los datos de ambas ciudades para cada uno de los tres días.

In [None]:
# el número de canciones reproducidas en Springfield el lunes
number_tracks('Monday', 'Springfield')

In [None]:
# el número de canciones reproducidas en Shelbyville el lunes
number_tracks('Monday', 'Shelbyville')

In [None]:
# el número de canciones reproducidas en Springfield el miércoles
number_tracks('Wednesday', 'Springfield')

In [None]:
# el número de canciones reproducidas en Shelbyville el miércoles
number_tracks('Wednesday', 'Shelbyville')

In [None]:
# el número de canciones reproducidas en Springfield el viernes
number_tracks('Friday', 'Springfield')

In [None]:
# el número de canciones reproducidas en Shelbyville el viernes
number_tracks('Friday', 'Shelbyville')

Utilizamos `pd.DataFrame` para crear una tabla, donde
* Los nombres de las columnas son: `['city', 'monday', 'wednesday', 'friday']`
* Los datos son los resultados que conseguiste de `number_tracks()`

In [None]:
data_table =[
    ['Springfield', 15740, 11056, 15945],
    ['Shelbyville', 5614, 7003, 5895]
]

columns_table = ['city', 'monday', 'wednesday', 'friday']
df_number_tracks=pd.DataFrame(data = data_table , columns = columns_table)

In [None]:
# tabla con los resultados
print(df_number_tracks)

**Conclusiones**

Los datos revelan las diferencias en el comportamiento de los usuarios:

- En Springfield, el número de canciones reproducidas alcanzan el punto máximo los lunes y viernes mientras que los miércoles hay un descenso de la actividad.
- En Shelbyville, al contario, los usuarios escuchan más música los miércoles. La actividad de los usuarios los lunes y viernes es menor.

Así que la primera hipótesis parece ser correcta.

[Volver a Contenidos](#back)

### Hipótesis 2: música al principio y al final de la semana <a id='week'></a>

De acuerdo con la segunda hipótesis, los lunes por la mañana y los viernes por la noche los ciudadanos de Springfield escuchan géneros que difieren de aquellos que los usuarios de Shelbyville disfrutan.

Obtenemos las tablas 
* Para Springfield — `spr_general`
* Para Shelbyville — `shel_general`

In [None]:
# obteniendo la tabla spr_general de las filas de df, 
# donde los valores en la columna 'city' es 'Springfield'
spr_general = df[df['city'] == 'Springfield']


In [None]:
# obteniendo shel_general de las filas df,
# donde el valor de la columna 'city' es 'Shelbyville'
shel_general = df[df['city'] == 'Shelbyville']


Hacemos una la función genre_weekday() con cuatro parámetros:
* Una tabla para los datos (`df`)
* El día de la semana (`day`)
* La marca de fecha y hora en formato 'hh:mm' (`time1`)
* La marca de fecha y hora en formato 'hh:mm' (`time2`)

La función debería devolver información de los 15 géneros más populares de un día determinado en un período entre dos marcas de fecha y hora.

In [None]:

def genre_weekday(df, day, time1, time2):

    genre_df = df[(df['day'] == day) & (df['time'] < time2) & (df['time'] > time1)]
   
    # agrupamos el DataFrame filtrado por la columna con los nombres de los géneros, toma la columna de género, y encuentra el número de filas por cada género con el método count()
    genre_df_grouped = genre_df.groupby('genre')['genre'].count()
    print(type(genre_df_grouped))
    # ordenaremos el resultado en orden descendente (por lo que los géneros más populares aparecerán primero en el objeto Series)
    genre_df_sorted =  genre_df_grouped.sort_values( ascending = False)

    # devolveremos el objeto Series que almacena los 15 géneros más populares en un día determinado en un periodo de tiempo determinado
    return genre_df_sorted[:15]


Comparamos los resultados de la función `genre_weekday()`para Springfield y Shelbyville el lunes por la mañana (de 7 a 11) y el viernes por la tarde (de 17:00 a 23:00):

In [None]:
# llamando a la función para el lunes por la mañana en Springfield (utilizando spr_general en vez de la tabla df)

genre_weekday(spr_general,'Monday',"07:00","11:00")

In [None]:
# llamando a la función para el lunes por la mañana en Shelbyville (utilizando shel_general en vez de la tabla df)
genre_weekday(shel_general,'Monday',"07:00","11:00")

In [None]:
# llamando a la función para el viernes por la tarde en Springfield
genre_weekday(spr_general,'Friday',"17:00","23:00")

In [None]:
# llamando a la función para el viernes por la tarde en Shelbyville
genre_weekday(shel_general,'Friday',"17:00","23:00")

**Conclusión**

Habiendo comparado los 15 géneros más populares del lunes por la mañana podemos concluir lo siguiente:

1. Los usuarios de Springfield y Shelbyville escuchan música similar. Los cinco géneros más populares son los mismos, solo rock y electrónica han intercambiado posiciones.

2. En Springfield el número de valores ausentes resultaron ser tan altos que el valor `'unknown'` llegó al décimo. Esto significa que los valores ausentes forman una parte considerable de los datos, lo que podría ser la base de la cuestión sobre la fiabilidad de nuestras conclusiones.

Para el viernes por la tarde, la situación es similar. Los géneros individuales varían algo pero, en general, los 15 más populares son parecidos en las dos ciudades.

De esta forma, la segunda hipótesis ha sido parcialmente demostrada:
* Los usuarios escuchan música similar al principio y al final de la semana.
* No hay una gran diferencia entre Springfield y Shelbyville. En ambas ciudades, el pop es el género más popular.

Sin embargo, el número de valores ausentes hace este resultado un tanto cuestionable. En Springfield, hay tantos que afectan a nuestros 15 más populares. De no faltarnos esos valores, las cosas podrían parecer diferentes.

[Volver a Contenidos](#back)

### Hipótesis 3: preferencias de género en Springfield y Shelbyville <a id='genre'></a>

Hipótesis: Shelbyville ama la música rap. A los ciudadanos de Springfield les gusta más el pop.

Agrupamos la tabla `spr_general` por género y encuentra el número de canciones reproducidas de cada género con el método `count()`. Después, ordenamos el resultado en orden descendente y lo guardamos en `spr_genres`.

In [None]:
# Creación de tabla
spr_genres = spr_general.groupby('genre')['genre'].count().sort_values(ascending = False)


Muestra de las 10 primeras filas de `spr_genres`:

In [None]:
# imprimiendo las 10 primeras filas de spr_genres
spr_genres[:10]

Ahora haremos lo mismo con los datos de Shelbyville.

Agrupamos la tabla `shel_general` por género y encuentra el número de canciones reproducidas de cada género. Después, ordenamos el resultado en orden descendente y lo guardamos en la tabla `shel_genres`:


In [None]:
# Creación de la tabla
shel_genres = shel_general.groupby('genre')['genre'].count().sort_values(ascending = False)

Imprimimos las 10 primeras filas de `shel_genres`:

In [None]:
# imprimiendo las 10 primeras filas de 
shel_genres[:10]

**Conclusión**

La hipótesis ha sido parcialmente demostrada:
* La música pop es el género más popular en Springfield, tal como se esperaba.
* Sin embargo, la música pop ha resultado ser igual de popular en Springfield que en Shelbyville y el rap no estaba entre los 5 más populares en ninguna de las ciudades.


[Volver a Contenidos](#back)

# Conclusiones <a id='end'></a>

Hemos probado las siguientes tres hipótesis:

1. La actividad de los usuarios difiere dependiendo del día de la semana y de las distintas ciudades. 
2. Los lunes por la mañana los residentes de Springfield y Shelbyville escuchan géneros distintos. Lo mismo ocurre con los viernes por la noche.
3. Los oyentes de Springfield y Shelbyville tienen distintas preferencias. En ambas ciudades, Springfield y Shelbyville, se prefiere el pop.

Tras analizar los datos, concluimos:

1. La actividad del usuario en Springfield y Shelbyville depende del día de la semana aunque las ciudades varían de diferentes formas. 

La primera hipótesis ha sido aceptada completamente.

2. Las preferencias musicales no varían significativamente en el transcurso de la semana en Springfield y Shelbyville. Podemos observar pequeñas diferencias en el orden los lunes, pero:
* En Springfield y Shelbyville la gente lo que más escucha es la música pop.

Así que no podemos aceptar esta hipótesis. También debemos tener en cuenta que el resultado podría haber sido diferente si no fuera por los valores ausentes.

3. Resulta que las preferencias musicales de los usuarios de Springfield y Shelbyville son bastante parecidas.

La tercera hipótesis es rechazada. Si hay alguna diferencia en las preferencias no se puede observar en los datos.

[Volver a Contenidos](#back)