# Yandex.Music

## Índice <a class='anchor' id='back'></a>

* [Introducción](#intro)
* [Etapa 1. Descripción de los datos](#data_review)
    * [1.1. Conclusiones](#data_review_conclusions)
* [Etapa 2. Preprocesamiento de datos](#data_preprocessing)
    * [2.1 Estilo del encabezado](#header_style)
    * [2.2 Valores ausentes](#missing_values)
    * [2.3 Duplicados](#duplicates)
    * [2.4 Conclusiones](#data_preprocessing_conclusions)
* [Etapa 3. Prueba de hipótesis](#hypotheses)
    * [3.1 Hipótesis 1: comparar el comportamiento del usuario en las dos ciudades](#activity)
    * [3.2 Hipótesis 2: música al principio y al final de la semana](#week)
    * [3.3 Hipótesis 3: preferencias de género en Springfield y Shelbyville](#genre)
* [Conclusiones.](#end)

## Introducción <a class='anchor' id='intro'></a>

En este proyecto, se compararán las preferencias musicales de las ciudades de Springfield y Shelbyville. Se estudiarán datos de Yandex.Music para probar las siguientes hipótesis y comparar el comportamiento del usuario de las dos ciudades mencionadas.

**Hipótesis** 
 
1. La actividad de los usuarios difiere según el día de la semana y la ciudad. 
2. Los lunes por la mañana, los habitantes de Springfield y Shelbyville escuchan diferentes géneros. Lo mismo ocurre con los viernes por la noche.
3. Los oyentes de Springfield y Shelbyville tienen preferencias distintas. En Springfield prefieren el pop mientras que en Shelbyville hay más aficionados al rap.

**Etapas**
Los datos del comportamiento del usuario se almacenan en el archivo `/datasets/music_project_en.csv`. No hay ninguna información sobre la calidad de los datos así que se examinarán antes de probar las hipótesis. 

Primero, se evaluará la calidad de los datos y si los problemas son significativos. Entonces, durante el preprocesamiento de datos, se tomarán en cuenta los problemas más críticos.
 
El proyecto consistirá en tres etapas:
 1. Descripción de los datos
 2. Preprocesamiento de datos
 3. Prueba de hipótesis
 
[Volver a Contenidos](#back)

## Etapa 1. Descripción de los datos <a class='anchor' id='data_review'></a>

Se importa la librería `pandas`.

In [2]:
# importando pandas
import pandas as pd

Se lee el archivo `music_project_en.csv` de la carpeta `/datasets/` y se guarda en la variable `df`.

In [3]:
# leyendo el archivo y almacenándolo en df
try:
    df = pd.read_csv('music_project_en.csv')
except:
    df = pd.read_csv('/datasets/music_project_en.csv')
df.describe()

Unnamed: 0,userID,Track,artist,genre,City,time,Day
count,65079,63736,57512,63881,65079,65079,65079
unique,41748,39666,37806,268,2,20392,3
top,A8AE9169,Brand,Kartvelli,pop,Springfield,08:14:07,Friday
freq,76,136,136,8850,45360,14,23149


Se imprimen las 10 primeras filas de la tabla.

In [3]:
# obteniendo las 10 primeras filas de la tabla df
print(df.head(10))

     userID                        Track            artist   genre  \
0  FFB692EC            Kamigata To Boots  The Mass Missile    rock   
1  55204538  Delayed Because of Accident  Andreas Rönnberg    rock   
2    20EC38            Funiculì funiculà       Mario Lanza     pop   
3  A3DD03C9        Dragons in the Sunset        Fire + Ice    folk   
4  E2DC1FAE                  Soul People        Space Echo   dance   
5  842029A1                       Chains          Obladaet  rusrap   
6  4CB90AA5                         True      Roman Messer   dance   
7  F03E1C1F             Feeling This Way   Polina Griffith   dance   
8  8FA1D3BE                     L’estate       Julia Dalia  ruspop   
9  E772D5C0                    Pessimist               NaN   dance   

        City        time        Day  
0  Shelbyville  20:28:33  Wednesday  
1  Springfield  14:07:09     Friday  
2  Shelbyville  20:58:07  Wednesday  
3  Shelbyville  08:37:09     Monday  
4  Springfield  08:34:34     Monday  
5

Se obtiene la información general de la tabla.

In [4]:
# obteniendo información general sobre los datos en df
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65079 entries, 0 to 65078
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0     userID  65079 non-null  object
 1   Track     63736 non-null  object
 2   artist    57512 non-null  object
 3   genre     63881 non-null  object
 4     City    65079 non-null  object
 5   time      65079 non-null  object
 6   Day       65079 non-null  object
dtypes: object(7)
memory usage: 3.5+ MB


La tabla contiene siete columnas. Todas almacenan el mismo tipo de datos: objeto.

De acuerdo con la documentación:
- `'userID'` — identificador del usuario
- `'Track'` — título de la pista
- `'artist'` — nombre del artista
- `'genre'` — género
- `'City'` — ciudad del usuario
- `'time'` — el periodo de tiempo exacto en que se reprodujo la pista
- `'Day'` — día de la semana

Existen tres problemas con el estilo en los nombres de las columnas:
1. Algunos nombres están en mayúsculas, otros en minúsculas.
2. Hay algunos espacios en algunos nombres.
3. Si el nombre consta de más de una palabra se debe utilizar snake_case.

El número de valores de las columnas es diferente. Esto significa que los datos contienen valores ausentes.

[Volver a Contenidos](#back)


### 1.1. Conclusiones <a class='anchor' id='data_review_conclusions'></a> 

Cada fila de la tabla almacena datos de la pista que fue reproducida. Algunas columnas describen la pista en sí: su título, el artista y el género. El resto transmite la información del usuario: la ciudad de la que viene, el tiempo que ha reproducido la pista. 

Está claro que los datos son suficientes para probar la hipótesis. Sin embargo, hay valores ausentes.

Para continuar, es necesario preprocesar los datos.

[Volver a Contenidos](#back)

## Etapa 2. Preprocesamiento de datos <a class='anchor' id='data_preprocessing'></a>

Se corrige el formato en los encabezados de las columnas y se tratarán los valores ausentes. Después, se comprobará si hay duplicados en los datos.

### 2.1 Estilo del encabezado <a class='anchor' id='header_style'></a>

Se imprime el encabezado de las columnas.

In [5]:
# la lista de los nombres de las columnas en la tabla df
print(df.columns)

Index(['  userID', 'Track', 'artist', 'genre', '  City  ', 'time', 'Day'], dtype='object')


Se cambiarán los nombres de las columnas de acuerdo con las reglas del buen estilo:
* Si el nombre tiene varias palabras, se utiliza snake_case.
* Todos los caracteres deben ser minúsculas.
* Se eliminan los espacios.

In [6]:
# renombra las columnas
df = df.rename(
    columns = {
        '  userID': 'user_id',
        'Track': 'track',
        '  City  ': 'city',
        'Day': 'day'
    })

Se comprueba el resultado.

In [7]:
# comprobando el resultado: la lista de los nombres de las columnas
print(df.columns)

Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')


[Volver a Contenidos](#back)

### 2.2 Valores ausentes <a class='anchor' id='missing_values'></a>
Se imprime la cantidad de valores ausentes en la tabla.

In [8]:
print(df.isna().sum())

user_id       0
track      1343
artist     7567
genre      1198
city          0
time          0
day           0
dtype: int64


No todos los valores ausentes afectan a la investigación. Por ejemplo, los valores ausentes en `'track'` y `'artist'` no son cruciales. Se pueden reemplazar por marcadores claros.

Pero los valores ausentes en `'genre'` pueden afectar la comparación entre las preferencias musicales de Springfield y Shelbyville.

Se reemplazarán los valores ausentes en `'track'`, `'artist'`, y `'genre'` con la string `'unknown'`.

In [9]:
columns_to_replace = ['track', 'artist', 'genre']
for element in columns_to_replace:
    df[element] = df[element].fillna('unknown')

Se imprimen nuevamente los valores ausentes para comprobar los cambios.

In [10]:
print(df.isna().sum())

user_id    0
track      0
artist     0
genre      0
city       0
time       0
day        0
dtype: int64


[Volver a Contenidos](#back)

### 2.3 Duplicados <a class='anchor' id='duplicates'></a>
Se imprime la cantidad de duplicados obvios (filas duplicadas) en la tabla.

In [11]:
print(df.duplicated().sum())

3826


Se eliminan estas filas duplicadas.

In [12]:
# eliminando duplicados obvios y actualizando el índice sin la columna 'index'
df = df.drop_duplicates().reset_index(drop=True)

Se imprime nuevamente la cantidad de filas duplicadas para comprobar cambios.

In [13]:
print(df.duplicated().sum())

0


Ahora se investigarán los duplicados implícitos en la columna `'genre'`. Por ejemplo, el nombre de un género se puede escribir de varias formas. Dichos errores también pueden afectar a resultado.

In [14]:
# inspeccionando los nombres de géneros únicos ordenados alfabeticamente
print(df['genre'].sort_values().unique())

['acid' 'acoustic' 'action' 'adult' 'africa' 'afrikaans' 'alternative'
 'ambient' 'americana' 'animated' 'anime' 'arabesk' 'arabic' 'arena'
 'argentinetango' 'art' 'audiobook' 'avantgarde' 'axé' 'baile' 'balkan'
 'beats' 'bigroom' 'black' 'bluegrass' 'blues' 'bollywood' 'bossa'
 'brazilian' 'breakbeat' 'breaks' 'broadway' 'cantautori' 'cantopop'
 'canzone' 'caribbean' 'caucasian' 'celtic' 'chamber' 'children' 'chill'
 'chinese' 'choral' 'christian' 'christmas' 'classical' 'classicmetal'
 'club' 'colombian' 'comedy' 'conjazz' 'contemporary' 'country' 'cuban'
 'dance' 'dancehall' 'dancepop' 'dark' 'death' 'deep' 'deutschrock'
 'deutschspr' 'dirty' 'disco' 'dnb' 'documentary' 'downbeat' 'downtempo'
 'drum' 'dub' 'dubstep' 'eastern' 'easy' 'electronic' 'electropop' 'emo'
 'entehno' 'epicmetal' 'estrada' 'ethnic' 'eurofolk' 'european'
 'experimental' 'extrememetal' 'fado' 'film' 'fitness' 'flamenco' 'folk'
 'folklore' 'folkmetal' 'folkrock' 'folktronica' 'forró' 'frankreich'
 'französisch' 

Existen duplicados implícitos del género `hiphop`, los cuales son:

* `hip`
* `hop`
* `hip-hop`

Para eliminarlos se creará la función `replace_wrong_genres()` con dos parámetros:

* `wrong_genres=` — la lista de duplicados
* `correct_genre=` — la string con el valor correcto

La función debería corregir los nombres en la columna `'genre'` de la tabla `df`, es decir, remplaza cada valor de la lista `wrong_genres` con el valor en `correct_genre`.

In [15]:
# función para reemplazar duplicados implícitos
def replace_wrong_genres(wrong_genres, correct_genre):
    for wrong_genre in wrong_genres:
        df['genre'] = df['genre'].replace(wrong_genre, correct_genre)

Se crea la lista con los duplicados ímplicitos y se aplica la función.

In [16]:
# eliminando duplicados implícitos
duplicates_hiphop = ['hip', 'hop', 'hip-hop']
replace_wrong_genres(duplicates_hiphop, 'hiphop')

Se imprimen nuevamente los valores de la columna `'genre'` para comprobar los cambios.

In [17]:
print(df['genre'].sort_values().unique())

['acid' 'acoustic' 'action' 'adult' 'africa' 'afrikaans' 'alternative'
 'ambient' 'americana' 'animated' 'anime' 'arabesk' 'arabic' 'arena'
 'argentinetango' 'art' 'audiobook' 'avantgarde' 'axé' 'baile' 'balkan'
 'beats' 'bigroom' 'black' 'bluegrass' 'blues' 'bollywood' 'bossa'
 'brazilian' 'breakbeat' 'breaks' 'broadway' 'cantautori' 'cantopop'
 'canzone' 'caribbean' 'caucasian' 'celtic' 'chamber' 'children' 'chill'
 'chinese' 'choral' 'christian' 'christmas' 'classical' 'classicmetal'
 'club' 'colombian' 'comedy' 'conjazz' 'contemporary' 'country' 'cuban'
 'dance' 'dancehall' 'dancepop' 'dark' 'death' 'deep' 'deutschrock'
 'deutschspr' 'dirty' 'disco' 'dnb' 'documentary' 'downbeat' 'downtempo'
 'drum' 'dub' 'dubstep' 'eastern' 'easy' 'electronic' 'electropop' 'emo'
 'entehno' 'epicmetal' 'estrada' 'ethnic' 'eurofolk' 'european'
 'experimental' 'extrememetal' 'fado' 'film' 'fitness' 'flamenco' 'folk'
 'folklore' 'folkmetal' 'folkrock' 'folktronica' 'forró' 'frankreich'
 'französisch' 

[Volver a Contenidos](#back)

### 2.4 Conclusiones <a class='anchor' id='data_preprocessing_conclusions'></a>

Existían tres problemas con los datos:

- Estilos de encabezados incorrectos
- Valores ausentes
- Duplicados obvios e implícitos

Los encabezados han sido eliminados para conseguir que el procesamiento de la tabla sea más sencillo.

Todos los valores ausentes han sido reemplazados por `'unknown'`. Pero se debe verificar si los valores ausentes en `'genre'` afectan a los cálculos.

La ausencia de duplicados hará que los resultados sean mas precisos y fáciles de entender.

Se continuará probando las hipótesis. 

[Volver a Contenidos](#back)

## Etapa 3. Prueba de hipótesis <a class='anchor' id='hypotheses'></a>

### 3. 1 Hipótesis 1: comparar el comportamiento del usuario en las dos ciudades <a class='anchor' id='activity'></a>

De acuerdo con la primera hipótesis, los usuarios de Springfield y Shelbyville escuchan música de forma distinta. Se comprobará esto utilizando los datos de tres días de la semana: lunes, miércoles y viernes.

Se agruparán los datos por ciudad para encontrar la cantidad de canciones reproducidas en cada grupo.

In [18]:
# contando las pistas reproducidas en cada ciudad y con una sola columna
print(df.groupby('city')['city'].count())

city
Shelbyville    18512
Springfield    42741
Name: city, dtype: int64


Springfield ha reproducido más pistas que Shelbyville. Pero eso no implica que los ciudadanos de Springfield escuchen música más a menudo. Esta ciudad es simplemente más grande y hay más usuarios.

A continuación se agruparán los datos por día de la semana para encontrar la cantidad de pistas reproducidas el lunes, miércoles y viernes.

In [19]:
# calculando las pistas reproducidas en cada uno de los tres días
print(df.groupby('day')['day'].count())

day
Friday       21840
Monday       21354
Wednesday    18059
Name: day, dtype: int64


El miércoles fue el día más silencioso de todos. Pero si se considera a las dos ciudades por separado se podría llegar a una conclusión diferente.

Se creará la función `number_tracks()` para calcular el número de canciones reproducidas en un determinado día y ciudad. Requerirá dos parámetros:
* día de la semana.
* nombre de la ciudad.

En la función, se utiliza una variable para almacenar las filas de la tabla original, donde:
  * el valor de la columna `'day'` es igual al parámetro de día.
  * el valor de la columna `'city'` es igual al parámetro de ciudad.

In [20]:
def number_tracks(day, city):
    track_list = df[df['day'] == day]
    track_list = track_list[track_list['city'] == city]
    track_list_count = track_list['user_id'].count()
    return track_list_count

Se aplicará la función `number_tracks()` seis veces, cambiando los valores de los parámetros, para recuperar los datos de ambas ciudades para cada uno de los tres días.

In [21]:
# el número de canciones reproducidas en Springfield el lunes
print(number_tracks('Monday', 'Springfield'))

15740


In [22]:
# el número de canciones reproducidas en Shelbyville el lunes
print(number_tracks('Monday', 'Shelbyville'))

5614


In [23]:
# el número de canciones reproducidas en Springfield el miércoles
print(number_tracks('Wednesday', 'Springfield'))

11056


In [24]:
# el número de canciones reproducidas en Shelbyville el miércoles
print(number_tracks('Wednesday', 'Shelbyville'))

7003


In [25]:
# el número de canciones reproducidas en Springfield el viernes
print(number_tracks('Friday', 'Springfield'))

15945


In [26]:
# el número de canciones reproducidas en Shelbyville el viernes
print(number_tracks('Friday', 'Shelbyville'))

5895


Se creará una tabla, donde
* Los nombres de las columnas son: `['city', 'monday', 'wednesday', 'friday']`
* Los datos son los resultados de `number_tracks()`

In [28]:
columns_city_day = ['city', 'monday', 'wednesday', 'friday']
data_city_day =[
    ['Springfield', number_tracks('Monday', 'Springfield'), number_tracks('Wednesday', 'Springfield'), number_tracks('Friday', 'Springfield')],
    ['Shelbyville', number_tracks('Monday', 'Shelbyville'), number_tracks('Wednesday', 'Shelbyville'), number_tracks('Friday', 'Shelbyville')]
]
df_city_day = pd.DataFrame(data=data_city_day, columns=columns_city_day)

In [29]:
# tabla con los resultados
print(df_city_day)

          city  monday  wednesday  friday
0  Springfield   15740      11056   15945
1  Shelbyville    5614       7003    5895


**Conclusiones**

Los datos revelan las diferencias en el comportamiento de los usuarios:

- En Springfield, el número de canciones reproducidas alcanzan el punto máximo los lunes y viernes mientras que los miércoles hay un descenso de la actividad.
- En Shelbyville, al contario, los usuarios escuchan más música los miércoles. La actividad de los usuarios los lunes y viernes es menor.

Así que la primera hipótesis parece ser correcta.

[Volver a Contenidos](#back)

### 3. 2 Hipótesis 2: música al principio y al final de la semana <a class='anchor' id='week'></a>

De acuerdo con la segunda hipótesis, los lunes por la mañana y los viernes por la noche los ciudadanos de Springfield escuchan géneros que difieren de aquellos que los usuarios de Shelbyville disfrutan.

Se crearán dos tablas a partir de la original, es decir, se filtará la tabla original por ciudad.

In [30]:
spr_general = df[df['city'] == 'Springfield']

In [31]:
shel_general = df[df['city'] == 'Shelbyville']

Se creará la función `genre_weekday()` con cuatro parámetros:
* Una tabla para los datos (`df`)
* El día de la semana (`day`)
* La marca de fecha y hora en formato 'hh:mm' (`time1`)
* La marca de fecha y hora en formato 'hh:mm' (`time2`)

La función debería devolver información de los 15 géneros más populares de un día determinado en un período entre dos marcas de fecha y hora.

In [32]:
def genre_weekday(data, day, time1, time2):
    genre_df = data[data['day'] == day]
    genre_df = genre_df[genre_df['time'] < time2]
    genre_df = genre_df[genre_df['time'] > time1]
    genre_df_grouped = genre_df.groupby('genre')['genre'].count()
    genre_df_sorted = genre_df_grouped.sort_values(ascending=False)
    return genre_df_sorted[:15]

Se aplicará la función `genre_weekday()` para comparar los resultados de Springfield y Shelbyville el lunes por la mañana (de 7 a 11) y el viernes por la tarde (de 17:00 a 23:00).

In [33]:
# llamando a la función para el lunes por la mañana en Springfield (utilizando spr_general en vez de la tabla df)
print(genre_weekday(spr_general, 'Monday', '07:00', '11:00'))

genre
pop            781
dance          549
electronic     480
rock           474
hiphop         286
ruspop         186
world          181
rusrap         175
alternative    164
unknown        161
classical      157
metal          120
jazz           100
folk            97
soundtrack      95
Name: genre, dtype: int64


In [34]:
# llamando a la función para el lunes por la mañana en Shelbyville (utilizando shel_general en vez de la tabla df)
print(genre_weekday(shel_general, 'Monday', '07:00', '11:00'))

genre
pop            218
dance          182
rock           162
electronic     147
hiphop          80
ruspop          64
alternative     58
rusrap          55
jazz            44
classical       40
world           36
rap             32
soundtrack      31
rnb             27
metal           27
Name: genre, dtype: int64


In [35]:
# llamando a la función para el viernes por la tarde en Springfield
print(genre_weekday(spr_general, 'Friday', '17:00', '23:00'))

genre
pop            713
rock           517
dance          495
electronic     482
hiphop         273
world          208
ruspop         170
classical      163
alternative    163
rusrap         142
jazz           111
unknown        110
soundtrack     105
rnb             90
metal           88
Name: genre, dtype: int64


In [36]:
# llamando a la función para el viernes por la tarde en Shelbyville
print(genre_weekday(shel_general, 'Friday', '17:00', '23:00'))

genre
pop            256
rock           216
electronic     216
dance          210
hiphop          97
alternative     63
jazz            61
classical       60
rusrap          59
world           54
unknown         47
ruspop          47
soundtrack      40
metal           39
rap             36
Name: genre, dtype: int64


**Conclusión**

Habiendo comparado los 15 géneros más populares del lunes por la mañana se concluye lo siguiente:

1. Los usuarios de Springfield y Shelbyville escuchan música similar. Los cinco géneros más populares son los mismos, solo rock y electrónica han intercambiado posiciones.

2. En Springfield el número de valores ausentes resultaron ser tan altos que el valor `'unknown'` llegó al décimo. Esto significa que los valores ausentes forman una parte considerable de los datos, lo que podría ser la base de la cuestión sobre la fiabilidad de las conclusiones.

3. Para el viernes por la tarde, la situación es similar. Los géneros individuales varían pero, en general, los 15 más populares son parecidos en las dos ciudades.

De esta forma, la segunda hipótesis ha sido parcialmente demostrada:
* Los usuarios escuchan música similar al principio y al final de la semana.
* No hay una gran diferencia entre Springfield y Shelbyville. En ambas ciudades, el pop es el género más popular.

Sin embargo, el número de valores ausentes hace este resultado un tanto cuestionable. En Springfield, hay tantos que afectan a los 15 géneros más populares. De no faltar esos valores, las cosas podrían parecer diferentes.

[Volver a Contenidos](#back)

### 3. 3 Hipótesis 3: preferencias de género en Springfield y Shelbyville <a class='anchor' id='genre'></a>

La hipótesis es: Shelbyville ama la música rap. A los ciudadanos de Springfield les gusta más el pop.

Se agrupará la tabla `spr_general` por género para encontrar el número de canciones reproducidas de cada género.

In [37]:
genre_spr_general = spr_general.groupby('genre')['genre'].count()
spr_genres = genre_spr_general.sort_values(ascending=False)

Se imprimen las 10 primeras filas de `spr_genres`.

In [38]:
# imprimiendo las 10 primeras filas de spr_genres
print(spr_genres.head(10))

genre
pop            5892
dance          4435
rock           3965
electronic     3786
hiphop         2096
classical      1616
world          1432
alternative    1379
ruspop         1372
rusrap         1161
Name: genre, dtype: int64


Se procede de manera análoga con los datos de Shelbyville. Se agrupará la tabla `shel_general` por género para encontrar el número de canciones reproducidas de cada género.

In [39]:
genre_shel_general = shel_general.groupby('genre')['genre'].count()
shel_genres = genre_shel_general.sort_values(ascending=False)

Se imprimen las 10 primeras filas de `shel_genres`.

In [40]:
# imprimiendo las 10 primeras filas de shel_genres
print(shel_genres.head(10))

genre
pop            2431
dance          1932
rock           1879
electronic     1736
hiphop          960
alternative     649
classical       646
rusrap          564
ruspop          538
world           515
Name: genre, dtype: int64


**Conclusión**

La hipótesis ha sido parcialmente demostrada:

* La música pop es el género más popular en Springfield, tal como se esperaba.
* Sin embargo, la música pop ha resultado ser igual de popular en Springfield que en Shelbyville y el rap no está entre los 5 más populares en ninguna de las ciudades.

[Volver a Contenidos](#back)

## Conclusiones <a class='anchor' id='end'></a>

Se han probado las siguientes tres hipótesis:

1. La actividad de los usuarios difiere dependiendo del día de la semana y de las distintas ciudades. 
2. Los lunes por la mañana los residentes de Springfield y Shelbyville escuchan géneros distintos. Lo mismo ocurre con los viernes por la noche.
3. Los oyentes de Springfield y Shelbyville tienen distintas preferencias. En ambas ciudades, Springfield y Shelbyville, se prefiere el pop.

Tras analizar los datos, se concluye:

1. La actividad del usuario en Springfield y Shelbyville depende del día de la semana aunque las ciudades varían de diferentes formas. 

La primera hipótesis ha sido aceptada completamente.

2. Las preferencias musicales no varían significativamente en el transcurso de la semana en Springfield y Shelbyville. Se observan pequeñas diferencias en el orden los lunes, pero:
* En Springfield y Shelbyville la gente lo que más escucha es la música pop.

Así que no se puede aceptar esta hipótesis. También se tiene en cuenta que el resultado podría haber sido diferente si no fuera por los valores ausentes.

3. Resulta que las preferencias musicales de los usuarios de Springfield y Shelbyville son bastante parecidas.

La tercera hipótesis es rechazada. Si hay alguna diferencia en las preferencias no se puede observar en los datos.

[Volver a Contenidos](#back)