# D√©jame escuchar la m√∫sica

# Contenido <a id='back'></a>

* [Introducci√≥n](#intro)
* [Etapa 1. Descripci√≥n de los datos](#data_review)
    * [Conclusiones](#data_review_conclusions)
* [Etapa 2. Preprocesamiento de datos](#data_preprocessing)
    * [2.1 Estilo del encabezado](#header_style)
    * [2.2 Valores ausentes](#missing_values)
    * [2.3 Duplicados](#duplicates)
    * [2.4 Conclusiones](#data_preprocessing_conclusions)
* [Etapa 3. Prueba de hip√≥tesis](#hypothesis)
    * [3.1 Hip√≥tesis 1: actividad de los usuarios y las usuarias en las dos ciudades](#activity)
* [Conclusiones](#end)

## Introducci√≥n <a id='intro'></a>
Como analista de datos, tu trabajo consiste en analizar datos para extraer informaci√≥n valiosa y tomar decisiones basadas en ellos. Esto implica diferentes etapas, como la descripci√≥n general de los datos, el preprocesamiento y la prueba de hip√≥tesis.

Siempre que investigamos, necesitamos formular hip√≥tesis que despu√©s podamos probar. A veces aceptamos estas hip√≥tesis; otras veces, las rechazamos. Para tomar las decisiones correctas, una empresa debe ser capaz de entender si est√° haciendo las suposiciones correctas.

En este proyecto, comparar√°s las preferencias musicales de las ciudades de Springfield y Shelbyville. Estudiar√°s datos reales de transmisi√≥n de m√∫sica online para probar la hip√≥tesis a continuaci√≥n y comparar el comportamiento de los usuarios y las usuarias de estas dos ciudades.

### Objetivo:
Prueba la hip√≥tesis:
1. La actividad de los usuarios y las usuarias difiere seg√∫n el d√≠a de la semana y dependiendo de la ciudad.


### Etapas
Los datos del comportamiento del usuario se almacenan en el archivo `/datasets/music_project_en.csv`. No hay ninguna informaci√≥n sobre la calidad de los datos, as√≠ que necesitar√°s examinarlos antes de probar la hip√≥tesis.

Primero, evaluar√°s la calidad de los datos y ver√°s si los problemas son significativos. Entonces, durante el preprocesamiento de datos, tomar√°s en cuenta los problemas m√°s cr√≠ticos.

Tu proyecto consistir√° en tres etapas:
 1. Descripci√≥n de los datos.
 2. Preprocesamiento de datos.
 3. Prueba de hip√≥tesis.








[Volver a Contenidos](#back)

## Etapa 1. Descripci√≥n de los datos <a id='data_review'></a>

Abre los datos y exam√≠nalos.

Necesitar√°s `pandas`, as√≠ que imp√≥rtalo.

In [1]:
# Importar pandas
import pandas as pd

Lee el archivo `music_project_en.csv` de la carpeta `/datasets/` y gu√°rdalo en la variable `df`:

In [2]:
# Leer el archivo y almacenarlo en df
df = pd.read_csv('/datasets/music_project_en.csv')

Muestra las 10 primeras filas de la tabla:

In [3]:
# Obtener las 10 primeras filas de la tabla df
df.head(10)

Unnamed: 0,userID,Track,artist,genre,City,time,Day
0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Shelbyville,20:28:33,Wednesday
1,55204538,Delayed Because of Accident,Andreas R√∂nnberg,rock,Springfield,14:07:09,Friday
2,20EC38,Funicul√¨ funicul√†,Mario Lanza,pop,Shelbyville,20:58:07,Wednesday
3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Shelbyville,08:37:09,Monday
4,E2DC1FAE,Soul People,Space Echo,dance,Springfield,08:34:34,Monday
5,842029A1,Chains,Obladaet,rusrap,Shelbyville,13:09:41,Friday
6,4CB90AA5,True,Roman Messer,dance,Springfield,13:00:07,Wednesday
7,F03E1C1F,Feeling This Way,Polina Griffith,dance,Springfield,20:47:49,Wednesday
8,8FA1D3BE,L‚Äôestate,Julia Dalia,ruspop,Springfield,09:17:40,Friday
9,E772D5C0,Pessimist,,dance,Shelbyville,21:20:49,Wednesday


Obt√©n la informaci√≥n general sobre la tabla con un comando. Conoces el m√©todo que muestra la informaci√≥n general que necesitamos.

In [4]:
# Obtener la informaci√≥n general sobre nuestros datos
print(df.describe())

          userID  Track     artist  genre       City        time     Day
count      65079  63736      57512  63881        65079     65079   65079
unique     41748  39666      37806    268            2     20392       3
top     A8AE9169  Brand  Kartvelli    pop  Springfield  21:51:22  Friday
freq          76    136        136   8850        45360        14   23149


Estas son nuestras observaciones sobre la tabla. Contiene siete columnas. Almacenan los mismos tipos de datos: `object`.

Seg√∫n la documentaci√≥n:
- `' userID'`: identificador del usuario o la usuaria;
- `'Track'`: t√≠tulo de la canci√≥n;
- `'artist'`: nombre del artista;
- `'genre'`: g√©nero de la pista;
- `'City'`: ciudad del usuario o la usuaria;
- `'time'`: la hora exacta en la que se reprodujo la canci√≥n;
- `'Day'`: d√≠a de la semana.

Podemos ver tres problemas con el estilo en los encabezados de la tabla:
1. Algunos encabezados est√°n en may√∫sculas, otros en min√∫sculas.
2. Hay espacios en algunos encabezados.
3. Algunos encabezados son ambiguos, ya que no especifica a que se refiere dicho encabezado, por ejemplo City, time y day .




### Escribe observaciones de tu parte. Estas son algunas de las preguntas que pueden ser √∫tiles: <a id='data_review_conclusions'></a>

`1.   ¬øQu√© tipo de datos tenemos a nuestra disposici√≥n en las filas? ¬øY c√≥mo podemos entender lo que almacenan las columnas?`

`2.   ¬øHay suficientes datos para proporcionar respuestas a nuestra hip√≥tesis o necesitamos m√°s informaci√≥n?`

`3.   ¬øNotaste alg√∫n problema en los datos, como valores ausentes, duplicados o tipos de datos incorrectos?`

[Volver a Contenidos](#back)

## Etapa 2. Preprocesamiento de datos <a id='data_preprocessing'></a>

El objetivo aqu√≠ es preparar los datos para que sean analizados.
El primer paso es resolver cualquier problema con los encabezados. Luego podemos avanzar a los valores ausentes y duplicados. Empecemos.

Corrige el formato en los encabezados de la tabla.


### Estilo del encabezado <a id='header_style'></a>
Muestra los encabezados de la tabla (los nombres de las columnas):

In [5]:
# Muestra los nombres de las columnas
print(df.columns)


Index(['  userID', 'Track', 'artist', 'genre', '  City  ', 'time', 'Day'], dtype='object')


Cambia los encabezados de la tabla de acuerdo con las reglas del buen estilo:
* Todos los caracteres deben ser min√∫sculas.
* Elimina los espacios.
* Si el nombre tiene varias palabras, utiliza snake_case.

Anteriormente, aprendiste acerca de la forma autom√°tica de cambiar el nombre de las columnas. Vamos a aplicarla ahora. Utiliza el bucle for para iterar sobre los nombres de las columnas y poner todos los caracteres en min√∫sculas. Cuando hayas terminado, vuelve a mostrar los encabezados de la tabla:

In [6]:
# Bucle en los encabezados poniendo todo en min√∫sculas
new_name = []

for old_name in df.columns:
    new_name.append(old_name.lower())

df.columns = new_name
print(new_name)

['  userid', 'track', 'artist', 'genre', '  city  ', 'time', 'day']


Ahora, utilizando el mismo m√©todo, elimina los espacios al principio y al final de los nombres de las columnas e imprime los nombres de las columnas nuevamente:

In [7]:
# Bucle en los encabezados eliminando los espacios
without_strip = []

for with_strip in new_name:
    without_strip.append(with_strip.strip())
    
df.columns = without_strip
print(without_strip)
    

['userid', 'track', 'artist', 'genre', 'city', 'time', 'day']


Necesitamos aplicar la regla de snake_case a la columna `userid`. Debe ser `user_id`. Cambia el nombre de esta columna y muestra los nombres de todas las columnas cuando hayas terminado.

In [8]:
# Cambiar el nombre de la columna "userid"
name_no_space = []

for name_space in without_strip:
    name_no_space.append(name_space.replace('userid','user_id'))
    
df.columns = name_no_space
print(name_no_space)

['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day']


Comprueba el resultado. Muestra los encabezados una vez m√°s:

In [9]:
# Comprobar el resultado: la lista de encabezados
print(df.columns)

Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')


[Volver a Contenidos](#back)

### Valores ausentes <a id='missing_values'></a>
 Primero, encuentra el n√∫mero de valores ausentes en la tabla. Debes utilizar dos m√©todos en una secuencia para obtener el n√∫mero de valores ausentes.

In [10]:
# Calcular el n√∫mero de valores ausentes
print(df.isna().sum())

user_id       0
track      1343
artist     7567
genre      1198
city          0
time          0
day           0
dtype: int64


No todos los valores ausentes afectan a la investigaci√≥n. Por ejemplo, los valores ausentes en `track` y `artist` no son cruciales. Simplemente puedes reemplazarlos con valores predeterminados como el string `'unknown'` (desconocido).

Pero los valores ausentes en `'genre'` pueden afectar la comparaci√≥n entre las preferencias musicales de Springfield y Shelbyville. En la vida real, ser√≠a √∫til saber las razones por las cuales hay datos ausentes e intentar recuperarlos. Pero no tenemos esa oportunidad en este proyecto. As√≠ que tendr√°s que:
* rellenar estos valores ausentes con un valor predeterminado;
* evaluar cu√°nto podr√≠an afectar los valores ausentes a tus c√≥mputos;

Reemplazar los valores ausentes en las columnas `'track'`, `'artist'` y `'genre'` con el string `'unknown'`. Como mostramos anteriormente en las lecciones, la mejor forma de hacerlo es crear una lista que almacene los nombres de las columnas donde se necesita el reemplazo. Luego, utiliza esta lista e itera sobre las columnas donde se necesita el reemplazo haciendo el propio reemplazo.

In [11]:
# Bucle en los encabezados reemplazando los valores ausentes con 'unknown'
columnas_a_remplazar = ['track', 'artist', 'genre']

for cambio in columnas_a_remplazar:
    df[cambio].fillna('unknown', inplace=True)

Ahora comprueba el resultado para asegurarte de que despu√©s del reemplazo no haya valores ausentes en el conjunto de datos. Para hacer esto, cuenta los valores ausentes nuevamente.

In [12]:
# Contar valores ausentes
print(df.isna().sum())

user_id    0
track      0
artist     0
genre      0
city       0
time       0
day        0
dtype: int64


[Volver a Contenidos](#back)

### Duplicados <a id='duplicates'></a>
Encuentra el n√∫mero de duplicados expl√≠citos en la tabla. Una vez m√°s, debes aplicar dos m√©todos en una secuencia para obtener la cantidad de duplicados expl√≠citos.

In [13]:
# Contar duplicados expl√≠citos
print(df.duplicated().sum())

3826


Ahora, elimina todos los duplicados. Para ello, llama al m√©todo que hace exactamente esto.

In [14]:
# Eliminar duplicados expl√≠citos
df = df.drop_duplicates()

Comprobemos ahora si eliminamos con √©xito todos los duplicados. Cuenta los duplicados expl√≠citos una vez m√°s para asegurarte de haberlos eliminado todos:

In [15]:
# Comprobar de nuevo si hay duplicados
print(df.duplicated().sum())

0


Ahora queremos deshacernos de los duplicados impl√≠citos en la columna `genre`. Por ejemplo, el nombre de un g√©nero se puede escribir de varias formas. Dichos errores tambi√©n pueden afectar al resultado.

Para hacerlo, primero mostremos una lista de nombres de g√©nero √∫nicos, ordenados en orden alfab√©tico. Para ello:
* Extrae la columna `genre` del DataFrame.
* Llama al m√©todo que devolver√° todos los valores √∫nicos en la columna extra√≠da.


In [16]:
# Inspeccionar los nombres de g√©neros √∫nicos
df_ordenado = df.sort_values(by='genre', ascending=True)
print(df_ordenado)
print(df['genre'].unique())
print(df['genre'].nunique())

        user_id                       track  \
32883  C40BC5DF            Shot in the Dark   
3650   F10919ED          Ready For The Fire   
20644  B02ED3AB  Prelude ‚Äì Ne Me Qui Te Pas   
39129  77D3A7D9  Prelude ‚Äì Ne Me Qui Te Pas   
14811  1C7D9E90  Prelude ‚Äì Ne Me Qui Te Pas   
...         ...                         ...   
6189   12A10DD5                     Ekatana   
18268   653E0EF                     Kalinka   
28665  D7FB50DA             Drumming Circle   
40493  AA1730E8                         Anu   
8514   A439123F                     Flip It   

                                                  artist      genre  \
32883                                         Four80East       acid   
3650                                    Valley Of Wolves   acoustic   
20644                                            unknown   acoustic   
39129                                            unknown   acoustic   
14811                                            unknown   acoustic   
...

Busca en la lista para encontrar duplicados impl√≠citos del g√©nero `hiphop`. Estos pueden ser nombres escritos incorrectamente o nombres alternativos para el mismo g√©nero.

Ver√°s los siguientes duplicados impl√≠citos:
* `hip`
* `hop`
* `hip-hop`

Para deshacerte de ellos, crea una funci√≥n llamada `replace_wrong_genres()` con dos par√°metros:
* `wrong_genres=`: esta es una lista que contiene todos los valores que necesitas reemplazar.
* `correct_genre=`: este es un string que vas a utilizar como reemplazo.

Como resultado, la funci√≥n deber√≠a corregir los nombres en la columna `'genre'` de la tabla `df`, es decir, remplazar cada valor de la lista `wrong_genres` por el valor en `correct_genre`.

Dentro del cuerpo de la funci√≥n, utiliza un bucle `'for'` para iterar sobre la lista de g√©neros incorrectos, extrae la columna `'genre'` y aplica el m√©todo `replace` para hacer correcciones.

In [17]:
# Funci√≥n para reemplazar duplicados impl√≠citos

def replace_wrong_genres(df, genre_column, wrong_genres, correct_genre):
    for wrong_value in wrong_genres:
        df[genre_column] = df[genre_column].replace(wrong_value, correct_genre)
    return df

Ahora, llama a `replace_wrong_genres()` y p√°sale tales argumentos para que retire los duplicados impl√≠citos (`hip`, `hop` y `hip-hop`) y los reemplace por `hiphop`:

In [18]:
# Eliminar duplicados impl√≠citos
wrong_genres = ['hip', 'hop', 'hip-hop']
correct_genre = 'hiphop'

df = replace_wrong_genres(df, 'genre', wrong_genres, correct_genre)


Aseg√∫rate de que los nombres duplicados han sido eliminados. Muestra la lista de valores √∫nicos de la columna `'genre'` una vez m√°s:

In [19]:
# Comprobaci√≥n de duplicados impl√≠citos
#print(df['genre'].unique())
print(df['genre'].nunique())

266


In [20]:
df.genre.unique()

array(['rock', 'pop', 'folk', 'dance', 'rusrap', 'ruspop', 'world',
       'electronic', 'unknown', 'alternative', 'children', 'rnb',
       'hiphop', 'jazz', 'postrock', 'latin', 'classical', 'metal',
       'reggae', 'triphop', 'blues', 'instrumental', 'rusrock', 'dnb',
       't√ºrk', 'post', 'country', 'psychedelic', 'conjazz', 'indie',
       'posthardcore', 'local', 'avantgarde', 'punk', 'videogame',
       'techno', 'house', 'christmas', 'melodic', 'caucasian',
       'reggaeton', 'soundtrack', 'singer', 'ska', 'salsa', 'ambient',
       'film', 'western', 'rap', 'beats', "hard'n'heavy", 'progmetal',
       'minimal', 'tropical', 'contemporary', 'new', 'soul', 'holiday',
       'german', 'jpop', 'spiritual', 'urban', 'gospel', 'nujazz',
       'folkmetal', 'trance', 'miscellaneous', 'anime', 'hardcore',
       'progressive', 'korean', 'numetal', 'vocal', 'estrada', 'tango',
       'loungeelectronic', 'classicmetal', 'dubstep', 'club', 'deep',
       'southern', 'black', 'folkroc

[Volver a Contenidos](#back)

### Tus observaciones <a id='data_preprocessing_conclusions'></a>

`Describe brevemente lo que has notado al analizar duplicados, c√≥mo abordaste sus eliminaciones y qu√© resultados obtuviste.`

Al iniciar los datos ausentes se concentraban en 3 columnas, track, artist y genre dando un total de 10,108 (1343, 7567 y 1198, respectivamente) al utilizar el metodo replace () se modifico el DataSet y aquellos valores ausentes fueron cambiados por un unknown. 
Despues se contabilizo el total de valores duplicados, el cual consta de 3826 al usar el metodo drop_duplucates() se eliminaron aquellos que son inncesarios para el an√°lisis.
En cuanto a los datos unicos, se observan bastantes en la lista de la columna 'genre' pero al haber declarado la funcion 'replace_wrong_genres', es posible ir modificando cada uno de los valores implicitos, basta con modificar los argumentos establecidos en la funcion, como se hizo con aquellos que tenian hip, hop y hip-hop. Dando como resultado un total de 266, cabe resaltar que antes de declarar la funcion habian 269 datos unicos en la columna 'genre'

[Volver a Contenidos](#back)

## Etapa 3. Prueba de hip√≥tesis <a id='hypothesis'></a>

### Hip√≥tesis: comparar el comportamiento del usuario o la usuaria en las dos ciudades <a id='activity'></a>

La hip√≥tesis afirma que existen diferencias en la forma en que los usuarios y las usuarias de Springfield y Shelbyville consumen m√∫sica. Para comprobar esto, usa los datos de tres d√≠as de la semana: lunes, mi√©rcoles y viernes.

* Agrupa a los usuarios y las usuarias por ciudad.
* Compara el n√∫mero de canciones que cada grupo reprodujo el lunes, el mi√©rcoles y el viernes.


Realiza cada c√°lculo por separado.

El primer paso es evaluar la actividad del usuario en cada ciudad. Recuerda las etapas dividir-aplicar-combinar de las que hablamos anteriormente en la lecci√≥n. Tu objetivo ahora es agrupar los datos por ciudad, aplicar el m√©todo apropiado para contar durante la etapa de aplicaci√≥n y luego encontrar la cantidad de canciones reproducidas en cada grupo especificando la columna para obtener el recuento.

A continuaci√≥n se muestra un ejemplo de c√≥mo deber√≠a verse el resultado final:
`df.groupby(by='....')['column'].method()`Realiza cada c√°lculo por separado.

Para evaluar la actividad de los usuarios y las usuarias en cada ciudad, agrupa los datos por ciudad y encuentra la cantidad de canciones reproducidas en cada grupo.



In [21]:
# Contar las canciones reproducidas en cada ciudad
canciones_x_ciudad = df.groupby(by='city')['track'].count()
print(canciones_x_ciudad)

city
Shelbyville    18512
Springfield    42741
Name: track, dtype: int64


Se aprecia que la actividad en cantidad de canciones reproducidas en las usuarias y usuarios de Springfield son mayores a las de Shelbyville

Ahora agrupemos los datos por d√≠a de la semana y encontremos el n√∫mero de canciones reproducidas el lunes, mi√©rcoles y viernes. Utiliza el mismo m√©todo que antes, pero ahora necesitamos una agrupaci√≥n diferente.


In [22]:
# Calcular las canciones reproducidas en cada uno de los tres d√≠as
canciones_x_dia = df.groupby(by='day')['track'].count()
print(canciones_x_dia)

day
Friday       21840
Monday       21354
Wednesday    18059
Name: track, dtype: int64


Los datos arrojados por dia muestran que los dias que mas se escucha musica son los Viernes, seguido de los Lunes y finalmente los miercoles

Ya sabes c√≥mo contar entradas agrup√°ndolas por ciudad o d√≠a. Ahora necesitas escribir una funci√≥n que pueda contar entradas seg√∫n ambos criterios simult√°neamente.

Crea la funci√≥n `number_tracks()` para calcular el n√∫mero de canciones reproducidas en un determinado d√≠a **y** ciudad. La funci√≥n debe aceptar dos par√°metros:

- `day`: un d√≠a de la semana para filtrar. Por ejemplo, `'Monday'` (lunes).
- `city`: una ciudad para filtrar. Por ejemplo, `'Springfield'`.

Dentro de la funci√≥n, aplicar√°s un filtrado consecutivo con indexaci√≥n l√≥gica.

Primero filtra los datos por d√≠a y luego filtra la tabla resultante por ciudad.

Despu√©s de filtrar los datos por dos criterios, cuenta el n√∫mero de valores de la columna 'user_id' en la tabla resultante. Este recuento representa el n√∫mero de entradas que est√°s buscando. Guarda el resultado en una nueva variable y devu√©lvelo desde la funci√≥n.

In [23]:
# Declara la funci√≥n number_tracks() con dos par√°metros: day= y city=.

def number_tracks(day, city):
    # Almacena las filas del DataFrame donde el valor en la columna 'day' es igual al par√°metro day=
    days = df[df['day'] == day]
    # Filtra las filas donde el valor en la columna 'city' es igual al par√°metro city=
    cities = days[days['city'] == city]
    # Extrae la columna 'user_id' de la tabla filtrada y aplica el m√©todo count()
    user_count = cities['user_id'].count()
    # Devolver el n√∫mero de valores de la columna 'user_id'
    return user_count

Llama a `number_tracks()` seis veces, cambiando los valores de los par√°metros para que recuperes los datos de ambas ciudades para cada uno de los tres d√≠as.

In [24]:
# El n√∫mero de canciones reproducidas en Springfield el lunes
day = 'Monday'
city = 'Springfield'
numero_de_canciones = number_tracks(day,city)
print(f'Number of songs played on {day} in {city}: {numero_de_canciones}')

Number of songs played on Monday in Springfield: 15740


In [25]:
# El n√∫mero de canciones reproducidas en Shelbyville el lunes
day = 'Monday'
city = 'Shelbyville'
numero_de_canciones = number_tracks(day,city)
print(f'Number of songs played on {day} in {city}: {numero_de_canciones}')

Number of songs played on Monday in Shelbyville: 5614


In [26]:
# El n√∫mero de canciones reproducidas en Springfield el mi√©rcoles
day = 'Wednesday'
city = 'Springfield'
numero_de_canciones = number_tracks(day,city)
print(f'Number of songs played on {day} in {city}: {numero_de_canciones}')

Number of songs played on Wednesday in Springfield: 11056


In [27]:
# El n√∫mero de canciones reproducidas en Shelbyville el mi√©rcoles
day = 'Wednesday'
city = 'Shelbyville'
numero_de_canciones = number_tracks(day,city)
print(f'Number of songs played on {day} in {city}: {numero_de_canciones}')

Number of songs played on Wednesday in Shelbyville: 7003


In [28]:
# El n√∫mero de canciones reproducidas en Springfield el viernes
day = 'Friday'
city = 'Springfield'
numero_de_canciones = number_tracks(day,city)
print(f'Number of songs played on {day} in {city}: {numero_de_canciones}')

Number of songs played on Friday in Springfield: 15945


In [29]:
# El n√∫mero de canciones reproducidas en Shelbyville el viernes
day = 'Friday'
city = 'Shelbyville'
numero_de_canciones = number_tracks(day,city)
print(f'Number of songs played on {day} in {city}: {numero_de_canciones}')

Number of songs played on Friday in Shelbyville: 5895


**Conclusiones**

`Comenta si la hip√≥tesis es correcta o se debe rechazar. Explica tu razonamiento.`

La hipotesis puede ser aceptada ya que segun el filtrado que se realizo, se puede observar firmemente que el total de canciones escuchadas varia y depende del dia de la semana y la ciudad en la que se escuchan. Por ejemplo las canciones escuchadas el dia viernes en Springfield es mayor a las escuchadas el mismo dia pero en la ciudad de Shelbyville

[Volver a Contenidos](#back)

# Conclusiones <a id='end'></a>

`Resume aqu√≠ tus conclusiones sobre la hip√≥tesis.`

En conclusion, la hipotesis planteada puede ser aceptada debido a se cumple lo establecido, es decir, la actividad de los usuarios y usuarias difiere seg√∫n el dia de la semana y dependiendo de la ciudad en la que se encuentren, los resultados claramente exponen lo comentado anteriormente. Adem√°s con la informaci√≥n obtenida tambien se puede resaltar que la ciudad de Springfield es la que presenta mayor n√∫mero de reproducciones en los 3 dias. Por lo cual si se esta haciendo un estudio para ventas de planes de membresias como spotify, o alguna otra finalidad sera de suma importancia centrarnos en esta ciudad y aplicar las promociones los dias viernes donde es un poco mas notorio el incremento de reproduccion de musica. 

### Nota
En proyectos de investigaci√≥n reales, la prueba de hip√≥tesis estad√≠stica es m√°s precisa y cuantitativa. Tambi√©n ten en cuenta que no siempre se pueden sacar conclusiones sobre una ciudad entera a partir de datos de una sola fuente.

Aprender√°s m√°s sobre la prueba de hip√≥tesis en el sprint de an√°lisis estad√≠stico de datos.

[Volver a Contenidos](#back)

<div class="alert alert-block alert-warning">
<b>Comentario general (1ra Iteracion)</b> <a class=‚ÄútocSkip‚Äù></a>
    

Hola Hector! Vas por muy buen camino para convertirte en Data Analyst, hiciste un buen uso de la librer√≠a pandas y tu manejo de Python es notable ya que pudiste armar muy bien la funci√≥n para filtrar por ciudad y d√≠a.
<br>
<br>
Sin embargo, encontr√© algunos puntos de mejora que te invito a revisar para completar la presentaci√≥n de tu proyecto.

<br>
Saludos! ü¶æ
</div>