# Déjame escuchar música

Los datos están almacenados en el archivo `/datasets/music_project_en.csv`.

¡Ahora sí, manos al código!


## Etapa 1. Descripción de los datos <a id='data_review'></a>

Abre los datos y examínalos.

Etapa 1.1. Necesitarás `pandas`, así que impórtalo.

In [53]:
# Importa pandas
import pandas as pd

<details>
<summary>Haz clic para ver la pista</summary>

Para usar `pandas`, necesitas la palabra clave `import` seguida del nombre de la biblioteca y un alias.


Etapa 1.2. Lee el archivo `music_project_en.csv` de la carpeta `/datasets/` y guárdalo en la variable `df`:

In [54]:
# Lee el archivo y almacénalo en df
df = pd.read_csv('music_project_en.csv')

<details>
<summary>Haz clic para ver la pista</summary>

Usa la palabra clave `read_csv` para leer el archivo CSV. Asegúrate de incluir la ruta `/datasets/music_project_en.csv` y guarda el resultado en la variable `df`.

Etapa 1.3. Muestra las 10 primeras filas de la tabla:

In [55]:
# Obtén las 10 primeras filas de la tabla df
print(df.head(10))

     userID                        Track            artist   genre  \
0  FFB692EC            Kamigata To Boots  The Mass Missile    rock   
1  55204538  Delayed Because of Accident  Andreas Rönnberg    rock   
2    20EC38            Funiculì funiculà       Mario Lanza     pop   
3  A3DD03C9        Dragons in the Sunset        Fire + Ice    folk   
4  E2DC1FAE                  Soul People        Space Echo   dance   
5  842029A1                       Chains          Obladaet  rusrap   
6  4CB90AA5                         True      Roman Messer   dance   
7  F03E1C1F             Feeling This Way   Polina Griffith   dance   
8  8FA1D3BE                     L’estate       Julia Dalia  ruspop   
9  E772D5C0                    Pessimist               NaN   dance   

        City        time        Day  
0  Shelbyville  20:28:33  Wednesday  
1  Springfield  14:07:09     Friday  
2  Shelbyville  20:58:07  Wednesday  
3  Shelbyville  08:37:09     Monday  
4  Springfield  08:34:34     Monday  
5

<details>
<summary>Haz clic para ver la pista</summary>

Usa el método `head` para ver las primeras filas del DataFrame.

Etapa 1.4. Obtén la información general sobre la tabla con el método info().

In [56]:
# Obtén la información general sobre nuestros datos
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65079 entries, 0 to 65078
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0     userID  65079 non-null  object
 1   Track     63736 non-null  object
 2   artist    57512 non-null  object
 3   genre     63881 non-null  object
 4     City    65079 non-null  object
 5   time      65079 non-null  object
 6   Day       65079 non-null  object
dtypes: object(7)
memory usage: 3.5+ MB
None


<details>
<summary>Haz clic para ver la pista</summary>

Usa el método `info` para obtener detalles sobre columnas, tipos de datos y valores nulos.


Estas son nuestras observaciones sobre la tabla. Contiene siete columnas que almacenan los mismos tipos de datos: `object`.

Según la documentación:
- `' userID'`: identificador del usuario;
- `'Track'`: título de la canción;
- `'artist'`: nombre del artista;
- `'genre'`: género de la canción;
- `'City'`: ciudad del usuario;
- `'time'`: la hora exacta en la que se reprodujo la canción;
- `'Day'`: día de la semana.

Podemos ver dos problemas con el estilo en los encabezados de la tabla:
1. Algunos encabezados están en mayúsculas, otros en minúsculas.
2. Hay un espacio antes del nombre de la columna ' userID'




### Escribe algunas observaciones por tu parte. Contesta a las siguientes preguntas: <a id='data_review_conclusions'></a>

`1.   ¿Qué tipo de datos hay en las filas? ¿Cómo podemos saber qué almacenan las columnas?`

`2.   ¿Hay suficientes datos para proporcionar respuestas a nuestra hipótesis o necesitamos más información?`

`3.   ¿Notaste algún problema en los datos, como valores ausentes, duplicados o tipos de datos incorrectos?`

Escribe aquí tus respuestas:

1. hay datos tipo String (track, artist, genre,), datos categoricos(userID), fechas y en general todas las columnas son de tipo object.

2. En este caso dado que nuestra hipotesis es que el dia de la semana y la ubicación geografica afectan el comportamiento de los usuarios. Tenemos todos los datos necesarios ya que contamos con una columna que nos proporciona Dia, hora, ubicación y podemos usarlas para comparar el impacto de cada una de esas variables en los generos mas escuchados, artistas favoritos, etc... En función de alguna de las variables de tiempo y ubicación.

En caso de que la hipotesis tuviera que ver por ejemplo con el genero de cada escucha, su edad o algún otro dato que no esté contemplado en las variables actuales, si nos harían falta datos adicionales.

3.  Analizando la salida del metodo info() podemos notar a simple vista que tenemos valores ausentes en las columnas Track, Artist y Genre por lo que podría ser complicado analizar las preferencias musicales de cada usuario. El tipo de dato de la variable time es object y debería ser datetime64[ns] para facilitar su uso. Finalmente variables como userID o Track podrían contener duplicados, y las variables categoricas como genre, City o Day podrían tener inconsistencias en el formato por ejemplo en City podriamos encontrar NYC,New York, new york que serían duplicados que no podriamos identificar simplemente con el metodo duplicated().

## Etapa 2. Preprocesamiento de los datos <a id='data_preprocessing'></a>

Tu objetivo aquí es preparar los datos para analizarlos.
El primer paso es resolver los problemas con los encabezados. Después podemos avanzar a los valores ausentes y duplicados. ¡Empecemos!

Vamos a corregir el formato en los encabezados de la tabla.


### Estilo del encabezado <a id='header_style'></a>
Etapa 2.1. Muestra los encabezados de la tabla (los nombres de las columnas):

In [57]:
# Muestra los nombres de las columnas
print(df.columns)

Index(['  userID', 'Track', 'artist', 'genre', '  City  ', 'time', 'Day'], dtype='object')


<details>
<summary>Haz clic para ver la pista</summary>

Usa el atributo `.columns` para ver todos los nombres de las columnas en el DataFrame.


Vamos cambiar los encabezados de la tabla siguiendo las reglas estilísticas convencionales:
*   Todos los caracteres deben ser minúsculas.
*   Elimina los espacios.
*   Si el nombre tiene varias palabras, utiliza snake_case, es decir, añade un guion bajo ( _ ) entre las palabras en lugar de un espacio.



Etapa 2.2. Utiliza el bucle for para iterar sobre los nombres de las columnas y poner todos los caracteres en minúsculas. Cuando hayas terminado, vuelve a mostrar los encabezados de la tabla:

In [58]:
# Bucle que itera sobre los encabezados y los pone todos en minúsculas

lowered_columns = [] 

for col in df.columns:
    lowered_columns.append(col.lower())

df.columns = lowered_columns

print(df.columns)

Index(['  userid', 'track', 'artist', 'genre', '  city  ', 'time', 'day'], dtype='object')


<details>
<summary>Haz clic para ver la pista</summary>

Usa un `for` para recorrer `df.columns` y aplica `.lower()` a cada nombre. Luego, asigna la lista resultante de nuevo a `df.columns`.


Etapa 2.3. Ahora, utilizando el mismo método, elimina los espacios al principio y al final de los nombres de las columnas y muestra los nombres de las columnas de nuevo:

In [59]:
# Bucle que itera sobre los encabezados y elimina los espacios

striped_columns = [] 

for col in df.columns:
    striped_columns.append(col.strip())

df.columns = striped_columns

print(df.columns)

Index(['userid', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')


<details>
<summary>Haz clic para ver la pista</summary>

Usa `.strip()` dentro del bucle para limpiar los nombres de columnas. Asegúrate de reasignar los nuevos nombres a `df.columns`.


Etapa 2.4. Necesitamos aplicar la regla de snake_case en la columna `userid`. Debe ser `user_id`. Cambia el nombre de esta columna y muestra los nombres de todas las columnas cuando hayas terminado.

In [60]:
# Cambia el nombre de la columna "userid"
df.rename(columns = {'userid':'user_id'}, inplace = True)

<details>
<summary>Haz clic para ver la pista</summary>

Usa el método `.rename()` con el parámetro `columns` para cambiar `userid` a `user_id`. No olvides establecer `inplace=True` o reasignar a `df`.

Etapa 2.5. Comprueba el resultado. Muestra los encabezados una vez más:

In [61]:
# Comprueba el resultado: lista de encabezados
print(df.columns)

Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')


<details>
<summary>Haz clic para ver la pista</summary>

Usa `.columns` para volver a ver los nombres actualizados de las columnas.

### Valores ausentes <a id='missing_values'></a>
 Etapa 2.5. Primero, encuentra el número de valores ausentes en la tabla. Debes utilizar dos métodos para obtener el número de valores ausentes.

In [62]:
# Calcula el número de valores ausentes
print(df.isna().sum())

user_id       0
track      1343
artist     7567
genre      1198
city          0
time          0
day           0
dtype: int64


<details>
<summary>Haz clic para ver la pista</summary>

Usa `.isna()` para detectar los valores ausentes y combínalo con el método `.sum()` para contar cuántos hay por columna.


Etapa 2.6. Sustituye los valores ausentes en las columnas `'track'`, `'artist'` y `'genre'` con el string `'unknown'`.

1. Crea una lista llamada columns_to_replace que contenga los nombres de las columnas 'track', 'artist' y 'genre'.

2. Usa un bucle for para iterar sobre cada columna en columns_to_replace.

3. Dentro del bucle, sustituye los valores ausentes en cada columna con el string `'unknown'`.

In [63]:
# Bucle en los encabezados reemplazando los valores ausentes con 'unknown'

columns_to_replace = ['track','artist','genre']

for col in columns_to_replace:
    df[col] = df[col].fillna('unknown')

<details>
<summary>Haz clic para ver la pista</summary>

Crea una lista con los nombres de las columnas y usa un `for` para recorrerla. Dentro del bucle, aplica `.fillna('unknown')` a cada una.

Etapa 2.7. Ahora comprueba el resultado para asegurarte de que no falten valores ausentes por reemplazar en el conjunto de datos. Para ello, cuenta los valores ausentes una vez más.

In [64]:
# Cuenta los valores ausentes
print(df.isna().sum())

user_id    0
track      0
artist     0
genre      0
city       0
time       0
day        0
dtype: int64


<details>
<summary>Haz clic para ver la pista</summary>

Usa `isna()` con `sum()` otra vez para confirmar que ya no quedan valores nulos en las columnas modificadas.

### Duplicados <a id='duplicates'></a>
Etapa 2.8. Encuentra el número de duplicados explícitos en la tabla. Una vez más, debes aplicar dos métodos para obtener la cantidad de duplicados explícitos.

In [65]:
# Cuenta los duplicados explícitos
print('numero de duplicados:', df.duplicated().sum())

numero de duplicados: 3826


<details>
<summary>Haz clic para ver la pista</summary>

Usa un método que detecte filas repetidas (`duplicated`) y luego otro para contarlas.

Etapa 2.9. Ahora, elimina todos los duplicados. Para ello, llama al método que hace exactamente esto.

In [66]:
# Elimina los duplicados explícitos
df = df.drop_duplicates()

<details>
<summary>Haz clic para ver la pista</summary>

Busca un método que elimine las filas duplicadas directamente del DataFrame. No olvides actualizar la variable.

Etapa 2.10. Comprobemos ahora si conseguimos eliminar todos los duplicados. Cuenta los duplicados explícitos una vez más para asegurarte de haberlos eliminado todos:

In [67]:
# Comprueba de nuevo si hay duplicados
print('numero de duplicados:',df.duplicated().sum())

numero de duplicados: 0


<details>
<summary>Haz clic para ver la pista</summary>

Repite el mismo enfoque que usaste para contar duplicados antes. Deberías ver que el total ahora es cero.

Ahora queremos deshacernos de los duplicados implícitos en la columna `genre`. Por ejemplo, el nombre de un género se puede escribir de varias formas. Dichos errores también pueden afectar al resultado.

Etapa 2.11. Primero debemos mostrar una lista de nombres de géneros únicos, por orden alfabético. Para ello:
1. Extrae la columna `genre` del DataFrame.
2. Llama al método que devolverá todos los valores únicos en la columna extraída.


In [68]:
# Inspecciona los nombres de géneros únicos
print(sorted(df['genre'].unique()))

['acid', 'acoustic', 'action', 'adult', 'africa', 'afrikaans', 'alternative', 'ambient', 'americana', 'animated', 'anime', 'arabesk', 'arabic', 'arena', 'argentinetango', 'art', 'audiobook', 'avantgarde', 'axé', 'baile', 'balkan', 'beats', 'bigroom', 'black', 'bluegrass', 'blues', 'bollywood', 'bossa', 'brazilian', 'breakbeat', 'breaks', 'broadway', 'cantautori', 'cantopop', 'canzone', 'caribbean', 'caucasian', 'celtic', 'chamber', 'children', 'chill', 'chinese', 'choral', 'christian', 'christmas', 'classical', 'classicmetal', 'club', 'colombian', 'comedy', 'conjazz', 'contemporary', 'country', 'cuban', 'dance', 'dancehall', 'dancepop', 'dark', 'death', 'deep', 'deutschrock', 'deutschspr', 'dirty', 'disco', 'dnb', 'documentary', 'downbeat', 'downtempo', 'drum', 'dub', 'dubstep', 'eastern', 'easy', 'electronic', 'electropop', 'emo', 'entehno', 'epicmetal', 'estrada', 'ethnic', 'eurofolk', 'european', 'experimental', 'extrememetal', 'fado', 'film', 'fitness', 'flamenco', 'folk', 'folklor

<details>
<summary>Haz clic para ver la pista</summary>

Usa `unique()` para obtener los géneros únicos. Si quieres verlos en orden alfabético, combina con `sorted()`.

Etapa 2.12. Vamos a examinar la lista para identificar **duplicados implícitos** del género `hiphop`, es decir, nombres mal escritos o variantes que hacen referencia al mismo género musical.

Los duplicados que encontrarás son:

* `hip`  
* `hop`  
* `hip-hop`  

Para solucionarlo, vamos a crear una función llamada `replace_wrong_values()`.


1. Define una función llamada `replace_wrong_values()` que reciba los siguientes parámetros:

* `df`: el DataFrame a modificar
* `column`: el nombre de la columna a trabajar
* `wrong_values`: una lista con los valores incorrectos
* `correct_value`: el valor correcto para reemplazar

2. Dentro de la función, usa un bucle `for` para iterar sobre cada valor incorrecto y aplicar `.replace()`.


In [69]:
# Función para reemplazar los duplicados implícitos

def replace_wrong_values(df,column,wrong_values,correct_value):
    df[column].replace(wrong_values,correct_value,inplace = True)
    return df

<details>
<summary>Haz clic para ver la pista</summary>

Crea una función con cuatro parámetros. Dentro del bucle, llama a `.replace()` sobre la columna para cada valor incorrecto, cambiándolo por el correcto.

Etapa 2.13. Ahora, llama a la función pasando:

* `df` como el DataFrame
* `'genre'` como nombre de columna
* `['hip', 'hop', 'hip-hop']` como lista de valores incorrectos
* `'hiphop'` como valor correcto


In [70]:
# Elimina los duplicados implícitos

wrong_values = ['hip', 'hop', 'hip-hop']

replace_wrong_values(df,'genre',wrong_values,'hiphop')

print (df.head(20))

     user_id                                              track  \
0   FFB692EC                                  Kamigata To Boots   
1   55204538                        Delayed Because of Accident   
2     20EC38                                  Funiculì funiculà   
3   A3DD03C9                              Dragons in the Sunset   
4   E2DC1FAE                                        Soul People   
5   842029A1                                             Chains   
6   4CB90AA5                                               True   
7   F03E1C1F                                   Feeling This Way   
8   8FA1D3BE                                           L’estate   
9   E772D5C0                                          Pessimist   
10  BC5A3A29                                       Gool la Mita   
11  8B5192C0  Is There Anybody Out There? (Panoramic Paralys...   
12  FF3FD2BD                                              Truth   
13  CC782B0F                               After School Specia

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df[column].replace(wrong_values,correct_value,inplace = True)


<details>
<summary>Haz clic para ver la pista</summary>

Llama a la función que creaste y pasa los cuatro argumentos necesarios. Asegúrate de usar el nombre correcto de la columna y lista los valores que deben unificarse.

Etapa 2.14. Asegúrate de que los nombres duplicados se hayan eliminado. Muestra la lista de valores únicos de la columna `'genre'` una vez más:

In [71]:
# Comprueba de nuevo los duplicados implícitos
print(sorted(df['genre'].unique()))

['acid', 'acoustic', 'action', 'adult', 'africa', 'afrikaans', 'alternative', 'ambient', 'americana', 'animated', 'anime', 'arabesk', 'arabic', 'arena', 'argentinetango', 'art', 'audiobook', 'avantgarde', 'axé', 'baile', 'balkan', 'beats', 'bigroom', 'black', 'bluegrass', 'blues', 'bollywood', 'bossa', 'brazilian', 'breakbeat', 'breaks', 'broadway', 'cantautori', 'cantopop', 'canzone', 'caribbean', 'caucasian', 'celtic', 'chamber', 'children', 'chill', 'chinese', 'choral', 'christian', 'christmas', 'classical', 'classicmetal', 'club', 'colombian', 'comedy', 'conjazz', 'contemporary', 'country', 'cuban', 'dance', 'dancehall', 'dancepop', 'dark', 'death', 'deep', 'deutschrock', 'deutschspr', 'dirty', 'disco', 'dnb', 'documentary', 'downbeat', 'downtempo', 'drum', 'dub', 'dubstep', 'eastern', 'easy', 'electronic', 'electropop', 'emo', 'entehno', 'epicmetal', 'estrada', 'ethnic', 'eurofolk', 'european', 'experimental', 'extrememetal', 'fado', 'film', 'fitness', 'flamenco', 'folk', 'folklor

<details>
<summary>Haz clic para ver la pista</summary>

Usa de nuevo el método que muestra los valores únicos de una columna para verificar que todos los nombres se hayan unificado correctamente.

## Etapa 3. Análisis

### Tarea: Comparar el comportamiento de los usuarios en las dos ciudades <a id='activity'></a>

Queremos analizar si hay diferencias en la cantidad de canciones reproducidas en Springfield y Shelbyville. Para ello, usaremos los datos de dos días de la semana: lunes y viernes.

Compararemos cuántas canciones se escucharon en cada ciudad durante esos días para identificar posibles patrones de comportamiento.

Sigue estos tres pasos para organizar tu análisis:

- Dividir: agrupa los datos por ciudad.

- Aplicar: cuenta cuántas canciones se reproducen en cada grupo.

- Combinar: presenta los resultados de forma que se puedan comparar fácilmente ambas ciudades.

Repite este proceso por separado para cada uno de los dos días.

Etapa 3.1.
Cuenta cuántas canciones se reprodujeron en cada ciudad utilizando la columna `'track'` como referencia.

In [72]:
# Cuenta las canciones reproducidas en cada ciudad
print(df.groupby('city')['track'].count())

city
Shelbyville    18512
Springfield    42741
Name: track, dtype: int64


<details>
<summary>Haz clic para ver la pista</summary>

Agrupa los datos por ciudad con el método `groupby()` y usa el método `count()` para contar las canciones reproducidas en cada grupo.

Etapa 3.2. Redacta brevemente tus observaciones sobre los resultados.

¿Qué diferencias encontraste entre Springfield y Shelbyville? ¿A qué podrían deberse?

Springfield cuenta con mas del doble de reproducciones que Shelbiville lo que podría deberse a varios factores. Puede ser que Springfield tenga mucha mas densidad poblacional y por lo tanto mayor numero de usuarios escuchando musica en la plataforma. En caso de que la cantidad de poblacion de ambas ciudades sea similar, sugeriría un mayor interes en la musica en Springfield, un mayor porcentaje de usuarios en comparacion con la poblacion, menor participación de mercado de nuestra plataforma en comparacion con la competencia, entre otras cosas.

Aunque el numero de reproducciones de Shelbyville es mucho menor que el de Springfield, no por eso es despreciable. Puede ser que Shelbyville represente un mercado emergente que podríamos tratar de impulsar con campañas de mercadotecnia, promociones, etc...

Esta comparación aunque arroja un dato util, tambien es incompleta debido a la falta de información extra como el numero de usuarios activos de la plataforma en cada ciudad y su porcentaje comparado a su poblacion total.


Etapa 3.3.
Agrupa los datos por día de la semana y cuenta cuántas canciones se reprodujeron los lunes y viernes.



In [73]:
# Calcula las canciones reproducidas en cada uno de los dos días
df_lunes_viernes = df[df['day'].isin(['Monday', 'Friday'])]
print(df_lunes_viernes.groupby('day')['track'].count())

day
Friday    21840
Monday    21354
Name: track, dtype: int64


<details>
<summary>Haz clic para ver la pista</summary>

Cambia el criterio de agrupación a la columna que representa el día de la semana y filtra solo para los días que te interesan.

Etapa 3.4. Describe brevemente qué observaste al comparar los lunes y viernes.

¿Hubo un día con más actividad? ¿Cambia algo si analizas cada ciudad por separado?

La cantidad de reproducciones es muy similar, lo que sugiere que el comportamiento es bastante constante a lo largo de la semana pero si es ligeramente mayor los viernes. Esto se puede deberse a que los fines de semana la gente tiene mas tiempo para actividades recreativas como fiestas o reuniones.

Si analizamos el comportamiento de cada ciudad por separado podemos observar algo muy curioso. Mientras que en Shelbyville se mantiene e incluso se hace un poco mas prununciada la observación anterior de que los viernes hay un ligero aumento de reproducciones, en Springfield ocurre lo contrario. Es mayor el numero de reproducciones los lunes que los viernes. Con esto podemos inferir que en Springfield la gente asocia la musica mas con sus actividades cotidianas mientras que en Shelbyville se asocia mas con el ocio.

Etapa 3.5

Ahora vamos a combinar dos criterios: día y ciudad.

Crea una función llamada `number_tracks()` que reciba dos parámetros:

* `day`: un día de la semana (por ejemplo, `'Monday'`)
* `city`: el nombre de una ciudad (por ejemplo, `'Springfield'`)

Dentro de la función:

1. Filtra el DataFrame por el día.
2. Luego, filtra por la ciudad.
3. Cuenta cuántas veces aparece `'user_id'` en ese filtro.
4. Devuelve ese número como resultado.


In [74]:
# Declara la función number_tracks() con dos parámetros: day= y city=.
def number_tracks(day,city):
    # Almacena las filas del DataFrame donde el valor en la columna 'day' es igual al parámetro day=
    df_day = df[df['day'] == day]
    # Filtra las filas donde el valor en la columna 'city' es igual al parámetro city=
    df_city = df_day[df_day['city'] == city]
    # Extrae la columna 'user_id' de la tabla filtrada y aplica el método count()
    track_count = df_city['user_id'].count()
    # Devuelve el número de valores de la columna 'user_id'
    return track_count

<details>
<summary>Haz clic para ver la pista</summary>

Define una función con dos parámetros. Dentro, aplica un filtrado secuencial usando `df[...]`, y al final cuenta los valores con `.count()`.

Etapa 3.6. Llama a `number_tracks()` cuatro veces: una por ciudad en cada uno de los dos días.

In [75]:
# El número de canciones reproducidas en Springfield el lunes
print(number_tracks('Monday','Springfield'))

15740


In [76]:
# El número de canciones reproducidas en Shelbyville el lunes
print(number_tracks('Monday','Shelbyville'))

5614


In [77]:
# El número de canciones reproducidas en Springfield el viernes
print(number_tracks('Friday','Springfield'))

15945


In [78]:
# El número de canciones reproducidas en Shelbyville el viernes
print(number_tracks('Friday','Shelbyville'))

5895


<details>
<summary>Haz clic para ver la pista</summary>

Llama a tu función con combinaciones distintas de ciudad y día, como `'Monday', 'Springfield'`, y guarda o imprime los resultados para comparar.

# Conclusiones <a id='end'></a>

## Escribe tus conclusiones finales sobre el análisis

Redacta un resumen breve y claro de los hallazgos obtenidos durante el proceso de análisis. Tu conclusión debe:

* Mencionar los principales patrones que observaste en los datos.
* Identificar cualquier problema encontrado y cómo lo solucionaste.
* Explicar cómo estas acciones ayudaron a mejorar la calidad del análisis.

Reflexiona también sobre la pregunta central:

> *¿Los datos muestran que el comportamiento de los usuarios —en cuanto a la música que escuchan— varía según la ciudad y el día de la semana?*

Apoya tu respuesta con ejemplos concretos de los resultados obtenidos.


A simple vista podemos decir dado el analisis que realizamos que Springfield tiene la mayor cantidad de reproducciones (Mas del doble de las de Shelbyville).

Si observamos el comportamiento en función de los días de la semana sumando las reproducciones de ambas ciudades vemos que los viernes concentran la mayor cantidad de reproducciones. Sin embargo se mantiene bastante estable a lo largo de toda la semana.

Tomando en cuenta los datos en función de las ciudades y días de la semana se observan patrones muy diferentes. 
En Springfield los viernes son los días mas fuertes mientras que en Shelbyville los miercoles superan considerablemente a los demás días. 

Los problemas que se presentaron fueron los dos siguientes:
1. Formato variable en cuanto a los nombres de las columnas: algunas contenían espacios antes o despues o combinaciones de mayusculas y minusculas. Para estandarizar el formato se utilizaron los metodos lower() y strip().
2. Datos faltantes en las columnas track, artist y genre que para efectos del analisis que se nos sugiere no representaron un obstaculo significativo debido a que para probar nuestra hipotesis las columnas necesarias fueron user_id, city y day. Las cuales afortunadamente no presentaban datos faltantes.
De igual forma se hizo un tratamiento de datos duplicados para identificarlos y contarlos para posteriormente eliminarlos. (metodos duplicates().sum() y drop_duplicates()).
3. finalmente identificamos los duplicados implicitos apoyandonos del metodo unique() y los tratamos con el metodo replace().

Este tratamiento de limpieza y filtrado de los datos facilitó primero la escritura del codigo necesario y por lo tanto el analisis final haciendo ambos mas legibles, claros y mejorando la calidad de los datos y por lo tanto la información que logramos obtener de ellos. Todo esto repercute en conclusiones claras, utiles, y veraces que se pueden usar para una mejor toma de decisiones.

En cuanto a la pregunta central de nuestra hipotesis ¿Los datos muestran que el comportamiento de los usuarios —en cuanto a la música que escuchan— varía según la ciudad y el día de la semana?

Podemos concluir que sí. El analisis mostró que el comportamiento de escucha efectivamente varía en función de las condiciones geograficas y el día de la semana.
Por ejemplo: En Springfield el consumo musical es mayor el viernes, mientras que en Shelbyville es mayor el miércoles. Esto sugiere que la variable geografica tiene un impacto relevante en los resultados observados.
Por su parte el dia de la semana tambien genera variaciones en los patrones de consumo musical de los usuarios. Por ejemplo en Shelbyville los miercoles tenemos aproximadamente 1,400 reproducciones mas que al inicio y el fin de semana mientras que en Sprinfield los fines de semana dominan.
