<div style="text-align: center; font-size: 30px; color: blue; font-family: 'Arial', sans-serif;">
    <b>Déjame escuchar la música</b>
</div>

# Contenido <a id='back'></a>

* [Introducción](#intro)
* [Etapa 1. Descripción de los datos](#data_review)
    * [Conclusiones](#data_review_conclusions)
* [Etapa 2. Preprocesamiento de datos](#data_preprocessing)
    * [2.1 Estilo del encabezado](#header_style)
    * [2.2 Valores ausentes](#missing_values)
    * [2.3 Duplicados](#duplicates)
    * [2.4 Conclusiones](#data_preprocessing_conclusions)
* [Etapa 3. Prueba de hipótesis](#hypothesis)
    * [3.1 Hipótesis 1: actividad de los usuarios y las usuarias en las dos ciudades](#activity)
* [Conclusiones](#end)

## Introducción <a id='intro'></a>
Como analista de datos, mi trabajo consiste en analizar datos para extraer información valiosa y tomar decisiones basadas en ellos. Esto implica diversas etapas, como la descripción general de los datos, el preprocesamiento y la prueba de hipótesis.

Siempre que investigo, necesito formular hipótesis que después pueda probar. A veces, acepto estas hipótesis; otras veces, las rechazo. Para tomar decisiones correctas, es esencial comprender si las suposiciones que se están haciendo son las adecuadas.

En este proyecto, compararé las preferencias musicales de las ciudades de Springfield y Shelbyville. Estudiaré datos reales de transmisión de música en línea para probar la hipótesis y comparar el comportamiento de los usuarios y usuarias de estas dos ciudades. Este análisis me permitirá identificar patrones y diferencias en las preferencias musicales, proporcionando información valiosa para posibles estrategias de mercado.

### Objetivo:
Probar la hipótesis:
1. La actividad de los usuarios y las usuarias difiere según el día de la semana y dependiendo de la ciudad.

### Etapas

Los datos del comportamiento del usuario se almacenan en el archivo `/datasets/music_project_en.csv`. No tengo ninguna información sobre la calidad de los datos, así que necesitaré examinarlos antes de probar la hipótesis.

Primero, evaluaré la calidad de los datos y veré si los problemas son significativos. Durante el preprocesamiento de datos, tomaré en cuenta los problemas más críticos.

Mi proyecto consistirá en tres etapas:
1. Descripción de los datos.
2. Preprocesamiento de datos.
3. Prueba de hipótesis.

### Acceso a los Datos

El archivo de datos `music_project_en.csv` está incluido en este repositorio de GitHub. Asegúrate de descargar el archivo y colocarlo en el directorio adecuado antes de ejecutar el notebook. Puedes cargar los datos con el siguiente código en Python:

```python
import pandas as pd

# Cargar los datos
data = pd.read_csv('/datasets/music_project_en.csv')

# Visualizar las primeras filas del dataframe
data.head()

## Etapa 1: Descripción de los Datos <a id='data_review'></a>
Se procederá a examinar los datos y su calidad.

In [181]:
import pandas as pd
df =  pd.read_csv('/home/josue/music_project_en.csv')
df.head(10)

Unnamed: 0,userID,Track,artist,genre,City,time,Day
0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Shelbyville,20:28:33,Wednesday
1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Springfield,14:07:09,Friday
2,20EC38,Funiculì funiculà,Mario Lanza,pop,Shelbyville,20:58:07,Wednesday
3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Shelbyville,08:37:09,Monday
4,E2DC1FAE,Soul People,Space Echo,dance,Springfield,08:34:34,Monday
5,842029A1,Chains,Obladaet,rusrap,Shelbyville,13:09:41,Friday
6,4CB90AA5,True,Roman Messer,dance,Springfield,13:00:07,Wednesday
7,F03E1C1F,Feeling This Way,Polina Griffith,dance,Springfield,20:47:49,Wednesday
8,8FA1D3BE,L’estate,Julia Dalia,ruspop,Springfield,09:17:40,Friday
9,E772D5C0,Pessimist,,dance,Shelbyville,21:20:49,Wednesday


In [182]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65079 entries, 0 to 65078
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0     userID  65079 non-null  object
 1   Track     63736 non-null  object
 2   artist    57512 non-null  object
 3   genre     63881 non-null  object
 4     City    65079 non-null  object
 5   time      65079 non-null  object
 6   Day       65079 non-null  object
dtypes: object(7)
memory usage: 3.5+ MB


In [183]:
valores_faltantes = df.isna().sum()
valores_duplicados = df.duplicated().sum()
print()
print(valores_faltantes)
print()
print(valores_duplicados)


  userID       0
Track       1343
artist      7567
genre       1198
  City         0
time           0
Day            0
dtype: int64

3826


Estas son nuestras observaciones sobre la tabla. Contiene siete columnas. Almacenan los mismos tipos de datos: `object`.

Según la documentación:
- `' userID'`: identificador del usuario o la usuaria;
- `'Track'`: título de la canción;
- `'artist'`: nombre del artista;
- `'genre'`: género de la pista;
- `'City'`: ciudad del usuario o la usuaria;
- `'time'`: la hora exacta en la que se reprodujo la canción;
- `'Day'`: día de la semana.

En la tabla de datos cargada, se identifican tres problemas principales con el estilo de los encabezados de las columnas y los tipos de datos:

Inconsistencia en mayúsculas y minúsculas:

Algunos encabezados están en mayúsculas, mientras que otros están en minúsculas. Esto puede llevar a confusión y errores al referenciar las columnas en el código.
Presencia de espacios en los encabezados:

Los espacios en los encabezados de las columnas pueden causar problemas al trabajar con los datos, ya que muchas herramientas y métodos esperan nombres de columnas sin espacios.
Formato y tipo de datos inconsistente:

Los encabezados de las columnas no están en formato snake_case, que es una convención comúnmente utilizada para los nombres de columnas en pandas.
La columna time está en el tipo de datos object en lugar de datetime, lo que puede dificultar el análisis temporal.

### Conclusion de la etapa descripción de los datos <a id='data_review_conclusions'></a>

`1.   ¿Qué tipo de datos tenemos a nuestra disposición en las filas? ¿Y cómo podemos entender lo que almacenan las columnas?`
Vemos que tenemos datos de tipo Object, solo cambiaremos la columna Time a un formato de hora válido, es fácil de comprender lo que estan almacenando debido a la explicación que se brinda en la celda superior. 

`2.   ¿Hay suficientes datos para proporcionar respuestas a nuestra hipótesis o necesitamos más información?`
Definitavemente los hay, si seguimos todas las etapas nuestro proyecto será un éxito.

`3.   ¿Notaste algún problema en los datos, como valores ausentes, duplicados o tipos de datos incorrectos?`
Si, vi valores faltantes en 3 columnas, y en total tenemos 3826 valores duplicados que necesitamos observalos a detalle.

## Etapa 2: Preprocesamiento de los Datos <a id='data_preprocessing'></a>
El objetivo aquí es preparar los datos para que sean analizados.
El primer paso es resolver cualquier problema con los encabezados. Luego podemos avanzar a los valores ausentes y duplicados. Empecemos.


### Estilo del encabezado <a id='header_style'></a>
Cambiaremos los encabezados de la tabla de acuerdo con las reglas del buen estilo:
* Todos los caracteres deben ser minúsculas.
* Eliminar los espacios.
* Si el nombre tiene varias palabras, utilizar snake_case.
Ocuparemos una list_comprehensions para mas fácil, despues la asignaremos a nuestro df para hacer estas modificaciones.

In [184]:
# Utilizaremos una list comprehension para resolver el punto 1 y 2, posteriormente con la ayuda de rename, utilizaremos el estilo snake_case.

df.columns = [col.strip().lower() for col in df.columns]
rename_dict = {
    'userid': 'user_id',
    'track': 'track',
    'artist': 'artist',
    'city': 'city',
    'time': 'time',
    'day': 'day'
}

df.rename(columns=rename_dict, inplace=True)

df

Unnamed: 0,user_id,track,artist,genre,city,time,day
0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Shelbyville,20:28:33,Wednesday
1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Springfield,14:07:09,Friday
2,20EC38,Funiculì funiculà,Mario Lanza,pop,Shelbyville,20:58:07,Wednesday
3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Shelbyville,08:37:09,Monday
4,E2DC1FAE,Soul People,Space Echo,dance,Springfield,08:34:34,Monday
...,...,...,...,...,...,...,...
65074,729CBB09,My Name,McLean,rnb,Springfield,13:32:28,Wednesday
65075,D08D4A55,Maybe One Day (feat. Black Spade),Blu & Exile,hip,Shelbyville,10:00:00,Monday
65076,C5E3A0D5,Jalopiina,,industrial,Springfield,20:09:26,Friday
65077,321D0506,Freight Train,Chas McDevitt,rock,Springfield,21:43:59,Friday


### Valores ausentes <a id='missing_values'></a>
Primero, encontraremos el número de valores ausentes en la tabla. Debemos utilizar dos métodos en una secuencia para obtener el número de valores ausentes.

In [185]:
# Procederemos a encontrar cuantos valores ausentes tenemos y en que columnas estan, para hacer su análisis.
df.isna().sum()

user_id       0
track      1343
artist     7567
genre      1198
city          0
time          0
day           0
dtype: int64

In [186]:
# Utilizaremos la palabra 'unknown' para hacer pudieramos ocupar un bucle o el método fillna() , debido a la facilidad de fillna() lo ocuparemos para rellenar estos valores.
df.fillna('unknown', inplace=True)
df.isna().sum()

user_id    0
track      0
artist     0
genre      0
city       0
time       0
day        0
dtype: int64

Como vimos ya se sustiyueron los valores ausentes de una forma muy sencilla, con la palabra 'unknown' ahora procederemos a los siguientes pasos.

### Duplicados <a id='duplicates'></a>
Se debe encontrar el número de duplicados explícitos en la tabla. Una vez más, debemos aplicar dos métodos en una secuencia para obtener la cantidad de duplicados explícitos.

In [187]:
# Con ayuda de duplicated() encontramos la cantidad de filas duplicadas.
df.duplicated().sum()

3826

In [188]:
df.drop_duplicates(inplace=True)
df.duplicated().sum()

0

In [189]:
#Ahora, la columna time tiene un tipo object, por cuestiones de practicidad debe estar en formato to_datetime, asi que procederemos a convertirlo.
df['time'] = pd.to_datetime(df['time'], format='%H:%M:%S')

In [190]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 61253 entries, 0 to 65078
Data columns (total 7 columns):
 #   Column   Non-Null Count  Dtype         
---  ------   --------------  -----         
 0   user_id  61253 non-null  object        
 1   track    61253 non-null  object        
 2   artist   61253 non-null  object        
 3   genre    61253 non-null  object        
 4   city     61253 non-null  object        
 5   time     61253 non-null  datetime64[ns]
 6   day      61253 non-null  object        
dtypes: datetime64[ns](1), object(6)
memory usage: 3.7+ MB


Ahora queremos deshacernos de los duplicados implícitos en la columna `genre`. Por ejemplo, el nombre de un género se puede escribir de varias formas. Dichos errores también pueden afectar al resultado. 
Para hacerlo, primero mostremos una lista de nombres de género únicos, ordenados en orden alfabético. Para ello:
* Extraeremos la columna `genre` del DataFrame.
* Llamaremos al método que devolverá todos los valores únicos en la columna extraída.

In [191]:
genres_df = df['genre'].unique()
unique_genres_df = sorted(genres_df)
unique_genres_df

['acid',
 'acoustic',
 'action',
 'adult',
 'africa',
 'afrikaans',
 'alternative',
 'ambient',
 'americana',
 'animated',
 'anime',
 'arabesk',
 'arabic',
 'arena',
 'argentinetango',
 'art',
 'audiobook',
 'avantgarde',
 'axé',
 'baile',
 'balkan',
 'beats',
 'bigroom',
 'black',
 'bluegrass',
 'blues',
 'bollywood',
 'bossa',
 'brazilian',
 'breakbeat',
 'breaks',
 'broadway',
 'cantautori',
 'cantopop',
 'canzone',
 'caribbean',
 'caucasian',
 'celtic',
 'chamber',
 'children',
 'chill',
 'chinese',
 'choral',
 'christian',
 'christmas',
 'classical',
 'classicmetal',
 'club',
 'colombian',
 'comedy',
 'conjazz',
 'contemporary',
 'country',
 'cuban',
 'dance',
 'dancehall',
 'dancepop',
 'dark',
 'death',
 'deep',
 'deutschrock',
 'deutschspr',
 'dirty',
 'disco',
 'dnb',
 'documentary',
 'downbeat',
 'downtempo',
 'drum',
 'dub',
 'dubstep',
 'eastern',
 'easy',
 'electronic',
 'electropop',
 'emo',
 'entehno',
 'epicmetal',
 'estrada',
 'ethnic',
 'eurofolk',
 'european',
 'expe

In [192]:
df[df['genre'].isin(['hip', 'hop', 'hip-hop'])]

Unnamed: 0,user_id,track,artist,genre,city,time,day
20,201CF2A8,Ya'll In Trouble,Lil Tee Chill Tank Young Buck Brother Mohammed...,hip,Springfield,1900-01-01 08:46:03,Monday
46,825997A5,Glorious Feeling,Joelistics,hip,Springfield,1900-01-01 21:46:34,Friday
79,1DA07AA4,Cardi B,Money Man,hip,Shelbyville,1900-01-01 14:02:14,Monday
81,CCD46819,Narcos,FOrΣvΣrT,hip,Shelbyville,1900-01-01 09:20:38,Wednesday
82,80396F,Ay Caramba,Stay Flee Get Lizzy,hip,Springfield,1900-01-01 13:15:38,Monday
...,...,...,...,...,...,...,...
65034,C1C4C94D,Payback,Vo,hip,Springfield,1900-01-01 20:07:31,Friday
65041,78713DBB,Feels Like Saving The World,Outlandish,hip,Springfield,1900-01-01 14:27:55,Friday
65043,CDCAFD62,Payday,King Hot,hip,Shelbyville,1900-01-01 14:31:37,Friday
65052,72CB2D36,Yeezy Taught Her (feat. King Louie),Josh.k,hip,Springfield,1900-01-01 20:34:11,Friday


wrong_genres=: esta es una lista que contiene todos los valores que necesitas reemplazar.
correct_genre=: este es un string que vas a utilizar como reemplazo.

In [193]:
def replace_wrong_genres(df, wrong_genre, correct_genre):
    for i in df.index:
        if df.loc[i, 'genre'] in wrong_genre:
            df.loc[i, 'genre'] = correct_genre
    return df

wrong_genre = ['hip', 'hop', 'hip-hop']
correct_genre = 'hiphop'

resultado = replace_wrong_genres(df, wrong_genre, correct_genre)


In [194]:
df[df['genre'].isin(['hip', 'hop', 'hip-hop'])]

Unnamed: 0,user_id,track,artist,genre,city,time,day


### Tus observaciones <a id='data_preprocessing_conclusions'></a>

En esta sección de preprocesamiento de los datos hicimos muchas cosas muy importantes, primero tenemos que tener columnas normalizadas para el análisis siguiente el estilo snake_case, después pasamos a los valores ausentes, evaluamos cuantos teniamos, y procedimos a eliminarlos. Posteriomente con los valores duplicados explicitos, que son las filas que se repiten excactamente igual en el df, después pasamos con los duplicados implicitos que son aquellos que se producen en una columna o dos en específico, los corregimos y normalizamos el genero. Con esto estamos seguros que nuestros datos se encuentran limpios y listos para hacer la evaluación de nuestras hipótesis que tenemos desde un principio. 

## Etapa 3. Prueba de hipótesis <a id='hypothesis'></a>

### Hipótesis: comparar el comportamiento del usuario o la usuaria en las dos ciudades <a id='activity'></a>

La hipótesis afirma que existen diferencias en la forma en que los usuarios y las usuarias de Springfield y Shelbyville consumen música. Para comprobar esto, usa los datos de tres días de la semana: lunes, miércoles y viernes.

* Agrupa a los usuarios y las usuarias por ciudad.
* Compara el número de canciones que cada grupo reprodujo el lunes, el miércoles y el viernes.


Realiza cada cálculo por separado.

El primer paso es evaluar la actividad del usuario en cada ciudad. Recuerda las etapas dividir-aplicar-combinar de las que hablamos anteriormente en la lección. Tu objetivo ahora es agrupar los datos por ciudad, aplicar el método apropiado para contar durante la etapa de aplicación y luego encontrar la cantidad de canciones reproducidas en cada grupo especificando la columna para obtener el recuento.

A continuación se muestra un ejemplo de cómo debería verse el resultado final:
`df.groupby(by='....')['column'].method()`Realiza cada cálculo por separado.

Para evaluar la actividad de los usuarios y las usuarias en cada ciudad, agrupa los datos por ciudad y encuentra la cantidad de canciones reproducidas en cada grupo.


In [195]:
# Contaremos las canciones reproducidas en cada ciudad

city_result = df.groupby('city')['track'].count()
city_result


city
Shelbyville    18512
Springfield    42741
Name: track, dtype: int64

Observamos que en Springfield hay muchos oyentes mas del doble, mientras que Shelbyville consume mucho menos música, pero es interesante saber en los dias cómo varía el consumo, sigamos adelante.

Ahora agrupemos los datos por día de la semana y encontremos el número de canciones reproducidas el lunes, miércoles y viernes.

In [196]:
# Calcular las canciones reproducidas en cada uno de los tres días

city_result_day = df.groupby(['city', 'day']).count()
city_result_day


Unnamed: 0_level_0,Unnamed: 1_level_0,user_id,track,artist,genre,time
city,day,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Shelbyville,Friday,5895,5895,5895,5895,5895
Shelbyville,Monday,5614,5614,5614,5614,5614
Shelbyville,Wednesday,7003,7003,7003,7003,7003
Springfield,Friday,15945,15945,15945,15945,15945
Springfield,Monday,15740,15740,15740,15740,15740
Springfield,Wednesday,11056,11056,11056,11056,11056


Ya sabes cómo contar entradas agrupándolas por ciudad o día. Ahora necesitas escribir una función que pueda contar entradas según ambos criterios simultáneamente.

Crea la función `number_tracks()` para calcular el número de canciones reproducidas en un determinado día **y** ciudad. La función debe aceptar dos parámetros:

- `day`: un día de la semana para filtrar. Por ejemplo, `'Monday'` (lunes).
- `city`: una ciudad para filtrar. Por ejemplo, `'Springfield'`.

Dentro de la función, aplicarás un filtrado consecutivo con indexación lógica.

Primero filtra los datos por día y luego filtra la tabla resultante por ciudad.

Después de filtrar los datos por dos criterios, cuenta el número de valores de la columna 'user_id' en la tabla resultante. Este recuento representa el número de entradas que estás buscando. Guarda el resultado en una nueva variable y devuélvelo desde la función.

In [197]:
#Creamos una funcion para hacer mas fácil y sencillo la obtención de las canciones reproducidas en las ciudades por día.
def number_tracks(df, day, city):
    df_filter_day = df[df['day'] == day]
    df_filter_city = df_filter_day[df_filter_day['city'] == city]
    result = df_filter_city['user_id'].count()
    return result

In [198]:
#Con dos listas una de nombre de ciudades y otra de díasl alimentaremos la función para obrtener los resultados.
days = ['Monday', 'Wednesday', 'Friday']
cities = ['Springfield', 'Shelbyville']
for day in days:
    for city in cities:
        num_tracks = number_tracks(df, day, city)
        print(f'El día {day} en la Ciudad {city} tuvo en total {num_tracks} reproducciones')


El día Monday en la Ciudad Springfield tuvo en total 15740 reproducciones
El día Monday en la Ciudad Shelbyville tuvo en total 5614 reproducciones
El día Wednesday en la Ciudad Springfield tuvo en total 11056 reproducciones
El día Wednesday en la Ciudad Shelbyville tuvo en total 7003 reproducciones
El día Friday en la Ciudad Springfield tuvo en total 15945 reproducciones
El día Friday en la Ciudad Shelbyville tuvo en total 5895 reproducciones


**Conclusiones**
Diferencias en Reproducciones por Ciudad:

- En todos los días analizados (lunes, miércoles y viernes), Springfield tiene un número significativamente mayor de reproducciones comparado con Shelbyville.

- Esto sugiere que los usuarios y las usuarias de Springfield tienen una mayor actividad de reproducción de música en comparación con los de Shelbyville.
Consistencia de la Actividad:

- La actividad de reproducción en Springfield es consistentemente alta durante los tres días, con pequeños aumentos el viernes.

- Shelbyville también muestra un patrón de aumento en las reproducciones hacia el viernes, aunque el incremento es menor en comparación con Springfield.

Prueba de la Hipótesis:

- La hipótesis de que la actividad de los usuarios y las usuarias difiere según el día de la semana y dependiendo de la ciudad es válida. Hay claras diferencias entre las dos ciudades en términos de número de reproducciones, y la actividad es mayor en Springfield que en Shelbyville en los días analizados.

Estas conclusiones muestran que hay una tendencia clara en el comportamiento de los usuarios y las usuarias de música en línea en las dos ciudades, con Springfield siendo la ciudad con mayor actividad de reproducción. Esto podría deberse a varios factores como la población, el acceso a la tecnología, o las preferencias culturales que podrían ser exploradas en análisis futuros.

# Conclusiones <a id='end'></a>

En este proyecto, hemos analizado las preferencias musicales de las ciudades de Springfield y Shelbyville utilizando datos reales de transmisión de música online. Nuestro objetivo fue comprobar la hipótesis de que la actividad de los usuarios y las usuarias difiere según el día de la semana y dependiendo de la ciudad. A continuación se presentan las conclusiones finales basadas en el análisis realizado:

1. Diferencias en la Actividad de Reproducción por Ciudad:

Springfield mostró consistentemente un mayor número de reproducciones en comparación con Shelbyville durante los días analizados (lunes, miércoles y viernes).
Esto sugiere una mayor actividad de consumo de música en Springfield en comparación con Shelbyville.

2. Patrones de Consumo Semanal:

En ambas ciudades, se observó un aumento en el número de reproducciones el viernes en comparación con el lunes y el miércoles. Este patrón indica que los usuarios y las usuarias tienden a escuchar más música a medida que se acerca el fin de semana.
A pesar del incremento hacia el viernes, Springfield mantuvo un nivel de actividad superior al de Shelbyville en todos los días analizados.

3. Hipótesis Comprobada:

La hipótesis inicial, que planteaba diferencias en la actividad de los usuarios y las usuarias según el día de la semana y la ciudad, se ha confirmado. Las diferencias en el número de reproducciones son significativas y consistentes entre las dos ciudades.

4. Calidad de los Datos:

Durante el proceso de preprocesamiento, se identificaron y corrigieron problemas con los encabezados de las columnas, valores ausentes y duplicados. Esto permitió realizar un análisis más preciso y confiable.
Se corrigieron las inconsistencias en los nombres de géneros musicales, como 'hip', 'hop' y 'hip-hop', unificándolos bajo un único término 'hiphop'.