# Contenido <a id='back'></a>

* [Introducción](#intro)
* [Etapa 1. Descripción de los datos](#data_review)
    * [Conclusiones](#data_review_conclusions)
* [Etapa 2. Preprocesamiento de datos](#data_preprocessing)
    * [2.1 Estilo del encabezado](#header_style)
    * [2.2 Valores ausentes](#missing_values)
    * [2.3 Duplicados](#duplicates)
    * [2.4 Conclusiones](#data_preprocessing_conclusions)
* [Etapa 3. Prueba de hipótesis](#hypothesis)
    * [3.1 Hipótesis 1: actividad de los usuarios y las usuarias en las dos ciudades](#activity)
* [Conclusiones](#end)

## Introducción <a id='intro'></a>
En este proyecto, se analizara datos de transmisión de música online almacenados en el archivo /datasets/music_project_en.csv. Los datos incluyen información sobre usuarios, canciones, artistas, géneros, y tiempos de reproducción en dos ciudades: Springfield y Shelbyville. El objetivo es explorar y limpiar los datos, y finalmente, comparar el comportamiento musical en ambas ciudades para probar una hipótesis sobre las diferencias en preferencias.

### Objetivo:
Prueba la hipótesis:
1. La actividad de los usuarios y las usuarias difiere según el día de la semana y dependiendo de la ciudad.


El proyecto consistirá en tres etapas:
 1. Descripción de los datos.
 2. Preprocesamiento de datos.
 3. Prueba de hipótesis.








[Volver a Contenidos](#back)

## Etapa 1. Descripción de los datos <a id='data_review'></a>

Se abriran los archivos y se observaran sus tipos de datos , la cantidad de datos que existen y una vision general.

In [27]:
# Se importa la liberia pandas 
import pandas as pd

Se lee el archivo  `music_project_en.csv` de la carpeta `/datasets/` y se lo guarda en df.

In [28]:
# Lectura del archivo 
df = pd.read_csv(r'C:\Users\andre\Documents\TRIPLETEN ANALISIS DE DATOS\Proyectos\Proyecto_1\music_project.csv')

Se muestran las primeras 10 filas para tener la vision general de la tabla.

In [29]:
# Obtener las 10 primeras filas de la tabla df
df.head(10)

Unnamed: 0,userID,Track,artist,genre,City,time,Day
0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Shelbyville,20:28:33,Wednesday
1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Springfield,14:07:09,Friday
2,20EC38,Funiculì funiculà,Mario Lanza,pop,Shelbyville,20:58:07,Wednesday
3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Shelbyville,08:37:09,Monday
4,E2DC1FAE,Soul People,Space Echo,dance,Springfield,08:34:34,Monday
5,842029A1,Chains,Obladaet,rusrap,Shelbyville,13:09:41,Friday
6,4CB90AA5,True,Roman Messer,dance,Springfield,13:00:07,Wednesday
7,F03E1C1F,Feeling This Way,Polina Griffith,dance,Springfield,20:47:49,Wednesday
8,8FA1D3BE,L’estate,Julia Dalia,ruspop,Springfield,09:17:40,Friday
9,E772D5C0,Pessimist,,dance,Shelbyville,21:20:49,Wednesday



Posteriormente se aplica el metodo info , para poder observar los tipos de datos de las columnas   y de igual manera comprobar si existen valores ausentes.

In [30]:
# metodo info
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65079 entries, 0 to 65078
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0     userID  65079 non-null  object
 1   Track     63736 non-null  object
 2   artist    57512 non-null  object
 3   genre     63881 non-null  object
 4     City    65079 non-null  object
 5   time      65079 non-null  object
 6   Day       65079 non-null  object
dtypes: object(7)
memory usage: 3.5+ MB


##### Estas son las observaciones sobre la tabla. Contiene siete columnas. Almacenan los mismos tipos de datos: `object`.

Según la documentación:
- `' userID'`: identificador del usuario o la usuaria;
- `'Track'`: título de la canción;
- `'artist'`: nombre del artista;
- `'genre'`: género de la pista;
- `'City'`: ciudad del usuario o la usuaria;
- `'time'`: la hora exacta en la que se reprodujo la canción;
- `'Day'`: día de la semana.

Podemos ver tres problemas con el estilo en los encabezados de la tabla:
1. Algunos encabezados están en mayúsculas, otros en minúsculas.
2. Hay espacios en algunos encabezados.
3. `EL Identificador userID deberia existir un espacio entre user e ID y teniendo en cuenta los problemas 1 y 2 quedaria (user_id)`.




### Observacion general 
Se puede ver en multiples columnas que existen valores ausentes , el cual deberan ser tratados para el posterior analisis.
De igual manera se observa que es una tabla que contiene 65079 filas.

[Volver a Contenidos](#back)

## Etapa 2. Preprocesamiento de datos <a id='data_preprocessing'></a>

El objetivo aquí es preparar los datos para que sean analizados.
El primer paso es resolver cualquier problema con los encabezados. Luego se podrra avanzar a los valores ausentes y duplicados.



### Estilo del encabezado <a id='header_style'></a>
Se muestran los emcabezados de la tabla.

In [31]:
# Se usa el metodo columns 
df.columns

Index(['  userID', 'Track', 'artist', 'genre', '  City  ', 'time', 'Day'], dtype='object')

En esta primera parte se puede ver que se tienen titulos con mayuscula , otros con minusculas , de igual manera con espacios entre ellos. Se aplicaran las siguientes reglas para los emcabezados. 


* Todos los caracteres deben ser minúsculas.
* Elimina los espacios.
* Si el nombre tiene varias palabras, utiliza snake_case.

Para tener las mismas reglas en todo los titulos , se utilizara un buble el cual permita aplicar los distintos metodos para los cambios.


In [32]:
# Bucle en los encabezados poniendo todo en minúsculas

columns_lower=[] #lista donde se almacenara la columna con los datos corregidos
for old_columns in df: #ciclo for para poder convertir los datos a minuscula 
    new_columns=old_columns.lower() #se convierten en minuscula usando el metodo lower
    strip_columns=new_columns.strip() # se quita el espacio 
    columns_lower.append(strip_columns) #se asigna los valores a la nueva lista 
df.columns=columns_lower #y se asigna la nueva columna a la vieja columna 
print(df.columns)
    

Index(['userid', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')


Ahora se necesita  aplicar la regla de snake_case a la columna `userid`. Debe ser `user_id`.

In [33]:
# Cambiar el nombre de la columna "userid"
#se crea un diccionario donde se tenga las palabras que se quieran cambiar en este caso la de userid
rename={
"userid":"user_id"
}
#se asigna el diccionario a columns y usando inplace=True no hay necesidad de reasignar 
df.rename(columns=rename,inplace=True)
#y se muestran las columnas ya corregias.
df.columns

Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')

[Volver a Contenidos](#back)

### Valores ausentes <a id='missing_values'></a>
 A continuacion se procedera a encontrar los valores ausentes existentes y el tratamiento de los mismos.

In [34]:
# Se usa el metodo isna seguido del metodo sum.
df.isna().sum()

user_id       0
track      1343
artist     7567
genre      1198
city          0
time          0
day           0
dtype: int64

No todos los valores ausentes afectan a la investigación. Por ejemplo, los valores ausentes en `track` y `artist` no son cruciales. Simplemente se los  reemplazara con valores predeterminados como el string `'unknown'` (desconocido).

Pero los valores ausentes en `'genre'` pueden afectar la comparación entre las preferencias musicales de Springfield y Shelbyville. En la vida real, sería útil saber las razones por las cuales hay datos ausentes e intentar recuperarlos. 

Reemplazando los valores ausentes en las columnas `'track'`, `'artist'` y `'genre'` con el string `'unknown'`.

In [50]:
# Bucle en los encabezados reemplazando los valores ausentes con 'unknown'
#lista donde se muestren las columans donde estan los valores ausentes
empty_column=['track',"artist","genre"]
for new in empty_column: #ciclo for que recorra las columnas
    df[new]=df[new].fillna("unkown") #se reemplaza los valores vacios por el string "unkown"



In [36]:
# Se muestra en pantalla que no existen valores ausentes.
df.isna().sum()

user_id    0
track      0
artist     0
genre      0
city       0
time       0
day        0
dtype: int64

[Volver a Contenidos](#back)

### Duplicados <a id='duplicates'></a>
Ahora se procedera a contar los valores duplicados existentes en todo la tabla.

In [37]:
# Contar duplicados explícitos
df.duplicated().sum()

np.int64(3826)

Ahora, eliminamos todos los duplicados explicitos , usando el metodo drop_duplicates.

In [38]:
# Eliminar duplicados explícitos 
#este metodo elimina los duplicados explicitos y ademas elimina la columna que se creara con los indices erroneos 
df=df.drop_duplicates().reset_index(drop=True) 
#Mostramos por pantalla si existen valores duplicados.
print(df.duplicated().sum())


0


Ahora se va a eliminar  los duplicados implícitos en la columna `genre`. Por ejemplo, el nombre de un género se puede escribir de varias formas. Dichos errores también pueden afectar al resultado.

Para hacerlo, primero se mostrara una lista de nombres de género únicos, ordenados en orden alfabético. Para ello:



In [39]:
# Inspeccionar los nombres de géneros únicos
column_genre=df["genre"].sort_values() #creo una variable para almacenar la columna genre y ordenarla de forma alfabetica
column_genre.unique() #muestro todos los valores unicos que tiene que tiene la columna 

array(['acid', 'acoustic', 'action', 'adult', 'africa', 'afrikaans',
       'alternative', 'ambient', 'americana', 'animated', 'anime',
       'arabesk', 'arabic', 'arena', 'argentinetango', 'art', 'audiobook',
       'avantgarde', 'axé', 'baile', 'balkan', 'beats', 'bigroom',
       'black', 'bluegrass', 'blues', 'bollywood', 'bossa', 'brazilian',
       'breakbeat', 'breaks', 'broadway', 'cantautori', 'cantopop',
       'canzone', 'caribbean', 'caucasian', 'celtic', 'chamber',
       'children', 'chill', 'chinese', 'choral', 'christian', 'christmas',
       'classical', 'classicmetal', 'club', 'colombian', 'comedy',
       'conjazz', 'contemporary', 'country', 'cuban', 'dance',
       'dancehall', 'dancepop', 'dark', 'death', 'deep', 'deutschrock',
       'deutschspr', 'dirty', 'disco', 'dnb', 'documentary', 'downbeat',
       'downtempo', 'drum', 'dub', 'dubstep', 'eastern', 'easy',
       'electronic', 'electropop', 'emo', 'entehno', 'epicmetal',
       'estrada', 'ethnic', 'eurofo

Se puede observar que existen ciertos duplicados implicitos. El cual seran tratados para convertirlo en uno solo.

Verás los siguientes duplicados implícitos:
* `hip`
* `hop`
* `hip-hop`

Para ello, se  crea una función llamada `replace_wrong_genres()` con dos parámetros:
* `wrong_genres=`: esta es una lista que contiene todos los valores que necesitan ser reemplazados.
* `correct_genre=`: este es un string que se va  a utilizar como reemplazo.


In [40]:
# Función para reemplazar duplicados implícitos
#defino la funcion 
def replace_wrong_genres(wrong_genres,correct_genre):
    for correct in wrong_genres: #creo una iteracion que recorrera todos los valores mal escritos 
        df["genre"]=df["genre"].replace(correct,correct_genre) #accedo a la columna genre el cual reemplazare todos los valores de correct por correct_genre
    return column_genre



Ahora, llama a `replace_wrong_genres()` y pásale tales argumentos para que retire los duplicados implícitos (`hip`, `hop` y `hip-hop`) y los reemplace por `hiphop`:

In [41]:
# Eliminar duplicados implícitos
wrong_values=["hip","hop","hip-hop"] #lista de todos los valores mal escritos 
new_values="hiphop" #nuevo string por reemplazar 
new_genre=replace_wrong_genres(wrong_values,new_values)

Ahora nos aseguramos que los duplicados implicitos fueron reemplazados correctamente.

In [19]:
# Comprobación de duplicados implícitos
column_genre=df["genre"].sort_values()
column_genre.unique()


array(['acid', 'acoustic', 'action', 'adult', 'africa', 'afrikaans',
       'alternative', 'ambient', 'americana', 'animated', 'anime',
       'arabesk', 'arabic', 'arena', 'argentinetango', 'art', 'audiobook',
       'avantgarde', 'axé', 'baile', 'balkan', 'beats', 'bigroom',
       'black', 'bluegrass', 'blues', 'bollywood', 'bossa', 'brazilian',
       'breakbeat', 'breaks', 'broadway', 'cantautori', 'cantopop',
       'canzone', 'caribbean', 'caucasian', 'celtic', 'chamber',
       'children', 'chill', 'chinese', 'choral', 'christian', 'christmas',
       'classical', 'classicmetal', 'club', 'colombian', 'comedy',
       'conjazz', 'contemporary', 'country', 'cuban', 'dance',
       'dancehall', 'dancepop', 'dark', 'death', 'deep', 'deutschrock',
       'deutschspr', 'dirty', 'disco', 'dnb', 'documentary', 'downbeat',
       'downtempo', 'drum', 'dub', 'dubstep', 'eastern', 'easy',
       'electronic', 'electropop', 'emo', 'entehno', 'epicmetal',
       'estrada', 'ethnic', 'eurofo

[Volver a Contenidos](#back)

### Tus observaciones <a id='data_preprocessing_conclusions'></a>

`Describe brevemente lo que has notado al analizar duplicados, cómo abordaste sus eliminaciones y qué resultados obtuviste.`
En este primer analisis explotario se encontraron algunas novedades.
1) Existe una gran cantidad de valores nulos en las columnas 'track', 'artist' y 'genre' por lo que se necesita corroborar esta informacion para no descartar informacion valiosa al analiarla.
2) Otro punto a tomar en cuenta es que se encontraron exactamente una cantidad de 3826 duplicados explicitos, el cual se procedio a la eliminacion para no tener resultados erroneos. 
3) De igual manera se encontraron ciertos valores en la columna de genre que representan duplicados implicitos el cual tambien a la informacion proporcionado se efectuo el respectivo cambio.
Con estas observaciones se continua con el respectivo analisis. 



[Volver a Contenidos](#back)

## Etapa 3. Prueba de hipótesis <a id='hypothesis'></a>

### Hipótesis: comparar el comportamiento del usuario o la usuaria en las dos ciudades <a id='activity'></a>

La hipótesis afirma que existen diferencias en la forma en que los usuarios y las usuarias de Springfield y Shelbyville consumen música. Para comprobar esto, Se usaran los datos de tres días de la semana: lunes, miércoles y viernes.

* Primero se agruparan a los usuarios y las usuarias por ciudad.
* Luego se comparara el número de canciones que cada grupo reprodujo el lunes, el miércoles y el viernes.


Agrupamos para continuar con el analisis 


In [45]:
# Contar las canciones reproducidas en cada ciudad
df_city=df.groupby(by='city')['track'].count().reset_index() # se usa el metodo groupby, para poder  agrupar los valores de city y compararlos con el numero de tracks
df_city


Unnamed: 0,city,track
0,Shelbyville,18512
1,Springfield,42741


`Se observa que en la cuidad de springfield hay mas del dobl de canciones reproducidas que las de shelbyville`

Ahora agrupemos los datos por día de la semana y encontremos el número de canciones reproducidas el lunes, miércoles y viernes. Utiliza el mismo método que antes, pero ahora necesitamos una agrupación diferente.


In [46]:
# Calcular las canciones reproducidas en cada uno de los tres días
df_day=df.groupby(by='day')['track'].count().reset_index() #se repite lo mismo que el paso anterior pero esta ves se compara los tracks con el numero de dias
df_day

Unnamed: 0,day,track
0,Friday,21840
1,Monday,21354
2,Wednesday,18059


`Se observa que el dia viernes es uno de los dias que mas se escucha musica , seguido del lunes. Mientras que el dia miercoles es el dia que menos tracks se reproducen`



Después de filtrar los datos por dos criterios, se contara el numero de valores de la columna 'user_id' en la tabla resultante. Este recuento representa el número de entradas que se esta buscando. Para esto se usara una funcion number_tracks 

In [22]:
# Declara la función number_tracks() con dos parámetros: day= y city=.
def number_tracks (day,city): #se inicia la funcion la cual 
    # Almacena las filas del DataFrame donde el valor en la columna 'day' es igual al parámetro day=
    new_frame=df[df['day']==day] #en la variable new_frame se almacenara las filas de los filtrados por medio de days
    # Filtra las filas donde el valor en la columna 'city' es igual al parámetro city=
    new_frame2=new_frame[new_frame['city']==city]# en la variable new_frame2 se filtrara el new_frame ahora por la city dada
    # Extrae la columna 'user_id' de la tabla filtrada y aplica el método count()
    new_frame3=new_frame2['user_id'].count() #se cuentan las columnas user_id del dataframe new_frame2 para saber la cantidad de usuarios 
    # Devolve el número de valores de la columna 'user_id'
    return new_frame3

Se llama a  a `number_tracks()` seis veces, cambiando los valores de los parámetros para que recupererar los datos de ambas ciudades para cada uno de los tres días.

In [23]:
# El número de canciones reproducidas en Springfield el lunes
number_tracks("Monday","Springfield")


15740

In [24]:
# El número de canciones reproducidas en Shelbyville el lunes
number_tracks("Monday",'Shelbyville')

5614

In [25]:
# El número de canciones reproducidas en Springfield el miércoles
number_tracks('Wednesday','Springfield')

11056

In [26]:
# El número de canciones reproducidas en Shelbyville el miércoles
number_tracks('Wednesday','Shelbyville')

7003

In [27]:
# El número de canciones reproducidas en Springfield el viernes
number_tracks('Friday','Springfield')

15945

In [28]:
# El número de canciones reproducidas en Shelbyville el viernes
number_tracks('Friday','Shelbyville')

5895

**Conclusiones**

`Comenta si la hipótesis es correcta o se debe rechazar. Explica tu razonamiento.`

A partir del análisis exploratorio de los datos, se observan patrones distintos en la reproducción musical entre las ciudades de Springfield y Shelbyville. Aunque los lunes y viernes muestran un comportamiento similar en la cantidad de usuarios que escuchan música en ambas ciudades, el miércoles presenta una variabilidad significativa, lo que sugiere que no debe ser ignorado en el análisis. Además, Springfield muestra consistentemente un mayor número de usuarios que reproducen música en comparación con Shelbyville, especialmente en los días lunes, miércoles y viernes, lo que evidencia diferencias notables en el comportamiento musical entre ambas ciudades.

Dado este análisis, se acepta la hipótesis de que el comportamiento de los usuarios varía según la ciudad y el día de la semana. Sin embargo, para conclusiones más robustas, se recomienda un conjunto de datos más amplio que incluya otros días de la semana y períodos adicionales para validar estos hallazgos.
