# Contenido <a id='back'></a>

* [Introducción](#intro)
* [Etapa 1. Descripción de los datos](#data_review)
    * [Conclusiones](#data_review_conclusions)
* [Etapa 2. Preprocesamiento de datos](#data_preprocessing)
    * [2.1 Estilo del encabezado](#header_style)
    * [2.2 Valores ausentes](#missing_values)
    * [2.3 Duplicados](#duplicates)
    * [2.4 Conclusiones](#data_preprocessing_conclusions)
* [Etapa 3. Prueba de hipótesis](#hypothesis)
    * [3.1 Hipótesis 1: actividad de los usuarios y las usuarias en las dos ciudades](#activity)
* [Conclusiones](#end)

# Descripción del proyecto

En el contexto de este proyecto, se probará una hipótesis relacionada con las preferencias musicales de dos ciudades. Esto se hará mediante el análisis de datos reales de transmisión de música online para probar la hipótesis a continuación y comparar el comportamiento de los usuarios de estas dos ciudades.

Esto implicará analizar los datos reales de transmisión de música online para comparar el comportamiento de los usuarios en Springfield y Shelbyville. El proyecto se divide en tres etapas, cada una con objetivos específicos.

En la etapa 1, proporcionarás una descripción general de los dones. En la etapase  2, preprocearás los datos al limpiarlos. Finalmente, en la etapase  3, podrás a prueba la hipótesis siguiendo los pasos de programación necesarios para probar cada declaración y comentalos tus result.dos.

## Introducción <a id='intro'></a>
El trabajo consiste en analizar datos para extraer información valiosa y tomar decisiones basadas en ellos. Esto implica diferentes etapas, como la descripción general de los datos, el preprocesamiento y la prueba de hipótesis.

Siempre que investigamos, necesitamos formular hipótesis que después podamos probar. A veces aceptamos estas hipótesis; otras veces, las rechazamos. Para tomar las decisiones correctas, una empresa debe ser capaz de entender si está haciendo las suposiciones correctas.

En este proyecto, se compara las preferencias musicales de las ciudades de Springfield y Shelbyville. Se estudiará datos reales de transmisión de música online para probar la hipótesis a continuación y comparar el comportamiento de los usuarios y las usuarias de estas dos ciudades.

### Objetivo:
Prueba la hipótesis:
1. La actividad de los usuarios y las usuarias difiere según el día de la semana y dependiendo de la ciudad.


### Etapas
Los datos del comportamiento del usuario se almacenan en el archivo `/datasets/music_project_en.csv`. No hay ninguna información sobre la calidad de los datos, así que se examinarán antes de probar la hipótesis.

Primero, se evaluará la calidad de los datos y veremos si los problemas son significativos. Entonces, durante el preprocesamiento de datos, se tomará en cuenta los problemas más críticos.

El proyecto consistirá en tres etapas:
 1. Descripción de los datos.
 2. Preprocesamiento de datos.
 3. Prueba de hipótesis.








[Volver a Contenidos](#back)

## Etapa 1. Descripción de los datos <a id='data_review'></a>


In [98]:
# Importar pandas
import pandas as pd

In [99]:
# Leer el archivo y almacenarlo
df = pd.read_csv('/datasets/music_project_en.csv')   # colocamos como argumento la ruta del archivo.

In [100]:
# Obtener las 10 primeras filas de la tabla df
print(df.head(10))

     userID                        Track            artist   genre  \
0  FFB692EC            Kamigata To Boots  The Mass Missile    rock   
1  55204538  Delayed Because of Accident  Andreas Rönnberg    rock   
2    20EC38            Funiculì funiculà       Mario Lanza     pop   
3  A3DD03C9        Dragons in the Sunset        Fire + Ice    folk   
4  E2DC1FAE                  Soul People        Space Echo   dance   
5  842029A1                       Chains          Obladaet  rusrap   
6  4CB90AA5                         True      Roman Messer   dance   
7  F03E1C1F             Feeling This Way   Polina Griffith   dance   
8  8FA1D3BE                     L’estate       Julia Dalia  ruspop   
9  E772D5C0                    Pessimist               NaN   dance   

        City        time        Day  
0  Shelbyville  20:28:33  Wednesday  
1  Springfield  14:07:09     Friday  
2  Shelbyville  20:58:07  Wednesday  
3  Shelbyville  08:37:09     Monday  
4  Springfield  08:34:34     Monday  
5

In [101]:
# Obtener la información general sobre nuestros datos
print(df.info())  # accedemos a todos los atributos con el metodo info().

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65079 entries, 0 to 65078
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0     userID  65079 non-null  object
 1   Track     63736 non-null  object
 2   artist    57512 non-null  object
 3   genre     63881 non-null  object
 4     City    65079 non-null  object
 5   time      65079 non-null  object
 6   Day       65079 non-null  object
dtypes: object(7)
memory usage: 3.5+ MB
None


Observaciones sobre la tabla. Contiene siete columnas. Almacenan los mismos tipos de datos: `object`.

Según la documentación:
- `' userID'`: identificador del usuario o la usuaria;
- `'Track'`: título de la canción;
- `'artist'`: nombre del artista;
- `'genre'`: género de la pista;
- `'City'`: ciudad del usuario o la usuaria;
- `'time'`: la hora exacta en la que se reprodujo la canción;
- `'Day'`: día de la semana.

Podemos ver tres problemas con el estilo en los encabezados de la tabla:
1. Algunos encabezados están en mayúsculas, otros en minúsculas.
2. Hay espacios en algunos encabezados.
3. No se evidencia uso del snake_case (remplazar cada espacio por un guion bajo) en los nombres que tienen mas de una palabra. 



### Observaciones: <a id='data_review_conclusions'></a>

`1.   ¿Qué tipo de datos tenemos a nuestra disposición en las filas? ¿Y cómo podemos entender lo que almacenan las columnas?`
las filas representan el registro de reproduccion de musica de cada usuario, los cuales almacenan los mismos tipos de datos object (string). en las columnas podemos ver detalladamente el ID del usuario, la cancion, el artista, ciudad, hora y dia exacto de la reproduccion.

`2.   ¿Hay suficientes datos para proporcionar respuestas a nuestra hipótesis o necesitamos más información?`

considero que los datos son suficientes para determinar si la actividad de los usuarios difiere según el día de la semana y dependiendo de la ciudad. ya que contamos con la informacion especifica en cuanto al dia y hora exacta de reproduccion de cada usuario.

`3.   ¿Notaste algún problema en los datos, como valores ausentes, duplicados o tipos de datos incorrectos?`
a primera vista podemos determinar que hay problemas con nombres de las columnas, adicionalmente al validar la informacion general podemos evidenciar posibles valores ausentes en algunas columnas ya que los datos non-null son diferentes en varias columnas. lo anterior lo podremos validar en el preprocesamiento de datos.

[Volver a Contenidos](#back)

## Etapa 2. Preprocesamiento de datos <a id='data_preprocessing'></a>

El objetivo aquí es preparar los datos para que sean analizados.
El primer paso es resolver cualquier problema con los encabezados. Luego podemos avanzar a los valores ausentes y duplicados. Empecemos.


### Estilo del encabezado <a id='header_style'></a>


In [102]:
print(df.columns)# Muestra los nombres de las columnas


Index(['  userID', 'Track', 'artist', 'genre', '  City  ', 'time', 'Day'], dtype='object')


Se cambia los encabezados de la tabla de acuerdo con las reglas del buen estilo:
* Todos los caracteres deben ser minúsculas.
* Elimina los espacios.
* Si el nombre tiene varias palabras, utiliza snake_case.

In [103]:
# Bucle en los encabezados poniendo todo en minúsculas
new_names = []
for old in df.columns:
    name_lowered = old.lower()
    new_names.append(name_lowered)
df.columns = new_names
print(df.columns)

Index(['  userid', 'track', 'artist', 'genre', '  city  ', 'time', 'day'], dtype='object')


In [104]:
# Bucle en los encabezados eliminando los espacios
new_names = []
for old in df.columns:
    name_striped = old.strip()
    new_names.append(name_striped)
df.columns = new_names
print(df.columns)

Index(['userid', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')


In [105]:
# Cambiar el nombre de la columna "userid"
new_names = []
for old in df.columns:
    name_replaced = old.replace('userid', 'user_id')
    new_names.append(name_replaced)
df.columns = new_names
print(df.columns)

Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')


In [106]:
print(df.columns) # Comprobar el resultado: la lista de encabezados


Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')


[Volver a Contenidos](#back)

### Valores ausentes <a id='missing_values'></a>
 Primero, se encuentra el número de valores ausentes en la tabla. Se utiliza dos métodos en una secuencia para obtener el número de valores ausentes.

In [107]:
# Calcular el número de valores ausentes
print(df.isna().sum())  # utilizamos el metodo isna() junto con sum() para determinar la cantidad de valores ausentes.

user_id       0
track      1343
artist     7567
genre      1198
city          0
time          0
day           0
dtype: int64


Reemplazar los valores ausentes en las columnas `'track'`, `'artist'` y `'genre'` con el string `'unknown'`. Como mostramos anteriormente, la mejor forma de hacerlo es crear una lista que almacene los nombres de las columnas donde se necesita el reemplazo. Luego, utiliza esta lista e itera sobre las columnas donde se necesita el reemplazo haciendo el propio reemplazo.

In [108]:
# Bucle en los encabezados reemplazando los valores ausentes con 'unknown'
columns_to_replace = ['track', 'artist', 'genre']  # creamos la lista que almacena las columnas que necesitan remplazo.

for columns in columns_to_replace:                # utilizamos el bucle for ya que son varias columnas
    df[columns].fillna('unknown', inplace= True)  #utilizamos .fillna() para remplazar los valores ausentes por unknown

print(df.isna().sum())         # mostramos de nuevo con el metodo isna() y sum() para validar que no hayan mas valores ausentes.
    

user_id    0
track      0
artist     0
genre      0
city       0
time       0
day        0
dtype: int64


In [109]:
# Contar valores ausentes

print(df.isna().sum())         # mostramos de nuevo con el metodo isna() y sum() para validar que no hayan mas valores ausentes.

user_id    0
track      0
artist     0
genre      0
city       0
time       0
day        0
dtype: int64


[Volver a Contenidos](#back)

### Duplicados <a id='duplicates'></a>
Encontrar el número de duplicados explícitos en la tabla. Una vez más, se aplica dos métodos en una secuencia para obtener la cantidad de duplicados explícitos.

In [110]:
# Contar duplicados explícitos

print(df.duplicated().sum())  # utilizamos el metodo duplicated() junto con sum() para determinar la cantidad de valores duplicados.

3826


In [111]:
# Eliminar duplicados explícitos

df = df.drop_duplicates()  # para eliminar duplicados llamamos al metodo df.drop_duplicates().

print(df.duplicated().sum())

0


In [112]:
# Comprobar de nuevo si hay duplicados

print(df.duplicated().sum()) #utilizamos nuevamente el metodo duplicated() junto con sum() para validar que se hayan eliminado todos los duplicados. 


0


Ahora queremos deshacernos de los duplicados implícitos en la columna `genre`. Por ejemplo, el nombre de un género se puede escribir de varias formas. Dichos errores también pueden afectar al resultado.

Para hacerlo, primero mostremos una lista de nombres de género únicos, ordenados en orden alfabético. Para ello:
* Extraer la columna `genre` del DataFrame.
* Llamar al método que devolverá todos los valores únicos en la columna extraída.


In [113]:
# Inspeccionar los nombres de géneros únicos
       
print(df['genre'].sort_values().unique())     # llamamos al metodo unique() para validar los valores unicos y los mostramos, adicionalmente usamos el metodo sort_values() para ordenarlos en orden alfabetico.

 

['acid' 'acoustic' 'action' 'adult' 'africa' 'afrikaans' 'alternative'
 'ambient' 'americana' 'animated' 'anime' 'arabesk' 'arabic' 'arena'
 'argentinetango' 'art' 'audiobook' 'avantgarde' 'axé' 'baile' 'balkan'
 'beats' 'bigroom' 'black' 'bluegrass' 'blues' 'bollywood' 'bossa'
 'brazilian' 'breakbeat' 'breaks' 'broadway' 'cantautori' 'cantopop'
 'canzone' 'caribbean' 'caucasian' 'celtic' 'chamber' 'children' 'chill'
 'chinese' 'choral' 'christian' 'christmas' 'classical' 'classicmetal'
 'club' 'colombian' 'comedy' 'conjazz' 'contemporary' 'country' 'cuban'
 'dance' 'dancehall' 'dancepop' 'dark' 'death' 'deep' 'deutschrock'
 'deutschspr' 'dirty' 'disco' 'dnb' 'documentary' 'downbeat' 'downtempo'
 'drum' 'dub' 'dubstep' 'eastern' 'easy' 'electronic' 'electropop' 'emo'
 'entehno' 'epicmetal' 'estrada' 'ethnic' 'eurofolk' 'european'
 'experimental' 'extrememetal' 'fado' 'film' 'fitness' 'flamenco' 'folk'
 'folklore' 'folkmetal' 'folkrock' 'folktronica' 'forró' 'frankreich'
 'französisch' 

Buscar en la lista para encontrar duplicados implícitos del género `hiphop`. Estos pueden ser nombres escritos incorrectamente o nombres alternativos para el mismo género.

Se ven los siguientes duplicados implícitos:
* `hip`
* `hop`
* `hip-hop`

Para deshacerse de ellos, se crea una función llamada `replace_wrong_genres()` con dos parámetros:
* `wrong_genres=`: esta es una lista que contiene todos los valores que se necesita reemplazar.
* `correct_genre=`: este es un string que se va a utilizar como reemplazo.

Como resultado, la función debería corregir los nombres en la columna `'genre'` de la tabla `df`, es decir, remplazar cada valor de la lista `wrong_genres` por el valor en `correct_genre`.

Dentro del cuerpo de la función, utiliza un bucle `'for'` para iterar sobre la lista de géneros incorrectos, extrae la columna `'genre'` y aplica el método `replace` para hacer correcciones.

In [114]:
# Función para reemplazar duplicados implícitos

def replace_wrong_genres(df, column, wrong_genres, correct_genre):  # creamos la funcion con los dos parametros solicitados.
    for wrong_genre in wrong_genres:
        df[column] = df[column].replace(wrong_genre, correct_genre) # usamos bucle for para iterar sobre los generos incorrectos en la columna genre y aplicamos replace() para corregir.
    return df



Se llama a `replace_wrong_genres()` y se pasa los argumentos para que retire los duplicados implícitos (`hip`, `hop` y `hip-hop`) y los reemplace por `hiphop`:

In [115]:
# Eliminar duplicados implícitos

duplicates = ['hip', 'hop', 'hip-hop']  # creamos la lista de nombres mal escritos.

correct_name = 'hiphop'  # creamos la lista con el nombre correcto.

df = replace_wrong_genres(df, 'genre', duplicates, correct_name) # llamamos a la funcion replace_wrong_genres.



In [116]:
# Comprobación de duplicados implícitos

print(df['genre'].sort_values().unique())   # mostramos nuevamente los valores unicos de la columna genre con el metodo unique().


['acid' 'acoustic' 'action' 'adult' 'africa' 'afrikaans' 'alternative'
 'ambient' 'americana' 'animated' 'anime' 'arabesk' 'arabic' 'arena'
 'argentinetango' 'art' 'audiobook' 'avantgarde' 'axé' 'baile' 'balkan'
 'beats' 'bigroom' 'black' 'bluegrass' 'blues' 'bollywood' 'bossa'
 'brazilian' 'breakbeat' 'breaks' 'broadway' 'cantautori' 'cantopop'
 'canzone' 'caribbean' 'caucasian' 'celtic' 'chamber' 'children' 'chill'
 'chinese' 'choral' 'christian' 'christmas' 'classical' 'classicmetal'
 'club' 'colombian' 'comedy' 'conjazz' 'contemporary' 'country' 'cuban'
 'dance' 'dancehall' 'dancepop' 'dark' 'death' 'deep' 'deutschrock'
 'deutschspr' 'dirty' 'disco' 'dnb' 'documentary' 'downbeat' 'downtempo'
 'drum' 'dub' 'dubstep' 'eastern' 'easy' 'electronic' 'electropop' 'emo'
 'entehno' 'epicmetal' 'estrada' 'ethnic' 'eurofolk' 'european'
 'experimental' 'extrememetal' 'fado' 'film' 'fitness' 'flamenco' 'folk'
 'folklore' 'folkmetal' 'folkrock' 'folktronica' 'forró' 'frankreich'
 'französisch' 

[Volver a Contenidos](#back)

### Observaciones <a id='data_preprocessing_conclusions'></a>

para el analisis de duplicados abordamos primero los duplicados explicitos, donde a traves del metodo duplicated() y sum() validamos la cantidad de duplicados, posteriormente con el metodo drop_duplicates() eliminamos esos duplicados. una vez eliminados los explicitos procedemos a validar los duplicados implicitos en la columna 'genre' donde se evidencia para el genero hiphop algunos duplicados con errores ortograficos, para lo cual creamos una funcion con 2 parametros y con ayuda del bucle for iteramos la lista de generos correctos y aplicamos replace para corregir.

lo anterior nos ayuda a que nuestros datos queden lo mejor posible para poder entrar a probar nuestra hipotesis analizando los datos ya preparados y poder emitir una conclusion precisa.

[Volver a Contenidos](#back)

## Etapa 3. Prueba de hipótesis <a id='hypothesis'></a>

### Hipótesis: comparar el comportamiento del usuario o la usuaria en las dos ciudades <a id='activity'></a>

La hipótesis afirma que existen diferencias en la forma en que los usuarios y las usuarias de Springfield y Shelbyville consumen música. Para comprobar esto, usa los datos de tres días de la semana: lunes, miércoles y viernes.

* Agrupar a los usuarios y las usuarias por ciudad.
* Comparar el número de canciones que cada grupo reprodujo el lunes, el miércoles y el viernes.



El primer paso es evaluar la actividad del usuario en cada ciudad. El objetivo ahora es agrupar los datos por ciudad, aplicar el método apropiado para contar durante la etapa de aplicación y luego encontrar la cantidad de canciones reproducidas en cada grupo especificando la columna para obtener el recuento.

Para evaluar la actividad de los usuarios y las usuarias en cada ciudad, se agrupa los datos por ciudad y encuentra la cantidad de canciones reproducidas en cada grupo.



In [117]:
# Contar las canciones reproducidas en cada ciudad

print(df.groupby('city').count())  # agrupamos los datos por ciudad utilizando el método groupby() y count parar conocer el numero de canciones reproducidas por ciudad.


             user_id  track  artist  genre   time    day
city                                                    
Shelbyville    18512  18512   18512  18512  18512  18512
Springfield    42741  42741   42741  42741  42741  42741



como podemos ver en el nuevo dataframe evidenciamos mayor cantidad de reproducciones en la ciudad de Springfield.

Ahora agrupemos los datos por día de la semana y encontremos el número de canciones reproducidas el lunes, miércoles y viernes.


In [118]:
# Calcular las canciones reproducidas en cada uno de los tres días

print(df.groupby('day').count())  # agrupamos los datos por dia de la semana  utilizando el método groupby() y count() para conocer el numero de canciones reproducidas en cada dia.

           user_id  track  artist  genre   city   time
day                                                   
Friday       21840  21840   21840  21840  21840  21840
Monday       21354  21354   21354  21354  21354  21354
Wednesday    18059  18059   18059  18059  18059  18059



al agrupar los datos por dias de la semana, podemos evidenciar el numero de canciones que se escucha cada dia especificamente. donde el dia viernes es el dia de mayor reproduccion, seguido del lunes y por ultimo el viernes.


Crear la función `number_tracks()` para calcular el número de canciones reproducidas en un determinado día **y** ciudad. La función debe aceptar dos parámetros:

- `day`: un día de la semana para filtrar. Por ejemplo, `'Monday'` (lunes).
- `city`: una ciudad para filtrar. Por ejemplo, `'Springfield'`.

Dentro de la función, se aplicará un filtrado consecutivo con indexación lógica.

Primero se filtra los datos por día y luego filtra la tabla resultante por ciudad.

Después de filtrar los datos por dos criterios, se cuenta el número de valores de la columna 'user_id' en la tabla resultante. Este recuento representa el número de entradas que se están buscando. Guardar el resultado en una nueva variable y devolverlo desde la función.

In [119]:
# Declara la función number_tracks() con dos parámetros: day= y city=.
def number_tracks(day, city):
    
    # Almacena las filas del DataFrame donde el valor en la columna 'day' es igual al parámetro day=
    day_filter = df[df['day'] == day]

    # Filtra las filas donde el valor en la columna 'city' es igual al parámetro city=
    city_filter = day_filter[day_filter['city'] == city]
    
    # Extrae la columna 'user_id' de la tabla filtrada y aplica el método count()
    users = city_filter['user_id'].count()
    
    return users

    
    # Devolve el número de valores de la columna 'user_id'

Se llama a `number_tracks()` seis veces, cambiando los valores de los parámetros para recuperar los datos de ambas ciudades para cada uno de los tres días.

In [120]:
# El número de canciones reproducidas en Springfield el lunes

number_songs_filtered= number_tracks('Monday', 'Springfield')
print(number_songs_filtered)

15740


In [121]:
# El número de canciones reproducidas en Shelbyville el lunes
number_songs_filtered= number_tracks('Monday', 'Shelbyville')
print(number_songs_filtered)

5614


In [122]:
# El número de canciones reproducidas en Springfield el miércoles
number_songs_filtered= number_tracks('Wednesday', 'Springfield')
print(number_songs_filtered)

11056


In [123]:
# El número de canciones reproducidas en Shelbyville el miércoles
number_songs_filtered= number_tracks('Wednesday', 'Shelbyville')
print(number_songs_filtered)

7003


In [124]:
# El número de canciones reproducidas en Springfield el viernes
number_songs_filtered= number_tracks('Friday', 'Springfield')
print(number_songs_filtered)

15945


In [125]:
# El número de canciones reproducidas en Shelbyville el viernes
number_songs_filtered= number_tracks('Friday', 'Shelbyville')
print(number_songs_filtered)

5895



 De acuerdo a los resultados obtenidos evidenciamos que la hipotesis es correcta, ya que la actividad de cada usuario si cambia segun el dia en que reproduce musica. Adicionalmente encontramos diferencia en los numeros de canciones reproducidas dependiendo de la ciudad donde la reproducen.



[Volver a Contenidos](#back)

# Conclusiones <a id='end'></a>


- Springfield muestra un mayor número de reproducciones de canciones en comparación con Shelbyville en todos los días analizados, esto podria indicar una mayor actividad de los usuarios o una mayor popularidad de la musica en Springfield.


- En Springfield, hay una tendencia de mayor actividad de reproducción de música al inicio (lunes) y al final (viernes) de la semana, con una disminución en el medio (miércoles). Esto podría indicar que los usuarios en Springfield escuchan más música al inicio y al final de sus semanas laborales. a diferencia de Shelbyville, la tendencia es diferente, con un pico de reproducciones a mitad de semana (miércoles) y menos actividad al inicio y al final de la semana. Esto podría ser debido a distintos hábitos laborales o culturales en Shelbyville.


- De acuerdo a la tendencia presentada en los resultados, los provedores de musica pueden establecer estrategias basadas en los patrones de cada ciudad. En Springfield, los lanzamientos de nuevas canciones deberían enfocarse en los lunes y viernes para aprovechar los picos de actividad, mientras que en Shelbyville, sería más efectivo centrarse en los miércoles, cuando la actividad de reproducción es mayor.


[Volver a Contenidos](#back)