# M√≥dulo de Auditor√≠a 03: Comparativa de Patrones de Consumo (Music Streaming)
## üõ°Ô∏è Contexto del An√°lisis
En este proyecto, se trabaja con datos reales de transmisi√≥n de m√∫sica online para explorar los h√°bitos de escucha en Springfield y Shelbyville. El objetivo es auditar si la actividad de los usuarios presenta variaciones significativas seg√∫n el d√≠a de la semana y la ubicaci√≥n geogr√°fica.

## üéØ Objetivos de la Auditor√≠a
1.  **Descripci√≥n de Datos:** Evaluar la calidad de la muestra inicial y detectar problemas en la metadata (nombres de columnas, tipos de datos).
2.  **Preprocesamiento:** Limpiar los datos abordando valores duplicados y ausentes para asegurar la integridad del an√°lisis.
3.  **Prueba de Hip√≥tesis:** Analizar el comportamiento de los usuarios los d√≠as lunes, mi√©rcoles y viernes para determinar si existen diferencias culturales de consumo entre ambas ciudades.

# D√©jame escuchar m√∫sica

# Contenido <a id='back'></a>

* [Introducci√≥n](#intro)
* [Etapa 1. Descripci√≥n de los datos](#data_review)
    * [Conclusiones](#data_review_conclusions)
* [Etapa 2. Preprocesamiento de datos](#data_preprocessing)
    * [2.1 Estilo del encabezado](#header_style)
    * [2.5 Valores ausentes](#missing_values)
    * [2.8 Duplicados](#duplicates)
    * [2.14 Conclusiones](#data_preprocessing_conclusions)
* [Etapa 3. Prueba de hip√≥tesis](#hypothesis)
    * [3.1 Tarea: Comparar el comportamiento de los usuarios en las dos ciudades](#activity)
* [Conclusiones](#end)

# Introducci√≥n <a id='intro'></a>
Como analista de datos, tu trabajo consiste en analizar datos para extraer informaci√≥n valiosa de ellos y tomar decisiones en consecuencia. Esto implica pasar por diferentes etapas, como la descripci√≥n general de los datos, el preprocesamiento y la prueba de hip√≥tesis.

Siempre que investiguemos, necesitamos formular hip√≥tesis que despu√©s podamos probar. A veces, aceptaremos estas hip√≥tesis; otras veces, las rechazaremos. Para tomar las decisiones adecuadas, una empresa debe ser capaz de entender si est√° haciendo las suposiciones correctas.

En este proyecto, comparar√°s las preferencias musicales de las ciudades de Springfield y Shelbyville. Estudiar√°s datos reales de m√∫sica online para probar la hip√≥tesis que planteamos a continuaci√≥n y comparar√°s el comportamiento de los usuarios de estas dos ciudades.

### Objetivo:
Probar la hip√≥tesis:
1. La actividad de los usuarios difiere seg√∫n el d√≠a de la semana y dependiendo de la ciudad.


### Etapas
Los datos del comportamiento de los usuarios se almacenan en el archivo `/datasets/music_project_en.csv`. No hay informaci√≥n sobre la calidad de los datos, as√≠ que necesitar√°s examinarlos antes de probar la hip√≥tesis.

Primero, debes evaluar la calidad de los datos y ver si los problemas son significativos. M√°s tarde, durante el preprocesamiento de datos, deber√°s abordar los problemas m√°s cr√≠ticos.

Tu proyecto contar√° con estas tres etapas:
 1. Descripci√≥n de los datos.
 2. Preprocesamiento de los datos.
 3. Prueba de la hip√≥tesis.








* [Volver a Contenido](#back)

# Etapa 1. Descripci√≥n de los datos <a id='data_review'></a>

Abre los datos y exam√≠nalos.

Etapa 1.1. Necesitar√°s `pandas`, as√≠ que imp√≥rtalo.

In [71]:
# Importa pandas
import pandas as pd

Etapa 1.2. Lee el archivo `music_project_en.csv` de la carpeta `/datasets/` y gu√°rdalo en la variable `df`:

In [None]:
# Lee el archivo y almac√©nalo en df
df = pd.read_csv('../datasets/music_project_en.csv')

Etapa 1.3. Muestra las 10 primeras filas de la tabla:

In [73]:
# Obt√©n las 10 primeras filas de la tabla df
print(df.head(10))

     userID                        Track            artist   genre  \
0  FFB692EC            Kamigata To Boots  The Mass Missile    rock   
1  55204538  Delayed Because of Accident  Andreas R√∂nnberg    rock   
2    20EC38            Funicul√¨ funicul√†       Mario Lanza     pop   
3  A3DD03C9        Dragons in the Sunset        Fire + Ice    folk   
4  E2DC1FAE                  Soul People        Space Echo   dance   
5  842029A1                       Chains          Obladaet  rusrap   
6  4CB90AA5                         True      Roman Messer   dance   
7  F03E1C1F             Feeling This Way   Polina Griffith   dance   
8  8FA1D3BE                     L‚Äôestate       Julia Dalia  ruspop   
9  E772D5C0                    Pessimist               NaN   dance   

        City        time        Day  
0  Shelbyville  20:28:33  Wednesday  
1  Springfield  14:07:09     Friday  
2  Shelbyville  20:58:07  Wednesday  
3  Shelbyville  08:37:09     Monday  
4  Springfield  08:34:34     Monda

Etapa 1.4. Obt√©n la informaci√≥n general sobre la tabla con el m√©todo info().

In [74]:
# Obt√©n la informaci√≥n general sobre nuestros datos
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65079 entries, 0 to 65078
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0     userID  65079 non-null  object
 1   Track     63736 non-null  object
 2   artist    57512 non-null  object
 3   genre     63881 non-null  object
 4     City    65079 non-null  object
 5   time      65079 non-null  object
 6   Day       65079 non-null  object
dtypes: object(7)
memory usage: 3.5+ MB


Estas son nuestras observaciones sobre la tabla. Contiene siete columnas que almacenan los mismos tipos de datos: `object`.

Seg√∫n la documentaci√≥n:
- `' userID'`: identificador del usuario;
- `'Track'`: t√≠tulo de la canci√≥n;
- `'artist'`: nombre del artista;
- `'genre'`: g√©nero de la canci√≥n;
- `'City'`: ciudad del usuario;
- `'time'`: la hora exacta en la que se reprodujo la canci√≥n;
- `'Day'`: d√≠a de la semana.

Podemos ver tres problemas con el estilo en los encabezados de la tabla:
1. Algunos encabezados est√°n en may√∫sculas, otros en min√∫sculas.
2. Hay espacios en algunos encabezados.
3. `Detecta el tercer problema por tu cuenta y descr√≠belo aqu√≠`.




* [Volver a Contenido](#back)

# Conclusiones.<a id='data_review_conclusions'></a>
### Escribe algunas observaciones por tu parte. Contesta a las siguientes preguntas: 

`1.   ¬øQu√© tipo de datos hay en las filas? ¬øC√≥mo podemos saber qu√© almacenan las columnas?`

`2.   ¬øHay suficientes datos para proporcionar respuestas a nuestra hip√≥tesis o necesitamos m√°s informaci√≥n?`

`3.   ¬øNotaste alg√∫n problema en los datos, como valores ausentes, duplicados o tipos de datos incorrectos?`

Escribe aqu√≠ tus respuestas:

1. Debo usar df. info() para proporcionar un resumen completo, incluyendo el tipo de atos (dtype) de cada columna. Tambi√©n debo usar df.dtypes() para mostrar una serie de pandas con el tipo de dato para cada columna. Para saber que almacenan las columnas, debo usar df.head()  df.describe()  df.columns() df['un_nombre_de_columna'].unique()  df['un_nombre_de_columna'].value_counts()

2. No. Algunos nombres o encabezados estan en mayusculas y en minusculas, tambien algunos contienen espacios en blanco al principio y al final de los nombres.

3. Los espacios en blanco al final y al comienzo de algunos de los nombres.

* [Volver a Contenido](#back)

# Etapa 2. Preprocesamiento de los datos <a id='data_preprocessing'></a>

Tu objetivo aqu√≠ es preparar los datos para analizarlos.
El primer paso es resolver los problemas con los encabezados. Despu√©s podemos avanzar a los valores ausentes y duplicados. ¬°Empecemos!

Vamos a corregir el formato en los encabezados de la tabla.


# Estilo del encabezado <a id='header_style'></a>

Etapa 2.1. Muestra los encabezados de la tabla (los nombres de las columnas):

In [75]:
# Muestra los nombres de las columnas
df.columns

Index(['  userID', 'Track', 'artist', 'genre', '  City  ', 'time', 'Day'], dtype='object')

In [76]:
print(df.columns)

# Limpia los nombres de las columnas y tambien va eliminando los espacios en blanco al principio y al final
#conviertiendo todos los caracteres en columnas.
df.columns = df.columns.str.strip().str.lower()

# Muestra Los nombres de las columnas para verificar el cambio
print(df.columns)

Index(['  userID', 'Track', 'artist', 'genre', '  City  ', 'time', 'Day'], dtype='object')
Index(['userid', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')


Vamos cambiar los encabezados de la tabla siguiendo las reglas estil√≠sticas convencionales:
*   Todos los caracteres deben ser min√∫sculas.
*   Elimina los espacios.
*   Si el nombre tiene varias palabras, utiliza snake_case.

Anteriormente, aprendiste una forma autom√°tica de cambiar el nombre de las columnas. Vamos a aplicarla ahora.

Etapa 2.2. Utiliza el bucle for para iterar sobre los nombres de las columnas y poner todos los caracteres en min√∫sculas. Cuando hayas terminado, vuelve a mostrar los encabezados de la tabla:

In [77]:
# Bucle en los encabezados que lo pone todo en min√∫sculas
nuevas_columnas = []
for columna in df.columns:
    nuevas_columnas.append(columna.lower())

df.columns = nuevas_columnas
print(df.head())

     userid                        track            artist  genre  \
0  FFB692EC            Kamigata To Boots  The Mass Missile   rock   
1  55204538  Delayed Because of Accident  Andreas R√∂nnberg   rock   
2    20EC38            Funicul√¨ funicul√†       Mario Lanza    pop   
3  A3DD03C9        Dragons in the Sunset        Fire + Ice   folk   
4  E2DC1FAE                  Soul People        Space Echo  dance   

          city      time        day  
0  Shelbyville  20:28:33  Wednesday  
1  Springfield  14:07:09     Friday  
2  Shelbyville  20:58:07  Wednesday  
3  Shelbyville  08:37:09     Monday  
4  Springfield  08:34:34     Monday  


Etapa 2.3. Ahora, utilizando el mismo m√©todo, elimina los espacios al principio y al final de los nombres de las columnas y muestra los nombres de las columnas de nuevo:

In [78]:
# Bucle en los encabezados que elimina los espacios
nuevas_columnas = []
for columna in df.columns:
    nuevas_columnas.append(columna.strip())

df.columns = nuevas_columnas
print(df.columns)

Index(['userid', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')


Etapa 2.4. Necesitamos aplicar la regla de snake_case en la columna `userid`. Debe ser `user_id`. Cambia el nombre de esta columna y muestra los nombres de todas las columnas cuando hayas terminado.

In [79]:
# Cambia el nombre de la columna "userid"
df = df.rename(columns={'userid': 'user_id'})
print(df.columns)

Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')


Etapa 2.5. Comprueba el resultado. Muestra los encabezados una vez m√°s:

In [80]:
# Comprueba el resultado: lista de encabezados
print(df.head())

    user_id                        track            artist  genre  \
0  FFB692EC            Kamigata To Boots  The Mass Missile   rock   
1  55204538  Delayed Because of Accident  Andreas R√∂nnberg   rock   
2    20EC38            Funicul√¨ funicul√†       Mario Lanza    pop   
3  A3DD03C9        Dragons in the Sunset        Fire + Ice   folk   
4  E2DC1FAE                  Soul People        Space Echo  dance   

          city      time        day  
0  Shelbyville  20:28:33  Wednesday  
1  Springfield  14:07:09     Friday  
2  Shelbyville  20:58:07  Wednesday  
3  Shelbyville  08:37:09     Monday  
4  Springfield  08:34:34     Monday  


* [Volver a Contenido](#back)

# Valores ausentes <a id='missing_values'></a>
 Etapa 2.5. Primero, encuentra el n√∫mero de valores ausentes en la tabla. Debes utilizar dos m√©todos para obtener el n√∫mero de valores ausentes.

In [81]:
# Calcula el n√∫mero de valores ausentes
valores_ausentes_por_columna = df.isnull().sum()
print("El n√∫mero de valores ausentes por columna es (m√©todo isnull().sum()):")
print(valores_ausentes_por_columna)

El n√∫mero de valores ausentes por columna es (m√©todo isnull().sum()):
user_id       0
track      1343
artist     7567
genre      1198
city          0
time          0
day           0
dtype: int64


No todos los valores ausentes afectan de la misma forma a la investigaci√≥n. Por ejemplo, los valores ausentes en 'track' y 'artist' no son cruciales para el an√°lisis, ya que estos datos son m√°s descriptivos que anal√≠ticos. Por eso, puedes reemplazarlos directamente con un valor predeterminado como el string 'unknown' (desconocido).

En cambio, los valores ausentes en 'genre' s√≠ pueden influir en la comparaci√≥n entre las preferencias musicales de Springfield y Shelbyville. En un escenario real, lo ideal ser√≠a investigar por qu√© faltan estos datos e intentar recuperarlos. Pero en este proyecto no tenemos esa posibilidad, as√≠ que deber√°s rellenar esos valores con un valor predeterminado.


Como vimos anteriormente en las lecciones, la mejor manera de hacerlo es crear una lista con los nombres de las columnas que necesitan reemplazarse.  Luego, utilizar esta lista para iterar sobre cada columna y realizar el reemplazo correspondiente.

Etapa 2.6. Sustituye los valores ausentes en las columnas `'track'`, `'artist'` y `'genre'` con el string `'unknown'`.

1. Crea una lista llamada columns_to_replace que contenga los nombres de las columnas 'track', 'artist' y 'genre'.

2. Usa un bucle for para iterar sobre cada columna en columns_to_replace.

3. Dentro del bucle, sustituye los valores ausentes en cada columna con el string `'unknown'`.

In [82]:
# Bucle en los encabezados reemplazando los valores ausentes con 'unknown'
columns_to_replace = ['track', 'artist', 'genre']

for columna in columns_to_replace:
    df[columna] = df[columna].fillna('unknown')

print("El n√∫mero de los valores ausentes despu√©s de la sustituci√≥n es:")
print(df[['track', 'artist', 'genre']].isnull().sum())

El n√∫mero de los valores ausentes despu√©s de la sustituci√≥n es:
track     0
artist    0
genre     0
dtype: int64


Etapa 2.7. Ahora comprueba el resultado para asegurarte de que no falten valores ausentes por reemplazar en el conjunto de datos. Para ello, cuenta los valores ausentes una vez m√°s.

In [83]:
# Cuenta los valores ausentes
print("El n√∫mero de los valores ausentes en todo el dataframe despu√©s de la sustituci√≥n es:")
print(df.isnull().sum())

El n√∫mero de los valores ausentes en todo el dataframe despu√©s de la sustituci√≥n es:
user_id    0
track      0
artist     0
genre      0
city       0
time       0
day        0
dtype: int64


* [Volver a Contenido](#back)

# Duplicados <a id='duplicates'></a>

Etapa 2.8. Encuentra el n√∫mero de duplicados expl√≠citos en la tabla. Una vez m√°s, debes aplicar dos m√©todos para obtener la cantidad de duplicados expl√≠citos.

In [84]:
# Cuenta los duplicados expl√≠citos
numero_duplicados = df.duplicated().sum()
print(f"El n√∫mero de datos duplicados expl√≠citos es (m√©todo duplicated().sum()): {numero_duplicados}")

El n√∫mero de datos duplicados expl√≠citos es (m√©todo duplicated().sum()): 3826


Etapa 2.9. Ahora, elimina todos los duplicados. Para ello, llama al m√©todo que hace exactamente esto.

In [85]:
# Elimina los duplicados expl√≠citos
df = df.drop_duplicates()

print(f"El n√∫mero de filas en el dataframe despu√©s de eliminar los datos duplicados: {len(df)}")

El n√∫mero de filas en el dataframe despu√©s de eliminar los datos duplicados: 61253


Etapa 2.10. Comprobemos ahora si conseguimos eliminar todos los duplicados. Cuenta los duplicados expl√≠citos una vez m√°s para asegurarte de haberlos eliminado todos:

In [86]:
# Comprueba de nuevo si hay duplicados
numero_duplicados_despues = df.duplicated().sum()
print(f"El n√∫mero de datos duplicados expl√≠citos despu√©s de eliminar es: {numero_duplicados_despues}")

El n√∫mero de datos duplicados expl√≠citos despu√©s de eliminar es: 0


Ahora queremos deshacernos de los duplicados impl√≠citos en la columna `genre`. Por ejemplo, el nombre de un g√©nero se puede escribir de varias formas. Dichos errores tambi√©n pueden afectar al resultado.

Etapa 2.11. Primero debemos mostrar una lista de nombres de g√©neros √∫nicos, por orden alfab√©tico. Para ello:
1. Extrae la columna `genre` del DataFrame.
2. Llama al m√©todo que devolver√° todos los valores √∫nicos en la columna extra√≠da.


In [87]:
# Inspecciona los nombres de g√©neros √∫nicos

# Primero extraigo la columna 'genre'
generos = df['genre']

# Despu√©s obtengo los valores √∫nicos
generos_unicos = generos.unique()

# Ahora debo ordenar alfab√©ticamente la lista de g√©neros √∫nicos
generos_unicos_ordenados = sorted(generos_unicos)

# Por √∫ltimo muestro la lista ordenada
print("La lista de g√©neros √∫nicos en orden alfab√©tico:")
for genero in generos_unicos_ordenados:
    print(genero)

La lista de g√©neros √∫nicos en orden alfab√©tico:
acid
acoustic
action
adult
africa
afrikaans
alternative
ambient
americana
animated
anime
arabesk
arabic
arena
argentinetango
art
audiobook
avantgarde
ax√©
baile
balkan
beats
bigroom
black
bluegrass
blues
bollywood
bossa
brazilian
breakbeat
breaks
broadway
cantautori
cantopop
canzone
caribbean
caucasian
celtic
chamber
children
chill
chinese
choral
christian
christmas
classical
classicmetal
club
colombian
comedy
conjazz
contemporary
country
cuban
dance
dancehall
dancepop
dark
death
deep
deutschrock
deutschspr
dirty
disco
dnb
documentary
downbeat
downtempo
drum
dub
dubstep
eastern
easy
electronic
electropop
emo
entehno
epicmetal
estrada
ethnic
eurofolk
european
experimental
extrememetal
fado
film
fitness
flamenco
folk
folklore
folkmetal
folkrock
folktronica
forr√≥
frankreich
franz√∂sisch
french
funk
future
gangsta
garage
german
ghazal
gitarre
glitch
gospel
gothic
grime
grunge
gypsy
handsup
hard'n'heavy
hardcore
hardstyle
hardtechno
hip
hi

Vamos a examinar la lista para identificar **duplicados impl√≠citos** del g√©nero `hiphop`, es decir, nombres mal escritos o variantes que hacen referencia al mismo g√©nero musical.

Algunos de los duplicados que encontrar√°s son:

* `hip`  
* `hop`  
* `hip-hop`  

Para solucionarlo, vamos a crear una funci√≥n llamada `replace_wrong_genres()` que tendr√° dos par√°metros:

* `wrong_genres`: una lista con todos los valores que deben ser reemplazados.  
* `correct_genre`: un string que se utilizar√° como valor de reemplazo.

El objetivo de esta funci√≥n es **corregir los valores en la columna `'genre'` del DataFrame `df`**, reemplazando cada valor de la lista `wrong_genres` por `correct_genre`.

Etapa 2.12.
1. Define una funci√≥n llamada `replace_wrong_genres()` que reciba dos par√°metros: `wrong_genres` y `correct_genre`.

2. Dentro de la funci√≥n, utiliza un bucle `for` para iterar sobre cada valor en la lista `wrong_genres`.

3. En cada iteraci√≥n, accede a la columna `'genre'` del DataFrame `df` y utiliza el m√©todo `.replace()` para sustituir el valor incorrecto por `correct_genre`.

4. Llama a la funci√≥n y pasa como argumentos:
   - Una lista con los duplicados impl√≠citos: `['hip', 'hop', 'hip-hop']`
   - El string de reemplazo: `'hiphop'`

In [88]:
# Funci√≥n para reemplazar los duplicados impl√≠citos
def replace_wrong_genres(wrong_genres, correct_genre):
    """
    Reemplaza una lista de g√©neros incorrectos con un g√©nero correcto en la columna 'genre' del dataframe df.

    Args:
        wrong_genres (list): Una lista de strings que representan los nombres de g√©nero incorrectos.
        correct_genre (str): El string que representa el nombre de g√©nero correcto con el que se reemplazar√°n los incorrectos.
    """
    for wrong_genre in wrong_genres:
        df['genre'] = df['genre'].replace(wrong_genre, correct_genre)

# Definimos la lista de g√©neros incorrectos y el g√©nero correcto
wrong_genres_list = ['hip', 'hop', 'hip-hop']
correct_genre_name = 'hiphop'

# Llamamos a la funci√≥n para realizar el reemplazo
replace_wrong_genres(wrong_genres_list, correct_genre_name)

# Vamos a verificar los cambios mostrando algunos valores √∫nicos de la columna 'genre'
print("Valores √∫nicos de la columna 'genre' despu√©s del reemplazo:")
print(df['genre'].unique())

Valores √∫nicos de la columna 'genre' despu√©s del reemplazo:
['rock' 'pop' 'folk' 'dance' 'rusrap' 'ruspop' 'world' 'electronic'
 'unknown' 'alternative' 'children' 'rnb' 'hiphop' 'jazz' 'postrock'
 'latin' 'classical' 'metal' 'reggae' 'triphop' 'blues' 'instrumental'
 'rusrock' 'dnb' 't√ºrk' 'post' 'country' 'psychedelic' 'conjazz' 'indie'
 'posthardcore' 'local' 'avantgarde' 'punk' 'videogame' 'techno' 'house'
 'christmas' 'melodic' 'caucasian' 'reggaeton' 'soundtrack' 'singer' 'ska'
 'salsa' 'ambient' 'film' 'western' 'rap' 'beats' "hard'n'heavy"
 'progmetal' 'minimal' 'tropical' 'contemporary' 'new' 'soul' 'holiday'
 'german' 'jpop' 'spiritual' 'urban' 'gospel' 'nujazz' 'folkmetal'
 'trance' 'miscellaneous' 'anime' 'hardcore' 'progressive' 'korean'
 'numetal' 'vocal' 'estrada' 'tango' 'loungeelectronic' 'classicmetal'
 'dubstep' 'club' 'deep' 'southern' 'black' 'folkrock' 'fitness' 'french'
 'disco' 'religious' 'drum' 'extrememetal' 't√ºrk√ße' 'experimental' 'easy'
 'metalcore' 'm

Etapa 2.13. Ahora, llama a `replace_wrong_genres()` y p√°sale estos argumentos para que retire los duplicados impl√≠citos (`hip`, `hop` y `hip-hop`) y los sustituya por `hiphop`:

In [89]:
# Elimina los duplicados impl√≠citos

def replace_wrong_genres(wrong_genres, correct_genre):
    """
    Reemplaza una lista de g√©neros incorrectos con un g√©nero correcto en la columna 'genre' del DataFrame df.

    Args:
        wrong_genres (list): Una lista de strings que representan los nombres de g√©nero incorrectos.
        correct_genre (str): El string que representa el nombre de g√©nero correcto con el que se reemplazar√°n los incorrectos.
    """
    for wrong_genre in wrong_genres:
        df['genre'] = df['genre'].replace(wrong_genre, correct_genre)

# Definimos la lista de g√©neros incorrectos y el g√©nero correcto
wrong_genres_list = ['hip', 'hop', 'hip-hop']
correct_genre_name = 'hiphop'

# Llamamos a la funci√≥n para realizar el reemplazo
replace_wrong_genres(wrong_genres_list, correct_genre_name)

# Vamos a verificar los cambios mostrando algunos valores √∫nicos de la columna 'genre'
print("Valores √∫nicos de la columna 'genre' despu√©s del reemplazo:")
print(df['genre'].unique())

Valores √∫nicos de la columna 'genre' despu√©s del reemplazo:
['rock' 'pop' 'folk' 'dance' 'rusrap' 'ruspop' 'world' 'electronic'
 'unknown' 'alternative' 'children' 'rnb' 'hiphop' 'jazz' 'postrock'
 'latin' 'classical' 'metal' 'reggae' 'triphop' 'blues' 'instrumental'
 'rusrock' 'dnb' 't√ºrk' 'post' 'country' 'psychedelic' 'conjazz' 'indie'
 'posthardcore' 'local' 'avantgarde' 'punk' 'videogame' 'techno' 'house'
 'christmas' 'melodic' 'caucasian' 'reggaeton' 'soundtrack' 'singer' 'ska'
 'salsa' 'ambient' 'film' 'western' 'rap' 'beats' "hard'n'heavy"
 'progmetal' 'minimal' 'tropical' 'contemporary' 'new' 'soul' 'holiday'
 'german' 'jpop' 'spiritual' 'urban' 'gospel' 'nujazz' 'folkmetal'
 'trance' 'miscellaneous' 'anime' 'hardcore' 'progressive' 'korean'
 'numetal' 'vocal' 'estrada' 'tango' 'loungeelectronic' 'classicmetal'
 'dubstep' 'club' 'deep' 'southern' 'black' 'folkrock' 'fitness' 'french'
 'disco' 'religious' 'drum' 'extrememetal' 't√ºrk√ße' 'experimental' 'easy'
 'metalcore' 'm

Etapa 2.14. Aseg√∫rate de que los nombres duplicados se hayan eliminado. Muestra la lista de valores √∫nicos de la columna `'genre'` una vez m√°s:

In [90]:
# Comprueba de nuevo los duplicados impl√≠citos
print("Lista de valores √∫nicos de la columna 'genre' despu√©s del reemplazo:")
print(df['genre'].unique())

Lista de valores √∫nicos de la columna 'genre' despu√©s del reemplazo:
['rock' 'pop' 'folk' 'dance' 'rusrap' 'ruspop' 'world' 'electronic'
 'unknown' 'alternative' 'children' 'rnb' 'hiphop' 'jazz' 'postrock'
 'latin' 'classical' 'metal' 'reggae' 'triphop' 'blues' 'instrumental'
 'rusrock' 'dnb' 't√ºrk' 'post' 'country' 'psychedelic' 'conjazz' 'indie'
 'posthardcore' 'local' 'avantgarde' 'punk' 'videogame' 'techno' 'house'
 'christmas' 'melodic' 'caucasian' 'reggaeton' 'soundtrack' 'singer' 'ska'
 'salsa' 'ambient' 'film' 'western' 'rap' 'beats' "hard'n'heavy"
 'progmetal' 'minimal' 'tropical' 'contemporary' 'new' 'soul' 'holiday'
 'german' 'jpop' 'spiritual' 'urban' 'gospel' 'nujazz' 'folkmetal'
 'trance' 'miscellaneous' 'anime' 'hardcore' 'progressive' 'korean'
 'numetal' 'vocal' 'estrada' 'tango' 'loungeelectronic' 'classicmetal'
 'dubstep' 'club' 'deep' 'southern' 'black' 'folkrock' 'fitness' 'french'
 'disco' 'religious' 'drum' 'extrememetal' 't√ºrk√ße' 'experimental' 'easy'
 'meta

* [Volver a Contenido](#back)

# Conclusiones <a id='data_preprocessing_conclusions'></a>

`Redacta un breve resumen de lo que descubriste al analizar los datos. Tu respuesta debe identificar los problemas detectados, explicar c√≥mo los resolviste y describir c√≥mo esas acciones mejoran la calidad del an√°lisis.`

Etapa 2.14. Descr√≠belo aqu√≠.
Problemas Detectados:
Durante la inspecci√≥n inicial del conjunto de datos, identifiqu√© los siguientes problemas que pueden afectar la calidad de un an√°lisis:
1.	Los nombres de las columnas eran inconsistentes. Conten√≠an letras may√∫sculas, espacios al principio y al final, y utilizaban un formato inconsistente, todo esto dificulta la referencia y el procesamiento uniforme de las columnas.
2.	Los valores ausentes. Los valores faltantes en algunas columnas, este error com√∫n puede sesgar los an√°lisis y generar errores si no se gestionan adecuadamente.
3.	Los duplicados expl√≠citos. Se identifican filas que son duplicados exactos de otras filas. Estos duplicados no aportan informaci√≥n adicional y pueden inflar los conteos y afectar las estad√≠sticas.
4.	Duplicados impl√≠citos en la columna 'genre'. Los diferentes nombres para el mismo g√©nero musical, como 'hip', 'hop' y 'hip-hop', que en realidad deben agruparse con el mismo nombre de: ('hiphop'). Esta inconsistencia dificulta el an√°lisis por g√©nero.
Resoluci√≥n de problemas:
Para normalizar los nombres de las columnas, debo iterar sobre los nombres, convertirlos a min√∫sculas y eliminar los espacios en blanco al principio y al final. Luego, aplicar la convenci√≥n snake_case para el nombre de la columna 'userid', cambi√°ndolo a 'user_id'. Estas correcciones crearon un esquema de nombres de columnas m√°s consistente y f√°cil de usar.

La Imputaci√≥n de valores ausentes, reemplazar los valores ausentes encontrados en las columnas 'track', 'artist' y 'genre' con la cadena 'unknown'.
Si bien esta es una estrategia simple, asegura que estos campos tengan un valor y puedan incluirse en an√°lisis posteriores sin generar errores.

Eliminar los duplicados expl√≠citos: Utiliz√© el m√©todo drop_duplicates() para eliminar todas las filas que eran duplicados exactos. Esto asegur√≥ que cada fila en el conjunto de datos represente una entrada √∫nica.

Correcci√≥n de duplicados impl√≠citos en 'genre',  definir una funci√≥n: replace_wrong_genres() que tom√≥ una lista de representaciones incorrectas del g√©nero hip-hop ('hip', 'hop', 'hip-hop') y las reemplaz√≥ por la forma correcta ('hiphop') en la columna 'genre'. Esto homogeneiz√≥ la representaci√≥n de este g√©nero.

Para mejorar estas acciones y generar un mejor an√°lisis:
La consistencia y facilidad de uso implica normalizar los nombres de las columnas para que el c√≥digo sea m√°s legible, menos propenso a errores y facilitar el acceso a las columnas para futuros an√°lisis.
La integridad de los datos implica tratar los valores ausentes y asegurar que los an√°lisis no se vean afectados por la falta de informaci√≥n en estas columnas.

Tambi√©n la precisi√≥n de los conteos y estad√≠sticas, eliminar los duplicados expl√≠citos garantiza que los conteos y las estad√≠sticas descriptivas reflejen mejor la cantidad real de datos √∫nicos, evitando la sobreestimaci√≥n. As√≠ como tambi√©n la correcci√≥n de los duplicados impl√≠citos en la columna 'genre' permite realizar an√°lisis m√°s precisos y significativos basados en los g√©neros musicales, ya que las diferentes representaciones del mismo g√©nero ahora se agrupan correctamente.


* [Volver a Contenido](#back)

# Etapa 3. Prueba de la hip√≥tesis <a id='hypothesis'></a>

La hip√≥tesis que queremos probar plantea que existen diferencias en la forma en que los usuarios de Springfield y Shelbyville consumen m√∫sica.
Para analizar esto, nos enfocaremos en los datos correspondientes a tres d√≠as espec√≠ficos de la semana: lunes, mi√©rcoles y viernes.

El an√°lisis consistir√° en comparar la cantidad de canciones reproducidas por los usuarios de cada ciudad en esos d√≠as. Esto nos permitir√° observar posibles patrones o diferencias en los h√°bitos de consumo entre Springfield y Shelbyville.

Para llevar a cabo este an√°lisis, es importante seguir el enfoque de dividir-aplicar-combinar, del que ya hablamos en la lecci√≥n. En este caso:

*  Dividir: separamos los datos en grupos seg√∫n la ciudad.

*  Aplicar: dentro de cada grupo, contamos cu√°ntas canciones se reprodujeron.

*  Combinar: reunimos los resultados en una estructura que nos permita comparar f√°cilmente ambas ciudades.

Este procedimiento debe repetirse de forma independiente para cada uno de los tres d√≠as seleccionados. El resultado final debe mostrar el n√∫mero de reproducciones por ciudad en cada uno de esos d√≠as.

Una posible forma de estructurar el c√≥digo ser√≠a con la siguiente expresi√≥n:

`df.groupby(by='...')['...'].method()`

Deber√°s completar los argumentos correspondientes para agrupar por ciudad y contar las canciones reproducidas. Este enfoque te dar√° una visi√≥n clara y comparativa del comportamiento de los usuarios en ambas ciudades.

* [Volver a Contenido](#back)

# Tarea. Comparar el comportamiento de los usuarios en las dos ciudades <a id='activity'></a>
Etapa 3.1. Cuenta cu√°ntas canciones se reprodujeron en cada ciudad utilizando la columna 'track' como referencia.

In [91]:
# Limpia los nombres de las columnas y tambien va eliminando los espacios en blanco al principio y al final
#conviertiendo todos los caracteres en columnas.
df.columns = df.columns.str.strip().str.lower()

# Muestra Los nombres de las columnas para verificar el cambio
#print(df.columns)

# Cuenta las canciones reproducidas en cada ciudad
canciones_por_ciudad = df.groupby(by='city')['track'].count()
print("N√∫mero de canciones reproducidas por cada ciudad:")
print(canciones_por_ciudad)

N√∫mero de canciones reproducidas por cada ciudad:
city
Shelbyville    18512
Springfield    42741
Name: track, dtype: int64


`Redacta brevemente tus observaciones sobre los resultados. ¬øQu√© diferencias notaste entre Springfield y Shelbyville? ¬øA qu√© podr√≠an deberse esas diferencias?`

Etapa 3.2. Escribe tus observaciones aqu√≠.

El tama√±o de la poblaci√≥n en cada Ciudad es diferente, el uso de la plataforma, los h√°bitos de escucha, el factor socioecon√≥mico, promociones de eventos locales, publicidad y marketing‚Ä¶

Etapa 3.3.
1. Agrupa los datos por d√≠a de la semana y cuenta cu√°ntas canciones se reprodujeron los lunes, mi√©rcoles y viernes.

2. Utiliza el mismo m√©todo de conteo que antes, pero ahora cambia la columna de agrupaci√≥n para enfocarte en el d√≠a.

3. Esto te permitir√° identificar posibles patrones de escucha seg√∫n el d√≠a de la semana.


In [92]:
# Calcula las canciones reproducidas en cada uno de los tres d√≠as
canciones_por_dia = df.groupby(by='day')['track'].count()
print("N√∫mero de canciones reproducidas al d√≠a:")
print(canciones_por_dia)

# Calcula las canciones reproducidas en cada uno de los tres d√≠as y en cada Ciudad.
canciones_por_ciudad_dia = df.groupby(by=['city', 'day'])['track'].count()
print("N√∫mero de canciones reproducidas por ciudad y d√≠a:")
print(canciones_por_ciudad_dia)

N√∫mero de canciones reproducidas al d√≠a:
day
Friday       21840
Monday       21354
Wednesday    18059
Name: track, dtype: int64
N√∫mero de canciones reproducidas por ciudad y d√≠a:
city         day      
Shelbyville  Friday        5895
             Monday        5614
             Wednesday     7003
Springfield  Friday       15945
             Monday       15740
             Wednesday    11056
Name: track, dtype: int64


`Describe brevemente qu√© observaste al comparar los lunes, mi√©rcoles y viernes. ¬øHubo alg√∫n d√≠a con menos actividad? ¬øCambian las conclusiones si analizas cada ciudad por separado?`

Etapa 3.4. Escribe tus observaciones aqu√≠.
Hay una variaci√≥n notable en el n√∫mero total de reproducciones y esto se debe al n√∫mero total de la poblaci√≥n en cada Ciudad.
Podr√≠a haber una tendencia gradual o una disminuci√≥n en el n√∫mero de reproducciones a lo largo de la semana.

Es posible que alguno de los 3 d√≠as, tenga un n√∫mero menor de reproducciones.

Un d√≠a podr√≠a ser el de menor actividad en Springfield, pero el de mayor actividad en Shelbyville, o viceversa.

Los factores locales como eventos sociales, d√≠as festivos y patrones de trabajo o transporte podr√≠an influir de manera diferente en los h√°bitos de escuchar m√∫sica en cada ciudad en diferentes d√≠as de la semana.

Siendo el n√∫mero de usuarios bastante distinto en cada Ciudad; podr√≠a existir un patr√≥n especifico de escuchar m√∫sica; que estar√≠a dominando la Ciudad con mayor n√∫mero de usuarios.


Hasta ahora has aprendido a contar entradas agrup√°ndolas por un solo criterio, como la ciudad o el d√≠a de la semana. Ahora vamos a dar un paso m√°s: necesitas crear una funci√≥n que **cuente cu√°ntas canciones se reprodujeron en una ciudad espec√≠fica durante un d√≠a determinado**, combinando ambos criterios de filtrado.

La funci√≥n se llamar√° `number_tracks()` y debe aceptar dos par√°metros:

- `day`: un d√≠a de la semana (por ejemplo, `'Monday'`).
- `city`: el nombre de una ciudad (por ejemplo, `'Springfield'`).

Dentro de la funci√≥n, deber√°s aplicar un **filtrado secuencial mediante indexaci√≥n l√≥gica**: primero tendr√°s que filtrar el DataFrame por el d√≠a, y luego por la ciudad. Una vez que tengas el subconjunto de datos correcto, debes contar cu√°ntas veces aparece un valor en la columna `'user_id'`. Ese n√∫mero representar√° el total de canciones reproducidas bajo esos dos criterios.



Etapa 3.5.
1. Declara una funci√≥n llamada `number_tracks()` con dos par√°metros: `day` y `city`.

2. Filtra el DataFrame para conservar solo las filas donde la columna `'day'` sea igual al valor del par√°metro `day`.

3. A partir del resultado anterior, filtra nuevamente para conservar solo las filas donde la columna `'city'` sea igual al valor del par√°metro `city`.

4. Extrae la columna `'user_id'` del DataFrame filtrado y utiliza el m√©todo `.count()` para contar el n√∫mero de entradas.

5. Guarda ese valor en una variable y **devu√©lvelo** como resultado de la funci√≥n.


In [93]:
def number_tracks(day, city):

    # Filtra el DataFrame para el d√≠a y la ciudad especificados, y cuenta las canciones.
    track_count = df[(df['day'] == day) & (df['city'] == city)]['track'].count()
    return track_count


# Limpia los nombres de las columnas: elimina espacios y convierte a min√∫sculas.
df.columns = df.columns.str.strip().str.lower()

# Renombra la columna 'userid' a 'user_id'.
df = df.rename(columns={'userid': 'user_id'})

# Imprime los encabezados del DataFrame para verificar los cambios.
print(df.head())


    user_id                        track            artist  genre  \
0  FFB692EC            Kamigata To Boots  The Mass Missile   rock   
1  55204538  Delayed Because of Accident  Andreas R√∂nnberg   rock   
2    20EC38            Funicul√¨ funicul√†       Mario Lanza    pop   
3  A3DD03C9        Dragons in the Sunset        Fire + Ice   folk   
4  E2DC1FAE                  Soul People        Space Echo  dance   

          city      time        day  
0  Shelbyville  20:28:33  Wednesday  
1  Springfield  14:07:09     Friday  
2  Shelbyville  20:58:07  Wednesday  
3  Shelbyville  08:37:09     Monday  
4  Springfield  08:34:34     Monday  


Etapa 3.6. Llama a `number_tracks()` seis veces, cambiando los valores de los par√°metros para que puedas recuperar los datos de ambas ciudades para cada uno de los tres d√≠as.

In [94]:
# El n√∫mero de canciones reproducidas en Springfield el lunes y lo imprime.
reproducciones_lunes_springfield = number_tracks('Monday', 'Springfield')
print("El n√∫mero de canciones reproducidas en Springfield el lunes:", reproducciones_lunes_springfield)

El n√∫mero de canciones reproducidas en Springfield el lunes: 15740


In [95]:
# El n√∫mero de canciones reproducidas en Shelbyville el lunes y lo imprime.
reproducciones_lunes_shelbyville = number_tracks('Monday', 'Shelbyville')
print("El n√∫mero de canciones reproducidas en Shelbyville el lunes:", reproducciones_lunes_shelbyville)


El n√∫mero de canciones reproducidas en Shelbyville el lunes: 5614


In [96]:
# El n√∫mero de canciones reproducidas en Springfield el mi√©rcoles y lo imprime.
reproducciones_miercoles_springfield = number_tracks('Wednesday', 'Springfield')
print("El n√∫mero de canciones reproducidas en Springfield el mi√©rcoles:", reproducciones_miercoles_springfield)


El n√∫mero de canciones reproducidas en Springfield el mi√©rcoles: 11056


In [97]:
# El n√∫mero de canciones reproducidas en Shelbyville el mi√©rcoles y lo imprime.
reproducciones_miercoles_shelbyville = number_tracks('Wednesday', 'Shelbyville')
print("El n√∫mero de canciones reproducidas en Shelbyville el mi√©rcoles:", reproducciones_miercoles_shelbyville)


El n√∫mero de canciones reproducidas en Shelbyville el mi√©rcoles: 7003


In [98]:
# Obtiene el n√∫mero de canciones reproducidas en Shelbyville el viernes y lo imprime.
reproducciones_viernes_shelbyville = number_tracks('Friday', 'Shelbyville')
print("El n√∫mero de canciones reproducidas en Shelbyville el viernes:", reproducciones_viernes_shelbyville)

El n√∫mero de canciones reproducidas en Shelbyville el viernes: 5895


In [99]:
# El n√∫mero de canciones reproducidas en Shelbyville el viernes y lo imprime.
reproducciones_viernes_shelbyville = number_tracks('Friday', 'Shelbyville')
print("El n√∫mero de canciones reproducidas en Shelbyville el viernes:", reproducciones_viernes_shelbyville)



El n√∫mero de canciones reproducidas en Shelbyville el viernes: 5895


* [Volver a Contenido](#back)

# Conclusiones <a id='end'></a>

Escribe tus conclusiones finales sobre la hip√≥tesis.

 * ¬øLos datos apoyan la idea de que el comportamiento de los usuarios respecto a la m√∫sica que escuchan var√≠a seg√∫n la ciudad y el d√≠a de la semana?
 * Indica si la hip√≥tesis debe aceptarse o rechazarse, y justifica tu respuesta con base en los resultados obtenidos.

Etapa 4. Detalla aqu√≠ tus conclusiones.

Despu√©s de observar este c√≥digo, compara los n√∫meros de reproducciones para cada ciudad en los diferentes d√≠as. Si los n√∫meros var√≠an significativamente entre ciudades y d√≠as, esto apoyar√≠a la hip√≥tesis de que el comportamiento de los usuarios var√≠a seg√∫n la ciudad y el d√≠a de la semana. Si los n√∫meros son similares, la hip√≥tesis ser√≠a rechazada.

Esto sugiere que el comportamiento de los usuarios con respecto a la m√∫sica que escuchan s√≠ var√≠a seg√∫n la ciudad y el d√≠a de la semana. Por lo tanto, se acepta la hip√≥tesis.

### Nota
En los proyectos de investigaci√≥n reales, la prueba de hip√≥tesis estad√≠stica es m√°s precisa y cuantitativa. Tambi√©n ten en cuenta que no siempre se pueden sacar conclusiones sobre una ciudad entera a partir de datos de una sola fuente.

Aprender√°s m√°s sobre la prueba de hip√≥tesis en el sprint de an√°lisis estad√≠stico de datos.

* [Volver a Contenido](#back)

## üöÄ Hallazgos y Conclusiones del An√°lisis
Tras ejecutar el protocolo de an√°lisis comparativo, se validaron los siguientes puntos:

1.  **Actividad por D√≠a:** La actividad de los usuarios en Springfield y Shelbyville depende del d√≠a de la semana, pero se comportan de manera opuesta.
    * **Lunes y Viernes:** Springfield domina la actividad, mientras que Shelbyville presenta un descenso notable.
    * **Mi√©rcoles:** La tendencia se invierte; Shelbyville supera a Springfield en actividad.

2.  **Integridad de Datos:** El preprocesamiento de valores ausentes y duplicados fue cr√≠tico para evitar sesgos en el conteo de reproducciones.

**Conclusi√≥n Final:** Las estrategias de marketing y recomendaciones musicales no pueden ser uniformes; deben adaptarse al ritmo semanal espec√≠fico de cada ciudad ("Micro-segmentaci√≥n temporal").