## Descripción

Como analista de datos, tu trabajo consiste en analizar datos para extraer información valiosa y tomar decisiones basadas en ellos. Esto implica diferentes etapas, como la descripción general de los datos, el preprocesamiento y la prueba de hipótesis.

Siempre que investigamos, necesitamos formular hipótesis que después podamos probar. A veces aceptamos estas hipótesis; otras veces, las rechazamos. Para tomar las decisiones correctas, una empresa debe ser capaz de entender si está haciendo las suposiciones correctas.

En este proyecto, compararás las preferencias musicales de las ciudades de Springfield y Shelbyville. Estudiarás datos reales de transmisión de música online para probar la hipótesis a continuación y comparar el comportamiento de los usuarios y las usuarias de estas dos ciudades.

### Objetivo:
Prueba la hipótesis:
> La actividad de los usuarios difiere según el día de la semana y dependiendo de la ciudad.


### Etapas
Los datos del comportamiento del usuario se almacenan en el archivo `/datasets/music_project_en.csv`. No hay ninguna información sobre la calidad de los datos, así que necesitarás examinarlos antes de probar la hipótesis.

Primero, evaluarás la calidad de los datos y verás si los problemas son significativos. Entonces, durante el preprocesamiento de datos, tomarás en cuenta los problemas más críticos.

Tu proyecto consistirá en tres etapas:
 1. Descripción de los datos.
 2. Preprocesamiento de datos.
 3. Prueba de hipótesis.








## Etapa 1. Descripción de los datos


In [1]:
# Importar pandas

import pandas as pd # Se utiliza el alias "pd" para la libería de "pandas" para facilitar su uso.

In [2]:
# Leer el archivo y almacenarlo en df

df = pd.read_csv('/datasets/music_project_en.csv') # Se utiliza el método "read_csv()" ya que el archivo tiene una extensión ".csv"


In [None]:
# Obtener las 10 primeras filas de la tabla df

df.head(10) # Se utiliza el método "head()" con el argumento de la cantidad de filas a mostrar.

     userID                        Track            artist   genre  \
0  FFB692EC            Kamigata To Boots  The Mass Missile    rock   
1  55204538  Delayed Because of Accident  Andreas Rönnberg    rock   
2    20EC38            Funiculì funiculà       Mario Lanza     pop   
3  A3DD03C9        Dragons in the Sunset        Fire + Ice    folk   
4  E2DC1FAE                  Soul People        Space Echo   dance   
5  842029A1                       Chains          Obladaet  rusrap   
6  4CB90AA5                         True      Roman Messer   dance   
7  F03E1C1F             Feeling This Way   Polina Griffith   dance   
8  8FA1D3BE                     L’estate       Julia Dalia  ruspop   
9  E772D5C0                    Pessimist               NaN   dance   

        City        time        Day  
0  Shelbyville  20:28:33  Wednesday  
1  Springfield  14:07:09     Friday  
2  Shelbyville  20:58:07  Wednesday  
3  Shelbyville  08:37:09     Monday  
4  Springfield  08:34:34     Monday  
5

In [4]:
# Obtener la información general sobre nuestros datos

print(df.info()) # Se utiliza el método "info()" para obtener la información más importantes de los atributos del DataFrame "df"


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65079 entries, 0 to 65078
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0     userID  65079 non-null  object
 1   Track     63736 non-null  object
 2   artist    57512 non-null  object
 3   genre     63881 non-null  object
 4     City    65079 non-null  object
 5   time      65079 non-null  object
 6   Day       65079 non-null  object
dtypes: object(7)
memory usage: 3.5+ MB
None


Se puede observar que la tabla contiene siete columnas y almacenan los mismos tipos de datos: `object`.

Según la documentación:
- `' userID'`: identificador del usuario o la usuaria;
- `'Track'`: título de la canción;
- `'artist'`: nombre del artista;
- `'genre'`: género de la pista;
- `'City'`: ciudad del usuario o la usuaria;
- `'time'`: la hora exacta en la que se reprodujo la canción;
- `'Day'`: día de la semana.

Se observan tres problemas con el estilo en los encabezados de la tabla:
1. Algunos encabezados están en mayúsculas, otros en minúsculas.
2. Hay espacios en algunos encabezados.
3. Al parecer hay un problema de ausencia de datos, ya que el conteo de elementos del tipo non-null muestra que 3 de las 7 columnas no tiene la misma cantidad de elementos no nulos (non-null).

In [5]:
# Verificación de valores ausentes en el DataFrame "df"

print(df.isna().sum())
print()


# Verificación de valores duplicados explícitos en el DataFrame "df"

print(df.duplicated().sum())
print()


  userID       0
Track       1343
artist      7567
genre       1198
  City         0
time           0
Day            0
dtype: int64

3826



**Observaciones iniciales de los datos a analizar:**
- Todos los datos son de tipo `object`, lo cual indica que son strings. En función de los encabezados de cada columna se puede entender que información brinda cada una de las entradas de las columnas.

- Se tiene suficiente información para poder responder a la hipostésis ya que los datos que tenemos podemos agrupar datos para calcular algunos indicadores, como por ejemplo: cuantas canciones se reprodujeron por día y por ciudad, verificar qué día es el que más canciones se reprodujeron por ciudad, si se reprodujeron las mismas cantidades de canciones en ambas ciudades, etc.

- Se encontró que existen valores ausentes y duplicados, sin embargo, no se sabe si sólo hay valores duplicados explícitos.

## Etapa 2. Preprocesamiento de datos

El objetivo aquí es preparar los datos para que sean analizados.
El primer paso es resolver cualquier problema con los encabezados. Luego podemos avanzar a los valores ausentes y duplicados. Empecemos.

Corrige el formato en los encabezados de la tabla.


In [None]:
# Muestra los nombres de las columnas
print(df.columns)

Index(['  userID', 'Track', 'artist', 'genre', '  City  ', 'time', 'Day'], dtype='object')


Se cambiarán los encabezados de la tabla de acuerdo con las reglas del buen estilo:
* Todos los caracteres deben ser minúsculas.
* Elimina los espacios.
* Si el nombre tiene varias palabras, utiliza snake_case.

In [7]:
# Bucle en los encabezados poniendo todo en minúsculas

names_lowered = [] # Lista para guardar los encabezados en minúsculas

for old_name in df.columns:
    
    name_lowered = old_name.lower()  # Convierte los nombres a minúsculas
    names_lowered.append(name_lowered)

print(names_lowered) # Muestra el resultado obtenido

['  userid', 'track', 'artist', 'genre', '  city  ', 'time', 'day']


In [8]:
# Bucle en los encabezados eliminando los espacios

names_stripped = [] # Lista para guardar los encabezados sin espacios

for old_name in names_lowered:
    
    name_stripped = old_name.strip()  # Elimina los espacios iniciales y finales de los nombres
    names_stripped.append(name_stripped)

print(names_stripped) # Muestra el resultado obtenido


['userid', 'track', 'artist', 'genre', 'city', 'time', 'day']


In [9]:
# Cambiar el nombre de la columna "userid"

new_col_names = [] # Lista para guardar los encabezados modificados

word = '' # Inicialización de variable tipo 'str' para guardar el nombre modificado

# Ciclo for para iterar letra a letra el nombre a modificar

for letter in names_stripped[0]: 
    if letter == 'r': # Condición para aplicar el '_' para obtener el nombre en snake_case
        word += letter + '_'
    else:
        word += letter
        
# Ciclo for para iterar los nombres de las columnas y asignarlos a la nueva lista

for column in names_stripped:
    
    new_col_names.append(column) 
    
new_col_names[0] = word # Reasignación del nombre modificado en la posición correspondiente dentro de la lista

print(new_col_names) # Muestra el resultado obtenido


['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day']


In [10]:
# Comprobar el resultado: la lista de encabezados

df.columns = new_col_names # Reemplaza los nombres anteriores por los nuevos

print(df.columns) # Muestra el resultado en el DataFrame "df"

Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')


### Valores ausentes

In [11]:
# Calcular el número de valores ausentes

print(df.isna().sum())

user_id       0
track      1343
artist     7567
genre      1198
city          0
time          0
day           0
dtype: int64


**No todos los valores ausentes afectan a la investigación. Por ejemplo, los valores ausentes en `track` y `artist` no son cruciales. Simplemente pueden reemplazarse con valores predeterminados como el string `'unknown'` (desconocido).**

**Pero los valores ausentes en `'genre'` pueden afectar la comparación entre las preferencias musicales de Springfield y Shelbyville. Sería útil saber las razones por las cuales hay datos ausentes e intentar recuperarlos. Pero no se tiene esa posibilidad en este proyecto. Así que se tiene que:**
* **rellenar estos valores ausentes con un valor predeterminado;**
* **evaluar cuánto podrían afectar los valores ausentes a los resultados;**

**Después de analizar la situción anterior, se concluye que no afectaría mucho, ya que los datos relevantes para la demostración de la hipótesis son: `user_id`, `city`, `time` y `day`. Por lo cual, se procedee a reemplazar los valores ausentes en las columnas `'track'`, `'artist'` y `'genre'` con el string `'unknown'`.**

In [12]:
# Bucle en los encabezados reemplazando los valores ausentes con 'unknown'

cols_to_replace = [ # Lista de los nombres de las columnas para reemplazar los valores ausentes.
    'track',
    'artist',
    'genre'
]

for col in cols_to_replace: # Ciclo for para iterar la lista de columnas para reemplazar los valores ausentes.
    df[col].fillna('unknown', inplace = True) # Reemplazo de los valores ausentes sin utilizar reasignación.
    

In [13]:
# Contar valores ausentes

print(df.isna().sum()) # Se muestra la suma de valores ausentes presentes en el DataFrame "df".

user_id    0
track      0
artist     0
genre      0
city       0
time       0
day        0
dtype: int64


### Duplicados

In [14]:
# Contar duplicados explícitos

print(df.duplicated().sum()) # Se muestra la suma de valores duplicados presentes en el DataFrame "df".


3826


In [15]:
# Eliminar duplicados explícitos

df.drop_duplicates(inplace = True) # Se utiliza el argumento "inplace = True" para omitir la reasignación. 
df.reset_index(drop = True) # Se utiliza el método "reset_index()" para reestablcer el orden de los índices del DataFrame "df" y el parámetro "drop = True" para eliminar la columna de los índices anteriores antes del restablecimiento.

Unnamed: 0,user_id,track,artist,genre,city,time,day
0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Shelbyville,20:28:33,Wednesday
1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Springfield,14:07:09,Friday
2,20EC38,Funiculì funiculà,Mario Lanza,pop,Shelbyville,20:58:07,Wednesday
3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Shelbyville,08:37:09,Monday
4,E2DC1FAE,Soul People,Space Echo,dance,Springfield,08:34:34,Monday
...,...,...,...,...,...,...,...
61248,729CBB09,My Name,McLean,rnb,Springfield,13:32:28,Wednesday
61249,D08D4A55,Maybe One Day (feat. Black Spade),Blu & Exile,hip,Shelbyville,10:00:00,Monday
61250,C5E3A0D5,Jalopiina,unknown,industrial,Springfield,20:09:26,Friday
61251,321D0506,Freight Train,Chas McDevitt,rock,Springfield,21:43:59,Friday


In [16]:
# Comprobar de nuevo si hay duplicados

print(df.duplicated().sum()) # Se muestra la suma de valores duplicados presentes en el DataFrame "df".


0


Ahora queremos deshacernos de los duplicados implícitos en la columna `genre`. Por ejemplo, el nombre de un género se puede escribir de varias formas. Dichos errores también pueden afectar al resultado.

In [17]:
# Inspeccionar los nombres de géneros únicos

genre_column = df['genre'].unique() # Obtiene los valores únicos de la columna "genre".

print(type(genre_column)) # Verifica el tipo de dato que es la variable "genre_column".
print() # Imprime una línea en blanco.

import numpy as np # Como el tipo de dato de la variable "genre_column" es un "numpy.ndarray" es necesario importar la librería "numpy" para poder ordenar la lista de los géneros musicales.

print(np.sort(genre_column)) # Muestra la lista de valores únicos de los géneros musicales en orden alfabético, para lo cual se utilizó el metodo np.sort().
print() # Imprime una línea en blanco.
print(df['genre'].nunique()) # Muestra el número total de valores únicos presentes en la columna "genre".

<class 'numpy.ndarray'>

['acid' 'acoustic' 'action' 'adult' 'africa' 'afrikaans' 'alternative'
 'ambient' 'americana' 'animated' 'anime' 'arabesk' 'arabic' 'arena'
 'argentinetango' 'art' 'audiobook' 'avantgarde' 'axé' 'baile' 'balkan'
 'beats' 'bigroom' 'black' 'bluegrass' 'blues' 'bollywood' 'bossa'
 'brazilian' 'breakbeat' 'breaks' 'broadway' 'cantautori' 'cantopop'
 'canzone' 'caribbean' 'caucasian' 'celtic' 'chamber' 'children' 'chill'
 'chinese' 'choral' 'christian' 'christmas' 'classical' 'classicmetal'
 'club' 'colombian' 'comedy' 'conjazz' 'contemporary' 'country' 'cuban'
 'dance' 'dancehall' 'dancepop' 'dark' 'death' 'deep' 'deutschrock'
 'deutschspr' 'dirty' 'disco' 'dnb' 'documentary' 'downbeat' 'downtempo'
 'drum' 'dub' 'dubstep' 'eastern' 'easy' 'electronic' 'electropop' 'emo'
 'entehno' 'epicmetal' 'estrada' 'ethnic' 'eurofolk' 'european'
 'experimental' 'extrememetal' 'fado' 'film' 'fitness' 'flamenco' 'folk'
 'folklore' 'folkmetal' 'folkrock' 'folktronica' 'forró' 'fr

Se observan los siguientes duplicados implícitos:
* `hip`
* `hop`
* `hip-hop`

Para corregir este problema se creará una función.

In [18]:
# Función para reemplazar duplicados implícitos

def replace_wrong_genres(wrong_genres, correct_genre): # Define lq función "replace_wrong_genres" con "wrong_genres" y "correct_genre" como parámetros.
    
    for wrong_genre in wrong_genres: # Ciclo for para iterar la lista de los nombre incorrectos "wrong_genres".
        
        df['genre'].replace(wrong_genre, correct_genre, inplace = True) # Remplaza el nombre incorrecto "wrong_genre" por el nombre correcto "correct_genre".
    
    return df # Devuelve el DataFrame "df" modificado

In [19]:
# Eliminar duplicados implícitos

wrong_genres = [ # Lista de los nombres de géneros incorrectos.
    'hip',
    'hop',
    'hip-hop'
]

correct_genre = 'hiphop' # Forma correcta del género "hip-hop".

df = replace_wrong_genres(wrong_genres, correct_genre) # Llamada a la función "replace_wrong_genres" para reemplazar los nombres incorrectos presentes en la columna "genre".


In [20]:
# Comprobación de duplicados implícitos

print(np.sort(df['genre'].unique()))
print()
print(df['genre'].nunique()) # Muestra el número total de valores únicos en la columna "genre" y se puede observar que ha disminuido en 3, lo cual confirma que se ha modicado satisfactoriamente el DataFrame "df".


['acid' 'acoustic' 'action' 'adult' 'africa' 'afrikaans' 'alternative'
 'ambient' 'americana' 'animated' 'anime' 'arabesk' 'arabic' 'arena'
 'argentinetango' 'art' 'audiobook' 'avantgarde' 'axé' 'baile' 'balkan'
 'beats' 'bigroom' 'black' 'bluegrass' 'blues' 'bollywood' 'bossa'
 'brazilian' 'breakbeat' 'breaks' 'broadway' 'cantautori' 'cantopop'
 'canzone' 'caribbean' 'caucasian' 'celtic' 'chamber' 'children' 'chill'
 'chinese' 'choral' 'christian' 'christmas' 'classical' 'classicmetal'
 'club' 'colombian' 'comedy' 'conjazz' 'contemporary' 'country' 'cuban'
 'dance' 'dancehall' 'dancepop' 'dark' 'death' 'deep' 'deutschrock'
 'deutschspr' 'dirty' 'disco' 'dnb' 'documentary' 'downbeat' 'downtempo'
 'drum' 'dub' 'dubstep' 'eastern' 'easy' 'electronic' 'electropop' 'emo'
 'entehno' 'epicmetal' 'estrada' 'ethnic' 'eurofolk' 'european'
 'experimental' 'extrememetal' 'fado' 'film' 'fitness' 'flamenco' 'folk'
 'folklore' 'folkmetal' 'folkrock' 'folktronica' 'forró' 'frankreich'
 'französisch' 

### Observaciones:

**El análisis y remoción de los valores duplicados explícitos es muy simple, gracias al método "drop_duplicates()". Además, es importante resaltar el uso del método "rest_index()" para restablecer el orden de los índices del DataFrame.**

**Por otra parte, el análisis y remoción de los valores duplicados implícitos requiere más trabajo que el anterior, ya que se necesitan identificar los "typos" de las cadenas de texto. Sin embargo, el método "unique()" ayuda bastante al momento de identificar los valores únicos y "nunique()" para calcular el número total de estos valores presentes en el DataFrame. Cabe resaltar que para la eliminación de los valores duplicados implícitos es necesario el uso de funciones, ciclos "for" y el método "replace()" con lo cual se automatiza la eliminación.**

**En conclusión, los procesos anteriores son muy importantes para poder comenzar con el agrupamiento y procesamiento de los datos del DataFrame para poder verificar el cumplimiento o no de la hipotésis propuesta.**

## Etapa 3. Prueba de hipótesis <a id='hypothesis'></a>

### Hipótesis: comparar el comportamiento de los usuarios en las dos ciudades

La hipótesis afirma que existen diferencias en la forma en que los usuarios de Springfield y Shelbyville consumen música. Para comprobar esto, usaremos los datos de tres días de la semana: lunes, miércoles y viernes.

* Se agrupan a los usuarios por ciudad.
* Se compara el número de canciones que cada grupo reprodujo el lunes, el miércoles y el viernes.

In [21]:
# Contar las canciones reproducidas en cada ciudad

print(df.groupby('city')['track'].count()) # Se utiliza la columna "city" para agrupar los datos mediante el método "groupby()" y se cuentan las canciones de la columna "track" utilizando el método "count()".


city
Shelbyville    18512
Springfield    42741
Name: track, dtype: int64


**Se observa que en la ciudad de Springfield se reprodujeron más canciones que en la ciudad de Shelbyville.**

In [22]:
# Calcular las canciones reproducidas en cada uno de los tres días

print(df.groupby('day')['track'].count()) # Se utiliza la columna "day" para agrupar los datos mediante el método "groupby()" y se cuentan las canciones de la columna "track" utilizando el método "count()".


day
Friday       21840
Monday       21354
Wednesday    18059
Name: track, dtype: int64


**Se observa que el día que más canciones de reprodujeron fue el viernes seguido del lunes.**

In [None]:
# Declaración de la función number_tracks() con dos parámetros: day= y city=.

def number_tracks(day, city):
    
    df_pre_filtered = df[df['day'] == day]  # Almacena las filas del DataFrame donde el valor en la columna 'day' es igual al parámetro day=
    
    df_filtered = df_pre_filtered[df_pre_filtered['city'] == city] # Filtra las filas donde el valor en la columna 'city' es igual al parámetro city=
    
    result = df_filtered['user_id'].count() # Extrae la columna 'user_id' de la tabla filtrada y aplica el método count()
    
    return result # Devuelve el número de valores de la columna 'user_id'

In [24]:
# El número de canciones reproducidas en Springfield el lunes

print(number_tracks('Monday', 'Springfield'))

15740


In [25]:
# El número de canciones reproducidas en Shelbyville el lunes

print(number_tracks('Monday', 'Shelbyville'))

5614


In [26]:
# El número de canciones reproducidas en Springfield el miércoles

print(number_tracks('Wednesday', 'Springfield'))

11056


In [27]:
# El número de canciones reproducidas en Shelbyville el miércoles

print(number_tracks('Wednesday', 'Shelbyville'))

7003


In [28]:
# El número de canciones reproducidas en Springfield el viernes

print(number_tracks('Friday', 'Springfield'))

15945


In [29]:
# El número de canciones reproducidas en Shelbyville el viernes

print(number_tracks('Friday', 'Shelbyville'))

5895


In [None]:
# Cálculos de porcentajes para poder hacer las conclusiones pertinentes

total_played_tracks_Sprinfield = number_tracks('Monday', 'Springfield') + number_tracks('Wednesday', 'Springfield') + number_tracks('Friday', 'Springfield')

total_played_tracks_Shelbyville = number_tracks('Monday', 'Shelbyville') + number_tracks('Wednesday', 'Shelbyville') + number_tracks('Friday', 'Shelbyville')

print('Porcentajes de Sprinfield:', '\nMonday: ', number_tracks('Monday', 'Springfield')/total_played_tracks_Sprinfield*100, '\nWednesday: ', number_tracks('Wednesday', 'Springfield')/total_played_tracks_Sprinfield*100, '\nFriday: ', number_tracks('Friday', 'Springfield')/total_played_tracks_Sprinfield*100)
print()
print('Porcentajes de Shelbyville:', '\nMonday: ', number_tracks('Monday', 'Shelbyville')/total_played_tracks_Shelbyville*100, '\nWednesday: ', number_tracks('Wednesday', 'Shelbyville')/total_played_tracks_Shelbyville*100, '\nFriday: ', number_tracks('Friday', 'Shelbyville')/total_played_tracks_Shelbyville*100)

Porcentajes de Sprinfield: 
Monday:  36.826466390585146 
Wednesday:  25.86743407968929 
Friday:  37.30609952972556

Porcentajes de Shelbyville: 
Monday:  30.32627484874676 
Wednesday:  37.82951598962835 
Friday:  31.844209161624892


**La hipótesis afirma que existen diferencias en la forma en que los usuarios y las usuarias de Springfield y Shelbyville consumen música. Para probar la hipótesis planteada, se obtuvieron los siguientes datos:**

**Springfield**

Day | # played tracks | % 
:---: | :---: | :---:
Monday | 15,740 | 36.83%
Wednesday | 11,056 | 25.87%
Friday | 15,945 | 37.30%

**Shelbyville**

Day | # played tracks | % 
:---: | :---: | :---:
Monday | 5,614 | 30.33%
Wednesday | 7,003 | 37.83%
Friday | 5,895 | 31.84%

**Los cuales nos muestran claramente que los usarios y las usuarias de Springfield y Shelbyville consumen música de diferente manera, ya que la ciudad de Springfield escucha más música los lunes y viernes, mientras Shelbyville lo hace los miércoles. En base a los resultados obtenidos, se puede confirmar la hipóitesis planteada inicialmente.**

# Conclusiones <a id='end'></a>

**La hipótesis planteada fue coherente con los datos que se tienen para realizar los cálculos pertinentes. Sin embargo, cabe resaltar que apesar de que en la etapa anterior se acepto como correcta dicha hipótesis, esto sólo sería posible siempre y cuando los datos sean una muestra representativa de la población total de cada una de las ciudades ya que de lo contrario la hipótesis no podría ser aceptada.**

### *Nota
La prueba de hipótesis estadística es más precisa y cuantitativa. Además, no siempre se pueden sacar conclusiones sobre una ciudad entera a partir de datos de una sola fuente. Para respaldar el resultado anterior sería necesario un análisis estadístico de datos.