# Contenido <a id='back'></a>

* [Introducción](#intro)
* [Etapa 1. Descripción de los datos](#data_review)
    * [Conclusiones](#data_review_conclusions)
* [Etapa 2. Preprocesamiento de datos](#data_preprocessing)
    * [2.1 Estilo del encabezado](#header_style)
    * [2.2 Valores ausentes](#missing_values)
    * [2.3 Duplicados](#duplicates)
    * [2.4 Conclusiones](#data_preprocessing_conclusions)
* [Etapa 3. Prueba de hipótesis](#hypothesis)
    * [3.1 Hipótesis 1: actividad de los usuarios y las usuarias en las dos ciudades](#activity)
* [Conclusiones](#end)

[Volver a Contenidos](#back)

## Etapa 1. Descripción de los datos <a id='data_review'></a>

In [None]:
# Cargar librerías 
import pandas as pd


In [None]:
# Cargar los datos
df = pd.read_csv('/datasets/music_project_en.csv')

In [None]:
# Visualizar los primeros 10 registros
print (df.head(10))


     userID                        Track            artist   genre  \
0  FFB692EC            Kamigata To Boots  The Mass Missile    rock   
1  55204538  Delayed Because of Accident  Andreas Rönnberg    rock   
2    20EC38            Funiculì funiculà       Mario Lanza     pop   
3  A3DD03C9        Dragons in the Sunset        Fire + Ice    folk   
4  E2DC1FAE                  Soul People        Space Echo   dance   
5  842029A1                       Chains          Obladaet  rusrap   
6  4CB90AA5                         True      Roman Messer   dance   
7  F03E1C1F             Feeling This Way   Polina Griffith   dance   
8  8FA1D3BE                     L’estate       Julia Dalia  ruspop   
9  E772D5C0                    Pessimist               NaN   dance   

        City        time        Day  
0  Shelbyville  20:28:33  Wednesday  
1  Springfield  14:07:09     Friday  
2  Shelbyville  20:58:07  Wednesday  
3  Shelbyville  08:37:09     Monday  
4  Springfield  08:34:34     Monday  
5

In [None]:
# Conocer la estructura del DataFrame
df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65079 entries, 0 to 65078
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0     userID  65079 non-null  object
 1   Track     63736 non-null  object
 2   artist    57512 non-null  object
 3   genre     63881 non-null  object
 4     City    65079 non-null  object
 5   time      65079 non-null  object
 6   Day       65079 non-null  object
dtypes: object(7)
memory usage: 3.5+ MB


[Volver a Contenidos](#back)

## Etapa 2. Preprocesamiento de datos <a id='data_preprocessing'></a>


In [None]:
# Visualización del formato de las columnas
print (df.columns)


Index(['  userID', 'Track', 'artist', 'genre', '  City  ', 'time', 'Day'], dtype='object')


In [None]:
# Transformación al formato snake_case
# Convertir a minúsculas
df.columns = [column.lower() for column in df.columns]
    
print (df.columns)

Index(['  userid', 'track', 'artist', 'genre', '  city  ', 'time', 'day'], dtype='object')


In [None]:
# Quitar espacios innecesarios
df.columns = [column.strip() for column in df.columns]

print (df.columns)

Index(['userid', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')


In [None]:
# Renombrar columna user_id
df = df.rename(columns={'userid': 'user_id'})

print (df.columns)

Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')


In [None]:
# Comprobar formato snake_case
print (df.columns)

Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')


[Volver a Contenidos](#back)

### Valores ausentes <a id='missing_values'></a>

In [None]:
# Comprobar valores ausentes en todas las columnas
val_ausentes = df.isna().sum()

print (val_ausentes)

user_id       0
track      1343
artist     7567
genre      1198
city          0
time          0
day           0
dtype: int64


In [None]:
# Reemplazar valores ausentes por 'unknown'
columnas_val_ausentes = ['track','artist','genre']

for column in columnas_val_ausentes:
    df[column] = df[column].fillna('unknown')

In [None]:
# Comprobación de valores ausentes
val_ausentes = df.isna().sum()
print (val_ausentes)

user_id    0
track      0
artist     0
genre      0
city       0
time       0
day        0
dtype: int64


[Volver a Contenidos](#back)

### Duplicados <a id='duplicates'></a>

In [None]:
# Identificar duplicados
print (df.duplicated().sum())

3826


In [None]:
# Eliminar duplicados
df = df.drop_duplicates()

In [None]:
# Comprobando que ya no hay duplicados
print (df.duplicated().sum())

0


In [None]:
# Lista de nombres de géneros únicos para eliminar duplicados implícitos
generos_unicos = df['genre'].unique()
generos_unicos_ordenados = sorted(generos_unicos)
print (generos_unicos_ordenados)

['acid', 'acoustic', 'action', 'adult', 'africa', 'afrikaans', 'alternative', 'ambient', 'americana', 'animated', 'anime', 'arabesk', 'arabic', 'arena', 'argentinetango', 'art', 'audiobook', 'avantgarde', 'axé', 'baile', 'balkan', 'beats', 'bigroom', 'black', 'bluegrass', 'blues', 'bollywood', 'bossa', 'brazilian', 'breakbeat', 'breaks', 'broadway', 'cantautori', 'cantopop', 'canzone', 'caribbean', 'caucasian', 'celtic', 'chamber', 'children', 'chill', 'chinese', 'choral', 'christian', 'christmas', 'classical', 'classicmetal', 'club', 'colombian', 'comedy', 'conjazz', 'contemporary', 'country', 'cuban', 'dance', 'dancehall', 'dancepop', 'dark', 'death', 'deep', 'deutschrock', 'deutschspr', 'dirty', 'disco', 'dnb', 'documentary', 'downbeat', 'downtempo', 'drum', 'dub', 'dubstep', 'eastern', 'easy', 'electronic', 'electropop', 'emo', 'entehno', 'epicmetal', 'estrada', 'ethnic', 'eurofolk', 'european', 'experimental', 'extrememetal', 'fado', 'film', 'fitness', 'flamenco', 'folk', 'folklor

In [None]:
# Función para eliminar duplicados implícitos
def replace_wrong_genres (wrong_genres,correct_genre):
    for genre in wrong_genres:
        df['genre'] = df['genre'].replace(genre, correct_genre)
wrong_genres = ['hip', 'hop', 'hip-hop']

In [None]:
# Llamando a la función 
replace_wrong_genres(wrong_genres, 'hiphop')

In [None]:
# Mostrar lista de géneros únicos para comprobación
generos_unicos = df['genre'].unique()
generos_unicos_ordenados = sorted(generos_unicos)
print (generos_unicos_ordenados)

['acid', 'acoustic', 'action', 'adult', 'africa', 'afrikaans', 'alternative', 'ambient', 'americana', 'animated', 'anime', 'arabesk', 'arabic', 'arena', 'argentinetango', 'art', 'audiobook', 'avantgarde', 'axé', 'baile', 'balkan', 'beats', 'bigroom', 'black', 'bluegrass', 'blues', 'bollywood', 'bossa', 'brazilian', 'breakbeat', 'breaks', 'broadway', 'cantautori', 'cantopop', 'canzone', 'caribbean', 'caucasian', 'celtic', 'chamber', 'children', 'chill', 'chinese', 'choral', 'christian', 'christmas', 'classical', 'classicmetal', 'club', 'colombian', 'comedy', 'conjazz', 'contemporary', 'country', 'cuban', 'dance', 'dancehall', 'dancepop', 'dark', 'death', 'deep', 'deutschrock', 'deutschspr', 'dirty', 'disco', 'dnb', 'documentary', 'downbeat', 'downtempo', 'drum', 'dub', 'dubstep', 'eastern', 'easy', 'electronic', 'electropop', 'emo', 'entehno', 'epicmetal', 'estrada', 'ethnic', 'eurofolk', 'european', 'experimental', 'extrememetal', 'fado', 'film', 'fitness', 'flamenco', 'folk', 'folklor

[Volver a Contenidos](#back)

[Volver a Contenidos](#back)

## Etapa 3. Prueba de hipótesis <a id='hypothesis'></a>

### Hipótesis: comparar el comportamiento del usuario o la usuaria en las dos ciudades <a id='activity'></a>

In [None]:
# Evaluar la actividad del usuario en cada ciudad
canciones_por_ciudad = df.groupby(['city'])['track'].count()
print (canciones_por_ciudad)

city
Shelbyville    18512
Springfield    42741
Name: track, dtype: int64


In [None]:
# Evaluar actividad por días específicos de la semana
df_filtered = df[df['day'].isin(['Monday', 'Wednesday', 'Friday'])]
canciones_por_dia = df_filtered.groupby('day')['track'].count()
print (canciones_por_dia)

day
Friday       21840
Monday       21354
Wednesday    18059
Name: track, dtype: int64


In [None]:
 # Función para evaluar por día y por ciudad
 def number_tracks(day, city): 

    filtered_by_day = df[df['day'] == day]

    filtered_by_day_and_city = filtered_by_day[filtered_by_day['city'] == city]

    track_count = filtered_by_day_and_city['user_id'].count()

    return track_count

In [None]:
number_tracks('Monday','Springfield')

15740

In [None]:
number_tracks('Monday','Shelbyville')

5614

In [None]:
number_tracks('Wednesday','Springfield')

11056

In [None]:
number_tracks('Wednesday','Shelbyville')

7003

In [None]:
number_tracks('Friday','Springfield')

15945

In [None]:
number_tracks('Friday','Shelbyville')

5895

[Volver a Contenidos](#back)

# Conclusiones <a id='end'></a>

- Primero que nada, se transformaron las columnas al formato snake_case, se eliminaron duplicados y los valores ausentes se imputaron con 'unknown' debido a que no hubo forma de recuperar los datos en este proyecto. 
- Se comparó la actividad entre días y ciudades.
- Finalmente, se establece que la hipótesis es correcta, la actividad cambia en función del día y la ciudad. Springfield tiene más canciones reproducidas que Shelbyville en los tres días analizados. Además, en Springfield el día más activo es el viernes, seguido del lunes y luego el miércoles. En Shelbyville, el día más activo es el miércoles, seguido del lunes y luego el viernes. Por lo tanto, se demuestra la hipótesis establecida previamente. 

[Volver a Contenidos](#back)