# Déjame escuchar la música

## Etapa 1. Descripción de los datos <a id='data_review'></a>

Abre los datos y examínalos.

In [None]:
import pandas as pd # Importar pandas


In [None]:
df=pd.read_csv('/datasets/music_project_en.csv')


In [None]:
print(df.head(10))


     userID                        Track            artist   genre  \
0  FFB692EC            Kamigata To Boots  The Mass Missile    rock   
1  55204538  Delayed Because of Accident  Andreas Rönnberg    rock   
2    20EC38            Funiculì funiculà       Mario Lanza     pop   
3  A3DD03C9        Dragons in the Sunset        Fire + Ice    folk   
4  E2DC1FAE                  Soul People        Space Echo   dance   
5  842029A1                       Chains          Obladaet  rusrap   
6  4CB90AA5                         True      Roman Messer   dance   
7  F03E1C1F             Feeling This Way   Polina Griffith   dance   
8  8FA1D3BE                     L’estate       Julia Dalia  ruspop   
9  E772D5C0                    Pessimist               NaN   dance   

        City        time        Day  
0  Shelbyville  20:28:33  Wednesday  
1  Springfield  14:07:09     Friday  
2  Shelbyville  20:58:07  Wednesday  
3  Shelbyville  08:37:09     Monday  
4  Springfield  08:34:34     Monday  
5

In [None]:
df.info() 


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65079 entries, 0 to 65078
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0     userID  65079 non-null  object
 1   Track     63736 non-null  object
 2   artist    57512 non-null  object
 3   genre     63881 non-null  object
 4     City    65079 non-null  object
 5   time      65079 non-null  object
 6   Day       65079 non-null  object
dtypes: object(7)
memory usage: 3.5+ MB


## Etapa 2. Preprocesamiento de datos <a id='data_preprocessing'></a>

El objetivo aquí es preparar los datos para que sean analizados.
El primer paso es resolver cualquier problema con los encabezados. Luego podemos avanzar a los valores ausentes y duplicados. Empecemos.



In [None]:
print (df.columns)


Index(['  userID', 'Track', 'artist', 'genre', '  City  ', 'time', 'Day'], dtype='object')


In [None]:
name_stripped=[]
for info in df.columns:
    name_lowered=info.lower()
    name_stripped.append(name_lowered)
df.columns= name_stripped   
print (df.columns)  
    
    

Index(['  userid', 'track', 'artist', 'genre', '  city  ', 'time', 'day'], dtype='object')


In [None]:
name_stripped=[]
for info in df.columns:
    name_no_spaces=info.strip()
    name_stripped.append(name_no_spaces)
df.columns= name_stripped 
print (df.columns)  

Index(['userid', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')


In [None]:
name_stripped=[]
for info in df.columns:
    name_replace=info.replace('userid','user_id')
    name_stripped.append(name_replace)
df.columns= name_stripped 
print (df.columns)  


Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')


Comprueba el resultado. Muestra los encabezados una vez más:

In [None]:
print (df.columns)


Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')


### Valores ausentes <a id='missing_values'></a>


In [None]:
print (df.isna().sum())


user_id       0
track      1343
artist     7567
genre      1198
city          0
time          0
day           0
dtype: int64


In [None]:
colums_replaced=['track','artist','genre']
for col in colums_replaced:
    df[col].fillna('unknown', inplace=True)
print (df.isna().sum())

user_id    0
track      0
artist     0
genre      0
city       0
time       0
day        0
dtype: int64


In [None]:
print(df.isna().sum())


user_id    0
track      0
artist     0
genre      0
city       0
time       0
day        0
dtype: int64


### Duplicados <a id='duplicates'></a>


In [None]:
print(df.duplicated().sum())# Contar duplicados explícitos


3826


In [None]:
df=(df.drop_duplicates())# Eliminar duplicados explícitos


In [None]:
print(df.drop_duplicates().reset_index(drop=True))# Comprobar de nuevo si hay duplicados



        user_id                              track            artist  \
0      FFB692EC                  Kamigata To Boots  The Mass Missile   
1      55204538        Delayed Because of Accident  Andreas Rönnberg   
2        20EC38                  Funiculì funiculà       Mario Lanza   
3      A3DD03C9              Dragons in the Sunset        Fire + Ice   
4      E2DC1FAE                        Soul People        Space Echo   
...         ...                                ...               ...   
61248  729CBB09                            My Name            McLean   
61249  D08D4A55  Maybe One Day (feat. Black Spade)       Blu & Exile   
61250  C5E3A0D5                          Jalopiina           unknown   
61251  321D0506                      Freight Train     Chas McDevitt   
61252  3A64EF84          Tell Me Sweet Little Lies      Monica Lopez   

            genre         city      time        day  
0            rock  Shelbyville  20:28:33  Wednesday  
1            rock  Springfi

Ahora queremos deshacernos de los duplicados implícitos en la columna `genre`.

In [None]:

df=(df.sort_values(by='genre',ascending=True))
print(df['genre'].unique())


['acid' 'acoustic' 'action' 'adult' 'africa' 'afrikaans' 'alternative'
 'ambient' 'americana' 'animated' 'anime' 'arabesk' 'arabic' 'arena'
 'argentinetango' 'art' 'audiobook' 'avantgarde' 'axé' 'baile' 'balkan'
 'beats' 'bigroom' 'black' 'bluegrass' 'blues' 'bollywood' 'bossa'
 'brazilian' 'breakbeat' 'breaks' 'broadway' 'cantautori' 'cantopop'
 'canzone' 'caribbean' 'caucasian' 'celtic' 'chamber' 'children' 'chill'
 'chinese' 'choral' 'christian' 'christmas' 'classical' 'classicmetal'
 'club' 'colombian' 'comedy' 'conjazz' 'contemporary' 'country' 'cuban'
 'dance' 'dancehall' 'dancepop' 'dark' 'death' 'deep' 'deutschrock'
 'deutschspr' 'dirty' 'disco' 'dnb' 'documentary' 'downbeat' 'downtempo'
 'drum' 'dub' 'dubstep' 'eastern' 'easy' 'electronic' 'electropop' 'emo'
 'entehno' 'epicmetal' 'estrada' 'ethnic' 'eurofolk' 'european'
 'experimental' 'extrememetal' 'fado' 'film' 'fitness' 'flamenco' 'folk'
 'folklore' 'folkmetal' 'folkrock' 'folktronica' 'forró' 'frankreich'
 'französisch' 

Encontrar duplicados implícitos del género `hiphop`.

In [None]:
def replace_wrong_genres(data, column, wrong_genres,correct_genre):
    for wrong_values in wrong_genres:
        df[column]=df[column].replace(wrong_genres,correct_genre)
    return df
duplicates = ['hip', 'hop','hip-hop']
name = 'hiphop'

In [None]:
df=replace_wrong_genres(df, 'genre', duplicates, name)# Eliminar duplicados implícitos
print(df)

        user_id                       track             artist      genre  \
32883  C40BC5DF            Shot in the Dark         Four80East       acid   
3650   F10919ED          Ready For The Fire   Valley Of Wolves   acoustic   
20644  B02ED3AB  Prelude – Ne Me Qui Te Pas            unknown   acoustic   
39129  77D3A7D9  Prelude – Ne Me Qui Te Pas            unknown   acoustic   
14811  1C7D9E90  Prelude – Ne Me Qui Te Pas            unknown   acoustic   
...         ...                         ...                ...        ...   
47587  7897AF97               Snaana Mantra    Rekha Bharadwaj      world   
29684  8D96A84F        Sorry For My English              In2it      world   
40493  AA1730E8                         Anu  Kailash Kokopelli  worldbeat   
28665  D7FB50DA             Drumming Circle   Professor Trance  worldbeat   
8514   A439123F                     Flip It            unknown        ïîï   

              city      time        day  
32883  Springfield  09:44:12     

In [None]:
df=(df.sort_values(by='genre',ascending=True))
print(df['genre'].unique())# Comprobación de duplicados implícitos


['acid' 'acoustic' 'action' 'adult' 'africa' 'afrikaans' 'alternative'
 'ambient' 'americana' 'animated' 'anime' 'arabesk' 'arabic' 'arena'
 'argentinetango' 'art' 'audiobook' 'avantgarde' 'axé' 'baile' 'balkan'
 'beats' 'bigroom' 'black' 'bluegrass' 'blues' 'bollywood' 'bossa'
 'brazilian' 'breakbeat' 'breaks' 'broadway' 'cantautori' 'cantopop'
 'canzone' 'caribbean' 'caucasian' 'celtic' 'chamber' 'children' 'chill'
 'chinese' 'choral' 'christian' 'christmas' 'classical' 'classicmetal'
 'club' 'colombian' 'comedy' 'conjazz' 'contemporary' 'country' 'cuban'
 'dance' 'dancehall' 'dancepop' 'dark' 'death' 'deep' 'deutschrock'
 'deutschspr' 'dirty' 'disco' 'dnb' 'documentary' 'downbeat' 'downtempo'
 'drum' 'dub' 'dubstep' 'eastern' 'easy' 'electronic' 'electropop' 'emo'
 'entehno' 'epicmetal' 'estrada' 'ethnic' 'eurofolk' 'european'
 'experimental' 'extrememetal' 'fado' 'film' 'fitness' 'flamenco' 'folk'
 'folklore' 'folkmetal' 'folkrock' 'folktronica' 'forró' 'frankreich'
 'französisch' 

### Tus observaciones <a id='data_preprocessing_conclusions'></a>


Los valores duplicados distorsionan la informacion, por lo cual es imprescindible primero antes de hacer cualquier analisis limpiar la base de datos asegurandonos que contemos con datos validados para que los resultados sean precisos veridicos y validos.

## Etapa 3. Prueba de hipótesis <a id='hypothesis'></a>

### Hipótesis: comparar el comportamiento del usuario o la usuaria en las dos ciudades <a id='activity'></a>

La hipótesis afirma que existen diferencias en la forma en que los usuarios y las usuarias de Springfield y Shelbyville consumen música. Para comprobar esto, usa los datos de tres días de la semana: lunes, miércoles y viernes.




El primer paso es evaluar la actividad del usuario en cada ciudad. 



In [None]:
reproduccion=(df.groupby(by='city')['track'].count())
print(reproduccion)


city
Shelbyville    18512
Springfield    42741
Name: track, dtype: int64


Segun la informacion obtenida los usuarios de Springfield tienen mas reproducciones que los de Shelbyville.

In [None]:
reproduccion=(df.groupby(by='day')['track'].count())
print(reproduccion)


day
Friday       21840
Monday       21354
Wednesday    18059
Name: track, dtype: int64


Los dias viernes son los dias de mas canciones reproducidas que el resto de dias, seguido por lunes y miercoles.

In [None]:
def number_tracks(day,city):
    def_filtrado=(df[(df['day']==day) & (df['city']== city)])
    users= def_filtrado['user_id'].count()
    return users


In [None]:
result= number_tracks('Monday','Springfield')

print(result)

# El número de canciones reproducidas en Springfield el lunes


15740


In [None]:
result= number_tracks('Monday','Shelbyville')

print(result)

# El número de canciones reproducidas en Shelbyville el lunes


5614


In [None]:
result= number_tracks('Wednesday','Springfield')

print(result)# El número de canciones reproducidas en Springfield el miércoles


11056


In [None]:
result= number_tracks('Wednesday','Shelbyville')

print(result)# El número de canciones reproducidas en Shelbyville el miércoles


7003


In [None]:
result= number_tracks('Friday','Springfield')

print(result)# El número de canciones reproducidas en Springfield el viernes


15945


In [None]:
result= number_tracks('Friday','Shelbyville')

print(result)# El número de canciones reproducidas en Shelbyville el viernes


5895


**Conclusiones**

`Comenta si la hipótesis es correcta o se debe rechazar. Explica tu razonamiento.` La hipotesis es correcta, pues ademas de que Springfield tiene mas reproducciones en los tres dias de la semana que Shelbyville, los dias en los que mas escuchan canciones son diferentes entre las dos ciudades.

# Conclusiones <a id='end'></a>

Las dos ciudades Springfield y Shelbyville tienen diferentes habitos a la hora de reproducir musica por lo cual la hipotesis inicial se valida, para un mejor entendimiento del comportamiento de repoducciones en Springfield los dias lunes y viernes reproducen casi el triple de canciones que Shelbyville, mientras que Shelbyville tiene mayores reproducciones los miercoles.

### Nota
En proyectos de investigación reales, la prueba de hipótesis estadística es más precisa y cuantitativa. También ten en cuenta que no siempre se pueden sacar conclusiones sobre una ciudad entera a partir de datos de una sola fuente.

