# La gran ciudad

## Introducción

Siempre que investiguemos, necesitamos formular hipótesis que después podamos probar. A veces aceptamos estas hipótesis; otras, las rechazamos. Para tomar las decisiones correctas, una empresa debe ser capaz de entender si está haciendo las suposiciones correctas.

En este proyecto, compararemos las preferencias musicales de las ciudades de Springfield y Shelbyville. Estudiaremos datos reales de Yandex.Music para probar las hipótesis de abajo y comparar el comportamiento del usuario de esas dos ciudades

### Objetivo

***Prueba de las tres hipótesis***

<span style="color:red">1. La actividad de los usuarios difiere según el día de la semana y dependiendo de la ciudad.</span>

<span style="color:red">2. Los lunes por la mañana, los habitantes de Springfield y Shelbyville escuchan diferentes géneros. Lo mismo ocurre con los viernes por la noche.</span> 

<span style="color:red">3. Los oyentes de Springfield y Shelbyville tienen preferencias distintas. En Springfield prefieren el pop mientras que en Shelbyville hay más aficionados al rap.</span>

### Etapas 

Primero, se evaluará la calidad de los datos y veremos si los problemas son significativos. Entonces, durante el preprocesamiento de datos, tomaremos en cuenta los problemas más críticos.
 
El proyecto consistirá en tres etapas:
 1. Descripción de los datos
 2. Preprocesamiento de datos
 3. Prueba de hipótesis


In [2]:
import pandas as pd

In [3]:
df = pd.read_csv('C:/Users/Albert/Downloads/music_project_en.csv')

Una vez creando el df y extrayendo los datos que vamos a evaluar vamos a utilizar el metodo shape, info, head y describe para ver como estan los datos.

In [4]:
df.shape

(65079, 7)

In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65079 entries, 0 to 65078
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0     userID  65079 non-null  object
 1   Track     63736 non-null  object
 2   artist    57512 non-null  object
 3   genre     63881 non-null  object
 4     City    65079 non-null  object
 5   time      65079 non-null  object
 6   Day       65079 non-null  object
dtypes: object(7)
memory usage: 3.5+ MB


In [6]:
df.head(10)

Unnamed: 0,userID,Track,artist,genre,City,time,Day
0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Shelbyville,20:28:33,Wednesday
1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Springfield,14:07:09,Friday
2,20EC38,Funiculì funiculà,Mario Lanza,pop,Shelbyville,20:58:07,Wednesday
3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Shelbyville,08:37:09,Monday
4,E2DC1FAE,Soul People,Space Echo,dance,Springfield,08:34:34,Monday
5,842029A1,Chains,Obladaet,rusrap,Shelbyville,13:09:41,Friday
6,4CB90AA5,True,Roman Messer,dance,Springfield,13:00:07,Wednesday
7,F03E1C1F,Feeling This Way,Polina Griffith,dance,Springfield,20:47:49,Wednesday
8,8FA1D3BE,L’estate,Julia Dalia,ruspop,Springfield,09:17:40,Friday
9,E772D5C0,Pessimist,,dance,Shelbyville,21:20:49,Wednesday


In [7]:
df.describe()

Unnamed: 0,userID,Track,artist,genre,City,time,Day
count,65079,63736,57512,63881,65079,65079,65079
unique,41748,39666,37806,268,2,20392,3
top,A8AE9169,Brand,Kartvelli,pop,Springfield,08:14:07,Friday
freq,76,136,136,8850,45360,14,23149


Después de ejecutar estos métodos y el atributo shape vemos que tres columnas tienen valores ausentes las cuales son **Track** ***Artist*** ***Genre*** vamos a evaluarlos para ver como podemos sustituirlos.

La tabla contiene siete columnas. Todas almacenan el mismo tipo de datos: objeto.

De acuerdo con la documentación:

'userID' — identificador del usuario
'Track' — título de la pista
'artist' — nombre del artista
'genre' — género
'City' — ciudad del usuario
'time' — el periodo de tiempo exacto en que se reprodujo la pista
'Day' — día de la semana

Podemos ver tres problemas con el estilo en los nombres de las columnas:

1. Algunas columnas tienen datos en mayus y otras en minus, esto va a provocar conflicto, lo mejor es normalizar y solo ocupar minúsculas en todo el df.

2. En las columnas al utilizar el metodo info observo que hay dos columnas que tienen espacios demas, esto también se tiene que corregir.

3. Los valores ausentes o NaN que mencioné anteriormente.

In [8]:
df.columns = df.columns.str.strip().str.lower()

In [9]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65079 entries, 0 to 65078
Data columns (total 7 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   userid  65079 non-null  object
 1   track   63736 non-null  object
 2   artist  57512 non-null  object
 3   genre   63881 non-null  object
 4   city    65079 non-null  object
 5   time    65079 non-null  object
 6   day     65079 non-null  object
dtypes: object(7)
memory usage: 3.5+ MB


In [10]:
df.head()

Unnamed: 0,userid,track,artist,genre,city,time,day
0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Shelbyville,20:28:33,Wednesday
1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Springfield,14:07:09,Friday
2,20EC38,Funiculì funiculà,Mario Lanza,pop,Shelbyville,20:58:07,Wednesday
3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Shelbyville,08:37:09,Monday
4,E2DC1FAE,Soul People,Space Echo,dance,Springfield,08:34:34,Monday


Después de arreglar las columnas con espacios y mayusculas, tenemos que pasar a la etapa de los valores nulos. En esta parte vemos que los valores en track y artist pudieramos reemplazarlos con valores como "Unknown" pero en artist no podemos hacer esto, para comenzar rellenaremos los valores faltantes con el string "Unknown" y después trataremos estos valores. Hagamos una suma de los valores faltantes.

## Valores ausentes

In [11]:
df.isna().sum()

userid       0
track     1343
artist    7567
genre     1198
city         0
time         0
day          0
dtype: int64

In [12]:
cols_to_fill = ["track", "artist","genre"]
df[cols_to_fill] = df[cols_to_fill].fillna("Unknown")

## Duplicados

In [13]:
df.duplicated().sum()

3826

In [14]:
df = df.drop_duplicates().reset_index(drop=True)

In [15]:
df.duplicated().sum()

0

In [16]:
df["genre"].unique()

array(['rock', 'pop', 'folk', 'dance', 'rusrap', 'ruspop', 'world',
       'electronic', 'Unknown', 'alternative', 'children', 'rnb', 'hip',
       'jazz', 'postrock', 'latin', 'classical', 'metal', 'reggae',
       'triphop', 'blues', 'instrumental', 'rusrock', 'dnb', 'türk',
       'post', 'country', 'psychedelic', 'conjazz', 'indie',
       'posthardcore', 'local', 'avantgarde', 'punk', 'videogame',
       'techno', 'house', 'christmas', 'melodic', 'caucasian',
       'reggaeton', 'soundtrack', 'singer', 'ska', 'salsa', 'ambient',
       'film', 'western', 'rap', 'beats', "hard'n'heavy", 'progmetal',
       'minimal', 'tropical', 'contemporary', 'new', 'soul', 'holiday',
       'german', 'jpop', 'spiritual', 'urban', 'gospel', 'nujazz',
       'folkmetal', 'trance', 'miscellaneous', 'anime', 'hardcore',
       'progressive', 'korean', 'numetal', 'vocal', 'estrada', 'tango',
       'loungeelectronic', 'classicmetal', 'dubstep', 'club', 'deep',
       'southern', 'black', 'folkrock', 

In [17]:
diccionario_reemplazo = {valor_correcto: "hiphop" for valor_correcto in ['hip','hop','hip-hop']}
df["genre"] = df["genre"].replace(diccionario_reemplazo)

En esta parte anterior teniamos una columna genre con valores repetidos en genre, tener este tipo de valores puede ocasionar sesgo en el analisis que hacemos a los datos. Hasta este punto reemplazamos los valores ausentes con "Unknown" para poder llevar a cabo el analisis de nuestras hipotesis, ya no tenemos valores duplicados y en la columna donde habia filas duplicadas en columnas se ha corregido. Evaluemos nuestras hipotesis.

## Prueba de Hipotesis

### Hipótesis 1: comparar el comportamiento del usuario en las dos ciudades <a id='activity'></a>

De acuerdo con la primera hipótesis, los usuarios de Springfield y Shelbyville escuchan música de forma distinta. Comprueba esto utilizando los datos de tres días de la semana: lunes, miércoles y viernes.

* Divide a los usuarios en grupos por ciudad.
* Compara cuántas pistas reprodujo cada grupo el lunes, el miércoles y el viernes.

In [23]:
print(df.groupby('city')['userid'].count())

grouped = df.groupby(['city', 'day'])
tracks_count = grouped['track'].count()
print(tracks_count)

city
Shelbyville    18512
Springfield    42741
Name: userid, dtype: int64
city         day      
Shelbyville  Friday        5895
             Monday        5614
             Wednesday     7003
Springfield  Friday       15945
             Monday       15740
             Wednesday    11056
Name: track, dtype: int64


Springfield ha reproducido más pistas que Shelbyville. Pero eso no implica que los ciudadanos de Springfield escuchen música más a menudo. Esta ciudad es simplemente más grande y hay más usuarios.

Ahora vamos a agrupar los datos por día de la semana y encontrar el número de pistas reproducidas el lunes, miércoles y viernes.


In [24]:
print(df.groupby('day')['city'].count())

day
Friday       21840
Monday       21354
Wednesday    18059
Name: city, dtype: int64


El miércoles fue el día más silencioso de todos. Pero si consideramos las dos ciudades por separado podríamos llegar a una conclusión diferente.

In [51]:
df_grouped = df.groupby(['city', 'day'])['userid'].count()

def number_tracks(city, day):
    return df_grouped.get((city, day), 0)

print(df_grouped)

city         day      
Shelbyville  Friday        5895
             Monday        5614
             Wednesday     7003
Springfield  Friday       15945
             Monday       15740
             Wednesday    11056
Name: userid, dtype: int64


In [54]:
print(number_tracks('Springfield', 'Monday'))

15740


In [55]:
print(number_tracks('Springfield', 'Wednesday'))

11056


In [56]:
print(number_tracks('Springfield', 'Friday'))

15945


In [57]:
print(number_tracks('Shelbyville', 'Monday'))

5614


In [58]:
print(number_tracks('Shelbyville', 'Wednesday'))

7003


In [59]:
print(number_tracks('Shelbyville', 'Friday'))

5895


In [60]:
cities = ['Springfield', 'Shelbyville']
days = ['Monday', 'Wednesday', 'Friday']

results = []

for city in cities:
    row = [city]
    for day in days:
        row.append(number_tracks(city, day))
    results.append(row)
    
df_ok = pd.DataFrame(results, columns=['city'] + days)
print(df_ok)

          city  Monday  Wednesday  Friday
0  Springfield   15740      11056   15945
1  Shelbyville    5614       7003    5895


**Conclusiones**

Los datos revelan las diferencias en el comportamiento de los usuarios:

- En Springfield, el número de canciones reproducidas alcanzan el punto máximo los lunes y viernes mientras que los miércoles hay un descenso de la actividad.
- En Shelbyville, al contario, los usuarios escuchan más música los miércoles. La actividad de los usuarios los lunes y viernes es menor.

Así que la primera hipótesis parece ser correcta.

### Hipótesis 2: música al principio y al final de la semana <a id='week'></a>

De acuerdo con la segunda hipótesis, los lunes por la mañana y los viernes por la noche los ciudadanos de Springfield escuchan géneros que difieren de aquellos que los usuarios de Shelbyville disfrutan.

In [62]:
spr_sprin = df[df['city'] == 'Springfield']
spr_shel = df[df['city']== 'Shelbyville']

In [63]:
spr_sprin

Unnamed: 0,userid,track,artist,genre,city,time,day
1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Springfield,14:07:09,Friday
4,E2DC1FAE,Soul People,Space Echo,dance,Springfield,08:34:34,Monday
6,4CB90AA5,True,Roman Messer,dance,Springfield,13:00:07,Wednesday
7,F03E1C1F,Feeling This Way,Polina Griffith,dance,Springfield,20:47:49,Wednesday
8,8FA1D3BE,L’estate,Julia Dalia,ruspop,Springfield,09:17:40,Friday
...,...,...,...,...,...,...,...
61247,83A474E7,I Worship Only What You Bleed,The Black Dahlia Murder,extrememetal,Springfield,21:07:12,Monday
61248,729CBB09,My Name,McLean,rnb,Springfield,13:32:28,Wednesday
61250,C5E3A0D5,Jalopiina,Unknown,industrial,Springfield,20:09:26,Friday
61251,321D0506,Freight Train,Chas McDevitt,rock,Springfield,21:43:59,Friday


In [64]:
spr_shel

Unnamed: 0,userid,track,artist,genre,city,time,day
0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Shelbyville,20:28:33,Wednesday
2,20EC38,Funiculì funiculà,Mario Lanza,pop,Shelbyville,20:58:07,Wednesday
3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Shelbyville,08:37:09,Monday
5,842029A1,Chains,Obladaet,rusrap,Shelbyville,13:09:41,Friday
9,E772D5C0,Pessimist,Unknown,dance,Shelbyville,21:20:49,Wednesday
...,...,...,...,...,...,...,...
61239,D94F810B,Theme from the Walking Dead,Proyecto Halloween,film,Shelbyville,21:14:40,Monday
61240,BC8EC5CF,Red Lips: Gta (Rover Rework),Rover,electronic,Shelbyville,21:06:50,Monday
61241,29E04611,Bre Petrunko,Perunika Trio,world,Shelbyville,13:56:00,Monday
61242,1B91C621,(Hello) Cloud Mountain,sleepmakeswaves,postrock,Shelbyville,09:22:13,Monday


In [77]:
def genre_weekday(df, day, time1, time2):
    top_genres = (df[(df['day'] == day) & (df['time'] > time1) & (df['time'] < time2)]
                 .groupby('genre')['userid'].count()
                 .sort_values(ascending=False)
                 .head(15))
    return top_genres

In [78]:
top_15_genres = genre_weekday(spr_sprin, 'Monday', '07:00', '11:00')
print(top_15_genres)

genre
pop            781
dance          549
electronic     480
rock           474
hiphop         286
ruspop         186
world          181
rusrap         175
alternative    164
Unknown        161
classical      157
metal          120
jazz           100
folk            97
soundtrack      95
Name: userid, dtype: int64


In [79]:
top_15_genres = genre_weekday(spr_shel, 'Monday', '07:00', '11:00')
print(top_15_genres)

genre
pop            218
dance          182
rock           162
electronic     147
hiphop          80
ruspop          64
alternative     58
rusrap          55
jazz            44
classical       40
world           36
rap             32
soundtrack      31
rnb             27
metal           27
Name: userid, dtype: int64


In [80]:
top_15_genres = genre_weekday(spr_sprin, 'Friday', '17:00', '23:00')
print(top_15_genres)


genre
pop            713
rock           517
dance          495
electronic     482
hiphop         273
world          208
ruspop         170
classical      163
alternative    163
rusrap         142
jazz           111
Unknown        110
soundtrack     105
rnb             90
metal           88
Name: userid, dtype: int64


In [81]:
top_15_genres = genre_weekday(spr_shel, 'Friday', '17:00', '23:00')
print(top_15_genres)

genre
pop            256
rock           216
electronic     216
dance          210
hiphop          97
alternative     63
jazz            61
classical       60
rusrap          59
world           54
ruspop          47
Unknown         47
soundtrack      40
metal           39
rap             36
Name: userid, dtype: int64


**Conclusión**

Habiendo comparado los 15 géneros más populares del lunes por la mañana podemos concluir lo siguiente:

1. Los usuarios de Springfield y Shelbyville escuchan música similar. Los cinco géneros más populares son los mismos, solo rock y electrónica han intercambiado posiciones.

2. En Springfield el número de valores ausentes resultaron ser tan altos que el valor `'unknown'` llegó al décimo. Esto significa que los valores ausentes forman una parte considerable de los datos, lo que podría ser la base de la cuestión sobre la fiabilidad de nuestras conclusiones.

Para el viernes por la tarde, la situación es similar. Los géneros individuales varían algo pero, en general, los 15 más populares son parecidos en las dos ciudades.

De esta forma, la segunda hipótesis ha sido parcialmente demostrada:
* Los usuarios escuchan música similar al principio y al final de la semana.
* No hay una gran diferencia entre Springfield y Shelbyville. En ambas ciudades, el pop es el género más popular.

Sin embargo, el número de valores ausentes hace este resultado un tanto cuestionable. En Springfield, hay tantos que afectan a nuestros 15 más populares. De no faltarnos esos valores, las cosas podrían parecer diferentes.

### Hipótesis 3: preferencias de género en Springfield y Shelbyville <a id='genre'></a>


Hipótesis: Shelbyville ama la música rap. A los ciudadanos de Springfield les gusta más el pop.

In [85]:
spr_top_genres_sprin = spr_sprin.groupby('genre')['userid'].count().sort_values(ascending=False)
spr_top_genres_shel = spr_shel.groupby('genre')['userid'].count().sort_values(ascending=False)

In [87]:
spr_top_genres_sprin.head()

genre
pop           5892
dance         4435
rock          3965
electronic    3786
hiphop        2096
Name: userid, dtype: int64

In [90]:
spr_top_genres_shel.head()

genre
pop           2431
dance         1932
rock          1879
electronic    1736
hiphop         960
Name: userid, dtype: int64

La hipótesis ha sido parcialmente demostrada:
* La música pop es el género más popular en Springfield, tal como se esperaba.
* Sin embargo, la música pop ha resultado ser igual de popular en Springfield que en Shelbyville y el rap no estaba entre los 5 más populares en ninguna de las ciudades.

## Conclusiones

Hemos probado las siguientes tres hipótesis:

1. La actividad de los usuarios difiere dependiendo del día de la semana y de las distintas ciudades. 
2. Los lunes por la mañana los residentes de Springfield y Shelbyville escuchan géneros distintos. Lo mismo ocurre con los viernes por la noche.
3. Los oyentes de Springfield y Shelbyville tienen distintas preferencias.

Tras analizar los datos, concluimos:

1. La actividad del usuario en Springfield y Shelbyville depende del día de la semana aunque las ciudades varían de diferentes formas. 

La primera hipótesis ha sido aceptada completamente.

2. Las preferencias musicales no varían significativamente en el transcurso de la semana en Springfield y Shelbyville. Podemos observar pequeñas diferencias en el orden los lunes, pero:
* En Springfield y Shelbyville la gente lo que más escucha es la música pop.

Así que no podemos aceptar esta hipótesis. También debemos tener en cuenta que el resultado podría haber sido diferente si no fuera por los valores ausentes.

3. Resulta que las preferencias musicales de los usuarios de Springfield y Shelbyville son bastante parecidas.

La tercera hipótesis es rechazada. Ya que ambas ciudades les gusta escuchar el pop.