# User music app behaivor

Manuel Lagunas

# Introducción

En este proyecto, compara las preferencias musicales de las ciudades de
Springfield y Shelbyville. Estudiando datos reales de transmisión de
música online para probar las hipótesis a continuación plateadas y
comparar el comportamiento de los usuarios y las usuarias de estas dos
ciudades.

## Objetivo

Prueba tres hipótesis: - La actividad de los usuarios y las usuarias
difiere según el día de la semana y dependiendo de la cuidad. - Los
lunes por la mañana, los habitantes de Springfield y Shelbyville
escuchan géneros distintos. Lo mismo ocurre con los viernes por la
noche. - Los oyentes de Springfield y Shelbyville tienen preferencias
distintas. En Springfield prefieren el pop, mientras que en Shelbyville
hay más personas a las que les gusta el rap.

## Etapas

El proyecto consistirá en tres etapas: - Descripción de los datos -
Preprocesamiento de datos - Prueba de hipótesis

# Exploration data alalysis

## Librerias

In [1]:
import pandas as pd

## Lectura de datos

In [2]:
df_raw = pd.read_csv("files/datasets/input/music_project_en.csv")

## Exploración de datos

In [3]:
# Basic exploration
print(df_raw.sample(10))
print()
print(df_raw.shape)
print()
print(df_raw.info())
print()
print(df_raw.describe())

         userID              Track          artist        genre       City    \
48961  45E559AF       Shadows Fall   Random Forest         rock  Springfield   
32080  41291A07        Minor Swing  Bireli Lagrene         jazz  Shelbyville   
61483  804C8C3A     Sexy Sexy 2008             NaN       ruspop  Springfield   
44004  7A24F67C            So Fine            Pomo        dance  Shelbyville   
18798  4FE34862         Slow Coach     Alan Barnes         jazz  Springfield   
33831  B6B9DB52          Euthenics      Modern Eon         rock  Springfield   
41855  20D9DAA6       Comfort Zone       Beardfish  progressive  Springfield   
35735  7FF8B075             Unique     Headhunterz        dance  Springfield   
64117   1DEA9D7  Ain't No Sunshine           Gushi        dance  Springfield   
14546  BA54E752       Till The End         D-SENSE  alternative  Springfield   

           time        Day  
48961  20:25:01  Wednesday  
32080  14:16:18     Friday  
61483  09:42:31     Monday  
440

In [4]:
# Null values
print(df_raw.isnull().sum())
print()
print((df_raw.isnull().sum() / len(df_raw)) * 100)

  userID       0
Track       1343
artist      7567
genre       1198
  City         0
time           0
Day            0
dtype: int64

  userID     0.000000
Track        2.063646
artist      11.627407
genre        1.840840
  City       0.000000
time         0.000000
Day          0.000000
dtype: float64

In [5]:
# duplicate values
df_raw.duplicated().sum()

3826

## Conclusiones

-   Podemos ver tres problemas con el estilo en los encabezados de la
    tabla:

    -   Algunos encabezados están en mayúsculas, otros, en minúsculas.
    -   Hay espacios en algunos encabezados.
    -   Algunos nombres no son descriptivos al contenido de los datos.

-   Las filas describen las canciones que una determinada usuaria o
    usuario escuchó durante un día y hora especifico. Entender lo que
    almacenan las columnas, es posible mediante el estudio de las celdas
    de las columnas, de surguir alguna duda, seria importante platicar
    con quien estuvo recopilando los datos o consultar alguna
    documentación que exista al respecto

-   Contamos con los datos suficientes para probar la hipótesis: La
    primera hipótesis podria ser contestada con las columnas userID,
    City y Day La segunda hipótesis podria ser contestada con las
    columnas City, genre, time y Day La tercera hipóteis podria ser
    contestada con las columnas City y genre Por tanto Se considera que
    es posible confirmar y rechazar las hipótesis con los datos
    disponibles

-   La información general del Dataframe indica que existen valores
    ausentes en los datos, los duplicados no son perseptibles en las
    primeras díes filas del Datafreme, sin embargo se debe de realizar
    un analisis para poder detectar alguno. Todos los datos son de tipo
    object

-   No todos los valores ausentes afectan a la investigación. Por
    ejemplo, los valores ausentes en track y artist no son cruciales.
    Simplemente se pueden reemplazar con valores predeterminados como el
    string ‘unknown’ (desconocido). Pero los valores ausentes en ‘genre’
    pueden afectar la comparación entre las preferencias musicales de
    Springfield y Shelbyville. En la vida real, sería útil saber las
    razones por las cuales hay datos ausentes e intentar recuperarlos.
    Pero no tenemos esa oportunidad en este proyecto por lo que tambien
    los valores ausentes serán sustituidos por el string ‘unknown’

-   Despues de eliminar los datos duplicados explicitos se debe realizar
    un estudio para saber si existe algun duplicado implicito

# Preprocesamiento de datos

In [6]:
# Columns name
print(df_raw.columns)

def convert_to_snake_case(df):
    df.columns = df.columns.str.strip().str.replace(' ', '_').str.replace('(', '').str.replace(')', '').str.replace('-', '_').str.lower()
    return df

df = convert_to_snake_case(df_raw)

print(df.columns)

Index(['  userID', 'Track', 'artist', 'genre', '  City  ', 'time', 'Day'], dtype='object')
Index(['userid', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')

In [7]:
# Fixing null values
df[['track', 'artist', 'genre']] = df[['track', 'artist', 'genre']].fillna('unknown') 

print(df.isna().sum())

userid    0
track     0
artist    0
genre     0
city      0
time      0
day       0
dtype: int64

In [8]:
# Duplicated data
df=df.drop_duplicates().reset_index(drop=True)
print(df.duplicated().sum())

0

In [9]:
# Non explicit duplicated data
print(sorted(df['genre'].unique()))

['acid', 'acoustic', 'action', 'adult', 'africa', 'afrikaans', 'alternative', 'ambient', 'americana', 'animated', 'anime', 'arabesk', 'arabic', 'arena', 'argentinetango', 'art', 'audiobook', 'avantgarde', 'axé', 'baile', 'balkan', 'beats', 'bigroom', 'black', 'bluegrass', 'blues', 'bollywood', 'bossa', 'brazilian', 'breakbeat', 'breaks', 'broadway', 'cantautori', 'cantopop', 'canzone', 'caribbean', 'caucasian', 'celtic', 'chamber', 'children', 'chill', 'chinese', 'choral', 'christian', 'christmas', 'classical', 'classicmetal', 'club', 'colombian', 'comedy', 'conjazz', 'contemporary', 'country', 'cuban', 'dance', 'dancehall', 'dancepop', 'dark', 'death', 'deep', 'deutschrock', 'deutschspr', 'dirty', 'disco', 'dnb', 'documentary', 'downbeat', 'downtempo', 'drum', 'dub', 'dubstep', 'eastern', 'easy', 'electronic', 'electropop', 'emo', 'entehno', 'epicmetal', 'estrada', 'ethnic', 'eurofolk', 'european', 'experimental', 'extrememetal', 'fado', 'film', 'fitness', 'flamenco', 'folk', 'folklor

## Conclusión

Se observan los siguientes duplicados implícitos: - hip - hop - hip-hop
Se cambiaran por el nombre hip-hop

In [10]:
df['genre'] = df['genre'].replace(['hip', 'hop', 'hip-hop'], 'hiphop')
print(sorted(df['genre'].unique()))

['acid', 'acoustic', 'action', 'adult', 'africa', 'afrikaans', 'alternative', 'ambient', 'americana', 'animated', 'anime', 'arabesk', 'arabic', 'arena', 'argentinetango', 'art', 'audiobook', 'avantgarde', 'axé', 'baile', 'balkan', 'beats', 'bigroom', 'black', 'bluegrass', 'blues', 'bollywood', 'bossa', 'brazilian', 'breakbeat', 'breaks', 'broadway', 'cantautori', 'cantopop', 'canzone', 'caribbean', 'caucasian', 'celtic', 'chamber', 'children', 'chill', 'chinese', 'choral', 'christian', 'christmas', 'classical', 'classicmetal', 'club', 'colombian', 'comedy', 'conjazz', 'contemporary', 'country', 'cuban', 'dance', 'dancehall', 'dancepop', 'dark', 'death', 'deep', 'deutschrock', 'deutschspr', 'dirty', 'disco', 'dnb', 'documentary', 'downbeat', 'downtempo', 'drum', 'dub', 'dubstep', 'eastern', 'easy', 'electronic', 'electropop', 'emo', 'entehno', 'epicmetal', 'estrada', 'ethnic', 'eurofolk', 'european', 'experimental', 'extrememetal', 'fado', 'film', 'fitness', 'flamenco', 'folk', 'folklor

## Conclusiones de la etapa

-   Se solucionaron los problemas detectados en el apartado de
    descripción de los datos
-   En cuanto al estudio de duplicados implicitos. Se pasaron de 269
    valores unicos en la columna ‘genre’, a 266. Indicador de que se
    logro depurar los valores duplicados implícitos de los valores
    unicos de ‘genre’.

# Prueba de hipotesis

## Primera hipotesis

La primera hipótesis afirma que existen diferencias en la forma en que
los usuarios y las usuarias de Springfield y Shelbyville consumen
música. Para comprobar esto, usa los datos de tres días de la semana:
lunes, miércoles y viernes.

In [11]:
#  plays by city
group_by_city_tracknumbers=df.groupby(by='city')['track'].count()
print(group_by_city_tracknumbers)

city
Shelbyville    18512
Springfield    42741
Name: track, dtype: int64

### Observación

La ciudad de Sprinfield escucha mas del doble de canciones que la ciudad
de Shelbyville

In [12]:
# plays by day of the week
group_by_day_tracknumbers=df.groupby(by='day')['track'].count()
print(group_by_day_tracknumbers)

day
Friday       21840
Monday       21354
Wednesday    18059
Name: track, dtype: int64

### Observación

Los días lunes y viernes se escuchan casi el mismo número de canciones
presentando una baja en la escucha el día miercoles

In [13]:
# study function
def number_tracks(day,city):
    track_list=df[(df['day']==day) & (df['city']==city)]
    track_list_count = track_list['userid'].count()
    return track_list_count

In [14]:
# calculation
springfield_monday = number_tracks('Monday','Springfield')
print(springfield_monday)

shelbyville_monday = number_tracks('Monday','Shelbyville')
print(shelbyville_monday)

springfield_wednesday = number_tracks('Wednesday','Springfield')
print(springfield_wednesday)

shelbyville_wednesday = number_tracks('Wednesday','Shelbyville')
print(shelbyville_wednesday)

springfield_friday = number_tracks('Friday','Springfield')
print(springfield_friday)

shelbyville_friday = number_tracks('Friday','Shelbyville')
print(shelbyville_friday)

15740
5614
11056
7003
15945
5895

`{python] # Results table headers=['ciy','monday','wednesday','friday'] results_day_city=[                  ['Springfield',springfield_monday,springfield_wednesday,springfield_friday],                  ['Shelbyville',shelbyville_monday,shelbyville_wednesday,shelbyville_friday] ] df_day_city=pd.DataFrame(data=results_day_city, columns=headers) print(df_day_city)`

## Conclusión de la primera hipotesis

-   La primera hipótesis el la siguiente: La actividad de los usuarios y
    las usuarias difiere según el día de la semana y dependiendo de la
    cuidad. Para confirmarse o negarse la hipótesis se creo el Dataframe
    de nombre df_day_city del cual podemos concluir lo siguiente:

    -   1.Los usuarios de Spingfield escuchas mas canciones en todos los
        días de la semana que los usuarios de Shelbyville según los
        valores absolutos. Sin embargo de acuerdo a los porentajes se
        ven diferencias de aproximadamente un digito siendo los días
        lunes y viernes de mayor escucha en Springfield que en
        Shelbyville, solo presentandose el caso de ser mayores los
        oyenetes según porcentajes en Shelbyville que en Springfield

    -   2.En Sprinfield se observa que los días Lunes y viernes se
        escuchan casi el mismo número de canciones obsrvandose un
        aumento marginal el día viernes respecto al lunes y decayendo el
        día miercoles considerablemente

    -   3.Caso contrario en Shelbyville, donde se observa el mismo
        comportamiento que Springfield los días Lunes y viernes que se
        mantienen constantes con un aumento marginal el día viernes
        respecto al lunes pero siendo el día miercoles el día en que mas
        escuchan música los usuarios de Shelbyville.

-   Por lo que podemos decir que la hipotesis es confirmada
    parcialmente. Siendo correcta si hablamos del día miercoles,donde en
    una ciudad se ve una disminución y en la otra un aumento; E
    incorrecta los días lunes y viernes ya que se observa el mismo
    comportamiento en ambas ciudades, donde solo hay un aumento marginal
    de canciones escuchadas el día viernes respecto al lunes.

## Segunda hipotesis

Según la segunda hipótesis, el lunes por la mañana y el viernes por la
noche, los ciudadanos de Springfield escuchan géneros que difieren de
los que disfrutan los usuarios de Shelbyville.

In [15]:
#cities separation
spr_general=df[df['city']=='Springfield']
print(spr_general)
print()

shel_general=df[df['city']=='Shelbyville']
print(shel_general)

         userid                          track                   artist  \
1      55204538    Delayed Because of Accident         Andreas Rönnberg   
4      E2DC1FAE                    Soul People               Space Echo   
6      4CB90AA5                           True             Roman Messer   
7      F03E1C1F               Feeling This Way          Polina Griffith   
8      8FA1D3BE                       L’estate              Julia Dalia   
...         ...                            ...                      ...   
61247  83A474E7  I Worship Only What You Bleed  The Black Dahlia Murder   
61248  729CBB09                        My Name                   McLean   
61250  C5E3A0D5                      Jalopiina                  unknown   
61251  321D0506                  Freight Train            Chas McDevitt   
61252  3A64EF84      Tell Me Sweet Little Lies             Monica Lopez   

              genre         city      time        day  
1              rock  Springfield  14:07:09 

In [16]:
#study function
def genre_weekday(df,day,time1,time2):
    genre_df = df[(df['day']==day) & (df['time']<time2) & (df['time']>time1)]
    genre_df_count = genre_df.groupby('genre')['genre'].count()
    genre_df_sorted = genre_df_count.sort_values(ascending=False)
    return genre_df_sorted[:15]

In [17]:
# calculations
spr_mond_mor=genre_weekday(spr_general,'Monday','07:00:00','11:00:00')
print(spr_mond_mor)
print()

shel_mond_mor=genre_weekday(shel_general,'Monday','07:00:00','11:00:00')
print(shel_mond_mor)
print()

spr_frid_eve=genre_weekday(spr_general,'Friday','17:00:00','23:00:00')
print(spr_frid_eve)
print()

shel_frid_eve=genre_weekday(shel_general,'Friday','17:00:00','23:00:00')
print(shel_frid_eve)

genre
pop            781
dance          549
electronic     480
rock           474
hiphop         286
ruspop         186
world          181
rusrap         175
alternative    164
unknown        161
classical      157
metal          120
jazz           100
folk            97
soundtrack      95
Name: genre, dtype: int64

genre
pop            218
dance          182
rock           162
electronic     147
hiphop          80
ruspop          64
alternative     58
rusrap          55
jazz            44
classical       40
world           36
rap             32
soundtrack      31
rnb             27
metal           27
Name: genre, dtype: int64

genre
pop            713
rock           517
dance          495
electronic     482
hiphop         273
world          208
ruspop         170
classical      163
alternative    163
rusrap         142
jazz           111
unknown        110
soundtrack     105
rnb             90
metal           88
Name: genre, dtype: int64

genre
pop            256
rock           216
el

## Conclusión de la segunda hipotesis

-   La segunda hipótesis a estudiar es: Los lunes por la mañana, los
    habitantes de Springfield y Shelbyville escuchan géneros distintos.
    Lo mismo ocurre con los viernes por la noche Según los resultados
    obtenidos por el segundo estudio de los datos podemos concluir que:

-   Aunque los generos no aparecen en el mismo orden, ambas ciudades
    escuchan los mismos generos los días lunes por la mañana, existiendo
    diferencias minimas sobre los generos que cada ciudad escucha.

-   De igual manera. Aunque si bien no aparecen en el mismo orden
    podemos ver que los viernes por la tarde los usuarios de ambas
    ciudades escuchan los mismos 15 generos musicales

-   Por tanto podemos decir que la hipótesis planteadea es incorrecta,
    ya que los datos indican que ambas ciudades gustan de escuchar los
    mismos generos.

## Tercera hipotesis

Hipótesis: Shelbyville ama la música rap. A los residentes de
Springfield les gusta más el pop.

In [18]:
#study table
spr_genres=spr_general.groupby('genre')['genre'].count()
spr_genres=spr_genres.sort_values(ascending=False)
print(spr_genres.head(10))

genre
pop            5892
dance          4435
rock           3965
electronic     3786
hiphop         2096
classical      1616
world          1432
alternative    1379
ruspop         1372
rusrap         1161
Name: genre, dtype: int64

In [19]:
#study table
shel_genres=shel_general.groupby('genre')['genre'].count()
shel_genres=shel_genres.sort_values(ascending=False)
print(shel_genres.head(10))

genre
pop            2431
dance          1932
rock           1879
electronic     1736
hiphop          960
alternative     649
classical       646
rusrap          564
ruspop          538
world           515
Name: genre, dtype: int64

## Conclusión de la tercera hipotesis

La tercera hipótesis a comprobar es: Los oyentes de Springfield y
Shelbyville tienen preferencias distintas. En Springfield prefieren el
pop, mientras que en Shelbyville hay más personas a las que les gusta el
rap.

-   De acuerdo con los resultados obtenidos podemos decir que la
    hipótesis es parcialmente correcta ya que:
-   El primer lugar de ambas ciudades, es el genero pop, por lo que la
    hipotesis es correcta en el caso de Springfield e incorrecta en el
    caso de Shelbyville que aseguraba que el genero preferido era rap
-   El genero rap no aparece como de los mas escuchados en la lista del
    top 10 de Shelbyville concluyendo entonces que la segunda parte de
    la hipótesis es incorrecta.

# Conclusiones

-   1.La actividad de los usuarios y las usuarias difiere según el día
    de la semana y dependiendo de la cuidad. Es correcta parcialmente,
    ya que en ambas ciudades de observo el mismo comportamiento los días
    lunes y viernes observandose un cambio significativo solo los días
    miercoles.

-   2.Los lunes por la mañana, los habitantes de Springfield y
    Shelbyville escuchan géneros distintos. Lo mismo ocurre con los
    viernes por la noche. Los resultados arrojaron que ambas ciudades
    escuchan los mismos generos en ambos días y momentos por lo que la
    hipótesis es incorrecta.

-   3.Los oyentes de Springfield y Shelbyville tienen preferencias
    distintas. En Springfield prefieren el pop, mientras que en
    Shelbyville hay más personas a las que les gusta el rap. La
    hipotesis es parcialmente correcta, ya que ambos gustan del pop como
    genero principal

## Por tomar en cuenta

En proyectos de investigación reales, la prueba de hipótesis estadística
es más precisa y cuantitativa. También se debe tomar en cuenta que no
siempre se pueden sacar conclusiones sobre una ciudad entera a partir de
datos de una sola fuente.