#### VISÃO GERAL DOS DADOS


In [11]:
# importando pandas
import pandas as pd 


In [12]:
# lendo o arquivo e armazenando em df
df = pd.read_csv('/datasets/music_project_en.csv') 

In [13]:
# obtenha as 10 primeiras 10 linhas da tabela df
print(df.head(10))

     userID                        Track            artist   genre  \
0  FFB692EC            Kamigata To Boots  The Mass Missile    rock   
1  55204538  Delayed Because of Accident  Andreas Rönnberg    rock   
2    20EC38            Funiculì funiculà       Mario Lanza     pop   
3  A3DD03C9        Dragons in the Sunset        Fire + Ice    folk   
4  E2DC1FAE                  Soul People        Space Echo   dance   
5  842029A1                       Chains          Obladaet  rusrap   
6  4CB90AA5                         True      Roman Messer   dance   
7  F03E1C1F             Feeling This Way   Polina Griffith   dance   
8  8FA1D3BE                     L’estate       Julia Dalia  ruspop   
9  E772D5C0                    Pessimist               NaN   dance   

        City        time        Day  
0  Shelbyville  20:28:33  Wednesday  
1  Springfield  14:07:09     Friday  
2  Shelbyville  20:58:07  Wednesday  
3  Shelbyville  08:37:09     Monday  
4  Springfield  08:34:34     Monday  
5

In [14]:
# obtendo informações gerais sobre os dados em df
df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65079 entries, 0 to 65078
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0     userID  65079 non-null  object
 1   Track     63736 non-null  object
 2   artist    57512 non-null  object
 3   genre     63881 non-null  object
 4     City    65079 non-null  object
 5   time      65079 non-null  object
 6   Day       65079 non-null  object
dtypes: object(7)
memory usage: 3.5+ MB


Cada linha na tabela armazena dados sobre uma música que foi tocada. Algumas colunas descrevem a música por si só: seu título, artista e gênero. O restante contém informações sobre o usuário: a cidade de onde eles vêm, a quantidade de vezes que a música foi tocada.

#### PRÉ PROCESSAR DADOS


In [15]:
# a lista dos nomes das colunas na tabela df
print(df.columns)

Index(['  userID', 'Track', 'artist', 'genre', '  City  ', 'time', 'Day'], dtype='object')


In [16]:
# renomeando colunas
df = df.rename(columns={
    '  userID':'user_id',
    'Track':'track',
    'artist': 'artist',
    'genre': 'genre',
    '  City  ':'city',
    'time':'time',
    'Day':'day'
})

In [17]:
# checando o resultado: a lista dos nomes das colunas
print(df.columns)

Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')


In [18]:
# calculando valores ausentes
print(df.isna().sum()) 

user_id       0
track      1343
artist     7567
genre      1198
city          0
time          0
day           0
dtype: int64


In [19]:
# percorrendo os nomes das colunas e substituindo valores ausentes com 'unknown'
df['track'] = df['track'].fillna('unknown')
df['artist'] = df['artist'].fillna('unknown')
df['genre'] = df['genre'].fillna('unknown')

print(df)

        user_id                              track            artist  \
0      FFB692EC                  Kamigata To Boots  The Mass Missile   
1      55204538        Delayed Because of Accident  Andreas Rönnberg   
2        20EC38                  Funiculì funiculà       Mario Lanza   
3      A3DD03C9              Dragons in the Sunset        Fire + Ice   
4      E2DC1FAE                        Soul People        Space Echo   
...         ...                                ...               ...   
65074  729CBB09                            My Name            McLean   
65075  D08D4A55  Maybe One Day (feat. Black Spade)       Blu & Exile   
65076  C5E3A0D5                          Jalopiina           unknown   
65077  321D0506                      Freight Train     Chas McDevitt   
65078  3A64EF84          Tell Me Sweet Little Lies      Monica Lopez   

            genre         city      time        day  
0            rock  Shelbyville  20:28:33  Wednesday  
1            rock  Springfi

In [20]:
# contando os valores ausentes
print(df.isna().sum()) 

user_id    0
track      0
artist     0
genre      0
city       0
time       0
day        0
dtype: int64


In [21]:
# contando duplicatas claras
print(df.duplicated().sum())

3826


In [22]:
# removendo duplicatas óbvias
df = df.drop_duplicates()

In [23]:
# verificando duplicatas
print(df.duplicated().sum())

0


In [24]:
# visualizando nomes de gêneros únicos
sorted(df['genre'].unique())

['acid',
 'acoustic',
 'action',
 'adult',
 'africa',
 'afrikaans',
 'alternative',
 'ambient',
 'americana',
 'animated',
 'anime',
 'arabesk',
 'arabic',
 'arena',
 'argentinetango',
 'art',
 'audiobook',
 'avantgarde',
 'axé',
 'baile',
 'balkan',
 'beats',
 'bigroom',
 'black',
 'bluegrass',
 'blues',
 'bollywood',
 'bossa',
 'brazilian',
 'breakbeat',
 'breaks',
 'broadway',
 'cantautori',
 'cantopop',
 'canzone',
 'caribbean',
 'caucasian',
 'celtic',
 'chamber',
 'children',
 'chill',
 'chinese',
 'choral',
 'christian',
 'christmas',
 'classical',
 'classicmetal',
 'club',
 'colombian',
 'comedy',
 'conjazz',
 'contemporary',
 'country',
 'cuban',
 'dance',
 'dancehall',
 'dancepop',
 'dark',
 'death',
 'deep',
 'deutschrock',
 'deutschspr',
 'dirty',
 'disco',
 'dnb',
 'documentary',
 'downbeat',
 'downtempo',
 'drum',
 'dub',
 'dubstep',
 'eastern',
 'easy',
 'electronic',
 'electropop',
 'emo',
 'entehno',
 'epicmetal',
 'estrada',
 'ethnic',
 'eurofolk',
 'european',
 'expe

In [25]:
# função para substituir duplicatas implícitas
def replace_wrong_genres(wrong_genres,correct_genre):
    for wrong_genres in wrong_genres:
        df['genre']=df['genre'].replace(wrong_genres,correct_genre)
        
# removendo duplicatas implícitas
wrong_genres=['hip','hop','hip-hop']
correct_genre='hiphop'
replace_wrong_genres(wrong_genres,correct_genre)

In [26]:
# verificando valores duplicados
sorted(df['genre'].unique())

['acid',
 'acoustic',
 'action',
 'adult',
 'africa',
 'afrikaans',
 'alternative',
 'ambient',
 'americana',
 'animated',
 'anime',
 'arabesk',
 'arabic',
 'arena',
 'argentinetango',
 'art',
 'audiobook',
 'avantgarde',
 'axé',
 'baile',
 'balkan',
 'beats',
 'bigroom',
 'black',
 'bluegrass',
 'blues',
 'bollywood',
 'bossa',
 'brazilian',
 'breakbeat',
 'breaks',
 'broadway',
 'cantautori',
 'cantopop',
 'canzone',
 'caribbean',
 'caucasian',
 'celtic',
 'chamber',
 'children',
 'chill',
 'chinese',
 'choral',
 'christian',
 'christmas',
 'classical',
 'classicmetal',
 'club',
 'colombian',
 'comedy',
 'conjazz',
 'contemporary',
 'country',
 'cuban',
 'dance',
 'dancehall',
 'dancepop',
 'dark',
 'death',
 'deep',
 'deutschrock',
 'deutschspr',
 'dirty',
 'disco',
 'dnb',
 'documentary',
 'downbeat',
 'downtempo',
 'drum',
 'dub',
 'dubstep',
 'eastern',
 'easy',
 'electronic',
 'electropop',
 'emo',
 'entehno',
 'epicmetal',
 'estrada',
 'ethnic',
 'eurofolk',
 'european',
 'expe

#### TESTANDO HIPÓTESES

In [27]:
# Contando as músicas tocadas em cada cidade
print(df.groupby('city'))
print(df.groupby('city').count()) 

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7f86cb4dc1c0>
             user_id  track  artist  genre   time    day
city                                                    
Shelbyville    18512  18512   18512  18512  18512  18512
Springfield    42741  42741   42741  42741  42741  42741


Springfield tem mais músicas tocadas do que Shelbyville. Mas isso não quer dizer que os cidadãos de Springfield escutam música com mais frequência. Essa cidade é somente maior, e tem mais usuários.

In [28]:
# Calculando as músicas escutadas em cada um desses três dias
print(df.groupby('day').count()) 

           user_id  track  artist  genre   city   time
day                                                   
Friday       21840  21840   21840  21840  21840  21840
Monday       21354  21354   21354  21354  21354  21354
Wednesday    18059  18059   18059  18059  18059  18059


Quarta-feira é o dia mais calmo em geral. Mas se considerarmos as duas cidades separadamente, devemos chegar a uma conclusão diferente.

In [31]:


def number_tracks(day, city) : 
    track_list= df[(df['day'] == day)] 
    track_list= track_list[track_list['city'] == city] 
    track_list_count= track_list.count()['user_id'] 

    return track_list_count

# a quantidade de músicas tocadas em Springfield na segunda-feira
day= 'Monday'
city='Springfield'
 
spring_m=number_tracks(day,city)
spring_m

15740

In [32]:
# a quantidade de músicas tocadas em Shelbyville na segunda-feira
day= 'Monday'
city='Shelbyville'
 
shel_m=number_tracks(day,city)
shel_m

5614

In [33]:
# a quantidade de músicas tocadas em Springfield na quarta-feira
day= 'Wednesday'
city='Springfield'

spring_w=number_tracks(day,city)
spring_w

11056

In [34]:
# a quantidade de músicas tocadas em Shelbyville na quarta-feira

day= 'Wednesday'
city='Shelbyville'

shel_w=number_tracks(day,city)
shel_w

7003

In [35]:
# a quantidade de músicas tocadas em Springfield na sexta-feira

day= 'Friday'
city='Springfield'

spring_f=number_tracks(day,city)
spring_f

15945

In [36]:
# a quantidade de músicas tocadas em Shelbyville na sexta-feira
day= 'Friday'
city='Shelbyville'

shel_f=number_tracks(day,city)
shel_f

5895

In [37]:
# tabela com resultados

dados = {'Cidade':['Springfield','Shelbyville'],
         'monday':[spring_m,shel_m],
         'wednesday':[spring_w,shel_w],
         'friday':[spring_f,shel_f]
         
        }
tabela = pd.DataFrame(dados)

print(tabela)

        Cidade  monday  wednesday  friday
0  Springfield   15740      11056   15945
1  Shelbyville    5614       7003    5895


Em Springfield, a quantidade de músicas tocadas tem seu auge nas segundas e sextas-feiras, enquanto na quarta-feira há uma diminuição na atividade.Em Shelbyville, ao contrário, usuários escutam mais música na quarta-feira. A atividade na segunda e sexta-feira é pequena.

#### Hipótese 2: música no começo e no fim da semana

In [46]:
 

# obtendo a tabela spr_generala partir das linhas df,
# onde o valor na coluna 'city' é 'Springfield'

spr_general=df.loc[df['city']=='Springfield']
spr_general


Unnamed: 0,user_id,track,artist,genre,city,time,day
1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Springfield,14:07:09,Friday
4,E2DC1FAE,Soul People,Space Echo,dance,Springfield,08:34:34,Monday
6,4CB90AA5,True,Roman Messer,dance,Springfield,13:00:07,Wednesday
7,F03E1C1F,Feeling This Way,Polina Griffith,dance,Springfield,20:47:49,Wednesday
8,8FA1D3BE,L’estate,Julia Dalia,ruspop,Springfield,09:17:40,Friday
...,...,...,...,...,...,...,...
65073,83A474E7,I Worship Only What You Bleed,The Black Dahlia Murder,extrememetal,Springfield,21:07:12,Monday
65074,729CBB09,My Name,McLean,rnb,Springfield,13:32:28,Wednesday
65076,C5E3A0D5,Jalopiina,unknown,industrial,Springfield,20:09:26,Friday
65077,321D0506,Freight Train,Chas McDevitt,rock,Springfield,21:43:59,Friday


In [47]:
# obtendo os shel_general a partir das linhas df,
# onde os valores na coluna 'city' é Shelbyville'

shel_general=df.loc[df['city']=='Shelbyville']
shel_general


Unnamed: 0,user_id,track,artist,genre,city,time,day
0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Shelbyville,20:28:33,Wednesday
2,20EC38,Funiculì funiculà,Mario Lanza,pop,Shelbyville,20:58:07,Wednesday
3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Shelbyville,08:37:09,Monday
5,842029A1,Chains,Obladaet,rusrap,Shelbyville,13:09:41,Friday
9,E772D5C0,Pessimist,unknown,dance,Shelbyville,21:20:49,Wednesday
...,...,...,...,...,...,...,...
65063,D94F810B,Theme from the Walking Dead,Proyecto Halloween,film,Shelbyville,21:14:40,Monday
65064,BC8EC5CF,Red Lips: Gta (Rover Rework),Rover,electronic,Shelbyville,21:06:50,Monday
65065,29E04611,Bre Petrunko,Perunika Trio,world,Shelbyville,13:56:00,Monday
65066,1B91C621,(Hello) Cloud Mountain,sleepmakeswaves,postrock,Shelbyville,09:22:13,Monday


In [48]:
#  informação sobre os gêneros mais populares em um determinado dia em um período específico:

def genre_weekday(df ,day ,time1 ,time2):

    # filtragem consecutiva
    # genre_df armazenará apenas as linhas df onde o dia é igual a day=
    genre_df = df[df['day']==day]

    # genre_df armazenará apenas aslinhas df que o tempo é menor do que time2=
    genre_df =genre_df[genre_df['time']<time2]

    # genre_df armazenará apenas as linhas onde onde o tempo é maior do que time1=
    genre_df = genre_df[genre_df['time']>time1]

    # agrope o DataFrame filtrado pela coluna com nomes dos gêneros, pegue a coluna gênero, e encontre o número de linhas para cada gênero com o método count()
    genre_df_grouped =genre_df[['user_id','genre']].groupby('genre').count()

    # nós vamos armazenar o resultado em ordem decrescente (para que os gêneros mais populares venham primeiro no objeto Series)
    genre_df_sorted =  genre_df_grouped.sort_values(by='user_id',ascending=False)
    
    # nós vamos retornar o objeto Serie armazenando os 15 gêneros mais populares em um determinado dia, dentro de um determinado intervalo de tempo
    return genre_df_sorted[:15]

In [49]:
# chamando a função para segunda-feira de manha em Springfield (use spr_general em vez de df table)

genre_weekday(spr_general,day='Monday', time1='07:00:00' ,time2='11:00:00' )

Unnamed: 0_level_0,user_id
genre,Unnamed: 1_level_1
pop,781
dance,549
electronic,480
rock,474
hiphop,286
ruspop,186
world,181
rusrap,175
alternative,164
unknown,161


In [50]:
# chamando a função para segunda-feira de manhã em Shelbyville (use shel_general em vez de df table)
day='Monday'
time1= '07:00:00'
time2= '11:00:00'

genre_weekday(shel_general, day , time1 , time2 )

Unnamed: 0_level_0,user_id
genre,Unnamed: 1_level_1
pop,218
dance,182
rock,162
electronic,147
hiphop,80
ruspop,64
alternative,58
rusrap,55
jazz,44
classical,40


In [51]:
# chamando a função para sexta-feira à tarde em Springfield
spr_friday= genre_weekday(spr_general,day ='Friday', time1='17:00:00' , time2='23:00:00' )
spr_friday

Unnamed: 0_level_0,user_id
genre,Unnamed: 1_level_1
pop,713
rock,517
dance,495
electronic,482
hiphop,273
world,208
ruspop,170
classical,163
alternative,163
rusrap,142


In [52]:
# chamando a função para sexta-feira à tarde em Shelbyville
shel_friday= genre_weekday(shel_general,day = 'Friday',time1= '17:00:00' ,time2= '23:00:00' )
shel_friday

Unnamed: 0_level_0,user_id
genre,Unnamed: 1_level_1
pop,256
rock,216
electronic,216
dance,210
hiphop,97
alternative,63
jazz,61
classical,60
rusrap,59
world,54


Usuários escutam gêneros musicais parecidos no começo e no fim da semana.Não há grande diferença entre Springfield e Shelbyville. Nas duas cidades, pop é o gênero mais popular.

##### Hipótese 3: preferências em Springfield e Shelbyville

In [54]:
#encontre o número de músicas tocadas para cada gênero Springfield
genre_df_grouped =spr_general.groupby('genre')['user_id'].count()
spr_genres = genre_df_grouped.sort_values(ascending=False)

print(spr_genres)

genre
pop            5892
dance          4435
rock           3965
electronic     3786
hiphop         2096
               ... 
metalcore         1
marschmusik       1
malaysian         1
lovers            1
ïîï               1
Name: user_id, Length: 250, dtype: int64


In [55]:
#encontre o número de músicas tocadas para cada gênero Shelbyville

genre_df_grouped =shel_general.groupby('genre')['user_id'].count()
shel_genres = genre_df_grouped.sort_values(ascending=False)

print(shel_genres)

genre
pop           2431
dance         1932
rock          1879
electronic    1736
hiphop         960
              ... 
mandopop         1
leftfield        1
laiko            1
jungle           1
worldbeat        1
Name: user_id, Length: 202, dtype: int64


Música pop é o gênero mais em Springfield, como esperado.Entretanto, música pop acabou por ser igualmente popular em Springfield e Shelbyville, e rap não estava no top 5 em nenhuma cidade