# Y.Music

# Contents <a id='back'></a>

* [Introdução](#intro)
* [Etapa 1. Visão geral dos dados](#data_review)
    * [Conclusões](#data_review_conclusions)
* [Etapa 2. Pré-processamento de dados](#data_preprocessing)
    * [2.1 Estilo do cabeçalho](#header_style)
    * [2.2 Valores ausentes](#missing_values)
    * [2.3 Duplicatas](#duplicates)
    * [2.4 Conclusões](#data_preprocessing_conclusions)
* [Etapa 3. Testando as hipóteses](#hypotheses)
    * [3.1 Hipótese 1: comparando o comportamento dos usuários em duas cidades](#activity)
    * [3.2 Hipótese 2: música no começo e no fim da semana](#week)
    * [3.3 Hipótese 3: preferências em Springfield e Shelbyville](#genre)
* [Conclusões](#end)

## Introdução <a id='intro'></a>
Neste projeto, estaremos investigando as preferências musicais dos residentes de duas cidades, Springfield e Shelbyville. Para conduzir essa pesquisa, precisamos começar formulando uma hipótese que nos permitirá testar as diferenças no comportamento musical entre essas duas comunidades.

A hipótese que estamos considerando é que existe uma diferença significativa nas preferências musicais entre os habitantes de Springfield e Shelbyville. Agora, a pergunta que estamos tentando responder é se essa hipótese é válida ou não.

Para fazer isso, vamos utilizar dados reais do Y.Music, uma fonte confiável de informações sobre preferências musicais. A partir desses dados, realizaremos uma análise comparativa, examinando os padrões de escuta, gêneros musicais mais populares e outros indicadores relevantes em ambas as cidades.

A partir dessa análise, poderemos tomar decisões informadas. Se encontrarmos evidências estatisticamente significantes de diferenças nas preferências musicais entre as duas cidades, podemos aceitar nossa hipótese. Caso contrário, se não encontrarmos diferenças significativas, teremos que rejeitar a hipótese.

O objetivo final deste projeto é compreender melhor como a música é apreciada em diferentes comunidades e, com base em dados sólidos, determinar se nossas suposições iniciais estavam corretas ou não. Isso nos permitirá tomar decisões mais embasadas em relação a estratégias de marketing, eventos culturais ou outras iniciativas relacionadas à música nessas cidades.

### Objetivo: 
Testar três hipóteses:
1. A atividade dos usuários é diferente dependendo do dia da semana e da cidade. 
2. Durante as manhãs de segunda-feira, os moradores de Springfield e Shelbyville escutam diferentes gêneros. Isso também é verdadeiro para noites de sexta-feira. 
3. Os ouvintes de Springfield e Shelbyville têm diferentes preferências. Em Springfield, as pessoas preferem pop, enquanto Shelbyville tem mais fãs de rap.

### Etapas 
Os dados sobre o comportamento do usuário é armazenado no arquivo `/datasets/music_project_en.csv`. Não há informação sobre a qualidade dos dados, então, você preciso examiná-los antes de testar a hipótese. 

Primeiro, será avaliado a qualidade dos dados e ver se há problemas significativos. Depois, durante o pré-processamento de dados, esses problemas mais críticos vão ser tratados.
 
O projeto consistirá em três etapas:
 1. Visão geral dos dados  2. Pré-processamento de dados  3. Testando as hipóteses  
[Voltar ao Índice](#back)

## Etapa 1. Visão geral dos dados <a id='data_review'></a>

Abra os dados em Y.Music e explore-os.

Você precisará de `pandas`, então, importe-a.

In [1]:
# importando pandas
import pandas as pd

In [2]:
# lendo o arquivo e armazenando em df
df = pd.read_csv('/datasets/music_project_en.csv')
df.describe()

Unnamed: 0,userID,Track,artist,genre,City,time,Day
count,65079,63736,57512,63881,65079,65079,65079
unique,41748,39666,37806,268,2,20392,3
top,A8AE9169,Brand,Kartvelli,pop,Springfield,21:51:22,Friday
freq,76,136,136,8850,45360,14,23149


In [3]:
# As 10 primeiras 10 linhas da tabela df
df.head(10)

Unnamed: 0,userID,Track,artist,genre,City,time,Day
0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Shelbyville,20:28:33,Wednesday
1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Springfield,14:07:09,Friday
2,20EC38,Funiculì funiculà,Mario Lanza,pop,Shelbyville,20:58:07,Wednesday
3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Shelbyville,08:37:09,Monday
4,E2DC1FAE,Soul People,Space Echo,dance,Springfield,08:34:34,Monday
5,842029A1,Chains,Obladaet,rusrap,Shelbyville,13:09:41,Friday
6,4CB90AA5,True,Roman Messer,dance,Springfield,13:00:07,Wednesday
7,F03E1C1F,Feeling This Way,Polina Griffith,dance,Springfield,20:47:49,Wednesday
8,8FA1D3BE,L’estate,Julia Dalia,ruspop,Springfield,09:17:40,Friday
9,E772D5C0,Pessimist,,dance,Shelbyville,21:20:49,Wednesday


In [4]:
# obtendo informações gerais sobre os dados em df
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65079 entries, 0 to 65078
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0     userID  65079 non-null  object
 1   Track     63736 non-null  object
 2   artist    57512 non-null  object
 3   genre     63881 non-null  object
 4     City    65079 non-null  object
 5   time      65079 non-null  object
 6   Day       65079 non-null  object
dtypes: object(7)
memory usage: 3.5+ MB


A tabela contém sete colunas. Elas armazenam o mesmo tipo de dado: objetos.

De acordo com a documentação:
- `'userID'` — identificação do usuário
- `'Track'` — título da música
- `'artist'` — nome do artista
- `'genre'` — o gênero
- `'City'` — cidade do usuário
- `'time'` — tempo exato que a música foi tocada
- `'Day'` — dia da semana 
Nós podemos ver três problemas com o estilo nos nomes das colunas:
1. Alguns nomes estão com letra maiúscula, alguns com letra minúscula.
2. Há espaços em alguns nomes.
3. O tipo da coluna time está object em vez de datetime

A quantidade de valores das colunassão diferentes. Isso significa que os dados contém valores ausentes.
Alem disso existem nomes com espaçamento e com letras maiúsculas .

### Conclusões <a id='data_review_conclusions'></a> 

Cada linha na tabela armazena dados sobre uma música que foi tocada. Algumas colunas descrevem a música por si só: seu título, artista e gênero. O restante contém informações sobre o usuário como a cidade de onde eles vêm e a quantidade de vezes que a música foi tocada. 

Está claro que os dados são suficientes para testar as hipóteses. Entretanto, há valores ausentes.

Para seguir adiante, precisamos pré-processar os dados.

[Voltar ao Índice](#back)

## Etapa 2. Pré-processar dados <a id='data_preprocessing'></a>

### Estilo do cabeçalho <a id='header_style'></a>

In [5]:
# a lista dos nomes das colunas na tabela df
df.columns

Index(['  userID', 'Track', 'artist', 'genre', '  City  ', 'time', 'Day'], dtype='object')

Mude os nomes das colunas de acordo com as regras da boa prática de estilo:
* Se o nome tiver várias palavras, use snake_case
* Todos os caracteres precisam estar com letras minúsculas
* Delete espaços

In [6]:
# renomeando colunas
df = df.rename(
columns={
   '  userID':'user_id',
    'Track':'track',
    '  City  ':'city',
    'Day':'day',
    
})

In [7]:
# checando o resultado: a lista dos nomes das colunas
df.columns

Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')

[Voltar ao Índice](#back)

### Valores ausentes <a id='missing_values'></a>
Primeiro, encontre a quantidade de valores ausentes na tabela. Para fazer isso, use dois métodos pandas:

In [8]:
# calculando valores ausentes
print(df.isna().sum())

user_id       0
track      1343
artist     7567
genre      1198
city          0
time          0
day           0
dtype: int64


Nem todos os valores ausentes afetam a pesquisa. Por exemplo, os valores ausentes na música e artista não é decisivo. Você pode simplesmente substituí-los por marcadores claros.

Mas valores ausentes em 'genre' pode afetar a comparação de preferências musicais de Springfield e Shelbyville. O ideal seria descobrir as razões pelas quais os dados estão ausentes e tentar compensá-los. Mas não tenho essa possibilidade neste projeto. Então terei que:
* Preencher os valores ausentes com marcadores
* Avaliar o quanto os valores ausentes podem afetar os seus cálculos

Substituir os valores ausentes em 'track', 'artist', e 'genre' com a string 'unknown'. Para fazer isso, crie a lista columns_to_replace, percorra-a com o ciclo for, e substitua os valores ausentes em cada uma das colunas:

In [9]:
# percorrendo os nomes das colunas e substituindo valores ausentes com 'unknown'
for col in ['track','artist','genre']:
    df[col] = df[col].fillna('unknown')

In [10]:
# contando os valores ausentes
df.isna().sum()

user_id    0
track      0
artist     0
genre      0
city       0
time       0
day        0
dtype: int64

[Voltar ao Índice](#back)

### Duplicatas <a id='duplicates'></a>
Encontrando o número de duplicatas óbvias na tabela usando um comando:

In [11]:
# contando duplicatas claras
df.duplicated().sum()

3826

In [12]:
# removendo duplicatas óbvias
df = df.drop_duplicates().reset_index(drop=True)

In [13]:
# verificando duplicatas
df.duplicated().sum()

0

In [14]:
# visualizando nomes de gêneros únicos
df['genre'].sort_values().unique()

array(['acid', 'acoustic', 'action', 'adult', 'africa', 'afrikaans',
       'alternative', 'ambient', 'americana', 'animated', 'anime',
       'arabesk', 'arabic', 'arena', 'argentinetango', 'art', 'audiobook',
       'avantgarde', 'axé', 'baile', 'balkan', 'beats', 'bigroom',
       'black', 'bluegrass', 'blues', 'bollywood', 'bossa', 'brazilian',
       'breakbeat', 'breaks', 'broadway', 'cantautori', 'cantopop',
       'canzone', 'caribbean', 'caucasian', 'celtic', 'chamber',
       'children', 'chill', 'chinese', 'choral', 'christian', 'christmas',
       'classical', 'classicmetal', 'club', 'colombian', 'comedy',
       'conjazz', 'contemporary', 'country', 'cuban', 'dance',
       'dancehall', 'dancepop', 'dark', 'death', 'deep', 'deutschrock',
       'deutschspr', 'dirty', 'disco', 'dnb', 'documentary', 'downbeat',
       'downtempo', 'drum', 'dub', 'dubstep', 'eastern', 'easy',
       'electronic', 'electropop', 'emo', 'entehno', 'epicmetal',
       'estrada', 'ethnic', 'eurofo

olahdo a lista foi possivel encontre duplicatas implícitas do gênero hiphop. Esses podem ser nomes escritos incorretamente, ou nomes alternativos para o mesmo gênero.

Fois encontrado as seguintes duplicatas implícitas:
* hip
* hop
* hip-hop

Para se livrar deles, será criado a função replace_wrong_genres() com dois parâmetros: 
* wrong_genres= — a lista de duplicatas
* correct_genre= — a string com o valor correto

A função deve corrigir os nomes na coluna 'genre' da tabela df, isto é, substituindo cada valor da lista wrong_genres por valores de correct_genre.

In [15]:
# função para substituir duplicatas implícitas
def replace_wrong_genres(wrong_genres,correct_genre):
    for wrong_genre in wrong_genres:
        df['genre'] = df['genre'].replace(wrong_genre,correct_genre)

In [16]:
# removendo duplicatas implícitas
duplicata = 'hip','hop','hip-hop'
nome = 'hiphop'
replace_wrong_genres(duplicata,nome)

In [17]:
# verificando valores duplicados
print(df['genre'].sort_values().unique())

['acid' 'acoustic' 'action' 'adult' 'africa' 'afrikaans' 'alternative'
 'ambient' 'americana' 'animated' 'anime' 'arabesk' 'arabic' 'arena'
 'argentinetango' 'art' 'audiobook' 'avantgarde' 'axé' 'baile' 'balkan'
 'beats' 'bigroom' 'black' 'bluegrass' 'blues' 'bollywood' 'bossa'
 'brazilian' 'breakbeat' 'breaks' 'broadway' 'cantautori' 'cantopop'
 'canzone' 'caribbean' 'caucasian' 'celtic' 'chamber' 'children' 'chill'
 'chinese' 'choral' 'christian' 'christmas' 'classical' 'classicmetal'
 'club' 'colombian' 'comedy' 'conjazz' 'contemporary' 'country' 'cuban'
 'dance' 'dancehall' 'dancepop' 'dark' 'death' 'deep' 'deutschrock'
 'deutschspr' 'dirty' 'disco' 'dnb' 'documentary' 'downbeat' 'downtempo'
 'drum' 'dub' 'dubstep' 'eastern' 'easy' 'electronic' 'electropop' 'emo'
 'entehno' 'epicmetal' 'estrada' 'ethnic' 'eurofolk' 'european'
 'experimental' 'extrememetal' 'fado' 'film' 'fitness' 'flamenco' 'folk'
 'folklore' 'folkmetal' 'folkrock' 'folktronica' 'forró' 'frankreich'
 'französisch' 

[Voltar ao Índice](#back)

### Conclusões <a id='data_preprocessing_conclusions'></a>
Nós detectamos três problemas com os dados:

- Estilo de cabeçalho incorreto
- Valores ausentes
- Duplicatas óbvias e implícitas

O cabeçalho foi limpo para fazer o processamento da tabela mais simples.

Todos os valores ausentes foram substituídos por 'unkown'. Mas nós ainda temos que ver os se valores ausentes em 'genre' afetará os nossos cálculos.

A ausência de duplicatas deixará os resultados mais precisos e mais fáceis de entender.

Agora você pode seguir para testar hipóteses.

[Voltar ao Índice](#back)

## Etapa 3. Testando hipóteses <a id='hypotheses'></a>

### Hipótese 1: comparando o comportamento dos usuários em duas cidades <a id='activity'></a>

De acordo com a primeira hipótese, usuários de Springfield e Shelbyville escutam música de forma diferente. Irei testar essa hipótese usando os dados de três dias da semana: segunda-feira, quarta-feira, e sexta-feira.

* Os usuários serão divididos em grupos para cada cidade.
* Vou comparar quantas músicas cada grupo escutou na segunda-feira, quarta-feira e sexta-feira.

In [18]:
# Contando as músicas tocadas em cada cidade
springfield = df.groupby('city')
print(springfield.count())

             user_id  track  artist  genre   time    day
city                                                    
Shelbyville    18512  18512   18512  18512  18512  18512
Springfield    42741  42741   42741  42741  42741  42741


Springfield tem mais músicas tocadas do que Shelbyville. Mas isso não quer dizer que os cidadãos de Springfield escutam música com mais frequência. Essa cidade é somente maior, e tem mais usuários.

Irei agrupar os dados por dia da semana e encontre a quantidade de músicas tocadas na segunda, quarta e sexta-feira.

In [19]:
# Calculando as músicas escutadas em cada um desses três dias
dias = df.groupby('day')
print(dias.count())

           user_id  track  artist  genre   city   time
day                                                   
Friday       21840  21840   21840  21840  21840  21840
Monday       21354  21354   21354  21354  21354  21354
Wednesday    18059  18059   18059  18059  18059  18059


Quarta-feira é o dia mais calmo em geral. Mas se considerarmos as duas cidades separadamente, devemos chegar a uma conclusão diferente.

A função number_tracks() será criada para calcular o número de músicas tocadas em um determinado dia da semana e em cada cidade. Será necessários dois parâmetros:
* dia da semana
* nome da cidade

Na função, a variável vai armazenar as linhas da tabela original, onde:
  * o valor da coluna 'day' é igual ao parâmetro dia
  * o valor da coluna 'city' é igual ao parâmetro cidade

In [20]:
# <criando a função number_tracks()>
def number_tracks(day,city):
    track_list = df[df['day'] == day ]
    track_list = track_list[track_list['city'] == city]
    track_list_count = track_list['user_id'].count()
    return track_list_count
    
# A função conta músicas tocadas por uma certa cidade e dia.

Utilizando a função.

In [21]:
# a quantidade de músicas tocadas em Springfield na segunda-feira
number_tracks('Monday','Springfield')

15740

In [22]:
# a quantidade de músicas tocadas em Shelbyville na segunda-feira
number_tracks('Monday','Shelbyville')

5614

In [23]:
# a quantidade de músicas tocadas em Springfield na quarta-feira
number_tracks('Wednesday','Springfield')

11056

In [24]:
# a quantidade de músicas tocadas em Shelbyville na quarta-feira
number_tracks('Wednesday','Shelbyville')

7003

In [25]:
# a quantidade de músicas tocadas em Springfield na sexta-feira
number_tracks('Friday','Springfield')

15945

In [26]:
# a quantidade de músicas tocadas em Shelbyville na sexta-feira
number_tracks('Friday','Shelbyville')

5895

Os dados vão ser aramzenados em um novo DataFrame.

In [27]:
# tabela com resultados
nomes =  ['city', 'monday', 'wednesday', 'friday']
dados = [
    ['Springfield', 15740, 11056, 15945],
    ['Shelbyville', 5614, 7003, 5895],]
tabela = pd.DataFrame(data=dados,columns=nomes)
print(tabela)

          city  monday  wednesday  friday
0  Springfield   15740      11056   15945
1  Shelbyville    5614       7003    5895


**Conclusões**

Os dados revelam diferenças no comportamento dos usuários:

- Em Springfield, a quantidade de músicas tocadas tem seu auge nas segundas e sextas-feiras, enquanto na quarta-feira há uma diminuição na atividade.
- Em Shelbyville, ao contrário, usuários escutam mais música na quarta-feira. A atividade na segunda e sexta-feira é pequena.

Então a primeira hipótese parece ser correta.

[Voltar ao Índice](#back)

### Hipótese 2: música no começo e no fim da semana <a id='week'></a>

De acordo com a segunda hipótese, na segunda-feira de manhã e sexta-feira à noite, habitantes de Springfield escutam gêneros que diferem de alguns usuários de Shelbyville gostam.

In [28]:
# obtendo a tabela spr_generala partir das linhas df,
# onde o valor na coluna 'city' é 'Springfield'
spr_general = df[df['city'] == 'Springfield']

In [29]:
# obtendo os shel_general a partir das linhas df,
# onde os valores na coluna 'city' é Shelbyville'
shel_general = df[df['city'] == 'Shelbyville']

A função genre_weekday() terá quatro parâmetros:
* Uma tabela para dados (`df`)
* O dia da semana (`day`)
* O primeiro carimbo de hora, no formato 'HH:MM' (`time1`)
* O último carimbo de hora, no formato 'HH,MM' (`time2`)

A função deve retornar informações sobre os 15 gêneros mais populares em um determinado dia, dentro do período entre os dois carimbos de hora.

In [30]:
# Declarando a função genre_weekday() com os parâmetros day=, time1=, e time2=. Ela deve
# retornar a informação sobre os gêneros mais populares em um determinado dia em um período específico:

def genre_weekday(df,day,time1,time2):
    

    # filtragem consecutiva
    # genre_df armazenará apenas as linhas df onde o dia é igual a day=
    genre_df = df[df['day'] == day]

    # genre_df armazenará apenas as linhas df que o tempo é menor do que time2=
    genre_df = df[df['time'] > time2 ]

    # genre_df armazenará apenas as linhas onde onde o tempo é maior do que time1=
    genre_df = df[df['time'] < time1 ]

    # agrope o DataFrame filtrado pela coluna com nomes dos gêneros, pegue a coluna gênero, e encontre o número de linhas para cada gênero com o método count()
    genre_df_grouped = genre_df.groupby('genre').count()

    # nós vamos armazenar o resultado em ordem decrescente (para que os gêneros mais populares venham primeiro no objeto Series)
    genre_df_sorted = genre_df_grouped.sort_values(by = 'user_id',ascending = False)
    
    # nós vamos retornar o objeto Serie armazenando os 15 gêneros mais populares em um determinado dia, dentro de um determinado intervalo de tempo
    return genre_df_sorted[:15]

Comparando os resultados da função `genre_weekday()` para Springfield e Shelbyville na segunda-feira de manhã (de 7hs à 11hs) e na sexta-feira de tarde (das 17hs às 23hs):

In [31]:
# chamando a função para segunda-feira de manha em Springfield (use spr_general em vez de df table)
genre_weekday(spr_general,'Monday','7','11')

Unnamed: 0_level_0,user_id,track,artist,city,time,day
genre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
pop,5892,5892,5892,5892,5892,5892
dance,4435,4435,4435,4435,4435,4435
rock,3965,3965,3965,3965,3965,3965
electronic,3786,3786,3786,3786,3786,3786
hiphop,2096,2096,2096,2096,2096,2096
classical,1616,1616,1616,1616,1616,1616
world,1432,1432,1432,1432,1432,1432
alternative,1379,1379,1379,1379,1379,1379
ruspop,1372,1372,1372,1372,1372,1372
rusrap,1161,1161,1161,1161,1161,1161


In [32]:
# chamando a função para segunda-feira de manhã em Shelbyville (use shel_general em vez de df table)
genre_weekday(shel_general,'Monday','7','11')

Unnamed: 0_level_0,user_id,track,artist,city,time,day
genre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
pop,2431,2431,2431,2431,2431,2431
dance,1932,1932,1932,1932,1932,1932
rock,1879,1879,1879,1879,1879,1879
electronic,1736,1736,1736,1736,1736,1736
hiphop,960,960,960,960,960,960
alternative,649,649,649,649,649,649
classical,646,646,646,646,646,646
rusrap,564,564,564,564,564,564
ruspop,538,538,538,538,538,538
world,515,515,515,515,515,515


In [33]:
# chamando a função para sexta-feira à tarde em Springfield
genre_weekday(spr_general,'Friday','17','23')

Unnamed: 0_level_0,user_id,track,artist,city,time,day
genre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
pop,3909,3909,3909,3909,3909,3909
dance,3005,3005,3005,3005,3005,3005
rock,2579,2579,2579,2579,2579,2579
electronic,2502,2502,2502,2502,2502,2502
hiphop,1411,1411,1411,1411,1411,1411
classical,1129,1129,1129,1129,1129,1129
ruspop,937,937,937,937,937,937
world,931,931,931,931,931,931
alternative,904,904,904,904,904,904
rusrap,779,779,779,779,779,779


In [34]:
# chamando a função para sexta-feira à tarde em Shelbyville
genre_weekday(shel_general,'Friday','17','23')

Unnamed: 0_level_0,user_id,track,artist,city,time,day
genre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
pop,1592,1592,1592,1592,1592,1592
dance,1306,1306,1306,1306,1306,1306
rock,1212,1212,1212,1212,1212,1212
electronic,1087,1087,1087,1087,1087,1087
hiphop,628,628,628,628,628,628
classical,427,427,427,427,427,427
alternative,415,415,415,415,415,415
rusrap,380,380,380,380,380,380
ruspop,368,368,368,368,368,368
world,336,336,336,336,336,336


**Conclusão**

Tendo comparado os 15 gêneros mais ouvidos na segunda-feira de manhã, nós podemos tirar as seguintes conclusões:

1. Usuários de Springfield e Shelbyville escutam músicas semelhantes. Os cinco gêneros mais ouvidos são os mesmos, apenas rock e música eletrônica trocaram de lugar.

2. Em Springfield, a quantidade de valores ausentes acabaram por serem tantos que o valor 'unknown' veio em 10º. Isso significa que valores ausentes tiveram uma considerável porção dos dados, que pode ser a base para questionamentos a confiabilidade das conclusões.

Para sexta-feira à tarde, a situação é parecida. Gêneros individuais variam um pouco, mas no todo, os 15 gêneros mais ouvidos são parecidos para as duas cidades.

Assim, a segunda hipótese foi parcialmente provada:
* Usuários escutam gêneros musicais parecidos no começo e no fim da semana.
* Não há grande diferença entre Springfield e Shelbyville. Nas duas cidades, pop é o gênero mais popular.

No entanto, o número de valores ausentes faz esse resultado ser questionável. Em Springfield, há tantos que eles afetaram o top 15. Se não nos faltassem esses valores, as coisas poderiam ser diferentes.

[Voltar ao Índice](#back)

### Hipótese 3: preferências em Springfield e Shelbyville <a id='genre'></a>

Hipótese: Shelbyville ama rap. Cidadãos de Springfield curtem mais pop.

In [35]:
spr_genres = spr_general.groupby('genre').count()
spr_genres = spr_genres.sort_values(by='user_id',ascending=False) 

In [36]:
# exibindo as primeiras 10 linhas de spr_genres
spr_genres[:15]

Unnamed: 0_level_0,user_id,track,artist,city,time,day
genre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
pop,5892,5892,5892,5892,5892,5892
dance,4435,4435,4435,4435,4435,4435
rock,3965,3965,3965,3965,3965,3965
electronic,3786,3786,3786,3786,3786,3786
hiphop,2096,2096,2096,2096,2096,2096
classical,1616,1616,1616,1616,1616,1616
world,1432,1432,1432,1432,1432,1432
alternative,1379,1379,1379,1379,1379,1379
ruspop,1372,1372,1372,1372,1372,1372
rusrap,1161,1161,1161,1161,1161,1161


In [1]:
# organizando em ordem decrescente e armazene-o em shel_genres
shel_genres = shel_general.groupby('genre').count()
shel_genres = shel_genres.sort_values(by='user_id',ascending=False)

NameError: name 'shel_general' is not defined

In [38]:
# exibindo as 10 primeiras linhas de shel_genres
shel_genres[:15]

Unnamed: 0_level_0,user_id,track,artist,city,time,day
genre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
pop,2431,2431,2431,2431,2431,2431
dance,1932,1932,1932,1932,1932,1932
rock,1879,1879,1879,1879,1879,1879
electronic,1736,1736,1736,1736,1736,1736
hiphop,960,960,960,960,960,960
alternative,649,649,649,649,649,649
classical,646,646,646,646,646,646
rusrap,564,564,564,564,564,564
ruspop,538,538,538,538,538,538
world,515,515,515,515,515,515


**Conclusão**

A hipótese foi parcialmente provada:
* Música pop é o gênero mais em Springfield, como esperado.
* Entretanto, música pop acabou por ser igualmente popular em Springfield e Shelbyville, e rap não estava no top 5 em nenhuma cidade.


[Voltar ao Índice](#back)

# Conclusões <a id='end'></a>

Nós testamos as três hipóteses seguintes:

1. A atividade do usuário varia dependendo do dia da semana e da cidade. 
2. Nas segundas-feiras de manhã, os habitantes de Springfield e Shelbyville escutam diferentes gêneros. Isso também é verdadeiro para noites de sexta-feira. 
3. Ouvintes de Springfield e Shelbyville têm preferências diferentes. Tanto em Springfield como Shellbyville, eles preferem pop.

Depois de analisar os dados, nós concluímos:

1. A atividade do usuário em Springfield e Shelbyville depende do dia da semana, embora as cidades variam de formas diferentes. 

A primeira hipótese é totalmente aceita.

2. As preferências musicais não variam significativamente ao decorrer da semana tanto em Springfield como em Shelbyville. Nós podemos ver pequenas diferenças na ordem nas segundas-feiras, mas:
* Em Springfield e Shelbyville, as pessoas escutam mais música pop.

Então nós podemos aceitar essa hipótese. Nós devemos também ter em mente que o resultado pode ter sido diferente se não fosse pelos valores ausentes.

3. Acontece que preferências musicais dos usuários de Springfield e Shelbyville são bastante parecidas.

A terceira hipótese foi rejeitada. Se há alguma diferença nas preferências, ela não pode ser vista nesses dados.


[Voltar ao Índice](#back)