## Este é  o primeiro projeto proposto pelo curso de data science da TripleTen

# Título: Musica da Cidade Grande

Este projeto foi realizado com o objetivo de testar conhecimentos em python, pandas, pre-processamento de dados. Utilizando jupyter notebook.

# Contents <a id='back'></a>

* [Introdução](#intro)
* [Etapa 1. Visão geral dos dados](#data_review)
    * [Conclusões](#data_review_conclusions)
* [Etapa 2. Pré-processamento de dados](#data_preprocessing)
    * [2.1 Estilo do cabeçalho](#header_style)
    * [2.2 Valores ausentes](#missing_values)
    * [2.3 Duplicatas](#duplicates)
    * [2.4 Conclusões](#data_preprocessing_conclusions)
* [Etapa 3. Testando as hipóteses](#hypotheses)
    * [3.1 Hipótese 1: comparando o comportamento dos usuários em duas cidades](#activity)
    * [3.2 Hipótese 2: música no começo e no fim da semana](#week)
    * [3.3 Hipótese 3: preferências em Springfield e Shelbyville](#genre)
* [Conclusões](#end)

## Introdução <a id='intro'></a>
Sempre que fazemos uma pesquisa, precisamos formular uma hipótese que depois poderemos testar. Às vezes nós aceitamos essas hipóteses; outras vezes, nós as rejeitamos. Para fazer as escolhas certas, um negócio deve ser capaz de entender se está fazendo as suposições certas ou não.

Neste projeto, você vai comparar as preferências musicais dos habitantes de Springfild e Shelbyville. Você estudará dados reais do Y.Music para testar a hipótese abaixo e comparar o comportamento do usuário para essas duas cidades.

### Objetivo: 
Teste três hipóteses:
1. A atividade dos usuários é diferente dependendo do dia da semana e da cidade. 
2. Durante as manhãs de segunda-feira, os moradores de Springfield e Shelbyville escutam diferentes gêneros. Isso também é verdadeiro para noites de sexta-feira. 
3. Os ouvintes de Springfield e Shelbyville têm diferentes preferências. Em Springfield, as pessoas preferem pop, enquanto Shelbyville tem mais fãs de rap.

### Etapas 
Os dados sobre o comportamento do usuário é armazenado no arquivo `/datasets/music_project_en.csv`. Não há informação sobre a qualidade dos dados, então, você precisará examiná-los antes de testar a hipótese. 

Primeiro, você avaliará a qualidade dos dados e ver se seus problemas são significativos. Depois, durante o pré-processamento de dados, você tentará dar conta dos problemas mais críticos.
 
O seu projeto consistirá em três etapas:
 1. Visão geral dos dados  2. Pré-processamento de dados  3. Testando as hipóteses  
[Voltar ao Índice](#back)

## Etapa 1. Visão geral dos dados <a id='data_review'></a>

In [1]:
# importando pandas
import pandas as pd 


Lendo o arquivo `music_project_en.csv` da pasta `/datasets/` e salvando-o na variável `df`:

In [2]:
# lendo o arquivo e armazenando em df
df = pd.read_csv('music_project_en.csv')
df.describe()

Unnamed: 0,userID,Track,artist,genre,City,time,Day
count,65079,63736,57512,63881,65079,65079,65079
unique,41748,39666,37806,268,2,20392,3
top,A8AE9169,Brand,Kartvelli,pop,Springfield,08:14:07,Friday
freq,76,136,136,8850,45360,14,23149


Exibindo as primeiras 10 linhas da tabela:

In [3]:
# 10 primeiras linhas da tabela df
df.head(10)

Unnamed: 0,userID,Track,artist,genre,City,time,Day
0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Shelbyville,20:28:33,Wednesday
1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Springfield,14:07:09,Friday
2,20EC38,Funiculì funiculà,Mario Lanza,pop,Shelbyville,20:58:07,Wednesday
3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Shelbyville,08:37:09,Monday
4,E2DC1FAE,Soul People,Space Echo,dance,Springfield,08:34:34,Monday
5,842029A1,Chains,Obladaet,rusrap,Shelbyville,13:09:41,Friday
6,4CB90AA5,True,Roman Messer,dance,Springfield,13:00:07,Wednesday
7,F03E1C1F,Feeling This Way,Polina Griffith,dance,Springfield,20:47:49,Wednesday
8,8FA1D3BE,L’estate,Julia Dalia,ruspop,Springfield,09:17:40,Friday
9,E772D5C0,Pessimist,,dance,Shelbyville,21:20:49,Wednesday


Obtendo as informações gerais sobre a tabela:

In [4]:
# obtendo informações gerais sobre os dados em df
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65079 entries, 0 to 65078
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0     userID  65079 non-null  object
 1   Track     63736 non-null  object
 2   artist    57512 non-null  object
 3   genre     63881 non-null  object
 4     City    65079 non-null  object
 5   time      65079 non-null  object
 6   Day       65079 non-null  object
dtypes: object(7)
memory usage: 3.5+ MB


A tabela contém sete colunas. Elas armazenam o mesmo tipo de dado: objetos.

De acordo com a documentação:
- `'userID'` — identificação do usuário
- `'Track'` — título da música
- `'artist'` — nome do artista
- `'genre'` — o gênero
- `'City'` — cidade do usuário
- `'time'` — tempo exato que a música foi tocada
- `'Day'` — dia da semana 
Nós podemos ver alguns problemas com o estilo nos nomes das colunas:
1. Alguns nomes estão com letra maiúscula, alguns com letra minúscula.
2. Há espaços em alguns nomes.
3. Há um problema com o tipo da coluna time. Por hora deixaremos neste formato
4. A quantidade de valores das colunas é diferente. Isso significa que os dados contém valores ausentes.


### Conclusões <a id='data_review_conclusions'></a> 

Cada linha na tabela armazena dados sobre uma música que foi tocada. Algumas colunas descrevem a música por si só: seu título, artista e gênero. O restante contém informações sobre o usuário: a cidade de onde eles vêm, a quantidade de vezes que a música foi tocada. 

Está claro que os dados são suficientes para testar as hipóteses. Entretanto, há valores ausentes.

Para seguir adiante, precisamos pré-processar os dados.

[Voltar ao Índice](#back)

## Etapa 2. Pré-processamento de dados <a id='data_preprocessing'></a>
Nesta etapa vamos corrigir a formatação no cabeçalho da coluna e trabalhar com os valores ausentes. Depois, verificaremos se há duplicatas nos dados.

### Estilo do cabeçalho <a id='header_style'></a>
Exibindo o cabeçalho da coluna:

In [5]:
# a lista dos nomes das colunas na tabela df
df.columns

Index(['  userID', 'Track', 'artist', 'genre', '  City  ', 'time', 'Day'], dtype='object')

Mudando os nomes das colunas de acordo com as regras da boa prática de estilo:

In [6]:
# renomeando colunas
df = df.rename(
    columns={
        '  userID': 'user_id',
        'Track': 'track',
        'artist': 'artist',
        'genre': 'genre',
        '  City  ': 'city',
        'time': 'time',
        'Day':'day',
    }
) 

Verificando o resultado:

In [7]:
# checando a lista dos nomes das colunas
df.columns

Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')

[Voltar ao Índice](#back)

### Valores ausentes <a id='missing_values'></a>
Primeiro, vamos encontrar a quantidade de valores ausentes na tabela.

In [8]:
# calculando valores ausentes
df.isna().sum()

user_id       0
track      1343
artist     7567
genre      1198
city          0
time          0
day           0
dtype: int64

Para as hipoteses que iremos testar nem todos os valores ausentes afetam a pesquisa. Por exemplo, os valores ausentes na música e artista não é decisivo. Podemos simplesmente substituí-los por marcadores claros.

Mas valores ausentes em 'genre' pode afetar a comparação de preferências musicais de Springfield e Shelbyville. 

Seria útil descobrir as razões pelas quais os dados estão ausentes e tentar compensá-los. Mas nós não temos essa possibilidade neste projeto. Então, teremos que:
* Preencher os valores ausentes com marcadores
* Avaliar o quanto os valores ausentes podem afetar os cálculos

Vamos substituir os valores ausentes em 'track', 'artist', e 'genre' com a string 'unknown'. 
Para fazer isso, iremos criar a lista columns_to_replace, percorrer com o ciclo for, e substituir os valores ausentes em cada uma das colunas:

In [9]:
# percorrendo os nomes das colunas e substituindo valores ausentes com 'unknown'
columns_to_replace = ['track','artist','genre']
for column in columns_to_replace:
    df[column] = df[column].fillna('unknown')

Verificando se a tabela ainda contém valores ausentes:

In [10]:
# contando os valores ausentes
df.isna().sum()

user_id    0
track      0
artist     0
genre      0
city       0
time       0
day        0
dtype: int64

[Voltar ao Índice](#back)

### Duplicatas <a id='duplicates'></a>
Encontrando o número de duplicatas óbvias na tabela:

In [11]:
# contando duplicatas claras
df.duplicated().sum()

3826

Removendo de df duplicatas óbvias:

In [12]:
# removendo duplicatas óbvias
df = df.drop_duplicates()

Verificando se as duplicatas foram removidas:

In [13]:
# verificando duplicatas
df.duplicated().sum()

0

Agora, vamos checar as duplicatas implícitas na coluna genre:
* Por exemplo, o nome de um gênero pode ser escrito de maneiras diferentes. Alguns erros afetarão também o resultado.

Exiba a lista de nomes de gêneros únicos, organizados em ordem alfabética. Para fazer isso:

Para checar se existem duplicatas não obvias, vamos utilizar o método unique em df

In [14]:
# visualizando nomes de gêneros únicos
sorted(df['genre'].unique())

['acid',
 'acoustic',
 'action',
 'adult',
 'africa',
 'afrikaans',
 'alternative',
 'ambient',
 'americana',
 'animated',
 'anime',
 'arabesk',
 'arabic',
 'arena',
 'argentinetango',
 'art',
 'audiobook',
 'avantgarde',
 'axé',
 'baile',
 'balkan',
 'beats',
 'bigroom',
 'black',
 'bluegrass',
 'blues',
 'bollywood',
 'bossa',
 'brazilian',
 'breakbeat',
 'breaks',
 'broadway',
 'cantautori',
 'cantopop',
 'canzone',
 'caribbean',
 'caucasian',
 'celtic',
 'chamber',
 'children',
 'chill',
 'chinese',
 'choral',
 'christian',
 'christmas',
 'classical',
 'classicmetal',
 'club',
 'colombian',
 'comedy',
 'conjazz',
 'contemporary',
 'country',
 'cuban',
 'dance',
 'dancehall',
 'dancepop',
 'dark',
 'death',
 'deep',
 'deutschrock',
 'deutschspr',
 'dirty',
 'disco',
 'dnb',
 'documentary',
 'downbeat',
 'downtempo',
 'drum',
 'dub',
 'dubstep',
 'eastern',
 'easy',
 'electronic',
 'electropop',
 'emo',
 'entehno',
 'epicmetal',
 'estrada',
 'ethnic',
 'eurofolk',
 'european',
 'expe

Analisando a lista encontramos duplicatas implícitas do gênero hiphop. 
Observamos as seguintes duplicatas implícitas:
* hip
* hop
* hip-hop

Para se livrar deles, usaremos a função replace_wrong_genres() com dois parâmetros: 
* wrong_genres= — a lista de duplicatas
* correct_genre= — a string com o valor correto

A função deve corrigir os nomes na coluna 'genre' da tabela df, isto é, substituindo cada valor da lista wrong_genres por valores de correct_genre.

In [15]:
# função para substituir duplicatas implícitas
def replace_wrong_genres(wrong_genres,correct_genre):
    return df['genre'].replace(wrong_genres,correct_genre)    

In [16]:
# removendo duplicatas implícitas
df['genre'] = replace_wrong_genres(['hip', 'hop', 'hip-hop'],'hiphop')

Certificando que os nomes duplicados foram removidos:

In [17]:
# verificando valores duplicados
sorted(df['genre'].unique())

['acid',
 'acoustic',
 'action',
 'adult',
 'africa',
 'afrikaans',
 'alternative',
 'ambient',
 'americana',
 'animated',
 'anime',
 'arabesk',
 'arabic',
 'arena',
 'argentinetango',
 'art',
 'audiobook',
 'avantgarde',
 'axé',
 'baile',
 'balkan',
 'beats',
 'bigroom',
 'black',
 'bluegrass',
 'blues',
 'bollywood',
 'bossa',
 'brazilian',
 'breakbeat',
 'breaks',
 'broadway',
 'cantautori',
 'cantopop',
 'canzone',
 'caribbean',
 'caucasian',
 'celtic',
 'chamber',
 'children',
 'chill',
 'chinese',
 'choral',
 'christian',
 'christmas',
 'classical',
 'classicmetal',
 'club',
 'colombian',
 'comedy',
 'conjazz',
 'contemporary',
 'country',
 'cuban',
 'dance',
 'dancehall',
 'dancepop',
 'dark',
 'death',
 'deep',
 'deutschrock',
 'deutschspr',
 'dirty',
 'disco',
 'dnb',
 'documentary',
 'downbeat',
 'downtempo',
 'drum',
 'dub',
 'dubstep',
 'eastern',
 'easy',
 'electronic',
 'electropop',
 'emo',
 'entehno',
 'epicmetal',
 'estrada',
 'ethnic',
 'eurofolk',
 'european',
 'expe

[Voltar ao Índice](#back)

### Conclusões <a id='data_preprocessing_conclusions'></a>
Foi detectado três problemas com os dados:

- Estilo de cabeçalho incorreto
- Valores ausentes
- Duplicatas óbvias e implícitas

O cabeçalho foi limpo para fazer o processamento da tabela mais simples.

Todos os valores ausentes foram substituídos por 'unkown'. Mas ainda será necessário  verificar se os valores ausentes em 'genre' afetará os  cálculos.

A ausência de duplicatas deixará os resultados mais precisos e mais fáceis de entender.

Vamos seguir para etapa de testar hipóteses.

[Voltar ao Índice](#back)

## Etapa 3. Testando hipóteses <a id='hypotheses'></a>

### Hipótese 1: comparando o comportamento dos usuários em duas cidades <a id='activity'></a>

De acordo com a primeira hipótese, usuários de Springfield and Shelbyville escutam música de forma diferente. Testaremos essa hipótese usando os dados de três dias da semana: segunda-feira, quarta-feira, e sexta-feira.

Vamos agrupar os dados por cidade e encontrar o número de músicas tocadas em cada grupo:

In [18]:
# Contando as músicas tocadas em cada cidade
df.groupby('city').count()

Unnamed: 0_level_0,user_id,track,artist,genre,time,day
city,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Shelbyville,18512,18512,18512,18512,18512,18512
Springfield,42741,42741,42741,42741,42741,42741


Springfield tem mais músicas tocadas do que Shelbyville.
Mas isso não quer dizer que os cidadãos de Springfield escutam música com mais frequência. 
Essa cidade é somente maior, e tem mais usuários.

Agrupando os dados por dia da semana, para encontrar a quantidade de músicas tocadas na segunda, quarta e sexta-feira.


In [19]:
# Calculando as músicas escutadas em cada um desses três dias
df.groupby(['city','day']).count()['track']

city         day      
Shelbyville  Friday        5895
             Monday        5614
             Wednesday     7003
Springfield  Friday       15945
             Monday       15740
             Wednesday    11056
Name: track, dtype: int64

Quarta-feira é o dia mais calmo em geral. Mas se considerarmos as duas cidades separadamente, devemos chegar a uma conclusão diferente. 

In [20]:
def number_tracks(day,city):
    track_list = df[(df['day'] == day) & (df['city'] == city)]
    track_list_count = track_list['user_id'].count()
    return track_list_count
# A função conta músicas tocadas por uma certa cidade e dia.

In [21]:
# a quantidade de músicas tocadas em Springfield na segunda-feira
number_tracks('Monday','Springfield')

15740

In [22]:
# a quantidade de músicas tocadas em Shelbyville na segunda-feira
number_tracks('Monday','Shelbyville')

5614

In [23]:
# a quantidade de músicas tocadas em Springfield na quarta-feira
number_tracks('Wednesday','Springfield')

11056

In [24]:
# a quantidade de músicas tocadas em Shelbyville na quarta-feira
number_tracks('Wednesday','Shelbyville')

7003

In [25]:
# a quantidade de músicas tocadas em Springfield na sexta-feira
number_tracks('Friday','Springfield')

15945

In [26]:
# a quantidade de músicas tocadas em Shelbyville na sexta-feira
number_tracks('Friday','Shelbyville')

5895

Tabela com resultados das duas diferentes cidades de cada contagem de musicas escutadas para segunda, quarta e sexta feira.

In [27]:
# tabela com resultados
columns = ['city', 'monday', 'wednesday', 'friday']
data = [
    ['Springfield',number_tracks('Monday','Springfield'),number_tracks('Wednesday','Springfield'), number_tracks('Friday','Springfield')],
    ['Shelbyville',number_tracks('Monday','Shelbyville'),number_tracks('Wednesday','Shelbyville'),number_tracks('Friday','Shelbyville')]
]

pd.DataFrame(data=data,columns=columns)

Unnamed: 0,city,monday,wednesday,friday
0,Springfield,15740,11056,15945
1,Shelbyville,5614,7003,5895


**Conclusões**

Os dados revelam diferenças no comportamento dos usuários:

- Em Springfield, a quantidade de músicas tocadas tem seu auge nas segundas e sextas-feiras, enquanto na quarta-feira há uma diminuição na atividade.
- Em Shelbyville, ao contrário, usuários escutam mais música na quarta-feira. A atividade na segunda e sexta-feira é pequena.

Então a primeira hipótese parece ser correta.

[Voltar ao Índice](#back)

### Hipótese 2: música no começo e no fim da semana <a id='week'></a>

De acordo com a segunda hipótese, na segunda-feira de manhã e sexta-feira à noite, habitantes de Springfield escutam gêneros que diferem de alguns usuários de Shelbyville gostam.

Vamos analisar:
* Para Springfield — `spr_general`
* Para Shelbyville — `shel_general`

In [28]:
# obtendo a tabela spr_generala partir das linhas df,
# onde o valor na coluna 'city' é 'Springfield'
spr_general = df[df['city'] == 'Springfield']
spr_general

Unnamed: 0,user_id,track,artist,genre,city,time,day
1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Springfield,14:07:09,Friday
4,E2DC1FAE,Soul People,Space Echo,dance,Springfield,08:34:34,Monday
6,4CB90AA5,True,Roman Messer,dance,Springfield,13:00:07,Wednesday
7,F03E1C1F,Feeling This Way,Polina Griffith,dance,Springfield,20:47:49,Wednesday
8,8FA1D3BE,L’estate,Julia Dalia,ruspop,Springfield,09:17:40,Friday
...,...,...,...,...,...,...,...
65073,83A474E7,I Worship Only What You Bleed,The Black Dahlia Murder,extrememetal,Springfield,21:07:12,Monday
65074,729CBB09,My Name,McLean,rnb,Springfield,13:32:28,Wednesday
65076,C5E3A0D5,Jalopiina,unknown,industrial,Springfield,20:09:26,Friday
65077,321D0506,Freight Train,Chas McDevitt,rock,Springfield,21:43:59,Friday


In [29]:
# obtendo os shel_general a partir das linhas df,
# onde os valores na coluna 'city' é Shelbyville'
shel_general = df[df['city'] == 'Shelbyville']
shel_general

Unnamed: 0,user_id,track,artist,genre,city,time,day
0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Shelbyville,20:28:33,Wednesday
2,20EC38,Funiculì funiculà,Mario Lanza,pop,Shelbyville,20:58:07,Wednesday
3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Shelbyville,08:37:09,Monday
5,842029A1,Chains,Obladaet,rusrap,Shelbyville,13:09:41,Friday
9,E772D5C0,Pessimist,unknown,dance,Shelbyville,21:20:49,Wednesday
...,...,...,...,...,...,...,...
65063,D94F810B,Theme from the Walking Dead,Proyecto Halloween,film,Shelbyville,21:14:40,Monday
65064,BC8EC5CF,Red Lips: Gta (Rover Rework),Rover,electronic,Shelbyville,21:06:50,Monday
65065,29E04611,Bre Petrunko,Perunika Trio,world,Shelbyville,13:56:00,Monday
65066,1B91C621,(Hello) Cloud Mountain,sleepmakeswaves,postrock,Shelbyville,09:22:13,Monday


In [30]:
# A função abaixo deve retornar informações sobre os 15 gêneros mais populares em um determinado dia, 
# dentro do período entre os dois carimbos de hora.

def genre_weekday(df,day,time1,time2):
    # filtragem consecutiva
    # genre_df armazenará apenas as linhas df onde o dia é igual a day=
    genre_df = df[df['day'] == day] 
    
    # genre_df armazenará apenas as linhas df que o tempo é menor do que time2=
    genre_df = df[df['time'] <= time2] 

    # genre_df armazenará apenas as linhas onde onde o tempo é maior do que time1=
    genre_df = df[df['time'] >= time1] 

    # agrupando o DataFrame filtrado pela coluna com nomes dos gêneros, e obtem número de linhas para cada gênero com o método count()
    genre_df_grouped = genre_df.groupby('genre').count()

    # Armezenando o resultado em ordem decrescente (para que os gêneros mais populares venham primeiro no objeto Series)
    genre_df_sorted = genre_df_grouped.sort_values(by ='track',ascending = False)['track']
    
    # nós vamos retornar o objeto Serie armazenando os 15 gêneros mais populares em um determinado dia, dentro de um determinado intervalo de tempo
    return genre_df_sorted[:15]

Comparando os resultados da função `genre_weekday()` para Springfield e Shelbyville na segunda-feira de manhã (de 7hs à 11hs) e na sexta-feira de tarde (das 17hs às 23hs):

In [31]:
# chamando a função para segunda-feira de manha em Springfield
genre_weekday(spr_general,'Monday','07:00','11:00')

genre
pop            5892
dance          4435
rock           3965
electronic     3786
hiphop         2096
classical      1616
world          1432
alternative    1379
ruspop         1372
rusrap         1161
jazz            980
unknown         849
metal           832
soundtrack      785
folk            692
Name: track, dtype: int64

In [32]:
# chamando a função para segunda-feira de manhã em Shelbyville
genre_weekday(shel_general,'Monday','07:00','11:00')

genre
pop            2431
dance          1932
rock           1879
electronic     1736
hiphop          960
alternative     649
classical       646
rusrap          564
ruspop          538
world           515
jazz            486
metal           378
soundtrack      331
rnb             321
rap             309
Name: track, dtype: int64

In [33]:
# chamando a função para sexta-feira à tarde em Springfield
genre_weekday(spr_general,'Friday','17:00','23:00')

genre
pop            1983
dance          1430
rock           1386
electronic     1284
hiphop          685
world           501
classical       487
alternative     475
ruspop          435
rusrap          382
jazz            332
soundtrack      284
unknown         255
folk            237
metal           233
Name: track, dtype: int64

In [34]:
# chamando a função para sexta-feira à tarde em Shelbyville
genre_weekday(shel_general,'Friday','17:00','23:00')

genre
pop            839
rock           667
electronic     649
dance          626
hiphop         332
alternative    234
classical      219
rusrap         184
jazz           179
world          179
ruspop         170
metal          135
soundtrack     123
unknown        120
folk           104
Name: track, dtype: int64

**Conclusão**

Tendo comparado os 15 gêneros mais ouvidos na segunda-feira de manhã, nós podemos tirar as seguintes conclusões:

1. Usuários de Springfield e Shelbyville escutam músicas semelhantes. Os cinco gêneros mais ouvidos são os mesmos, apenas rock e música eletrônica trocaram de lugar.

2. Em Springfield, a quantidade de valores ausentes acabaram por serem tantos que o valor 'unknown' veio em 10º. Isso significa que valores ausentes tiveram uma considerável porção dos dados, que pode ser a base para questionamentos a confiabilidade das conclusões.

Para sexta-feira à tarde, a situação é parecida. Gêneros individuais variam um pouco, mas no todo, os 15 gêneros mais ouvidos são parecidos para as duas cidades.

Assim, a segunda hipótese foi parcialmente provada:
* Usuários escutam gêneros musicais parecidos no começo e no fim da semana.
* Não há grande diferença entre Springfield e Shelbyville. Nas duas cidades, pop é o gênero mais popular.

No entanto, o número de valores ausentes faz esse resultado ser questionável. Em Springfield, há tantos que eles afetaram o top 15. Se não nos faltassem esses valores, as coisas poderiam ser diferentes.

[Voltar ao Índice](#back)

### Hipótese 3: preferências em Springfield e Shelbyville <a id='genre'></a>

Hipótese: Shelbyville ama rap. Cidadãos de Springfield curtem mais pop.

Analisaremos esta hipótese abaixo:

In [35]:
# agrupando a tabela spr_general pela coluna 'genre' e usando count()
genre_spr_prefer = spr_general.groupby('genre').count()
spr_genres = genre_spr_prefer.sort_values(by = 'track',ascending = False)['track'] # ordem decrescente

Exibindo as primeiras 10 linhas de spr_genres:

In [36]:
# exibindo as primeiras 10 linhas de spr_genres
spr_genres.head(10)

genre
pop            5892
dance          4435
rock           3965
electronic     3786
hiphop         2096
classical      1616
world          1432
alternative    1379
ruspop         1372
rusrap         1161
Name: track, dtype: int64

In [37]:
# agrupando a tabela shel_general pela coluna 'genre'e usando count()
genre_shel_prefer = shel_general.groupby('genre').count()
shel_genres = genre_shel_prefer.sort_values(by= 'track',ascending = False)['track'] # ordem decrescente

Exibindo as 10 primeiras linhas de shel_genres:

In [38]:
# exibindo as 10 primeiras linhas de shel_genres
shel_genres.head(10)

genre
pop            2431
dance          1932
rock           1879
electronic     1736
hiphop          960
alternative     649
classical       646
rusrap          564
ruspop          538
world           515
Name: track, dtype: int64

**Conclusão**

A hipótese foi parcialmente provada:
* Música pop é o gênero mais em Springfield, como esperado.
* Entretanto, música pop acabou por ser igualmente popular em Springfield e Shelbyville, e rap não estava no top 5 em nenhuma cidade.


[Voltar ao Índice](#back)

# Conclusões <a id='end'></a>

Nós testamos as três hipóteses seguintes:

1. A atividade do usuário varia dependendo do dia da semana e da cidade. 
2. Nas segundas-feiras de manhã, os habitantes de Springfield e Shelbyville escutam diferentes gêneros. Isso também é verdadeiro para noites de sexta-feira. 
3. Ouvintes de Springfield e Shelbyville têm preferências diferentes. Tanto em Springfield como Shellbyville, eles preferem pop.

Depois de analisar os dados, nós concluímos:

1. A atividade do usuário em Springfield e Shelbyville depende do dia da semana, embora as cidades variam de formas diferentes. 

A primeira hipótese é totalmente aceita.

2. As preferências musicais não variam significativamente ao decorrer da semana tanto em Springfield como em Shelbyville. Nós podemos ver pequenas diferenças na ordem nas segundas-feiras, mas:
* Em Springfield e Shelbyville, as pessoas escutam mais música pop.

Então nós podemos aceitar essa hipótese. Nós devemos também ter em mente que o resultado pode ter sido diferente se não fosse pelos valores ausentes.

3. Acontece que preferências musicais dos usuários de Springfield e Shelbyville são bastante parecidas.

A terceira hipótese foi rejeitada. Se há alguma diferença nas preferências, ela não pode ser vista nesses dados.

### Observação
Em projetos reais, pesquisas envolvendo teste estatístico de hipóteses, que é mais preciso e mais quantitativo. Também não podemos sempre tirar conclusões sobre uma cidade inteira com base em dados de apenas uma fonte.

[Voltar ao Índice](#back)