# Se liga na música

# Conteúdo <a id='back'></a>

* [Introdução](#intro)
* [Etapa 1. Visão geral dos dados](#data_review)
    * [Conclusões](#data_review_conclusions)
* [Etapa 2. Pré-processamento de dados](#data_preprocessing)
    * [2.1 Estilo do cabeçalho](#header_style)
    * [2.2 Valores ausentes](#missing_values)
    * [2.3 Duplicados](#duplicates)
    * [2.4 Conclusões](#data_preprocessing_conclusions)
* [Etapa 3. Teste da hipótese](#hypothesis)
    * [3.1 Hipótese 1: atividade dos usuários nas duas cidades](#activity)
* [Conclusões](#end)

## Introdução <a id='intro'></a>
O trabalho de um analista é analisar dados para obter percepções valiosas dos dados e tomar decisões fundamentadas neles. Esse processo consiste em várias etapas, como visão geral dos dados, pré-processamento dos dados e testes de hipóteses.

Sempre que fazemos uma pesquisa, precisamos formular uma hipótese que depois poderemos testar. Às vezes nós aceitamos essas hipóteses; outras vezes, nós as rejeitamos. Para fazer as escolhas certas, um negócio deve ser capaz de entender se está fazendo as suposições certas ou não.

Neste projeto, você vai comparar as preferências musicais dos habitantes de Springfild e Shelbyville. Você vai estudar os dados de um serviço de streaming de música online para testar a hipótese apresentada abaixo e comparar o comportamento dos usuários dessas duas cidades.

### Objetivo:
Teste a hipótese:
1. A atividade dos usuários é diferente dependendo do dia da semana e da cidade.


### Etapas
Os dados sobre o comportamento do usuário são armazenados no arquivo `/datasets/music_project_en.csv`. Não há informações sobre a qualidade dos dados, então será necessário examiná-los antes de testar a hipótese.

Primeiro, você avaliará a qualidade dos dados e verá se seus problemas são significativos. Depois, durante o pré-processamento dos dados, você tentará tratar dos problemas mais críticos.

O seu projeto consistirá em três etapas:
 1. Visão geral dos dados
 2. Pré-processamento de dados
 3. Teste da hipótese








[Voltar ao Índice](#back)

## Etapa 1. Visão geral dos dados <a id='data_review'></a>

Abra os dados e examine-os.

In [1]:
# importando pandas

import pandas as pd


Leia o arquivo `music_project_en.csv` da pasta `/datasets/` e salve-o na variável `df`:

In [2]:
# lendo o arquivo e armazenando em df

df = pd.read_csv('/datasets/music_project_en.csv')


In [3]:
# obtenha as 10 primeiras 10 linhas da tabela df

df.head(10)


Unnamed: 0,userID,Track,artist,genre,City,time,Day
0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Shelbyville,20:28:33,Wednesday
1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Springfield,14:07:09,Friday
2,20EC38,Funiculì funiculà,Mario Lanza,pop,Shelbyville,20:58:07,Wednesday
3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Shelbyville,08:37:09,Monday
4,E2DC1FAE,Soul People,Space Echo,dance,Springfield,08:34:34,Monday
5,842029A1,Chains,Obladaet,rusrap,Shelbyville,13:09:41,Friday
6,4CB90AA5,True,Roman Messer,dance,Springfield,13:00:07,Wednesday
7,F03E1C1F,Feeling This Way,Polina Griffith,dance,Springfield,20:47:49,Wednesday
8,8FA1D3BE,L’estate,Julia Dalia,ruspop,Springfield,09:17:40,Friday
9,E772D5C0,Pessimist,,dance,Shelbyville,21:20:49,Wednesday


In [4]:
# obtendo informações gerais sobre os nossos dados

df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65079 entries, 0 to 65078
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0     userID  65079 non-null  object
 1   Track     63736 non-null  object
 2   artist    57512 non-null  object
 3   genre     63881 non-null  object
 4     City    65079 non-null  object
 5   time      65079 non-null  object
 6   Day       65079 non-null  object
dtypes: object(7)
memory usage: 3.5+ MB


In [5]:
# Quantas linhas duplicadas há no DataFrame

df.duplicated().sum()

3826

In [6]:
# Quantidade de valores nulos em cada coluna

df.isna().sum()

  userID       0
Track       1343
artist      7567
genre       1198
  City         0
time           0
Day            0
dtype: int64

Aqui estão as nossas observações sobre a tabela. Ela contém sete colunas. Elas armazenam o mesmo tipo de dado: `object`.

De acordo com a documentação:
- `' userID'` — identificação do usuário
- `'Track'` — título da música
- `'artist'` — nome do artista
- `'genre'` — gênero da música
- `'City'` — cidade do usuário
- `'time'` — o tempo exato que a música foi reproduzida
- `'Day'` — dia da semana

Podemos ver três problemas de estilo nos cabeçalhos da tabela:
1. Alguns cabeçalhos são escritos em letras maiúsculas, outros estão em minúsculas.
2. Alguns cabeçalhos contêm espaços.
3. `Detecte o problema e o descreva aqui`.

O campo ' userID' possui um espaço no início que pode levar a erros posteriormente, fora que possui letras maiúsculas e minúsculas.
Os outros campos sofrem de casos similares, onde alguns possuem letras maiúsculas e minúsculas e outros sendo apenas compostos de letras minúsculas.

(Era isso que precisava descrever do problema?)

### Escreva suas observações. Aqui estão algumas perguntas que podem ajudar: <a id='data_review_conclusions'></a>

`1.   Que tipo de dados temos nas linhas? E como podemos entender as colunas?`

Todas as colunas possuem dados do tipo categórico (objeto). Sendo possível interpretar cada campo como:

' userID' — identificação do usuário
'Track' — título da música
'artist' — nome do artista
'genre' — gênero da música
'City' — cidade do usuário
'time' — o horário do dia em que a música foi reproduzida
'Day' — dia da semana

`2.   Esses dados são suficientes para responder à nossa hipótese ou precisamos de mais dados?`
Até acredito que seja possível responder à hipótese proposta, porém a resposta será bastante superficial e com pouco embasamento.

Um dos principais problemas que identifico está no campo 'Day', que informa apenas o nome do dia da semana (como "Wednesday"), sem fornecer a data completa da reprodução. Isso limita consideravelmente a análise, pois a partir da data exata seria possível obter informações valiosas, como estação do ano, feriados e eventos sazonais — todos com potencial de influenciar diretamente o comportamento musical dos usuários.

Por exemplo, é razoável supor que em datas comemorativas como Festas Juninas, Carnaval, Natal e outras ocasiões regionais ou nacionais, os estilos musicais mais ouvidos tendem a mudar. Ignorar esse fator pode levar a interpretações imprecisas ou enviesadas dos padrões de atividade.

Além disso, o DataFrame possui um campo que registra o horário exato em que a música foi reproduzida (time). Esse dado também deveria ser considerado, já que o comportamento do usuário pode variar bastante ao longo do dia — não é o mesmo ouvir música às 9h da manhã ou às 11h da noite.

`3.   Você notou algum problema nos dados, como valores ausentes, duplicados ou tipos de dados errados`

Sim.

Pude ver que ao utilizar do método `df.isna().sum()` a existência de valores nulos nas colunas 'Track', 'artist' e 'genre':

  userID       0
Track       1343
artist      7567
genre       1198
City           0
time           0
Day            0


Quanto a linhas duplicadas utilizando de `df.duplicated().sum()`:

3826

Porém, quanto a tipagem dos dados, acredito que estão dentre os conformes, com exceção dos dados da coluna 'time', que apesar de não conhecer muito o fato de estar como string não deve ser o mais indicado, pois quando penso em como utilizar seus valores deve haver um tipo melhor.


[Voltar ao Índice](#back)

## Etapa 2. Pré-processamento de dados <a id='data_preprocessing'></a>

O objetivo aqui é preparar os dados para a análise.
O primeiro passo é resolver todos os problemas com o cabeçalho. E então podemos passar para os valores ausentes e duplicados. Vamos começar.

Corrija a formatação nos cabeçalhos da tabela.


### Estilo do cabeçalho <a id='header_style'></a>
Imprima os cabeçalhos da tabela (os nomes das colunas):

In [7]:
# imprima os nomes das colunas

print(df.columns)


Index(['  userID', 'Track', 'artist', 'genre', '  City  ', 'time', 'Day'], dtype='object')


Mude os cabeçalhos da tabela conforme as boas práticas de estilo:
* Todos os caracteres precisam estar com letras minúsculas
* Exclua espaços
* Se o nome tiver várias palavras, use snake_case

Anteriormente, você aprendeu sobre uma maneira automatizada de renomear colunas. Vamos usá-la agora. Use o ciclo for para percorrer os nomes das colunas e transformar todos os caracteres em letras minúsculas. Após fazer isso, imprima os cabeçalhos da tabela novamente:

In [8]:
# Percorrendo os cabeçalhos e convertendo tudo em minúsculos

novos_nomes = []

for col in df.columns:
    novos_nomes.append(col.lower())

df.columns = novos_nomes


Agora, usando a mesma abordagem, exclua os espaços no início e no final de cada nome de coluna e imprima os nomes das colunas novamente:

In [9]:
# Percorrendo os cabeçalhos e removendo os espaços

novos_nomes = []

for col in df.columns:
    novos_nomes.append(col.strip())

df.columns = novos_nomes

Precisamos aplicar a regra de sublinhado no lugar de espaço à coluna `userid`. Deveria ser `user_id`. Renomeie essa coluna e imprima os nomes de todas as colunas quando terminar.

In [10]:
# Renomeando a coluna "userid"

novo_nome = {'userid': 'user_id'}
df.rename(columns=novo_nome, inplace = True)

Verifique o resultado. Imprima os cabeçalhos novamente:

In [11]:
# verificando o resultado: a lista de cabeçalhos

print(df.columns)

Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')


[Voltar ao Índice](#back)

### Valores Ausentes <a id='missing_values'></a>
 Primeiro, encontre a quantidade de valores ausentes na tabela. Você precisa usar dois métodos em sequência para obter o número de valores ausentes.

In [12]:
# calculando o número de valores ausentes
df.isna().sum()

user_id       0
track      1343
artist     7567
genre      1198
city          0
time          0
day           0
dtype: int64

Nem todos os valores ausentes afetam a pesquisa. Por exemplo, os valores ausentes em `track` e `artist` não são críticos. Você pode simplesmente substituí-los por valores padrão, como a string `'unknown'`.

Mas valores ausentes em `'genre'` podem afetar a comparação de preferências musicais de Springfield e Shelbyville. Na vida real, seria útil descobrir as razões pelas quais os dados estão ausentes e tentar corrigi-los. Mas nós não temos essa possibilidade neste projeto. Então, você terá que:
* Preencha esses valores ausentes com um valor padrão
* Avalie em que medida os valores ausentes podem afetar sua análise

Substitua os valores ausentes nas colunas `'track'`, `'artist'` e `'genre'` pela string `'unknown'`. Como mostramos nas lições anteriores, a melhor maneira de fazer isso é criar uma lista para armazenar os nomes das colunas nas quais precisamos fazer a substituição. Em seguida, use essa lista e percorra as colunas nas quais a substituição seja necessária e faça a substituição.

In [13]:
# percorrendo os cabeçalhos e substituindo valores ausentes por 'unknown'

colunas = ['track', 'artist', 'genre']

df[colunas] = df[colunas].fillna('unknown')

Agora verifique o resultado para ter certeza de que o conjunto de dados não contenha valores ausentes após a substituição. Para fazer isso, conte os valores ausentes novamente.

In [14]:
# contando os valores ausentes
df.isna().sum()

user_id    0
track      0
artist     0
genre      0
city       0
time       0
day        0
dtype: int64

[Voltar ao Índice](#back)

### Duplicados <a id='duplicates'></a>
Encontre o número de duplicados explícitos na tabela. Lembre-se de que você precisa aplicar dois métodos em sequência para obter o número de duplicados explícitos.

In [15]:
# contando duplicados explícitos
df.duplicated().sum()

3826

Agora descarte todos os duplicados. Para fazer isso, chame o método que faz exatamente isso.

In [16]:
# removendo duplicados explícitos

df = df.drop_duplicates()


Agora vamos verificar se descartamos todos os duplicados. Conte duplicados explícitos mais uma vez para ter certeza de que você removeu todos eles:

In [17]:
# verificando duplicados novamente

df.duplicated().sum()

0

Agora queremos nos livrar dos duplicados implícitos na coluna `genre`. Por exemplo, o nome de um gênero pode ser escrito de maneiras diferentes. Alguns erros afetarão também o resultado.

Para fazer isso, vamos começar imprimindo uma lista de nomes de gênero únicos, ordenados em ordem alfabética: Para fazer isso:
* Extraia a coluna `genre` do DataFrame
* Chame o método que retornará todos os valores únicos na coluna extraída


In [18]:
# visualizando nomes de gêneros únicos
df['genre'].unique()

array(['rock', 'pop', 'folk', 'dance', 'rusrap', 'ruspop', 'world',
       'electronic', 'unknown', 'alternative', 'children', 'rnb', 'hip',
       'jazz', 'postrock', 'latin', 'classical', 'metal', 'reggae',
       'triphop', 'blues', 'instrumental', 'rusrock', 'dnb', 'türk',
       'post', 'country', 'psychedelic', 'conjazz', 'indie',
       'posthardcore', 'local', 'avantgarde', 'punk', 'videogame',
       'techno', 'house', 'christmas', 'melodic', 'caucasian',
       'reggaeton', 'soundtrack', 'singer', 'ska', 'salsa', 'ambient',
       'film', 'western', 'rap', 'beats', "hard'n'heavy", 'progmetal',
       'minimal', 'tropical', 'contemporary', 'new', 'soul', 'holiday',
       'german', 'jpop', 'spiritual', 'urban', 'gospel', 'nujazz',
       'folkmetal', 'trance', 'miscellaneous', 'anime', 'hardcore',
       'progressive', 'korean', 'numetal', 'vocal', 'estrada', 'tango',
       'loungeelectronic', 'classicmetal', 'dubstep', 'club', 'deep',
       'southern', 'black', 'folkrock', 

Olhe a lista e encontre duplicados implícitos do gênero `hiphop`. Esses podem ser nomes escritos incorretamente, ou nomes alternativos para o mesmo gênero.

Você verá os seguintes duplicados implícitos:
* `hip`
* `hop`
* `hip-hop`

Para se livrar deles, crie uma função `replace_wrong_genres()` com dois parâmetros:
* `wrong_genres=` — essa é uma lista que contém todos os valores que você precisa substituir
* `correct_genre=` — essa é uma string que você vai usar para a substituição

Como resultado, a função deve corrigir os nomes na coluna `'genre'` da tabela `df`, isto é, substituindo cada valor da lista `wrong_genres` por valores de `correct_genre`.

Dentro do corpo da função, use um ciclo `'for'` para percorrer a lista de gêneros errados, extrair a coluna `'genre'` e aplicar o método `replace` para fazer as correções.

In [19]:
# função para substituir duplicados implícitos

def replace_wrong_genres(data, coluna, wrong_names, correct_name):
    
    data[coluna].replace(wrong_names, correct_name, inplace=True)
    
    return data

Agora, chame a função `replace_wrong_genres()` e passe argumentos apropriados para que ela limpe duplicados implícitos (`hip`, `hop` e `hip-hop`) substituindo-os por `hiphop`:

In [20]:
# removendo duplicados implícitos

wrong_names = ['hip', 'hop', 'hip-hop']
correct_name = 'hiphop'

df = replace_wrong_genres(df, 'genre', wrong_names, correct_name)


Certifique-se que os nomes duplicados foram removidos. Imprima a lista de valores únicos da coluna `'genre'` mais uma vez:

In [21]:
# verificando valores duplicados
df['genre'].unique()

array(['rock', 'pop', 'folk', 'dance', 'rusrap', 'ruspop', 'world',
       'electronic', 'unknown', 'alternative', 'children', 'rnb',
       'hiphop', 'jazz', 'postrock', 'latin', 'classical', 'metal',
       'reggae', 'triphop', 'blues', 'instrumental', 'rusrock', 'dnb',
       'türk', 'post', 'country', 'psychedelic', 'conjazz', 'indie',
       'posthardcore', 'local', 'avantgarde', 'punk', 'videogame',
       'techno', 'house', 'christmas', 'melodic', 'caucasian',
       'reggaeton', 'soundtrack', 'singer', 'ska', 'salsa', 'ambient',
       'film', 'western', 'rap', 'beats', "hard'n'heavy", 'progmetal',
       'minimal', 'tropical', 'contemporary', 'new', 'soul', 'holiday',
       'german', 'jpop', 'spiritual', 'urban', 'gospel', 'nujazz',
       'folkmetal', 'trance', 'miscellaneous', 'anime', 'hardcore',
       'progressive', 'korean', 'numetal', 'vocal', 'estrada', 'tango',
       'loungeelectronic', 'classicmetal', 'dubstep', 'club', 'deep',
       'southern', 'black', 'folkrock

[Voltar ao Índice](#back)

### Suas observações <a id='data_preprocessing_conclusions'></a>

` Descreva brevemente o que você reparou ao analisar duplicados, bem como a abordagem que usou para eliminá-los e os resultados que alcançou.`

Ao analisar os dados, percebi que, em colunas com muitos valores únicos ou nomes semelhantes, é comum existirem duplicatas implícitas — como variações de grafia ou capitalização ("hip-hop", "HipHop", "hip") ou até mesmo entradas incorretas. Esses registros muitas vezes passam despercebidos em uma análise superficial. Acredito que há casos também onde o analista desconhece a forma correta de escrita, essas incongruências passam despercebidas nos olhos de quem não tem domínio do assunto.

Para eliminar essas inconsistências, utilizei uma abordagem manual, substituindo valores errados por meio de uma função que mapeia os nomes incorretos para o valor correto. Apesar de funcional, essa abordagem tem limitações: exige conhecimento prévio das variações existentes, além de ser pouco escalável e dependente de intervenção manual, o que não é atrativo.

O resultado foi que consegui através da função padronizar os registros incorretos, para uma escrita e formato único, do gênero de música 'hiphop' dentro da coluna 'genre'.

[Voltar ao Índice](#back)

## Etapa 3. Teste da hipótese <a id='hypothesis'></a>

### Hipótese: comparação do comportamento dos usuários nas duas cidades <a id='activity'></a>

A hipótese afirma que existem diferenças no consumo de música pelos usuários em Springfield e em Shelbyville. Para testar a hipótese, use os dados dos três dias da semana: segunda-feira (Monday), quarta-feira (Wednesday) e sexta-feira (Friday).

* Agrupe os usuários por cidade.
* Compare o número de músicas tocadas por cada grupo na segunda, quarta e sexta.


Execute cada cálculo separadamente.

O primeiro passo é avaliar a atividade dos usuários em cada cidade. Não se esqueça das etapas "divisão-aplicação-combinação" sobre as quais falamos anteriormente na lição. Agora seu objetivo é agrupar os dados por cidade, aplicar o método de contagem apropriado durante a etapa de aplicação e então encontrar o número de músicas tocadas por cada grupo, especificando a coluna para a qual você quer obter a contagem.

Veja um exemplo de como o resultado final deve ser:
`df.groupby(by='....')['column'].method()` Execute cada cálculo separadamente.

Para avaliar a atividade dos usuários em cada cidade, agrupe os dados por cidade e encontre o número de músicas reproduzidas em cada grupo.



In [22]:
df_springfield = df[df['city'] == 'Springfield'] # Usuários de Springfield
df_shelbyville = df[df['city'] == 'Shelbyville'] # Usuários de Shelbyville

In [23]:
# Contando as músicas tocadas em cada cidade

print('Qtd de músicas tocadas em Springfield: ', df_springfield['track'].count())
print('Qtd de músicas tocadas em Shelbyville: ', df_shelbyville['track'].count())


Qtd de músicas tocadas em Springfield:  42741
Qtd de músicas tocadas em Shelbyville:  18512


`Comente sobre suas observações aqui`

Agrupei os grupos de usuários de cada cidade em uma nova variável cada.

Agora vamos agrupar os dados por dia da semana e encontrar a quantidade de músicas tocadas na segunda, quarta e sexta-feira. Use a mesma abordagem que antes, mas agora precisamos agrupar os dados de uma forma diferente.


In [24]:
# Calculando as músicas escutadas em cada um desses três dias


def qtd_musica_dia (data, coluna_dia, coluna_musica, days):

    qtd_musica = [] # lista para armazernar a qtd de músicas em cada dia da semana

    for day in days: # 3 dias = monday, wednesday e friday
        
       qtd_musica.append( data[data[coluna_dia] == day][coluna_musica].count())
    
    return qtd_musica
    
# lista dos dias pra analisar
days = ['Monday', 'Wednesday', 'Friday']

qtd_springfield = qtd_musica_dia(df_springfield, 'day', 'track', days)
qtd_shelbyville = qtd_musica_dia(df_shelbyville, 'day', 'track', days)


for i, day in enumerate(days):
    print(f"{day} - Springfield: {qtd_springfield[i]} / Shelbyville: {qtd_shelbyville[i]}")

Monday - Springfield: 15740 / Shelbyville: 5614
Wednesday - Springfield: 11056 / Shelbyville: 7003
Friday - Springfield: 15945 / Shelbyville: 5895


`Comente sobre suas observações aqui`

Antes eu tinha feito 6 variações do print `print('Qtd de músicas tocadas em Springfield na segunda: ', df_springfield[df_springfield['day'] == 'Monday']['track'].count())`, mas daí achei que ficava menos poluído utilizar uma função similar como eu tratei os dados incongruentes de 'hiphop' da coluna 'genre'.

Fiz uma função que recebe como parâmetro um DataFrame, a coluna do dia, a coluna das músicas e uma lista com os dias que quero obter as qtd de músicas.
Retorno uma lista com as qtd de cada dia e salvo em 2 variáveis referentes a cada uma das duas cidades e depois imprimo esses valores.

Você acabou de aprender como contar entradas agrupando-as por cidade ou por dia. E agora você precisa escrever uma função que possa contar entradas simultaneamente com base em ambos os critérios.

Crie a função `number_tracks()` para calcular o número de músicas tocadas em um determinado dia **e** em uma determinada cidade. A função deve aceitar dois parâmetros:

- `day`: um dia da semana pelo qual precisamos filtrar os dados. Por exemplo, `'Monday'`.
- `city`: uma cidade pela qual precisamos filtrar os dados. Por exemplo, `'Springfield'`.

Dentro da função, você vai aplicar uma filtragem consecutiva com indexação lógica.

Primeiro, filtre os dados por dia e então filtre a tabela resultante por cidade.

Depois de filtrar os dados usando os dois critérios, conte o número de valores na coluna 'user_id' da tabela resultante. O resultado da contagem representará o número de entradas que você quer encontrar. Armazene o resultado em uma nova variável e imprima-o.

In [25]:
# Declare a função number_tracks() com dois parâmetros: day= e city=.

def number_tracks(day, city):
    
    # Filtra pelo dia
    filtrado_por_dia = df[df['day'] == day]

    # Filtra pela cidade
    filtrado_por_cidade = filtrado_por_dia[filtrado_por_dia['city'] == city]

    # Conta quantos registros de 'user_id' existem após os dois filtros
    total = filtrado_por_cidade['user_id'].count()

    # Retorna o resultado
    return total

Chame a função `number_tracks()` seis vezes, mudando os valores dos parâmetros, para que você possa recuperar os dados de ambas as cidades para cada um dos três dias.

In [26]:
# a quantidade de músicas tocadas em Springfield na segunda-feira
total = number_tracks('Monday', 'Springfield')

print(total)

15740


In [27]:
# a quantidade de músicas tocadas em Shelbyville na segunda-feira
total = number_tracks('Monday', 'Shelbyville')

print(total)

5614


In [28]:
# a quantidade de músicas tocadas em Springfield na quarta-feira
total = number_tracks('Wednesday', 'Springfield')

print(total)

11056


In [29]:
# a quantidade de músicas tocadas em Shelbyville na quarta-feira
total = number_tracks('Wednesday', 'Shelbyville')

print(total)

7003


In [30]:
# a quantidade de músicas tocadas em Springfield na sexta-feira
total = number_tracks('Friday', 'Springfield')

print(total)

15945


In [31]:
# a quantidade de músicas tocadas em Shelbyville na sexta-feira
total = number_tracks('Friday', 'Shelbyville')

print(total)

5895


**Conclusões**

`Comente sobre se a terceira hipótese está correta ou deve ser rejeitada. Explique seu raciocínio.`

Como eu disse anteriormente, é muito difícil obter um resultado bom com os dados atuais, há dados que poderiam ser adicionados que provavelmente proporcionariam uma resposta mais precisa. Portanto a hipótese em seu estado atual eu acredito que deveria ser rejeitada.

[Voltar ao Índice](#back)

# Conclusões <a id='end'></a>

`Resuma suas conclusões sobre a hipótese aqui`

Apesar de os dados mostrarem diferenças numéricas na quantidade de faixas tocadas entre Springfield e Shelbyville em determinados dias da semana, aceitar a hipótese com base apenas nisso seria precipitado. O DataFrame trata todas as segundas, quartas e sextas como equivalentes, sem considerar variações entre semanas, meses ou eventos sazonais que poderiam influenciar o comportamento dos usuários. Além disso, não há nenhuma normalização pelo tamanho da população ou número de usuários ativos em cada cidade, o que torna a comparação arbitrária. Ou seja, o fato de uma cidade ter mais reproduções em um dia não necessariamente indica um padrão de comportamento distinto — pode ser simplesmente reflexo de uma base de usuários maior. Por isso, a hipótese deve ser rejeitada ou, no mínimo, considerada inconclusiva com os dados atuais.

Simplificando, devo rejeitar essa hipótese, pois os resultados providos com o DataFrame atual é fraco.

[Voltar ao Índice](#back)