# Se liga na música

# Conteúdo <a id='back'></a>

* [Introdução](#intro)
* [Etapa 1. Visão geral dos dados](#data_review)
    * [Conclusões](#data_review_conclusions)
* [Etapa 2. Pré-processamento de dados](#data_preprocessing)
    * [2.1 Estilo do cabeçalho](#header_style)
    * [2.2 Valores ausentes](#missing_values)
    * [2.3 Duplicados](#duplicates)
    * [2.4 Conclusões](#data_preprocessing_conclusions)
* [Etapa 3. Teste das hipóteses](#hypotheses)
    * [3.1 Hipótese 1: atividade dos usuários nas duas cidades](#activity)
    * [3.2 Hipótese 2: preferências musicais na segunda e sexta-feira](#week)
    * [3.3 Hipótese 3: preferências de gênero em Springfield e Shelbyville](#genre)
* [Conclusões](#end)

## Introdução <a id='intro'></a>
O trabalho de um analista é analisar dados para obter percepções valiosas dos dados e tomar decisões fundamentadas neles. Esse processo consiste em várias etapas: visão geral de dados, pré-processamento de dados e testes de hipóteses.

Sempre que fazemos uma pesquisa, precisamos formular uma hipótese que depois poderemos testar. Às vezes nós aceitamos essas hipóteses; outras vezes, nós as rejeitamos. Para tomar as decisões certas, um negócio deve ser capaz de entender se está fazendo as suposições certas ou não.

Neste projeto, você vai comparar as preferências musicais dos habitantes de Springfild e Shelbyville. Você estudará os dados de um serviço de streaming de música online para testar as hipóteses apresentadas abaixo e comparar o comportamento dos usuários para essas duas cidades.

### Objetivo:
Teste as três hipóteses:
1. A atividade do usuário varia dependendo do dia da semana e da cidade.
2. Nas segundas-feiras de manhã, os habitantes de Springfield e Shelbyville escutam diferentes gêneros. Isso também é verdadeiro para noites de sexta-feira.
3. Ouvintes de Springfield e Shelbyville têm preferências diferentes. Em Springfield, as pessoas preferem pop, enquanto Shelbyville tem mais fãs de rap.

### Etapas
Os dados sobre o comportamento dos usuários estão armazenados no arquivo `/datasets/music_project_en.csv`. Não há informação sobre a qualidade dos dados, então você precisará examiná-los antes de testar a hipótese.

Primeiro, você avaliará a qualidade dos dados e verá se seus problemas são significativos. Depois, durante o pré-processamento dos dados, você tentará tratar dos problemas mais críticos.

O seu projeto consiste em três etapas:
 1. Visão geral dos dados
 2. Pré-processamento de dados
 3. Teste das hipóteses


### Desafio

Neste projeto, preparamos um pequeno desafio para você. Incluímos uma nova estrutura de dados: timestamps. Timestamps (marcas temporais) são comumente usadas e merecem atenção especial. Mais adiante no programa, você aprenderá muito sobre elas. Mas por enquanto, vamos tratá-las como strings simples. Precisamos de marcas temporais neste projeto para testar uma das nossas hipóteses. Não se preocupe, nós te ajudaremos. Seu nível atual de conhecimento será suficiente para lidar com isso.

Por exemplo, digamos que temos duas marcas temporais: `dt1 = "12:00:00"` and `dt2 = "06:00:00"`. Queremos comparar essas duas marcas temporais e ver qual delas é mais tarde.

Podemos compará-las usando os operadores padrão de comparação (`<`, `>`, `<=`, `>=`, `==`, `!=`). Execute a célula de código abaixo para comparar as duas marcas temporais:


In [1]:
# Compare the datetime objects

dt1 = "12:00:00"
dt2 = "06:00:00"

if dt1 < dt2:
    print("Timestamp 2 is later")
else:
    print("Timestamp 1 is later")

Timestamp 1 is later


[Back to Contents](#back)

## Etapa 1. Visão geral dos dados <a id='data_review'></a>

Abra os dados e examine-os.

Você precisará da `pandas`, então, importe-a.

In [2]:
# importando pandas
import pandas as pd

Leia o arquivo `music_project_en.csv` da pasta `/datasets/` e armazene-o na variável `df`:

In [3]:
# lendo o arquivo e armazenando-o em df
df = pd.read_csv('/datasets/music_project_en.csv')

Imprima as primeiras 10 linhas da tabela:

In [4]:
# obtendo as primeiras 10 linhas da tabela df
df.head(10)

Unnamed: 0,userID,Track,artist,genre,City,time,Day
0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Shelbyville,20:28:33,Wednesday
1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Springfield,14:07:09,Friday
2,20EC38,Funiculì funiculà,Mario Lanza,pop,Shelbyville,20:58:07,Wednesday
3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Shelbyville,08:37:09,Monday
4,E2DC1FAE,Soul People,Space Echo,dance,Springfield,08:34:34,Monday
5,842029A1,Chains,Obladaet,rusrap,Shelbyville,13:09:41,Friday
6,4CB90AA5,True,Roman Messer,dance,Springfield,13:00:07,Wednesday
7,F03E1C1F,Feeling This Way,Polina Griffith,dance,Springfield,20:47:49,Wednesday
8,8FA1D3BE,L’estate,Julia Dalia,ruspop,Springfield,09:17:40,Friday
9,E772D5C0,Pessimist,,dance,Shelbyville,21:20:49,Wednesday


Obtenha a informação geral sobre a tabela usando um comando:

In [5]:
# obter informação geral sobre os dados em df
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65079 entries, 0 to 65078
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0     userID  65079 non-null  object
 1   Track     63736 non-null  object
 2   artist    57512 non-null  object
 3   genre     63881 non-null  object
 4     City    65079 non-null  object
 5   time      65079 non-null  object
 6   Day       65079 non-null  object
dtypes: object(7)
memory usage: 3.5+ MB


Aqui estão as nossas observações sobre a tabela. Ela contém sete colunas. Elas armazenam o mesmo tipo de dados: `object`.

De acordo com a documentação:
- `'userID'` — identificação do usuário
- `'Track'` — título da música
- `'artist'` — nome do artista
- `'genre'` — gênero da música
- `'City'` — cidade do usuário
- `'time'` — tempo exato que a música foi tocada
- `'Day'` — dia da semana

Podemos ver três problemas de estilo nos cabeçalhos da tabela:
1. Alguns cabeçalhos são escritos em letras maiúsculas, outros estão em minúsculas.
2. Alguns cabeçalhos contêm espaços.
3. podemos usar snake case no nome da coluna user id.




### Suas observações <a id='data_review_conclusions'></a>

`Escreva aqui as suas observações:`

`1.   Que tipo de dados temos nas linhas? E como podemos entender as colunas?`
Cada linha representa uma reprodução de música, e dessa reprodução temos quem tocou a música, o nome da música, o artista, gênero, cidade onde a música foi tocada, a hora em que ela foi tocada e em que dia da semana ela foi tocada.

`2.   Esses dados são suficientes para responder às nossas três hipóteses ou precisamos de mais dados?`
Os dados são suficientes para responder às hipóteses

`3.   Você notou alguns problemas nos dados, como valores ausentes, duplicados ou tipos de dados errados?`
Por enquanto, da para saber que existem valores ausentes, mas ainda não da pra saber se existem dados duplicados. É possível trabalhar com os tipos de dados da tabela


[Voltar ao Índice](#back)

## Etapa 2. Pré-processamento de dados <a id='data_preprocessing'></a>

O objetivo aqui é preparar os dados para a análise.
O primeiro passo é resolver todos os problemas com o cabeçalho. E então podemos passar para os valores ausentes e duplicados. Vamos começar.

Corrija a formatação nos cabeçalhos da tabela.


### Estilo do cabeçalho <a id='header_style'></a>
Imprima os cabeçalhos da tabela:

In [6]:
# a lista de cabeçalhos para a tabela df
df.columns

Index(['  userID', 'Track', 'artist', 'genre', '  City  ', 'time', 'Day'], dtype='object')

Mude os cabeçalhos da tabela conforme as boas práticas de estilo:
* Todos os caracteres precisam estar com letras minúsculas
* Delete espaços
* Se o nome tiver várias palavras, use snake_case

Transforme todos os caracteres em minúsculos e imprima o cabeçalho da tabela novamente:

In [7]:
# Percorrendo os cabeçalhos e convertendo tudo em minúsculos
new_col_names = []
for col in df.columns:
    name_lowered = col.lower()
    new_col_namesb.append(name_lowered)
df.columns = new_col_names
df.columns

Index(['  userid', 'track', 'artist', 'genre', '  city  ', 'time', 'day'], dtype='object')

Agora remova os espaços no início e no final dos cabeçalhos e imprima-os:

In [8]:
# Percorrendo os cabeçalhos e removendo os espaços
new_col_names = []
for col in df.columns:
    name_striped = col.strip()
    new_col_names.append(name_striped)
df.columns = new_col_names
df.columns

Index(['userid', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')


<div class="alert alert-block alert-warning">
<b> Comentário do revisor: </b> <a class="tocSkip"></a>

Correto, mas devemos evitar loops desnecessários. Python é prático. Podemos fazer assim: df.columns.str.lower().strip(). Veja que podemos encadear comandos
</div>



Aplique snake_case ao cabeçalho userID e imprima o cabeçalho da tabela:

In [9]:
# Renomeando o cabeçalho "userid"
df = df.rename(columns={'userid':'user_id'})
df.columns

Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')

Verifique o resultado. Imprima os cabeçalhos novamente:

In [10]:
# verificando o resultado: a lista de cabeçalhos
df.columns

Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')

[Voltar ao Índice](#back)

### Valores ausentes <a id='missing_values'></a>
Primeiro, encontre a quantidade de valores ausentes na tabela. Para fazer isso, use dois métodos `pandas`:

In [11]:
# calculando o número de valores ausentes
df.isna().sum()

user_id       0
track      1343
artist     7567
genre      1198
city          0
time          0
day           0
dtype: int64

Nem todos os valores ausentes afetam a pesquisa. Por exemplo, os valores ausentes nas colunas `track` e `artist` não são críticos. Você pode simplesmente substituí-los por valores padrão, como, por exemplo, a string `'unknown'`.

Mas valores ausentes em `'genre'` podem afetar a comparação de preferências musicais em Springfield e Shelbyville. Na vida real, seria útil descobrir as razões pelas quais os dados estão ausentes e tentar corrigi-los. Mas nós não temos essa possibilidade neste projeto. Então, você terá que:
* Preencher esses valores ausentes com um valor padrão
* Avaliar em que medida os valores ausentes podem afetar a sua análise

Substituir os valores ausentes em `'track'`, `'artist'`, e `'genre'` pela string `'unknown'`. Para fazer isso, crie a lista `columns_to_replace`, percorra-a com um ciclo `for` e substitua os valores ausentes em cada coluna:

In [12]:
# percorrendo os cabeçalhos e substituindo valores ausentes por 'unknown'
columns_to_replace = ['track', 'artist', 'genre']
for col in columns_to_replace:
    df[col].fillna('unknown', inplace=True)


Certifique-se de que a tabela não contém mais valores ausentes. Conte os valores ausentes novamente.

In [13]:
# contando os valores ausentes
df.isna().sum()

user_id    0
track      0
artist     0
genre      0
city       0
time       0
day        0
dtype: int64

[Voltar ao Índice](#back)

### Valores duplicados <a id='duplicates'></a>
Encontre o número dos duplicados explícitos na tabela usando um comando:

In [14]:
# contando duplicados explícitos
df.duplicated().sum()

3826

Chame o método `pandas` para se livrar dos duplicados explícitos:

In [15]:
# removendo duplicados explícitos
df = df.drop_duplicates()

Conte os duplicados explícitos mais uma vez para se certificar de que você removeu todos eles:

In [16]:
# verificando duplicados
df.duplicated().sum()

0

Agora queremos nos livrar dos duplicados implícitos na coluna `genre`. Por exemplo, o nome de um gênero pode ser escrito de maneiras diferentes. Alguns erros afetarão também o resultado.

Para fazer isso, vamos começar imprimindo uma lista de nomes de gênero unívocos, ordenados em ordem alfabética: Para fazer isso:
* Obtenha a coluna pretendida do DataFrame
* Chame o método que retornará todos os valores unívocos da coluna
* Aplique um método de ordenação ao resultado


In [17]:
# visualizando nomes unívocos de gêneros
df['genre'].sort_values().unique()

array(['acid', 'acoustic', 'action', 'adult', 'africa', 'afrikaans',
       'alternative', 'ambient', 'americana', 'animated', 'anime',
       'arabesk', 'arabic', 'arena', 'argentinetango', 'art', 'audiobook',
       'avantgarde', 'axé', 'baile', 'balkan', 'beats', 'bigroom',
       'black', 'bluegrass', 'blues', 'bollywood', 'bossa', 'brazilian',
       'breakbeat', 'breaks', 'broadway', 'cantautori', 'cantopop',
       'canzone', 'caribbean', 'caucasian', 'celtic', 'chamber',
       'children', 'chill', 'chinese', 'choral', 'christian', 'christmas',
       'classical', 'classicmetal', 'club', 'colombian', 'comedy',
       'conjazz', 'contemporary', 'country', 'cuban', 'dance',
       'dancehall', 'dancepop', 'dark', 'death', 'deep', 'deutschrock',
       'deutschspr', 'dirty', 'disco', 'dnb', 'documentary', 'downbeat',
       'downtempo', 'drum', 'dub', 'dubstep', 'eastern', 'easy',
       'electronic', 'electropop', 'emo', 'entehno', 'epicmetal',
       'estrada', 'ethnic', 'eurofo

Olhe a lista e encontre duplicados implícitos do gênero `hiphop`. Esses podem ser nomes escritos incorretamente, ou nomes alternativos para o mesmo gênero.

Você verá os seguintes duplicados implícitos:
* `hip`
* `hop`
* `hip-hop`

Para se livrar deles, declare a função `replace_wrong_genres()` com dois parâmetros:
* `wrong_genres=` — a lista dos duplicados
* `correct_genre=` — a string com o valor correto

A função deve corrigir os nomes na coluna `'genre'` da tabela `df`, isto é, substituir cada valor da lista `wrong_genres` pelo valor de `correct_genre`. Use um ciclo `'for'` para percorrer a lista de gêneros errados e substituí-los pelo gênero correto na lista principal.

In [18]:
# função para substituir duplicados implícitos
def replace_wrong_genres(wrong_genres, correct_genre):
    for wrong_genre in wrong_genres:
        df['genre'] = df['genre'].replace(wrong_genre, correct_genre)

Chame `replace_wrong_genres()` e passe a ela argumentos para que possa eliminar os duplicados implícitos (`hip`, `hop` e `hip-hop`) e substituí-los por `hiphop`:

In [19]:
# removendo duplicados implícitos
wrong_values = ['hip', 'hop','hip-hop']
replace_wrong_genres(wrong_values,'hiphop')

Certifique-se que os nomes duplicados foram removidos. Imprima a lista de valores unívocos da coluna `'genre'` mais uma vez:

In [20]:
# verificando a existência de valores duplicados
df['genre'].sort_values().unique()

array(['acid', 'acoustic', 'action', 'adult', 'africa', 'afrikaans',
       'alternative', 'ambient', 'americana', 'animated', 'anime',
       'arabesk', 'arabic', 'arena', 'argentinetango', 'art', 'audiobook',
       'avantgarde', 'axé', 'baile', 'balkan', 'beats', 'bigroom',
       'black', 'bluegrass', 'blues', 'bollywood', 'bossa', 'brazilian',
       'breakbeat', 'breaks', 'broadway', 'cantautori', 'cantopop',
       'canzone', 'caribbean', 'caucasian', 'celtic', 'chamber',
       'children', 'chill', 'chinese', 'choral', 'christian', 'christmas',
       'classical', 'classicmetal', 'club', 'colombian', 'comedy',
       'conjazz', 'contemporary', 'country', 'cuban', 'dance',
       'dancehall', 'dancepop', 'dark', 'death', 'deep', 'deutschrock',
       'deutschspr', 'dirty', 'disco', 'dnb', 'documentary', 'downbeat',
       'downtempo', 'drum', 'dub', 'dubstep', 'eastern', 'easy',
       'electronic', 'electropop', 'emo', 'entehno', 'epicmetal',
       'estrada', 'ethnic', 'eurofo

[Voltar ao Índice](#back)

### Suas observações <a id='data_preprocessing_conclusions'></a>

`Descreva resumidamente o que observou ao analisar duplicados, como abordou as suas eliminações e que resultados alcançou.`

Havia alguns dados duplicados explicitamente, que foram rapidamente tratados, depois, ao analisar os valores únicos, percebi que o genero hiphop tinha estava informado de mais de uma forma diferente, ao harmonizar em uma só os dados ficaram prontos para testarmos as hipóteses.

[Voltar ao Índice](#back)

## Etapa 3. Testando hipóteses <a id='hypotheses'></a>

### Hipótese 1: comparando o comportamento dos usuários nas duas cidades <a id='activity'></a>

A primeira hipótese afirma que existem diferenças no consumo de música pelos usuários em Springfield e os em Shelbyville. Para testar a hipótese, use os dados dos três dias da semana: segunda-feira (Monday), quarta-feira (Wednesday) e sexta-feira (Friday).

* Agrupe os usuários por cidade.
* Compare o número de músicas tocadas por cada grupo na segunda, quarta e sexta.


Execute cada cálculo separadamente.

Para avaliar a actividade do utilizador em cada cidade, agrupe os dados por cidade e encontre o número de músicas tocadas em cada grupo.



In [21]:
# Contando as músicas tocadas em cada cidade
df.groupby('city').count()

Unnamed: 0_level_0,user_id,track,artist,genre,time,day
city,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Shelbyville,18512,18512,18512,18512,18512,18512
Springfield,42741,42741,42741,42741,42741,42741


A cidade de Springfield escuta mais músicas nos dias selecionados do que a cidade de Shelbyville

Agora agrupe os dados por dia da semana e encontre a quantidade de músicas tocadas na segunda, quarta e sexta-feira.


In [22]:
# Calculando as músicas tocadas em cada dia da semana
df.groupby('day').count()

Unnamed: 0_level_0,user_id,track,artist,genre,city,time
day,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Friday,21840,21840,21840,21840,21840,21840
Monday,21354,21354,21354,21354,21354,21354
Wednesday,18059,18059,18059,18059,18059,18059


`Comente aqui as suas observações`
As pessoas escutam mais música na sexta que nos outros dias, e quarta-feira é o dia em menos se escuta música

Você acabou de aprender como contar entradas agrupando-as por cidade ou por dia. E agora você precisa escrever uma função que possa contar entradas simultaneamente com base em ambos os critérios.

Crie a função `number_tracks()` para calcular o número de músicas tocadas em um determinado dia da semana **e** em cada cidade. A função deve aceitar dois parâmetros:

- `day`: um dia da semana para o qual precisamos filtrar os dados. Por exemplo, `'Monday'`.
- `city`: uma cidade para a qual filtramos os dados. Por exemplo, `'Springfield'`.

Dentro da função, você vai aplicar uma filtragem consecutiva com indexação lógica.

Primeiro, filtre os dados por dia e então filtre a tabela resultante por cidade.

Depois de filtrar os dados usando os dois critérios, conte o número de valores na coluna 'user_id' da tabela resultante. O resultado da contagem representará o número de entradas que você quer encontrar. Armazene o resultado em uma nova variável e imprima-o.

In [23]:
# <criando a função number_tracks()>
# Vamos declarar a função com dois parâmetros: day=, city=.
# Deixe a variável track_list armazenar as linha df onde
# o valor na coluna 'day' é igual ao parâmetro day= e ao mesmo tempo,
# o valor na coluna 'city' é igual ao parâmetro city= (aplique filtragem consecutiva
# com indexação lógica).
# Deixe a variável track_list_count armazenar o número de valores da coluna 'user_id' em track_list
# (igual ao número de linhas em track_list depois de filtrar duas vezes).
# Deixe a função retornar um número: o valor de track_list_count.

# A função conta músicas tocadas por uma certa cidade e dia.
# Primeiro retorne as linhas com o dia pretendido da tabela,
# depois filtre as linhas com a cidade pretendida a partir do resultado,
# em seguida, encontra o número de músicas na tabela filtrada,
# então retorne aquele número.
# Para o que ele retorna, envolva a função call em print().


# comece a escrever seu código aqui
def number_tracks(day, city):
    track_list = df[df['day'] == day]
    track_list = track_list[track_list['city'] == city]
    track_list_count = track_list['user_id'].count()
    return track_list_count

Chame a função `number_tracks()` seis vezes, mudando os valores dos parâmetros, para que você possa recuperar os dados de ambas as cidades para cada um dos três dias.

In [24]:
# a quantidade de músicas tocadas em Springfield na segunda-feira
number_tracks('Monday', 'Springfield')

15740

In [25]:
# a quantidade de músicas tocadas em Shelbyville na segunda-feira
number_tracks('Monday', 'Shelbyville')

5614

In [26]:
# a quantidade de músicas tocadas em Springfield na quarta-feira
number_tracks('Wednesday', 'Springfield')

11056

In [27]:
# a quantidade de músicas tocadas em Shelbyville na quarta-feira
number_tracks('Wednesday', 'Shelbyville')

7003

In [28]:
# a quantidade de músicas tocadas em Springfield na sexta-feira
number_tracks('Friday', 'Springfield')

15945

In [29]:
# a quantidade de músicas tocadas em Shelbyville na sexta-feira
number_tracks('Friday', 'Shelbyville')

5895

Use `pd.DataFrame` para criar uma tabela, onde
* Os cabeçalhos da tabela são: `['city', 'monday', 'wednesday', 'friday']`
* Os dados são o resultado que você recebe de `number_tracks()`

In [30]:
# tabela com resultados
header = ['city', 'monday', 'wednesday', 'friday']
cities = ['Springfield', 'Shelbyville']
days = ['Monday', 'Wednesday', 'Friday']
table = []
list = []
for city in cities:
    list.append(city)
    for day in days:
        list.append(number_tracks(day, city))
    table.append(list)
    list = []
results = pd.DataFrame(data=table,columns=header)
results

Unnamed: 0,city,monday,wednesday,friday
0,Springfield,15740,11056,15945
1,Shelbyville,5614,7003,5895


 **Conclusões**

`Comentar se a primeira hipótese está correta ou deve ser rejeitada. Explique o seu raciocínio.`

* A primeira hipótese afirma que existem diferenças no consumo de música pelos usuários em Springfield e os em Shelbyville, e isto pode ser comprovado pelo fato que os usuários de Springfield consumirem mais música na segunda e na sexta, enquanto os os usuários de Shlebyville tem maior consumo na quarta-feira.

[Voltar ao Índice](#back)

### Hipótese 2: música no início e no final da semana <a id='week'></a>

De acordo com a segunda hipótese, na segunda-feira de manhã e na sexta-feira à noite, os cidadãos de Springfield ouvem gêneros diferentes dos que os utilizadores de Shelbyville gostam.

Crie duas tabelas com os nomes fornecidos nos dois blocos de código abaixo:
* Para Springfield — `spr_general`
* Para Shelbyville — `shel_general`

In [31]:
# crie a tabela spr_general a partir das linhas df
# onde o valor na coluna 'city' é 'Springfield'
spr_general = df[df['city'] == 'Springfield']

In [32]:
# crie o shel_general a partir das linhas df
# onde o valor na coluna 'city' é 'Shelbyville'
shel_general = df[df['city'] == 'Shelbyville']

Escreva a função `genre_weekday()` com quatro parâmetros:
* Uma tabela para dados (`df`)
* O dia da semana (`day`)
* O primeiro timestamp, no formato 'hh:mm:ss' (`time1`)
* O último timestamp, no formato 'hh:mm:ss' (`time2`)

A função deve retornar os 15 gêneros mais populares em um dia específico dentro do período definido pelos dois timestamps, juntamente com suas respectivas contagens de reprodução.
Aplique a mesma lógica de filtragem consecutiva, mas use quatro filtros desta vez e, em seguida, faça uma nova coluna com as respectivas contagens de reprodução.
Ordene o resultado da contagem do maior para o menor e retorne-o.

In [33]:
# 1) Deixe a variável genre_df armazenar as linhas que satisfazem várias condições:
#    - o valor na coluna 'day' é igual ao valor do argumento day=
#    - o valor na coluna 'time' é maior do que o valor do argumento time1=
#    - o valor na coluna 'time' é menor do que o valor do argumento time2=
#    Use filtros consecutivos com indexação lógica.

# 2) Agrupe genre_df pela coluna 'genre', pegue uma das suas colunas,
#    e use o método size () para encontrar o número de entradas para cada um dos
#    representantes de gênero; armazene o objeto Series resultante na
#    variável genre_df_count

# 3) Organize genre_df_count em ordem decrescente de frequência e armazene o resultado
#    para a variável genre_df_sorted

# 4) Retorne um objeto Series com os primeiros 15 valores genre_df_sorted - os 15 maiores
#    generos populares (em um determinado dia, dentro de um certo intervalo de tempo)

# Escreva sua função aqui
def genre_weekday(df, day, time1, time2):

    # Filtragem consecutiva
    # Crie a variável genre_df que armazenará apenas as linhas df onde o dia é igual a day=
    genre_df = df[df['day'] == day]

    # Filtre genre_df novamente para armazenar apenas as linhas onde o tempo é menor que time2=
    genre_df = genre_df[genre_df['time'] < time2]

    # Filtre genre_df mais uma vez para armazenar apenas as linhas onde o tempo é maior que time1=
    genre_df = genre_df[genre_df['time'] > time1]

    # Agrupe o quadro de dados filtrado pela coluna com os nomes dos gêneros, selecione a coluna ' gênero,
    # e encontre o número de linhas para cada gênero com o método count()
    genre_df_count = genre_df.groupby('genre')['genre'].count()

    # Ordene o resultado em ordem decrescente (para que os gêneros mais populares venham primeiro no objeto Series)
    genre_df_sorted = genre_df_count.sort_values(ascending=False)

    # Retorna um objeto de série com os primeiros 15 valores de genre_df_sorted - os 15 gêneros mais populares (em um determinado dia, dentro de um determinado período de tempo)
    return genre_df_sorted[:15]

Compare os resultados da função 'genre_weekday ()' para Springfield e Shelbyville na segunda-feira de manhã (das 07:00 às 11:00) e na sexta-feira à noite (das 17:00 às 23:00). Utilizar o mesmo formato de hora de 24 horas que o conjunto de dados (p. ex. 05:00 = 17:00:00):

In [34]:
# chamando a função para segunda-feira de manha em Springfield (use spr_general em vez de df table)
genre_weekday(spr_general, 'Monday', '07:00:00', '11:00:00')

genre
pop            781
dance          549
electronic     480
rock           474
hiphop         286
ruspop         186
world          181
rusrap         175
alternative    164
unknown        161
classical      157
metal          120
jazz           100
folk            97
soundtrack      95
Name: genre, dtype: int64

In [35]:
# chamando a função para segunda-feira de manhã em Shelbyville (use shel_general em vez de df table)
genre_weekday(shel_general, 'Monday', '07:00:00', '11:00:00')

genre
pop            218
dance          182
rock           162
electronic     147
hiphop          80
ruspop          64
alternative     58
rusrap          55
jazz            44
classical       40
world           36
rap             32
soundtrack      31
rnb             27
metal           27
Name: genre, dtype: int64

In [36]:
# chamando a função para sexta-feira à noite em Springfield
genre_weekday(spr_general, 'Friday', '17:00:00', '23:00:00')

genre
pop            713
rock           517
dance          495
electronic     482
hiphop         273
world          208
ruspop         170
classical      163
alternative    163
rusrap         142
jazz           111
unknown        110
soundtrack     105
rnb             90
metal           88
Name: genre, dtype: int64

In [37]:
# chamando a função para sexta-feira à noite em Shelbyville
genre_weekday(shel_general, 'Friday', '17:00:00', '23:00:00')

genre
pop            256
rock           216
electronic     216
dance          210
hiphop          97
alternative     63
jazz            61
classical       60
rusrap          59
world           54
unknown         47
ruspop          47
soundtrack      40
metal           39
rap             36
Name: genre, dtype: int64

**Conclusão**

`Comentar se a segunda hipótese está correta ou deve ser rejeitada. Explique o seu raciocínio.`

* De acordo com a segunda hipótese, na segunda-feira de manhã e na sexta-feira à noite, os cidadãos de Springfield ouvem gêneros diferentes dos que os utilizadores de Shelbyville gostam. Essa hipótese deve ser rejeitada pois os 5 gêneros mais escutados em ambas as cidades são os mesmos, sendo pop em 1, hiphop em 5, e leve variações entre dance, rock e electronic, mas tocadas em quantidades próximas. Na sequência após os 5 gêneros mais tocados, há bastante similaridades mas em uma ordem um pouco mais diferente, porém poucos generos exclusivos para cada cidade, como exemplo rnb para Springfield na sexta à noite que não aparece em Shelbyville, e ao mesmo tempo rnb é exclusivo a Shelbyville na segunda de manhã.
* Portanto, apesar das diferenças, não é possível afirmar  que os cidadãos de Springfield gostam de gêneros diferentes dos cidadãos de SHelbyville

[Voltar ao Índice](#back)

### Hipótese 3: preferências de gênero em Springfield e Shelbyville <a id='genre'></a>

Hipótese: Shelbyville ama rap. Cidadãos de Springfield curtem mais pop.

Agrupe a tabela `spr_general` por gênero e encontre o número de músicas tocadas para cada gênero usando o método `count()`. Então organize o resultado em ordem decrescente e armazene-o na variável `spr_genres`.

In [38]:
# escreva uma linha de código que vai:
# 1. agrupar a tabela spr_general pela coluna 'genre',
# 2. contar os valores de 'genre' no agrupamento com count()
# 3. ordenar o objeto Series resultante em ordem decrescente e armazená-lo em spr_genres
spr_genres = spr_general.groupby('genre')['genre'].count().sort_values(ascending = False)

Imprima as primeiras 10 linhas de `spr_genres`:

In [39]:
# imprimindo as primeiras 10 linhas de spr_genres
spr_genres.head(10)

genre
pop            5892
dance          4435
rock           3965
electronic     3786
hiphop         2096
classical      1616
world          1432
alternative    1379
ruspop         1372
rusrap         1161
Name: genre, dtype: int64

Agora faça o mesmo com os dados de Shelbyville.

Agrupe a tabela `shel_general` por gênero e encontre o número de músicas tocadas para cada gênero. Depois organize o resultado em ordem decrescente e armazene-o na tabela `shel_genres`:


In [40]:
# escreva uma linha de código que vai:
# 1. agrupar a tabela spr_general pela coluna 'genre',
# 2. contar os valores de 'genre' no agrupamento com count()
# 3. ordenar o objeto Series resultante em ordem decrescente e armazená-lo em spr_genres
shel_genres = shel_general.groupby('genre')['genre'].count().sort_values(ascending = False)

exibindo as primeiras 10 linhas de `shel_genres`:

In [41]:
# imprimindo as primeiras 10 linhas de shel_genres
shel_genres.head(10)

genre
pop            2431
dance          1932
rock           1879
electronic     1736
hiphop          960
alternative     649
classical       646
rusrap          564
ruspop          538
world           515
Name: genre, dtype: int64

**Conclusão**

`Comentar se a terceira hipótese está correta ou deve ser rejeitada. Explique o seu raciocínio.`
* A terceira hipótese afirma que Shelbyville ama rap e os cidadãos de Springfield curtem mais pop. Porém, de acordo com os dados, ambas cidades gostam mais de pop, e o rap aparece apenas na 5 posição, com cerca de 1/3 dos valores de pop. Portanto a hipótese deve ser rejeitada

[Voltar ao Índice](#back)

# Conclusões <a id='end'></a>

`Resuma suas conclusões sobre cada hipótese aqui`
1. A atividade do usuário varia dependendo do dia da semana e da cidade.
* R: Essa hipótese está correta, a atividades em Springfield e em Shelbyville são diferentes.
2. Nas segundas-feiras de manhã, os habitantes de Springfield e Shelbyville escutam diferentes gêneros. Isso também é verdadeiro para noites de sexta-feira.
* R: Essa hipótese está errada, mas não totalmente, visto que há pequenas diferenças nos gêneros tocados em cada cidade.
3. Ouvintes de Springfield e Shelbyville têm preferências diferentes. Em Springfield, as pessoas preferem pop, enquanto Shelbyville tem mais fãs de rap.
* R: Está hipótese está errada, ambas as cidades gostam de pop.

### Importante
Em projetos de pesquisas reais, o teste estatístico de hipóteses é mais preciso e quantitativo. Observe também que conclusões sobre uma cidade inteira nem sempre podem ser tiradas a partir de dados de apenas uma fonte.

Você aprenderá mais sobre testes de hipóteses no sprint sobre a análise estatística de dados.

[Voltar ao Índice](#back)