# Yandex.Music

# Contents <a id='back'></a>

* [Introdução](#intro)
* [Etapa 1. Visão geral dos dados](#data_review)
    * [Conclusões](#data_review_conclusions)
* [Etapa 2. Pré-processamento de dados](#data_preprocessing)
    * [2.1 Estilo do cabeçalho](#header_style)
    * [2.2 Valores ausentes](#missing_values)
    * [2.3 Duplicatas](#duplicates)
    * [2.4 Conclusões](#data_preprocessing_conclusions)
* [Etapa 3. Testando as hipóteses](#hypotheses)
    * [3.1 Hipótese 1: comparando o comportamento dos usuários em duas cidades](#activity)
    * [3.2 Hipótese 2: música no começo e no fim da semana](#week)
    * [3.3 Hipótese 3: preferências em Springfield e Shelbyville](#genre)
* [Conclusões](#end)

## Introdução <a id='intro'></a>

Neste projeto, vamos comparar as preferências musicais dos habitantes de Springfild e Shelbyville. Estudando dados reais do Yandex.Music para testar a hipótese abaixo e comparar o comportamento do usuário para essas duas cidades.

### Objetivo: 
Teste três hipóteses:
1. A atividade dos usuários é diferente dependendo do dia da semana e da cidade. 
2. Durante as manhãs de segunda-feira, os moradores de Springfield e Shelbyville escutam diferentes gêneros. Isso também é verdadeiro para noites de sexta-feira. 
3. Os ouvintes de Springfield e Shelbyville têm diferentes preferências. Em Springfield, as pessoas preferem pop, enquanto Shelbyville tem mais fãs de rap.

### Etapas 
Os dados sobre o comportamento do usuário é armazenado no arquivo `/datasets/music_project_en.csv`. Não há informação sobre a qualidade dos dados.

Primeiro, vamos avaliar a qualidade dos dados e ver se seus problemas são significativos. 
 
O projeto consistirá em três etapas:
 1. Visão geral dos dados
 2. Pré-processamento de dados
 3. Testando as hipóteses
 
[Voltar ao Índice](#back)

## Etapa 1. Visão geral dos dados <a id='data_review'></a>

Abrir os dados em Yandex.Music e explorar

Importar `pandas`

In [1]:
# importando pandas
import pandas as pd

Ler o arquivo `music_project_en.csv` da pasta `/datasets/` e salvar na variável `df`:

In [2]:
# lendo o arquivo e armazenando em df
df = pd.read_csv('/datasets/music_project_en.csv')

Exiba as primeiras 10 linhas da tabela:

In [3]:
# obtenha as 10 primeiras 10 linhas da tabela df
df.head(10)

Unnamed: 0,userID,Track,artist,genre,City,time,Day
0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Shelbyville,20:28:33,Wednesday
1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Springfield,14:07:09,Friday
2,20EC38,Funiculì funiculà,Mario Lanza,pop,Shelbyville,20:58:07,Wednesday
3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Shelbyville,08:37:09,Monday
4,E2DC1FAE,Soul People,Space Echo,dance,Springfield,08:34:34,Monday
5,842029A1,Chains,Obladaet,rusrap,Shelbyville,13:09:41,Friday
6,4CB90AA5,True,Roman Messer,dance,Springfield,13:00:07,Wednesday
7,F03E1C1F,Feeling This Way,Polina Griffith,dance,Springfield,20:47:49,Wednesday
8,8FA1D3BE,L’estate,Julia Dalia,ruspop,Springfield,09:17:40,Friday
9,E772D5C0,Pessimist,,dance,Shelbyville,21:20:49,Wednesday


Obtendo as informações gerais sobre a tabela com um comando:

In [4]:
# obtendo informações gerais sobre os dados em df
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65079 entries, 0 to 65078
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0     userID  65079 non-null  object
 1   Track     63736 non-null  object
 2   artist    57512 non-null  object
 3   genre     63881 non-null  object
 4     City    65079 non-null  object
 5   time      65079 non-null  object
 6   Day       65079 non-null  object
dtypes: object(7)
memory usage: 3.5+ MB


É possível observar que temos o total de 65079 linhas de entrada.
As colunas que contem nulos são:
* Track
* artist
* genre

A tabela contém sete colunas. Elas armazenam o mesmo tipo de dado: 'objetos'.

De acordo com a documentação:
- `'userID'` — identificação do usuário
- `'Track'` — título da música
- `'artist'` — nome do artista
- `'genre'` — o gênero
- `'City'` — cidade do usuário
- `'time'` — tempo exato que a música foi tocada
- `'Day'` — dia da semana

Nós podemos ver três problemas com o estilo nos nomes das colunas:
1. Alguns nomes estão com letra maiúscula, alguns com letra minúscula.
2. Há espaços em alguns nomes.
3. `Detecte o problema por si só e o descreva aqui`.

A quantidade de valores das colunas é diferente. Isso significa que os dados contém valores ausentes.


# Conclusões <a id='data_review_conclusions'></a> 

Cada linha na tabela armazena dados sobre uma música que foi tocada. Algumas colunas descrevem a música por si só: seu título, artista e gênero. O restante contém informações sobre o usuário: a cidade de onde eles vêm, a quantidade de vezes que a música foi tocada. 

Está claro que os dados são suficientes para testar as hipóteses. Entretanto, há valores ausentes.

Para seguir adiante, precisamos pré-processar os dados.

[Voltar ao Índice](#back)

## Etapa 2. Pré-processar dados <a id='data_preprocessing'></a>
Corrija a formatação no cabeçalho da coluna e trabalhe com os valores ausentes. Depois, verifique se há duplicatas nos dados.

### Estilo do cabeçalho <a id='header_style'></a>
Exibir o cabeçalho da coluna:

In [5]:
# a lista dos nomes das colunas na tabela df
colunas = list(df.columns.values)
print(colunas)

['  userID', 'Track', 'artist', 'genre', '  City  ', 'time', 'Day']


Mudar os nomes das colunas de acordo com as regras da boa prática de estilo:
* Se o nome tiver várias palavras, use snake_case
* Todos os caracteres precisam estar com letras minúsculas
* Deletar espaços

In [6]:
# renomeando colunas
df.columns = df.columns.str.replace(' ', '')
df.columns= df.columns.str.strip().str.lower()
df.columns = df.columns.str.replace("userid", "user_id")

Verificar o resultado. Exibir os nomes das colunas mais uma vez:

In [7]:
# checando o resultado: a lista dos nomes das colunas
colunas = list(df.columns.values)
print(colunas)

['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day']


[Voltar ao Índice](#back)

### Valores ausentes <a id='missing_values'></a>
Primeiro, encontrar a quantidade de valores ausentes na tabela. Para fazer isso, usamos dois métodos pandas:

In [8]:
# calculando valores ausentes
test1 = df.info()
test2 = df.isna().sum()
print(test1)
print(test2)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65079 entries, 0 to 65078
Data columns (total 7 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   user_id  65079 non-null  object
 1   track    63736 non-null  object
 2   artist   57512 non-null  object
 3   genre    63881 non-null  object
 4   city     65079 non-null  object
 5   time     65079 non-null  object
 6   day      65079 non-null  object
dtypes: object(7)
memory usage: 3.5+ MB
None
user_id       0
track      1343
artist     7567
genre      1198
city          0
time          0
day           0
dtype: int64


Nem todos os valores ausentes afetam a pesquisa. Por exemplo, os valores ausentes na música e artista não é decisivo. Podemos simplesmente substituí-los por marcadores claros.

Mas valores ausentes em 'genre' pode afetar a comparação de preferências musicais de Springfield e Shelbyville. É útil descobrir as razões pelas quais os dados estão ausentes e tentar compensá-los. Mas nós não temos essa possibilidade neste projeto. Então:
* Preencher os valores ausentes com marcadores
* Avaliar o quanto os valores ausentes podem afetar os seus cálculos

Substituir os valores ausentes em `'track'`, `'artist'`, e `'genre'` com a string `'unknown'`. Para fazer isso, criamos a lista `columns_to_replace`, percorra-a com o laço for, e substituimos os valores ausentes em cada uma das colunas:

In [9]:
# percorrendo os nomes das colunas e substituindo valores ausentes com 'unknown'

# Definir as colunas a serem substituídas
columns_to_replace = ['track', 'artist', 'genre']

# Substituir os valores ausentes por 'unknown' nas colunas selecionadas
df[columns_to_replace] = df[columns_to_replace].fillna('unknown')

Certificando os valores ausentes. Contando os valores ausentes novamente.

In [10]:
# contando os valores ausentes
test1 = df.info()
test2 = df.isna().sum()
print(test1)
print(test2)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65079 entries, 0 to 65078
Data columns (total 7 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   user_id  65079 non-null  object
 1   track    65079 non-null  object
 2   artist   65079 non-null  object
 3   genre    65079 non-null  object
 4   city     65079 non-null  object
 5   time     65079 non-null  object
 6   day      65079 non-null  object
dtypes: object(7)
memory usage: 3.5+ MB
None
user_id    0
track      0
artist     0
genre      0
city       0
time       0
day        0
dtype: int64


[Voltar ao Índice](#back)

### Duplicatas <a id='duplicates'></a>
Encontrando o número de duplicatas óbvias na tabela usando um comando:

In [11]:
# contando duplicatas claras
df.duplicated().sum()

3826

Chamando o método pandas para se livrar das duplicatas óbvias:

In [12]:
# removendo duplicatas óbvias
df.drop_duplicates(inplace = True)

Contando as duplicatas óbvias mais uma vez e certificando que removeu todas elas:

In [13]:
# verificando duplicatas
df.duplicated().sum()

0

Agora, removemos as duplicatas implícitas na coluna genre. Por exemplo, o nome de um gênero pode ser escrito de maneiras diferentes. Alguns erros afetarão também o resultado.

Exibindo a lista de nomes de gêneros únicos, organizados em ordem alfabética. Para fazer isso:
* Recuperamos o DataFrame da coluna pretendida 
* Aplicamos um método de escolha para isso
* Para a coluna selecionada, chamamos o método que irá retornar todos os valores únicos das colunas

In [14]:
# visualizando nomes de gêneros únicos

# recuperando a coluna genre
column_genre = df['genre'].drop_duplicates()

# obter os valores únicos em genre
unique_genre = column_genre.drop_duplicates()

# Ordem alfabética
list_genre = list(unique_genre.sort_values())
print(list_genre)


['acid', 'acoustic', 'action', 'adult', 'africa', 'afrikaans', 'alternative', 'ambient', 'americana', 'animated', 'anime', 'arabesk', 'arabic', 'arena', 'argentinetango', 'art', 'audiobook', 'avantgarde', 'axé', 'baile', 'balkan', 'beats', 'bigroom', 'black', 'bluegrass', 'blues', 'bollywood', 'bossa', 'brazilian', 'breakbeat', 'breaks', 'broadway', 'cantautori', 'cantopop', 'canzone', 'caribbean', 'caucasian', 'celtic', 'chamber', 'children', 'chill', 'chinese', 'choral', 'christian', 'christmas', 'classical', 'classicmetal', 'club', 'colombian', 'comedy', 'conjazz', 'contemporary', 'country', 'cuban', 'dance', 'dancehall', 'dancepop', 'dark', 'death', 'deep', 'deutschrock', 'deutschspr', 'dirty', 'disco', 'dnb', 'documentary', 'downbeat', 'downtempo', 'drum', 'dub', 'dubstep', 'eastern', 'easy', 'electronic', 'electropop', 'emo', 'entehno', 'epicmetal', 'estrada', 'ethnic', 'eurofolk', 'european', 'experimental', 'extrememetal', 'fado', 'film', 'fitness', 'flamenco', 'folk', 'folklor

Olhamos a lista e encontramos duplicatas implícitas do gênero `hiphop`. Esses podem ser nomes escritos incorretamente, ou nomes alternativos para o mesmo gênero.

Observamos que temos as seguintes duplicatas implícitas:
* `hip`
* `hop`
* `hip-hop`

Para se livrar deles, criamos a função `replace_wrong_genres()` com dois parâmetros: 
* `wrong_genres=` — a lista de duplicatas
* `correct_genre=` — a string com o valor correto

A função deve corrigir os nomes na coluna `'genre'` da tabela `df` substituindo cada valor da lista `wrong_genres` por valores de `correct_genre`.

In [15]:
# função para substituir duplicatas implícitas

def replace_wrong_genres(df, wrong_genres, correct_genre):
    
    # Usamos o método str.contains() para encontrar as linhas que contêm as duplicatas implícitas na coluna "genre"
    bool_mask = df['genre'].str.contains('|'.join(wrong_genres), case=False)

    # Substituimos as duplicatas implícitas pelo valor correto usando o método replace()
    df.loc[bool_mask, 'genre'] = correct_genre

    return df

Chamamos `replace_wrong_genres()` e passamos os argumentos para que possa eliminar as duplicatas implícitas (`hip`, `hop`, e `hip-hop`) e substituimos por `hiphop`:

In [16]:
# removendo duplicatas implícitas
wrong_list = ['hip','hop','hip-hop']
replace_wrong_genres(df,wrong_list,'hiphop')

Unnamed: 0,user_id,track,artist,genre,city,time,day
0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Shelbyville,20:28:33,Wednesday
1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Springfield,14:07:09,Friday
2,20EC38,Funiculì funiculà,Mario Lanza,pop,Shelbyville,20:58:07,Wednesday
3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Shelbyville,08:37:09,Monday
4,E2DC1FAE,Soul People,Space Echo,dance,Springfield,08:34:34,Monday
...,...,...,...,...,...,...,...
65074,729CBB09,My Name,McLean,rnb,Springfield,13:32:28,Wednesday
65075,D08D4A55,Maybe One Day (feat. Black Spade),Blu & Exile,hiphop,Shelbyville,10:00:00,Monday
65076,C5E3A0D5,Jalopiina,unknown,industrial,Springfield,20:09:26,Friday
65077,321D0506,Freight Train,Chas McDevitt,rock,Springfield,21:43:59,Friday


Certificamos que os nomes duplicados foram removidos. Exibimos a lista de valores únicos da coluna:

In [17]:
# verificando valores duplicados

# recuperando a coluna genre
column_genre = df['genre']

# obter os valores únicos em genre
unique_genre = column_genre.drop_duplicates()

# Ordem alfabética
list_genre = list(unique_genre.sort_values())
print(list_genre)

['acid', 'acoustic', 'action', 'adult', 'africa', 'afrikaans', 'alternative', 'ambient', 'americana', 'animated', 'anime', 'arabesk', 'arabic', 'arena', 'argentinetango', 'art', 'audiobook', 'avantgarde', 'axé', 'baile', 'balkan', 'beats', 'bigroom', 'black', 'bluegrass', 'blues', 'bollywood', 'bossa', 'brazilian', 'breakbeat', 'breaks', 'broadway', 'cantautori', 'cantopop', 'canzone', 'caribbean', 'caucasian', 'celtic', 'chamber', 'children', 'chill', 'chinese', 'choral', 'christian', 'christmas', 'classical', 'classicmetal', 'club', 'colombian', 'comedy', 'conjazz', 'contemporary', 'country', 'cuban', 'dance', 'dancehall', 'dancepop', 'dark', 'death', 'deep', 'deutschrock', 'deutschspr', 'dirty', 'disco', 'dnb', 'documentary', 'downbeat', 'downtempo', 'drum', 'dub', 'dubstep', 'eastern', 'easy', 'electronic', 'electropop', 'emo', 'entehno', 'epicmetal', 'estrada', 'ethnic', 'eurofolk', 'european', 'experimental', 'extrememetal', 'fado', 'film', 'fitness', 'flamenco', 'folk', 'folklor

[Voltar ao Índice](#back)

### Conclusões <a id='data_preprocessing_conclusions'></a>
Nós detectamos três problemas com os dados:

- Estilo de cabeçalho incorreto
- Valores ausentes
- Duplicatas óbvias e implícitas

O cabeçalho foi limpo para fazer o processamento da tabela mais simples.

Todos os valores ausentes foram substituídos por `'unknown'`. Mas nós ainda temos que ver os se valores ausentes em `'genre'` afetará os nossos cálculos.

A ausência de duplicatas deixará os resultados mais precisos e mais fáceis de entender.


[Voltar ao Índice](#back)

## Etapa 3. Testando hipóteses <a id='hypotheses'></a>

### Hipótese 1: comparando o comportamento dos usuários em duas cidades <a id='activity'></a>

In [18]:
# Contando as músicas tocadas em cada cidade

# Separando por cidade 
df_shelby = df[df['city'] == 'Shelbyville']
print(f'Musicas em Shelby \n {df_shelby.count()}')
df_spring = df[df['city'] == 'Springfield']
print(f'Musicas em Spring \n {df_spring.count()}')

Musicas em Shelby 
 user_id    18512
track      18512
artist     18512
genre      18512
city       18512
time       18512
day        18512
dtype: int64
Musicas em Spring 
 user_id    42741
track      42741
artist     42741
genre      42741
city       42741
time       42741
day        42741
dtype: int64


Springfield tem mais músicas tocadas do que Shelbyville. Mas isso não quer dizer que os cidadãos de Springfield escutam música com mais frequência. Essa cidade é somente maior, e tem mais usuários.

Agora agrupamos os dados por dia da semana e encontramos a quantidade de músicas tocadas na segunda, quarta e sexta-feira.


In [19]:
# Calculando as músicas escutadas em cada um desses três dias
df_shelby = df_shelby[['day','user_id']]
df_spring = df_spring[['day','user_id']]
df_general = df[['day','user_id']]

# Musicas por dia em Shelbyville
df_shelby = df_shelby.groupby(by=['day'])
print(f'Musicas em Shelbyville \n {df_shelby.describe()}')
 
# Separando para melhor visualização
print('\n')
      
# Musicas por dia em Springfield
df_spring = df_spring.groupby(by=['day'])
print(f'Musicas em Springfield \n {df_spring.describe()}')

# Separando para melhor visualização
print('\n')

# Musicas por dia em Geral
df_general = df_general.groupby(by=['day'])
print(f'Musicas em Geral \n {df_general.describe()}')

Musicas em Shelbyville 
           user_id                      
            count unique       top freq
day                                    
Friday       5895   4495  77153500   19
Monday       5614   4248  7D166C63   33
Wednesday    7003   5228  C7BE9443   23


Musicas em Springfield 
           user_id                      
            count unique       top freq
day                                    
Friday      15945  12145  B5496034   34
Monday      15740  11904  A8AE9169   57
Wednesday   11056   8388  39EDC574   30


Musicas em Geral 
           user_id                      
            count unique       top freq
day                                    
Friday      21840  16636  B5496034   34
Monday      21354  16144  A8AE9169   57
Wednesday   18059  13614  39EDC574   30


Quarta-feira é o dia mais calmo em geral. Mas se considerarmos as duas cidades separadamente, devemos chegar a uma conclusão diferente.

In [20]:
# <criando a função number_tracks()>
# vamos declarar a função com dois parâmetros: day=, city=.
# Deixe a variável track_list armazenar as linha df onde
# o valor na coluna 'day' é igual ao parâmetro day= e ao mesmo tempo, 
# o valor na coluna 'city' é igual ao parâmetro city= (aplique filtragem consecutiva 
# com indexação lógica).
# Deixe a variável track_list_count armazenar o número de valores da coluna 'user_id' em track_list
# (encontre com o método count()).
# Deixe a função retornar um número: o valor de track_list_count.

# A função conta músicas tocadas por uma certa cidade e dia.
# primeiro retorne as linhas com o dia pretendido da tabela,
# depois filtre as linhas com a cidade pretendida a parir do resultado,
# depois encontre o número de valores de 'user_id' na tabela filtrada,
# então retorne aquele número.
# Para o que ele retorna, envolva a função call em print().

def number_tracks(day, city):
    track_list = df[(df['day'] == day) & (df['city'] == city)]
    track_list_count = track_list['user_id'].count()
    return track_list_count

Chamamos a `number_tracks()` seis vezes, mudando os valores dos parâmetros.

In [21]:
# a quantidade de músicas tocadas em Springfield na segunda-feira
number_tracks(day='Monday',city='Springfield')

15740

In [22]:
# a quantidade de músicas tocadas em Shelbyville na segunda-feira
number_tracks(day='Monday',city='Shelbyville')

5614

In [23]:
# a quantidade de músicas tocadas em Springfield na quarta-feira
number_tracks(day='Wednesday',city='Springfield')

11056

In [24]:
# a quantidade de músicas tocadas em Shelbyville na quarta-feira
number_tracks(day='Wednesday',city='Shelbyville')

7003

In [25]:
# a quantidade de músicas tocadas em Springfield na sexta-feira
number_tracks(day='Friday',city='Springfield')

15945

In [26]:
# a quantidade de músicas tocadas em Shelbyville na sexta-feira
number_tracks(day='Friday',city='Shelbyville')

5895

Usamos `pd.DataFrame` para criar uma tabela, onde
* Os nomes das colunas são: `['city', 'monday', 'wednesday', 'friday']`
* Os dados são o resultado que recebeos de `number_tracks()`

In [27]:
# tabela com resultados
df1 = pd.DataFrame({
    'city': ['Springfield', 'Shelbyville'],
    'monday': [15740,5614],
    'wednesday': [11056,7003],
    'friday': [15945,5895]})

print(df1)

          city  monday  wednesday  friday
0  Springfield   15740      11056   15945
1  Shelbyville    5614       7003    5895


**Conclusões**

Os dados revelam diferenças no comportamento dos usuários:

- Em Springfield, a quantidade de músicas tocadas tem seu auge nas segundas e sextas-feiras, enquanto na quarta-feira há uma diminuição na atividade.
- Em Shelbyville, ao contrário, usuários escutam mais música na quarta-feira. A atividade na segunda e sexta-feira é pequena.

Então a primeira hipótese parece ser correta.

[Voltar ao Índice](#back)

### Hipótese 2: música no começo e no fim da semana <a id='week'></a>

De acordo com a segunda hipótese, na segunda-feira de manhã e sexta-feira à noite, habitantes de Springfield escutam gêneros que diferem de alguns usuários de Shelbyville gostam.

Obtemos uma tabela:
* Para Springfield — `spr_general`
* Para Shelbyville — `shel_general`

In [28]:
# obtendo a tabela spr_generala partir das linhas df, 
# onde o valor na coluna 'city' é 'Springfield'

spr_general = df[df['city'] == 'Springfield']

In [29]:
# obtendo os shel_general a partir das linhas df,
# onde os valores na coluna 'city' é 'Shelbyville'

shel_general = df[df['city'] == 'Shelbyville']

Escrevemos a função `genre_weekday()` com quatro parâmetros:
* Uma tabela para dados
* O dia da semana
* O primeiro carimbo de hora, no formato 'HH:MM'
* O último carimbo de hora, no formato 'HH,MM'

A função deve retornar informações sobre os 15 gêneros mais populares em um determinado dia, dentro do período entre os dois carimbos de hora.

In [31]:
# Declarando a função genre_weekday() com os parâmetros day=, time1=, e time2=. It should
# retornar a informação sobre os gêneros mais populares em um determinado dia em um período específico:

# 1) Deixe a variável genre_df armazenar as linhas que satisfazem várias condições:
#    - o valor na coluna 'day' é igual ao valor do argumento day=
#    - o valor na coluna 'time' é maior do que o valor do argumento time1=
#    - o valor na coluna 'time' é menor do que o valor do argumento time2=
#    Use filtros consecutivos com indexação lógica.

# 2) Agrupe genre_df pela coluna 'genre', pegue uma das suas colunas, 
#    e use o método count() para encontrar a quantidade de entradas para entradas de cada um dos 
#    representantes de gênero; armazene o objeto Series resultante na
#    variável genre_df_count

# 3) Organize genre_df_count em ordem decrescente de frequência e armazene o resultado
#    para a variável genre_df_sorted

# 4) Retorne um objeto Series com os primeiros 15 valores genre_df_sorted - os 15 maiores
#    generos populares (em um determinado dia, dentro de um certo intervalo de tempo)

def genre_weekday(df, day, time1, time2):
    # filtragem consecutiva
    # genre_df armazenará apenas as linhas df onde o dia é igual a day=
    genre_df = df[df['day'] == day]
    # genre_df armazenará apenas aslinhas df que o tempo é menor do que time2=
    genre_df = genre_df[genre_df['time'] < time2]
    # genre_df armazenará apenas as linhas onde onde o tempo é maior do que time1=
    genre_df = genre_df[genre_df['time'] > time1]
    # agrope o DataFrame filtrado pela coluna com nomes dos gêneros, pegue a coluna gênero, e encontre o número de linhas para cada gênero com o método count()
    genre_df_grouped = genre_df.groupby('genre')['genre'].count()
    # nós vamos armazenar o resultado em ordem decrescente (para que os gêneros mais populares venham primeiro no objeto Series)
    genre_df_sorted = genre_df_grouped.sort_values(ascending=False)
    # nós vamos retornar o objeto Serie armazenando os 15 gêneros mais populares em um determinado dia, dentro de um determinado intervalo de tempo
    return genre_df_sorted[:15]

Comparamos os resultados da função `genre_weekday()` para Springfield e Shelbyville na segunda-feira de manhã (de 7hs à 11hs) e na sexta-feira de tarde (das 17hs às 23hs):

In [32]:
# chamando a função para segunda-feira de manha em Springfield (use spr_general em vez de df table)

genre_weekday(spr_general, 'Monday', '07:00', '11:00')

genre
pop            781
dance          549
electronic     480
rock           474
hiphop         294
ruspop         186
world          181
rusrap         175
alternative    164
unknown        161
classical      157
metal          120
jazz           100
folk            97
soundtrack      95
Name: genre, dtype: int64

In [33]:
# chamando a função para segunda-feira de manhã em Shelbyville (use shel_general em vez de df table)

genre_weekday(shel_general, 'Monday', '07:00', '11:00')

genre
pop            218
dance          182
rock           162
electronic     147
hiphop          82
ruspop          64
alternative     58
rusrap          55
jazz            44
classical       40
world           36
rap             32
soundtrack      31
metal           27
rnb             27
Name: genre, dtype: int64

In [34]:
# chamando a função para sexta-feira à tarde em Springfield

genre_weekday(spr_general, 'Friday', '17:00', '23:00')

genre
pop            713
rock           517
dance          495
electronic     482
hiphop         278
world          208
ruspop         170
classical      163
alternative    163
rusrap         142
jazz           111
unknown        110
soundtrack     105
rnb             90
metal           88
Name: genre, dtype: int64

In [35]:
# chamando a função para sexta-feira à tarde em Shelbyville

genre_weekday(shel_general, 'Friday', '17:00', '23:00')

genre
pop            256
rock           216
electronic     216
dance          210
hiphop         101
alternative     63
jazz            61
classical       60
rusrap          59
world           54
unknown         47
ruspop          47
soundtrack      40
metal           39
rap             36
Name: genre, dtype: int64

**Conclusão**

Tendo comparado os 15 gêneros mais ouvidos na segunda-feira de manhã, nós podemos tirar as seguintes conclusões:

1. Usuários de Springfield e Shelbyville escutam músicas semelhantes. Os cinco gêneros mais ouvidos são os mesmos, apenas rock e música eletrônica trocaram de lugar.

2. Em Springfield, a quantidade de valores ausentes acabaram por serem tantos que o valor `'unknown'` veio em 10º. Isso significa que valores ausentes tiveram uma considerável porção dos dados, que pode ser a base para questionamentos a confiabilidade das conclusões.

Para sexta-feira à tarde, a situação é parecida. Gêneros individuais variam um pouco, mas no todo, os 15 gêneros mais ouvidos são parecidos para as duas cidades.

Assim, a segunda hipótese foi parcialmente provada:
* Usuários escutam gêneros musicais parecidos no começo e no fim da semana.
* Não há grande diferença entre Springfield e Shelbyville. Nas duas cidades, pop é o gênero mais popular.

No entanto, o número de valores ausentes faz esse resultado ser questionável. Em Springfield, há tantos que eles afetaram o top 15. Se não nos faltassem esses valores, as coisas poderiam ser diferentes.

[Voltar ao Índice](#back)

### Hipótese 3: preferências em Springfield e Shelbyville <a id='genre'></a>

Hipótese: Shelbyville ama rap. Cidadãos de Springfield curtem mais pop.

In [36]:
# em uma linha: agrupe a tabela spr_general pela coluna 'genre', 
# conte os valores de 'genre' com count() no agrupamento, 
# organize o o objeto Series resultante em ordem decrescente, e armazene-o em spr_genres
spr_genres = spr_general.groupby('genre')['genre'].count().sort_values(ascending=False)

Exibimos as primeiras 10 linhas de `spr_genres`:

In [37]:
# exibindo as primeiras 10 linhas de spr_genres
print(spr_genres[:10])

genre
pop            5892
dance          4435
rock           3965
electronic     3786
hiphop         2148
classical      1616
world          1432
alternative    1379
ruspop         1372
rusrap         1161
Name: genre, dtype: int64


In [38]:
# na linha um: agrupe a tabela shel_general pela coluna 'genre', 
# conte os valores 'genre' no agrupamento com count(), 
# organize a o objeto Series resultante em ordem decrescente e armazene-o em shel_genres
shel_genres = shel_general.groupby('genre')['genre'].count().sort_values(ascending=False)

Exibimos as 10 primeiras linhas de `shel_genres`:

In [39]:
# exibindo as 10 primeiras linhas de shel_genres
print(shel_genres[:10])

genre
pop            2431
dance          1932
rock           1879
electronic     1736
hiphop          982
alternative     649
classical       646
rusrap          564
ruspop          538
world           515
Name: genre, dtype: int64


**Conclusão**

A hipótese foi parcialmente provada:
* Música pop é o gênero mais em Springfield, como esperado.
* Entretanto, música pop acabou por ser igualmente popular em Springfield e Shelbyville, e rap não estava no top 5 em nenhuma cidade.


[Voltar ao Índice](#back)

# Conclusões <a id='end'></a>

Nós testamos as três hipóteses seguintes:

1. A atividade do usuário varia dependendo do dia da semana e da cidade. 
2. Nas segundas-feiras de manhã, os habitantes de Springfield e Shelbyville escutam diferentes gêneros. Isso também é verdadeiro para noites de sexta-feira. 
3. Ouvintes de Springfield e Shelbyville têm preferências diferentes. Tanto em Springfield como Shellbyville, eles preferem pop.

Depois de analisar os dados, nós concluímos:

1. A atividade do usuário em Springfield e Shelbyville depende do dia da semana, embora as cidades variam de formas diferentes. 

A primeira hipótese é totalmente aceita.

2. As preferências musicais não variam significativamente ao decorrer da semana tanto em Springfield como em Shelbyville. Nós podemos ver pequenas diferenças na ordem nas segundas-feiras, mas:
* Em Springfield e Shelbyville, as pessoas escutam mais música pop.

Então nós podemos aceitar essa hipótese. Nós devemos também ter em mente que o resultado pode ter sido diferente se não fosse pelos valores ausentes.

3. Acontece que preferências musicais dos usuários de Springfield e Shelbyville são bastante parecidas.

A terceira hipótese foi rejeitada. Se há alguma diferença nas preferências, ela não pode ser vista nesses dados.

[Voltar ao Índice](#back)