# Y.Music

Olá **Renato**!

Meu nome é Ana Paula Araújo. Fico feliz em rever seu projeto hoje.

Quando vejo um erro pela primeira vez, vou apenas apontá-lo. Vou deixar você encontrá-lo e consertá-lo. Também ao longo do texto farei algumas observações sobre melhorias no código e também farei comentários sobre suas percepções sobre o assunto. Estou tentando prepará-lo para trabalhar como **Cientista de Dados**. Então, em um trabalho real, seu líder de equipe fará o mesmo. Mas se você ainda não conseguir identificar ou corrigir, eu vou te dar uma dica mais precisa na próxima iteração e também alguns exemplos práticos. Estarei aberta a feedbacks e discussões sobre o tema.

Você encontrará meus comentários abaixo - **por favor, não os mova, modifique ou exclua**.

Você pode encontrar meus comentários em caixas verdes, amarelas ou vermelhas como esta:

<div class="alert alert-block alert-success">
<b> Comentário do revisor: </b> <a class="tocSkip"></a>

Sucesso. Tudo foi feito corretamente.
</div>

<div class="alert alert-block alert-warning">
<b>Comentário do revisor: </b> <a class="tocSkip"></a>

Observações. Algumas recomendações.
</div>

<div class="alert alert-block alert-danger">

<b>Comentário do revisor: </b> <a class="tocSkip"></a>
    
Precisa de correções. O bloqueio requer algumas correções. O trabalho não pode ser aceito com os comentários em vermelho.
</div>

Você pode me responder usando isso:

<div class="alert alert-block alert-info">
<b>Resposta do Aluno.</b> <a class="tocSkip"></a>
</div>

<div class="alert alert-block alert-success">
<b> Comentário geral do revisor</b> <a class="tocSkip"></a>

Renato, obrigada por enviar seu projeto. Você fez um excelente trabalho!

Embora haja espaço para melhorias, no geral, seu projeto é excelente.

A maioria das minhas observações foi em tom de sugestão para ajudá-lo em futuras aplicações, eles não significam que você fez algo errado, mas são coisas que quero destacar que podem ajudá-lo a desenvolver ainda mais suas habilidades. Gostei muito do seu código e gostaria de destacar o cuidado que você demonstrou na realização das análises e quando se trata de análise de dados esta é uma excelente qualidade. 
    
Informo que seu projeto foi aceito e você pode seguir para a próxima sprint! Boa sorte ;)    
    
</div>

# Contents <a id='back'></a>

* [Introdução](#intro)
* [Etapa 1. Visão geral dos dados](#data_review)
    * [Conclusões](#data_review_conclusions)
* [Etapa 2. Pré-processamento de dados](#data_preprocessing)
    * [2.1 Estilo do cabeçalho](#header_style)
    * [2.2 Valores ausentes](#missing_values)
    * [2.3 Duplicatas](#duplicates)
    * [2.4 Conclusões](#data_preprocessing_conclusions)
* [Etapa 3. Testando as hipóteses](#hypotheses)
    * [3.1 Hipótese 1: comparando o comportamento dos usuários em duas cidades](#activity)
    * [3.2 Hipótese 2: música no começo e no fim da semana](#week)
    * [3.3 Hipótese 3: preferências em Springfield e Shelbyville](#genre)
* [Conclusões](#end)

## Introdução <a id='intro'></a>
Sempre que fazemos uma pesquisa, precisamos formular uma hipótese que depois poderemos testar. Às vezes nós aceitamos essas hipóteses; outras vezes, nós as rejeitamos. Para fazer as escolhas certas, um negócio deve ser capaz de entender se está fazendo as suposições certas ou não.

Neste projeto, você vai comparar as preferências musicais dos habitantes de Springfild e Shelbyville. Você estudará dados reais do Y.Music para testar a hipótese abaixo e comparar o comportamento do usuário para essas duas cidades.

### Objetivo: 
Teste três hipóteses:
1. A atividade dos usuários é diferente dependendo do dia da semana e da cidade. 
2. Durante as manhãs de segunda-feira, os moradores de Springfield e Shelbyville escutam diferentes gêneros. Isso também é verdadeiro para noites de sexta-feira. 
3. Os ouvintes de Springfield e Shelbyville têm diferentes preferências. Em Springfield, as pessoas preferem pop, enquanto Shelbyville tem mais fãs de rap.

### Etapas 
Os dados sobre o comportamento do usuário é armazenado no arquivo `/datasets/music_project_en.csv`. Não há informação sobre a qualidade dos dados, então, você precisará examiná-los antes de testar a hipótese. 

Primeiro, você avaliará a qualidade dos dados e ver se seus problemas são significativos. Depois, durante o pré-processamento de dados, você tentará dar conta dos problemas mais críticos problemas.
 
O seu projeto consistirá em três etapas:
 1. Visão geral dos dados  2. Pré-processamento de dados  3. Testando as hipóteses  
[Voltar ao Índice](#back)

## Etapa 1. Visão geral dos dados <a id='data_review'></a>

Abra os dados em Y.Music e explore-os.

Você precisará de `pandas`, então, importe-a.

In [114]:
# importando pandas
import pandas as pd


<div class="alert alert-block alert-success">
<b> Comentário do revisor: </b> <a class="tocSkip"></a>

É ótimo que você use a abreviação pd para Pandas, é uma abreviação comum para esta biblioteca para facilitar o trabalho. Como tambem deixar uma celular separada apenas para as importações das bibliotecas!
    
</div>

Leia o arquivo `music_project_en.csv` da pasta `/datasets/` e salve-o na variável `df`:

In [115]:
# lendo o arquivo e armazenando em df
df = pd.read_csv('/datasets/music_project_en.csv')

<div class="alert alert-block alert-success">
<b> Comentário do revisor: </b> <a class="tocSkip"></a>

Correto! O metodo `pd.read_csv` foi usado corretamente. Como também, o caminho correto para o arquivo é especificado: a barra no início do caminho é muito importante, pois indica que você precisa procurar o arquivo na pasta raiz.
</div>

Exiba as primeiras 10 linhas da tabela:

In [116]:
# obtenha as 10 primeiras 10 linhas da tabela df
display(df.head(10))

Unnamed: 0,userID,Track,artist,genre,City,time,Day
0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Shelbyville,20:28:33,Wednesday
1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Springfield,14:07:09,Friday
2,20EC38,Funiculì funiculà,Mario Lanza,pop,Shelbyville,20:58:07,Wednesday
3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Shelbyville,08:37:09,Monday
4,E2DC1FAE,Soul People,Space Echo,dance,Springfield,08:34:34,Monday
5,842029A1,Chains,Obladaet,rusrap,Shelbyville,13:09:41,Friday
6,4CB90AA5,True,Roman Messer,dance,Springfield,13:00:07,Wednesday
7,F03E1C1F,Feeling This Way,Polina Griffith,dance,Springfield,20:47:49,Wednesday
8,8FA1D3BE,L’estate,Julia Dalia,ruspop,Springfield,09:17:40,Friday
9,E772D5C0,Pessimist,,dance,Shelbyville,21:20:49,Wednesday


<div class="alert alert-block alert-success">
<b> Comentário do revisor: </b> <a class="tocSkip"></a>

Otimo, voce exibiu as 10 primeiras linhas como solicitado. Bom uso do display
    
</div>

Obtendo as informações gerais sobre a tabela com um comando:

In [117]:
# obtendo informações gerais sobre os dados em df
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65079 entries, 0 to 65078
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0     userID  65079 non-null  object
 1   Track     63736 non-null  object
 2   artist    57512 non-null  object
 3   genre     63881 non-null  object
 4     City    65079 non-null  object
 5   time      65079 non-null  object
 6   Day       65079 non-null  object
dtypes: object(7)
memory usage: 3.5+ MB


<div class="alert alert-block alert-success">
<b>Comentário do revisor: </b> <a class="tocSkip"></a>

Excelente escolha de método `info()` realmente mostra muitas informações sobre o dataframe.

</div>

A tabela contém sete colunas. Elas armazenam o mesmo tipo de dado: objetos.

De acordo com a documentação:
- `'userID'` — identificação do usuário
- `'Track'` — título da música
- `'artist'` — nome do artista
- `'genre'` — o gênero
- `'City'` — cidade do usuário
- `'time'` — tempo exato que a música foi tocada
- `'Day'` — dia da semana 
Nós podemos ver três problemas com o estilo nos nomes das colunas:
1. Alguns nomes estão com letra maiúscula, alguns com letra minúscula.
2. Há espaços em alguns nomes.
3. `Detecte o problema por si só e o descreva aqui.`

A quantidade de valores das colunas é diferente. Isso significa que os dados contém valores ausentes.


### Conclusões <a id='data_review_conclusions'></a> 

Cada linha na tabela armazena dados sobre uma música que foi tocada. Algumas colunas descrevem a música por si só: seu título, artista e gênero. O restante contém informações sobre o usuário: a cidade de onde eles vêm, a quantidade de vezes que a música foi tocada. 

Está claro que os dados são suficientes para testar as hipóteses. Entretanto, há valores ausentes.

Para seguir adiante, precisamos pré-processar os dados.

[Voltar ao Índice](#back)

## Etapa 2. Pré-processar dados <a id='data_preprocessing'></a>
Corrija a formatação no cabeçalho da coluna e trabalhe com os valores ausentes. Depois, verifique se há duplicatas nos dados.

### Estilo do cabeçalho <a id='header_style'></a>
Exiba o cabeçalho da coluna:

In [118]:
# a lista dos nomes das colunas na tabela df
df.columns

Index(['  userID', 'Track', 'artist', 'genre', '  City  ', 'time', 'Day'], dtype='object')

Mude os nomes das colunas de acordo com as regras da boa prática de estilo:
* Se o nome tiver várias palavras, use snake_case
* Todos os caracteres precisam estar com letras minúsculas
* Delete espaços

In [119]:
# renomeando colunas
df.columns = ['userid', 'track', 'artist', 'genre', 'city', 'time', 'day']

<div class="alert alert-block alert-warning">
<b> Comentário do revisor: </b> <a class="tocSkip"></a>

As colunas foram renomeiadas. Destaco que é interessante usar o método rename, pois você pode usar o método para renomear apenas as colunas que precisam de alteração, é especialmente util quando temos muitas colunas no dataframe e apenas algumas precisam de alteração!
</div>

Verifique o resultado. Exiba os nomes das colunas mais uma vez:

In [120]:
# checando o resultado: a lista dos nomes das colunas
df.columns

Index(['userid', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')

<div class="alert alert-block alert-success">
<b> Comentário do revisor: </b> <a class="tocSkip"></a>
    
Excelente! As colunas foram renomeadas com sucesso!
</div>


[Voltar ao Índice](#back)

### Valores ausentes <a id='missing_values'></a>
Primeiro, encontre a quantidade de valores ausentes na tabela. Para fazer isso, use dois métodos pandas:

In [121]:
# calculando valores ausentes
df.isna().sum()

userid       0
track     1343
artist    7567
genre     1198
city         0
time         0
day          0
dtype: int64

<div class="alert alert-block alert-success">
<b> Comentário do revisor: </b> <a class="tocSkip"></a>

O método `isna()` é escolhido para encontrar valores ausentes, isso é ótimo! Na verdade, `isnull()` e `isna()` fazem a mesma coisa, mas é preferível usar `isna()`.
</div>


Nem todos os valores ausentes afetam a pesquisa. Por exemplo, os valores ausentes na música e artista não é decisivo. Você pode simplesmente substituí-los por marcadores claros.

Mas valores ausentes em 'genre' pode afetar a comparação de preferências musicais de Springfield e Shelbyville. Na vida real, seria útil descobrir as razões pelas quais os dados estão ausentes e tentar compensá-los. Mas nós não temos essa possibilidade neste projeto. Então, você terá que:
* Preencher os valores ausentes com marcadores
* Avaliar o quanto os valores ausentes podem afetar os seus cálculos

Substituir os valores ausentes em 'track', 'artist', e 'genre' com a string 'unknown'. Para fazer isso, crie a lista columns_to_replace, percorra-a com o ciclo for, e substitua os valores ausentes em cada uma das colunas:

In [122]:
# percorrendo os nomes das colunas e substituindo valores ausentes com 'unknown'
cols_to_replace = ['track','artist','genre']
for col in cols_to_replace:
    df[col] = df[col].fillna('unknown')

<div class="alert alert-block alert-success">
<b> Comentário do revisor: </b> <a class="tocSkip"></a>

A lista columns_to_replace foi formada corretamente, o loop funcionou sem erros. Muito bem
</div>

Certifique-se de que a tabela não contenha mais valores ausentes. Conte os valores ausentes novamente.

In [123]:
# contando os valores ausentes
df.isna().sum()

userid    0
track     0
artist    0
genre     0
city      0
time      0
day       0
dtype: int64

<div class="alert alert-block alert-success">
<b> Comentário do revisor: </b> <a class="tocSkip"></a>

Ótimo. Não tem mais nenhum valor ausente
</div>

[Voltar ao Índice](#back)

### Duplicatas <a id='duplicates'></a>
Encontre o número de duplicatas óbvias na tabela usando um comando:

In [124]:
# contando duplicatas claras
df.duplicated().sum()

3826

<div class="alert alert-block alert-success">
<b> Comentário do revisor: </b> <a class="tocSkip"></a>

Duplicatas são encontradas de forma correta e contadas pelos métodos ótimos. Muito bem
</div>

Chame o método pandas para se livrar das duplicatas óbvias:

In [125]:
# removendo duplicatas óbvias
df = df.drop_duplicates()

<div class="alert alert-block alert-warning">

<b>Comentário do revisor: </b> <a class="tocSkip"></a>
    
Observe que você precisa recriar os índices. Use o método reset_index() para isso, com o parametro drop=True.
A função Python Pandas DataFrame.reset_index() redefine o índice do quadro de dados fornecido. Ele substitui o índice antigo pelo índice padrão. Se você não deseja ver outra coluna de índice, pode definir o parâmetro drop= True. Depois que voce mudar é interessante adicionar uma linha de cogido com df.tail() para voce ver a diferenca dos indices, sem o .reset_index(drop=True) as ultimas linhas teram indices com valores diferentes.

Vou te passar um link que contem uma explicação e alguns exemplos do uso desse método. <a> https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.reset_index.html </a>

E tambem essa a parte epecifica que fala sobre isso na plataforma <a> https://practicum.yandex.com/learn/data-scientist/courses/3d2784ac-e4ca-4baa-b821-b8cffb7c3afa/sprints/27446/topics/37a848a6-5de6-4436-9a61-631d2ff95b09/lessons/e4aa6e08-78e3-4c91-bffa-d847a2fad65b/ </a>
</div>

Conte as duplicatas óbvias mais uma vez certifique-se que você removeu todas elas:

In [126]:
# verificando duplicatas
df.duplicated().sum()

0

Agora, livre-se das duplicatas implícitas na coluna genre. Por exemplo, o nome de um gênero pode ser escrito de maneiras diferentes. Alguns erros afetarão também o resultado.

Exiba a lista de nomes de gêneros únicos, organizados em ordem alfabética. Para fazer isso:
* Recupere o DataFrame da coluna pretendida 
* Aplique um método de escolha para isso
* Para a coluna selecionada, chame o método que irá retornar todos os valores únicos das colunas

In [127]:
df['genre'].unique()

array(['rock', 'pop', 'folk', 'dance', 'rusrap', 'ruspop', 'world',
       'electronic', 'unknown', 'alternative', 'children', 'rnb', 'hip',
       'jazz', 'postrock', 'latin', 'classical', 'metal', 'reggae',
       'triphop', 'blues', 'instrumental', 'rusrock', 'dnb', 'türk',
       'post', 'country', 'psychedelic', 'conjazz', 'indie',
       'posthardcore', 'local', 'avantgarde', 'punk', 'videogame',
       'techno', 'house', 'christmas', 'melodic', 'caucasian',
       'reggaeton', 'soundtrack', 'singer', 'ska', 'salsa', 'ambient',
       'film', 'western', 'rap', 'beats', "hard'n'heavy", 'progmetal',
       'minimal', 'tropical', 'contemporary', 'new', 'soul', 'holiday',
       'german', 'jpop', 'spiritual', 'urban', 'gospel', 'nujazz',
       'folkmetal', 'trance', 'miscellaneous', 'anime', 'hardcore',
       'progressive', 'korean', 'numetal', 'vocal', 'estrada', 'tango',
       'loungeelectronic', 'classicmetal', 'dubstep', 'club', 'deep',
       'southern', 'black', 'folkrock', 

In [128]:
# visualizando nomes de gêneros únicos
sorted(df['genre'].unique())

['acid',
 'acoustic',
 'action',
 'adult',
 'africa',
 'afrikaans',
 'alternative',
 'ambient',
 'americana',
 'animated',
 'anime',
 'arabesk',
 'arabic',
 'arena',
 'argentinetango',
 'art',
 'audiobook',
 'avantgarde',
 'axé',
 'baile',
 'balkan',
 'beats',
 'bigroom',
 'black',
 'bluegrass',
 'blues',
 'bollywood',
 'bossa',
 'brazilian',
 'breakbeat',
 'breaks',
 'broadway',
 'cantautori',
 'cantopop',
 'canzone',
 'caribbean',
 'caucasian',
 'celtic',
 'chamber',
 'children',
 'chill',
 'chinese',
 'choral',
 'christian',
 'christmas',
 'classical',
 'classicmetal',
 'club',
 'colombian',
 'comedy',
 'conjazz',
 'contemporary',
 'country',
 'cuban',
 'dance',
 'dancehall',
 'dancepop',
 'dark',
 'death',
 'deep',
 'deutschrock',
 'deutschspr',
 'dirty',
 'disco',
 'dnb',
 'documentary',
 'downbeat',
 'downtempo',
 'drum',
 'dub',
 'dubstep',
 'eastern',
 'easy',
 'electronic',
 'electropop',
 'emo',
 'entehno',
 'epicmetal',
 'estrada',
 'ethnic',
 'eurofolk',
 'european',
 'expe

<div class="alert alert-block alert-success">
<b>Comentário do revisor: </b> <a class="tocSkip"></a>

Voce obteve uma lista de gêneros ordenada com sucesso.

</div>

Olhe a lista e encontre duplicatas implícitas do gênero hiphop. EEsses podem ser nomes escritos incorretamente, ou nomes alternativos para o mesmo gênero.

Você verá as seguintes duplicatas implícitas:
* hip
* hop
* hip-hop

Para se livrar deles, declare a função replace_wrong_genres() com dois parâmetros: 
* wrong_genres= — a lista de duplicatas
* correct_genre= — a string com o valor correto

A função deve corrigir os nomes na coluna 'genre' da tabela df, isto é, substituindo cada valor da lista wrong_genres por valores de correct_genre.

In [129]:
# função para substituir duplicatas implícitas
def replace_wrong_genres(wrong_genres,correct_genre):    
    for wrong_genre in wrong_genres:
        df['genre'] = df['genre'].replace(wrong_genre, correct_genre)


<div class="alert alert-block alert-success">
<b> Comentário do revisor: </b> <a class="tocSkip"></a>

Sucesso.  A função está escrita corretamente!
</div>

Chame replace_wrong_genres() e passe a ela argumentos para que possa eliminar as duplicatas implícitas (hip, hop, e hip-hop) e substituí-los por hiphop:

In [130]:
# removendo duplicatas implícitas

wrong_genres = ['hip','hop','hip-hop']
correct_genre = 'hiphop'

replace_wrong_genres(wrong_genres,correct_genre)


<div class="alert alert-block alert-success">
<b> Comentário do revisor: </b> <a class="tocSkip"></a>

Muito bem, a função foi chamada de forma correta e as duplicatas implícitas foram removidas
</div>

Certifique-se que os nomes duplicados foram removidos. Exiba a lista de valores únicos da coluna:

In [131]:
# verificando valores duplicados
sorted(df['genre'].unique())

['acid',
 'acoustic',
 'action',
 'adult',
 'africa',
 'afrikaans',
 'alternative',
 'ambient',
 'americana',
 'animated',
 'anime',
 'arabesk',
 'arabic',
 'arena',
 'argentinetango',
 'art',
 'audiobook',
 'avantgarde',
 'axé',
 'baile',
 'balkan',
 'beats',
 'bigroom',
 'black',
 'bluegrass',
 'blues',
 'bollywood',
 'bossa',
 'brazilian',
 'breakbeat',
 'breaks',
 'broadway',
 'cantautori',
 'cantopop',
 'canzone',
 'caribbean',
 'caucasian',
 'celtic',
 'chamber',
 'children',
 'chill',
 'chinese',
 'choral',
 'christian',
 'christmas',
 'classical',
 'classicmetal',
 'club',
 'colombian',
 'comedy',
 'conjazz',
 'contemporary',
 'country',
 'cuban',
 'dance',
 'dancehall',
 'dancepop',
 'dark',
 'death',
 'deep',
 'deutschrock',
 'deutschspr',
 'dirty',
 'disco',
 'dnb',
 'documentary',
 'downbeat',
 'downtempo',
 'drum',
 'dub',
 'dubstep',
 'eastern',
 'easy',
 'electronic',
 'electropop',
 'emo',
 'entehno',
 'epicmetal',
 'estrada',
 'ethnic',
 'eurofolk',
 'european',
 'expe

[Voltar ao Índice](#back)

### Conclusões <a id='data_preprocessing_conclusions'></a>
Nós detectamos três problemas com os dados:

- Estilo de cabeçalho incorreto
- Valores ausentes
- Duplicatas óbvias e implícitas

O cabeçalho foi limpo para fazer o processamento da tabela mais simples.

Todos os valores ausentes foram substituídos por 'unkown'. Mas nós ainda temos que ver os se valores ausentes em 'genre' afetará os nossos cálculos.

A ausência de duplicatas deixará os resultados mais precisos e mais fáceis de entender.

Agora você pode seguir para testar hipóteses.

[Voltar ao Índice](#back)

## Etapa 3. Testando hipóteses <a id='hypotheses'></a>

### Hipótese 1: comparando o comportamento dos usuários em duas cidades <a id='activity'></a>

De acordo com a primeira hipótese, usuários de Springfield and Shelbyville escutam música de forma diferente. Teste essa hipótese usando os dados de três dias da semana: segunda-feira, quarta-feira, e sexta-feira.

* Divida os usuários de cada cidade em grupos.
* Compare quantas músicas cada grupo escutou na segunda-feira, quarta-feira e sexta-feira.


Por uma questão de prática, faça cada um desses cálculos separadamente. 

Avalie a atividade do usuário em cada cidade. Agrupe os dados por cidade e encontre o número de músicas tocadas em cada grupo.



In [132]:
# Contando as músicas tocadas em cada cidade
df[['track','city']].groupby(['city']).count()

Unnamed: 0_level_0,track
city,Unnamed: 1_level_1
Shelbyville,18512
Springfield,42741


Springfield tem mais músicas tocadas do que Shelbyville. Mas isso não quer dizer que os cidadãos de Springfield escutam música com mais frequência. Essa cidade é somente maior, e tem mais usuários.

Agora agrupe os dados por dia da semana e encontre a quantidade de músicas tocadas na segunda, quarta e sexta-feira.


In [133]:
# Calculando as músicas escutadas em cada um desses três dias
df[['track','day']].groupby(['day']).count()

Unnamed: 0_level_0,track
day,Unnamed: 1_level_1
Friday,21840
Monday,21354
Wednesday,18059


<div class="alert alert-block alert-success">
<b> Comentário do revisor: </b> <a class="tocSkip"></a>

Muito bem, excelente uso do método `groupby()`
</div>

Quarta-feira é o dia mais calmo em geral. Mas se considerarmos as duas cidades separadamente, devemos chegar a uma conclusão diferente.

Você viu como agrupar por cidade ou dia da semana funciona. Agora escreva a função que agrupar os dados pelos dois critérios.

Crie a função number_tracks() para calcular o número de músicas tocadas em um determinado dia da semana e em cada cidade. Será necessários dois parâmetros:
* dia da semana
* nome da cidade

Na função, use a variável para armazenar as linhas da tabela original, onde:
  * o valor da coluna 'day' é igual ao parâmetro dia
  * o valor da coluna 'city' é igual ao parâmetro cidade

Aplique filtros consecutivos com indexação lógica.

Depois, calcule os valores da coluna 'user_id' na tabela resultante. Armazene o resultado na nova variável. Retorne essa variável da função.

In [134]:
# <criando a função number_tracks()>
# vamos declarar a função com dois parâmetros: day=, city=.
# Deixe a variável track_list armazenar as linha df onde
# o valor na coluna 'day' é igual ao parâmetro day= e ao mesmo tempo, 
# o valor na coluna 'city' é igual ao parâmetro city= (aplique filtragem consecutiva 
# com indexação lógica).
# Deixe a variável track_list_count armazenar o número de valores da coluna 'user_id' em track_list
# (encontre com o método count()).
# Deixe a função retornar um número: o valor de track_list_count.
def number_tracks(day,city):
    track_list = df[(df['day'] == day)]
    track_list = track_list[(track_list['city'] == city)]
    track_list.count = track_list.count()['userid']

    return track_list.count
# A função conta músicas tocadas por uma certa cidade e dia.
# primeiro retorne as linhas com o dia pretendido da tabela,
# depois filtre as linhas com a cidade pretendida a parir do resultado,
# depois encontre o número de valores de 'user_id' na tabela filtrada,
# então retorne aquele número.
# Para o que ele retorna, envolva a função call em print().

<div class="alert alert-block alert-success">
<b> Comentário do revisor: </b> <a class="tocSkip"></a>

Otimo, a função criada cumpre completamente suas tarefas.
</div>

Chame a `number_tracks()` seis vezes, mudando os valores dos parâmetros, para que você recupere os dados de ambas as cidades para os três dias.

In [135]:
number_tracks(day,city)

15740

In [136]:
# a quantidade de músicas tocadas em Springfield na segunda-feira
number_tracks('Monday','Springfield')

15740

In [137]:
# a quantidade de músicas tocadas em Shelbyville na segunda-feira
number_tracks('Monday','Shelbyville')

5614

In [138]:
# a quantidade de músicas tocadas em Springfield na quarta-feira
number_tracks('Wednesday','Springfield')

11056

In [139]:
# a quantidade de músicas tocadas em Shelbyville na quarta-feira
number_tracks('Wednesday','Shelbyville')

7003

In [140]:
# a quantidade de músicas tocadas em Springfield na sexta-feira
number_tracks('Friday','Springfield')

15945

In [141]:
# a quantidade de músicas tocadas em Shelbyville na sexta-feira
number_tracks('Friday','Shelbyville')

5895

<div class="alert alert-block alert-success">
<b> Comentário do revisor: </b> <a class="tocSkip"></a>

Otimo. Os argumentos das funções foram passados de forma correta.
</div>

Use pd.DataFrame para criar uma tabela, onde
* Os nomes das colunas são: ['city', 'monday', 'wednesday', 'friday']`
* Os dados são o resultado que você recebe de number_tracks()

In [142]:
# tabela com resultados
pd.DataFrame({
    'city':['Springfield','Shelbyville'],
    'monday': [number_tracks('Monday', 'Springfield'),number_tracks('Monday', 'Shelbyville')],
    'wednesday': [number_tracks('Wednesday', 'Springfield'),number_tracks('Wednesday', 'Shelbyville')],
    'friday': [number_tracks('Friday', 'Springfield'),number_tracks('Friday', 'Shelbyville')],    
})

Unnamed: 0,city,monday,wednesday,friday
0,Springfield,15740,11056,15945
1,Shelbyville,5614,7003,5895


<div class="alert alert-block alert-success">
<b> Comentário do revisor: </b> <a class="tocSkip"></a>

Muito bem, a tabela foi criada corretamente. 
</div>

**Conclusões**

Os dados revelam diferenças no comportamento dos usuários:

- Em Springfield, a quantidade de músicas tocadas tem seu auge nas segundas e sextas-feiras, enquanto na quarta-feira há uma diminuição na atividade.
- Em Shelbyville, ao contrário, usuários escutam mais música na quarta-feira. A atividade na segunda e sexta-feira é pequena.

Então a primeira hipótese parece ser correta.

[Voltar ao Índice](#back)

### Hipótese 2: música no começo e no fim da semana <a id='week'></a>

De acordo com a segunda hipótese, na segunda-feira de manhã e sexta-feira à noite, habitantes de Springfield escutam gêneros que diferem de alguns usuários de Shelbyville gostam.

Obtenha uma tabela (certifique-se de que o nome da sua tabela combinada corresponda ao DataFrame dado em dois blocos de código abaixo):
* Para Springfield — `spr_general`
* Para Shelbyville — `shel_general`

In [163]:
# obtendo a tabela spr_generala partir das linhas df,
# onde o valor na coluna 'city' é 'Springfield'
spr_general = df[df['city'] == 'Springfield']
display(spr_general)

Unnamed: 0,userid,track,artist,genre,city,time,day
1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Springfield,14:07:09,Friday
4,E2DC1FAE,Soul People,Space Echo,dance,Springfield,08:34:34,Monday
6,4CB90AA5,True,Roman Messer,dance,Springfield,13:00:07,Wednesday
7,F03E1C1F,Feeling This Way,Polina Griffith,dance,Springfield,20:47:49,Wednesday
8,8FA1D3BE,L’estate,Julia Dalia,ruspop,Springfield,09:17:40,Friday
...,...,...,...,...,...,...,...
65073,83A474E7,I Worship Only What You Bleed,The Black Dahlia Murder,extrememetal,Springfield,21:07:12,Monday
65074,729CBB09,My Name,McLean,rnb,Springfield,13:32:28,Wednesday
65076,C5E3A0D5,Jalopiina,unknown,industrial,Springfield,20:09:26,Friday
65077,321D0506,Freight Train,Chas McDevitt,rock,Springfield,21:43:59,Friday


In [164]:
# obtendo os shel_general a partir das linhas df,
# onde os valores na coluna 'city' é Shelbyville'
shel_general = df[df['city'] == 'Shelbyville']
display(shel_general)

Unnamed: 0,userid,track,artist,genre,city,time,day
0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Shelbyville,20:28:33,Wednesday
2,20EC38,Funiculì funiculà,Mario Lanza,pop,Shelbyville,20:58:07,Wednesday
3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Shelbyville,08:37:09,Monday
5,842029A1,Chains,Obladaet,rusrap,Shelbyville,13:09:41,Friday
9,E772D5C0,Pessimist,unknown,dance,Shelbyville,21:20:49,Wednesday
...,...,...,...,...,...,...,...
65063,D94F810B,Theme from the Walking Dead,Proyecto Halloween,film,Shelbyville,21:14:40,Monday
65064,BC8EC5CF,Red Lips: Gta (Rover Rework),Rover,electronic,Shelbyville,21:06:50,Monday
65065,29E04611,Bre Petrunko,Perunika Trio,world,Shelbyville,13:56:00,Monday
65066,1B91C621,(Hello) Cloud Mountain,sleepmakeswaves,postrock,Shelbyville,09:22:13,Monday


<div class="alert alert-block alert-success">
<b> Comentário do revisor: </b> <a class="tocSkip"></a>
Bom trabalho!
</div>

Escreva a função genre_weekday() com quatro parâmetros:
* Uma tabela para dados (`df`)
* O dia da semana (`day`)
* O primeiro carimbo de hora, no formato 'HH:MM' (`time1`)
* O último carimbo de hora, no formato 'HH,MM' (`time2`)

A função deve retornar informações sobre os 15 gêneros mais populares em um determinado dia, dentro do período entre os dois carimbos de hora.

In [169]:
# Declarando a função genre_weekday() com os parâmetros day=, time1=, e time2=. Ela deve
# retornar a informação sobre os gêneros mais populares em um determinado dia em um período específico:

# 1) Deixe a variável genre_df armazenar as linhas que satisfazem várias condições:
#    - o valor na coluna 'day' é igual ao valor do argumento day=
#    - o valor na coluna 'time' é maior do que o valor do argumento time1=
#    - o valor na coluna 'time' é menor do que o valor do argumento time2=
#    Use filtros consecutivos com indexação lógica.

# 2) Agrupe genre_df pela coluna 'genre', pegue uma das suas colunas, 
#    e use o método count() para encontrar a quantidade de entradas para entradas de cada um dos 
#    representantes de gênero; armazene o objeto Series resultante na
#    variável genre_df_count

# 3) Organize genre_df_count em ordem decrescente de frequência e armazene o resultado
#    para a variável genre_df_sorted

# 4) Retorne um objeto Series com os primeiros 15 valores genre_df_sorted - os 15 maiores
#    generos populares (em um determinado dia, dentro de um certo intervalo de tempo)

# Escreva a sua função aqui

def genre_weekday(df,day,time1,time2):
    
    # genre_df armazenará apenas as linhas df onde o dia é igual a day=
    genre_df = df[df['day'] == day] # escreva o seu código aqui

    # genre_df armazenará apenas aslinhas df que o tempo é menor do que time2=
    genre_df = genre_df[genre_df['time'] < time2]
   
    # genre_df armazenará apenas as linhas onde onde o tempo é maior do que time1=
    genre_df = genre_df[genre_df['time'] > time1]
    
    # agrope o DataFrame filtrado pela coluna com nomes dos gêneros, pegue a coluna gênero, e encontre o número de linhas para cada gênero com o método count()
    genre_df_count = genre_df.groupby('genre')['userid'].count()# escreva o seu código aqui
    
    # nós vamos armazenar o resultado em ordem decrescente (para que os gêneros mais populares venham primeiro no objeto Series)
    genre_df_sorted = genre_df_count.sort_values(ascending=False)# escreva o seu código aqui
    
    # nós vamos retornar o objeto Serie armazenando os 15 gêneros mais populares em um determinado dia, dentro de um determinado intervalo de tempo
    return genre_df_sorted[:15]


<div class="alert alert-block alert-success">
<b> Comentário do revisor: </b> <a class="tocSkip"></a>
    
Otimo, muito bom uso dos metodos count(), groupby() e sort_values() e o uso dos conceitos para fazer funções!
</div>

Compare os resultados da função `genre_weekday()` para Springfield e Shelbyville na segunda-feira de manhã (de 7hs à 11hs) e na sexta-feira de tarde (das 17hs às 23hs):

In [177]:
# chamando a função para segunda-feira de manha em Springfield (use spr_general em vez de df table)

genre_weekday(spr_general,'Monday','07:00','11:00')


genre
pop            781
dance          549
electronic     480
rock           474
hiphop         286
ruspop         186
world          181
rusrap         175
alternative    164
unknown        161
classical      157
metal          120
jazz           100
folk            97
soundtrack      95
Name: userid, dtype: int64

In [171]:
# chamando a função para segunda-feira de manhã em Shelbyville (use shel_general em vez de df table)
genre_weekday(shel_general,'Monday','07:00','11:00')


genre
pop            218
dance          182
rock           162
electronic     147
hiphop          80
ruspop          64
alternative     58
rusrap          55
jazz            44
classical       40
world           36
rap             32
soundtrack      31
rnb             27
metal           27
Name: userid, dtype: int64

In [174]:
# chamando a função para sexta-feira à tarde em Springfield
genre_weekday(spr_general,'Friday','17:00','23:00')


genre
pop            713
rock           517
dance          495
electronic     482
hiphop         273
world          208
ruspop         170
classical      163
alternative    163
rusrap         142
jazz           111
unknown        110
soundtrack     105
rnb             90
metal           88
Name: userid, dtype: int64

In [175]:
# chamando a função para sexta-feira à tarde em Shelbyville
genre_weekday(shel_general,'Friday','17:00','23:00')


genre
pop            256
rock           216
electronic     216
dance          210
hiphop          97
alternative     63
jazz            61
classical       60
rusrap          59
world           54
unknown         47
ruspop          47
soundtrack      40
metal           39
rap             36
Name: userid, dtype: int64

**Conclusão**

Tendo comparado os 15 gêneros mais ouvidos na segunda-feira de manhã, nós podemos tirar as seguintes conclusões:

1. Usuários de Springfield e Shelbyville escutam músicas semelhantes. Os cinco gêneros mais ouvidos são os mesmos, apenas rock e música eletrônica trocaram de lugar.

2. Em Springfield, a quantidade de valores ausentes acabaram por serem tantos que o valor 'unknown' veio em 10º. Isso significa que valores ausentes tiveram uma considerável porção dos dados, que pode ser a base para questionamentos a confiabilidade das conclusões.

Para sexta-feira à tarde, a situação é parecida. Gêneros individuais variam um pouco, mas no todo, os 15 gêneros mais ouvidos são parecidos para as duas cidades.

Assim, a segunda hipótese foi parcialmente provada:
* Usuários escutam gêneros musicais parecidos no começo e no fim da semana.
* Não há grande diferença entre Springfield e Shelbyville. Nas duas cidades, pop é o gênero mais popular.

No entanto, o número de valores ausentes faz esse resultado ser questionável. Em Springfield, há tantos que eles afetaram o top 15. Se não nos faltassem esses valores, as coisas poderiam ser diferentes.

<div class="alert alert-block alert-success">
<b> Comentário do revisor: </b> <a class="tocSkip"></a>

Bom trabalho! A função foi chamada corretamente as 4 vezes e foi possivel conseguir todas as informações necessárias! A conclusão foi clara e objetiva.
    
</div>

[Voltar ao Índice](#back)

### Hipótese 3: preferências em Springfield e Shelbyville <a id='genre'></a>

Hipótese: Shelbyville ama rap. Cidadãos de Springfield curtem mais pop.

Agrupe a tabela spr_general por gênero e encontre o número de músicas tocadas para cada gênero com o método count(). Depois organize o resultado em ordem decrescente e armazene-o em spr_genres.

In [149]:
# m uma linha: agrupe a tabela spr_general pela coluna 'genre', 
# conte os valores de 'genre' com count() no agrupamento, 
# organize o o objeto Series resultante em ordem decrescente, e armazene-o em spr_genres
spr_genres = spr_general.groupby(['genre'])['userid'].count().sort_values(ascending=False)

Exiba as primeiras 10 linhas de spr_genres:

In [150]:
# exibindo as primeiras 10 linhas de spr_genres
spr_genres.head(10)

genre
pop            5892
dance          4435
rock           3965
electronic     3786
hiphop         2096
classical      1616
world          1432
alternative    1379
ruspop         1372
rusrap         1161
Name: userid, dtype: int64

Agora faça o mesmo com os dados de Shelbyville.

Agrupe a tabela shel_general por gênero e encontre o número de músicas tocadas de cada gênero. Depois organize o resultado em ordem decrescente e armazene-o na tabela shel_genres:


In [151]:
# na linha um: agrupe a tabela shel_general pela coluna 'genre', 
# conte os valores 'genre' no agrupamento com count(), 
# organize a o objeto Series resultante em ordem decrescente e armazene-o em shel_genres
shel_genres = shel_general.groupby(['genre'])['userid'].count().sort_values(ascending=False)

Exiba as 10 primeiras linhas de shel_genres:

In [152]:
# exibindo as 10 primeiras linhas de shel_genres
shel_genres.head(10)

genre
pop            2431
dance          1932
rock           1879
electronic     1736
hiphop          960
alternative     649
classical       646
rusrap          564
ruspop          538
world           515
Name: userid, dtype: int64

**Conclusão**

A hipótese foi parcialmente provada:
* Música pop é o gênero mais em Springfield, como esperado.
* Entretanto, música pop acabou por ser igualmente popular em Springfield e Shelbyville, e rap não estava no top 5 em nenhuma cidade.


<div class="alert alert-block alert-success">
<b> Comentário do revisor: </b> <a class="tocSkip"></a>

Otimo uso do `groupby()` e tambem do `sort_values` para ordenar de forma decrescente
</div>


[Voltar ao Índice](#back)

# Conclusões <a id='end'></a>

Nós testamos as três hipóteses seguintes:

1. A atividade do usuário varia dependendo do dia da semana e da cidade. 
2. Nas segundas-feiras de manhã, os habitantes de Springfield e Shelbyville escutam diferentes gêneros. Isso também é verdadeiro para noites de sexta-feira. 
3. Ouvintes de Springfield e Shelbyville têm preferências diferentes. Tanto em Springfield como Shellbyville, eles preferem pop.

Depois de analisar os dados, nós concluímos:

1. A atividade do usuário em Springfield e Shelbyville depende do dia da semana, embora as cidades variam de formas diferentes. 

A primeira hipótese é totalmente aceita.

2. As preferências musicais não variam significativamente ao decorrer da semana tanto em Springfield como em Shelbyville. Nós podemos ver pequenas diferenças na ordem nas segundas-feiras, mas:
* Em Springfield e Shelbyville, as pessoas escutam mais música pop.

Então nós podemos aceitar essa hipótese. Nós devemos também ter em mente que o resultado pode ter sido diferente se não fosse pelos valores ausentes.

3. Acontece que preferências musicais dos usuários de Springfield e Shelbyville são bastante parecidas.

A terceira hipótese foi rejeitada. Se há alguma diferença nas preferências, ela não pode ser vista nesses dados.

### Observação
Em projetos reais, pesquisas envolvendo teste estatístico de hipóteses, que é mais preciso e mais quantitativo. Também perceba que você não pode sempre tirar conclusões sobre uma cidade inteira com base em dados de apenas uma fonte.

Você vai estudar teste de hipóteses no sprint sobre análise estatística de dados.

[Voltar ao Índice](#back)