# Se liga na música

# Conteúdo <a id='back'></a>

* [Introdução](#intro)
* [Etapa 1. Visão geral dos dados](#data_review)
    * [Conclusões](#data_review_conclusions)
* [Etapa 2. Pré-processamento de dados](#data_preprocessing)
    * [2.1 Estilo do cabeçalho](#header_style)
    * [2.2 Valores ausentes](#missing_values)
    * [2.3 Duplicados](#duplicates)
    * [2.4 Conclusões](#data_preprocessing_conclusions)
* [Etapa 3. Teste da hipótese](#hypothesis)
    * [3.1 Hipótese 1: atividade dos usuários nas duas cidades](#activity)
* [Conclusões](#end)

## Introdução <a id='intro'></a>
O trabalho de um analista é analisar dados para obter percepções valiosas dos dados e tomar decisões fundamentadas neles. Esse processo consiste em várias etapas, como visão geral dos dados, pré-processamento dos dados e testes de hipóteses.

Sempre que fazemos uma pesquisa, precisamos formular uma hipótese que depois poderemos testar. Às vezes nós aceitamos essas hipóteses; outras vezes, nós as rejeitamos. Para fazer as escolhas certas, um negócio deve ser capaz de *entender* se está fazendo as suposições certas ou não.

Neste projeto, você vai comparar as preferências musicais dos habitantes de Springfild e Shelbyville. Você vai estudar os dados de um serviço de streaming de música online para testar a hipótese apresentada abaixo e comparar o comportamento dos usuários dessas duas cidades.

### Objetivo:
Teste a hipótese:
1. A atividade dos usuários é diferente dependendo do dia da semana e da cidade.


### Etapas
Os dados sobre o comportamento do usuário são armazenados no arquivo `/datasets/music_project_en.csv`. Não há informações sobre a qualidade dos dados, então será necessário examiná-los antes de testar a hipótese.

Primeiro, você avaliará a qualidade dos dados e verá se seus problemas são significativos. Depois, durante o pré-processamento dos dados, você tentará tratar dos problemas mais críticos.

O seu projeto consistirá em três etapas:
 1. Visão geral dos dados
 2. Pré-processamento de dados
 3. Teste da hipótese








[Voltar ao Índice](#back)

Olá Georgia! Muito prazer em te conhecer!

Agradeço muito por enviar seu projeto.

Meu nome é **Renan**, e atualmente, atuo como cientista de dados em uma multinacional.

Fico feliz em poder ajudá-lo a aprimorar suas habilidades como cientista de dados. Abordarei esta tarefa de duas formas: 
primeiro, como revisor de código, apontando quaisquer erros, áreas para melhorias em seu código e algumas melhores 
práticas que utilizamos na área. Além disso, ajudarei você a criar uma narrativa que demonstre o impacto do seu 
trabalho, seja para o cliente ou líder da sua equipe, enfatizando a importância de apresentar resultados tangíveis e entregar valor para eles.

Quando eu identificar um erro pela primeira vez, apenas apontarei para você. Deixarei para você a tarefa de encontrar e corrigir por conta própria. A idéia é prepará-lo para atuar como cientista de dados. Assim, em um ambiente profissional, seu líder de equipe fará o mesmo. No entanto, se você tiver dificuldades com essa tarefa, darei uma dica mais precisa na próxima vez.

Você encontrará meus comentários abaixo - **por favor, não os mova, modifique ou exclua**.

Meus comentários estarão destacados em verde, amarelo ou vermelho, como descrito a seguir:

<div class="alert alert-block alert-success">
<b>Comentário do revisor</b> <a class="tocSkip"></a>

Sucesso. Tudo foi realizado com sucesso.
</div>

<div class="alert alert-block alert-warning">
<b>Comentário do revisor</b> <a class="tocSkip"></a>

Observações. Algumas recomendações.
</div>

<div class="alert alert-block alert-danger">

<b>Comentário do revisor</b> <a class="tocSkip"></a>

Precisa de correção. O bloco requer algumas correções. O trabalho não pode ser aceito com os comentários vermelhos.
</div>

Você pode me responder utilizando o seguinte formato:

<div class="alert alert-block alert-info">
<b>Resposta do aluno.</b> <a class="tocSkip"></a>
</div>

## Etapa 1. Visão geral dos dados <a id='data_review'></a>

Abra os dados e examine-os.

Você precisará da `pandas`, então, importe-a.

In [3]:
# importando pandas
import pandas as pd

<div class="alert alert-block alert-success">
<b>Comentário do revisor</b> <a class="tocSkip"></a>

Muito bom Georgia! Geralmente abreviamos algumas bibliotecas de forma padronizada, o pandas como **pd** é uma delas!
</div>

Leia o arquivo `music_project_en.csv` da pasta `/datasets/` e salve-o na variável `df`:

In [4]:
# lendo o arquivo e armazenando em df
df = pd.read_csv('/datasets/music_project_en.csv')

Imprima as primeiras 10 linhas da tabela:

In [5]:
# obtenha as 10 primeiras 10 linhas da tabela df
print(df.head(10))

     userID                        Track            artist   genre  \
0  FFB692EC            Kamigata To Boots  The Mass Missile    rock   
1  55204538  Delayed Because of Accident  Andreas Rönnberg    rock   
2    20EC38            Funiculì funiculà       Mario Lanza     pop   
3  A3DD03C9        Dragons in the Sunset        Fire + Ice    folk   
4  E2DC1FAE                  Soul People        Space Echo   dance   
5  842029A1                       Chains          Obladaet  rusrap   
6  4CB90AA5                         True      Roman Messer   dance   
7  F03E1C1F             Feeling This Way   Polina Griffith   dance   
8  8FA1D3BE                     L’estate       Julia Dalia  ruspop   
9  E772D5C0                    Pessimist               NaN   dance   

        City        time        Day  
0  Shelbyville  20:28:33  Wednesday  
1  Springfield  14:07:09     Friday  
2  Shelbyville  20:58:07  Wednesday  
3  Shelbyville  08:37:09     Monday  
4  Springfield  08:34:34     Monday  
5

Obtenha informações gerais sobre a tabela usando um comando. Você conhece o método para exibir informações gerais que precisamos obter.

In [6]:
# obtendo informações gerais sobre os nossos dados
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65079 entries, 0 to 65078
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0     userID  65079 non-null  object
 1   Track     63736 non-null  object
 2   artist    57512 non-null  object
 3   genre     63881 non-null  object
 4     City    65079 non-null  object
 5   time      65079 non-null  object
 6   Day       65079 non-null  object
dtypes: object(7)
memory usage: 3.5+ MB
None


<div class="alert alert-block alert-success">
<b>Comentário do revisor</b> <a class="tocSkip"></a>

Parabéns pela forma como explorou os dataset, utilizamos bastante estes métodos no nosso dia-a-dia.
</div>

Aqui estão as nossas observações sobre a tabela. Ela contém sete colunas. Elas armazenam o mesmo tipo de dado: `object`.

De acordo com a documentação:
- `' userID'` — identificação do usuário
- `'Track'` — título da música
- `'artist'` — nome do artista
- `'genre'` — gênero da música
- `'  City'` — cidade do usuário
- `'time'` — o tempo exato que a música foi reproduzida
- `'Day'` — dia da semana

Podemos ver três problemas de estilo nos cabeçalhos da tabela:
1. Alguns cabeçalhos são escritos em letras maiúsculas, outros estão em minúsculas.
2. Alguns cabeçalhos contêm espaços.
3. `Alguns cabeçalhos não são muito descritivos, podemos substituir 'time' por 'playtime' e 'day' por 'playday'`.




### Escreva suas observações. Aqui estão algumas perguntas que podem ajudar: <a id='data_review_conclusions'></a>

`1.   Que tipo de dados temos nas linhas? E como podemos entender as colunas?`\
\
Em cada linha uma reprodução de música. Por ordem de exibição as colunas mostram:\
- **'userID'** - O usuário que escutou a música;
- **'Track'** - O nome da música tocada;
- **'artist'** - O artista da música tocada;
- **'genre'** - O gênero da música tocada;
- **'City'** - A cidade do usuário desta linha;
- **'time'** - A hora exata em que a música foi tocada por aquele usuário;
- **'Day'** - O dia da semana em que aquela música foi tocada por aquele usuário.

\
`2.   Esses dados são suficientes para responder à nossa hipótese ou precisamos de mais dados?`\
\
São suficientes sim, temos as cidades dos usuários analisados, os horários de atividade de cada um, informações sobre as música tocadas, horários e os dias da semana em que as atividades ocorreram.

\
`3.   Você notou algum problema nos dados, como valores ausentes, duplicados ou tipos de dados errados`\
\
Sim. As colunas 'track', 'Artist' e 'genre' possuem valores ausentes.



<div class="alert alert-block alert-success">
<b>Comentário do revisor</b> <a class="tocSkip"></a>

Perfeito! Conseguiu reponder as perguntas de forma completa e coesa. É muito importante continuar assim!
</div>

[Voltar ao Índice](#back)

## Etapa 2. Pré-processamento de dados <a id='data_preprocessing'></a>

O objetivo aqui é preparar os dados para a análise.
O primeiro passo é resolver todos os problemas com o cabeçalho. E então podemos passar para os valores ausentes e duplicados. Vamos começar.

Corrija a formatação nos cabeçalhos da tabela.


### Estilo do cabeçalho <a id='header_style'></a>
Imprima os cabeçalhos da tabela (os nomes das colunas):

In [7]:
# imprima os nomes das colunas
print(df.columns)

Index(['  userID', 'Track', 'artist', 'genre', '  City  ', 'time', 'Day'], dtype='object')


<div class="alert alert-block alert-warning">
<b>Comentário do revisor</b> <a class="tocSkip"></a>
Muito bem! Mas aqui não é necessário utilizar a função print() já que é a última linha da célula (isso vale como dica para as células acima também e também para as próximas)
</div>

Mude os cabeçalhos da tabela conforme as boas práticas de estilo:
* Todos os caracteres precisam estar com letras minúsculas
* Exclua espaços
* Se o nome tiver várias palavras, use snake_case

Anteriormente, você aprendeu sobre uma maneira automatizada de renomear colunas. Vamos usá-la agora. Use o ciclo for para percorrer os nomes das colunas e transformar todos os caracteres em letras minúsculas. Após fazer isso, imprima os cabeçalhos da tabela novamente:

In [8]:
# Percorrendo os cabeçalhos e convertendo tudo em minúsculos
new_col_names = []

for old_name in df.columns :
    name_lowered = old_name.lower()
    new_col_names.append(name_lowered)
    
df.columns = new_col_names

print(df.columns)

Index(['  userid', 'track', 'artist', 'genre', '  city  ', 'time', 'day'], dtype='object')


Agora, usando a mesma abordagem, exclua os espaços no início e no final de cada nome de coluna e imprima os nomes das colunas novamente:

In [9]:
# Percorrendo os cabeçalhos e removendo os espaços
new_col_names2 = []

for old_name in df.columns :
    name_stripped= old_name.strip()
    new_col_names2.append(name_stripped)
    
df.columns = new_col_names2

print(df.columns)

Index(['userid', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')


Precisamos aplicar a regra de sublinhado no lugar de espaço à coluna `userid`. Deveria ser `user_id`. Renomeie essa coluna e imprima os nomes de todas as colunas quando terminar.

In [10]:
# Renomeando a coluna "userid"
columns_new = {
    'userid' : 'user_id'
}

df.rename(columns = columns_new, inplace = True)

print(df.columns)

Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')


Verifique o resultado. Imprima os cabeçalhos novamente:

In [11]:
# verificando o resultado: a lista de cabeçalhos
print(df.columns)

Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')


<div class="alert alert-block alert-success">
<b>Comentário do revisor</b> <a class="tocSkip"></a>

Muito bom, a função rename é muito utilizada e importante neste contexto.
</div>

[Voltar ao Índice](#back)

### Valores Ausentes <a id='missing_values'></a>
 Primeiro, encontre a quantidade de valores ausentes na tabela. Você precisa usar dois métodos em sequência para obter o número de valores ausentes.

In [12]:
# calculando o número de valores ausentes
print(df.isna().sum())

user_id       0
track      1343
artist     7567
genre      1198
city          0
time          0
day           0
dtype: int64


Nem todos os valores ausentes afetam a pesquisa. Por exemplo, os valores ausentes em `track` e `artist` não são críticos. Você pode simplesmente substituí-los por valores padrão, como a string `'unknown'`.

Mas valores ausentes em `'genre'` podem afetar a comparação de preferências musicais de Springfield e Shelbyville. Na vida real, seria útil descobrir as razões pelas quais os dados estão ausentes e tentar corrigi-los. Mas nós não temos essa possibilidade neste projeto. Então, você terá que:
* Preencha esses valores ausentes com um valor padrão
* Avalie em que medida os valores ausentes podem afetar sua análise

Substitua os valores ausentes nas colunas `'track'`, `'artist'` e `'genre'` pela string `'unknown'`. Como mostramos nas lições anteriores, a melhor maneira de fazer isso é criar uma lista para armazenar os nomes das colunas nas quais precisamos fazer a substituição. Em seguida, use essa lista e percorra as colunas nas quais a substituição seja necessária e faça a substituição.

In [13]:
# percorrendo os cabeçalhos e substituindo valores ausentes por 'unknown'
columns_to_replace = ['track', 'artist', 'genre']

for col in columns_to_replace :
    df[col].fillna('unknown', inplace = True)

Agora verifique o resultado para ter certeza de que o conjunto de dados não contenha valores ausentes após a substituição. Para fazer isso, conte os valores ausentes novamente.

In [14]:
# contando os valores ausentes
print(df.isna().sum())

user_id    0
track      0
artist     0
genre      0
city       0
time       0
day        0
dtype: int64


[Voltar ao Índice](#back)

### Duplicados <a id='duplicates'></a>
Encontre o número de duplicados explícitos na tabela. Lembre-se de que você precisa aplicar dois métodos em sequência para obter o número de duplicados explícitos.

In [15]:
# contando duplicados explícitos
print(df.duplicated().sum())

3826


Agora descarte todos os duplicados. Para fazer isso, chame o método que faz exatamente isso.

In [16]:
# removendo duplicados explícitos
df = df.drop_duplicates().reset_index(drop = True)

Agora vamos verificar se descartamos todos os duplicados. Conte duplicados explícitos mais uma vez para ter certeza de que você removeu todos eles:

In [17]:
# verificando duplicados novamente
print(df.duplicated().sum())

0


Agora queremos nos livrar dos duplicados implícitos na coluna `genre`. Por exemplo, o nome de um gênero pode ser escrito de maneiras diferentes. Alguns erros afetarão também o resultado.

Para fazer isso, vamos começar imprimindo uma lista de nomes de gênero unívocos, ordenados em ordem alfabética: Para fazer isso:
* Extraia a coluna `genre` do DataFrame
* Chame o método que retornará todos os valores unívocos na coluna extraída


In [18]:
# visualizando nomes de gêneros únicos
df_genres = df['genre'].unique()
df_genres.sort()

print(df_genres)

['acid' 'acoustic' 'action' 'adult' 'africa' 'afrikaans' 'alternative'
 'ambient' 'americana' 'animated' 'anime' 'arabesk' 'arabic' 'arena'
 'argentinetango' 'art' 'audiobook' 'avantgarde' 'axé' 'baile' 'balkan'
 'beats' 'bigroom' 'black' 'bluegrass' 'blues' 'bollywood' 'bossa'
 'brazilian' 'breakbeat' 'breaks' 'broadway' 'cantautori' 'cantopop'
 'canzone' 'caribbean' 'caucasian' 'celtic' 'chamber' 'children' 'chill'
 'chinese' 'choral' 'christian' 'christmas' 'classical' 'classicmetal'
 'club' 'colombian' 'comedy' 'conjazz' 'contemporary' 'country' 'cuban'
 'dance' 'dancehall' 'dancepop' 'dark' 'death' 'deep' 'deutschrock'
 'deutschspr' 'dirty' 'disco' 'dnb' 'documentary' 'downbeat' 'downtempo'
 'drum' 'dub' 'dubstep' 'eastern' 'easy' 'electronic' 'electropop' 'emo'
 'entehno' 'epicmetal' 'estrada' 'ethnic' 'eurofolk' 'european'
 'experimental' 'extrememetal' 'fado' 'film' 'fitness' 'flamenco' 'folk'
 'folklore' 'folkmetal' 'folkrock' 'folktronica' 'forró' 'frankreich'
 'französisch' 

Olhe a lista e encontre duplicados implícitos do gênero `hiphop`. Esses podem ser nomes escritos incorretamente, ou nomes alternativos para o mesmo gênero.

Você verá os seguintes duplicados implícitos:
* `hip`
* `hop`
* `hip-hop`

Para se livrar deles, crie uma função `replace_wrong_genres()` com dois parâmetros:
* `wrong_genres=` — essa é uma lista que contém todos os valores que você precisa substituir
* `correct_genre=` — essa é uma string que você vai usar para a substituição

Como resultado, a função deve corrigir os nomes na coluna `'genre'` da tabela `df`, isto é, substituindo cada valor da lista `wrong_genres` por valores de `correct_genre`.

Dentro do corpo da função, use um ciclo `'for'` para percorrer a lista de gêneros errados, extrair a coluna `'genre'` e aplicar o método `replace` para fazer as correções.

In [17]:
# função para substituir duplicados implícitos
def replace_wrong_values (df,column,wrong_values,correct_value) :
    for wrong_value in wrong_values :
        df[column] = df[column].replace(wrong_value,correct_value)
        
    return df

Agora, chame a função `replace_wrong_genres()` e passe argumentos apropriados para que ela limpe duplicados implícitos (`hip`, `hop` e `hip-hop`) substituindo-os por `hiphop`:

In [18]:
# removendo duplicados implícitos
wrong_values = ['hip','hop','hip-hop']
correct_value = 'hiphop'
df = replace_wrong_values(df, 'genre' , wrong_values, correct_value)

print(df)

        user_id                              track            artist  \
0      FFB692EC                  Kamigata To Boots  The Mass Missile   
1      55204538        Delayed Because of Accident  Andreas Rönnberg   
2        20EC38                  Funiculì funiculà       Mario Lanza   
3      A3DD03C9              Dragons in the Sunset        Fire + Ice   
4      E2DC1FAE                        Soul People        Space Echo   
...         ...                                ...               ...   
61248  729CBB09                            My Name            McLean   
61249  D08D4A55  Maybe One Day (feat. Black Spade)       Blu & Exile   
61250  C5E3A0D5                          Jalopiina           unknown   
61251  321D0506                      Freight Train     Chas McDevitt   
61252  3A64EF84          Tell Me Sweet Little Lies      Monica Lopez   

            genre         city      time        day  
0            rock  Shelbyville  20:28:33  Wednesday  
1            rock  Springfi

Certifique-se que os nomes duplicados foram removidos. Imprima a lista de valores unívocos da coluna `'genre'` mais uma vez:

<div class="alert alert-block alert-success">
<b>Comentário do revisor</b> <a class="tocSkip"></a>

Excelente, Georgia! As funções não precisavam necessariamente receber o dataframe e a coluna como argumentos. No entanto, aprecio o fato de você incluí-los, pois isso torna as funções mais genéricas e facilmente reutilizáveis.
</div>

In [19]:
# verificando valores duplicados
df_genres = df['genre'].unique()
df_genres.sort()

print(df_genres)

['acid' 'acoustic' 'action' 'adult' 'africa' 'afrikaans' 'alternative'
 'ambient' 'americana' 'animated' 'anime' 'arabesk' 'arabic' 'arena'
 'argentinetango' 'art' 'audiobook' 'avantgarde' 'axé' 'baile' 'balkan'
 'beats' 'bigroom' 'black' 'bluegrass' 'blues' 'bollywood' 'bossa'
 'brazilian' 'breakbeat' 'breaks' 'broadway' 'cantautori' 'cantopop'
 'canzone' 'caribbean' 'caucasian' 'celtic' 'chamber' 'children' 'chill'
 'chinese' 'choral' 'christian' 'christmas' 'classical' 'classicmetal'
 'club' 'colombian' 'comedy' 'conjazz' 'contemporary' 'country' 'cuban'
 'dance' 'dancehall' 'dancepop' 'dark' 'death' 'deep' 'deutschrock'
 'deutschspr' 'dirty' 'disco' 'dnb' 'documentary' 'downbeat' 'downtempo'
 'drum' 'dub' 'dubstep' 'eastern' 'easy' 'electronic' 'electropop' 'emo'
 'entehno' 'epicmetal' 'estrada' 'ethnic' 'eurofolk' 'european'
 'experimental' 'extrememetal' 'fado' 'film' 'fitness' 'flamenco' 'folk'
 'folklore' 'folkmetal' 'folkrock' 'folktronica' 'forró' 'frankreich'
 'französisch' 

[Voltar ao Índice](#back)

### Suas observações <a id='data_preprocessing_conclusions'></a>

` Descreva brevemente o que você reparou ao analisar duplicados, bem como a abordagem que usou para eliminá-los e os resultados que alcançou.`\
\
Existem muitos estilos musicais com raizes etimológicas parecidas, numa análise profunda é interessante conferir se não há outros sinônimos desconhecidos separados contando como dois valores diferentes na lista.\
Para eliminar os duplicados encontrados utilizei função *'replace_wrong_values'*, que consiste em usar o ciclo *'for'* para percorrer a lista citada *' df['genre'] '* em busca dos valores citados em *'wrong_values'* (neste caso: 'hip', 'hop' e 'hip-hop') e substituir todos pelo mesmo valor descrito em *'correct_value'* (neste caso 'hiphop').

<div class="alert alert-block alert-success">
<b>Comentário do revisor</b> <a class="tocSkip"></a>

Novamente, suas observações são excelentes! Esse processo é crucial em um ambiente de trabalho real, onde é necessário apresentar resultados tanto para pessoas técnicas e familiarizadas com o seu trabalho, quanto para aquelas que não são técnicas e não possuem conhecimento prévio sobre análise de dados.
</div>

[Voltar ao Índice](#back)

## Etapa 3. Teste da hipótese <a id='hypothesis'></a>

### Hipótese: comparação do comportamento dos usuários nas duas cidades <a id='activity'></a>

A hipótese afirma que existem diferenças no consumo de música pelos usuários em Springfield e em Shelbyville. Para testar a hipótese, use os dados dos três dias da semana: segunda-feira (Monday), quarta-feira (Wednesday) e sexta-feira (Friday).

* Agrupe os usuários por cidade.
* Compare o número de músicas tocadas por cada grupo na segunda, quarta e sexta.


Execute cada cálculo separadamente.

O primeiro passo é *avaliar a atividade dos usuários em cada cidade*. Não se esqueça das etapas "divisão-aplicação-combinação" sobre as quais falamos anteriormente na lição. Agora seu objetivo é agrupar os dados por cidade, aplicar o método de contagem apropriado durante a etapa de aplicação e então encontrar o número de músicas tocadas por cada grupo, especificando a coluna para a qual você quer obter a contagem.

Veja um exemplo de como o resultado final deve ser:
`df.groupby(by='....')['column'].method()` Execute cada cálculo separadamente.

Para avaliar a atividade dos usuários em cada cidade, agrupe os dados por cidade e encontre o *número* de músicas reproduzidas em cada grupo.



In [20]:
# Contando as músicas tocadas em cada cidade
df_city = df.groupby('city')['track'].count()

print(df_city)

city
Shelbyville    18512
Springfield    42741
Name: track, dtype: int64


`Comente sobre suas observações aqui`\
Os habitantes de Springfield escutam mais que o dobro de músicas do que os habitantes de Shelbyville, nesta plataforma.

Agora vamos agrupar os dados por dia da semana e encontrar a quantidade de músicas tocadas na segunda, quarta e sexta-feira. Use a mesma abordagem que antes, mas agora precisamos agrupar os dados de uma forma diferente.


In [21]:
# Calculando as músicas escutadas em cada um desses três dias
df_days = df.groupby('day')['track'].count()

print(df_days)

day
Friday       21840
Monday       21354
Wednesday    18059
Name: track, dtype: int64


`Comente sobre suas observações aqui`\
Há uma diminuição na quantidade de músicas tocadas na quarta-feira.

Você acabou de aprender como contar entradas agrupando-as por cidade ou por dia. E agora você precisa escrever uma função que possa contar entradas simultaneamente com base em ambos os critérios.

Crie a função `number_tracks()` para calcular o número de músicas tocadas em um determinado dia **e** em uma determinada cidade. A função deve aceitar dois parâmetros:

- `day`: um dia da semana pelo qual precisamos filtrar os dados. Por exemplo, `'Monday'`.
- `city`: uma cidade pela qual precisamos filtrar os dados. Por exemplo, `'Springfield'`.

Dentro da função, você vai aplicar uma filtragem consecutiva com indexação lógica.

Primeiro, filtre os dados por dia e então filtre a tabela resultante por cidade.

Depois de filtrar os dados usando os dois critérios, conte o número de valores na coluna 'user_id' da tabela resultante. O resultado da contagem representará o número de entradas que você quer encontrar. Armazene o resultado em uma nova variável e imprima-o.

In [90]:
# Declare a função number_tracks() com dois parâmetros: day= e city=.
def number_tracks(day, city) :

    # Armazene as linhas do DataFrame em que o valor na coluna 'day' é igual ao parâmetro day=
    for row in df :
        days = df[df['day'] == day]
    # Filtre as linhas em que o valor na coluna 'city' é igual ao parâmetro city=
        cities = days.loc[days['city'] == city]
    # Extraia a coluna 'user_id' da tabela filtrada e aplique o método count()
        days_cities = cities['user_id'].count()
    # Retorne o número dos valores da coluna 'user_id'
    return days_cities

<div class="alert alert-block alert-warning">
<b>Comentário do revisor</b> <a class="tocSkip"></a>

Aqui você não precisa iterar pelas linhas do dataframe o pandas se encarrega de fazer isso. Teste escrever a função sem ele.
</div>

Chame a função `number_tracks()` seis vezes, mudando os valores dos parâmetros, para que você possa recuperar os dados de ambas as cidades para cada um dos três dias.

In [91]:
# a quantidade de músicas tocadas em Springfield na segunda-feira
filter1 = number_tracks('Monday', 'Springfield')
print(f'Músicas tocadas em Springfield na Segunda-feira: {filter1}')

Músicas tocadas em Springfield na Segunda-feira: 15740


In [92]:
# a quantidade de músicas tocadas em Shelbyville na segunda-feira
filter2 = number_tracks('Monday', 'Shelbyville')
print(f'Músicas tocadas em Shelbyville na Segunda-feira: {filter2}')

Músicas tocadas em Shelbyville na Segunda-feira: 5614


In [93]:
# a quantidade de músicas tocadas em Springfield na quarta-feira
filter3 = number_tracks('Wednesday', 'Springfield')
print(f'Músicas tocadas em Springfield na Quarta-feira: {filter3}')

Músicas tocadas em Springfield na Quarta-feira: 11056


In [94]:
# a quantidade de músicas tocadas em Shelbyville na quarta-feira
filter4 = number_tracks('Wednesday', 'Shelbyville')
print(f'Músicas tocadas em Shelbyville na Quarta-feira: {filter4}')

Músicas tocadas em Shelbyville na Quarta-feira: 7003


In [95]:
# a quantidade de músicas tocadas em Springfield na sexta-feira
filter5 = number_tracks('Friday', 'Springfield')
print(f'Músicas tocadas em Springfield na Sexta-feira: {filter5}')

Músicas tocadas em Springfield na Sexta-feira: 15945


In [96]:
# a quantidade de músicas tocadas em Shelbyville na sexta-feira
filter6 = number_tracks('Friday', 'Shelbyville')
print(f'Músicas tocadas em Shelbyville na Sexta-feira: {filter6}')

Músicas tocadas em Shelbyville na Sexta-feira: 5895


**Conclusões**

`Comente sobre se a terceira hipótese está correta ou deve ser rejeitada. Explique seu raciocínio.`\
\
Montando um resumo mais visual:

| Cidade | Dia | Atividade |
| --- | --- | --- |
| **Springfield** | Segunda-feira | 15740 |
| **Shelbyville** | Segunda-feira | 5614 |
| **Springfield** | Quarta-feira | 11056 |
| **Shelbyville** | Quarta-feira | 7003 |
| **Springfield** | Sexta-feira | 15945 |
| **Shelbyville** | Sexta-feira | 5895 |

Conseguimos notar uma divergência no comportamento do usuário na Quarta-feira: em Springfield a atividade do usuário diminui, enquanto a atividade do usuário em Shelbyville aumenta.

[Voltar ao Índice](#back)

# Conclusões <a id='end'></a>

`Resuma suas conclusões sobre a hipótese aqui`\
\
Primeiramente observamos que a plataforma estudada possui muito mais atividade dos usuários em Springfield do que em Shelbyville (mais do que o dobro).


| Cidade | Atividade |
| --- | --- |
| **Springfield** | 42741 |
| **Shelbyville** | 18512 |

Depois conseguimos notar uma divergência no comportamento do usuário na Quarta-feira: em Springfield a atividade do usuário diminui, enquanto a atividade do usuário em Shelbyville aumenta.


| Cidade | Dia | Atividade |
| --- | --- | --- |
| **Springfield** | Segunda-feira | 15740 |
| **Shelbyville** | Segunda-feira | 5614 |
| **Springfield** | Quarta-feira | 11056 |
| **Shelbyville** | Quarta-feira | 7003 |
| **Springfield** | Sexta-feira | 15945 |
| **Shelbyville** | Sexta-feira | 5895 |

Porém, como a atividade na cidade de Springfield é **muito** maior do que em Shelbyville, não conseguimos notar esta tendência da Quarta-feira numa análise menos aprofundada, pois o aumento de atividade que ocorre em Shelbyville não compensa a diminuição de atividade ocorrida em Springfield, tendo uma cidade maior "força numérica" sobre a outra.


| Dia | Atividade |
| --- | --- |
| **Segunda-feira** | 21354 |
| **Quarta-feira** | 18059 |
| **Sexta-feira** | 21840 |

<div class="alert alert-block alert-success">
<b>Comentário do revisor</b> <a class="tocSkip"></a>

Georgia, seu projeto foi realmente ótimo. Você não só completou todas as tarefas de forma eficaz, mas também conseguiu comunicar os resultados de maneira muito clara. Continue nesse caminho e certamente se tornará um cientista de dados de sucesso!
</div>

### Importante
Em projetos de pesquisas reais, o *teste estatístico* de hipóteses é mais preciso e quantitativo. Observe também que conclusões sobre uma cidade inteira nem sempre podem ser tiradas a partir de dados de apenas uma fonte.

Você aprenderá mais sobre testes de hipóteses no sprint sobre a análise estatística de dados.

[Voltar ao Índice](#back)