# Tune in to the music!

# index <a id='back'></a>

* [Step 1. Data Overview](#data_review)
* [Conclusions](#data_review_conclusions)
* [Step 2. Data Preprocessing](#data_preprocessing)
* [2.1 Header Style](#header_style)
* [2.2 Missing Values](#missing_values)
* [2.3 Duplicates](#duplicates)
* [2.4 Conclusions](#data_preprocessing_conclusions)
* [Step 3. Hypothesis Testing](#hypothesis)
* [3.1 Hypothesis 1: User Activity in Both Cities](#activity)
* [Conclusions](#end)

## Step 1. Data Overview <a id='data_review'></a>

In [4]:
# 
import os
from pathlib import Path
os.chdir(str(Path("../")))

In [5]:
# Importing the library
import pandas as pd

In [7]:
# Reading the dataset
df = pd.read_csv('/data/music_project_en.csv')

FileNotFoundError: [Errno 2] No such file or directory: '/data/music_project_en.csv'

In [4]:
print(df.head(10))

     userID                        Track            artist   genre  \
0  FFB692EC            Kamigata To Boots  The Mass Missile    rock   
1  55204538  Delayed Because of Accident  Andreas Rönnberg    rock   
2    20EC38            Funiculì funiculà       Mario Lanza     pop   
3  A3DD03C9        Dragons in the Sunset        Fire + Ice    folk   
4  E2DC1FAE                  Soul People        Space Echo   dance   
5  842029A1                       Chains          Obladaet  rusrap   
6  4CB90AA5                         True      Roman Messer   dance   
7  F03E1C1F             Feeling This Way   Polina Griffith   dance   
8  8FA1D3BE                     L’estate       Julia Dalia  ruspop   
9  E772D5C0                    Pessimist               NaN   dance   

        City        time        Day  
0  Shelbyville  20:28:33  Wednesday  
1  Springfield  14:07:09     Friday  
2  Shelbyville  20:58:07  Wednesday  
3  Shelbyville  08:37:09     Monday  
4  Springfield  08:34:34     Monday  
5

In [5]:
# obtendo informações gerais sobre os nossos dados
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65079 entries, 0 to 65078
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0     userID  65079 non-null  object
 1   Track     63736 non-null  object
 2   artist    57512 non-null  object
 3   genre     63881 non-null  object
 4     City    65079 non-null  object
 5   time      65079 non-null  object
 6   Day       65079 non-null  object
dtypes: object(7)
memory usage: 3.5+ MB
None


Aqui estão as nossas observações sobre a tabela. Ela contém sete colunas. Elas armazenam o mesmo tipo de dado: `object`.

De acordo com a documentação:
- `' userID'` — identificação do usuário
- `'Track'` — título da música
- `'artist'` — nome do artista
- `'genre'` — gênero da música
- `'City'` — cidade do usuário
- `'time'` — o tempo exato que a música foi reproduzida
- `'Day'` — dia da semana

Podemos ver três problemas de estilo nos cabeçalhos da tabela:
1. Alguns cabeçalhos são escritos em letras maiúsculas, outros estão em minúsculas.
2. Alguns cabeçalhos contêm espaços.
3. A coluna 'userID' deve ser separada no estilo snake_case . #`Detecte o problema e o descreva aqui`.




### Escreva suas observações. Aqui estão algumas perguntas que podem ajudar: <a id='data_review_conclusions'></a>

`1.   Que tipo de dados temos nas linhas? E como podemos entender as colunas?`

    Temos dados do tipo Object/string porem a coluna time deve ser do tipo Float.

`2.   Esses dados são suficientes para responder à nossa hipótese ou precisamos de mais dados?`

    Estes dados devem ser suficientes para responder as perguntas para saber os tipos de músicas que os usuários ouvem durante a semana e comparar as duas cidades.

`3.   Você notou algum problema nos dados, como valores ausentes, duplicados ou tipos de dados errados`

   Temos dados ausentes e valores duplicado e devemos processa-los antes de seguir com o estudo do caso.


[Voltar ao Índice](#back)

<div class="alert alert-success">
<strong>Comentário do revisor v1</strong>

Bom trabalho com a introdução
</div>

## Etapa 2. Pré-processamento de dados <a id='data_preprocessing'></a>

O objetivo aqui é preparar os dados para a análise.
O primeiro passo é resolver todos os problemas com o cabeçalho. E então podemos passar para os valores ausentes e duplicados. Vamos começar.

Corrija a formatação nos cabeçalhos da tabela.


### Estilo do cabeçalho <a id='header_style'></a>
Imprima os cabeçalhos da tabela (os nomes das colunas):

In [6]:
# imprima os nomes das colunas
print(df.columns)

Index(['  userID', 'Track', 'artist', 'genre', '  City  ', 'time', 'Day'], dtype='object')


Mude os cabeçalhos da tabela conforme as boas práticas de estilo:
* Todos os caracteres precisam estar com letras minúsculas
* Exclua espaços
* Se o nome tiver várias palavras, use snake_case

Anteriormente, você aprendeu sobre uma maneira automatizada de renomear colunas. Vamos usá-la agora. Use o ciclo for para percorrer os nomes das colunas e transformar todos os caracteres em letras minúsculas. Após fazer isso, imprima os cabeçalhos da tabela novamente:

In [7]:
# Percorrendo os cabeçalhos e convertendo tudo em minúsculos
new_col_names = []  

for old_name in df.columns: 

    name_lowered = old_name.lower()  
    new_col_names.append(name_lowered)

df.columns = new_col_names
print(df.columns)

Index(['  userid', 'track', 'artist', 'genre', '  city  ', 'time', 'day'], dtype='object')


Agora, usando a mesma abordagem, exclua os espaços no início e no final de cada nome de coluna e imprima os nomes das colunas novamente:

In [8]:
# Percorrendo os cabeçalhos e removendo os espaços
new_col_names = []  

for old_name in df.columns: 

    name_clean = old_name.strip()  
    new_col_names.append(name_clean)
df.columns = new_col_names

print(df.columns)

Index(['userid', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')


Precisamos aplicar a regra de sublinhado no lugar de espaço à coluna `userid`. Deveria ser `user_id`. Renomeie essa coluna e imprima os nomes de todas as colunas quando terminar.

In [9]:
# Renomeando a coluna "userid"
new_col_names = []  

for old_name in df.columns: 

    new_name = old_name.replace('userid', 'user_id')  
    new_col_names.append(new_name)
df.columns = new_col_names

print(df.columns)

Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')


Verifique o resultado. Imprima os cabeçalhos novamente:

In [10]:
# verificando o resultado: a lista de cabeçalhos
print(df.columns)

Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')


[Voltar ao Índice](#back)

<div class="alert alert-success">
<strong>Comentário do revisor v1</strong>

Tudo certo com o nome das colunas.
</div>

### Valores Ausentes <a id='missing_values'></a>
 Primeiro, encontre a quantidade de valores ausentes na tabela. Você precisa usar dois métodos em sequência para obter o número de valores ausentes.

In [11]:
# calculando o número de valores ausentes
music_project_en = (df.isna().sum()) 

print(music_project_en)

user_id       0
track      1343
artist     7567
genre      1198
city          0
time          0
day           0
dtype: int64


Nem todos os valores ausentes afetam a pesquisa. Por exemplo, os valores ausentes em `track` e `artist` não são críticos. Você pode simplesmente substituí-los por valores padrão, como a string `'unknown'`.

Mas valores ausentes em `'genre'` podem afetar a comparação de preferências musicais de Springfield e Shelbyville. Na vida real, seria útil descobrir as razões pelas quais os dados estão ausentes e tentar corrigi-los. Mas nós não temos essa possibilidade neste projeto. Então, você terá que:
* Preencha esses valores ausentes com um valor padrão
* Avalie em que medida os valores ausentes podem afetar sua análise

Substitua os valores ausentes nas colunas `'track'`, `'artist'` e `'genre'` pela string `'unknown'`. Como mostramos nas lições anteriores, a melhor maneira de fazer isso é criar uma lista para armazenar os nomes das colunas nas quais precisamos fazer a substituição. Em seguida, use essa lista e percorra as colunas nas quais a substituição seja necessária e faça a substituição.

In [12]:
# percorrendo os cabeçalhos e substituindo valores ausentes por 'unknown'
columns_to_replace = ['track', 'artist', 'genre'] 
 
for col in columns_to_replace: 
    df[col].fillna('unknown', inplace=True) 

Agora verifique o resultado para ter certeza de que o conjunto de dados não contenha valores ausentes após a substituição. Para fazer isso, conte os valores ausentes novamente.

In [13]:
# contando os valores ausentes
music_project_en = (df.isna().sum()) 

print(music_project_en)

user_id    0
track      0
artist     0
genre      0
city       0
time       0
day        0
dtype: int64


[Voltar ao Índice](#back)

<div class="alert alert-success">
<strong>Comentário do revisor v1</strong>

Valores ausentes tratados com sucesso.
</div>

### Duplicados <a id='duplicates'></a>
Encontre o número de duplicados explícitos na tabela. Lembre-se de que você precisa aplicar dois métodos em sequência para obter o número de duplicados explícitos.

In [14]:
# contando duplicados explícitos
print(df.duplicated().sum())

3826


Agora descarte todos os duplicados. Para fazer isso, chame o método que faz exatamente isso.

In [30]:
# removendo duplicados explícitos
df = df.drop_duplicates().reset_index(drop=True)

<div class="alert alert-danger">
<strong>Comentário do revisor v1</strong>

Aqui vale a pena utilizar o .reset_index(drop=True) para garantir que não teremos problemas com a ordem das observações após removermos os duplicados:
    
Ao remover duplicatas, o índice do DataFrame pode ficar desorganizado. Isso significa que você pode acabar com lacunas no índice ou com índices que não estão mais em ordem sequencial. O método reset_index() redefine o índice do DataFrame, garantindo que ele esteja organizado novamente em uma sequência numérica contínua.
</div>





<div class="alert alert-success">
<strong>Comentário do revisor v2</strong>

Valeu pelo ajuste!
</div>

Agora vamos verificar se descartamos todos os duplicados. Conte duplicados explícitos mais uma vez para ter certeza de que você removeu todos eles:

In [31]:
# verificando duplicados novamente

print(df.duplicated().sum())

0


Agora queremos nos livrar dos duplicados implícitos na coluna `genre`. Por exemplo, o nome de um gênero pode ser escrito de maneiras diferentes. Alguns erros afetarão também o resultado.

Para fazer isso, vamos começar imprimindo uma lista de nomes de gênero únicos, ordenados em ordem alfabética: Para fazer isso:
* Extraia a coluna `genre` do DataFrame
* Chame o método que retornará todos os valores únicos na coluna extraída


In [17]:
# visualizando nomes de gêneros únicos
unique_names = df['genre'].unique()
unique_names_sorted = sorted(unique_names)
print(unique_names_sorted)

['acid', 'acoustic', 'action', 'adult', 'africa', 'afrikaans', 'alternative', 'ambient', 'americana', 'animated', 'anime', 'arabesk', 'arabic', 'arena', 'argentinetango', 'art', 'audiobook', 'avantgarde', 'axé', 'baile', 'balkan', 'beats', 'bigroom', 'black', 'bluegrass', 'blues', 'bollywood', 'bossa', 'brazilian', 'breakbeat', 'breaks', 'broadway', 'cantautori', 'cantopop', 'canzone', 'caribbean', 'caucasian', 'celtic', 'chamber', 'children', 'chill', 'chinese', 'choral', 'christian', 'christmas', 'classical', 'classicmetal', 'club', 'colombian', 'comedy', 'conjazz', 'contemporary', 'country', 'cuban', 'dance', 'dancehall', 'dancepop', 'dark', 'death', 'deep', 'deutschrock', 'deutschspr', 'dirty', 'disco', 'dnb', 'documentary', 'downbeat', 'downtempo', 'drum', 'dub', 'dubstep', 'eastern', 'easy', 'electronic', 'electropop', 'emo', 'entehno', 'epicmetal', 'estrada', 'ethnic', 'eurofolk', 'european', 'experimental', 'extrememetal', 'fado', 'film', 'fitness', 'flamenco', 'folk', 'folklor

Olhe a lista e encontre duplicados implícitos do gênero `hiphop`. Esses podem ser nomes escritos incorretamente, ou nomes alternativos para o mesmo gênero.

Você verá os seguintes duplicados implícitos:
* `hip`
* `hop`
* `hip-hop`

Para se livrar deles, crie uma função `replace_wrong_genres()` com dois parâmetros:
* `wrong_genres=` — essa é uma lista que contém todos os valores que você precisa substituir
* `correct_genre=` — essa é uma string que você vai usar para a substituição

Como resultado, a função deve corrigir os nomes na coluna `'genre'` da tabela `df`, isto é, substituindo cada valor da lista `wrong_genres` por valores de `correct_genre`.

Dentro do corpo da função, use um ciclo `'for'` para percorrer a lista de gêneros errados, extrair a coluna `'genre'` e aplicar o método `replace` para fazer as correções.

In [18]:
# função para substituir duplicados implícitos
def replace_wrong_genres(df, column, wrong_genres, correct_genre): 

    for wrong_genre in wrong_genres:  
        df[column] = df[column].replace(wrong_genre, correct_genre)  
    return df  


Agora, chame a função `replace_wrong_genres()` e passe argumentos apropriados para que ela limpe duplicados implícitos (`hip`, `hop` e `hip-hop`) substituindo-os por `hiphop`:

In [19]:
# removendo duplicados implícitos
duplicates = ['hip', 'hop', 'hip-hop'] 
name = 'hiphop' 

df = replace_wrong_genres(df, 'genre', duplicates, name) 


Certifique-se que os nomes duplicados foram removidos. Imprima a lista de valores únicos da coluna `'genre'` mais uma vez:

In [20]:
# verificando valores duplicados
unique_names = df['genre'].unique()
unique_names_sorted = sorted(unique_names)
print(unique_names_sorted)

['acid', 'acoustic', 'action', 'adult', 'africa', 'afrikaans', 'alternative', 'ambient', 'americana', 'animated', 'anime', 'arabesk', 'arabic', 'arena', 'argentinetango', 'art', 'audiobook', 'avantgarde', 'axé', 'baile', 'balkan', 'beats', 'bigroom', 'black', 'bluegrass', 'blues', 'bollywood', 'bossa', 'brazilian', 'breakbeat', 'breaks', 'broadway', 'cantautori', 'cantopop', 'canzone', 'caribbean', 'caucasian', 'celtic', 'chamber', 'children', 'chill', 'chinese', 'choral', 'christian', 'christmas', 'classical', 'classicmetal', 'club', 'colombian', 'comedy', 'conjazz', 'contemporary', 'country', 'cuban', 'dance', 'dancehall', 'dancepop', 'dark', 'death', 'deep', 'deutschrock', 'deutschspr', 'dirty', 'disco', 'dnb', 'documentary', 'downbeat', 'downtempo', 'drum', 'dub', 'dubstep', 'eastern', 'easy', 'electronic', 'electropop', 'emo', 'entehno', 'epicmetal', 'estrada', 'ethnic', 'eurofolk', 'european', 'experimental', 'extrememetal', 'fado', 'film', 'fitness', 'flamenco', 'folk', 'folklor

[Voltar ao Índice](#back)

### Suas observações <a id='data_preprocessing_conclusions'></a>

` Descreva brevemente o que você reparou ao analisar duplicados, bem como a abordagem que usou para eliminá-los e os resultados que alcançou.`

A substitiução de valores ausentes, quando aplicavel, é simples mas a susbtituição de valores duplicados num volume alto de dados se muito trabalhoso.

[Voltar ao Índice](#back)


<div class="alert alert-success">
<strong>Comentário do revisor v1</strong>

Bom trabalho com os duplicados implícitos e explícitos.
</div>


## Etapa 3. Teste da hipótese <a id='hypothesis'></a>

### Hipótese: comparação do comportamento dos usuários nas duas cidades <a id='activity'></a>

A hipótese afirma que existem diferenças no consumo de música pelos usuários em Springfield e em Shelbyville. Para testar a hipótese, use os dados dos três dias da semana: segunda-feira (Monday), quarta-feira (Wednesday) e sexta-feira (Friday).

* Agrupe os usuários por cidade.
* Compare o número de músicas tocadas por cada grupo na segunda, quarta e sexta.


Execute cada cálculo separadamente.

O primeiro passo é avaliar a atividade dos usuários em cada cidade. Não se esqueça das etapas "divisão-aplicação-combinação" sobre as quais falamos anteriormente na lição. Agora seu objetivo é agrupar os dados por cidade, aplicar o método de contagem apropriado durante a etapa de aplicação e então encontrar o número de músicas tocadas por cada grupo, especificando a coluna para a qual você quer obter a contagem.

Veja um exemplo de como o resultado final deve ser:
`df.groupby(by='....')['column'].method()` Execute cada cálculo separadamente.

Para avaliar a atividade dos usuários em cada cidade, agrupe os dados por cidade e encontre o número de músicas reproduzidas em cada grupo.



In [21]:
# Contando as músicas tocadas em cada cidade
groups = df.groupby('city')['user_id'].count()
print(groups)


city
Shelbyville    18512
Springfield    42741
Name: user_id, dtype: int64


`Comente sobre suas observações aqui`

Springfield ouve muito mais músicas do que Shelbyville

Agora vamos agrupar os dados por dia da semana e encontrar a quantidade de músicas tocadas na segunda, quarta e sexta-feira. Use a mesma abordagem que antes, mas agora precisamos agrupar os dados de uma forma diferente.


In [22]:
# Calculando as músicas escutadas em cada um desses três dias
days_of_the_week = df.groupby('day')['city'].count()
print(days_of_the_week)


day
Friday       21840
Monday       21354
Wednesday    18059
Name: city, dtype: int64


`Comente sobre suas observações aqui`

Você acabou de aprender como contar entradas agrupando-as por cidade ou por dia. E agora você precisa escrever uma função que possa contar entradas simultaneamente com base em ambos os critérios.

Crie a função `number_tracks()` para calcular o número de músicas tocadas em um determinado dia **e** em uma determinada cidade. A função deve aceitar dois parâmetros:

- `day`: um dia da semana pelo qual precisamos filtrar os dados. Por exemplo, `'Monday'`.
- `city`: uma cidade pela qual precisamos filtrar os dados. Por exemplo, `'Springfield'`.

Dentro da função, você vai aplicar uma filtragem consecutiva com indexação lógica.

Primeiro, filtre os dados por dia e então filtre a tabela resultante por cidade.

Depois de filtrar os dados usando os dois critérios, conte o número de valores na coluna 'user_id' da tabela resultante. O resultado da contagem representará o número de entradas que você quer encontrar. Armazene o resultado em uma nova variável e imprima-o.

In [23]:
# Declare a função number_tracks() com dois parâmetros: day= e city=.
def number_track(day, city):

    # Armazene as linhas do DataFrame em que o valor na coluna 'day' é igual ao parâmetro day=
    filter_day = df[df['day'] == day]
    # Filtre as linhas em que o valor na coluna 'city' é igual ao parâmetro city=
    filter_city =  filter_day[filter_day['city'] == city]
    # Extraia a coluna 'uaser_id' da tabela filtrada e aplique o método count()
    filter_user = filter_city['user_id'].count()
    # Retorne o número dos valores da coluna 'user_id'
    return filter_user


Chame a função `number_tracks()` seis vezes, mudando os valores dos parâmetros, para que você possa recuperar os dados de ambas as cidades para cada um dos três dias.

In [24]:
# a quantidade de músicas tocadas em Springfield na segunda-feira
number_track('Monday', 'Springfield')

15740

In [25]:
# a quantidade de músicas tocadas em Shelbyville na segunda-feira
number_track('Monday', 'Shelbyville')

5614

In [26]:
# a quantidade de músicas tocadas em Springfield na quarta-feira
number_track('Wednesday', 'Springfield')

11056

In [27]:
# a quantidade de músicas tocadas em Shelbyville na quarta-feira
number_track('Wednesday', 'Shelbyville')

7003

In [28]:
# a quantidade de músicas tocadas em Springfield na sexta-feira
number_track('Friday', 'Springfield')

15945

In [29]:
# a quantidade de músicas tocadas em Shelbyville na sexta-feira
number_track('Friday', 'Shelbyville')

5895

<div class="alert alert-success">
<strong>Comentário do revisor v1</strong>

A função solicitada foi desenvolvida e o cálculo das reproduções foi realizado com sucesso.
</div>



**Conclusões**

`Comente sobre se a terceira hipótese está correta ou deve ser rejeitada. Explique seu raciocínio.`

De um modo geral as pessoas de Springfield ouvem mais música do que as pessoas de Shelbyville, afirmando a hipótese.
O dia da semana em que mais se ouvem músicas em Springfield é na sexta-feira, seguido da segunda-feira e enfim quarta-feira.
Em Shelbyville o dia mais ouvido é quarta-feira, seguido de sexta-feira e por fim segunda o dia de menor reprodução.

[Voltar ao Índice](#back)

<div class="alert alert-success">
<strong>Comentário do revisor v1</strong>

A hipótese foi avaliada com sucesso e argumentos robustos foram apresentados justificando a conclusão.
</div>


# Conclusões <a id='end'></a>

`Resuma suas conclusões sobre a hipótese aqui`

Concluindo, em Springfield se ouve mais música do que comparado a Shelbyville provando a hipótese de diferença de reprodução entre as duas cidades pelo serviço de streaming.

<div class="alert alert-warning">
<strong>Comentário do revisor v1</strong>

Tudo certo com a análise que fez no passo anterior, mas para a conclusão, note que as diferenças entre as cidades tem menos a ver com o seu tamanho e mais a ver com o seu comportamento. Cidades podem ter oerfis muito semelhantes de consumo musical mesmo diferindo quanto ao tamanho.
</div>


In [None]:
<div class="alert alert-warning">

### Importante
Em projetos de pesquisas reais, o teste estatístico de hipóteses é mais preciso e quantitativo. Observe também que conclusões sobre uma cidade inteira nem sempre podem ser tiradas a partir de dados de apenas uma fonte.

Você aprenderá mais sobre testes de hipóteses no sprint sobre a análise estatística de dados.

[Voltar ao Índice](#back)