# Projeto 2 - Tripleten Bootcamp

## Introdução <a id='intro'></a>
O trabalho de um analista é analisar dados para obter percepções valiosas dos dados e tomar decisões fundamentadas neles. Esse processo consiste em várias etapas, como visão geral dos dados, pré-processamento dos dados e testes de hipóteses.

Sempre que fazemos uma pesquisa, precisamos formular uma hipótese que depois poderemos testar. Às vezes nós aceitamos essas hipóteses; outras vezes, nós as rejeitamos. Para fazer as escolhas certas, um negócio deve ser capaz de entender se está fazendo as suposições certas ou não.

Neste projeto, você vai comparar as preferências musicais dos habitantes de Springfild e Shelbyville. Você vai estudar os dados de um serviço de streaming de música online para testar a hipótese apresentada abaixo e comparar o comportamento dos usuários dessas duas cidades.

### Objetivo:
Teste a hipótese:
1. A atividade dos usuários é diferente dependendo do dia da semana e da cidade.


### Etapas
Os dados sobre o comportamento do usuário são armazenados no arquivo `/datasets/music_project_en.csv`. Não há informações sobre a qualidade dos dados, então será necessário examiná-los antes de testar a hipótese.

Primeiro, você avaliará a qualidade dos dados e verá se seus problemas são significativos. Depois, durante o pré-processamento dos dados, você tentará tratar dos problemas mais críticos.

O seu projeto consistirá em três etapas:
 1. Visão geral dos dados
 2. Pré-processamento de dados
 3. Teste da hipótese









De acordo com a documentação:
- `' userID'` — identificação do usuário
- `'Track'` — título da música
- `'artist'` — nome do artista
- `'genre'` — gênero da música
- `'City'` — cidade do usuário
- `'time'` — o tempo exato que a música foi reproduzida
- `'Day'` — dia da semana

## Etapa 1. Visão geral dos dados <a id='data_review'></a>

In [None]:
# Importando a biblioteca.
import pandas as pd

In [None]:
# Carregando o dataframe.
try:
    df = pd.read_csv(r'/datasets/music_project_en.csv')
except:
    df = pd.read_csv(r"C:\ArquivosP\Arquivos - P2\music_project_en.csv")

In [None]:
# Carregando as informações da tabela.
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65079 entries, 0 to 65078
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0     userID  65079 non-null  object
 1   Track     63736 non-null  object
 2   artist    57512 non-null  object
 3   genre     63881 non-null  object
 4     City    65079 non-null  object
 5   time      65079 non-null  object
 6   Day       65079 non-null  object
dtypes: object(7)
memory usage: 3.5+ MB


In [192]:
# Carregando uma amostra dos dados.
df.sample(10)

Unnamed: 0,user_id,track,artist,genre,city,time,day
19137,D16D58D8,5 Min,RELFY,ruspop,Springfield,21:36:37,Friday
27327,4D2A996C,Hips,Kinree,dance,Shelbyville,21:08:27,Friday
23862,1E53C0A1,Burn It Down,AtellaGali,dance,Springfield,20:43:49,Friday
38973,99F006DE,Snow,Jome,indie,Shelbyville,20:20:07,Friday
47348,E6FA25E6,Follow the Rhythm,Arp Attack,electronic,Springfield,08:21:55,Friday
41094,93072685,To Know You Is To Love You,Syreeta,pop,Springfield,20:59:39,Monday
4298,A7B83DC4,It's alright,The Jains,rock,Springfield,20:43:11,Friday
53158,53EC806A,unknown,unknown,jazz,Springfield,08:53:10,Monday
41003,B8072680,Let It Rock,Kevin Rudolf,hiphop,Shelbyville,15:00:53,Friday
7705,C5D3F7D2,On Our Knees (Brussels Sounds),Konoba & R.O,pop,Springfield,09:14:59,Wednesday


## Etapa 2. Pré-processamento de dados <a id='data_preprocessing'></a>

O objetivo aqui é preparar os dados para a análise.
O primeiro passo é resolver todos os problemas com o cabeçalho. E então podemos passar para os valores ausentes e duplicados. Vamos começar.

Corrija a formatação nos cabeçalhos da tabela.


### Estilo do cabeçalho <a id='header_style'></a>

In [168]:
# Imprimindo os cabeçalhos.
df.columns

Index(['  userID', 'Track', 'artist', 'genre', '  City  ', 'time', 'Day'], dtype='object')

In [169]:
# Corrigindo os nomes para lowercase.
new_col_name = []
for name in df.columns:
    name_lowered = name.lower()
    new_col_name.append(name_lowered)
df.columns = new_col_name
print(df.columns)

Index(['  userid', 'track', 'artist', 'genre', '  city  ', 'time', 'day'], dtype='object')


In [170]:
# Corrigindo o espaçamento dos nomes das colunas.
new_col_strip = [] 
for x in df.columns:
    name_strip = x.strip()
    new_col_strip.append(name_strip)
df.columns = new_col_strip
print(df.columns)

Index(['userid', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')


In [171]:
# Corrigindo o espaçamento de alguns nomes de colunas. 
new_name = {'userid' : 'user_id'}
df.rename(columns=new_name,inplace=True)
df.columns

Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')

In [172]:
# Verificando todas as alterações realizadas. 
df.sample(10)


Unnamed: 0,user_id,track,artist,genre,city,time,day
21131,308ED1D3,Holdin' On,Monsta,electronic,Springfield,09:49:13,Wednesday
18209,3E4BFAA7,How High the Moon,Bar Music Jazz Stars,jazz,Shelbyville,09:54:18,Monday
61697,EE871067,Bob Marley,Sinna Row,hip,Springfield,20:16:46,Friday
40726,886615C7,Aqua,,rusrap,Springfield,13:37:04,Monday
39460,A7B5CB7B,Ivory,MOVEMENT,electronic,Springfield,14:35:49,Wednesday
2773,86AE5C5C,Never Saw Blue Like That,Shawn Colvin,pop,Shelbyville,13:20:27,Wednesday
61374,A566088F,Did It,Cousin Stizz,rap,Shelbyville,13:35:17,Wednesday
24566,95CA1ABC,Love Me Forever,The Black Angels,rock,Springfield,14:06:02,Friday
48019,96AEC505,Can't You See,Total,rap,Springfield,08:46:53,Monday
11109,39EDC574,,,,Springfield,09:48:47,Wednesday


[Voltar ao Índice](#back)

### Tratamento de valores ausentes

In [173]:
# Verificando a presença de valores ausentes.
df.isna().sum()

user_id       0
track      1343
artist     7567
genre      1198
city          0
time          0
day           0
dtype: int64

Nem todos os valores ausentes afetam a pesquisa. Por exemplo, os valores ausentes em `track` e `artist` não são críticos. Você pode simplesmente substituí-los por valores padrão, como a string `'unknown'`.

Mas valores ausentes em `'genre'` podem afetar a comparação de preferências musicais de Springfield e Shelbyville. Na vida real, seria útil descobrir as razões pelas quais os dados estão ausentes e tentar corrigi-los. Mas nós não temos essa possibilidade neste projeto. Então, você terá que:
* Preencha esses valores ausentes com um valor padrão
* Avalie em que medida os valores ausentes podem afetar sua análise

Substitua os valores ausentes nas colunas `'track'`, `'artist'` e `'genre'` pela string `'unknown'`. Como mostramos nas lições anteriores, a melhor maneira de fazer isso é criar uma lista para armazenar os nomes das colunas nas quais precisamos fazer a substituição. Em seguida, use essa lista e percorra as colunas nas quais a substituição seja necessária e faça a substituição.

In [174]:
# Modificando os valores ausentes para 'unknown'.
column_to_replace = ['track','artist','genre']
for column in column_to_replace:
    df.fillna({column:'unknown'},inplace=True)

Agora verifique o resultado para ter certeza de que o conjunto de dados não contenha valores ausentes após a substituição. Para fazer isso, conte os valores ausentes novamente.

In [175]:
# Verificando novamente a presença de valores ausentes.
df.isna().sum()

user_id    0
track      0
artist     0
genre      0
city       0
time       0
day        0
dtype: int64

### Duplicados <a id='duplicates'></a>
Encontre o número de duplicados explícitos na tabela. Lembre-se de que você precisa aplicar dois métodos em sequência para obter o número de duplicados explícitos.

In [None]:
# Verificando a presença de duplicados.
df.duplicated().sum()

3826

Agora descarte todos os duplicados. Para fazer isso, chame o método que faz exatamente isso.

In [None]:
# Descartando os dados duplicados.
df = df.drop_duplicates().reset_index(drop=True)

Agora vamos verificar se descartamos todos os duplicados. Conte duplicados explícitos mais uma vez para ter certeza de que você removeu todos eles:

In [None]:
# Confirmando que todos os dados duplicados foram excluídos.
df.duplicated().sum()

0

Agora queremos nos livrar dos duplicados implícitos na coluna `genre`. Por exemplo, o nome de um gênero pode ser escrito de maneiras diferentes. Alguns erros afetarão também o resultado.

Para fazer isso, vamos começar imprimindo uma lista de nomes de gênero unívocos, ordenados em ordem alfabética: Para fazer isso:
* Extraia a coluna `genre` do DataFrame
* Chame o método que retornará todos os valores unívocos na coluna extraída


In [None]:
# Imprimindo todos os valores únicos da coluna 'genre' em ordem alfabética.
print(sorted(df['genre'].unique()))

['acid', 'acoustic', 'action', 'adult', 'africa', 'afrikaans', 'alternative', 'ambient', 'americana', 'animated', 'anime', 'arabesk', 'arabic', 'arena', 'argentinetango', 'art', 'audiobook', 'avantgarde', 'axé', 'baile', 'balkan', 'beats', 'bigroom', 'black', 'bluegrass', 'blues', 'bollywood', 'bossa', 'brazilian', 'breakbeat', 'breaks', 'broadway', 'cantautori', 'cantopop', 'canzone', 'caribbean', 'caucasian', 'celtic', 'chamber', 'children', 'chill', 'chinese', 'choral', 'christian', 'christmas', 'classical', 'classicmetal', 'club', 'colombian', 'comedy', 'conjazz', 'contemporary', 'country', 'cuban', 'dance', 'dancehall', 'dancepop', 'dark', 'death', 'deep', 'deutschrock', 'deutschspr', 'dirty', 'disco', 'dnb', 'documentary', 'downbeat', 'downtempo', 'drum', 'dub', 'dubstep', 'eastern', 'easy', 'electronic', 'electropop', 'emo', 'entehno', 'epicmetal', 'estrada', 'ethnic', 'eurofolk', 'european', 'experimental', 'extrememetal', 'fado', 'film', 'fitness', 'flamenco', 'folk', 'folklor

Olhe a lista e encontre duplicados implícitos do gênero `hiphop`. Esses podem ser nomes escritos incorretamente, ou nomes alternativos para o mesmo gênero.

Você verá os seguintes duplicados implícitos:
* `hip`
* `hop`
* `hip-hop`

Para se livrar deles, crie uma função `replace_wrong_genres()` com dois parâmetros:
* `wrong_genres=` — essa é uma lista que contém todos os valores que você precisa substituir
* `correct_genre=` — essa é uma string que você vai usar para a substituição

Como resultado, a função deve corrigir os nomes na coluna `'genre'` da tabela `df`, isto é, substituindo cada valor da lista `wrong_genres` por valores de `correct_genre`.

Dentro do corpo da função, use um ciclo `'for'` para percorrer a lista de gêneros errados, extrair a coluna `'genre'` e aplicar o método `replace` para fazer as correções.

In [None]:
# Escrevendo uma função para corrigir os dados da coluna 'genre'.
def replace_wrong_genres(wrong_genres,correct_genre):
    for wrong_genre in wrong_genres:
        df['genre'] = df['genre'].replace(wrong_genre,correct_genre)


Agora, chame a função `replace_wrong_genres()` e passe argumentos apropriados para que ela limpe duplicados implícitos (`hip`, `hop` e `hip-hop`) substituindo-os por `hiphop`:

In [None]:
# Aplicando a função.
wrong_genres = ['hip','hop','hip-hop']
correct_genre = 'hiphop'

replace_wrong_genres(wrong_genres,correct_genre)



Certifique-se que os nomes duplicados foram removidos. Imprima a lista de valores unívocos da coluna `'genre'` mais uma vez:

In [None]:
# Confirmando que os dados foram alterados.
print(sorted(df['genre'].unique()))

['acid', 'acoustic', 'action', 'adult', 'africa', 'afrikaans', 'alternative', 'ambient', 'americana', 'animated', 'anime', 'arabesk', 'arabic', 'arena', 'argentinetango', 'art', 'audiobook', 'avantgarde', 'axé', 'baile', 'balkan', 'beats', 'bigroom', 'black', 'bluegrass', 'blues', 'bollywood', 'bossa', 'brazilian', 'breakbeat', 'breaks', 'broadway', 'cantautori', 'cantopop', 'canzone', 'caribbean', 'caucasian', 'celtic', 'chamber', 'children', 'chill', 'chinese', 'choral', 'christian', 'christmas', 'classical', 'classicmetal', 'club', 'colombian', 'comedy', 'conjazz', 'contemporary', 'country', 'cuban', 'dance', 'dancehall', 'dancepop', 'dark', 'death', 'deep', 'deutschrock', 'deutschspr', 'dirty', 'disco', 'dnb', 'documentary', 'downbeat', 'downtempo', 'drum', 'dub', 'dubstep', 'eastern', 'easy', 'electronic', 'electropop', 'emo', 'entehno', 'epicmetal', 'estrada', 'ethnic', 'eurofolk', 'european', 'experimental', 'extrememetal', 'fado', 'film', 'fitness', 'flamenco', 'folk', 'folklor

## Etapa 3. Teste da hipótese <a id='hypothesis'></a>

### Hipótese: comparação do comportamento dos usuários nas duas cidades <a id='activity'></a>

A hipótese afirma que existem diferenças no consumo de música pelos usuários em Springfield e em Shelbyville. Para testar a hipótese, use os dados dos três dias da semana: segunda-feira (Monday), quarta-feira (Wednesday) e sexta-feira (Friday).

* Agrupe os usuários por cidade.
* Compare o número de músicas tocadas por cada grupo na segunda, quarta e sexta.


Execute cada cálculo separadamente.

O primeiro passo é avaliar a atividade dos usuários em cada cidade. Não se esqueça das etapas "divisão-aplicação-combinação" sobre as quais falamos anteriormente na lição. Agora seu objetivo é agrupar os dados por cidade, aplicar o método de contagem apropriado durante a etapa de aplicação e então encontrar o número de músicas tocadas por cada grupo, especificando a coluna para a qual você quer obter a contagem.

Veja um exemplo de como o resultado final deve ser:
`df.groupby(by='....')['column'].method()` Execute cada cálculo separadamente.

Para avaliar a atividade dos usuários em cada cidade, agrupe os dados por cidade e encontre o número de músicas reproduzidas em cada grupo.



In [183]:
# Agrupando o dataframe por cidade e contando o total de músicas reproduzidas.
df.groupby('city')['track'].count()

city
Shelbyville    18512
Springfield    42741
Name: track, dtype: int64

`Springfield teve mais que o dobro de músicas reproduzidas que Shelbyville.`

Agora vamos agrupar os dados por dia da semana e encontrar a quantidade de músicas tocadas na segunda, quarta e sexta-feira. Use a mesma abordagem que antes, mas agora precisamos agrupar os dados de uma forma diferente.


In [184]:
# Agrupando o dataframe por dia da semana e contando o total de músicas reproduzidas.
df.groupby('day')['track'].count()

day
Friday       21840
Monday       21354
Wednesday    18059
Name: track, dtype: int64

`A quantidade de músicas tocadas na quarta - feira (Wednesday) é quase o valor de músicas totais tocadas em Shelbyville. Com o resultado podemos interpretar que o começo da semana (Monday) tem um alto número de músicas tocadas, no meio da semana(Wednesday) esse número tende a abaixar, e no fim da semana (Friday) volta a aumentar, superando o pico do começo da semana.`

Você acabou de aprender como contar entradas agrupando-as por cidade ou por dia. E agora você precisa escrever uma função que possa contar entradas simultaneamente com base em ambos os critérios.

Crie a função `number_tracks()` para calcular o número de músicas tocadas em um determinado dia **e** em uma determinada cidade. A função deve aceitar dois parâmetros:

- `day`: um dia da semana pelo qual precisamos filtrar os dados. Por exemplo, `'Monday'`.
- `city`: uma cidade pela qual precisamos filtrar os dados. Por exemplo, `'Springfield'`.

Dentro da função, você vai aplicar uma filtragem consecutiva com indexação lógica.

Primeiro, filtre os dados por dia e então filtre a tabela resultante por cidade.

Depois de filtrar os dados usando os dois critérios, conte o número de valores na coluna 'user_id' da tabela resultante. O resultado da contagem representará o número de entradas que você quer encontrar. Armazene o resultado em uma nova variável e imprima-o.

In [None]:
# Escrevendo uma função para calcular o numero de músicas ouvidas por cidade e dia.
def number_tracks(day,city):
    df_filtered = df[df['day'] == day]
    df_filtered = df_filtered[df_filtered['city'] == city]
    df_filtered = df_filtered['user_id'].count()
    return df_filtered


Chame a função `number_tracks()` seis vezes, mudando os valores dos parâmetros, para que você possa recuperar os dados de ambas as cidades para cada um dos três dias.

In [186]:
number_tracks('Monday','Springfield')

15740

In [187]:
number_tracks('Monday','Shelbyville')

5614

In [188]:
number_tracks('Wednesday','Springfield')

11056

In [189]:
number_tracks('Wednesday','Shelbyville')

7003

In [190]:
number_tracks('Friday','Springfield')

15945

In [191]:
number_tracks('Friday', 'Shelbyville')

5895

# Conclusões <a id='end'></a>

`A hipótese está correta. Os resultados mostram que a atividade dos usuários em cada cidade é distinta. Enquanto o pico de atividade para a cidade de Springfield acontece na sexta-feira (Friday), o pico de atividade para a cidade de Shelbyville acontece na quarta-feira (Wednesday). Também é possível notar que a atividade dos usuários na cidade de Springfield é muito maior que na cidade de Shelbyville, sendo em alguns casos quase 3x mais, como é possível notar nas segundas e sextas-feiras.`