# Se liga na música: hipótese sobre serviço de streaming

# Conteúdo <a id='back'></a>

* [1) Introdução](#intro)
    * [1.1) Objetivo](#goal)
    * [1.2) Etapas](#stages)
* [2) Etapa 1. Visão geral dos dados](#data_review)
    * [2.1) Observações](#data_review_obs)
* [3) Etapa 2. Pré-processamento de dados](#data_preprocessing)
    * [3.1 Estilo do cabeçalho](#header_style)
    * [3.2 Valores ausentes](#missing_values)
    * [3.3 Duplicados](#duplicates)
    * [2.1) Observações](#data_review_obs)
    * [3.4 Conclusões](#data_preprocessing_conclusions)
* [4) Etapa 3. Teste da hipótese](#hypothesis)
    * [4.1 Hipótese 1: atividade dos usuários nas duas cidades](#activity)
* [5) Conclusões](#end)

## Introdução <a id='intro'></a>
O trabalho de um analista é analisar dados para obter percepções valiosas dos dados e tomar decisões fundamentadas neles. Esse processo consiste em várias etapas, como visão geral dos dados, pré-processamento dos dados e testes de hipóteses.

Sempre que fazemos uma pesquisa, precisamos formular uma hipótese que depois poderemos testar. Às vezes nós aceitamos essas hipóteses; outras vezes, nós as rejeitamos. Para fazer as escolhas certas, um negócio deve ser capaz de entender se está fazendo as suposições certas ou não.

Neste projeto, vamos comparar as preferências musicais dos habitantes de Springfild e Shelbyville. Iremos estudar os dados de um serviço de streaming de música online para testar a hipótese apresentada abaixo e comparar o comportamento dos usuários dessas duas cidades.

### Objetivo:
Testar a seguinte hipótese:
1. A atividade dos usuários é diferente dependendo do dia da semana e da cidade.


### Etapas
Os dados sobre o comportamento do usuário são armazenados no arquivo `/datasets/music_project_en.csv`. Não há informações sobre a qualidade dos dados, então será necessário examiná-los antes de testar a hipótese.

Primeiro, iremos avaliar a qualidade dos dados e ver se seus problemas são significativos. Depois, durante o pré-processamento dos dados, trataremos dos problemas mais críticos.

O projeto consistirá em três etapas:
 1. Visão geral dos dados
 2. Pré-processamento de dados
 3. Teste da hipótese








[Voltar ao Índice](#back)

## Etapa 1. Visão geral dos dados <a id='data_review'></a>



In [1]:
import pandas as pd # importando pandas


In [2]:
df = pd.read_csv('/datasets/music_project_en.csv')# lendo o arquivo e armazenando em df


In [3]:
print(df.head(10))# obtenha as 10 primeiras 10 linhas da tabela df


     userID                        Track            artist   genre  \
0  FFB692EC            Kamigata To Boots  The Mass Missile    rock   
1  55204538  Delayed Because of Accident  Andreas Rönnberg    rock   
2    20EC38            Funiculì funiculà       Mario Lanza     pop   
3  A3DD03C9        Dragons in the Sunset        Fire + Ice    folk   
4  E2DC1FAE                  Soul People        Space Echo   dance   
5  842029A1                       Chains          Obladaet  rusrap   
6  4CB90AA5                         True      Roman Messer   dance   
7  F03E1C1F             Feeling This Way   Polina Griffith   dance   
8  8FA1D3BE                     L’estate       Julia Dalia  ruspop   
9  E772D5C0                    Pessimist               NaN   dance   

        City        time        Day  
0  Shelbyville  20:28:33  Wednesday  
1  Springfield  14:07:09     Friday  
2  Shelbyville  20:58:07  Wednesday  
3  Shelbyville  08:37:09     Monday  
4  Springfield  08:34:34     Monday  
5

In [4]:
print(df.info())# obtendo informações gerais sobre os nossos dados


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65079 entries, 0 to 65078
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0     userID  65079 non-null  object
 1   Track     63736 non-null  object
 2   artist    57512 non-null  object
 3   genre     63881 non-null  object
 4     City    65079 non-null  object
 5   time      65079 non-null  object
 6   Day       65079 non-null  object
dtypes: object(7)
memory usage: 3.5+ MB
None


Aqui estão as nossas observações sobre a tabela. Ela contém sete colunas. Elas armazenam o mesmo tipo de dado: `object`.

De acordo com a documentação:
- `' userID'` — identificação do usuário
- `'Track'` — título da música
- `'artist'` — nome do artista
- `'genre'` — gênero da música
- `'City'` — cidade do usuário
- `'time'` — o tempo exato que a música foi reproduzida
- `'Day'` — dia da semana

Podemos ver três problemas de estilo nos cabeçalhos da tabela:
1. Alguns cabeçalhos são escritos em letras maiúsculas, outros estão em minúsculas.
2. Alguns cabeçalhos contêm espaços.
3. Alguns cabeçalhos possuem dois nomes, e precisam uniformizar o espaço entre as palavras.




### Observações <a id='data_review_conclusions'></a>

Temos o mesmo tipo de dados 'object', e os nomes das colunas nos ajudam a identificar as informações sobre cada música tocada pelos usuários. 
Entretanto, as informações ainda não são suficientes para responder a hipótese, e precisamos de mais dados.
Há dados ausentes, e algumas nomeclaturas das colunas não estão uniformes, podendo gerar erros na recuperação de dados. 

[Voltar ao Índice](#back)

## Etapa 2. Pré-processamento de dados <a id='data_preprocessing'></a>

O objetivo aqui é preparar os dados para a análise.
O primeiro passo é resolver todos os problemas com o cabeçalho. E então podemos passar para os valores ausentes e duplicados. Vamos começar.

### Estilo do cabeçalho <a id='header_style'></a>

In [5]:
print(df.columns)# imprima os nomes das colunas


Index(['  userID', 'Track', 'artist', 'genre', '  City  ', 'time', 'Day'], dtype='object')


In [6]:
new_col_names = []

for old_name in df.columns:
    name_lowered = old_name.lower()
    new_col_names.append(name_lowered)
    
df.columns = new_col_names
    
print(df.columns)# Percorrendo os cabeçalhos e convertendo tudo em minúsculos


Index(['  userid', 'track', 'artist', 'genre', '  city  ', 'time', 'day'], dtype='object')


In [7]:
new_col_names = []

for old_name in df.columns:
    name_stripped = old_name.strip()
    new_col_names.append(name_stripped)
    
df.columns = new_col_names
    
print(df.columns)
   # Percorrendo os cabeçalhos e removendo os espaços


Index(['userid', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')


In [8]:
columns_new = {"userid": "user_id"}

df.rename(columns = columns_new, inplace = True)
    
    # Renomeando a coluna "userid"
    

In [9]:

print(df.columns) # verificando o resultado: a lista de cabeçalhos


Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')


[Voltar ao Índice](#back)

### Valores Ausentes <a id='missing_values'></a>

In [10]:
print(df.isna().sum())# calculando o número de valores ausentes


user_id       0
track      1343
artist     7567
genre      1198
city          0
time          0
day           0
dtype: int64


Nem todos os valores ausentes afetam a pesquisa. Por exemplo, os valores ausentes em `track` e `artist` não são críticos. Vamos substituí-los por valores padrão, como a string `'unknown'`.

Mas valores ausentes em `'genre'` podem afetar a comparação de preferências musicais de Springfield e Shelbyville.

Vamos substituir os valores ausentes nas colunas `'track'`, `'artist'` e `'genre'` pela string `'unknown'`.

In [11]:
columns_to_replace = ['track', 'artist', 'genre']

for col in columns_to_replace:
	df[col].fillna('unknown', inplace=True)# Escreva seu código aqui

# percorrendo os cabeçalhos e substituindo valores ausentes por 'unknown'


In [12]:
print(df.isna().sum())# contando os valores ausentes


user_id    0
track      0
artist     0
genre      0
city       0
time       0
day        0
dtype: int64


[Voltar ao Índice](#back)

### Duplicados <a id='duplicates'></a>

In [13]:
print(df.duplicated().sum())# contando duplicados explícitos


3826


In [14]:
df = df.drop_duplicates().reset_index(drop=True)# removendo duplicados explícitos


In [15]:
print(df.duplicated().sum())# verificando duplicados novamente



0


Queremos nos livrar dos duplicados implícitos na coluna `genre`. Por exemplo, o nome de um gênero pode ser escrito de maneiras diferentes. Alguns erros afetarão também o resultado.

Para fazer isso, vamos começar imprimindo uma lista de nomes de gênero unívocos, ordenados em ordem alfabética.


In [16]:
sorted(df['genre'].unique())# visualizando nomes de gêneros únicos


['acid',
 'acoustic',
 'action',
 'adult',
 'africa',
 'afrikaans',
 'alternative',
 'ambient',
 'americana',
 'animated',
 'anime',
 'arabesk',
 'arabic',
 'arena',
 'argentinetango',
 'art',
 'audiobook',
 'avantgarde',
 'axé',
 'baile',
 'balkan',
 'beats',
 'bigroom',
 'black',
 'bluegrass',
 'blues',
 'bollywood',
 'bossa',
 'brazilian',
 'breakbeat',
 'breaks',
 'broadway',
 'cantautori',
 'cantopop',
 'canzone',
 'caribbean',
 'caucasian',
 'celtic',
 'chamber',
 'children',
 'chill',
 'chinese',
 'choral',
 'christian',
 'christmas',
 'classical',
 'classicmetal',
 'club',
 'colombian',
 'comedy',
 'conjazz',
 'contemporary',
 'country',
 'cuban',
 'dance',
 'dancehall',
 'dancepop',
 'dark',
 'death',
 'deep',
 'deutschrock',
 'deutschspr',
 'dirty',
 'disco',
 'dnb',
 'documentary',
 'downbeat',
 'downtempo',
 'drum',
 'dub',
 'dubstep',
 'eastern',
 'easy',
 'electronic',
 'electropop',
 'emo',
 'entehno',
 'epicmetal',
 'estrada',
 'ethnic',
 'eurofolk',
 'european',
 'expe

In [17]:
def replace_wrong_values(df, column, wrong_values, correct_value): # passando uma lista de valores incorretos e uma string com o valor correto como entrada da função
    for wrong_value in wrong_values: # percorrendo com um ciclo os nomes mal escrito
        df[column] = df[column].replace(wrong_value, correct_value) # chamando replace() para cada nome errado
    return df


Agora, chamamos a função `replace_wrong_genres()` e passamos argumentos apropriados para que ela limpe duplicados implícitos (`hip`, `hop` e `hip-hop`) substituindo-os por `hiphop`:

In [18]:
duplicates = ['hip','hop','hip-hop'] # uma lista de nomes mal escritos
name = 'hiphop' # nome correto
df = replace_wrong_values(df,'genre', duplicates, name) 
print(df)

        user_id                              track            artist  \
0      FFB692EC                  Kamigata To Boots  The Mass Missile   
1      55204538        Delayed Because of Accident  Andreas Rönnberg   
2        20EC38                  Funiculì funiculà       Mario Lanza   
3      A3DD03C9              Dragons in the Sunset        Fire + Ice   
4      E2DC1FAE                        Soul People        Space Echo   
...         ...                                ...               ...   
61248  729CBB09                            My Name            McLean   
61249  D08D4A55  Maybe One Day (feat. Black Spade)       Blu & Exile   
61250  C5E3A0D5                          Jalopiina           unknown   
61251  321D0506                      Freight Train     Chas McDevitt   
61252  3A64EF84          Tell Me Sweet Little Lies      Monica Lopez   

            genre         city      time        day  
0            rock  Shelbyville  20:28:33  Wednesday  
1            rock  Springfi

In [19]:
print(df.duplicated().sum())# verificando valores duplicados


0


[Voltar ao Índice](#back)

### Observações <a id='data_preprocessing_conclusions'></a>

Através dos dados duplicados, percebemos que num universo de mais 64 mil, somente 3826 são valores duplicados. Com isso, é notável a variedade musical ouvida pelos users nas duas cidades. Chegamos à esse resultado, identificando e eliminando os valores explícitos e implicítos do nosso Data Frame, e corrigindo nomes, zerando assim a possibilidade de recuperação de dados duplicados e tendo uma tabela mais limpa e mais fácil entendimento. 


[Voltar ao Índice](#back)

## Etapa 3. Teste da hipótese <a id='hypothesis'></a>

### Hipótese: comparação do comportamento dos usuários nas duas cidades <a id='activity'></a>

A hipótese afirma que existem diferenças no consumo de música pelos usuários em Springfield e em Shelbyville. Para testar a hipótese, usaremos os dados dos três dias da semana: segunda-feira (Monday), quarta-feira (Wednesday) e sexta-feira (Friday).


In [20]:
print(df.groupby(by='city'))
print() 
print(df.groupby(by='city')['track'].count())# Contando as músicas tocadas em cada cidade


<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7fb8b5194790>

city
Shelbyville    18512
Springfield    42741
Name: track, dtype: int64


A cidade de Springfield, nitidamente, possui mais usuários da nossa plataforma de streaming. 

Agora vamos agrupar os dados por dia da semana e encontrar a quantidade de músicas tocadas na segunda, quarta e sexta-feira. Usando a mesma abordagem que antes, mas agora precisamos agrupar os dados de uma forma diferente.


In [21]:
print(df.groupby(by='day'))
print()
print(df.groupby(by='day')['track'].count())
# Calculando as músicas escutadas em cada um desses três dias


<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7fb8b5194eb0>

day
Friday       21840
Monday       21354
Wednesday    18059
Name: track, dtype: int64


É perceptível que ao final de semana, as reproduções de música são maiores, e segunda-feira ainda consegue usufruir dessa corrente que tende à diminuir durante a semana, mas mesmo assim não é um descida abrupta.
`Comente sobre suas observações aqui`

In [22]:
def number_tracks(day, city):
    
    df_filtrado = df[df['day'] == day]
    df_filtrado = df_filtrado[df_filtrado['city'] == city]
    df_filtrado = df_filtrado['user_id'].count()
    return df_filtrado

 # Declare a função number_tracks() com dois parâmetros: day= e city=.

# Armazene as linhas do DataFrame em que o valor na coluna 'day' é igual ao parâmetro day=

    # Filtre as linhas em que o valor na coluna 'city' é igual ao parâmetro city=

    # Extraia a coluna 'user_id' da tabela filtrada e aplique o método count()

    # Retorne o número dos valores da coluna 'user_id'

Chame=aremos a função `number_tracks()` seis vezes, mudando os valores dos parâmetros, para que possamos recuperar os dados de ambas as cidades para cada um dos três dias.

In [23]:
result = number_tracks('Monday', 'Springfield') # a quantidade de músicas tocadas em Springfield na segunda-feira
print(result)

15740


In [24]:
result = number_tracks('Monday','Shelbyville')# a quantidade de músicas tocadas em Shelbyville na segunda-feira
print(result)

5614


In [25]:
result = number_tracks('Wednesday','Springfield')# a quantidade de músicas tocadas em Springfield na quarta-feira
print(result)

11056


In [26]:
result = number_tracks('Wednesday','Shelbyville')# a quantidade de músicas tocadas em Shelbyville na quarta-feira
print(result)

7003


In [27]:
result = number_tracks('Friday','Springfield')# a quantidade de músicas tocadas em Springfield na sexta-feira
print(result)

15945


In [28]:
result = number_tracks('Friday','Shelbyville')# a quantidade de músicas tocadas em Shelbyville na sexta-feira
print(result)

5895


[Voltar ao Índice](#back)

## Conclusões <a id='end'></a>

É nítida a diferença de reproduções entre as duas cidades. Enquanto Shelbyville tem 18512, Springfiled reproduz 42741 músicas, ou seja, mais que o dobro que Shelbyville.O número de reprodução nos dias de semana se diferencem muito pouco, mas em Springfiled com a proximidade do final de semana é evidente que as reproduções aumentem, assim como percebe-se que a segunda-feira ainda reflete o final de semana, ou por motivações de começar animada uma nova semana. Já em Shelbyville, o efeito do final de semana é o inverso, pois observamos que o número de reproduções é maior no meio da semana(quarta-feira).
Então, após a análise dos dados entre as duas cidades, percebemos que o número de usuários da plataforma, e de reproduções de música são inversamente proporcionais nos dias de semana, tornando-se a hipótese verdadeira.`Resuma suas conclusões sobre a hipótese aqui`

[Voltar ao Índice](#back)