# Get into the music / Se liga na música

# Content <a id='back'></a>

* [Introduction](#intro)
* [Step 1: Data overview](#data_review)
    * [Conclusions](#data_review_conclusions)
* [Step 2: Data preprocessing](#data_preprocessing)
    * [2.1 Header style](#header_style)
    * [2.2 Missing values](#missing_values)
    * [2.3 Duplicates](#duplicates)
    * [2.4 Conclusions](#data_preprocessing_conclusions)
* [Step 3. Hypothesis testing](#hypothesis)
    * [3.1 Hypothesis 1: user activity in the two cities](#activity)
* [Conclusions](#end)

=========================================================================================================================

# Conteúdo <a id='back'></a>

* [Introdução](#intro)
* [Etapa 1. Visão geral dos dados](#data_review)
    * [Conclusões](#data_review_conclusions)
* [Etapa 2. Pré-processamento de dados](#data_preprocessing)
    * [2.1 Estilo do cabeçalho](#header_style)
    * [2.2 Valores ausentes](#missing_values)
    * [2.3 Duplicados](#duplicates)
    * [2.4 Conclusões](#data_preprocessing_conclusions)
* [Etapa 3. Teste da hipótese](#hypothesis)
    * [3.1 Hipótese 1: atividade dos usuários nas duas cidades](#activity)
* [Conclusões](#end)

## Introduction <a id='intro'></a>
An analyst's job is to analyze data in order to gain valuable insights from the data and make decisions based on them. This process consists of several steps, such as data overview, data pre-processing and hypothesis testing.

Whenever we do research, we need to formulate a hypothesis that we can then test. Sometimes we accept these hypotheses; sometimes we reject them. To make the right choices, a business must be able to understand whether it is making the right assumptions or not.

In this project, you will compare the musical preferences of the inhabitants of Springfild and Shelbyville. You will study data from an online music streaming service to test the hypothesis presented below and compare the behavior of users in these two cities.

### Objective:
Test the hypothesis:
1. User activity is different depending on the day of the week and the city.


### Steps
The data on user behavior is stored in the file `/datasets/music_project_en.csv`. There is no information on the quality of the data, so it will be necessary to examine it before testing the hypothesis.

First, you will assess the quality of the data and see if your problems are significant. Then, during data pre-processing, you will try to address the most critical problems.

Your project will consist of three stages:
 1. Data overview
 2. Data pre-processing
 3. Hypothesis testing

==============================================================

`Introdução`

O trabalho de um analista é analisar dados para obter percepções valiosas dos dados e tomar decisões fundamentadas neles. Esse processo consiste em várias etapas, como visão geral dos dados, pré-processamento dos dados e testes de hipóteses.

Sempre que fazemos uma pesquisa, precisamos formular uma hipótese que depois poderemos testar. Às vezes nós aceitamos essas hipóteses; outras vezes, nós as rejeitamos. Para fazer as escolhas certas, um negócio deve ser capaz de entender se está fazendo as suposições certas ou não.

Neste projeto, você vai comparar as preferências musicais dos habitantes de Springfild e Shelbyville. Você vai estudar os dados de um serviço de streaming de música online para testar a hipótese apresentada abaixo e comparar o comportamento dos usuários dessas duas cidades.

`Objetivo:`
Teste a hipótese:
1. A atividade dos usuários é diferente dependendo do dia da semana e da cidade.


`Etapas:`
Os dados sobre o comportamento do usuário são armazenados no arquivo `/datasets/music_project_en.csv`. Não há informações sobre a qualidade dos dados, então será necessário examiná-los antes de testar a hipótese.

Primeiro, você avaliará a qualidade dos dados e verá se seus problemas são significativos. Depois, durante o pré-processamento dos dados, você tentará tratar dos problemas mais críticos.

O seu projeto consistirá em três etapas:
 1. Visão geral dos dados
 2. Pré-processamento de dados
 3. Teste da hipótese








[Back to Index](#back)

[Voltar ao Índice](#back)

## Step 1. Data overview <a id='data_review'></a>

Open the data and examine it.

Abra os dados e examine-os.

You'll need `pandas`, so import it.

==============================================================

Você precisará da `pandas`, então, importe-a.

In [2]:
# importing pandas / importando pandas

import pandas as pd

Read the file `music_project_en.csv` from the `/datasets/` folder and save it in the variable `df`:

==============================================================

Leia o arquivo `music_project_en.csv` da pasta `/datasets/` e salve-o na variável `df`:

In [3]:
# reading the file and storing it in df / lendo o arquivo e armazenando em df

df = pd.read_csv('/datasets/music_project_en.csv')

Print the first 10 rows of the table:

==============================================================

Imprima as primeiras 10 linhas da tabela:

In [4]:
# get the first 10 rows of the df table / obtenha as 10 primeiras 10 linhas da tabela df

df.head(10) # if we didn't use the number 10 in the parentheses, we would only print the first 5 rows / se não fosse utilizado o número 10 no parênteses, seriam impressos apenas as 5 primeiras linhas

Unnamed: 0,userID,Track,artist,genre,City,time,Day
0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Shelbyville,20:28:33,Wednesday
1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Springfield,14:07:09,Friday
2,20EC38,Funiculì funiculà,Mario Lanza,pop,Shelbyville,20:58:07,Wednesday
3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Shelbyville,08:37:09,Monday
4,E2DC1FAE,Soul People,Space Echo,dance,Springfield,08:34:34,Monday
5,842029A1,Chains,Obladaet,rusrap,Shelbyville,13:09:41,Friday
6,4CB90AA5,True,Roman Messer,dance,Springfield,13:00:07,Wednesday
7,F03E1C1F,Feeling This Way,Polina Griffith,dance,Springfield,20:47:49,Wednesday
8,8FA1D3BE,L’estate,Julia Dalia,ruspop,Springfield,09:17:40,Friday
9,E772D5C0,Pessimist,,dance,Shelbyville,21:20:49,Wednesday


Get general information about the table using a command. You know the method for displaying the general information we need.

==============================================================

Obtenha informações gerais sobre a tabela usando um comando. Você conhece o método para exibir informações gerais que precisamos obter.

In [5]:
# getting general information about our data / obtendo informações gerais sobre os nossos dados

df.info() # to have information about the dataframe such as index, existing columns, null/missing values, type, among others. / para ter informações sobre o dataframe como index, colunas existentes, valores nulos/ausentes, tipo, entre outras.
print() # empty line to have a space between the results of the lines of code / linha vazia para ter um espaço entre os resultados das linhas de código
df.duplicated().sum() # to find out if there are duplicate values / descobrir se existe valores duplicados
print()
df.isna().sum() # sum the null/absent values of each column / soma dos valores nulos/ausentes de cada coluna

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65079 entries, 0 to 65078
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0     userID  65079 non-null  object
 1   Track     63736 non-null  object
 2   artist    57512 non-null  object
 3   genre     63881 non-null  object
 4     City    65079 non-null  object
 5   time      65079 non-null  object
 6   Day       65079 non-null  object
dtypes: object(7)
memory usage: 3.5+ MB




  userID       0
Track       1343
artist      7567
genre       1198
  City         0
time           0
Day            0
dtype: int64

Here are our observations on the table. It contains seven columns. They store the same data type: `object`.

According to the documentation:
- `' userID'` - user ID
- `'Track'` - song title
- `'artist'` - artist name
- `'genre'` - genre of the song
- `'City'` - user's city
- `'time'` - the exact time the song was played
- `'Day'` - day of the week

We can see three style problems in the table headers:
1. Some headings are written in capital letters, others in lower case.
2. Some headers contain spaces.
3. `Detect the problem and describe it here` - When printing df.info() we see information from the dataframe in which it is possible to identify that there is a difference in how the columns are written, in which some start with capital letters and others don't, as well as that two columns, 0 - userID and 4 - City, have spacing before writing.

==============================================================

Aqui estão as nossas observações sobre a tabela. Ela contém sete colunas. Elas armazenam o mesmo tipo de dado: `object`.

De acordo com a documentação:
- `' userID'` — identificação do usuário
- `'Track'` — título da música
- `'artist'` — nome do artista
- `'genre'` — gênero da música
- `'City'` — cidade do usuário
- `'time'` — o tempo exato que a música foi reproduzida
- `'Day'` — dia da semana

Podemos ver três problemas de estilo nos cabeçalhos da tabela:
1. Alguns cabeçalhos são escritos em letras maiúsculas, outros estão em minúsculas.
2. Alguns cabeçalhos contêm espaços.
3. `Detecte o problema e o descreva aqui` - Ao imprimir df.info() vemos informações do dataframe em que é possível identificar que existe uma diferença em como estão escritas as colunas, em que algumas começam com letra maiúsculas e outras não, bem como que duas colunas, a 0 - userID e 4 - City, estão com espaçamento antes da escrita.




### Write down your observations. Here are some questions that might help: <a id='data_review_conclusions'></a>

`1.   What kind of data do we have in the rows? And how can we understand the columns?`
        - In the rows we have information that corresponds to the name of the column, but we also have missing values in all of them. In the rows we will see information such as the user's ID, the song they listened to, the artist, the genre, the user's city, the playing time and the day of the week they listened to the song. At this early stage, we can understand the columns by looking at the title that has been defined for them and understanding the information that will be displayed, for example, the 'Track' column will contain data corresponding to the name of the song listened to.

`2.   Is this data enough to answer our hypothesis or do we need more data?`
        - This data may be enough to answer our hypothesis, but we can only be sure of this once we have cleaned the data and analyzed it, so we will see if we can answer our hypothesis or if we need more data.

`3.   Have you noticed any problems with the data, such as missing values, duplicates or wrong data types?`
        - Based on this initial check, we were able to verify missing and duplicate values, as well as the data type, however, with these initial checks alone, we cannot conclude whether there are significant problems in the data without pre-processing and a more detailed analysis.

==============================================================

`Escreva suas observações. Aqui estão algumas perguntas que podem ajudar:`

`1.   Que tipo de dados temos nas linhas? E como podemos entender as colunas?`
        - Nas linhas temos informações que correspondem ao nome da coluna, contudo, também temos valores ausentes em todas elas. Nas linhas iremos ver informações como identificação do usuário, a música ouvida, qual o artista, o gênero, qual a Cidade do usuário, o tempo de reprodução e o dia da semana em que ouviu a música. Nesta fase inicial podemos entender as colunas ao olhar para o título que foi definido para ela e compreendermos a informação que será aprensentada, como por exemplo, a coluna 'Track' serão dados correspondentes ao nome da música ouvida

`2.   Esses dados são suficientes para responder à nossa hipótese ou precisamos de mais dados?`
        - Estes dados poderão ser o suficiente para responder a nossa hipótese, mas apenas será possível uma certeza disso após ser feita toda a limpeza dos dados e análise dos mesmo, de modo que veremos perceberemos se conseguimos responder a nossa hipótese ou se precisaremos de mais dados.

`3.   Você notou algum problema nos dados, como valores ausentes, duplicados ou tipos de dados errados`
        - Com base nesta verificação inicial conseguimos verificar valores ausentes e duplicados, bem como o tipo de dados, no entanto, apenas com essas verificações iniciais, não podemos concluir se há problemas significativos nos dados sem um pré-processamento e uma análise mais detalhada.

[Back to Index](#back)

[Voltar ao Índice](#back)

## Step 2. Data pre-processing <a id='data_preprocessing'></a>

The aim here is to prepare the data for analysis.
The first step is to resolve any problems with the header. Then we can move on to missing and duplicate values. Let's get started.

Correct the formatting in the table headers

==============================================================

`Etapa 2. Pré-processamento de dados`

O objetivo aqui é preparar os dados para a análise.
O primeiro passo é resolver todos os problemas com o cabeçalho. E então podemos passar para os valores ausentes e duplicados. Vamos começar.

Corrija a formatação nos cabeçalhos da tabela.


### Header style <a id='header_style'></a>
Print the table headers (the column names):

==============================================================

`Cabeçalho`

Imprima os cabeçalhos da tabela (os nomes das colunas):

In [6]:
# print the column names / imprima os nomes das colunas

import pandas as pd

df = pd.read_csv('/datasets/music_project_en.csv')

print(df.columns)

Index(['  userID', 'Track', 'artist', 'genre', '  City  ', 'time', 'Day'], dtype='object')


Change the table headers according to good style practices:
* All characters must be lowercase
* Exclude spaces
* If the name contains several words, use snake_case

==============================================================

Mude os cabeçalhos da tabela conforme as boas práticas de estilo:
* Todos os caracteres precisam estar com letras minúsculas
* Exclua espaços
* Se o nome tiver várias palavras, use snake_case

Earlier, you learned about an automated way of renaming columns. Let's use it now. Use the for loop to go through the column names and turn all the characters into lowercase letters. After doing this, print the table headers again:

==============================================================

Anteriormente, você aprendeu sobre uma maneira automatizada de renomear colunas. Vamos usá-la agora. Use o ciclo for para percorrer os nomes das colunas e transformar todos os caracteres em letras minúsculas. Após fazer isso, imprima os cabeçalhos da tabela novamente:

In [7]:
# scrolling through the headers and converting everything to lowercase / percorrendo os cabeçalhos e convertendo tudo em minúsculos

header = ['  userID', 'Track', 'artist', 'genre', '  City  ', 'time', 'Day']
header_low = []

for data in header: # loop to check list data / ciclo for para verificar dados da lista
    header_low.append(data.lower()) # transforms data to lowercase / transforma os dados para letras minúsculas
    
df.columns = header_low
    
df.columns


Index(['  userid', 'track', 'artist', 'genre', '  city  ', 'time', 'day'], dtype='object')

Now, using the same approach, delete the spaces at the beginning and end of each column name and print the column names again:

==============================================================

Agora, usando a mesma abordagem, exclua os espaços no início e no final de cada nome de coluna e imprima os nomes das colunas novamente:

In [8]:
# scrolling through headers and removing spaces / percorrendo os cabeçalhos e removendo os espaços

header_no_space = []

for spaces in header_low:
    header_no_space.append(spaces.strip()) # removes spaces at the beginning and end / remove espaços existentes no início e no final

df.columns = header_no_space
    
df.columns

Index(['userid', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')

We need to apply the underscore instead of space rule to the `userid` column. It should be `user_id`. Rename this column and print the names of all the columns when you're done.

==============================================================

Precisamos aplicar a regra de sublinhado no lugar de espaço à coluna `userid`. Deveria ser `user_id`. Renomeie essa coluna e imprima os nomes de todas as colunas quando terminar.

In [9]:
# renaming the “userid” column / renomeando a coluna "userid"

header_new ={
    'userid' : 'user_id',
}

df.rename(columns = header_new, inplace = True)

df.columns

Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')

Check the result. Print the headers again:

==============================================================

Verifique o resultado. Imprima os cabeçalhos novamente:

In [14]:
# checking the result: the list of headers / verificando o resultado: a lista de cabeçalhos

df.columns

Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')

[Back to Index](#back)

[Voltar ao Índice](#back)

### Missing values <a id='missing_values'></a>
 First, find the number of missing values in the table. You need to use two methods in sequence to get the number of missing values.
 
==============================================================

`Valores Ausentes`

Primeiro, encontre a quantidade de valores ausentes na tabela. Você precisa usar dois métodos em sequência para obter o número de valores ausentes.

In [10]:
# calculating the number of missing values / calculando o número de valores ausentes

df.isna().sum()

user_id       0
track      1343
artist     7567
genre      1198
city          0
time          0
day           0
dtype: int64

Not all missing values affect the search. For example, the missing values in `track` and `artist` are not critical. You can simply replace them with default values, such as the string `'unknown'`.

But missing values in `'genre'` could affect the comparison of Springfield and Shelbyville's musical preferences. In real life, it would be useful to find out why the data is missing and try to correct it. But we don't have that possibility in this project. So you'll have to:
* Fill in these missing values with a default value
* Evaluate the extent to which missing values can affect your analysis

==============================================================

Nem todos os valores ausentes afetam a pesquisa. Por exemplo, os valores ausentes em `track` e `artist` não são críticos. Você pode simplesmente substituí-los por valores padrão, como a string `'unknown'`.

Mas valores ausentes em `'genre'` podem afetar a comparação de preferências musicais de Springfield e Shelbyville. Na vida real, seria útil descobrir as razões pelas quais os dados estão ausentes e tentar corrigi-los. Mas nós não temos essa possibilidade neste projeto. Então, você terá que:
* Preencha esses valores ausentes com um valor padrão
* Avalie em que medida os valores ausentes podem afetar sua análise

Replace the missing values in the `'track'`, `'artist'` and `'genre'` columns with the string `'unknown'`. As we've shown in previous lessons, the best way to do this is to create a list to store the names of the columns in which we need to make the substitution. Then use this list and go through the columns where the substitution is needed and make the substitution.

==============================================================

Substitua os valores ausentes nas colunas `'track'`, `'artist'` e `'genre'` pela string `'unknown'`. Como mostramos nas lições anteriores, a melhor maneira de fazer isso é criar uma lista para armazenar os nomes das colunas nas quais precisamos fazer a substituição. Em seguida, use essa lista e percorra as colunas nas quais a substituição seja necessária e faça a substituição.

In [11]:
# going through the headers and replacing missing values with 'unknown' / percorrendo os cabeçalhos e substituindo valores ausentes por 'unknown'

columns_to_replace = ['track', 'artist', 'genre'] # columns to be changed / colunas a serem alteradas

for data in columns_to_replace: # loop to check columns and change missing values to 'unknown' / ciclo for para checar colunas e alterar vcalores ausentes por 'unknown'
    df[data].fillna('unknown', inplace = True)

Now check the result to make sure that the data set doesn't contain any missing values after the replacement. To do this, count the missing values again.

==============================================================

Agora verifique o resultado para ter certeza de que o conjunto de dados não contenha valores ausentes após a substituição. Para fazer isso, conte os valores ausentes novamente.

In [12]:
# counting the missing values / contando os valores ausentes

df.isna().sum()

user_id    0
track      0
artist     0
genre      0
city       0
time       0
day        0
dtype: int64

[Back to Index](#back)

[Voltar ao Índice](#back)

### Duplicates <a id='duplicates'></a>
Find the number of explicit duplicates in the table. Remember that you need to apply two methods in sequence to get the number of explicit duplicates.

==============================================================

`Duplicados`

Encontre o número de duplicados explícitos na tabela. Lembre-se de que você precisa aplicar dois métodos em sequência para obter o número de duplicados explícitos.

In [13]:
# counting explicit duplicates / contando duplicados explícitos

df.duplicated().sum()

3826

Now discard all duplicates. To do this, call the method that does just that.

==============================================================

Agora descarte todos os duplicados. Para fazer isso, chame o método que faz exatamente isso.

In [14]:
# removing explicit duplicates / removendo duplicados explícitos

df.drop_duplicates(inplace = True)

Now let's check that we've discarded all duplicates. Count explicit duplicates one more time to make sure you've removed all of them:

==============================================================

Agora vamos verificar se descartamos todos os duplicados. Conte duplicados explícitos mais uma vez para ter certeza de que você removeu todos eles:

In [15]:
# checking duplicates again / verificando duplicados novamente

df.duplicated().sum()

0

Now we want to get rid of the implicit duplicates in the `genre` column. For example, the name of a gender can be written in different ways. Some errors will also affect the result.

==============================================================

Agora queremos nos livrar dos duplicados implícitos na coluna `genre`. Por exemplo, o nome de um gênero pode ser escrito de maneiras diferentes. Alguns erros afetarão também o resultado.

To do this, let's start by printing a list of unique gender names, sorted in alphabetical order: To do this:
* Extract the `genre` column from the DataFrame
* Call the method that will return all the unique values in the extracted column

==============================================================

Para fazer isso, vamos começar imprimindo uma lista de nomes de gênero únicos, ordenados em ordem alfabética: Para fazer isso:
* Extraia a coluna `genre` do DataFrame
* Chame o método que retornará todos os valores únicos na coluna extraída


In [17]:
# viewing unique genre names / visualizando nomes de gêneros únicos

print(df['genre'].unique())
print()
df['genre'].nunique()

['rock' 'pop' 'folk' 'dance' 'rusrap' 'ruspop' 'world' 'electronic'
 'unknown' 'alternative' 'children' 'rnb' 'hip' 'jazz' 'postrock' 'latin'
 'classical' 'metal' 'reggae' 'triphop' 'blues' 'instrumental' 'rusrock'
 'dnb' 'türk' 'post' 'country' 'psychedelic' 'conjazz' 'indie'
 'posthardcore' 'local' 'avantgarde' 'punk' 'videogame' 'techno' 'house'
 'christmas' 'melodic' 'caucasian' 'reggaeton' 'soundtrack' 'singer' 'ska'
 'salsa' 'ambient' 'film' 'western' 'rap' 'beats' "hard'n'heavy"
 'progmetal' 'minimal' 'tropical' 'contemporary' 'new' 'soul' 'holiday'
 'german' 'jpop' 'spiritual' 'urban' 'gospel' 'nujazz' 'folkmetal'
 'trance' 'miscellaneous' 'anime' 'hardcore' 'progressive' 'korean'
 'numetal' 'vocal' 'estrada' 'tango' 'loungeelectronic' 'classicmetal'
 'dubstep' 'club' 'deep' 'southern' 'black' 'folkrock' 'fitness' 'french'
 'disco' 'religious' 'hiphop' 'drum' 'extrememetal' 'türkçe'
 'experimental' 'easy' 'metalcore' 'modern' 'argentinetango' 'old' 'swing'
 'breaks' 'eurofolk' 

269

Look through the list and find implicit duplicates of the genre `hiphop`. These could be misspelled names, or alternative names for the same genre.

You will see the following implicit duplicates:
* `hip`
* `hop`
* `hip-hop`

To get rid of them, create a `replace_wrong_genres()` function with two parameters:
* `wrong_genres=` - this is a list containing all the values you need to replace
* `correct_genre=` - this is a string that you will use for the replacement

As a result, the function should correct the names in the `'genre'` column of the `df` table, i.e. by replacing each value in the `wrong_genres` list with values from `correct_genre`.

Inside the function body, use a `'for'` loop to go through the list of wrong genres, extract the `'genre'` column and apply the `replace` method to make the corrections.

==============================================================

Olhe a lista e encontre duplicados implícitos do gênero `hiphop`. Esses podem ser nomes escritos incorretamente, ou nomes alternativos para o mesmo gênero.

Você verá os seguintes duplicados implícitos:
* `hip`
* `hop`
* `hip-hop`

Para se livrar deles, crie uma função `replace_wrong_genres()` com dois parâmetros:
* `wrong_genres=` — essa é uma lista que contém todos os valores que você precisa substituir
* `correct_genre=` — essa é uma string que você vai usar para a substituição

Como resultado, a função deve corrigir os nomes na coluna `'genre'` da tabela `df`, isto é, substituindo cada valor da lista `wrong_genres` por valores de `correct_genre`.

Dentro do corpo da função, use um ciclo `'for'` para percorrer a lista de gêneros errados, extrair a coluna `'genre'` e aplicar o método `replace` para fazer as correções.

In [18]:
# function to replace implicit duplicates / função para substituir duplicados implícitos

def replace_wrong_genres(df, column, wrong_genres, correct_genre):
    for wrong_genres in wrong_genres:
        df['genre'] = df['genre'].replace(wrong_genres, correct_genre)
    return df

Now, call the `replace_wrong_genres()` function and pass appropriate arguments so that it cleans up implicit duplicates (`hip`, `hop` and `hip-hop`) by replacing them with `hiphop`:

==============================================================

Agora, chame a função `replace_wrong_genres()` e passe argumentos apropriados para que ela limpe duplicados implícitos (`hip`, `hop` e `hip-hop`) substituindo-os por `hiphop`:

In [19]:
# removing implicit duplicates / removendo duplicados implícitos

old_genres = ['hip', 'hop', 'hip-hop']
new_genre = 'hiphop'

replace_wrong_genres(df, 'genre', old_genres, new_genre)

Unnamed: 0,user_id,track,artist,genre,city,time,day
0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Shelbyville,20:28:33,Wednesday
1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Springfield,14:07:09,Friday
2,20EC38,Funiculì funiculà,Mario Lanza,pop,Shelbyville,20:58:07,Wednesday
3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Shelbyville,08:37:09,Monday
4,E2DC1FAE,Soul People,Space Echo,dance,Springfield,08:34:34,Monday
...,...,...,...,...,...,...,...
65074,729CBB09,My Name,McLean,rnb,Springfield,13:32:28,Wednesday
65075,D08D4A55,Maybe One Day (feat. Black Spade),Blu & Exile,hiphop,Shelbyville,10:00:00,Monday
65076,C5E3A0D5,Jalopiina,unknown,industrial,Springfield,20:09:26,Friday
65077,321D0506,Freight Train,Chas McDevitt,rock,Springfield,21:43:59,Friday


Make sure that duplicate names have been removed. Print the list of unique values from the `'genre'` column once again:

==============================================================

Certifique-se que os nomes duplicados foram removidos. Imprima a lista de valores únicos da coluna `'genre'` mais uma vez:

In [20]:
# checking for duplicate values / verificando valores duplicados

print(df['genre'].unique())
print()
df['genre'].nunique()

['rock' 'pop' 'folk' 'dance' 'rusrap' 'ruspop' 'world' 'electronic'
 'unknown' 'alternative' 'children' 'rnb' 'hiphop' 'jazz' 'postrock'
 'latin' 'classical' 'metal' 'reggae' 'triphop' 'blues' 'instrumental'
 'rusrock' 'dnb' 'türk' 'post' 'country' 'psychedelic' 'conjazz' 'indie'
 'posthardcore' 'local' 'avantgarde' 'punk' 'videogame' 'techno' 'house'
 'christmas' 'melodic' 'caucasian' 'reggaeton' 'soundtrack' 'singer' 'ska'
 'salsa' 'ambient' 'film' 'western' 'rap' 'beats' "hard'n'heavy"
 'progmetal' 'minimal' 'tropical' 'contemporary' 'new' 'soul' 'holiday'
 'german' 'jpop' 'spiritual' 'urban' 'gospel' 'nujazz' 'folkmetal'
 'trance' 'miscellaneous' 'anime' 'hardcore' 'progressive' 'korean'
 'numetal' 'vocal' 'estrada' 'tango' 'loungeelectronic' 'classicmetal'
 'dubstep' 'club' 'deep' 'southern' 'black' 'folkrock' 'fitness' 'french'
 'disco' 'religious' 'drum' 'extrememetal' 'türkçe' 'experimental' 'easy'
 'metalcore' 'modern' 'argentinetango' 'old' 'swing' 'breaks' 'eurofolk'
 'stone

266

[Back to Index](#back)

[Voltar ao Índice](#back)

### Your observations <a id='data_preprocessing_conclusions'></a>

` Briefly describe what you noticed when analyzing duplicates, as well as the approach you used to eliminate them and the results you achieved.`

First, you checked for missing values using the isna() method, changing them to 'unknown' using a for loop so that it leaves the default information for when there is no data for that space in the table.

Then we checked for duplicate values with the duplicated() method, identifying 3. 826 explicit duplicates were identified and removed with the drop_duplicates method. However, there were still implicit duplicates, which were analyzed in the 'genre' column with unique() and nunique(), where initially there were 269 values in the list, which were related to the incorrect writing of the same genre type, and after cleaning up these values with the function created to change the wrong data to 'hiphop', there were a total of 266 values, which were then replaced.

==============================================================

`Suas observações`

`Descreva brevemente o que você reparou ao analisar duplicados, bem como a abordagem que usou para eliminá-los e os resultados que alcançou.`

Inicilalmente foi verificados valores ausentes através do método isna(), sendo os mesmos alterados para 'unknown' através de um ciclo for de modo que deixa a informação padrão para quando não há dados para aquele espaço na tabela.

Depois foi a verificação dos valores em duplicados com o método duplicated(), sendo identificado 3.826 duplicados explícitos que foram removidos com o método drop_duplicates, contudo, continuava a ter os duplicados implícitos que foi feita uma análise na coluna 'genre' com unique() e nunique() em que inicialmente haviam 269 valores na lista, que estavam relacionado a escrita incorreta de uma mesmo tipo gênero, e após ser feita a limpeza destes valores a função criada para alterar os dados errados para 'hiphop', ficou um total de 266 valores verificando-se então a substituição.

[Back to Index](#back)

[Voltar ao Índice](#back)

## Step 3. Testing the hypothesis <a id='hypothesis'></a>

==============================================================

`Etapa 3. Teste da hipótese`

### Hypothesis: comparison of user behavior in the two cities <a id='activity'></a>

==============================================================

`Hipótese: comparação do comportamento dos usuários nas duas cidades`

The hypothesis states that there are differences in the consumption of music by users in Springfield and Shelbyville. To test the hypothesis, use data from three days of the week: Monday, Wednesday and Friday.

* Group the users by city.
* Compare the number of songs played by each group on Monday, Wednesday and Friday.

==============================================================

A hipótese afirma que existem diferenças no consumo de música pelos usuários em Springfield e em Shelbyville. Para testar a hipótese, use os dados dos três dias da semana: segunda-feira (Monday), quarta-feira (Wednesday) e sexta-feira (Friday).

* Agrupe os usuários por cidade.
* Compare o número de músicas tocadas por cada grupo na segunda, quarta e sexta.


Perform each calculation separately.

The first step is to evaluate user activity in each city. Don't forget the “split-apply-combine” steps we talked about earlier in the lesson. Now your goal is to group the data by city, apply the appropriate counting method during the application step and then find the number of songs played by each group, specifying the column for which you want to get the count.

Here's an example of what the final result should look like:
`df.groupby(by='....')['column'].method()` Run each calculation separately.

To evaluate user activity in each city, group the data by city and find the number of songs played in each group.

==============================================================

Execute cada cálculo separadamente.

O primeiro passo é avaliar a atividade dos usuários em cada cidade. Não se esqueça das etapas "divisão-aplicação-combinação" sobre as quais falamos anteriormente na lição. Agora seu objetivo é agrupar os dados por cidade, aplicar o método de contagem apropriado durante a etapa de aplicação e então encontrar o número de músicas tocadas por cada grupo, especificando a coluna para a qual você quer obter a contagem.

Veja um exemplo de como o resultado final deve ser:
`df.groupby(by='....')['column'].method()` Execute cada cálculo separadamente.

Para avaliar a atividade dos usuários em cada cidade, agrupe os dados por cidade e encontre o número de músicas reproduzidas em cada grupo.



In [21]:
# counting the songs played in each city / contando as músicas tocadas em cada cidade

df.groupby(by = 'city')['track'].count()

city
Shelbyville    18512
Springfield    42741
Name: track, dtype: int64

`Comment on your observations here`

When we group by city and separate the number of songs listened to, you can see that Springfield basically listened to 2.3x more songs than the city of Shelbyville.

==============================================================

`Comente sobre suas observações aqui`

Ao agruparmos por cidade e separarmos o número de músicas ouvidas, pode perceber que Springfield ouviu basicamente 2.3x mais músicas que a cidade de Shelbyville.

Now let's group the data by day of the week and find the number of songs played on Monday, Wednesday and Friday. Use the same approach as before, but now we need to group the data in a different way.

==============================================================

Agora vamos agrupar os dados por dia da semana e encontrar a quantidade de músicas tocadas na segunda, quarta e sexta-feira. Use a mesma abordagem que antes, mas agora precisamos agrupar os dados de uma forma diferente.


In [22]:
# calculating the songs listened to on each of these three days / calculando as músicas escutadas em cada um desses três dias

df.groupby(by = 'day')['track'].count()

day
Friday       21840
Monday       21354
Wednesday    18059
Name: track, dtype: int64

`Comment on your observations here`

With this data we can see that there is a tendency for there to be more listeners at the beginning and end of the week (Monday and Friday) while this number decreases during the week as we can see on Wednesday.

==============================================================

`Comente sobre suas observações aqui`

Com estes dados podemos perceber que existe uma tendência de haver mais ouvintes no começo e final da semana (segunda e sexta) equanto este número diminui durante a semana como podemos ver na quarta-feira.

You've just learned how to count entries by grouping them by city or by day. And now you need to write a function that can count entries simultaneously based on both criteria.

Create the `number_tracks()` function to calculate the number of songs played on a given day **and** in a given city. The function must accept two parameters:

- `day`: a day of the week by which we need to filter the data. For example, `'Monday'`.
- `city`: a city by which we need to filter the data. For example, `'Springfield'`.

Inside the function, you'll apply consecutive filtering with logical indexing.

First, filter the data by day and then filter the resulting table by city.

After filtering the data using the two criteria, count the number of values in the 'user_id' column of the resulting table. The result of the count will represent the number of entries you want to find. Store the result in a new variable and print it.

==============================================================

Você acabou de aprender como contar entradas agrupando-as por cidade ou por dia. E agora você precisa escrever uma função que possa contar entradas simultaneamente com base em ambos os critérios.

Crie a função `number_tracks()` para calcular o número de músicas tocadas em um determinado dia **e** em uma determinada cidade. A função deve aceitar dois parâmetros:

- `day`: um dia da semana pelo qual precisamos filtrar os dados. Por exemplo, `'Monday'`.
- `city`: uma cidade pela qual precisamos filtrar os dados. Por exemplo, `'Springfield'`.

Dentro da função, você vai aplicar uma filtragem consecutiva com indexação lógica.

Primeiro, filtre os dados por dia e então filtre a tabela resultante por cidade.

Depois de filtrar os dados usando os dois critérios, conte o número de valores na coluna 'user_id' da tabela resultante. O resultado da contagem representará o número de entradas que você quer encontrar. Armazene o resultado em uma nova variável e imprima-o.

In [23]:
# declare the number_tracks() function with two parameters: day= and city=. / Declare a função number_tracks() com dois parâmetros: day= e city=.

    # store the rows of the DataFrame where the value in the 'day' column is equal to the day= parameter /* armazene as linhas do DataFrame em que o valor na coluna 'day' é igual ao parâmetro day=

    # filter the rows where the value in the 'city' column is equal to the city= parameter / filtre as linhas em que o valor na coluna 'city' é igual ao parâmetro city=

    # extract the 'user_id' column from the filtered table and apply the count() method / extraia a coluna 'user_id' da tabela filtrada e aplique o método count()

    # return the number of values in the 'user_id' column / retorne o número dos valores da coluna 'user_id'

def number_tracks(df, day, city):
    choosed_day = df[df['day'] == day] 
    choosed_city = choosed_day[choosed_day['city'] == city] 
    filtered_user = choosed_city['user_id'].count()
    return filtered_user

Call the `number_tracks()` function six times, changing the parameter values, so that you can retrieve the data for both cities for each of the three days.

==============================================================

Chame a função `number_tracks()` seis vezes, mudando os valores dos parâmetros, para que você possa recuperar os dados de ambas as cidades para cada um dos três dias.

In [24]:
# the number of songs played in Springfield on Monday / a quantidade de músicas tocadas em Springfield na segunda-feira

number_tracks(df, 'Monday', 'Springfield')

15740

In [25]:
# the number of songs played in Shelbyville on Monday / a quantidade de músicas tocadas em Shelbyville na segunda-feira

number_tracks(df, 'Monday', 'Shelbyville')

5614

In [26]:
# the number of songs played in Springfield on Wednesday / a quantidade de músicas tocadas em Springfield na quarta-feira

number_tracks(df, 'Wednesday', 'Springfield')

11056

In [27]:
# the number of songs played in Shelbyville on Wednesday / a quantidade de músicas tocadas em Shelbyville na quarta-feira

number_tracks(df, 'Wednesday', 'Shelbyville')

7003

In [28]:
# the number of songs played in Springfield on Friday / a quantidade de músicas tocadas em Springfield na sexta-feira

number_tracks(df, 'Friday', 'Springfield')

15945

In [29]:
# the number of songs played in Shelbyville on Friday / a quantidade de músicas tocadas em Shelbyville na sexta-feira

number_tracks(df, 'Friday', 'Shelbyville')

5895

**Conclusions**

`Comment on whether the third hypothesis is correct or should be rejected. Explain your reasoning.`

To analyze the third hypothesis, we filtered the data using 3 days of the week to determine whether or not there is a difference in music consumption.

Initially, we filtered only by city and then only by day. Finally, in order to better analyze the hypothesis, we created a code where we could analyze the day and city together and count the number of songs played.

The hypothesis is therefore correct.

==============================================================

**Conclusões**

`Comente sobre se a terceira hipótese está correta ou deve ser rejeitada. Explique seu raciocínio.`

Para analisar a terceira hipótese, foi feita uma filtragem nos dados sendo utilizados 3 dias da semana para determinar se existe ou não diferença no consumo de música.

Inicialmente fizemos uma filtragem apenas pelas cidades e depois apenas pelos dias. Por último e para analisar melhor a hipótese indicada, foi criado um código onde fosse possível analisar em conjunto o dia e a cidade e contar o número de músicas tocadas.

Sendo assim, a hipótese está correta.

[Back to Index](#back)

[Voltar ao Índice](#back)

# Conclusions <a id='end'></a>

==============================================================

# Conclusões <a id='end'></a>

`Summarize your conclusions about the hypothesis here`

Based on the data provided and as indicated above, we can conclude that there is a big difference in music consumption between the cities of Springfield and Shelbyville. In order to reach this conclusion, all the “cleaning” of the data was done, which involved: adjusting the header, removing duplicates and missing values.

During the analysis, we saw that there was a difference of approximately 2.3x more music consumption for the city of Springfield compared to Shelbyville. Furthermore, when we filtered the data by day and city, we found that on all the days filtered, the city of Springfield had higher consumption than Shelbyville.

Once again, I emphasize that the hypothesis is valid, considering the data that was made available to us.

==============================================================

`Resuma suas conclusões sobre a hipótese aqui`

Baseado nos dados disponibilizados e como indicado anteriormente, podemos concluir que existe sim uma grande diferença no consumo de música entre as cidades de Springfield e Shelbyville. Para chegar a essa conclusão foi feita toda a "limpeza" dos dados que envolveu: ajustar o cabeçalho, remover duplicados e valores ausentes.

Durante a análise, vimos que houve uma diferença de aproximadamente 2.3x no consumo de música a mais para a cidade de Springfield em relação Shelbyville. Além disso, quando filtrado os dados por dia e cidade, identificamos que em todos os dias filtrados a cidade de Springfield tem um consumo maior sobre Shelbyville.

Reforço mais uma vez que a hipótese é válida, considerando os dados que nos foi disponibilizado.

### Important
In real research projects, statistical hypothesis testing is more precise and quantitative. Also note that conclusions about an entire city cannot always be drawn from data from just one source.

You will learn more about hypothesis testing in the sprint on statistical data analysis.

==============================================================

`Importante`

Em projetos de pesquisas reais, o teste estatístico de hipóteses é mais preciso e quantitativo. Observe também que conclusões sobre uma cidade inteira nem sempre podem ser tiradas a partir de dados de apenas uma fonte.

Você aprenderá mais sobre testes de hipóteses no sprint sobre a análise estatística de dados.

[Back to Index](#back)

[Voltar ao Índice](#back)