# Conteúdo <a id='back'></a>

* [Introdução](#intro)
* [Etapa 1. Visão geral dos dados](#data_review)
    * [Conclusões](#data_review_conclusions)
* [Etapa 2. Pré-processamento de dados](#data_preprocessing)
    * [2.1 Estilo do cabeçalho](#header_style)
    * [2.2 Valores ausentes](#missing_values)
    * [2.3 Duplicados](#duplicates)
    * [2.4 Conclusões](#data_preprocessing_conclusions)
* [Etapa 3. Teste das hipóteses](#hypotheses)
    * [3.1 Hipótese 1: atividade dos usuários nas duas cidades](#activity)
    * [3.2 Hipótese 2: preferências musicais na segunda e sexta-feira](#week)
    * [3.3 Hipótese 3: preferências de gênero em Springfield e Shelbyville](#genre)
* [Conclusões](#end)

## Introdução <a id='intro'></a>
Este projeto foi desenvolvido como parte da sprint de Python Básico do curso de Ciência de Dados da TripleTen e foi o primeiro projeto utilizando Python. O foco principal foi explorando e manipulando um conjunto de dados de um serviço de streaming de música online, com o objetivo de comparar as preferências musicais dos habitantes das cidades de Springfield e Shelbyville. O projeto envolveu a análise e pré-processamento dos dados, aplicação de testes de hipóteses e a criação de funções para contar, filtrar e agrupar os dados, além de gerar insights sobre o comportamento dos usuários dessas duas cidades.

Agora, estamos convertendo o projeto para um portfólio mais profissional, com foco em boas práticas de programação, clareza e organização do código. As etapas incluem a realização de uma análise estatística, a visualização de dados e o uso de bibliotecas do Python, como Pandas, para realizar as manipulações necessárias e obter conclusões sobre as preferências musicais dos usuários.

### Objetivo:
Testar as três hipóteses:
1. A atividade do usuário varia dependendo do dia da semana e da cidade.
2. Nas segundas-feiras de manhã, os habitantes de Springfield e Shelbyville escutam diferentes gêneros. Isso também é verdadeiro para noites de sexta-feira.
3. Ouvintes de Springfield e Shelbyville têm preferências diferentes. Em Springfield, as pessoas preferem pop, enquanto Shelbyville tem mais fãs de rap.

### Etapas
Os dados sobre o comportamento dos usuários estão armazenados no arquivo `/datasets/music_project_en.csv`. Não há informação sobre a qualidade dos dados, então precisamos examiná-los antes de testar as hipóteses.

Primeiro, avaliaremos a qualidade dos dados e verificaremos se seus problemas são significativos. Depois, durante o pré-processamento dos dados, tentaremos tratar os problemas mais críticos.

O seu projeto consiste em três etapas:
1. Visão geral dos dados
2. Pré-processamento de dados
3. Teste das hipóteses


In [1]:
# Compare the datetime objects

dt1 = "12:00:00"
dt2 = "06:00:00"

if dt1 < dt2:
    print("Timestamp 2 is later")
else:
    print("Timestamp 1 is later")

Timestamp 1 is later


[Back to Contents](#back)

## Etapa 1. Visão geral dos dados <a id='data_review'></a>

Abra os dados e examine-os.

Vamos precisar da `pandas`, então, vamos importa-la.

In [2]:
# importando pandas
import pandas as pd

Lendo o arquivo `music_project_en.csv` e armazenando-o na variável `df`:

In [3]:
# lendo o arquivo e armazenando-o em df
df = pd.read_csv('music_project_en.csv')

Imprimindo as primeiras 10 linhas da tabela:

In [4]:
# obtendo as primeiras 10 linhas da tabela df
df.head(10)

Unnamed: 0,userID,Track,artist,genre,City,time,Day
0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Shelbyville,20:28:33,Wednesday
1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Springfield,14:07:09,Friday
2,20EC38,Funiculì funiculà,Mario Lanza,pop,Shelbyville,20:58:07,Wednesday
3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Shelbyville,08:37:09,Monday
4,E2DC1FAE,Soul People,Space Echo,dance,Springfield,08:34:34,Monday
5,842029A1,Chains,Obladaet,rusrap,Shelbyville,13:09:41,Friday
6,4CB90AA5,True,Roman Messer,dance,Springfield,13:00:07,Wednesday
7,F03E1C1F,Feeling This Way,Polina Griffith,dance,Springfield,20:47:49,Wednesday
8,8FA1D3BE,L’estate,Julia Dalia,ruspop,Springfield,09:17:40,Friday
9,E772D5C0,Pessimist,,dance,Shelbyville,21:20:49,Wednesday


Obtendo a informação geral sobre a tabela usando um comando:

In [5]:
# obter informação geral sobre os dados em df
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65079 entries, 0 to 65078
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0     userID  65079 non-null  object
 1   Track     63736 non-null  object
 2   artist    57512 non-null  object
 3   genre     63881 non-null  object
 4     City    65079 non-null  object
 5   time      65079 non-null  object
 6   Day       65079 non-null  object
dtypes: object(7)
memory usage: 3.5+ MB


Aqui estão as nossas observações sobre a tabela. Ela contém sete colunas. Elas armazenam o mesmo tipo de dados: `object`.

De acordo com a documentação:
- `'userID'` — identificação do usuário
- `'Track'` — título da música
- `'artist'` — nome do artista
- `'genre'` — gênero da música
- `'City'` — cidade do usuário
- `'time'` — tempo exato que a música foi tocada
- `'Day'` — dia da semana

Verificando valores duplicados

In [6]:
# Verificando se há duplicatas no df inteiro
duplicados = df.duplicated()

# Mostrando apenas as linhas duplicadas
linhas_duplicadas = df[duplicados]

print(linhas_duplicadas)

         userID                Track                          artist  \
575    E7F07B46                Crazy                  The Manhattans   
832    7671A47A           Johnny Go!                          NikitA   
1216   69467B01        Change It All                  Harrison Storm   
1754   13B1A573    Te Adoramos Jesús                         Athenas   
1964   B24668A0  Mad over You Mashup                      Nana Fofie   
...         ...                  ...                             ...   
65042  83E9C8C4        Buddhist Beat  Asian Zen Spa Music Meditation   
65056  2E25BCD2          Psychobitch                          Easter   
65059  F231C47E  All Summer in a Day                     VHS Or BETA   
65067  F1B93F29          Poison Kiss                     Centerstone   
65069  BE1AAD74            Waterwalk                Eduardo Gonzales   

            genre       City        time        Day  
575           rnb  Springfield  13:39:46     Monday  
832        ruspop  Springfi

Verificando valores nulos

In [7]:
# Exibindo linhas com pelo menos um valor nulo
print(df[df.isnull().any(axis=1)])  

         userID                Track artist       genre       City    \
9      E772D5C0            Pessimist    NaN       dance  Shelbyville   
15     E3C5756F                  NaN    NaN         NaN  Springfield   
35     A8AE9169                  NaN    NaN         NaN  Springfield   
40     77979A66               Sci-Fi    NaN      rusrap  Shelbyville   
54     3FA9A6A8           Inside Out    NaN         NaN  Springfield   
...         ...                  ...    ...         ...          ...   
65021  83831D51                  NaN    NaN         hip  Shelbyville   
65023  356BE973  Don't Give up on Me    NaN       dance  Springfield   
65025   C8DD4A4       Moscow Calling    NaN     rusrock  Springfield   
65039  57B3F0CE                Intro    NaN      rusrap  Springfield   
65076  C5E3A0D5            Jalopiina    NaN  industrial  Springfield   

           time        Day  
9      21:20:49  Wednesday  
15     09:24:51     Monday  
35     08:56:10     Monday  
40     08:45:43    

### Suas observações <a id='data_review_conclusions'></a>
Podemos ver três problemas de estilo nos cabeçalhos da tabela:
1. Alguns cabeçalhos são escritos em letras maiúsculas, outros estão em minúsculas.
2. Alguns cabeçalhos contêm espaços.
3. Alguns cabeçalhos não adotam o metodo snake_case.
4. Algumas linhas apresentam ter valores ausentes.
5. Algumas linhas apresentam ter valores duplicados.
6. Algumas colunas apresentam ter valores e tipos de dados errados.

acredito que esses dados são suficientes para responder às nossas três hipóteses, temos que proseguir com o projeto para ver mais

[Voltar ao Índice](#back)

## Etapa 2. Pré-processamento de dados <a id='data_preprocessing'></a>

O objetivo aqui é preparar os dados para a análise.
O primeiro passo é resolver todos os problemas com o cabeçalho. E então podemos passar para os valores ausentes e duplicados. Vamos começar.

Corrija a formatação nos cabeçalhos da tabela.


### Estilo do cabeçalho <a id='header_style'></a>
Imprimindo os cabeçalhos da tabela:

In [8]:
# a lista de cabeçalhos para a tabela df
print(df.columns)

Index(['  userID', 'Track', 'artist', 'genre', '  City  ', 'time', 'Day'], dtype='object')


Mudando os cabeçalhos da tabela conforme as boas práticas de estilo:
* Todos os caracteres precisam estar com letras minúsculas
* Delete espaços
* Se o nome tiver várias palavras, use snake_case

Transformando todos os caracteres em minúsculos e imprima o cabeçalho da tabela novamente:

In [9]:
# Percorrendo os cabeçalhos e convertendo tudo em minúsculos
new_columns_names = []
for old_name in df.columns:
    name_lowered = old_name.lower()
    new_columns_names.append(name_lowered)
df.columns = new_columns_names

removendo os espaços no início e no final dos cabeçalhos e imprimindo-os:

In [10]:
# Percorrendo os cabeçalhos e removendo os espaços
new_columns_names = []
for name_lowered in df.columns:
    name_stripped = name_lowered.strip()
    new_columns_names.append(name_stripped)
df.columns = new_columns_names

Aplicando snake_case ao cabeçalho userID e imprimindo o cabeçalho da tabela:

In [11]:
# Renomeando o cabeçalho "userid"
df.rename(columns={"userid": "user_id",},inplace=True,)

Verificando o resultado e imprimindo os cabeçalhos novamente:

In [12]:
# verificando o resultado: a lista de cabeçalhos
print(df.columns)

Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')


[Voltar ao Índice](#back)

### Valores ausentes <a id='missing_values'></a>
Primeiro, encontrando a quantidade de valores ausentes na tabela.

In [13]:
# calculando o número de valores ausentes
print(df.isna().sum()) 

user_id       0
track      1343
artist     7567
genre      1198
city          0
time          0
day           0
dtype: int64


Nem todos os valores ausentes afetam a pesquisa. Por exemplo, os valores ausentes nas colunas `track` e `artist` não são críticos. podemos simplesmente substituí-los por valores padrão, como, por exemplo, a string `'unknown'`.

Mas valores ausentes em `'genre'` podem afetar a comparação de preferências musicais em Springfield e Shelbyville. Na vida real, seria útil descobrir as razões pelas quais os dados estão ausentes e tentar corrigi-los. Mas nós não temos essa possibilidade neste projeto. Então, nós teremos que:
* Preencher esses valores ausentes com um valor padrão
* Avaliar em que medida os valores ausentes podem afetar a nossa análise

Substituindo os valores ausentes em `'track'`, `'artist'`, e `'genre'` pela string `'unknown'`. Para fazer isso, vamos criar a lista `columns_to_replace`, percorrendo-a com um ciclo `for` e substituindo-a os valores ausentes em cada coluna:

In [14]:
# percorrendo os cabeçalhos e substituindo valores ausentes por 'unknown'
columns_to_replace = ['track', 'artist', 'genre']
for col in columns_to_replace:
    df[col].fillna('unknown', inplace=True)

Nos certificando de que a tabela não contém mais valores ausentes.

In [15]:
# contando os valores ausentes
print(df.isna().sum())

user_id    0
track      0
artist     0
genre      0
city       0
time       0
day        0
dtype: int64


[Voltar ao Índice](#back)

### Valores duplicados <a id='duplicates'></a>
Encontrando o número dos duplicados explícitos na tabela usando um comando:

In [16]:
# contando duplicados explícitos
print(df.duplicated().sum()) 

3826


Chamando o método `pandas` para se livrar dos duplicados explícitos:

In [17]:
# removendo duplicados explícitos
df = df.drop_duplicates().reset_index(drop = True)

Contando os duplicados explícitos mais uma vez para nos certificarmos de que nós removemos todos eles:

In [18]:
# verificando duplicados
print(df.duplicated().sum()) 

0


Agora queremos nos livrar dos duplicados implícitos na coluna `genre`. Por exemplo, o nome de um gênero pode ser escrito de maneiras diferentes. Alguns erros afetarão também o resultado.

Para fazer isso, vamos começar imprimindo uma lista de nomes de gênero unívocos, ordenados em ordem alfabética: Para fazer isso:
* Vamos obter a coluna pretendida do DataFrame.
* Vamos chamar o método que retornará todos os valores unívocos da coluna.
* Vamos aplicar um método de ordenação ao resultado.


In [19]:
# visualizando nomes unívocos de gêneros
print(df['genre'].unique()) 

['rock' 'pop' 'folk' 'dance' 'rusrap' 'ruspop' 'world' 'electronic'
 'unknown' 'alternative' 'children' 'rnb' 'hip' 'jazz' 'postrock' 'latin'
 'classical' 'metal' 'reggae' 'triphop' 'blues' 'instrumental' 'rusrock'
 'dnb' 'türk' 'post' 'country' 'psychedelic' 'conjazz' 'indie'
 'posthardcore' 'local' 'avantgarde' 'punk' 'videogame' 'techno' 'house'
 'christmas' 'melodic' 'caucasian' 'reggaeton' 'soundtrack' 'singer' 'ska'
 'salsa' 'ambient' 'film' 'western' 'rap' 'beats' "hard'n'heavy"
 'progmetal' 'minimal' 'tropical' 'contemporary' 'new' 'soul' 'holiday'
 'german' 'jpop' 'spiritual' 'urban' 'gospel' 'nujazz' 'folkmetal'
 'trance' 'miscellaneous' 'anime' 'hardcore' 'progressive' 'korean'
 'numetal' 'vocal' 'estrada' 'tango' 'loungeelectronic' 'classicmetal'
 'dubstep' 'club' 'deep' 'southern' 'black' 'folkrock' 'fitness' 'french'
 'disco' 'religious' 'hiphop' 'drum' 'extrememetal' 'türkçe'
 'experimental' 'easy' 'metalcore' 'modern' 'argentinetango' 'old' 'swing'
 'breaks' 'eurofolk' 

Olhe a lista e encontramos duplicados implícitos do gênero `hiphop`. Esses podem ser nomes escritos incorretamente, ou nomes alternativos para o mesmo gênero.

Nós vemos os seguintes duplicados implícitos:
* `hip`
* `hop`
* `hip-hop`

Para nos livrarmos deles, declararemos a função `replace_wrong_genres()` com dois parâmetros:
* `wrong_genres=` — a lista dos duplicados
* `correct_genre=` — a string com o valor correto

A função deve corrigir os nomes na coluna `'genre'` da tabela `df`, isto é, substituir cada valor da lista `wrong_genres` pelo valor de `correct_genre`. Usaremos o ciclo `'for'` para percorrer a lista de gêneros errados e substituí-los pelo gênero correto na lista principal.

In [20]:
# função para substituir duplicados implícitos
def replace_wrong_genres(wrong_genres, correct_genre, df):
    for wrong_genre in wrong_genres:
        df['genre'] = df['genre'].replace(wrong_genre, correct_genre)

Chamando `replace_wrong_genres()` e passando a ela argumentos para que possa eliminar os duplicados implícitos (`hip`, `hop` e `hip-hop`) e substituí-los por `hiphop`:

In [21]:
# removendo duplicados implícitos
wrong_genres = ['hip', 'hop', 'hip-hop']
correct_genre = 'hiphop'  # O valor correto
replace_wrong_genres(wrong_genres, correct_genre, df)

Nos Certificando de que os nomes duplicados foram removidos. Imprimindo a lista de valores unívocos da coluna `'genre'` mais uma vez:

In [22]:
# verificando a existência de valores duplicados
print(df['genre'].unique())

['rock' 'pop' 'folk' 'dance' 'rusrap' 'ruspop' 'world' 'electronic'
 'unknown' 'alternative' 'children' 'rnb' 'hiphop' 'jazz' 'postrock'
 'latin' 'classical' 'metal' 'reggae' 'triphop' 'blues' 'instrumental'
 'rusrock' 'dnb' 'türk' 'post' 'country' 'psychedelic' 'conjazz' 'indie'
 'posthardcore' 'local' 'avantgarde' 'punk' 'videogame' 'techno' 'house'
 'christmas' 'melodic' 'caucasian' 'reggaeton' 'soundtrack' 'singer' 'ska'
 'salsa' 'ambient' 'film' 'western' 'rap' 'beats' "hard'n'heavy"
 'progmetal' 'minimal' 'tropical' 'contemporary' 'new' 'soul' 'holiday'
 'german' 'jpop' 'spiritual' 'urban' 'gospel' 'nujazz' 'folkmetal'
 'trance' 'miscellaneous' 'anime' 'hardcore' 'progressive' 'korean'
 'numetal' 'vocal' 'estrada' 'tango' 'loungeelectronic' 'classicmetal'
 'dubstep' 'club' 'deep' 'southern' 'black' 'folkrock' 'fitness' 'french'
 'disco' 'religious' 'drum' 'extrememetal' 'türkçe' 'experimental' 'easy'
 'metalcore' 'modern' 'argentinetango' 'old' 'swing' 'breaks' 'eurofolk'
 'stone

[Voltar ao Índice](#back)

### Nossas observações <a id='data_preprocessing_conclusions'></a>

`Antes havia o genero hiphop dividido em 3 partes diferentes, agora só há um genero hiphop, criando uma função usando o ciclo for.

[Voltar ao Índice](#back)

## Etapa 3. Testando hipóteses <a id='hypotheses'></a>

### Hipótese 1: comparando o comportamento dos usuários nas duas cidades <a id='activity'></a>

A primeira hipótese afirma que existem diferenças no consumo de música pelos usuários em Springfield e os em Shelbyville. Para testar a hipótese, usaremos os dados dos três dias da semana: segunda-feira (Monday), quarta-feira (Wednesday) e sexta-feira (Friday).

* Agrupando os usuários por cidade.
* Comparando o número de músicas tocadas por cada grupo na segunda, quarta e sexta.


Vamos executar cada cálculo separadamente.

Para avaliar a actividade do utilizador em cada cidade, vamos agrupar os dados por cidade e encontrar o número de músicas tocadas em cada grupo.

In [23]:
# Contando as músicas tocadas em cada cidade
springfield = df[df['city'] == 'Springfield']
shelbyville = df[df['city'] == 'Shelbyville']

Agora vamos agrupar os dados por dia da semana e encontrar a quantidade de músicas tocadas na segunda, quarta e sexta-feira.


In [24]:
# Calculando as músicas tocadas em cada dia da semana
music_count_by_day = df.groupby('day')['track'].count()

Nós acabamos de aprender como contar entradas agrupando-as por cidade ou por dia. E agora vamos precisar escrever uma função que possa contar entradas simultaneamente com base em ambos os critérios.

Vamos criar a função `number_tracks()` para calcular o número de músicas tocadas em um determinado dia da semana **e** em cada cidade. A função deve aceitar dois parâmetros:

- `day`: um dia da semana para o qual precisamos filtrar os dados. Por exemplo, `'Monday'`.
- `city`: uma cidade para a qual filtramos os dados. Por exemplo, `'Springfield'`.

Dentro da função, nós vamos aplicar uma filtragem consecutiva com indexação lógica.

Primeiro, filtraremos os dados por dia e então filtraremos a tabela resultante por cidade.

Depois de filtrar os dados usando os dois critérios, contaremos o número de valores na coluna 'user_id' da tabela resultante. O resultado da contagem representará o número de entradas que nós queremos encontrar. Armazenaremos o resultado em uma nova variável e imprimiremos-o.

In [25]:
# Definindo a função number_tracks(), recebendo dois parâmetros: day e city
def number_tracks(day, city):
    # Filtrando o DataFrame para manter apenas as linhas onde a coluna 'day' é igual ao valor do parâmetro day
    filtered_by_day = df[df['day'] == day]
    
    # Filtrando novamente o DataFrame resultante para manter apenas as linhas onde a coluna 'city' é igual ao valor do parâmetro city
    filtered_by_city = filtered_by_day[filtered_by_day['city'] == city]
    
    # Contando o número de valores na coluna 'user_id' do DataFrame filtrado
    track_list_count = filtered_by_city['user_id'].count()
    
    # Retornando o número de músicas, que corresponde ao valor de track_list_count
    return track_list_count

Chamando a função `number_tracks()` seis vezes, mudando os valores dos parâmetros, para que nós possamos recuperar os dados de ambas as cidades para cada um dos três dias.

In [26]:
# a quantidade de músicas tocadas em Springfield na segunda-feira
print(number_tracks('Monday', 'Springfield'))

15740


In [27]:
# a quantidade de músicas tocadas em Shelbyville na segunda-feira
print(number_tracks('Monday', 'Shelbyville'))

5614


In [28]:
# a quantidade de músicas tocadas em Springfield na quarta-feira
print(number_tracks('Wednesday', 'Springfield'))

11056


In [29]:
# a quantidade de músicas tocadas em Shelbyville na quarta-feira
print(number_tracks('Wednesday', 'Shelbyville'))

7003


In [30]:
# a quantidade de músicas tocadas em Springfield na sexta-feira
print(number_tracks('Friday', 'Springfield'))

15945


In [31]:
# a quantidade de músicas tocadas em Shelbyville na sexta-feira
print(number_tracks('Friday', 'Shelbyville'))

5895


Nós usaremos `pd.DataFrame` para criar uma tabela, onde
* Os cabeçalhos da tabela são: `['city', 'monday', 'wednesday', 'friday']`
* Os dados são o resultado que você recebe de `number_tracks()`

In [32]:
# tabela com resultados
# Lista de cidades que nós iremos analisar
cities = ['Springfield', 'Shelbyville']

# Lista de dias da semana
days = ['Monday', 'Wednesday', 'Friday']

# Criando uma lista de listas para armazenar os dados
data = []

# Loop para obter os dados para cada combinação de cidade e dia
for city in cities:
    row = [city]
    for day in days:
        track_count = number_tracks(day, city)
        row.append(track_count)
    data.append(row)

# Criando o DataFrame com os cabeçalhos e dados
df_table = pd.DataFrame(data, columns=['city', 'monday', 'wednesday', 'friday'])
df_table

Unnamed: 0,city,monday,wednesday,friday
0,Springfield,15740,11056,15945
1,Shelbyville,5614,7003,5895


**Conclusões**

A primeira hipótese está correta e não deve ser rejeitada, vemos que em Springfield consome mais música que Shelbyville, na segunda houve uma diferença de aproximadamente dez mil ouvintes, já no que diz respeito às quartas nota-se que há uma diferença de pelomenos quatro mil usuarios de diferença. e quanto as sextas parece que há pelo menos dez mil ouvintes novamente.

[Voltar ao Índice](#back)

### Hipótese 2: música no início e no final da semana <a id='week'></a>

De acordo com a segunda hipótese, na segunda-feira de manhã e na sexta-feira à noite, os cidadãos de Springfield ouvem gêneros diferentes dos que os utilizadores de Shelbyville gostam.

Criaremos duas tabelas com os nomes fornecidos nos dois blocos de código abaixo:
* Para Springfield — `spr_general`
* Para Shelbyville — `shel_general`

In [33]:
# criando a tabela spr_general a partir das linhas df
# onde o valor na coluna 'city' é 'Springfield'
spr_general = df[df['city'] == 'Springfield'].copy()


In [34]:
# criando o shel_general a partir das linhas df
# onde o valor na coluna 'city' é 'Shelbyville'
shel_general = df[df['city'] == 'Shelbyville'].copy()

Escrevendo a função `genre_weekday()` com quatro parâmetros:
* Uma tabela para dados (`df`)
* O dia da semana (`day`)
* O primeiro timestamp, no formato 'hh:mm:ss' (`time1`)
* O último timestamp, no formato 'hh:mm:ss' (`time2`)

A função deve retornar os 15 gêneros mais populares em um dia específico dentro do período definido pelos dois timestamps, juntamente com suas respectivas contagens de reprodução.
Aplicaremos a mesma lógica de filtragem consecutiva, mas usaremos quatro filtros desta vez e, em seguida, faremos uma nova coluna com as respectivas contagens de reprodução.
Ordenaremos o resultado da contagem do maior para o menor e retorne-o.

In [35]:
# Criando a função com quatro parâmetros diferentes
def genre_weekday(df, day, time1, time2):
    # Filtrando o DataFrame para manter apenas as linhas onde a coluna 'day' é igual ao parâmetro day
    genre_df = df[df['day'] == day]
    
    # Filtrando novamente para manter apenas as linhas onde a coluna 'time' é maior que o parâmetro time1
    genre_df = genre_df[genre_df['time'] > time1]
    
    # Filtrando mais uma vez para manter apenas as linhas onde a coluna 'time' é menor que o parâmetro time2
    genre_df = genre_df[genre_df['time'] < time2]
    
    # Contando as ocorrências de cada gênero na coluna 'genre', criando a variável genre_df_count
    genre_df_count = genre_df['genre'].value_counts()
    
    # Ordenando a contagem em ordem decrescente para que os gêneros mais populares venham primeiro
    genre_df_sorted = genre_df_count.sort_values(ascending=False)
    
    # Retornando os 15 gêneros mais populares em um objeto Series
    return genre_df_sorted[:15]

Comparando os resultados da função 'genre_weekday()' para Springfield e Shelbyville na segunda-feira de manhã (das 07:00 às 11:00) e na sexta-feira à noite (das 17:00 às 23:00). Utilizando o mesmo formato de hora de 24 horas que o conjunto de dados (p. ex. 05:00 = 17:00:00):

In [36]:
# chamando a função para segunda-feira de manha em Springfield (use spr_general em vez de df table)
print(genre_weekday(spr_general, 'Monday', '07:00:00', '11:00:00'))

genre
pop            781
dance          549
electronic     480
rock           474
hiphop         286
ruspop         186
world          181
rusrap         175
alternative    164
unknown        161
classical      157
metal          120
jazz           100
folk            97
soundtrack      95
Name: count, dtype: int64


In [37]:
# chamando a função para segunda-feira de manhã em Shelbyville (use shel_general em vez de df table)
print(genre_weekday(shel_general,'Monday', '07:00:00', '11:00:00'))

genre
pop            218
dance          182
rock           162
electronic     147
hiphop          80
ruspop          64
alternative     58
rusrap          55
jazz            44
classical       40
world           36
rap             32
soundtrack      31
metal           27
rnb             27
Name: count, dtype: int64


In [38]:
# chamando a função para sexta-feira à tarde em Springfield
print(genre_weekday(spr_general, 'Friday', '17:00:00', '23:00:00'))

genre
pop            713
rock           517
dance          495
electronic     482
hiphop         273
world          208
ruspop         170
classical      163
alternative    163
rusrap         142
jazz           111
unknown        110
soundtrack     105
rnb             90
metal           88
Name: count, dtype: int64


In [39]:
# chamando a função para sexta-feira à tarde em Shelbyville
print(genre_weekday(shel_general, 'Friday', '17:00:00', '23:00:00'))

genre
pop            256
electronic     216
rock           216
dance          210
hiphop          97
alternative     63
jazz            61
classical       60
rusrap          59
world           54
ruspop          47
unknown         47
soundtrack      40
metal           39
rap             36
Name: count, dtype: int64


**Conclusão**

A segunda hipótese está errada e deve ser rejeitada, pois pelo menos os top 5 generos mais ouvidos continuam os mesmos em ambas as cidades.

[Voltar ao Índice](#back)

### Hipótese 3: preferências de gênero em Springfield e Shelbyville <a id='genre'></a>

Hipótese: Shelbyville ama rap. Cidadãos de Springfield curtem mais pop.

Agruparemos a tabela `spr_general` por gênero e encontraremos o número de músicas tocadas para cada gênero usando o método `count()`. Então organizaremos o resultado em ordem decrescente e armazenando-o na variável `spr_genres`.

In [40]:
# escrevendo uma linha de código que vai:
# 1. agrupar a tabela spr_general pela coluna 'genre',
# 2. contar os valores de 'genre' no agrupamento com count()
# 3. ordenar o objeto Series resultante em ordem decrescente e armazená-lo em spr_genres
spr_genres = spr_general.groupby('genre')['genre'].count().sort_values(ascending=False)

Imprimindo as primeiras 10 linhas de `spr_genres`:

In [41]:
# imprimindo as primeiras 10 linhas de spr_genres
print(spr_genres)

genre
pop            5892
dance          4435
rock           3965
electronic     3786
hiphop         2096
               ... 
metalcore         1
marschmusik       1
malaysian         1
lovers            1
ïîï               1
Name: genre, Length: 250, dtype: int64


Agora faremos o mesmo com os dados de Shelbyville.

Agruparemos a tabela `shel_general` por gênero e encontraremos o número de músicas tocadas para cada gênero. Depois organizaremos o resultado em ordem decrescente e armazene-o na tabela `shel_genres`:


In [42]:
# escrevendo uma linha de código que vai:
# 1. agrupar a tabela spr_general pela coluna 'genre',
# 2. contar os valores de 'genre' no agrupamento com count()
# 3. ordenar o objeto Series resultante em ordem decrescente e armazená-lo em spr_genres
shel_genres = shel_general.groupby('genre')['genre'].count().sort_values(ascending=False)

exibindo as primeiras 10 linhas de `shel_genres`:

In [43]:
# imprimindo as primeiras 10 linhas de spr_genres
print(shel_genres)

genre
pop           2431
dance         1932
rock          1879
electronic    1736
hiphop         960
              ... 
mandopop         1
leftfield        1
laiko            1
jungle           1
worldbeat        1
Name: genre, Length: 202, dtype: int64


**Conclusão**

a terceira hipótese está parcialmente correta e deve ser parcialmente rejeitada, pois em Shelbyville o gênero rap, não está nem nos top 5 dos generos mais ouvidos, porém a hipótese acertou quanto a parte dos cidadãos de Springfield curtirem mais pop.

[Voltar ao Índice](#back)

# Conclusões <a id='end'></a>

A primeira hipótese estava quase certa e deveria ser parcialmente aceita.

A segunda hipótese estava completamente errada e deveria ser totalmente rejeitada.

A terceira hipótese estava mais equivocada e deveria ser parcialmente rejeitada.`

### Importante
Em projetos de pesquisas reais, o teste estatístico de hipóteses é mais preciso e quantitativo. Observe também que conclusões sobre uma cidade inteira nem sempre podem ser tiradas a partir de dados de apenas uma fonte.

[Voltar ao Índice](#back)