# Se liga na música

# Conteúdo <a id='back'></a>

* [Introdução](#intro)
* [Etapa 1. Visão geral dos dados](#data_review)
    * [Conclusões](#data_review_conclusions)
* [Etapa 2. Pré-processamento de dados](#data_preprocessing)
    * [2.1 Estilo do cabeçalho](#header_style)
    * [2.2 Valores ausentes](#missing_values)
    * [2.3 Duplicados](#duplicates)
    * [2.4 Conclusões](#data_preprocessing_conclusions)
* [Etapa 3. Teste da hipótese](#hypothesis)
    * [3.1 Hipótese 1: atividade dos usuários nas duas cidades](#activity)
* [Conclusões](#end)

## Introdução <a id='intro'></a>
O trabalho de um analista é analisar dados para obter percepções valiosas dos dados e tomar decisões fundamentadas neles. Esse processo consiste em várias etapas, como visão geral dos dados, pré-processamento dos dados e testes de hipóteses.

Sempre que fazemos uma pesquisa, precisamos formular uma hipótese que depois poderemos testar. Às vezes nós aceitamos essas hipóteses; outras vezes, nós as rejeitamos. Para fazer as escolhas certas, um negócio deve ser capaz de entender se está fazendo as suposições certas ou não.

Neste projeto, você vai comparar as preferências musicais dos habitantes de Springfild e Shelbyville. Você vai estudar os dados de um serviço de streaming de música online para testar a hipótese apresentada abaixo e comparar o comportamento dos usuários dessas duas cidades.

### Objetivo:
Teste a hipótese:
1. A atividade dos usuários é diferente dependendo do dia da semana e da cidade.


### Etapas
Os dados sobre o comportamento do usuário são armazenados no arquivo `/datasets/music_project_en.csv`. Não há informações sobre a qualidade dos dados, então será necessário examiná-los antes de testar a hipótese.

Primeiro, você avaliará a qualidade dos dados e verá se seus problemas são significativos. Depois, durante o pré-processamento dos dados, você tentará tratar dos problemas mais críticos.

O seu projeto consistirá em três etapas:
 1. Visão geral dos dados
 2. Pré-processamento de dados
 3. Teste da hipótese








[Voltar ao Índice](#back)

## Etapa 1. Visão geral dos dados <a id='data_review'></a>

Abra os dados e examine-os.

Você precisará da `pandas`, então, importe-a.

In [2]:
import pandas as pd# importando pandas


Leia o arquivo `music_project_en.csv` da pasta `/datasets/` e salve-o na variável `df`:

In [3]:
df = pd.read_csv('/datasets/music_project_en.csv') # lendo o arquivo e armazenando em df


In [4]:
df

Unnamed: 0,userID,Track,artist,genre,City,time,Day
0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Shelbyville,20:28:33,Wednesday
1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Springfield,14:07:09,Friday
2,20EC38,Funiculì funiculà,Mario Lanza,pop,Shelbyville,20:58:07,Wednesday
3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Shelbyville,08:37:09,Monday
4,E2DC1FAE,Soul People,Space Echo,dance,Springfield,08:34:34,Monday
...,...,...,...,...,...,...,...
65074,729CBB09,My Name,McLean,rnb,Springfield,13:32:28,Wednesday
65075,D08D4A55,Maybe One Day (feat. Black Spade),Blu & Exile,hip,Shelbyville,10:00:00,Monday
65076,C5E3A0D5,Jalopiina,,industrial,Springfield,20:09:26,Friday
65077,321D0506,Freight Train,Chas McDevitt,rock,Springfield,21:43:59,Friday


Imprima as primeiras 10 linhas da tabela:

In [8]:
print(df.head(11))# obtenha as 10 primeiras 10 linhas da tabela df


      userID                        Track               artist   genre  \
0   FFB692EC            Kamigata To Boots     The Mass Missile    rock   
1   55204538  Delayed Because of Accident     Andreas Rönnberg    rock   
2     20EC38            Funiculì funiculà          Mario Lanza     pop   
3   A3DD03C9        Dragons in the Sunset           Fire + Ice    folk   
4   E2DC1FAE                  Soul People           Space Echo   dance   
5   842029A1                       Chains             Obladaet  rusrap   
6   4CB90AA5                         True         Roman Messer   dance   
7   F03E1C1F             Feeling This Way      Polina Griffith   dance   
8   8FA1D3BE                     L’estate          Julia Dalia  ruspop   
9   E772D5C0                    Pessimist                  NaN   dance   
10  BC5A3A29                 Gool la Mita  Shireen Abdul Wahab   world   

         City        time        Day  
0   Shelbyville  20:28:33  Wednesday  
1   Springfield  14:07:09     Fri

Obtenha informações gerais sobre a tabela usando um comando. Você conhece o método para exibir informações gerais que precisamos obter.

In [9]:
print(df.info())# obtendo informações gerais sobre os nossos dados


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65079 entries, 0 to 65078
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0     userID  65079 non-null  object
 1   Track     63736 non-null  object
 2   artist    57512 non-null  object
 3   genre     63881 non-null  object
 4     City    65079 non-null  object
 5   time      65079 non-null  object
 6   Day       65079 non-null  object
dtypes: object(7)
memory usage: 3.5+ MB
None


Aqui estão as nossas observações sobre a tabela. Ela contém sete colunas. Elas armazenam o mesmo tipo de dado: `object`.

De acordo com a documentação:
- `' userID'` — identificação do usuário
- `'Track'` — título da música
- `'artist'` — nome do artista
- `'genre'` — gênero da música
- `'City'` — cidade do usuário
- `'time'` — o tempo exato que a música foi reproduzida
- `'Day'` — dia da semana

Podemos ver três problemas de estilo nos cabeçalhos da tabela:
1. Alguns cabeçalhos são escritos em letras maiúsculas, outros estão em minúsculas.
2. Alguns cabeçalhos contêm espaços.
3. `Detecte o problema e o descreva aqui`.

problema 1. exsite espaços desnecessários na frente dos nomes das colunas;
problema 2. existe uma diferença entre os nomes das colunas onde algumas tem a primeira letra maiuscula e outras minuscula
problema 3. o "userID" deveria ser escrito da seguinte forma: user_id




### Escreva suas observações. Aqui estão algumas perguntas que podem ajudar: <a id='data_review_conclusions'></a>

`1.   Que tipo de dados temos nas linhas? E como podemos entender as colunas?`

`2.   Esses dados são suficientes para responder à nossa hipótese ou precisamos de mais dados?`

`3.   Você notou algum problema nos dados, como valores ausentes, duplicados ou tipos de dados errados`

[Voltar ao Índice](#back)

## Etapa 2. Pré-processamento de dados <a id='data_preprocessing'></a>

O objetivo aqui é preparar os dados para a análise.
O primeiro passo é resolver todos os problemas com o cabeçalho. E então podemos passar para os valores ausentes e duplicados. Vamos começar.

Corrija a formatação nos cabeçalhos da tabela.


### Estilo do cabeçalho <a id='header_style'></a>
Imprima os cabeçalhos da tabela (os nomes das colunas):

In [10]:
print(df.columns)# imprima os nomes das colunas


Index(['  userID', 'Track', 'artist', 'genre', '  City  ', 'time', 'Day'], dtype='object')


Mude os cabeçalhos da tabela conforme as boas práticas de estilo:
* Todos os caracteres precisam estar com letras minúsculas
* Exclua espaços
* Se o nome tiver várias palavras, use snake_case

Anteriormente, você aprendeu sobre uma maneira automatizada de renomear colunas. Vamos usá-la agora. Use o ciclo for para percorrer os nomes das colunas e transformar todos os caracteres em letras minúsculas. Após fazer isso, imprima os cabeçalhos da tabela novamente:

In [12]:
df.columns = df.columns.str.lower()# Percorrendo os cabeçalhos e convertendo tudo em minúsculos


Agora, usando a mesma abordagem, exclua os espaços no início e no final de cada nome de coluna e imprima os nomes das colunas novamente:

In [13]:
df.columns = df.columns.str.replace(' ', '', regex=False)# Percorrendo os cabeçalhos e removendo os espaços


Precisamos aplicar a regra de sublinhado no lugar de espaço à coluna `userid`. Deveria ser `user_id`. Renomeie essa coluna e imprima os nomes de todas as colunas quando terminar.

In [15]:
df = df.rename(columns={'userID': 'user_id'})# Renomeando a coluna "userid"


Verifique o resultado. Imprima os cabeçalhos novamente:

In [16]:
print(df.columns)# verificando o resultado: a lista de cabeçalhos


Index(['userid', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')


[Voltar ao Índice](#back)

### Valores Ausentes <a id='missing_values'></a>
 Primeiro, encontre a quantidade de valores ausentes na tabela. Você precisa usar dois métodos em sequência para obter o número de valores ausentes.

In [17]:
valores_ausentes_por_coluna = df.isnull().sum()
print(valores_ausentes_por_coluna) # calculando o número de valores ausentes


userid       0
track     1343
artist    7567
genre     1198
city         0
time         0
day          0
dtype: int64


Nem todos os valores ausentes afetam a pesquisa. Por exemplo, os valores ausentes em `track` e `artist` não são críticos. Você pode simplesmente substituí-los por valores padrão, como a string `'unknown'`.

Mas valores ausentes em `'genre'` podem afetar a comparação de preferências musicais de Springfield e Shelbyville. Na vida real, seria útil descobrir as razões pelas quais os dados estão ausentes e tentar corrigi-los. Mas nós não temos essa possibilidade neste projeto. Então, você terá que:
* Preencha esses valores ausentes com um valor padrão
* Avalie em que medida os valores ausentes podem afetar sua análise

Substitua os valores ausentes nas colunas `'track'`, `'artist'` e `'genre'` pela string `'unknown'`. Como mostramos nas lições anteriores, a melhor maneira de fazer isso é criar uma lista para armazenar os nomes das colunas nas quais precisamos fazer a substituição. Em seguida, use essa lista e percorra as colunas nas quais a substituição seja necessária e faça a substituição.

In [19]:
df.fillna('unknown', inplace=True)# percorrendo os cabeçalhos e substituindo valores ausentes por 'unknown'


Agora verifique o resultado para ter certeza de que o conjunto de dados não contenha valores ausentes após a substituição. Para fazer isso, conte os valores ausentes novamente.

In [20]:
valores_ausentes_por_coluna = df.isnull().sum()
print(valores_ausentes_por_coluna)# contando os valores ausentes


userid    0
track     0
artist    0
genre     0
city      0
time      0
day       0
dtype: int64


[Voltar ao Índice](#back)

### Duplicados <a id='duplicates'></a>
Encontre o número de duplicados explícitos na tabela. Lembre-se de que você precisa aplicar dois métodos em sequência para obter o número de duplicados explícitos.

In [21]:
print(df.duplicated().sum())# contando duplicados explícitos


3826


Agora descarte todos os duplicados. Para fazer isso, chame o método que faz exatamente isso.

In [22]:
df = df.drop_duplicates().reset_index(drop=True)# removendo duplicados explícitos


Agora vamos verificar se descartamos todos os duplicados. Conte duplicados explícitos mais uma vez para ter certeza de que você removeu todos eles:

In [23]:
print(df.duplicated().sum())# verificando duplicados novamente



0


Agora queremos nos livrar dos duplicados implícitos na coluna `genre`. Por exemplo, o nome de um gênero pode ser escrito de maneiras diferentes. Alguns erros afetarão também o resultado.

Para fazer isso, vamos começar imprimindo uma lista de nomes de gênero únicos, ordenados em ordem alfabética: Para fazer isso:
* Extraia a coluna `genre` do DataFrame
* Chame o método que retornará todos os valores únicos na coluna extraída


In [29]:
print(df['genre'].unique())# visualizando nomes de gêneros únicos


['rock' 'pop' 'folk' 'dance' 'rusrap' 'ruspop' 'world' 'electronic'
 'unknown' 'alternative' 'children' 'rnb' 'hip' 'jazz' 'postrock' 'latin'
 'classical' 'metal' 'reggae' 'triphop' 'blues' 'instrumental' 'rusrock'
 'dnb' 'türk' 'post' 'country' 'psychedelic' 'conjazz' 'indie'
 'posthardcore' 'local' 'avantgarde' 'punk' 'videogame' 'techno' 'house'
 'christmas' 'melodic' 'caucasian' 'reggaeton' 'soundtrack' 'singer' 'ska'
 'salsa' 'ambient' 'film' 'western' 'rap' 'beats' "hard'n'heavy"
 'progmetal' 'minimal' 'tropical' 'contemporary' 'new' 'soul' 'holiday'
 'german' 'jpop' 'spiritual' 'urban' 'gospel' 'nujazz' 'folkmetal'
 'trance' 'miscellaneous' 'anime' 'hardcore' 'progressive' 'korean'
 'numetal' 'vocal' 'estrada' 'tango' 'loungeelectronic' 'classicmetal'
 'dubstep' 'club' 'deep' 'southern' 'black' 'folkrock' 'fitness' 'french'
 'disco' 'religious' 'hiphop' 'drum' 'extrememetal' 'türkçe'
 'experimental' 'easy' 'metalcore' 'modern' 'argentinetango' 'old' 'swing'
 'breaks' 'eurofolk' 

Olhe a lista e encontre duplicados implícitos do gênero `hiphop`. Esses podem ser nomes escritos incorretamente, ou nomes alternativos para o mesmo gênero.

Você verá os seguintes duplicados implícitos:
* `hip`
* `hop`
* `hip-hop`

Para se livrar deles, crie uma função `replace_wrong_genres()` com dois parâmetros:
* `wrong_genres=` — essa é uma lista que contém todos os valores que você precisa substituir
* `correct_genre=` — essa é uma string que você vai usar para a substituição

Como resultado, a função deve corrigir os nomes na coluna `'genre'` da tabela `df`, isto é, substituindo cada valor da lista `wrong_genres` por valores de `correct_genre`.

Dentro do corpo da função, use um ciclo `'for'` para percorrer a lista de gêneros errados, extrair a coluna `'genre'` e aplicar o método `replace` para fazer as correções.

In [30]:
def replace_wrong_genres(df, wrong_genres, correct_genre):
    for genre in wrong_genres:
              df['genre'] = df['genre'].replace(genre, correct_genre, regex=False)
    return df

df = pd.read_csv('/datasets/music_project_en.csv')

wrong_genres = ['hip', 'hop', 'hip-hop']

correct_genre = 'hip-hop'

df = replace_wrong_genres(df, wrong_genres, correct_genre)

print(df['genre'].unique())# função para substituir duplicados implícitos


['rock' 'pop' 'folk' 'dance' 'rusrap' 'ruspop' 'world' 'electronic' nan
 'alternative' 'children' 'rnb' 'hip-hop' 'jazz' 'postrock' 'latin'
 'classical' 'metal' 'reggae' 'triphop' 'blues' 'instrumental' 'rusrock'
 'dnb' 'türk' 'post' 'country' 'psychedelic' 'conjazz' 'indie'
 'posthardcore' 'local' 'avantgarde' 'punk' 'videogame' 'techno' 'house'
 'christmas' 'melodic' 'caucasian' 'reggaeton' 'soundtrack' 'singer' 'ska'
 'salsa' 'ambient' 'film' 'western' 'rap' 'beats' "hard'n'heavy"
 'progmetal' 'minimal' 'tropical' 'contemporary' 'new' 'soul' 'holiday'
 'german' 'jpop' 'spiritual' 'urban' 'gospel' 'nujazz' 'folkmetal'
 'trance' 'miscellaneous' 'anime' 'hardcore' 'progressive' 'korean'
 'numetal' 'vocal' 'estrada' 'tango' 'loungeelectronic' 'classicmetal'
 'dubstep' 'club' 'deep' 'southern' 'black' 'folkrock' 'fitness' 'french'
 'disco' 'religious' 'hiphop' 'drum' 'extrememetal' 'türkçe'
 'experimental' 'easy' 'metalcore' 'modern' 'argentinetango' 'old' 'swing'
 'breaks' 'eurofolk' 's

Agora, chame a função `replace_wrong_genres()` e passe argumentos apropriados para que ela limpe duplicados implícitos (`hip`, `hop` e `hip-hop`) substituindo-os por `hiphop`:

In [31]:
wrong_genres = ['hip', 'hop', 'hip-hop']

correct_genre = 'hiphop'

df = replace_wrong_genres(df, wrong_genres, correct_genre)


Certifique-se que os nomes duplicados foram removidos. Imprima a lista de valores únicos da coluna `'genre'` mais uma vez:

In [32]:
print(df['genre'].unique())# verificando valores duplicados


['rock' 'pop' 'folk' 'dance' 'rusrap' 'ruspop' 'world' 'electronic' nan
 'alternative' 'children' 'rnb' 'hiphop' 'jazz' 'postrock' 'latin'
 'classical' 'metal' 'reggae' 'triphop' 'blues' 'instrumental' 'rusrock'
 'dnb' 'türk' 'post' 'country' 'psychedelic' 'conjazz' 'indie'
 'posthardcore' 'local' 'avantgarde' 'punk' 'videogame' 'techno' 'house'
 'christmas' 'melodic' 'caucasian' 'reggaeton' 'soundtrack' 'singer' 'ska'
 'salsa' 'ambient' 'film' 'western' 'rap' 'beats' "hard'n'heavy"
 'progmetal' 'minimal' 'tropical' 'contemporary' 'new' 'soul' 'holiday'
 'german' 'jpop' 'spiritual' 'urban' 'gospel' 'nujazz' 'folkmetal'
 'trance' 'miscellaneous' 'anime' 'hardcore' 'progressive' 'korean'
 'numetal' 'vocal' 'estrada' 'tango' 'loungeelectronic' 'classicmetal'
 'dubstep' 'club' 'deep' 'southern' 'black' 'folkrock' 'fitness' 'french'
 'disco' 'religious' 'drum' 'extrememetal' 'türkçe' 'experimental' 'easy'
 'metalcore' 'modern' 'argentinetango' 'old' 'swing' 'breaks' 'eurofolk'
 'stonerrock'

[Voltar ao Índice](#back)

### Suas observações <a id='data_preprocessing_conclusions'></a>

` Descreva brevemente o que você reparou ao analisar duplicados, bem como a abordagem que usou para eliminá-los e os resultados que alcançou.`

Abordagem utilizada para eliminar os duplicados:
Identificação dos valores duplicados: Eu identifiquei que os gêneros apomtados "hip", "hop" e "hip-hop" eram o mesmo gênero musical, "hiphop", e poderiam ser substituídos.

depois de muito bater cabeça eu optei por desenvolver a função replace_wrong_genres() que aceita dois parâmetros:

wrong_genres: uma lista de gêneros errados a serem corrigidos.
correct_genre: o gênero correto que substituirá os valores errados e utilizei o método .replace() para substituir cada ocorrência de gênero errado pela versão correta (neste caso, "hiphop").

depois eu apliquei a função no DataFrame para corrigir todos os valores da coluna 'genre' que correspondiam a "hip", "hop" ou "hip-hop", substituindo-os por "hiphop".

Resultados alcançados:
todas as variantes foram uniformizados para "hiphop" resultando numa uniformização de nomeclatura que facilita a leitura

[Voltar ao Índice](#back)

## Etapa 3. Teste da hipótese <a id='hypothesis'></a>

### Hipótese: comparação do comportamento dos usuários nas duas cidades <a id='activity'></a>

A hipótese afirma que existem diferenças no consumo de música pelos usuários em Springfield e em Shelbyville. Para testar a hipótese, use os dados dos três dias da semana: segunda-feira (Monday), quarta-feira (Wednesday) e sexta-feira (Friday).

* Agrupe os usuários por cidade.
* Compare o número de músicas tocadas por cada grupo na segunda, quarta e sexta.


Execute cada cálculo separadamente.

O primeiro passo é avaliar a atividade dos usuários em cada cidade. Não se esqueça das etapas "divisão-aplicação-combinação" sobre as quais falamos anteriormente na lição. Agora seu objetivo é agrupar os dados por cidade, aplicar o método de contagem apropriado durante a etapa de aplicação e então encontrar o número de músicas tocadas por cada grupo, especificando a coluna para a qual você quer obter a contagem.

Veja um exemplo de como o resultado final deve ser:
`df.groupby(by='....')['column'].method()` Execute cada cálculo separadamente.

Para avaliar a atividade dos usuários em cada cidade, agrupe os dados por cidade e encontre o número de músicas reproduzidas em cada grupo.



In [39]:
import pandas as pd

# Carregando o DataFrame
df = pd.read_csv('/datasets/music_project_en.csv')

df.columns = df.columns.str.lower()
df.columns = df.columns.str.replace(' ', '', regex=False)
df = df.rename(columns={'userID': 'user_id'})


df_groupby = df.groupby(by='city')['track'].count() # Contando as músicas tocadas em cada cidade

#Criando função number_tracks    
def number_tracks(df, day, city):# Declare a função number_tracks() com dois parâmetros: day= e city=
    df_filtered_day = df[df['day'] == day]
    df_filtered_city = df[df['city'] == city] # Armazene as linhas do DataFrame em que o valor na coluna 'day' é igual ao parâmetro day=
    count_tracks = df_filtered_city['track'].count()

    return count_tracks 

print(df_groupby)

city
Shelbyville    19302
Springfield    44434
Name: track, dtype: int64


`Comente sobre suas observações aqui`

primeiramente eu tive que gormatdas todos os nomes das colunas novamente, uma vez que eu nao estava conseguindo localizar o nome das colunas o que estava incorrendo em erro.

depois apliquei a função df.groupby(['city', 'day'])para agrupar as colunas 'cidade' e 'dia'. 

novamente usei a função "sum" ['track'].sum(): Para cada grupo formado, somar o valor das músicas tocadas.

print(resultado): Exibe o resultado, que vai mostrar a soma das músicas tocadas

Agora vamos agrupar os dados por dia da semana e encontrar a quantidade de músicas tocadas na segunda, quarta e sexta-feira. Use a mesma abordagem que antes, mas agora precisamos agrupar os dados de uma forma diferente.


In [40]:
import pandas as pd

# Carregando o DataFrame
df = pd.read_csv('/datasets/music_project_en.csv')

df.columns = df.columns.str.lower()
df.columns = df.columns.str.replace(' ', '', regex=False)
df = df.rename(columns={'userID': 'user_id'})


# Função para contar as músicas tocadas em um dia específico
def number_tracks_by_day(df, day):
    df_filtered_day = df[df['day'] == day]
    count_tracks = df_filtered_day['track'].count()
    
    return count_tracks

monday_tracks = number_tracks_by_day(df, 'Monday')
wednesday_tracks = number_tracks_by_day(df, 'Wednesday')
friday_tracks = number_tracks_by_day(df, 'Friday')


print(f"Músicas tocadas na segunda-feira: {monday_tracks}")
print(f"Músicas tocadas na quarta-feira: {wednesday_tracks}")
print(f"Músicas tocadas na sexta-feira: {friday_tracks}")
# Calculando as músicas escutadas em cada um desses três dias


Músicas tocadas na segunda-feira: 22106
Músicas tocadas na quarta-feira: 18862
Músicas tocadas na sexta-feira: 22768


`Comente sobre suas observações aqui`

Fiz a formatação das colunas igual ao topico anterior para poder trabalhar com as colunas de forma limpa.

depois fiz a separação por cidade seguindo a logica o exercicio anterior e após fiz a separação por dias da semana e os imprimi separadamente para facilitar a visualização

Você acabou de aprender como contar entradas agrupando-as por cidade ou por dia. E agora você precisa escrever uma função que possa contar entradas simultaneamente com base em ambos os critérios.

Crie a função `number_tracks()` para calcular o número de músicas tocadas em um determinado dia **e** em uma determinada cidade. A função deve aceitar dois parâmetros:

- `day`: um dia da semana pelo qual precisamos filtrar os dados. Por exemplo, `'Monday'`.
- `city`: uma cidade pela qual precisamos filtrar os dados. Por exemplo, `'Springfield'`.

Dentro da função, você vai aplicar uma filtragem consecutiva com indexação lógica.

Primeiro, filtre os dados por dia e então filtre a tabela resultante por cidade.

Depois de filtrar os dados usando os dois critérios, conte o número de valores na coluna 'user_id' da tabela resultante. O resultado da contagem representará o número de entradas que você quer encontrar. Armazene o resultado em uma nova variável e imprima-o.

In [81]:
import pandas as pd

# Carregando o DataFrame
df = pd.read_csv('/datasets/music_project_en.csv')

df.columns = df.columns.str.lower()
df.columns = df.columns.str.replace(' ', '', regex=False)
df = df.rename(columns={'userID': 'user_id'})

print("Colunas do DataFrame:", df.columns)
print("Valores únicos em 'day':", df['day'].unique())
print("Valores únicos em 'city':", df['city'].unique()) # fiz isso pra verificar se os dados estão corretos, em razão de dificuldade no a impressão dos dados.

def number_tracks(df, day, city):# Declare a função number_tracks() com dois parâmetros: day= e city=.

    df_filtered_day = df[df['day'] == day]# Armazene as linhas do DataFrame em que o valor na coluna 'day' é igual ao parâmetro day=

    df_filtered_city = df_filtered_day[df_filtered_day['city'] == city]# Filtre as linhas em que o valor na coluna 'city' é igual ao parâmetro city=

    count_tracks = df_filtered_city['userid'].count()# Extraia a coluna 'user_id' da tabela filtrada e aplique o método count()

    print(f"Número de entradas na coluna 'userid' em {city} na {day}: {count_tracks}") # Retorne o número dos valores da coluna 'user_id'
    

Colunas do DataFrame: Index(['userid', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')
Valores únicos em 'day': ['Wednesday' 'Friday' 'Monday']
Valores únicos em 'city': ['Shelbyville' 'Springfield']


Chame a função `number_tracks()` seis vezes, mudando os valores dos parâmetros, para que você possa recuperar os dados de ambas as cidades para cada um dos três dias.

In [82]:
number_tracks(df, 'Monday', 'Springfield')# a quantidade de músicas tocadas em Springfield na segunda-feira


Número de entradas na coluna 'userid' em Springfield na Monday: 16715


In [83]:
number_tracks(df, 'Monday', 'Shelbyville')# a quantidade de músicas tocadas em Shelbyville na segunda-feira


Número de entradas na coluna 'userid' em Shelbyville na Monday: 5982


In [84]:
number_tracks(df, 'Wednesday', 'Springfield')# a quantidade de músicas tocadas em Springfield na quarta-feira


Número de entradas na coluna 'userid' em Springfield na Wednesday: 11755


In [85]:
number_tracks(df, 'Wednesday', 'Shelbyville')# a quantidade de músicas tocadas em Shelbyville na quarta-feira


Número de entradas na coluna 'userid' em Shelbyville na Wednesday: 7478


In [86]:
number_tracks(df, 'Friday', 'Springfield')# a quantidade de músicas tocadas em Springfield na sexta-feira


Número de entradas na coluna 'userid' em Springfield na Friday: 16890


In [87]:
number_tracks(df, 'Friday', 'Shelbyville')# a quantidade de músicas tocadas em Shelbyville na sexta-feira


Número de entradas na coluna 'userid' em Shelbyville na Friday: 6259


**Conclusões**

`Comente sobre se a terceira hipótese está correta ou deve ser rejeitada. Explique seu raciocínio.`

existem 

[Voltar ao Índice](#back)

# Conclusões <a id='end'></a>

`Resuma suas conclusões sobre a hipótese aqui`

### Importante
Em projetos de pesquisas reais, o teste estatístico de hipóteses é mais preciso e quantitativo. Observe também que conclusões sobre uma cidade inteira nem sempre podem ser tiradas a partir de dados de apenas uma fonte.

Você aprenderá mais sobre testes de hipóteses no sprint sobre a análise estatística de dados.

[Voltar ao Índice](#back)