## Etapa 1. Visão geral dos dados <a id='data_review'></a>

Abra os dados e examine-os.

Você precisará da `pandas`, então, importe-a.

In [None]:
import pandas as pd


Leia o arquivo `music_project_en.csv` da pasta `/datasets/` e salve-o na variável `df`:

In [None]:
df = pd.read_csv('/datasets/music_project_en.csv')


Imprima as primeiras 10 linhas da tabela:

In [3]:

import pandas as pd
df = pd.read_csv('/datasets/music_project_en.csv')
print(df.head(11))
# obtenha as 10 primeiras 10 linhas da tabela df


      userID                        Track               artist   genre  \
0   FFB692EC            Kamigata To Boots     The Mass Missile    rock   
1   55204538  Delayed Because of Accident     Andreas Rönnberg    rock   
2     20EC38            Funiculì funiculà          Mario Lanza     pop   
3   A3DD03C9        Dragons in the Sunset           Fire + Ice    folk   
4   E2DC1FAE                  Soul People           Space Echo   dance   
5   842029A1                       Chains             Obladaet  rusrap   
6   4CB90AA5                         True         Roman Messer   dance   
7   F03E1C1F             Feeling This Way      Polina Griffith   dance   
8   8FA1D3BE                     L’estate          Julia Dalia  ruspop   
9   E772D5C0                    Pessimist                  NaN   dance   
10  BC5A3A29                 Gool la Mita  Shireen Abdul Wahab   world   

         City        time        Day  
0   Shelbyville  20:28:33  Wednesday  
1   Springfield  14:07:09     Fri

Obtenha informações gerais sobre a tabela usando um comando. Você conhece o método para exibir informações gerais que precisamos obter.

In [4]:



import pandas as pd
df = pd.read_csv('/datasets/music_project_en.csv')
df.info()


 # obtendo informações gerais sobre os nossos dados


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65079 entries, 0 to 65078
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0     userID  65079 non-null  object
 1   Track     63736 non-null  object
 2   artist    57512 non-null  object
 3   genre     63881 non-null  object
 4     City    65079 non-null  object
 5   time      65079 non-null  object
 6   Day       65079 non-null  object
dtypes: object(7)
memory usage: 3.5+ MB


Aqui estão as nossas observações sobre a tabela. Ela contém sete colunas. Elas armazenam o mesmo tipo de dado: `object`.

De acordo com a documentação:
- `' userID'` — identificação do usuário
- `'Track'` — título da música
- `'artist'` — nome do artista
- `'genre'` — gênero da música
- `'City'` — cidade do usuário
- `'time'` — o tempo exato que a música foi reproduzida
- `'Day'` — dia da semana

Podemos ver três problemas de estilo nos cabeçalhos da tabela:
1. Alguns cabeçalhos são escritos em letras maiúsculas, outros estão em minúsculas.
2. Alguns cabeçalhos contêm espaços.
3. `UserID tem um espaço na frente/ Track, City e Day começam com letra maiuscula/.




### Escreva suas observações. Aqui estão algumas perguntas que podem ajudar: <a id='data_review_conclusions'></a>

`1.   Que tipo de dados temos nas linhas? E como podemos entender as colunas?`
Temos dados de usuários, estilos, músicas, cidades, dias e tempo em que a musica foi reproduzida
`2.   Esses dados são suficientes para responder à nossa hipótese ou precisamos de mais dados?`
São suficentes

`3.   Você notou algum problema nos dados, como valores ausentes, duplicados ou tipos de dados errados`
Sim, algumas colunas estão com valores NaN

[Voltar ao Índice](#back)

## Etapa 2. Pré-processamento de dados <a id='data_preprocessing'></a>

O objetivo aqui é preparar os dados para a análise.
O primeiro passo é resolver todos os problemas com o cabeçalho. E então podemos passar para os valores ausentes e duplicados. Vamos começar.

Corrija a formatação nos cabeçalhos da tabela.


### Estilo do cabeçalho <a id='header_style'></a>
Imprima os cabeçalhos da tabela (os nomes das colunas):

In [5]:
print(df.columns) # imprima os nomes das colunas


Index(['  userID', 'Track', 'artist', 'genre', '  City  ', 'time', 'Day'], dtype='object')


Mude os cabeçalhos da tabela conforme as boas práticas de estilo:
* Todos os caracteres precisam estar com letras minúsculas
* Exclua espaços
* Se o nome tiver várias palavras, use snake_case

Anteriormente, você aprendeu sobre uma maneira automatizada de renomear colunas. Vamos usá-la agora. Use o ciclo for para percorrer os nomes das colunas e transformar todos os caracteres em letras minúsculas. Após fazer isso, imprima os cabeçalhos da tabela novamente:

In [11]:

import pandas as pd


new_columns = []


for column in df.columns:
   
    new_columns.append(column.lower())


df.columns = new_columns


print(df.columns)


Index(['  userid', 'track', 'artist', 'genre', '  city  ', 'time', 'day'], dtype='object')


Agora, usando a mesma abordagem, exclua os espaços no início e no final de cada nome de coluna e imprima os nomes das colunas novamente:

In [12]:

import pandas as pd

new_columns = []
for column in df.columns:
   new_columns.append(column.strip()) # Percorrendo os cabeçalhos e removendo os espaços
df.columns = new_columns
print(df.columns)


Index(['userid', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')


Precisamos aplicar a regra de sublinhado no lugar de espaço à coluna `userid`. Deveria ser `user_id`. Renomeie essa coluna e imprima os nomes de todas as colunas quando terminar.

In [13]:

import pandas as pd

df = df.rename(columns={'userid': 'user_id'})


df.columns = df.columns.str.replace('userid', 'user_id')


print(df.columns)
# Renomeando a coluna "userid"


Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')


Verifique o resultado. Imprima os cabeçalhos novamente:

In [14]:
print(df.columns)# verificando o resultado: a lista de cabeçalhos


Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')


[Voltar ao Índice](#back)

### Valores Ausentes <a id='missing_values'></a>
 Primeiro, encontre a quantidade de valores ausentes na tabela. Você precisa usar dois métodos em sequência para obter o número de valores ausentes.

In [80]:


import pandas as pd # calculando o número de valores ausentes

df = pd.read_csv('/datasets/music_project_en.csv')


mis_val = df.isna().sum()

print(mis_val)



NameError: name 'new_columns' is not defined

Nem todos os valores ausentes afetam a pesquisa. Por exemplo, os valores ausentes em `track` e `artist` não são críticos. Você pode simplesmente substituí-los por valores padrão, como a string `'unknown'`.

Mas valores ausentes em `'genre'` podem afetar a comparação de preferências musicais de Springfield e Shelbyville. Na vida real, seria útil descobrir as razões pelas quais os dados estão ausentes e tentar corrigi-los. Mas nós não temos essa possibilidade neste projeto. Então, você terá que:
* Preencha esses valores ausentes com um valor padrão
* Avalie em que medida os valores ausentes podem afetar sua análise

Substitua os valores ausentes nas colunas `'track'`, `'artist'` e `'genre'` pela string `'unknown'`. Como mostramos nas lições anteriores, a melhor maneira de fazer isso é criar uma lista para armazenar os nomes das colunas nas quais precisamos fazer a substituição. Em seguida, use essa lista e percorra as colunas nas quais a substituição seja necessária e faça a substituição.

In [10]:


columns_to_replace = ['Track', 'artist', 'genre'] 

for column in columns_to_replace:
    df[column] = df[column]
.fillna('unknown')


print(df.isnull().sum())


  userID    0
Track       0
artist      0
genre       0
  City      0
time        0
Day         0
dtype: int64


Agora verifique o resultado para ter certeza de que o conjunto de dados não contenha valores ausentes após a substituição. Para fazer isso, conte os valores ausentes novamente.

In [67]:

df.isnull().sum().sum()
 # contando os valores ausentes


0

[Voltar ao Índice](#back)

### Duplicados <a id='duplicates'></a>
Encontre o número de duplicados explícitos na tabela. Lembre-se de que você precisa aplicar dois métodos em sequência para obter o número de duplicados explícitos.

In [13]:
print(df.duplicated().sum())# contando duplicados explícitos


3826


Agora descarte todos os duplicados. Para fazer isso, chame o método que faz exatamente isso.

In [16]:


df = df.drop_duplicates()

print(df.duplicated().sum()) # removendo duplicados explícitos


0


Agora vamos verificar se descartamos todos os duplicados. Conte duplicados explícitos mais uma vez para ter certeza de que você removeu todos eles:

In [17]:
print(df.duplicated().sum()) # verificando duplicados novamente



0


Agora queremos nos livrar dos duplicados implícitos na coluna `genre`. Por exemplo, o nome de um gênero pode ser escrito de maneiras diferentes. Alguns erros afetarão também o resultado.

Para fazer isso, vamos começar imprimindo uma lista de nomes de gênero únicos, ordenados em ordem alfabética: Para fazer isso:
* Extraia a coluna `genre` do DataFrame
* Chame o método que retornará todos os valores únicos na coluna extraída


In [48]:

genres = df['genre']

# Obter os valores únicos e ordená-los em ordem alfabética
unique_genres_sorted = sorted(genres.unique())

# Imprimir a lista
print(unique_genres_sorted)




['hiphop', 'jazz', 'pop', 'rock']


Olhe a lista e encontre duplicados implícitos do gênero `hiphop`. Esses podem ser nomes escritos incorretamente, ou nomes alternativos para o mesmo gênero.

Você verá os seguintes duplicados implícitos:
* `hip`
* `hop`
* `hip-hop`

Para se livrar deles, crie uma função `replace_wrong_genres()` com dois parâmetros:
* `wrong_genres=` — essa é uma lista que contém todos os valores que você precisa substituir
* `correct_genre=` — essa é uma string que você vai usar para a substituição

Como resultado, a função deve corrigir os nomes na coluna `'genre'` da tabela `df`, isto é, substituindo cada valor da lista `wrong_genres` por valores de `correct_genre`.

Dentro do corpo da função, use um ciclo `'for'` para percorrer a lista de gêneros errados, extrair a coluna `'genre'` e aplicar o método `replace` para fazer as correções.

In [42]:



  def replace_wrong_genres(wrong_genres, correct_genre, dataframe):
    for wrong_genre in wrong_genres:
        dataframe.loc[dataframe['genre'] == wrong_genre, 'genre'] = correct_genre
    return dataframe

# Exemplo de uso:
import pandas as pd

df = pd.DataFrame({'genre': ['hiphop', 'rock', 'hip hop', 'jazz', 'hip-hop', 'pop']})

hip_hop_variants = ['hiphop', 'hip-hop', 'hip hop']
df = replace_wrong_genres(hip_hop_variants, 'hip-hop', df)

print(df)



     genre
0  hip-hop
1     rock
2  hip-hop
3     jazz
4  hip-hop
5      pop


Agora, chame a função `replace_wrong_genres()` e passe argumentos apropriados para que ela limpe duplicados implícitos (`hip`, `hop` e `hip-hop`) substituindo-os por `hiphop`:

In [45]:


import pandas as pd

# Exemplo de DataFrame com variantes duplicadas
df = pd.DataFrame({'genre': ['hip hop', 'rock', 'hip-hop', 'hiphop', 'jazz', 'pop', 'hip-hop']})

def replace_wrong_genres(wrong_genres, correct_genre):
    for wrong_genre in wrong_genres:
        df.loc[df['genre'] == wrong_genre, 'genre'] = correct_genre


# Variantes incorretas de "hiphop"
hip_hop_variants = ['hip hop', 'hip-hop']

# Substituindo pelas formas padronizadas
replace_wrong_genres(hip_hop_variants, 'hiphop')

# Exibindo os valores únicos após a substituição
print("Valores únicos na coluna 'genre':")
print(df['genre'].unique())



Valores únicos na coluna 'genre':
['hiphop' 'rock' 'jazz' 'pop']


Certifique-se que os nomes duplicados foram removidos. Imprima a lista de valores únicos da coluna `'genre'` mais uma vez:

In [49]:

genres = df['genre']

# Obter os valores únicos e ordená-los em ordem alfabética
unique_genres_sorted = sorted(genres.unique())

# Imprimir a lista
print(unique_genres_sorted)


['hiphop', 'jazz', 'pop', 'rock']


[Voltar ao Índice](#back)

### Suas observações <a id='data_preprocessing_conclusions'></a>

` Descreva brevemente o que você reparou ao analisar duplicados, bem como a abordagem que usou para eliminá-los e os resultados que alcançou.`

- Duplicados influenciam  no resultado final da analise, trás números inconsistentes, eu usei funções em conjunto na qual vi durante esse sprint

[Voltar ao Índice](#back)

## Etapa 3. Teste da hipótese <a id='hypothesis'></a>

### Hipótese: comparação do comportamento dos usuários nas duas cidades <a id='activity'></a>



A hipótese afirma que existem diferenças no consumo de música pelos usuários em Springfield e em Shelbyville. Para testar a hipótese, use os dados dos três dias da semana: segunda-feira (Monday), quarta-feira (Wednesday) e sexta-feira (Friday).

* Agrupe os usuários por cidade.
* Compare o número de músicas tocadas por cada grupo na segunda, quarta e sexta.




Execute cada cálculo separadamente.

O primeiro passo é avaliar a atividade dos usuários em cada cidade. Não se esqueça das etapas "divisão-aplicação-combinação" sobre as quais falamos anteriormente na lição. Agora seu objetivo é agrupar os dados por cidade, aplicar o método de contagem apropriado durante a etapa de aplicação e então encontrar o número de músicas tocadas por cada grupo, especificando a coluna para a qual você quer obter a contagem.

Veja um exemplo de como o resultado final deve ser:
`df.groupby(by='....')['column'].method()` Execute cada cálculo separadamente.

Para avaliar a atividade dos usuários em cada cidade, agrupe os dados por cidade e encontre o número de músicas reproduzidas em cada grupo.



In [85]:




musicas_por_cidade = df.groupby('city')['track'].count().reset_index()


musicas_por_cidade = musicas_por_cidade.rename(columns={'track': 'n_musicas'})

print(musicas_por_cidade)



          city  n_musicas
0  Shelbyville      19302
1  Springfield      44434


`Comente sobre suas observações aqui` calculei(count) usando a formula de cidade e track

Agora vamos agrupar os dados por dia da semana e encontrar a quantidade de músicas tocadas na segunda, quarta e sexta-feira. Use a mesma abordagem que antes, mas agora precisamos agrupar os dados de uma forma diferente.


In [86]:
df_filtered = df[df['day'].isin(['Monday', 'Wednesday', 'Friday'])]

# Agrupar por dia da semana e contar quantas músicas foram tocadas
musicas_por_dia = df_filtered.groupby('day')['track'].count().reset_index()

# Renomear coluna
musicas_por_dia = musicas_por_dia.rename(columns={'track': 'n_musicas'})

print(musicas_por_dia)


         day  n_musicas
0     Friday      22768
1     Monday      22106
2  Wednesday      18862


`Comente sobre suas observações aqui`

Você acabou de aprender como contar entradas agrupando-as por cidade ou por dia. E agora você precisa escrever uma função que possa contar entradas simultaneamente com base em ambos os critérios.

Crie a função `number_tracks()` para calcular o número de músicas tocadas em um determinado dia **e** em uma determinada cidade. A função deve aceitar dois parâmetros:

- `day`: um dia da semana pelo qual precisamos filtrar os dados. Por exemplo, `'Monday'`.
- `city`: uma cidade pela qual precisamos filtrar os dados. Por exemplo, `'Springfield'`.

Dentro da função, você vai aplicar uma filtragem consecutiva com indexação lógica.

Primeiro, filtre os dados por dia e então filtre a tabela resultante por cidade.

Depois de filtrar os dados usando os dois critérios, conte o número de valores na coluna 'user_id' da tabela resultante. O resultado da contagem representará o número de entradas que você quer encontrar. Armazene o resultado em uma nova variável e imprima-o.

In [87]:
def number_tracks(day, city):
    # Filtra pelo dia
    df_day = df[df['day'] == day]
    
    # Filtra pelo dia + cidade
    df_day_city = df_day[df_day['city'] == city]
    
    # Conta quantas músicas foram tocadas (usando userID ou track)
    return df_day_city['userid'].count()

# Exemplos de uso:
print(number_tracks('Monday', 'Springfield'))
print(number_tracks('Monday', 'Shelbyville'))

16715
5982


Chame a função `number_tracks()` seis vezes, mudando os valores dos parâmetros, para que você possa recuperar os dados de ambas as cidades para cada um dos três dias.

In [88]:
print("Springfield - Monday:", number_tracks('Monday', 'Springfield')) # a quantidade de músicas tocadas em Springfield na segunda-feira


Springfield - Monday: 16715


In [89]:
print("Shelbyville - Monday:", number_tracks('Monday', 'Shelbyville')) # a quantidade de músicas tocadas em Shelbyville na segunda-feira


Shelbyville - Monday: 5982


In [90]:
print("Springfield - Wednesday:", number_tracks('Wednesday', 'Springfield')) # a quantidade de músicas tocadas em Springfield na quarta-feira


Springfield - Wednesday: 11755


In [91]:
print("Shelbyville - Wednesday:", number_tracks('Wednesday', 'Shelbyville')) # a quantidade de músicas tocadas em Shelbyville na quarta-feira


Shelbyville - Wednesday: 7478


In [92]:
print("Springfield - Friday:", number_tracks('Friday', 'Springfield'))# a quantidade de músicas tocadas em Springfield na sexta-feira


Springfield - Friday: 16890


In [93]:
print("Shelbyville - Friday:", number_tracks('Friday', 'Shelbyville')) # a quantidade de músicas tocadas em Shelbyville na sexta-feira


Shelbyville - Friday: 6259


**Conclusões**

`Comente sobre se a terceira hipótese está correta ou deve ser rejeitada. Explique seu raciocínio.`

Está correta, existe uma diferença de reproduções por cidade em todos os 3 dias, Springfield apresentou contagens maiores do que Shelbyville, com uma diferença consistente, levanto o ponto de que nao temos o número de habitantes por cidade, o que pode ser prejudicial a analise de dados, porque uma das cidades pode ser maior do que a outra e isso pode "inflar" o resultado final.