## Projeto Música na Cidade 
Neste projeto, exploraremos as preferências musicais dos habitantes de Springfield e Shelbyville utilizando dados da plataforma Y.Music.

## 1.1 Inicialização

O primeiro passo da nossa análise é importar as bibliotecas que serão utilizadas. 

In [2]:
import pandas as pd

## 1.2 Carregar dados
Em seguida precisamos carregar o arquivo que armazena os dados a serem análisados.

In [3]:
df = pd.read_csv(r'C:\Users\PC\Desktop\portifolio\musica na cidade\moved_music_project_en.csv') 

## 1.3 Observação dos dados. 
Agora é o momento de ter o nosso primeiro contato com os dados. Vamos identificar quais dados estão disponíveis, bem como possíveis problemas que possam estar presentes, como a ausência de informações, dados armazenados com o tipo incorreto, entre outros.

In [4]:
df.head(10) 

Unnamed: 0,userID,Track,artist,genre,City,time,Day
0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Shelbyville,20:28:33,Wednesday
1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Springfield,14:07:09,Friday
2,20EC38,Funiculì funiculà,Mario Lanza,pop,Shelbyville,20:58:07,Wednesday
3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Shelbyville,08:37:09,Monday
4,E2DC1FAE,Soul People,Space Echo,dance,Springfield,08:34:34,Monday
5,842029A1,Chains,Obladaet,rusrap,Shelbyville,13:09:41,Friday
6,4CB90AA5,True,Roman Messer,dance,Springfield,13:00:07,Wednesday
7,F03E1C1F,Feeling This Way,Polina Griffith,dance,Springfield,20:47:49,Wednesday
8,8FA1D3BE,L’estate,Julia Dalia,ruspop,Springfield,09:17:40,Friday
9,E772D5C0,Pessimist,,dance,Shelbyville,21:20:49,Wednesday


In [5]:
df.info() #obtendo informações gerais sobre os dados em df

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65079 entries, 0 to 65078
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0     userID  65079 non-null  object
 1   Track     63736 non-null  object
 2   artist    57512 non-null  object
 3   genre     63881 non-null  object
 4     City    65079 non-null  object
 5   time      65079 non-null  object
 6   Day       65079 non-null  object
dtypes: object(7)
memory usage: 3.5+ MB


A tabela contém sete colunas. Elas armazenam o mesmo tipo de dado: objetos.

De acordo com a documentação:

* 'userID' — identificação do usuário
* 'Track' — título da música
* 'artist' — nome do artista
* 'genre' — o gênero
* 'City' — cidade do usuário
* 'time' — tempo exato que a música foi tocada
* 'Day' — dia da semana 
Nós podemos ver três problemas com o estilo nos nomes das colunas:

Alguns nomes estão com letra maiúscula, alguns com letra minúscula.
Há espaços em alguns nomes.

A quantidade de valores das colunas é diferente. Isso significa que os dados contém valores ausentes.

Mude os nomes das colunas de acordo com as regras da boa prática de estilo:

Se o nome tiver várias palavras, use snake_case
Todos os caracteres precisam estar com letras minúsculas
Delete espaços

In [6]:
df.columns = df.columns.str.strip().str.lower() #renomeando colunas
df = df.rename(columns={'userid' : 'user_id'}) 

In [7]:
print(df.columns) #checando o resultado: a lista dos nomes das colunas

Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')


##  Valores ausentes 
Primeiro encontramos  a quantidade de valores ausentes na tabela. 

In [None]:
print(df.isna().sum()) # calculando valores ausentesv

user_id       0
track      1343
artist     7567
genre      1198
city          0
time          0
day           0
dtype: int64


Nem todos os valores ausentes afetam a pesquisa. Por exemplo, os valores ausentes na música e artista não é decisivo. podemos  simplesmente substituí-los por marcadores claros.

Mas valores ausentes em 'genre' pode afetar a comparação de preferências musicais de Springfield e Shelbyville. Seria útil descobrir as razões pelas quais os dados estão ausentes e tentar compensá-los. Mas nós não temos essa possibilidade neste projeto. Então, vamos ter que:

Preencher os valores ausentes com marcadores
Avaliar o quanto os valores ausentes podem afetar os seus cálculos

Substituir os valores ausentes em 'track', 'artist', e 'genre' com a string 'unknown'.

In [None]:
columns_to_replace = ['track','artist','genre'] # percorrendo os nomes das colunas e substituindo valores ausentes com 'unknown'
for column in columns_to_replace:
    df[column].fillna('unknown', inplace=True)

Certificando de que a tabela não contenha mais valores ausentes.

In [None]:
print(df.isna().sum()) # contando os valores ausentes

user_id    0
track      0
artist     0
genre      0
city       0
time       0
day        0
dtype: int64


## 3.3  Duplicatas 
Encontrando o número de duplicatas óbvias na tabela.

In [None]:
print(df.duplicated().sum()) # contando duplicatas claras

3826


Eliminando as duplicatas do conjunto de dados. 

In [None]:
df = df.drop_duplicates() # removendo duplicatas óbvias

In [None]:
print(df.duplicated().sum()) # verificando duplicatas

0


Agora, livre-se das duplicatas implícitas na coluna genre. Por exemplo, o nome de um gênero pode ser escrito de maneiras diferentes. Alguns erros afetarão também o resultado.

Vamos exibir a lista de nomes de gêneros únicos, organizados em ordem alfabética. Para fazer isso:

In [None]:
print(df.sort_values('genre')['genre'].unique()) #visualizando nomes de gêneros únicos


['acid' 'acoustic' 'action' 'adult' 'africa' 'afrikaans' 'alternative'
 'ambient' 'americana' 'animated' 'anime' 'arabesk' 'arabic' 'arena'
 'argentinetango' 'art' 'audiobook' 'avantgarde' 'axé' 'baile' 'balkan'
 'beats' 'bigroom' 'black' 'bluegrass' 'blues' 'bollywood' 'bossa'
 'brazilian' 'breakbeat' 'breaks' 'broadway' 'cantautori' 'cantopop'
 'canzone' 'caribbean' 'caucasian' 'celtic' 'chamber' 'children' 'chill'
 'chinese' 'choral' 'christian' 'christmas' 'classical' 'classicmetal'
 'club' 'colombian' 'comedy' 'conjazz' 'contemporary' 'country' 'cuban'
 'dance' 'dancehall' 'dancepop' 'dark' 'death' 'deep' 'deutschrock'
 'deutschspr' 'dirty' 'disco' 'dnb' 'documentary' 'downbeat' 'downtempo'
 'drum' 'dub' 'dubstep' 'eastern' 'easy' 'electronic' 'electropop' 'emo'
 'entehno' 'epicmetal' 'estrada' 'ethnic' 'eurofolk' 'european'
 'experimental' 'extrememetal' 'fado' 'film' 'fitness' 'flamenco' 'folk'
 'folklore' 'folkmetal' 'folkrock' 'folktronica' 'forró' 'frankreich'
 'französisch' 

In [None]:
def replace_wrong_genres(wrong_genres, correct_genre):# função para substituir duplicatas implícitas
    for genre in wrong_genres:
        df['genre'] =df['genre'].replace(genre, correct_genre)

Chame replace_wrong_genres() e passe a ela argumentos para que possa eliminar as duplicatas implícitas (hip, hop, e hip-hop) e substituí-los por hiphop:

In [None]:
replace_wrong_genres(['hip','hop','hip-hop'], 'hiphop')# removendo duplicatas implícitas

Certifique-se que os nomes duplicados foram removidos. Exiba a lista de valores únicos da coluna:

In [None]:
print(df['genre'].unique)

<bound method Series.unique of 0              rock
1              rock
2               pop
3              folk
4             dance
            ...    
65074           rnb
65075        hiphop
65076    industrial
65077          rock
65078       country
Name: genre, Length: 61253, dtype: object>


3.4  Conclusões 
Nós detectamos três problemas com os dados:

Estilo de cabeçalho incorreto
Valores ausentes
Duplicatas óbvias e implícitas
O cabeçalho foi limpo para fazer o processamento da tabela mais simples.

Todos os valores ausentes foram substituídos por 'unkown'. Mas nós ainda temos que ver os se valores ausentes em 'genre' afetará os nossos cálculos.

A ausência de duplicatas deixará os resultados mais precisos e mais fáceis de entender.

Agora você pode seguir para testar hipóteses.

 4  Etapa 3. Testando hipóteses 

4.1  Hipótese 1: comparando o comportamento dos usuários em duas cidades 
De acordo com a primeira hipótese, usuários de Springfield and Shelbyville escutam música de forma diferente. Teste essa hipótese usando os dados de três dias da semana: segunda-feira, quarta-feira, e sexta-feira.

Divida os usuários de cada cidade em grupos.
Compare quantas músicas cada grupo escutou na segunda-feira, quarta-feira e sexta-feira.
Por uma questão de prática, faça cada um desses cálculos separadamente.

Avalie a atividade do usuário em cada cidade. Agrupe os dados por cidade e encontre o número de músicas tocadas em cada grupo.

In [None]:
print('O número de músicas ouvidas em Shelbyville é: ', df['city'][df['city']=='Shelbyville'].count())
print('O número de músicas ouvidas em Springfield é: ', df['city'][df['city']=='Springfield'].count())


O número de músicas ouvidas em Shelbyville é:  18512
O número de músicas ouvidas em Springfield é:  42741


Springfield tem mais músicas tocadas do que Shelbyville. Mas isso não quer dizer que os cidadãos de Springfield escutam música com mais frequência. Essa cidade é somente maior, e tem mais usuários.

Agora agrupe os dados por dia da semana e encontre a quantidade de músicas tocadas na segunda, quarta e sexta-feira.

In [None]:
print('O número de músicas ouvidas na Segunda-feira: ', df['day'][df['day']=='Monday'].count())
print('O número de músicas ouvidas na Quarta-feira: ', df['day'][df['day']=='Wednesday'].count())
print('O número de músicas ouvidas na Sexta-feira: ', df['day'][df['day']=='Friday'].count())


O número de músicas ouvidas na Segunda-feira:  21354
O número de músicas ouvidas na Quarta-feira:  18059
O número de músicas ouvidas na Sexta-feira:  21840


Quarta-feira é o dia mais calmo em geral. Mas se considerarmos as duas cidades separadamente, devemos chegar a uma conclusão diferente.

Você viu como agrupar por cidade ou dia da semana funciona. Agora escreva a função que agrupar os dados pelos dois critérios.

Crie a função number_tracks() para calcular o número de músicas tocadas em um determinado dia da semana e em cada cidade. Será necessários dois parâmetros:

dia da semana
nome da cidade
Na função, use a variável para armazenar as linhas da tabela original, onde:

o valor da coluna 'day' é igual ao parâmetro dia
o valor da coluna 'city' é igual ao parâmetro cidade
Aplique filtros consecutivos com indexação lógica.

Depois, calcule os valores da coluna 'user_id' na tabela resultante. Armazene o resultado na nova variável. Retorne essa variável da função.

In [None]:
def number_tracks(day, city):
    track_list = df[(df['day'] == day) & (df['city'] == city)]
    track_list_count = track_list['user_id'].count()
    return track_list_count

Chame a number_tracks() seis vezes, mudando os valores dos parâmetros, para que você recupere os dados de ambas as cidades para os três dias.

In [None]:
number_tracks('Monday', 'Springfield')# a quantidade de músicas tocadas em Springfield na segunda-feira

15740

In [None]:
number_tracks('Monday', 'Shelbyville')# a quantidade de músicas tocadas em Shelbyville na segunda-feira

5614

In [None]:
number_tracks('Wednesday', 'Springfield')# a quantidade de músicas tocadas em Springfield na quarta-feira

11056

In [None]:
number_tracks('Wednesday', 'Shelbyville')# a quantidade de músicas tocadas em Shelbyville na quarta-feira

7003

In [None]:
number_tracks('Friday', 'Springfield')# a quantidade de músicas tocadas em Springfield na sexta-feira

15945

In [None]:
number_tracks('Friday', 'Shelbyville')# a quantidade de músicas tocadas em Shelbyville na sexta-feira

5895

Use pd.DataFrame para criar uma tabela, onde

Os nomes das colunas são: ['city', 'monday', 'wednesday', 'friday']`
Os dados são o resultado que você recebe de number_tracks()

In [None]:
music_count = [['Springfield', number_tracks('Monday', 'Springfield'), number_tracks('Wednesday', 'Springfield')
                , number_tracks('Friday', 'Springfield')],
               ['Springfield', number_tracks('Monday', 'Shelbyville'), number_tracks('Wednesday', 'Shelbyville')
                ,number_tracks('Friday', 'Shelbyville')]]
entires = ['city', 'monday', 'wednesday', 'friday']
playlist = pd.DataFrame(data = music_count, columns= entires)
print(playlist)

          city  monday  wednesday  friday
0  Springfield   15740      11056   15945
1  Springfield    5614       7003    5895


4.2  Hipótese 2: música no começo e no fim da semana 
De acordo com a segunda hipótese, na segunda-feira de manhã e sexta-feira à noite, habitantes de Springfield escutam gêneros que diferem de alguns usuários de Shelbyville gostam.

Obtenha uma tabela (certifique-se de que o nome da sua tabela combinada corresponda ao DataFrame dado em dois blocos de código abaixo):

Para Springfield — spr_general
Para Shelbyville — shel_general

In [None]:
spr_general = df[df['city'] == 'Springfield']
print(spr_general.head(10))

     user_id                                              track  \
1   55204538                        Delayed Because of Accident   
4   E2DC1FAE                                        Soul People   
6   4CB90AA5                                               True   
7   F03E1C1F                                   Feeling This Way   
8   8FA1D3BE                                           L’estate   
10  BC5A3A29                                       Gool la Mita   
11  8B5192C0  Is There Anybody Out There? (Panoramic Paralys...   
12  FF3FD2BD                                              Truth   
13  CC782B0F                               After School Special   
15  E3C5756F                                            unknown   

                  artist       genre         city      time        day  
1       Andreas Rönnberg        rock  Springfield  14:07:09     Friday  
4             Space Echo       dance  Springfield  08:34:34     Monday  
6           Roman Messer       dance  Sprin

In [None]:
shel_general = df[df['city'] == 'Shelbyville']
print(shel_general.head(10))

     user_id                       track               artist        genre  \
0   FFB692EC           Kamigata To Boots     The Mass Missile         rock   
2     20EC38           Funiculì funiculà          Mario Lanza          pop   
3   A3DD03C9       Dragons in the Sunset           Fire + Ice         folk   
5   842029A1                      Chains             Obladaet       rusrap   
9   E772D5C0                   Pessimist              unknown        dance   
14  94EB25C2  Make Love Whenever You Can            Arabesque          pop   
16  81D05C7D              SLAVES OF FEAR               HEALTH  alternative   
17  39DE290E                 Hallo Hallo  Die Klima Hawaiians         folk   
18  58AE138A                  Pat-a-Cake    Mother Goose Club     children   
22  B8E29C9C        The Drunken Scotsman         Ménage à Moi         folk   

           city      time        day  
0   Shelbyville  20:28:33  Wednesday  
2   Shelbyville  20:58:07  Wednesday  
3   Shelbyville  08:37:0

Escreva a função genre_weekday() com quatro parâmetros:

Uma tabela para dados (df)
O dia da semana (day)
O primeiro carimbo de hora, no formato 'HH:MM' (time1)
O último carimbo de hora, no formato 'HH,MM' (time2)
A função deve retornar informações sobre os 15 gêneros mais populares em um determinado dia, dentro do período entre os dois carimbos de hora.

In [None]:
def genre_weekday(day, time1, time2, df=df):
    genre_df = df[(df['day'] == day)]
    genre_df = genre_df[genre_df['time'] < time2]
    genre_df = genre_df[genre_df['time'] > time1]
    genre_df_grouped = genre_df.groupby('genre')['genre'].count()
    genre_df_sorted = genre_df_grouped.sort_values(ascending=False)
    return genre_df_sorted[:15]


Compare os resultados da função genre_weekday() para Springfield e Shelbyville na segunda-feira de manhã (de 7hs à 11hs) e na sexta-feira de tarde (das 17hs às 23hs):

In [None]:
genre_weekday('Monday', '07:00:00', '12:00:00', spr_general) #chamando a função para segunda-feira de manha em Springfield (use spr_general em vez de df table)


genre
pop            781
dance          549
electronic     480
rock           474
hiphop         286
ruspop         186
world          181
rusrap         175
alternative    164
unknown        161
classical      157
metal          120
jazz           100
folk            97
soundtrack      95
Name: genre, dtype: int64

In [None]:
genre_weekday('Monday', '07:00:00', '12:00:00', shel_general) # chamando a função para segunda-feira de manhã em Shelbyville (use shel_general em vez de df table)

genre
pop            218
dance          182
rock           162
electronic     147
hiphop          80
ruspop          64
alternative     58
rusrap          55
jazz            44
classical       40
world           36
rap             32
soundtrack      31
rnb             27
metal           27
Name: genre, dtype: int64

In [None]:
genre_weekday('Friday', '17:00:00', '23:00:00', spr_general)# chamando a função para sexta-feira à tarde em Springfield

genre
pop            713
rock           517
dance          495
electronic     482
hiphop         273
world          208
ruspop         170
classical      163
alternative    163
rusrap         142
jazz           111
unknown        110
soundtrack     105
rnb             90
metal           88
Name: genre, dtype: int64

In [None]:
genre_weekday('Friday', '17:00:00', '23:00:00', shel_general) # chamando a função para sexta-feira à tarde em Shelbyville

genre
pop            256
rock           216
electronic     216
dance          210
hiphop          97
alternative     63
jazz            61
classical       60
rusrap          59
world           54
unknown         47
ruspop          47
soundtrack      40
metal           39
rap             36
Name: genre, dtype: int64

Conclusão

Tendo comparado os 15 gêneros mais ouvidos na segunda-feira de manhã, nós podemos tirar as seguintes conclusões:

Usuários de Springfield e Shelbyville escutam músicas semelhantes. Os cinco gêneros mais ouvidos são os mesmos, apenas rock e música eletrônica trocaram de lugar.

Em Springfield, a quantidade de valores ausentes acabaram por serem tantos que o valor 'unknown' veio em 10º. Isso significa que valores ausentes tiveram uma considerável porção dos dados, que pode ser a base para questionamentos a confiabilidade das conclusões.

Para sexta-feira à tarde, a situação é parecida. Gêneros individuais variam um pouco, mas no todo, os 15 gêneros mais ouvidos são parecidos para as duas cidades.

Assim, a segunda hipótese foi parcialmente provada:

Usuários escutam gêneros musicais parecidos no começo e no fim da semana.
Não há grande diferença entre Springfield e Shelbyville. Nas duas cidades, pop é o gênero mais popular.
No entanto, o número de valores ausentes faz esse resultado ser questionável. Em Springfield, há tantos que eles afetaram o top 15. Se não nos faltassem esses valores, as coisas poderiam ser diferentes.

4.3  Hipótese 3: preferências em Springfield e Shelbyville 
Hipótese: Shelbyville ama rap. Cidadãos de Springfield curtem mais pop.

Agrupe a tabela spr_general por gênero e encontre o número de músicas tocadas para cada gênero com o método count(). Depois organize o resultado em ordem decrescente e armazene-o em spr_genres.

In [None]:
spr_genres = spr_general.groupby('genre')['track'].count().sort_values(ascending=False)


genre
pop            5892
dance          4435
rock           3965
electronic     3786
hiphop         2096
               ... 
metalcore         1
marschmusik       1
malaysian         1
lovers            1
ïîï               1
Name: track, Length: 250, dtype: int64


Exiba as primeiras 10 linhas de spr_genres:

In [None]:
print(spr_genres.head(10))

genre
pop            5892
dance          4435
rock           3965
electronic     3786
hiphop         2096
classical      1616
world          1432
alternative    1379
ruspop         1372
rusrap         1161
Name: track, dtype: int64


Exiba as 10 primeiras linhas de shel_genres:

In [None]:
shel_genres = shel_general.groupby('genre')['track'].count().sort_values(ascending=False)
print(shel_genres.head(10))

genre
pop            2431
dance          1932
rock           1879
electronic     1736
hiphop          960
alternative     649
classical       646
rusrap          564
ruspop          538
world           515
Name: track, dtype: int64


Conclusão

A hipótese foi parcialmente provada:

Música pop é o gênero mais em Springfield, como esperado.
Entretanto, música pop acabou por ser igualmente popular em Springfield e Shelbyville, e rap não estava no top 5 em nenhuma cidade.

Conclusões 

ós testamos as três hipóteses seguintes:

A atividade do usuário varia dependendo do dia da semana e da cidade.
Nas segundas-feiras de manhã, os habitantes de Springfield e Shelbyville escutam diferentes gêneros. Isso também é verdadeiro para noites de sexta-feira.
Ouvintes de Springfield e Shelbyville têm preferências diferentes. Tanto em Springfield como Shellbyville, eles preferem pop.
Depois de analisar os dados, nós concluímos:

A atividade do usuário em Springfield e Shelbyville depende do dia da semana, embora as cidades variam de formas diferentes.
A primeira hipótese é totalmente aceita.

As preferências musicais não variam significativamente ao decorrer da semana tanto em Springfield como em Shelbyville. Nós podemos ver pequenas diferenças na ordem nas segundas-feiras, mas:
Em Springfield e Shelbyville, as pessoas escutam mais música pop.
Então nós podemos aceitar essa hipótese. Nós devemos também ter em mente que o resultado pode ter sido diferente se não fosse pelos valores ausentes.

Acontece que preferências musicais dos usuários de Springfield e Shelbyville são bastante parecidas.
A terceira hipótese foi rejeitada. Se há alguma diferença nas preferências, ela não pode ser vista nesses dados.

4.4  Observação
Em projetos reais, pesquisas envolvendo teste estatístico de hipóteses, que é mais preciso e mais quantitativo. Também perceba que você não pode sempre tirar conclusões sobre uma cidade inteira com base em dados de apenas uma fonte.

Você vai estudar teste de hipóteses no sprint sobre análise estatística de dados.