# Limpeza de Dados

#### Lendo o database e imprimindo as colunas disponiveis

In [1]:
import pandas as pd
import xlrd

df = pd.read_excel('Hot Stuff.xlsx')

In [2]:
#colunas disponiveis
print(df.columns)

Index(['url', 'WeekID', 'Week Position', 'Song', 'Performer', 'SongID',
       'Instance', 'Previous Week Position', 'Peak Position',
       'Weeks on Chart'],
      dtype='object')


#### Testando como encontrar entradas de datas especificas

In [3]:
#Comparando um digito apenas com o inteiro especificado
#Celula de teste
for i in range(5):
    if (df['WeekID'][i][0] == '1'):
        print(df['WeekID'][i].split())

['1990-05-05']
['1990-05-12']
['1990-05-19']
['1990-05-26']
['1990-06-02']


#### Calculando o quão popular foi uma música e qual a popularidade máxima atingida pela mesma e salvando essa e outras informações em um dicionario (Para se livrar das informações "inuteis que estão na .xlsx)

In [4]:
#esta celula calcula o quao popular foi uma musica no mes especificado (Maio de 1990) atribuindo um sistema de pontos baseado em que posicao ela ficou no top 100 em cada semana do mês
#vai contar o quao popular foi a musica no ano atribuindo pontos a quantas semanas ela ficou entre as mais tocadas
contador = {}

#testando se o char especificado esta na entrada atual
#pode ser usado para identificar anos diferentes
counter = 0
for i in range(len(df)):
    if '1990-05' in df['WeekID'][i]: #filtra todas as entradas por ano E mes nesse caso (Maio de 1990)
        if(df['SongID'][i] in contador): #testa se a musica ja esta no dicionario (ja foi computada)
            contador[df['SongID'][i]]['Pontos'] += (101 - df['Week Position'][i])
        else: #cai aqui se ainda nao foi computada
            contador[df['SongID'][i]] = {}
            contador[df['SongID'][i]]['Artista'] = df['Performer'][i]
            contador[df['SongID'][i]]['Titulo'] = df['Song'][i]
            contador[df['SongID'][i]]['Pontos'] = (101 - df['Week Position'][i])
            #A medida 'Peak' nao eh a posicao exata que ela atingiu mas os "pontos maximos" ganhos em uma semana (de 1 a 100)
            contador[df['SongID'][i]]['Peak'] = (101 - df['Peak Position'][i]) #salva qual foi a maior posicao alcançada pela musica (usada para criterios de desempate)
            contador[df['SongID'][i]]['Semanas'] = df['Weeks on Chart'][i] #Terceiro criterio de desempate

In [5]:
for x in contador:
    print ('SongID: ', x)
    for y in contador[x]:
        print (y,':',contador[x][y])
    print(" ")

SongID:  "B" GirlsYoung And Restless
Artista : Young And Restless
Titulo : "B" Girls
Pontos : 114
Peak : 47
Semanas : 15
 
SongID:  A Little LoveCorey Hart
Artista : Corey Hart
Titulo : A Little Love
Pontos : 96
Peak : 64
Semanas : 11
 
SongID:  All Around The WorldLisa Stansfield
Artista : Lisa Stansfield
Titulo : All Around The World
Pontos : 329
Peak : 98
Semanas : 22
 
SongID:  All I Wanna Do Is Make Love To YouHeart
Artista : Heart
Titulo : All I Wanna Do Is Make Love To You
Pontos : 390
Peak : 99
Semanas : 20
 
SongID:  All My LifeLinda Ronstadt (Featuring Aaron Neville)
Artista : Linda Ronstadt (Featuring Aaron Neville)
Titulo : All My Life
Pontos : 66
Peak : 90
Semanas : 15
 
SongID:  All That Glitters Isn't GoldThe Cover Girls
Artista : The Cover Girls
Titulo : All That Glitters Isn't Gold
Pontos : 182
Peak : 52
Semanas : 12
 
SongID:  AlrightJanet Jackson
Artista : Janet Jackson
Titulo : Alright
Pontos : 375
Peak : 97
Semanas : 16
 
SongID:  Always And ForeverWhistle
Artista 

Artista : Lightning Seeds
Titulo : Pure
Pontos : 29
Peak : 70
Semanas : 15
 
SongID:  Ready Or NotAfter 7
Artista : After 7
Titulo : Ready Or Not
Pontos : 313
Peak : 94
Semanas : 21
 
SongID:  RoamThe B-52s
Artista : The B-52s
Titulo : Roam
Pontos : 4
Peak : 98
Semanas : 20
 
SongID:  Room At The TopAdam Ant
Artista : Adam Ant
Titulo : Room At The Top
Pontos : 325
Peak : 84
Semanas : 16
 
SongID:  Rub You The Right WayJohnny Gill
Artista : Johnny Gill
Titulo : Rub You The Right Way
Pontos : 175
Peak : 98
Semanas : 23
 
SongID:  SacrificeElton John
Artista : Elton John
Titulo : Sacrifice
Pontos : 15
Peak : 83
Semanas : 17
 
SongID:  Save MeFleetwood Mac
Artista : Fleetwood Mac
Titulo : Save Me
Pontos : 252
Peak : 68
Semanas : 11
 
SongID:  Sending All My LoveLinear
Artista : Linear
Titulo : Sending All My Love
Pontos : 371
Peak : 96
Semanas : 27
 
SongID:  ShakeAndrew Ridgeley
Artista : Andrew Ridgeley
Titulo : Shake
Pontos : 62
Peak : 24
Semanas : 6
 
SongID:  She Ain't Worth ItGlenn M

#### Ordenando o dicionario pelas músicas mais populares e usando a popularidade máxima atingida em uma semana como critério de desempate

In [6]:
items = sorted(contador.items(), key = lambda tup: (tup[1]["Pontos"], tup[1]["Peak"], tup[1]["Semanas"]), reverse=True)

#### Imprimindo as 15 primeiras para testar

In [7]:
#1 deve sempre se manter fixo enquanto 
for i in range(5): #varre as 5 mais tocadas
    for y in items[i][1]: #varre as diferentes categorias do dicionario (artista, titulo, pontos)
        print(items[i][1][y])
    print('')

Sinead O'Connor
Nothing Compares 2 U
397
100
21

Madonna
Vogue
396
100
24

Heart
All I Wanna Do Is Make Love To You
390
99
20

Calloway
I Wanna Be Rich
379
99
23

Wilson Phillips
Hold On
378
100
25



#### Cria um dicionario mais organizado com as 100 mais tocadas no período especificado

In [8]:
#armazena as primeiras 100 entradas em um dicionário mais organizado
top = [dict() for x in range(100)] #cria uma lista de 100 dicionarios

for i in range(len(top)):
    for y in items[i][1]:
        top[i][y] = items[i][1][y]

In [9]:
for x in range(100):
    print(top[x]['Titulo'], ':', top[x]['Pontos'])

Nothing Compares 2 U : 397
Vogue : 396
All I Wanna Do Is Make Love To You : 390
I Wanna Be Rich : 379
Hold On : 378
Alright : 375
Sending All My Love : 371
How Can We Be Lovers : 365
Poison : 362
What It Takes : 356
This Old Heart Of Mine : 354
It Must Have Been Love (From "Pretty Woman") : 349
Love Child : 347
Don't Wanna Fall In Love : 344
U Can't Touch This : 338
The Humpty Dance : 334
Whip Appeal : 333
All Around The World : 329
Room At The Top : 325
Ooh La La (I Can't Get Over You) : 324
Your Baby Never Looked Good In Blue : 323
Ready Or Not : 313
Without You : 298
Turtle Power : 292
Expression : 291
Baby, It's Tonight : 286
Do You Remember? : 283
House Of Pain : 282
I'll Be Your Everything : 280
I'll See You In My Dreams : 274
Here And Now : 270
Children Of The Night : 270
Hold On : 269
Heartbeat : 264
Cruising For Bruising : 257
Black Velvet : 255
The Heart Of The Matter : 252
Save Me : 252
I'll Be Your Shelter : 246
Getting Away With It : 241
Enjoy The Silence : 231
Always And 

#### Testando como escrever e ler de arquivos binarios
##### Mostra como guardar os arquivos binarios, eles devem ser estruturados e entao salvas desse jeito

In [75]:
import pickle #modulo usado para serializar dados para o arquivo binario
import os

filename = 'teste.bin'
fileBytes = []

if os.path.exists(filename): #confere se o arquivo existe
    print('ENTROU')
    with open(filename,'rb') as openfile:  #with automaticamente da um close() no final
        fileBytes = pickle.load(openfile)


newData = top[0:10] #Aqui vem a nova data que deve ser concatenada
        
fileBytes = fileBytes + newData #concatena o que ja tinha no arquivo binario com a nova data
with (open(filename, 'wb+')) as openfile: #abre o arquivo de teste no modo de leitura binaria 'wb' como openfile
    pickle.dump(fileBytes, openfile) 

In [76]:
with (open('teste.bin', 'rb')) as openfile:
    leitura = pickle.load(openfile)
    
print(leitura)

[{'Artista': "Sinead O'Connor", 'Titulo': 'Nothing Compares 2 U', 'Pontos': 397, 'Peak': 100, 'Semanas': 21}, {'Artista': 'Madonna', 'Titulo': 'Vogue', 'Pontos': 396, 'Peak': 100, 'Semanas': 24}, {'Artista': 'Heart', 'Titulo': 'All I Wanna Do Is Make Love To You', 'Pontos': 390, 'Peak': 99, 'Semanas': 20}, {'Artista': 'Calloway', 'Titulo': 'I Wanna Be Rich', 'Pontos': 379, 'Peak': 99, 'Semanas': 23}, {'Artista': 'Wilson Phillips', 'Titulo': 'Hold On', 'Pontos': 378, 'Peak': 100, 'Semanas': 25}, {'Artista': 'Janet Jackson', 'Titulo': 'Alright', 'Pontos': 375, 'Peak': 97, 'Semanas': 16}, {'Artista': 'Linear', 'Titulo': 'Sending All My Love', 'Pontos': 371, 'Peak': 96, 'Semanas': 27}, {'Artista': 'Michael Bolton', 'Titulo': 'How Can We Be Lovers', 'Pontos': 365, 'Peak': 98, 'Semanas': 18}, {'Artista': 'Bell Biv DeVoe', 'Titulo': 'Poison', 'Pontos': 362, 'Peak': 98, 'Semanas': 22}, {'Artista': 'Aerosmith', 'Titulo': 'What It Takes', 'Pontos': 356, 'Peak': 92, 'Semanas': 17}]


#### Montar um arquivo binario com o top 100 de cada ano