# Limpeza de Dados

#### Lendo o database e imprimindo as colunas disponiveis

In [1]:
import pandas as pd
import xlrd

df = pd.read_excel('Hot Stuff.xlsx')

In [2]:
#colunas disponiveis
print(df.columns)

Index(['url', 'WeekID', 'Week Position', 'Song', 'Performer', 'SongID',
       'Instance', 'Previous Week Position', 'Peak Position',
       'Weeks on Chart'],
      dtype='object')


#### Testando como encontrar entradas de datas especificas

In [3]:
#Comparando um digito apenas com o inteiro especificado
#Celula de teste
for i in range(5):
    if (df['WeekID'][i][0] == '1'):
        print(df['WeekID'][i].split())

['1990-05-05']
['1990-05-12']
['1990-05-19']
['1990-05-26']
['1990-06-02']


#### Calculando o quão popular foi uma música e qual a popularidade máxima atingida pela mesma e salvando essa e outras informações em um dicionario (Para se livrar das informações "inuteis que estão na .xlsx)

In [19]:
#esta celula calcula o quao popular foi uma musica no mes especificado (Maio de 1990) atribuindo um sistema de pontos baseado em que posicao ela ficou no top 100 em cada semana do mês
#vai contar o quao popular foi a musica no ano atribuindo pontos a quantas semanas ela ficou entre as mais tocadas
contador = {}

#testando se o char especificado esta na entrada atual
#pode ser usado para identificar anos diferentes
ano = '2010'
mes = '10'
for i in range(len(df)):
    if (ano + '-' + mes + '-') in df['WeekID'][i]: #filtra todas as entradas por ano E mes nesse caso (Maio de 1990)
        if(df['SongID'][i] in contador): #testa se a musica ja esta no dicionario (ja foi computada)
            contador[df['SongID'][i]]['Pontos'] += (101 - df['Week Position'][i])
        else: #cai aqui se ainda nao foi computada
            contador[df['SongID'][i]] = {}
            contador[df['SongID'][i]]['Artista'] = df['Performer'][i]
            contador[df['SongID'][i]]['Titulo'] = df['Song'][i]
            contador[df['SongID'][i]]['Ano'] = ano
            contador[df['SongID'][i]]['Mes'] = mes
            contador[df['SongID'][i]]['Pontos'] = (101 - df['Week Position'][i])
            #A medida 'Peak' nao eh a posicao exata que ela atingiu mas os "pontos maximos" ganhos em uma semana (de 1 a 100)
            contador[df['SongID'][i]]['Peak'] = (101 - df['Peak Position'][i]) #salva qual foi a maior posicao alcançada pela musica (usada para criterios de desempate)
            contador[df['SongID'][i]]['Semanas'] = df['Weeks on Chart'][i] #Terceiro criterio de desempate

In [20]:
for x in contador:
    print ('SongID: ', x)
    for y in contador[x]:
        print (y,':',contador[x][y])
    print(" ")

SongID:  2012 (It Ain't The End)Jay Sean Featuring Nicki Minaj
Artista : Jay Sean Featuring Nicki Minaj
Titulo : 2012 (It Ain't The End)
Ano : 2010
Mes : 10
Pontos : 331
Peak : 70
Semanas : 14
 
SongID:  A Year Without RainSelena Gomez & The Scene
Artista : Selena Gomez & The Scene
Titulo : A Year Without Rain
Ano : 2010
Mes : 10
Pontos : 114
Peak : 66
Semanas : 8
 
SongID:  AirplanesB.o.B Featuring Hayley Williams
Artista : B.o.B Featuring Hayley Williams
Titulo : Airplanes
Ano : 2010
Mes : 10
Pontos : 394
Peak : 99
Semanas : 30
 
SongID:  All About TonightBlake Shelton
Artista : Blake Shelton
Titulo : All About Tonight
Ano : 2010
Mes : 10
Pontos : 76
Peak : 64
Semanas : 19
 
SongID:  All I Want Is YouMiguel Featuring J. Cole
Artista : Miguel Featuring J. Cole
Titulo : All I Want Is You
Ano : 2010
Mes : 10
Pontos : 116
Peak : 43
Semanas : 14
 
SongID:  All Over MeJosh Turner
Artista : Josh Turner
Titulo : All Over Me
Ano : 2010
Mes : 10
Pontos : 199
Peak : 42
Semanas : 18
 
SongID:  A

Semanas : 20
 
SongID:  ShakeJesse McCartney
Artista : Jesse McCartney
Titulo : Shake
Ano : 2010
Mes : 10
Pontos : 34
Peak : 47
Semanas : 12
 
SongID:  Sing!Glee Cast
Artista : Glee Cast
Titulo : Sing!
Ano : 2010
Mes : 10
Pontos : 14
Peak : 14
Semanas : 1
 
SongID:  SmileUncle Kracker
Artista : Uncle Kracker
Titulo : Smile
Ano : 2010
Mes : 10
Pontos : 53
Peak : 70
Semanas : 33
 
SongID:  Smoke A Little SmokeEric Church
Artista : Eric Church
Titulo : Smoke A Little Smoke
Ano : 2010
Mes : 10
Pontos : 16
Peak : 23
Semanas : 20
 
SongID:  Somebody To LoveJustin Bieber Featuring Usher
Artista : Justin Bieber Featuring Usher
Titulo : Somebody To Love
Ano : 2010
Mes : 10
Pontos : 11
Peak : 86
Semanas : 18
 
SongID:  Speak NowTaylor Swift
Artista : Taylor Swift
Titulo : Speak Now
Ano : 2010
Mes : 10
Pontos : 149
Peak : 93
Semanas : 3
 
SongID:  Stereo LoveEdward Maya & Vika Jigulina
Artista : Edward Maya & Vika Jigulina
Titulo : Stereo Love
Ano : 2010
Mes : 10
Pontos : 35
Peak : 85
Semanas : 2

#### Ordenando o dicionario pelas músicas mais populares e usando a popularidade máxima atingida em uma semana como critério de desempate

In [21]:
items = sorted(contador.items(), key = lambda tup: (tup[1]["Pontos"], tup[1]["Peak"], tup[1]["Semanas"]), reverse=True)

#### Imprimindo as 15 primeiras para testar

In [22]:
#1 deve sempre se manter fixo enquanto 
for i in range(5): #varre as 5 mais tocadas
    for y in items[i][1]: #varre as diferentes categorias do dicionario (artista, titulo, pontos)
        print(items[i][1][y])
    print('')

Bruno Mars
Just The Way You Are
2010
10
499
100
48

Katy Perry
Teenage Dream
2010
10
485
100
33

Far*East Movement Featuring Cataracs & Dev
Like A G6
2010
10
484
100
26

Usher Featuring Pitbull
DJ Got Us Fallin' In Love
2010
10
481
97
34

Nelly
Just A Dream
2010
10
480
98
28



#### Cria um dicionario mais organizado com as 100 mais tocadas no período especificado

In [23]:
#armazena as primeiras 100 entradas em um dicionário mais organizado
top = [dict() for x in range(100)] #cria uma lista de 100 dicionarios

for i in range(len(top)):
    for y in items[i][1]:
        top[i][y] = items[i][1][y]

In [24]:
for x in range(100):
    print(top[x]['Titulo'], ':', top[x]['Pontos'])

Just The Way You Are : 499
Teenage Dream : 485
Like A G6 : 484
DJ Got Us Fallin' In Love : 481
Just A Dream : 480
Only Girl (In The World) : 476
Dynamite : 473
Love The Way You Lie : 471
Club Can't Handle Me : 458
I Like It : 456
Bottoms Up : 445
Mine : 442
Take It Off : 435
Deuces : 424
Animal : 416
Cooler Than Me : 410
California Gurls : 406
Misery : 401
Airplanes : 394
Not Afraid : 390
F**k You! (Forget You) : 387
Secrets : 381
Hot Tottie : 380
Magic : 376
Stuck Like Glue : 373
Right Above It : 359
Fancy : 349
If I Die Young : 337
OMG : 332
2012 (It Ain't The End) : 331
The Boys of Fall : 326
If I Had You : 321
No Hands : 320
Letting Go (Dutty Love) : 305
King Of Anything : 302
September : 296
Check It Out : 294
Love Like Woe : 278
If It's Love : 276
Come Back Song : 266
As She's Walking Away : 263
Ridin' Solo : 262
Hey, Soul Sister : 232
The Only Exception : 230
Farmer's Daughter : 223
Roll With It : 216
Miss Me : 209
Billionaire : 203
My Kinda Party : 201
Your Love : 199
Teach Me 

#### Testando como escrever e ler de arquivos binarios
##### Mostra como guardar os arquivos binarios, eles devem ser estruturados e entao salvas desse jeito

In [10]:
import pickle #modulo usado para serializar dados para o arquivo binario
import os

filename = 'teste.bin'
topBytes = []

if os.path.exists(filename): #confere se o arquivo existe
    with open(filename,'rb') as openfile:  #with automaticamente da um close() no final
        topBytes = pickle.load(openfile)


newData = top #Aqui vem a nova data que deve ser concatenada
        
topBytes = topBytes + newData #concatena o que ja tinha no arquivo binario com a nova data
with (open(filename, 'wb+')) as openfile: #abre o arquivo de teste no modo de leitura binaria 'wb' como openfile
    pickle.dump(topBytes, openfile) 

In [11]:
with (open('teste.bin', 'rb')) as openfile:
    leitura = pickle.load(openfile)

In [12]:
for x in range(100):
    print(leitura[x]['Titulo'], ':', top[x]['Pontos'])

Hey, Soul Sister : 3623
Need You Now : 3485
Breakeven : 2679
Airplanes : 2662
OMG : 2620
In My Head : 2592
Dynamite : 2545
Break Your Heart : 2507
I Like It : 2469
TiK ToK : 2441
Telephone : 2405
California Gurls : 2403
Nothin' On You : 2319
Cooler Than Me : 2279
Bad Romance : 2261
Love The Way You Lie : 2259
Haven't Met You Yet : 2168
Not Afraid : 2160
Billionaire : 2121
I Gotta Feeling : 2070
DJ Got Us Fallin' In Love : 2041
Imma Be : 2006
Your Love Is My Drug : 2002
Whataya Want From Me : 1955
Teenage Dream : 1949
Just The Way You Are : 1942
BedRock : 1938
Say Aah : 1917
Rude Boy : 1913
Bulletproof : 1859
Ridin' Solo : 1825
Alejandro : 1822
Club Can't Handle Me : 1812
Carry Out : 1802
Find Your Love : 1758
Sexy Chick : 1711
Animal : 1678
How Low : 1674
Secrets : 1603
Just A Dream : 1600
Live Like We're Dying : 1596
Baby : 1580
Bottoms Up : 1573
Mine : 1565
Deuces : 1534
All The Right Moves : 1528
Like A G6 : 1519
Stuck Like Glue : 1483
Misery : 1460
Over : 1447
Young Forever : 1442


#### Criando um arquivo de indice

In [13]:
filename = 'indices.bin'
fileBytes = []

if os.path.exists(filename): #confere se o arquivo existe
    with open(filename,'rb') as openfile:  #with automaticamente da um close() no final
        fileBytes = pickle.load(openfile)


newData = {'Ano': ano, 'Min': len(fileBytes) - 100, 'Max': len(fileBytes) - 1} #Aqui vem a nova data que deve ser concatenada
        
fileBytes.append(newData)#concatena o que ja tinha no arquivo binario com a nova data
with (open(filename, 'wb+')) as openfile: #abre o arquivo de teste no modo de leitura binaria 'wb' como openfile
    pickle.dump(fileBytes, openfile) 

#### A partir daqui são apenas teste
##### (Na verão atual do github [25/10/2018] o arquivo teste.bin contem as top 100 de 1990,2000,2010 nesta ordem)

In [14]:
#Imprime as 5 mais populares de 2010
counter = 0
for i in range(len(leitura)):
    if counter < 5:
        print(leitura[i]['Titulo'], ':', leitura[i]['Artista'])
        counter += 1

Hey, Soul Sister : Train
Need You Now : Lady Antebellum
Breakeven : The Script
Airplanes : B.o.B Featuring Hayley Williams
OMG : Usher Featuring will.i.am


In [15]:
#imprime as 5 primeiras entradas do arquivo (as 5 mais tocadas de 1990)
print(leitura[0]['Titulo'], ':', leitura[0]['Artista'])
print(leitura[1]['Titulo'], ':', leitura[1]['Artista'])
print(leitura[2]['Titulo'], ':', leitura[2]['Artista'])
print(leitura[3]['Titulo'], ':', leitura[3]['Artista'])
print(leitura[4]['Titulo'], ':', leitura[4]['Artista'])

Hey, Soul Sister : Train
Need You Now : Lady Antebellum
Breakeven : The Script
Airplanes : B.o.B Featuring Hayley Williams
OMG : Usher Featuring will.i.am


Todo: Fazer um loop na 4a celula para que coloque no arquivo binario as 100 que mais se manteram relevantes por ano

In [18]:
print(len(topBytes))

{'Artista': 'Train', 'Titulo': 'Hey, Soul Sister', 'Ano': 2010, 'Pontos': 3623, 'Peak': 98, 'Semanas': 54}
