# Mineração de Dados utilizando a metodologia CRISP-DM

## 1. Introdução

### O nome Crisp-DM é uma sigla para o inglês Cross Industry Standard Process for Data Mining, que em português significa algo como “Processo Padrão Inter-Indústrias para Mineração de Dados”. O objetivo dessa metodologia é desenvolver modelos a partir da análise de informações e dados de um negócio para prever futuras falhas e soluções.

### A metodologia Crisp-DM é dividida em seis etapas fundamentais, cada uma com suas particularidades e funcionalidades.

### As três primeiras etapas tem como objetivo a coleta e organização dos dados a serem analisados, envolvendo o entedimento do negócio, dados e a preparação dos dados.

<img src='https://miro.medium.com/v2/resize:fit:988/0*tA5OjppLK627FfFo' width=360>

###  Na imagem acima, é possível ver todas as etapas dessa metodologia, e algo interessante é que ela é um ciclo, então as etapas podem ser revistas e os processos podem ser melhorados mesmo depois de estabelecidos.

## 2. Entendimento do negócio

### Objetivo do projeto:  Analisar uma amostra de dados de usuários do Spotify, que contém informações sobre o que os usuário desse serviço de Streaming escutam em suas playlists, com o objetivo de encontrar associações. Por exemplo, se o usuário assiste a música/artista X, qual a chance dele também ouvir a música/artista Y?  

## 3. Entendimento dos dados

### Os dados serão obtidos através do site AiCrowd, onde é possível baixar o dataset (OBS: Os dados estão sendo disponibilizados devido a um desafio proposto, os dados não podem ser utilizados para fins comerciais, ver mais em https://www.aicrowd.com/challenges/spotify-million-playlist-dataset-challenge).

### Informações da base de dados fornecidas pelo Spotify

### Genero
 * Male: 45%
 * Female: 54%
 * Unspecified: 0.5%
 * Nonbinary: 0.5%

### Idade
 * 13-17:  10%
 * 18-24:  43%
 * 25-34:  31%
 * 35-44:   9%
 * 45-54:   4%
 * 55+:     3%

### País
 * US: 100%
 
### Estatísticas
 - number of playlists 1000000
 - number of tracks 66346428
 - number of unique tracks 2262292
 - number of unique albums 734684
 - number of unique artists 295860
 - number of unique titles 92944
 - number of playlists with descriptions 18760
 - number of unique normalized titles 17381
 - avg playlist length 66.346428

### Formato dos dados: JSON

### Dados estruturados: Sim

### Demonstração

Cada arquivo é um dicionário JSON com dois campos:
*info* e *playlists*.

### campo `info` 
Contém informações gerais sobre o arquivo:

   * **slice** - the range of slices that in in this particular file - such as 0-999
   * ***version*** -  - the current version of the MPD (which should be v1)
   * ***description*** - a description of the MPD
   * ***license*** - licensing info for the MPD
   * ***generated_on*** - a timestamp indicating when the slice was generated.

### campo `playlists` 
É uma lista que normalmente contém 1000 playlists, cada playlist é um dicionário que contém os seguintes campos:

* ***pid*** - integer - playlist id - the MPD ID of this playlist. This is an integer between 0 and 999,999.
* ***name*** - string - the name of the playlist 
* ***description*** - optional string - if present, the description given to the playlist.  Note that user-provided playlist descrptions are a relatively new feature of Spotify, so most playlists do not have descriptions.
* ***modified_at*** - seconds - timestamp (in seconds since the epoch) when this playlist was last updated. Times are rounded to midnight GMT of the date when the playlist was last updated.
* ***num_artists*** - the total number of unique artists for the tracks in the playlist.
* ***num_albums*** - the number of unique albums for the tracks in the playlist
* ***num_tracks*** - the number of tracks in the playlist
* ***num_followers*** - the number of followers this playlist had at the time the MPD was created. (Note that the follower count does not including the playlist creator)
* ***num_edits*** - the number of separate editing sessions. Tracks added in a two hour window are considered to be added in a single editing session.
* ***duration_ms*** - the total duration of all the tracks in the playlist (in milliseconds)
* ***collaborative*** -  boolean - if true, the playlist is a collaborative playlist. Multiple users may contribute tracks to a collaborative playlist.
* ***tracks*** - an array of information about each track in the playlist. Each element in the array is a dictionary with the following fields:
   * ***track_name*** - the name of the track
   * ***track_uri*** - the Spotify URI of the track
   * ***album_name*** - the name of the track's album
   * ***album_uri*** - the Spotify URI of the album
   * ***artist_name*** - the name of the track's primary artist
   * ***artist_uri*** - the Spotify URI of track's primary artist
   * ***duration_ms*** - the duration of the track in milliseconds
   * ***pos*** - the position of the track in the playlist (zero-based)

Exemplo de uma playlist no JSON:
  
        {
            "name": "musical",
            "collaborative": "false",
            "pid": 5,
            "modified_at": 1493424000,
            "num_albums": 7,
            "num_tracks": 12,
            "num_followers": 1,
            "num_edits": 2,
            "duration_ms": 2657366,
            "num_artists": 6,
            "tracks": [
                {
                    "pos": 0,
                    "artist_name": "Degiheugi",
                    "track_uri": "spotify:track:7vqa3sDmtEaVJ2gcvxtRID",
                    "artist_uri": "spotify:artist:3V2paBXEoZIAhfZRJmo2jL",
                    "track_name": "Finalement",
                    "album_uri": "spotify:album:2KrRMJ9z7Xjoz1Az4O6UML",
                    "duration_ms": 166264,
                    "album_name": "Dancing Chords and Fireflies"
                },
                {
                    "pos": 1,
                    "artist_name": "Degiheugi",
                    "track_uri": "spotify:track:23EOmJivOZ88WJPUbIPjh6",
                    "artist_uri": "spotify:artist:3V2paBXEoZIAhfZRJmo2jL",
                    "track_name": "Betty",
                    "album_uri": "spotify:album:3lUSlvjUoHNA8IkNTqURqd",
                    "duration_ms": 235534,
                    "album_name": "Endless Smile"
                },
                {
                    "pos": 2,
                    "artist_name": "Degiheugi",
                    "track_uri": "spotify:track:1vaffTCJxkyqeJY7zF9a55",
                    "artist_uri": "spotify:artist:3V2paBXEoZIAhfZRJmo2jL",
                    "track_name": "Some Beat in My Head",
                    "album_uri": "spotify:album:2KrRMJ9z7Xjoz1Az4O6UML",
                    "duration_ms": 268050,
                    "album_name": "Dancing Chords and Fireflies"
                },
                // 8 tracks omitted
                {
                    "pos": 11,
                    "artist_name": "Mo' Horizons",
                    "track_uri": "spotify:track:7iwx00eBzeSSSy6xfESyWN",
                    "artist_uri": "spotify:artist:3tuX54dqgS8LsGUvNzgrpP",
                    "track_name": "Fever 99\u00b0",
                    "album_uri": "spotify:album:2Fg1t2tyOSGWkVYHlFfXVf",
                    "duration_ms": 364320,
                    "album_name": "Come Touch The Sun"
                }
            ],

        }


## 4. Preparação dos dados

### Os dados que serão utilizados já estão bem estruturados e documentados, o que diminui os esforços do processo de preparação e tratamento de dados. Porém algumas coisas devem ser feitas:

#### 1. Eliminar nulos e playlists sem músicas
#### 2. Reordernar dados para a estrutura csv, onde cada linha será uma playlist, exemplo: 
ID&emsp;&emsp;&emsp;, Item 1&emsp;&emsp;&emsp;&emsp;&emsp;, Item 2&emsp;&emsp;&emsp;&emsp;&emsp;, Item 3 &emsp;&emsp;&emsp;&emsp;&emsp;, Item 4&emsp;&emsp;&emsp;&emsp;&emsp;... <br>
1048588, artista X/musica Y, artista X/musica Z, artista X/musica Z, artista X/musica Z... <br>
1048589, artista X/musica Z, artista X/musica Z, artista X/musica Z, artista X/musica Z... <br>

### Visualização dos dados coletados:

In [2]:
import pandas as pd
import os
import numpy as np
import json
import random


In [27]:
arquivo = "./spotify_million_playlist_dataset/mpd.slice.843000-843999.json"
with open(arquivo, 'r') as file:
    data = json.load(file)

# Extrair a primeira playlist
primeira_playlist = data['playlists']

# Ler os dados diretamente como um DataFrame do pandas
viz = pd.json_normalize(primeira_playlist)

# Visualizar 10 primeiras linhas
viz[viz.num_tracks >0]

Unnamed: 0,name,collaborative,pid,modified_at,num_tracks,num_albums,num_followers,tracks,num_edits,duration_ms,num_artists,description
0,get hype,false,843000,1507161600,96,72,2,"[{'pos': 0, 'artist_name': 'DRAM', 'track_uri'...",6,22121466,43,
1,party playlist,false,843001,1499126400,136,105,1,"[{'pos': 0, 'artist_name': 'Sonny Alven', 'tra...",3,31381784,74,
2,d-.-b,false,843002,1473897600,237,192,1,"[{'pos': 0, 'artist_name': 'Pac Div', 'track_u...",126,57718299,121,
3,sleep,false,843003,1508457600,26,22,1,"[{'pos': 0, 'artist_name': 'Drake', 'track_uri...",5,6843516,13,
4,1985,false,843004,1478476800,37,30,1,"[{'pos': 0, 'artist_name': 'The Cars', 'track_...",5,9516934,24,
...,...,...,...,...,...,...,...,...,...,...,...,...
995,main,false,843995,1507939200,45,42,1,"[{'pos': 0, 'artist_name': 'The All-American R...",25,9974073,40,
996,⛵️,false,843996,1506384000,89,72,1,"[{'pos': 0, 'artist_name': 'Cage The Elephant'...",27,20134760,49,
997,Boi,false,843997,1505865600,24,24,1,"[{'pos': 0, 'artist_name': 'Clairo', 'track_ur...",2,5902167,24,
998,dubstep,false,843998,1486944000,14,11,1,"[{'pos': 0, 'artist_name': 'Doctor P', 'track_...",7,3285193,9,


### Os dados atuais possuem diversas informações que não serão utilizadas no modelo de associação, sendo assim, é necessário eliminar o excesso de informações.

In [26]:
# O Código irá percorrer cada arquivo JSON na pasta "spotify_million_playlist_dataset", e então obter apenas o campo "playlists"

# Isso irá diminuir o tamanho do arquivo final, e facilita ao selecionar uma amostra 
# aleatória, pois o dataset já estará dividido em grupos.


playlists = []
split_playlists = []

# Diretório onde estão os arquivos JSON, somando todos os arquivos, temos 8.1GB de dados disponíveis
diretorio = "./spotify_million_playlist_dataset/"
count = 0

# Iterar sobre todos os arquivos no diretório
for arq in os.listdir(diretorio):
    if arq.endswith(".json"):
        # Carregar o arquivo JSON
        with open(os.path.join(diretorio, arq), 'r') as f:
            data = json.load(f)
            # Extrair o campo "playlists" e adicionar à lista
            all_playlists.extend(data['playlists'])
            count = count + 1
            if count> 0 and count % 10 == 0:
                split_playlists.append(playlists)
                with open(f"all_playlists_{count}.json", 'w') as f:
                    json.dump({'playlists': split_playlists}, f)
                
                all_playlists =[]
                split_playlists=[]

# O processo demorou cerca de 11 minutos, sendo que cada item ficou com cerca de 196MB.
# foram gerados 28 arquivos.
# Somando todos os arquivos, temos 5,21GB, uma economia de quase 3GB.

### A próxima etapa é selecionar uma amostra, de 28 arquivos, serão selecionados 10 de forma totalmente aleatória

In [3]:
random_nums = list(range(10,290,10))
random.shuffle(random_nums)
# print(random_nums)
numeros_selecionados = []

for i in range(0,len(random_nums)):
    if i <= 10:
        numeros_selecionados.append(random_nums[i])

In [4]:
numeros_selecionados

[100, 120, 200, 270, 30, 60, 280, 140, 170, 40, 110]

### O código seguinte passa por cada arquivo selecionado aleatoriamente e grava o conteúdo em um arquivo final com todos os dados necessário

In [6]:
all_playlists = []

# Diretório onde estão os arquivos JSON
diretorio = "./"

# Iterar sobre todos os arquivos no diretório
for arq in os.listdir(diretorio):
    for num in numeros_selecionados:
        if arq.endswith(".json") and '_' + str(num) in arq:
            # Carregar o arquivo JSON
            with open(os.path.join(diretorio, arq), 'r') as f:
                data = json.load(f)
                # Extrair o campo "playlists" e adicionar à lista
                all_playlists.extend(data['playlists'])
                f.close()

# Criar um novo arquivo JSON com todas as playlists
with open('all_data.json', 'w') as f:
    json.dump({'playlists': all_playlists}, f)
    f.close()

In [4]:
arquivo = "all_data.json"
with open(arquivo, 'r') as file:
    data = json.load(file)
    file.close()

# Extrair as playlists
playlists = data['playlists']

dataframes = [pd.json_normalize(playlist) for playlist in playlists]

dados = pd.concat(dataframes, ignore_index=True)

dados['tracks'] = dados['tracks'].apply(lambda x: [f"{track['artist_name']} / {track['track_name']}" for track in x])
dados.head(10)


Unnamed: 0,name,collaborative,pid,modified_at,num_tracks,num_albums,num_followers,tracks,num_edits,duration_ms,num_artists,description
0,2016,False,823000,1509235200,77,76,1,"[Jon Bellion / All Time Low, Tatiana Manaois /...",17,16680321,75,
1,Fav❤️,False,823001,1503792000,99,89,1,"[Petit Biscuit / Sunset Lover, Jai Wolf / Indi...",51,22127129,78,
2,Christmas.,False,823002,1449273600,16,9,1,"[Michael Bublé / I'll Be Home For Christmas, M...",3,3055529,12,
3,Eargasms,False,823003,1500940800,29,28,1,[Dillon Francis / Coming Over (feat. James Her...,21,6292781,25,
4,Noosa Tastiest Playlist,False,823004,1472774400,33,33,1,"[Lee Brice / Hard To Love, Dustin Lynch / Hell...",2,7160167,33,
5,♡♡♡,False,823005,1493856000,35,33,2,"[Train / Drops of Jupiter, Plain White T's / H...",11,8030962,32,
6,Christmas,False,823006,1481328000,42,31,2,"[Kenny Loggins / Celebrate Me Home, Josh Groba...",8,9132652,29,
7,This Summer,False,823007,1473120000,40,35,1,"[Squeeze / This Summer, Ra Ra Riot / Water, Sl...",28,8904808,28,
8,maddie,False,823008,1509408000,85,74,1,"[Drake / One Dance, Rihanna / Work, Drake / Ju...",48,19047362,62,
9,Variado,False,823009,1476576000,33,16,1,"[Francisco Céspedes / Todo es un misterio, Fra...",6,8251439,13,


### Agora que os dados de amostra estão completos, é necessário analisar

In [5]:
dados.describe()

Unnamed: 0,pid,modified_at,num_tracks,num_albums,num_followers,num_edits,duration_ms,num_artists
count,110000.0,110000.0,110000.0,110000.0,110000.0,110000.0,110000.0,110000.0
mean,791135.863636,1476293000.0,66.455127,49.6385,2.342927,17.722382,15588360.0,38.088755
std,233208.510047,36730330.0,53.677038,39.911424,66.6381,20.659587,12818890.0,30.14951
min,77000.0,1275437000.0,5.0,2.0,1.0,1.0,474838.0,3.0
25%,777499.75,1458950000.0,26.0,20.0,1.0,5.0,6012931.0,16.0
50%,839999.5,1490227000.0,49.0,37.0,1.0,10.0,11443680.0,29.0
75%,895499.25,1505520000.0,92.0,68.0,1.0,22.0,21457400.0,52.0
max,994999.0,1509494000.0,376.0,242.0,15123.0,197.0,167890900.0,222.0


### Usando apenas a análise estatística, é possível observar alguns pontos
 - A média de músicas por playlist é de +- 66
 - Possibilidade de outliers
 - As playlists estão desbalanceadas, algumas possuem 30 músicas, enquanto outras possuem 300. Isso não é bom para o modelo de associação.

### Removendo outliers


In [6]:
# Calcular o Z-score para cada ponto de dados
dados['Z_score'] = (dados['num_tracks'] - dados['num_tracks'].mean()) / dados['num_tracks'].std()

# Identificar outliers com Z-score acima de 3 ou abaixo de -3
outliers_z_score_index = dados[(dados['Z_score'] > 3) | (dados['Z_score'] < -3)].index

# Eliminar outliers
dados_sem_outliers = dados.drop(outliers_z_score_index)
len(dados_sem_outliers)

108591

### Preencher dados vazios com o valor Nan, facilitando o filtro.

In [7]:
tracks = []

for index, row in dados_sem_outliers.iterrows():
    tracks.append(row['tracks'])

new_df = pd.DataFrame(tracks)

new_df = new_df.fillna(np.nan)

new_df.columns = [f'Track {i}' for i in range(1, len(new_df.columns) + 1)]

In [8]:
new_df.tail(30)

Unnamed: 0,Track 1,Track 2,Track 3,Track 4,Track 5,Track 6,Track 7,Track 8,Track 9,Track 10,...,Track 218,Track 219,Track 220,Track 221,Track 222,Track 223,Track 224,Track 225,Track 226,Track 227
108561,Adele / Send My Love (To Your New Lover),Drake / Too Good,Ariana Grande / Into You,Tayler Buono / Technically Single,Shawn Mendes / Treat You Better,Astrid S / Hurts So Good,Calvin Harris / This Is What You Came For,Charlie Puth / We Don't Talk Anymore (feat. Se...,,,...,,,,,,,,,,
108562,Sara Bareilles / Uncharted,Sara Bareilles / Manhattan,Sara Bareilles / Gravity,Sara Bareilles / Chasing The Sun,Sara Bareilles / Hercules,Sara Bareilles / Manhattan,Sara Bareilles / Little Black Dress,Sara Bareilles / Eden,Sara Bareilles / I Choose You,Sara Bareilles / Islands,...,,,,,,,,,,
108563,Boys Like Girls / Hero / Heroine,Boys Like Girls / The Great Escape,Boys Like Girls / Thunder,Lit / My Own Worst Enemy,Cute Is What We Aim For / The Curse Of Curves,All Time Low / Damned If I Do Ya (Damned If I ...,Fall Out Boy / Thnks fr th Mmrs,blink-182 / I Miss You,Panic! At The Disco / Lying Is The Most Fun A ...,Metro Station / Seventeen Forever,...,,,,,,,,,,
108564,BØRNS / Electric Love,Laura Veirs / Sun Song,The Shivas / You Make Me Wanna Die,Deerhoof / Big House Waltz,X Ambassadors / Renegades,Slowdive / When The Sun Hits,Slowdive / Machine Gun,Jamie xx / Loud Places,Hot Hot Heat / Goodnight Goodnight,Arthur Beatrice / Grand Union,...,,,,,,,,,,
108565,San Holo / Light,Train / Working Girl,Tritonal / Hung Up,deadmau5 / Imaginary Friends,Sigala / Only One - Radio Edit,Digital Farm Animals / Millionaire - Alan Walk...,Elkka / Try,DJ Snake / Let Me Love You - Marshmello Remix,Wiz Khalifa / Washingtons By Your Side,Adam Friedman / Sad,...,,,,,,,,,,
108566,FKA twigs / Two Weeks,Pentatonix / La La Latch,Beyoncé / 7/11,Ella Henderson / Ghost,Hozier / Take Me To Church,Tune-Yards / Water Fountain,Shamir / On The Regular,Röyksopp / Do It Again,Betty Who / Somebody Loves You,Mary J. Blige / Therapy,...,,,,,,,,,,
108567,Miley Cyrus / Hoedown Throwdown,Miley Cyrus / The Climb,Hannah Montana / He Could Be the One,Hannah Montana / Let's Get Crazy,Hannah Montana / If We Were A Movie,"The Cheetah Girls / Strut - From ""The Cheetah ...",Hannah Montana / Ice Cream Freeze (Let's Chill),Hannah Montana / You'll Always Find Your Way B...,Hannah Montana / I'll Always Remember You,Avril Lavigne / Sk8er Boi,...,,,,,,,,,,
108568,Hillsong Young & Free / Where You Are - Radio ...,Hillsong Young & Free / Sinking Deep,Hillsong Young & Free / This Is Living - Acoustic,Hillsong Young & Free / The Stand,Hillsong Young & Free / To My Knees - Live,Hillsong Young & Free / Passion - Live,Hillsong United / Oceans (Where Feet May Fail),Hillsong United / Heart Like Heaven (Falling) ...,Hillsong United / Scandal Of Grace (I'd Be Los...,Hillsong United / From the Inside Out - Live,...,,,,,,,,,,
108569,Washed Out / Great Escape,Courtney Barnett / Avant Gardener,Foxygen / Shuggie,MGMT / Alien Days,Ty Segall / Caesar,Beck / Gimme,Tiga / Hot in Herre,Disclosure / Help Me Lose My Mind,Flume / Holdin On,HAIM / Falling,...,,,,,,,,,,
108570,Dustin Lynch / Cowboys and Angels,John Waite / Missing You,John Michael Montgomery / Letters From Home,Sting / Fields Of Gold,Cole Swindell / You Should Be Here,Tim McGraw / Meanwhile Back At Mama's,Craig Morgan / Almost Home,Journey / Faithfully,,,...,,,,,,,,,,


### Verificando os valores nulos, é possível ver o número de nulos aumenta conforme o tamanho da playlist, como temos 108591 registros, podemos definir um número de músicas por playlist que mantenha pelo menos metade desses registros, eliminando os dados nulos da análise. 

### Poderia ser definido que todos os registros teriam apenas 5 musicas, pois não existe nenhum registro que não tenha pelo menos esse número de músicas

### Porém, é necessário um equilíbrio dos dados, pois com poucas informações sobre a playlist, o algoritmo de associação não vai ter um resultado tão bom.

### Sendo assim, será definido que o número de músicas em uma playlist será 66 (média de músicas por playlist), e com isso irá sobrar 40.356 dados para análise.

In [9]:
pd.set_option('display.max_rows', None)
new_df.isna().sum()


Track 1           0
Track 2           0
Track 3           0
Track 4           0
Track 5           0
Track 6         600
Track 7        1287
Track 8        2037
Track 9        2968
Track 10       3937
Track 11       5075
Track 12       6258
Track 13       7621
Track 14       8932
Track 15      10382
Track 16      11898
Track 17      13401
Track 18      14885
Track 19      16374
Track 20      17877
Track 21      19514
Track 22      21128
Track 23      22555
Track 24      23984
Track 25      25438
Track 26      26899
Track 27      28325
Track 28      29680
Track 29      31026
Track 30      32336
Track 31      33808
Track 32      35122
Track 33      36422
Track 34      37690
Track 35      38891
Track 36      40076
Track 37      41318
Track 38      42473
Track 39      43708
Track 40      44855
Track 41      46136
Track 42      47206
Track 43      48274
Track 44      49385
Track 45      50400
Track 46      51403
Track 47      52327
Track 48      53311
Track 49      54310
Track 50      55247


### Para filtrar, possível percorrer todos os registros onde os valores não são nulos até a coluna "Track 49" 

In [10]:
registros_sem_nulos = new_df.loc[:, :'Track 66'].dropna()

In [11]:
len(registros_sem_nulos)

40356

### Como é possível ver, agora temos 40356 registros sem valores nulos, o que melhora a eficácia do modelo

In [12]:
pd.set_option('display.max_rows', None)
registros_sem_nulos.isna().sum()

Track 1     0
Track 2     0
Track 3     0
Track 4     0
Track 5     0
Track 6     0
Track 7     0
Track 8     0
Track 9     0
Track 10    0
Track 11    0
Track 12    0
Track 13    0
Track 14    0
Track 15    0
Track 16    0
Track 17    0
Track 18    0
Track 19    0
Track 20    0
Track 21    0
Track 22    0
Track 23    0
Track 24    0
Track 25    0
Track 26    0
Track 27    0
Track 28    0
Track 29    0
Track 30    0
Track 31    0
Track 32    0
Track 33    0
Track 34    0
Track 35    0
Track 36    0
Track 37    0
Track 38    0
Track 39    0
Track 40    0
Track 41    0
Track 42    0
Track 43    0
Track 44    0
Track 45    0
Track 46    0
Track 47    0
Track 48    0
Track 49    0
Track 50    0
Track 51    0
Track 52    0
Track 53    0
Track 54    0
Track 55    0
Track 56    0
Track 57    0
Track 58    0
Track 59    0
Track 60    0
Track 61    0
Track 62    0
Track 63    0
Track 64    0
Track 65    0
Track 66    0
dtype: int64

### Agora que temos os dados tratados, o próximo passo é converter em uma matriz, pois é assim que o modelo consegue ler os dados.

In [13]:
registros = []

num_colunas = 66

for linha in range(0, len(registros_sem_nulos)):
    registro_linha = []
    for coluna in range(0, num_colunas):
        registro_linha.append(registros_sem_nulos.iloc[linha, coluna])
    registros.append(registro_linha)

### Para facilitar as próximas execuções, essa matriz será salva em um arquivo para posteriormente ser lida novamente.

In [14]:
with open('matrix.txt', 'w') as arquivo:
    json.dump(registros, arquivo)

In [None]:
import pandas as pd
import os
import numpy as np
import json
import random

# Ler a lista de volta do arquivo JSON
with open('matrix.txt', 'r') as arquivo:
    matriz = json.load(arquivo)

In [None]:
matriz[7][9]

'Hospital / Right On'

### Agora com a matriz em mãos, é possível executar o modelo importado da lib apyori e editar os parâmetros

### - Definindo valores de suporte, confiança e Lift:

In [None]:
support = 0.0030
# Quero que uma associação occora pelo menos 150 vezes 
# na base de dados para entrar na regra, então uso esse valor para chegar em um valor aproximado

confidence = 0.005
# A medida de confiança define a probabilidade de ocorrência do consequente na transacao,
# dado que a transacao já contém os antecedentes. Porém, se o item consequente é muito popular na base de dados, ele irá 
# aparecer na maioria das transações, o que pode levar a uma análise incorreta, para corrigir isso, o LIFT é utilizado.

lift = 5
# O valor mais importante, geralmente é definido que é válido analisar associações onde esse valor é maior que 1.

#Explicação completa desses valores aqui -> https://towardsdatascience.com/association-rules-2-aa9a77241654

In [None]:
from apyori import apriori

arules = apriori(matriz,min_support=support, min_confidence=confidence,min_lift=lift)

association_results = list(arules)

len(association_results)

16130

In [None]:
def frozenset_encoder(obj):
    if isinstance(obj, frozenset):
        return list(obj)
    raise TypeError(repr(obj) + " is not JSON serializable")

In [None]:
with open("arules.txt", "w") as file:
    json.dump(association_results, file, default=frozenset_encoder)

In [252]:
import pandas as pd
import os
import numpy as np
import json
import random

with open("arules.txt",'r') as arquivo_leitura:
    association_results = json.load(arquivo_leitura)

In [253]:
# len(association_results)
association_results[0]

[['*NSYNC / Bye Bye Bye', "*NSYNC / It's Gonna Be Me"],
 0.003568242640499554,
 [[['*NSYNC / Bye Bye Bye'],
   ["*NSYNC / It's Gonna Be Me"],
   0.2691588785046729,
   53.773147034329604],
  [["*NSYNC / It's Gonna Be Me"],
   ['*NSYNC / Bye Bye Bye'],
   0.7128712871287128,
   53.7731470343296]]]

In [254]:
import pandas as pd
import os
import numpy as np
import json
import random

results = []
# conjuntos_filtrados = [conjunto for conjunto in association_results if '' not in conjunto]

for item in association_results:
    
    pair = item[0]
    items = [x for x in pair]
    
    value6 = items[0]+" & "+items[1]
    value0 = items[0]
    value1 = items[1]
    
    value2 = item[1]
    
    value3 = item[2][0][2]
    value4 = item[2][0][3]
    
    rows = (value6,value0,value1,value2,value3,value4)
    results.append(rows)
    
labels = ["Associação","Musica 1","Musica 2", "Support", "Confidence","Lift"]

music_suggestion = pd.DataFrame.from_records(results,columns=labels)

In [255]:
len(music_suggestion)

16130

In [262]:
music_suggestion.drop_duplicates(subset=['Musica 1', 'Musica 2'], inplace=True)

In [263]:
music_suggestion.sort_values(by='Lift',ascending=False)

Unnamed: 0,Associação,Musica 1,Musica 2,Support,Confidence,Lift
9692,Michael Bublé / White Christmas (Duet With Sha...,Michael Bublé / White Christmas (Duet With Sha...,Michael Bublé / Silent Night,0.003197,0.791411,236.579141
10753,Michael Bublé / I'll Be Home For Christmas & M...,Michael Bublé / I'll Be Home For Christmas,Michael Bublé / Silent Night,0.003197,0.791411,233.125431
10920,Michael Bublé / Blue Christmas & Michael Bublé...,Michael Bublé / Blue Christmas,Michael Bublé / It's Beginning To Look A Lot L...,0.003271,0.809816,231.779663
10913,Michael Bublé / Blue Christmas & Michael Bublé...,Michael Bublé / Blue Christmas,Michael Bublé / Jingle Bells (feat. The Puppin...,0.003197,0.791411,231.436116
10755,Michael Bublé / Blue Christmas & Michael Bublé...,Michael Bublé / Blue Christmas,Michael Bublé / Christmas (Baby Please Come Home),0.003172,0.785276,231.318257
...,...,...,...,...,...,...
734,Drake / Controlla & Big Sean / Bounce Back,Drake / Controlla,Big Sean / Bounce Back,0.003890,0.115356,5.011110
1322,J. Cole / Wet Dreamz & Chance The Rapper / No ...,J. Cole / Wet Dreamz,Chance The Rapper / No Problem (feat. Lil Wayn...,0.003841,0.117960,5.010959
2283,Drake / Jumpman & Flo Rida / My House,Drake / Jumpman,Flo Rida / My House,0.004336,0.118805,5.009928
4955,Waka Flocka Flame / No Hands (feat. Roscoe Das...,Waka Flocka Flame / No Hands (feat. Roscoe Das...,Migos / Bad and Boujee (feat. Lil Uzi Vert),0.004138,0.117193,5.004698


In [299]:
import plotly.express as px


df = music_suggestion.sort_values(by='Lift',ascending=False)[:40]

fig = px.scatter_3d(df, x='Support', y='Confidence', z='Lift',hover_name='Associação',color='Lift',color_continuous_scale='hot')

fig.show()

![image.png](attachment:image.png)

### Exemplo, se uma pessoa ouviu a música X, quais músicas indicar para ela adicionar na playlist?

In [290]:
sorted_suggestions = music_suggestion.sort_values(by='Lift',ascending=False)

In [291]:
sorted_suggestions[sorted_suggestions['Associação'].str.contains("Smells Like Teen Spirit")]

Unnamed: 0,Associação,Musica 1,Musica 2,Support,Confidence,Lift
5130,Nirvana / Lithium & Nirvana / Smells Like Teen...,Nirvana / Lithium,Nirvana / Smells Like Teen Spirit,0.00451,0.666667,37.575419
5127,Nirvana / Come As You Are & Nirvana / Smells L...,Nirvana / Come As You Are,Nirvana / Smells Like Teen Spirit,0.006294,0.610577,34.414026
5129,Nirvana / Smells Like Teen Spirit & Nirvana / ...,Nirvana / Smells Like Teen Spirit,Nirvana / Heart-Shaped Box,0.004014,0.593407,33.446252
4838,Metallica / Enter Sandman & Nirvana / Smells L...,Metallica / Enter Sandman,Nirvana / Smells Like Teen Spirit,0.003197,0.300699,16.948353
3077,Foo Fighters / Everlong & Nirvana / Smells Lik...,Foo Fighters / Everlong,Nirvana / Smells Like Teen Spirit,0.003048,0.3,16.908939
5133,Red Hot Chili Peppers / Californication & Nirv...,Red Hot Chili Peppers / Californication,Nirvana / Smells Like Teen Spirit,0.003915,0.22067,13.492991
5134,Red Hot Chili Peppers / Under The Bridge & Nir...,Red Hot Chili Peppers / Under The Bridge,Nirvana / Smells Like Teen Spirit,0.004163,0.234637,13.280513
5136,blink-182 / All The Small Things & Nirvana / S...,blink-182 / All The Small Things,Nirvana / Smells Like Teen Spirit,0.003618,0.203911,10.456184
3332,Nirvana / Smells Like Teen Spirit & Guns N' Ro...,Nirvana / Smells Like Teen Spirit,Guns N' Roses / Sweet Child O' Mine,0.003692,0.17717,9.985857
5131,Oasis / Wonderwall - Remastered & Nirvana / Sm...,Oasis / Wonderwall - Remastered,Nirvana / Smells Like Teen Spirit,0.003271,0.184358,8.910099


### Com as associações acima, é possível perceber que uma pessoa que gosta do gênero com certeza iria curtir algumas dessas recomendações.

### Outro exemplo, se a pessoa ouviu o artista X, quais artistas ela pode gostar?

In [292]:
def split_string(input_string,part):
    # Count occurrences of "/"
    count_slash = input_string.count("/")
    # If there's more than one occurrence
    if  "AC / DC" in input_string:
        # Find the position of the second occurrence of "/"
        second_slash_index = input_string.find("/", input_string.find("/") + 1)
        # Split at the position of the second occurrence
        return "/".join(input_string.split("/", 2)[:2])
    else:
        # Split normally
        return input_string.split("/")[part].strip()

In [298]:
split_string("AC / DC / ...",0)

'AC / DC '

In [294]:
df_artistas_sorted = sorted_suggestions
df_artistas_sorted['Artista 1'] = df_artistas_sorted['Musica 1'].apply(lambda x: split_string(x, 0))
df_artistas_sorted['Artista 2'] = df_artistas_sorted['Musica 2'].apply(lambda x: split_string(x, 0))
df_artistas_sorted['Musica 1'] = df_artistas_sorted['Musica 1'].apply(lambda x: split_string(x, 1))
df_artistas_sorted['Musica 2'] = df_artistas_sorted['Musica 2'].apply(lambda x: split_string(x, 1))

df_artistas_sorted = df_artistas_sorted[['Associação', 'Musica 1', 'Musica 2', 'Artista 1', 'Artista 2', 'Support','Confidence','Lift']] 

df_artistas_sorted

Unnamed: 0,Associação,Musica 1,Musica 2,Artista 1,Artista 2,Support,Confidence,Lift
9692,Michael Bublé / White Christmas (Duet With Sha...,White Christmas (Duet With Shania Twain),Silent Night,Michael Bublé,Michael Bublé,0.003197,0.791411,236.579141
10753,Michael Bublé / I'll Be Home For Christmas & M...,I'll Be Home For Christmas,Silent Night,Michael Bublé,Michael Bublé,0.003197,0.791411,233.125431
10920,Michael Bublé / Blue Christmas & Michael Bublé...,Blue Christmas,It's Beginning To Look A Lot Like Christmas,Michael Bublé,Michael Bublé,0.003271,0.809816,231.779663
10913,Michael Bublé / Blue Christmas & Michael Bublé...,Blue Christmas,Jingle Bells (feat. The Puppini Sisters),Michael Bublé,Michael Bublé,0.003197,0.791411,231.436116
10755,Michael Bublé / Blue Christmas & Michael Bublé...,Blue Christmas,Christmas (Baby Please Come Home),Michael Bublé,Michael Bublé,0.003172,0.785276,231.318257
...,...,...,...,...,...,...,...,...
734,Drake / Controlla & Big Sean / Bounce Back,Controlla,Bounce Back,Drake,Big Sean,0.003890,0.115356,5.011110
1322,J. Cole / Wet Dreamz & Chance The Rapper / No ...,Wet Dreamz,No Problem (feat. Lil Wayne & 2 Chainz),J. Cole,Chance The Rapper,0.003841,0.117960,5.010959
2283,Drake / Jumpman & Flo Rida / My House,Jumpman,My House,Drake,Flo Rida,0.004336,0.118805,5.009928
4955,Waka Flocka Flame / No Hands (feat. Roscoe Das...,No Hands (feat. Roscoe Dash and Wale) - Explic...,Bad and Boujee (feat. Lil Uzi Vert),Waka Flocka Flame,Migos,0.004138,0.117193,5.004698


In [295]:
def busca_artistas(artista):
    df_matches = df_artistas_sorted[(df_artistas_sorted['Artista 1'] == artista) | (df_artistas_sorted['Artista 2'] == artista)]

    # split_by_slash = lambda x: x.split("/")[0]
    df_matches['Recomendacoes'] = df_matches['Artista 1'] + df_matches['Artista 2']
    df_artistas =  df_matches['Recomendacoes']
    return df_artistas

In [296]:
artista = "Guns N' Roses"
x=busca_artistas(artista)

# removed_searched_band = lambda x, artist: [item for item in x if item != artist]

artists_list_filtered = [artist.replace(artista, '').strip() for artist in x]

artists_list_filtered = list(filter(None, artists_list_filtered))
artists_list_filtered = list(set(artists_list_filtered))

artists_list_filtered



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



['Lynyrd Skynyrd',
 'Def Leppard',
 'Kansas',
 'Nirvana',
 'Aerosmith',
 'Van Halen',
 'Neil Diamond',
 'Bryan Adams',
 'Ozzy Osbourne',
 'AC',
 'Metallica',
 'KISS',
 'Boston',
 'Journey',
 'Queen',
 'Billy Joel',
 'The Rolling Stones',
 'The Animals',
 'Creedence Clearwater Revival',
 'Led Zeppelin',
 'Rick Springfield',
 'Van Morrison',
 'Eagles',
 'Survivor',
 'Bon Jovi',
 'Elton John']

In [297]:
print(artists_list_filtered)

['Lynyrd Skynyrd', 'Def Leppard', 'Kansas', 'Nirvana', 'Aerosmith', 'Van Halen', 'Neil Diamond', 'Bryan Adams', 'Ozzy Osbourne', 'AC', 'Metallica', 'KISS', 'Boston', 'Journey', 'Queen', 'Billy Joel', 'The Rolling Stones', 'The Animals', 'Creedence Clearwater Revival', 'Led Zeppelin', 'Rick Springfield', 'Van Morrison', 'Eagles', 'Survivor', 'Bon Jovi', 'Elton John']
