# Machine Learning

Com os dados coletados (Passo1_Spotify) e analises obtidas (Passo2_Spotify) nesta etapa faremos uso 
do algoritmo de Machine Learning para identificar se o cantor é do gênero feminino ou masculino, de acordo com os dados dentre os mais ouvidos no Top 10 do Spotify.

In [3]:
import pandas as pd
import numpy as np
import warnings
warnings.filterwarnings("ignore")

In [5]:
#Carregando os dados
dataset=pd.read_csv("TOP10.csv")

In [8]:
#A decrição do que significa cada feature se encontra no Passo1_Spotify.
dataset.head()

Unnamed: 0,track_name,track_id,acousticness,danceability,energy,key,loudness,mode,speechiness,instrumentalness,liveness,valence,tempo,duration_ms,time_signature,Artist,Target
0,UN DIA (ONE DAY) (Feat. Tainy),0EhpEsp4L0oRGM0vmeaN5e,0.00536,0.571,0.693,6,-8.234,0,0.0545,0.0,0.173,0.393,168.169,232253,4,Dua Lipa,F
1,Don't Start Now,3PfIrDoz19wz7qK7tYeu62,0.0123,0.793,0.793,11,-4.521,0,0.083,0.0,0.0951,0.679,123.95,183290,4,Dua Lipa,F
2,Break My Heart,017PF4Q3l4DBUiWoXk4OWT,0.167,0.73,0.729,4,-3.434,0,0.0883,1e-06,0.349,0.467,113.013,221820,4,Dua Lipa,F
3,One Kiss (with Dua Lipa),7ef4DlsgrMEH11cDZd32M6,0.037,0.791,0.862,9,-3.24,0,0.11,2.2e-05,0.0814,0.592,123.994,214847,4,Dua Lipa,F
4,Physical,3AzjcOeAmA57TIOr9zF1ZW,0.0137,0.647,0.844,0,-3.756,1,0.0457,0.000658,0.102,0.746,146.967,193829,4,Dua Lipa,F


**Etapa de preprocessamento dos dados**

Será incluido uma coluna do tipo inteiro com os números representado o ranking dos cantores (M) e das cantoras (F) mais ouvidas no Spotify com base em pesquisa feita em 05 de agosto de 2020, conforme Passo1_SPotify.

A coluna Target será transformada para um tipo inteira com F=0 e M=1.

E será excluída algumas colunas que não tem relevância para o cálculo do algoritmo: track_name, track_id, key, mode e time_signature.

In [9]:
dataset['Artist_int']=dataset['Artist']

In [10]:
#Eu preferi escolher o código para os artistas, pelo seu criterio momentanio de top na lista do spotify
from sklearn.preprocessing import LabelEncoder
gender_values = {'Drake':1,'The Weeknd':2, 'Dua Lipa':3, 'Ariana Grande':4, 'J Balvin':5, 'Justin Bieber':6,
                 'Ed Sheeran':7,'Marshmello':8, 'Lady Gaga':9,'Khalid':10, 'Halsey':11,'Travis Scoot':12,
                 'Jason Derullo':13,'Juice WRLD':14,'Nicki Minaj':15,'Taylor Swift':17,'Billie Eilish':20,
                 'Camila Cabello':25,'Beyonce':28,'Rihanna':29}
target_values ={'F':0,'M':1}
dataset.replace({'Artist_int': gender_values}, inplace=True)
dataset.replace({'Target': target_values}, inplace=True)

In [12]:
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 200 entries, 0 to 199
Data columns (total 18 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   track_name        200 non-null    object 
 1   track_id          200 non-null    object 
 2   acousticness      200 non-null    float64
 3   danceability      200 non-null    float64
 4   energy            200 non-null    float64
 5   key               200 non-null    int64  
 6   loudness          200 non-null    float64
 7   mode              200 non-null    int64  
 8   speechiness       200 non-null    float64
 9   instrumentalness  200 non-null    float64
 10  liveness          200 non-null    float64
 11  valence           200 non-null    float64
 12  tempo             200 non-null    float64
 13  duration_ms       200 non-null    int64  
 14  time_signature    200 non-null    int64  
 15  Artist            200 non-null    object 
 16  Target            200 non-null    int64  
 1

In [13]:
#Excluindo features irrelevantes
df=dataset[['acousticness', 'danceability', 'energy','loudness', 'speechiness', 'instrumentalness',
       'liveness', 'valence', 'tempo', 'duration_ms', 'Artist_int','Target']]

In [14]:
df.tail()

Unnamed: 0,acousticness,danceability,energy,loudness,speechiness,instrumentalness,liveness,valence,tempo,duration_ms,Artist_int,Target
195,0.337,0.63,0.446,-8.9,0.0351,0.0,0.166,0.177,143.078,202193,14,1
196,0.0417,0.706,0.625,-7.426,0.0314,0.0,0.129,0.225,142.948,242181,14,1
197,0.328,0.685,0.692,-5.122,0.0457,0.0,0.153,0.578,159.966,240051,14,1
198,0.183,0.868,0.55,-6.417,0.226,0.0,0.109,0.464,117.943,154767,14,1
199,0.157,0.487,0.74,-4.973,0.0944,0.0,0.612,0.522,73.779,181688,14,1


In [15]:
#Separando classes e features
classes = df['Target']
features=df.drop('Target', axis=1)

# Algoritmos de Machine Learning 

In [16]:
from sklearn.ensemble import RandomForestClassifier
from sklearn import svm
from sklearn.neighbors import KNeighborsClassifier
from sklearn import tree
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import MinMaxScaler
from sklearn.pipeline import Pipeline

Nesta etapa é escolhido quatro algoritmos de machine Learning:

- Decision Tree (TR)
- Random Forest (RF)
- Support Vector Machine (svm)
- K-Nearest Neighbor(knn).

No intuito de verificar qual algoritmo tem maior chance de aprender o registro do stopify e identificar se é de um cantor do gênero masculino ou feminino.

In [17]:
RF=RandomForestClassifier()
TR=tree.DecisionTreeClassifier()
svm=svm.SVC()
knn=KNeighborsClassifier()

**Etapa do algoritmo para pré-processaento**

In [18]:
pip1_RF = Pipeline([
        ('scl', StandardScaler()), 
        ('clf', RandomForestClassifier())
])

pip2_RF = Pipeline([
    ('min_max_scaler', MinMaxScaler()),
    ('clf', RandomForestClassifier())
])

pip1_TR = Pipeline([
        ('scl', StandardScaler()), 
        ('clf', tree.DecisionTreeClassifier())
])

pip2_TR = Pipeline([
    ('min_max_scaler', MinMaxScaler()),
    ('clf', tree.DecisionTreeClassifier())
])

pip1_svm = Pipeline([
        ('scl', StandardScaler()), 
        ('clf', svm.SVC())
])

pip2_svm = Pipeline([
    ('min_max_scaler', MinMaxScaler()),
    ('clf', svm.SVC())
])

pip1_knn = Pipeline([
        ('scl', StandardScaler()), 
        ('clf', KNeighborsClassifier())
])

pip2_knn = Pipeline([
    ('min_max_scaler', MinMaxScaler()),
    ('clf', KNeighborsClassifier())
])

In [19]:
# Função retorna a acurácia após aplicar o cross validation
from sklearn.model_selection import cross_val_predict
from sklearn import metrics
def Accuracy(clf,X,y):
    result = cross_val_predict(clf, X, y, cv=10)
    return metrics.accuracy_score(y,result)


In [84]:
print('RF:',Accuracy(RF,features,classes))
print('pip1_RF:',Accuracy(pip1_RF,features,classes))
print('pip2_RF:',Accuracy(pip2_RF,features,classes))

RF: 0.61
pip1_RF: 0.64
pip2_RF: 0.575


In [86]:
print('TR:',Accuracy(TR,features,classes))
print('pip1_TR:',Accuracy(pip1_TR,features,classes))
print('pip2_TR:',Accuracy(pip2_TR,features,classes))

TR: 0.645
pip1_TR: 0.545
pip2_TR: 0.645


In [87]:
print('svm:',Accuracy(svm,features,classes))
print('pip1_svm:',Accuracy(pip1_svm,features,classes))
print('pip2_svm:',Accuracy(pip2_svm,features,classes))

svm: 0.495
pip1_svm: 0.665
pip2_svm: 0.69


In [88]:
print('KNN:',Accuracy(kn,features,classes))
print('pip1_KNN:',Accuracy(pip1_knn,features,classes))
print('pip2_KNN:',Accuracy(pip2_knn,features,classes))

KNN: 0.45
pip1_KNN: 0.635
pip2_KNN: 0.645


Por estes podemos verificar que para cada modelo de Machine Learning, os que obtiveram melhores resultados foram, para o Random Forest Classifier: pip1_RF, Decision Tree Classifier: TR, Support Vector Machine: pip2_svm e o
K-Nearest Neighbor: pip2_knn.

Então estes serão usadas na etapa de afinação dos parâmetros dos modelos, usando o GridSearch.


**GridSearch dos melhores métodos**

In [20]:
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import accuracy_score

In [94]:
grid_params_rf = [{
    'clf__n_estimators':[50,100,200,400],
    'clf__criterion': ['gini', 'entropy'],
    'clf__min_samples_leaf': [2,4,6],
    'clf__max_depth': [4, 6, 8, 10],
    'clf__min_samples_split': [2,4,6],
}]
gs_rf = GridSearchCV(
    estimator=pip1_RF,
    param_grid=grid_params_rf,
    scoring='accuracy',
    cv=10 
)
gs_rf.fit(features,classes)

GridSearchCV(cv=10,
             estimator=Pipeline(steps=[('scl', StandardScaler()),
                                       ('clf', RandomForestClassifier())]),
             param_grid=[{'clf__criterion': ['gini', 'entropy'],
                          'clf__max_depth': [4, 6, 8, 10],
                          'clf__min_samples_leaf': [2, 4, 6],
                          'clf__min_samples_split': [2, 4, 6],
                          'clf__n_estimators': [50, 100, 200, 400]}],
             scoring='accuracy')

In [95]:
print('Melhores parâmetros: %s' % gs_rf.best_params_)
print('Melhores Acurácia: %.3f' % gs_rf.best_score_)

Melhores parâmetros: {'clf__criterion': 'entropy', 'clf__max_depth': 4, 'clf__min_samples_leaf': 2, 'clf__min_samples_split': 2, 'clf__n_estimators': 400}
Melhores Acurácia: 0.735


In [99]:
grid_params_tr = [{
    'criterion': ['gini', 'entropy'],
    'splitter': ['best', 'random'],
    'max_depth': [4, 6, 8, 10],
    'min_samples_split': [2,4,6,8],
    'min_samples_leaf': [2,4,6,8]
}]
gs_tr = GridSearchCV(
    estimator=TR,
    param_grid=grid_params_tr,
    scoring='accuracy',
    cv=10 
)
gs_tr.fit(features,classes)

GridSearchCV(cv=10, estimator=DecisionTreeClassifier(),
             param_grid=[{'criterion': ['gini', 'entropy'],
                          'max_depth': [4, 6, 8, 10],
                          'min_samples_leaf': [2, 4, 6, 8],
                          'min_samples_split': [2, 4, 6, 8],
                          'splitter': ['best', 'random']}],
             scoring='accuracy')

In [100]:
print('Melhores parâmetros: %s' % gs_tr.best_params_)
print('Melhores Acurácia: %.3f' % gs_tr.best_score_)

Melhores parâmetros: {'criterion': 'entropy', 'max_depth': 8, 'min_samples_leaf': 6, 'min_samples_split': 6, 'splitter': 'random'}
Melhores Acurácia: 0.785


In [110]:
grid_params_svm = [{
    'clf__kernel': ['linear', 'rbf', 'poly'], 
    'clf__C': [0.01,0.1,1]
}]
gs_svm = GridSearchCV(
    estimator=pip2_sv,
    param_grid=grid_params_svm,
    scoring='accuracy',
    cv=10,
)
gs_svm.fit(features,classes)

GridSearchCV(cv=10,
             estimator=Pipeline(steps=[('min_max_scaler', MinMaxScaler()),
                                       ('clf', SVC())]),
             param_grid=[{'clf__C': [0.01, 0.1, 1],
                          'clf__kernel': ['linear', 'rbf', 'poly']}],
             scoring='accuracy')

In [111]:
print('Melhores parâmetros: %s' % gs_svm.best_params_)
print('Melhores Acurácia: %.3f' % gs_svm.best_score_)

Melhores parâmetros: {'clf__C': 0.01, 'clf__kernel': 'linear'}
Melhores Acurácia: 0.740


In [113]:
grid_params_knn = [{
    'clf__n_neighbors': [1,2,3,4,5,6,7,8,9,10],
}]
gs_knn = GridSearchCV(
    estimator=pip2_kn,
    param_grid=grid_params_knn,
    scoring='accuracy',
    cv=10,
)
gs_knn.fit(features,classes)

GridSearchCV(cv=10,
             estimator=Pipeline(steps=[('min_max_scaler', MinMaxScaler()),
                                       ('clf', KNeighborsClassifier())]),
             param_grid=[{'clf__n_neighbors': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]}],
             scoring='accuracy')

In [114]:
print('Melhores parâmetros: %s' % gs_knn.best_params_)
print('Melhores Acurácia: %.3f' % gs_knn.best_score_)

Melhores parâmetros: {'clf__n_neighbors': 9}
Melhores Acurácia: 0.665


Obtemos então como o melhor algoritmo para aprendizado dos dados, o Support Vector Machine (SVM) que consegue 
acertar 74 % dos cantores classificados pelo gênero feminino ou masculino.

# Conclusões

O intuito deste projeto foi identificar características de cantores do sexo feminino ou masculino, a partir de audio features fornecidos pelo Spotify dos cantores mais ouvidos. No Passo_1 Spotify, demonstra como é possível obter estes dados a partir de um algoritmo construído para obter as audio features de cada registro de música. Com os dados obtidos, o Passo2_Spotify faz uma analise exploratória de duas maneiras uma delas é de forma categórica onde um algoritmo construído classifica os dados em medidas baixas, intermediárias e altas  e a outra é uma analise dos valores de forma contínua. 

Na forma categórica observa-se que as features, instrumentalness, speechiness e liveness não tem relevância no Top 10 das músicas, atestando o fato de que os usuários não procuram este tipo de música entre os 20 cantores mais ouvidos. Além disso, os usuários procuram músicas com baixo acousticness e alta energy e danceability, e também na faixa loudness de -10 a -5 decibéis. Enquanto pela forma contínua, observa-se uma correlação entre as features energy e danceability, em que os usuários tem a maior tendência em ouvir muicas mais alegres, barulhentas e mais dançantes.

Os cantores de gênero feminino tem mais músicas de alto acousticness enquanto os cantores de gêneros masculinos tem mais músicas de alta danceability e energy nas faixas de Top 10. As músicas de mais baixa danceability que tender a ter baixa energy são do do gênero feminino, assim como as músicas de alta acousticness que tendem a ter baixa valence.

Com estas analises, o Passo3_Spotify demonstra a partir do algoritmo de Machine Learning como identificar se uma faixa de música é de um cantor do gênero feminino ou masculino, com isso obtemos resultados satisfatório de um acerto do gênero de cantores de 74%, esses dados de aprendizado podem ser melhorados, mas até então já demonstra que é possível identificar as características de um cantor ou cantora dentre os mais ouvidos por um usuário do Spotify.

              precision    recall  f1-score   support

           0       0.94      0.51      0.66       100
           1       0.66      0.97      0.79       100

    accuracy                           0.74       200
   macro avg       0.80      0.74      0.73       200
weighted avg       0.80      0.74      0.73       200



              precision    recall  f1-score   support

           0       0.88      0.52      0.65       100
           1       0.66      0.93      0.77       100

    accuracy                           0.73       200
   macro avg       0.77      0.73      0.71       200
weighted avg       0.77      0.72      0.71       200

