In [20]:
# Online Music Store
# Machine Learning to inncrease sales

# Quando os usuários se inscrevem, perguntamos a idade e o sexo.
# Baseado no perfil do usuário, recomendamos diversos álbuns de música que ele provavelmente compraria.

In [3]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
import joblib
from sklearn import tree

music_data = pd.read_csv('music.csv')
X = music_data.drop(columns=['genre'])
X = X.values
y = music_data['genre']

# X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

model = DecisionTreeClassifier()
# model.fit(X_train, y_train)
model.fit(X, y)

tree.export_graphviz(model,
                     out_file='music-recommender.dot',
                     feature_names=['age', 'gender'],
                     class_names=sorted(y.unique()),
                     label='all',
                     rounded=True,
                     filled=True)

# joblib.dump(model, 'music-recommender.joblib')

# model = joblib.load('music-recommender.joblib')

# predictions = model.predict(X_test)
# predictions = model.predict([[21, 1]])
# score = accuracy_score(y_test, predictions)
# predictions
# score

In [39]:
# O método drop cria um novo conjunto de dados com toda informação dos dados originais, exceto o seu argumento.

# O conjunto de dados X será nosso Input Dataset (Entrada de Dados). Convertemos X de dataframe (2D) para array (1D).
# O conjunto de dados y será nosso Output Dataset (Saída de Dados).

# A função train_test_split divide os dados em dois grupos, um para treinamento e outro para testes.
# Os argumentos da função train_test_split são o Input, Output e % dos dados para treinamento e teste.
# A função train_test_split retorna um tuple. Nós armazenamos o tuple em quatro variáveis.

# Utilizaremos um algoritmo chamado DecisionTree (biblioteca do Side Kick Learn).
# Pacote: sklearn / Módulo: tree / Classe: DecisionTreeClassifier.
# A função fit recebe 2 conjuntos de dados. Ex: model.fit(X, y).
# A função predict prevê o Output dos Inputs passados como argumento. Ex: model.predict([ [21, 1], [22, 0] ]).
# A função accuracy_score compara o test split com as previções do modelo e retorna um valor de 0 a 1.

# Model Persistence - dependendo da qtd de dados, treinar um modelo pode demorar horas, por isso é interessante salvar
# um arquivo com o modelo treinado ao invés de treiná-lo toda vez que quiser realizar uma previsão. Isso também torna
# o processo de atualização de um modelo (treiná-lo com novos dados) mais rápido, pois se treina um modelo já treinado.
# O objeto joblib possui métodos para salvar (dump) e carregar (load) módulos. Argumentos(modelo, 'nome.joblib').

# O objeto tree possui um método (export_graphviz) para exportar a decision tree no formato de gráfico.
# export_graphviz Argumentos (modelo,
#                            'nome_arquivo_saída.dot',
#                             array ['input1', 'input2'],  -> 1ª linha das notas (regras)
#                             class output.unique,         -> última linha das notas
#                             label='all',                 -> linhas do meio das notas
#                             rounded=True,                -> notas com bordas curvas
#                             filled=True)                 -> notas preenchidas com cores
# export_graphviz cria um arquivo.dot -> Abrimos este arquivo no VS Code -> possui linguagem textural descrevendo gráficos.
# No VS Code, em extensions pesquisamos por dot e instalamos o Graphviz (dot) language support for Visual Studio Code.
# Em ... -> Open Preview to the Side - é possível visualizar a decision tree.
# Em nosso caso temos uma tree binária. A 1ª linha de cada nota representa uma condição. True - Esquerda / False - Direita.
# Quanto mais colunas (features) o app tiver, mais complexa será a decicion tree.
# Sempre que alimentamos o modelo com mais dados, as regras podem mudar.