# <font color='blue'>Data Science Academy</font>
# <font color='blue'>Curso Bônus - Data Science e Machine Learning com Linguagem Julia</font>

## <font color='blue'>Machine Learning com Linguagem Julia</font>

![title](imagens/MP-MLJulia.png)

In [None]:
# Cria e instancia um env
using Pkg
Pkg.activate("env")
Pkg.instantiate()

In [None]:
# Instala o pacote MLJ
Pkg.add("MLJ")

In [None]:
# Usa o pacote
using MLJ

In [None]:
# Descreve o dataset 61
OpenML.describe_dataset(61)

In [None]:
# Carrega o dataset 61
iris = OpenML.load(61)

In [None]:
# Import
import DataFrames

In [None]:
# Converte o dataset em dataframe
df = DataFrames.DataFrame(iris)

In [None]:
# Visualiza as 4 primeiras linhas
first(df, 4)

In [None]:
# Schema do dataframe (metadados)
schema(df)

In [None]:
# Extrai x e y do dataframe
# x = variáveis preditoras
# y = variavel alvo (class)
y, X = unpack(df, ==(:class), rng = 123)

In [None]:
# Schema da variável y
scitype(y)

In [None]:
# Documentação da função
@doc unpack

In [None]:
# Pesquisa por todos os modelos de ML disponíveis
all_models = models()

In [None]:
# Pesquisa por todos os modelos de ML disponíveis, sendo do tipo Regressão Linear
some_models = models("LinearRegressor")

In [None]:
# Visualiza os detalhes de um dos modelos
meta = some_models[1]

In [None]:
# Tipo de variável alvo do modelo anterior
targetscitype = meta.target_scitype

In [None]:
# Verifica se podemos usar o modelo anterior com a nossa variável alvo
# Não podemos, pois o modelo é de regressão e nossa variável é para classificação
scitype(y) <: targetscitype

In [None]:
# Função para filtrar modelos de classificação
filter_julia_classifiers(meta) = AbstractVector{Finite} <: meta.target_scitype && meta.is_pure_julia

In [None]:
# Filtra os modelos de classificação
models(filter_julia_classifiers)

In [None]:
# Quais modelos podem ser usados com nossas variáveis x e y?
models(matching(X, y))

In [None]:
# Instala o pacote MLJFlux
Pkg.add("MLJFlux")

In [None]:
# Carrega o algoritmo de rede neural
NeuralNetworkClassifier = @load NeuralNetworkClassifier

In [None]:
# Cria o modelo
model = NeuralNetworkClassifier()

In [None]:
# Info do modelo
info(model)

Em MLJ um *modelo* é apenas uma estrutura contendo hiperparâmetros. Um modelo não armazena parâmetros *aprendidos* e os modelos são mutáveis. Para armazenar os parâmetros aprendidos usamos uma *machine*.

In [None]:
# Número de epochs para treinar o modelo
model.epochs = 30

In [None]:
# Verifica se o modelo está pronto para ser treinado em 30 epochs
NeuralNetworkClassifier(epochs = 30) == model

In [None]:
# Cria o objeto que vai armazenar o modelo treinado (machine)
mach = machine(model, X, y)

Uma máquina (mach) armazena parâmetros *aprendidos*, entre outras coisas. Treinamos esta máquina em 70% dos dados e avaliamos em 30% de dados de validação. Vamos começar dividindo todos os índices de linha em subconjuntos de `train` e `test`:

In [None]:
# Divide os dados em treino e teste
train, test = partition(1:length(y), 0.7)

In [None]:
# Treinamento do modelo
fit!(mach, rows = train, verbosity = 2)

In [None]:
# Previsões com o modelo treinado usando dados de teste
yhat = predict(mach, rows = test)

In [None]:
# Visualiza algumas previsões
yhat[1:5]

In [None]:
# Estrutura do modelo
fitted_params(mach)

In [None]:
# Relatório do erro durante o treinamento
report(mach)

In [None]:
# Calcula o erro médio
erro_medio = cross_entropy(predict(mach, X), y) |> mean

In [None]:
# Alteramos um hiperparâmetro do modelo
model.optimiser.eta = model.optimiser.eta * 2

In [None]:
# Recriamos a machine
mach = machine(model, X, y)

In [None]:
# Treinamos novamente o modelo
fit!(mach, rows = train, verbosity = 2)

In [None]:
# Erro médio do modelo
erro_medio = cross_entropy(predict(mach, X), y) |> mean

In [None]:
# Range de valores para criar a curva de aprendizado
r = range(model, :epochs, lower = 1, upper = 200, scale = :log10)

In [None]:
# Curva de aprendizado durante o treinamento
curva_aprendizado = learning_curve(model, 
                                   X, 
                                   y,
                                   range = r,
                                   resampling = Holdout(fraction_train = 0.7),
                                   measure = cross_entropy)

In [None]:
using Plots
plot(curva_aprendizado.parameter_values,
     curva_aprendizado.measurements,
     xlab = curva_aprendizado.parameter_name,
     xscale = curva_aprendizado.parameter_scale,
     ylab = "Erro Baseado na Cross Entropy")

In [None]:
# Salva o modelo em disco
MLJ.save("modelo/modelo_rede_neural.jlso", mach)

In [None]:
# Carrega o modelo do disco
mach2 = machine("modelo/modelo_rede_neural.jlso")

In [None]:
# Faz previsões com dados de teste
yhat = predict(mach2, X[test,:])

In [None]:
# Visualiza algumas previsões
yhat[1:5]

In [None]:
# Para obter a probabilidade de "Iris-virginica" na primeira previsão
pdf(yhat[1], "Iris-virginica")

In [None]:
# Obtém as previsões de cada linha com as probabilidades para cada uma das 3 classes
L = levels(y)
pdf(yhat, L)

# Fim