# 11. Aprendizado de Máquina

* Data Science não se resume a aprendizado de máquina.
* Data Science é mais transformar problemas empresariais em problemas de dados e coletar, entender, limpar e formatar os dados.
* O aprendizado de máquina é uma considerção subsequente, além de uma referência interessante e essencial para a prática de Data Science.

### Modelagem

* O que é um modelo??
  * É a especificação de uma relação matemática (ou probabilística) existente entre variáveis diferentes.
  
### O que é aprendizado de máquina?

* Criação e uso de modelos que são aprendidos a partir de dados.
* Modelo preditivo ou mineração de dados.
* O objetivo será usar dados existentes para criar modelos que possam prever possíveis saídas para novos dados, como:
  * Prever se uma mensagem de e-mail é spam ou não.
  * Prever se uma transação do cartão de crédito é fraudulenta.
  * Prever a probabilidade de uma comprador clicar em uma propaganda.
  * Prever qual time de futebol ganhará o Super Bowl
  
  
* Existem modelos:
  * Supervisionados: dados etiquetados com a resposta correta para a aprendizagem
  * Não supervisionado: dados não etiquetados.
  * Semisupervisionados: apenas alguns dados são etiquetados.
  * Online: o modelo necessita ter um ajuste contínuo com a chegada de novos dados.
  
  
* Existem um universo de modelos que podem descrever uma relação (até em uma situação mais simples)
* Na maioria dos casos serão escolhidos uma família parametrizada de modelos e os dados serão usados para aprender parâmetros ótimos.

### Sobreajuste e Sub-Ajuste

* Um perigo comum em aprendizado de máquina é o sobreajuste.
  * Produzir um modelo de bom desempenho com os dados que você treina, mas não lida muito bem com novos dados.
  * Pode implicar em aprender com base em ruídos ou;
  * Em aprender entradas específicas ao invés de generalizar.
  

* Um outro risco é o subajuste:
  * Não desempenha bem nem com os dados usados no treino.
  

* Modelos mais complexos tendem ao sobreajuste.
* Como ter certeza se os modelos não são muito complexos? 
  * Um método muito utilizado é o uso de dados diferentes para treinar e testar o modelo.
    * A maneira mais fácil é dividir o conjunto de dados a fim de que parte deles sejam usados para treinar o modelo e a parte restante sirva para medir o desempenho.

In [1]:
def split_data(x, prob):
    results = [],[]
    for row in data:
        results[0 if random.random() < prob else 1].append(row)
    return results

# Para conjuntos de dados com x para variáveis de entrada e y para saída
def train_test_split(x, y, test_pct):
    data = list(zip(x, y)) # par de valores correspondentes
    train, test = split_data(data, 1 - test_pct) # divide o conjunto de pares de dados
    x_train, y_train = zip(*train) # truque mágico de un-zip (descompactação)
    x_test, y_test = zip(*test)
    return x_train, x_test, y_train, y_test

* Isso nos permite fazer algo como:
    
~~~ Python
model = SomeKindOfModel()
x_train, x_test, y_train, y_test = train_test_split(xs, ys, 0.33)
model.train(x_train, y_train)
performance = model.test(x_test, y_test)
~~~

* Se o modelo foi sobreajustado para os dados de treinamento, ele deve desempenhar mal sobre os dados de teste.
  * Caso desempenhe bem sobre os dados de teste, ele está ajustado.
  
* Existem duas formas de dar tudo errado
  * Se existirem padrões comuns aos dados de teste e de treinamento que não seriam generalizados em um conjunto maior de dados.
  * Usar a divisão de testes/treinamento não apenas para avaliar um modelo mas, também, para escolher entre os vários modelos.
    * O ideal é dividir o conjunto em treino, teste e validação. Treino para construir o modelo, validação para escolher o melhor modelo e teste para avaliar o modelo final.
    

### Precisão

* Precisão não é uma boa métrica para medir a eficiência de um modelo. 
* Dado um conjunto de dados etiquetados e um modelo preditivo, cada ponto de dados se estabelece em quatro categorias. 
  * Positivo verdadeiro: o dado é positivo e foi previsto como positivo.
  * Positivo falso: o dado é negativo e foi previsto como positivo. 
  * Negativo falso: o dado é positivo e foi previsto como negativo.
  * Negativo verdadeiro: o dado é negativo e foi previsto como negativo.


* Essa contagem é representada em uma matriz de confusão.
* Podemos usar esses dados para computar diversas estatísticas sobre o desempenho do modelo.
* A acurácia é definida como a fração de premissas corretas:

In [2]:
def accuracy(tp, fp, fn, tn):
    correct = tp+tn
    total = tp+fp+fn+tn
    return correct/total

print(accuracy(70,4930,13930,981070))

0.98114


* Costuma-se considerar a precisão e a sensibilidade:
  * Precisão: quão precisas as previsões positivas foram.
  * Sensibilidade: qual fração dos positivos o modelo identifica.


* Para os dados aqui analisados são valores terríveis, refletindo em um modelo terrível.
* Precisão e Sensibilidade podem ser combinados ao F1 Score que é definido como a média harmônica entre acurácia e sensibilidade.

In [3]:
# Precisão
def precision(tp, fp, fn, tn):
    return tp / (tp + fp)

print (precision(70, 4930, 13930, 981070))

# Sensibilidade
def recall(tp, fp, fn, tn):
    return tp / (tp + fn)

print (recall(70, 4930, 13930, 981070))

# F1 Score
def f1_score(tp, fp, fn, tn):
    p = precision(tp, fp, fn, tn)
    r = recall(tp, fp, fn, tn)
    return 2 * p * r / (p + r)

0.014
0.005


* A escolha de um modelo implica em um compromisso entre acurácia e sensibilidade.
  * Um modelo ao prever "sim" quando está pouco confiante, provavelmente terá alta sensibilidade e acurácia baixa.
  * Um modelo ao prever "sim" quando está extremamente confiante, provavelmente terá baixa sensibilidade e acurácia alta.
  

### Compromisso entre polarização e variância

* Outra maneira de pensar sobre o problema do sobreajuste.
* Ambas são medidas do que aconteceria se o modelo fosse treinado muitas vezes em diferentes conjuntos de dados de treinamento (mesma população).
* Um modelo que comete muitos erros para qualquer conjunto de dados em treinamento (mesma população) possui uma polarização alta.
* Dois conjuntos de treinamento escolhidos aleatoriamente que fornecem modelos similares, possuem baixa variância.
* Alta polarização e baixa variância geralmente pertencem ao sub-ajuste.
* Baixa polarização e alta variância correspondem ao sobreajuste. 
* Pensar sobre problemas de modelos dessa maneira permite descobrir mais facilmente o que fazer quando o modelo não funciona bem.
  * Se o modelo possui polarização alta, pode-se tentar adicionar mais características.
  * Se o modelo possui variância alta, pode-se remover características.
    * Outra solução seria obter mais dados.
    
    
* Quanto mais dados há, mais difícil é para sobreajustar. 
* Entretanto, mais dados não ajudam na polarização.
   * Se o modelo não usa recursos suficientes para capturar as regularidades nos dados, colocar mais dados não ajuda.
   
### Recursos, Extração e Seleção de Características

* Característica são quaisquer entradas que fornecemos ao nosso modelo.
* Em casos simples, as características são fornecidas apenas a você.
* Se o problema for prever o salário de alguém baseado em seus anos de experiência, então anos de experiência é a única característica que você possui.
* As coisas ficam mais interessantes se os dados ficam mais complicados.
* Quase sempre são extraídos dados que podem ser incluídos em 3 categorias principais:
  * Binário: 0 ou 1
  * Regressão: um valor
  * Multiclasse: muitas opções de saída.
  
  
* O tipo de característica determina o tipo de modelo que pode ser usado. 
* Como escolher as características envolve uma combinação de experiência e domínio de entendimento.
  * No geral, será necessário tentar diversos métodos. 