## Seção 7: Machinle learning com Spark

In [2]:
import os
import pyspark
import findspark
from pyspark.sql import SparkSession

os.environ["SPARK_HOME"] = "C:\\ApacheSpark\\spark-3.5.3-bin-hadoop3"

findspark.init()
spark = SparkSession.builder.master('local[*]').getOrCreate()

### 55. Fundamentos de Machine Learning

#### Oque é machine learning?

- Machine Learning (ML) é um subcampo da inteligência artificial (IA) que permite que sistemas aprendam e melhorem com a experiência sem serem explicitamente programados para cada tarefa. Em vez disso, eles usam dados para treinar modelos que identificam padrões e fazem previsões ou decisões. O aprendizado ocorre por meio de algoritmos que ajustam as previsões com base nos dados de entrada e nos resultados esperados.

#### Como funciona
O ML se baseia em algoritmos que processam grandes volumes de dados para descobrir padrões. Existem diferentes tipos de aprendizado:

- Supervisionado: O modelo é treinado com dados rotulados (exemplo: entrada e resposta esperada). Útil para classificação e regressão.
- Não supervisionado: Trabalha com dados não rotulados, encontrando padrões e grupos ocultos nos dados. Aplicável para segmentação e redução de dimensionalidade.
- Reforço: O modelo aprende por tentativa e erro, recebendo recompensas por acertos e penalidades por erros, aplicável em áreas como controle robótico e jogos.
#### Aplicações
Machine Learning pode ser aplicado em diversas áreas:

- Financeiro: Previsão de preços, detecção de fraudes, análise de risco e algoritmos de negociação.
- Saúde: Diagnóstico médico assistido, análise de imagem, descoberta de medicamentos e previsões de epidemias.
- Marketing: Segmentação de clientes, recomendações personalizadas, análise de sentimentos e previsão de churn.
- Indústria: Manutenção preditiva, otimização de processos e controle de qualidade.
- Tecnologia: Assistentes virtuais, reconhecimento de fala, visão computacional, e recomendações de conteúdo.
#### Principais informações
- Dados são fundamentais: ML depende de dados de qualidade para obter bons resultados.
- Algoritmos: Há várias técnicas, como árvores de decisão, redes neurais, regressão linear, máquinas de vetor de suporte (SVM), e mais.
- Avaliação do Modelo: É importante validar a precisão e ajustar os parâmetros do modelo.
- Infraestrutura: Ferramentas como Databricks, AWS, e bibliotecas como TensorFlow e Scikit-learn são comumente usadas.
Machine Learning permite que sistemas automatizem decisões complexas, oferecendo insights que podem transformar o funcionamento de empresas, instituições e até do cotidiano.
#### Conceitos
- Classe: é o que se buscar prever ou classificar
   - Ex: Espécie de planta, doença do paciente, se o cliente é bom pagador
   - Classe também é um atributo, é uma caracteristica.
   - Podemos ter atributos nominais ou numéricos (espécie de uma plata e comprimento).
   ##### Classificações
   - Classificação binária: é a classificação do objetivo em SIM ou NÃO.(Possui diferentes valores mas todas as clases estão na mesma coluna, mas possui apenas duas possibilidades).
   - Classificação multiclasse: é quanto temos mais de duas possibilidades(Possui diferentes valores mas todas as clases estão na mesma coluna).
   - Classificação multilabel: Se trata do conceito de classificar algo em mais de uma classe ao mesmo tempo. Ex: Uma música pode ser suave, clássica. E também pode ser uma música que não é moderna (Imaginamos que o que eu quero prever está em mais de uma coluna e uma linha pode ser classificada em mais de uma coluna ao mesmo tempo).
- Dimensão ou atributo: são as características usadas como parâmetros para classificar
- Instância: é uma observação
- Relação: conjunto de dados
#### Considerações sobre o modelo
- Depende do Algoritmo utilizado
- Pode perder a eficiência
- Muito específico do negócio
#### Regressão
- Aplicado quando a classe é contínua
- Exemplo: Você tem todas as informações de um carro e quer prever a potência de um motor(Será númerica)
#### Métrica de Erros
Quanto é necessario apurar um modelo que possui regressão(numeros reais ou inteiros) usamos outros tipos de métricas, agora não podemos mais avaliar se está certa ou errada, devemos avaliar a distancia da previsão feita com o valor que de fato ocorreu.
##### Root Mean Squared Error (RMSE)
Independente de Escala
 - O desvio padrão da amosta da diferença entre o previsto e o teste

|Previsto    |Realizado    |Dif. ao Quad.|
|:----------:|:-----------:|:-----------:|
|3,34        |3,00         |0,1156       |                   
|4,18        |4,00         |0,0324       |

- Pi = Valor previsto
- Ti = Valor realizado
- N = Quantidade de informações

RMSE =$$\sqrt{(∑^Ni=1(Pi-Ti)^2)/N}$$   

- RMSE =$$\sqrt{0,1483/2}$$   
- RMSE ≈ 0,2723



### 56. Machine Learning no Spark

#### Bibliotecas

 - spark.mllib
 - spark.ml

ML baseado em RDD está descontinuado, agora as implementações são todas em DataFrames.

#### Variáveis
Variáveis Independentes - São colunas distintas
Variável Dependente - Outra coluna, que normalmente é apenas uma coluna 

#### Variáveis No spark
Normalmente todas as váriaveis independentes devem compor uma mesma coluna. Cria-se um vetor único, que é adicionado em uma nova coluna no Dataframe

#### One HotEncoding
- Machine Learning suporta apenas números
- Atributos categóricos devem ser transformados em colunas, recebendo numeros para true ou false.

##### One HotEnconding no spark
- Existe o problema que se o atributo tiver muitos valores, serão criadas muitas colunas. Ex: Estados de um pais.
- Para isso o spark permite o uso de matriz esparsa. Imagine que tivemossemos 27 estados, para cada linhas teriamos 26 zeros e apenas 1 um, a matriz esparsa compacta as matrizes que contém muitos valores 0.

#### Formulas no R
**R** permite definir o modelo através de fórmula.
- Spark implemente Rformula
 - Aplica One HotEnconding e combina variáveis independentes em uma única coluna.

#### Pipelines
- Transformer: Transforma um DF em outro DF
- Estimator: Fir em DF para produzier um Transformer
- Pipeline: conecta Transformers Estimators para Produzir modelo
- Parâmetros: Transformers e Estimators compartilham uma Api para definir parâmetros

### 57. Preparando Dados para Regressão

#### **Todos esse processo está sendo desenvolvido no Ubuntu, por se tratar de spark puro.**