# <span style="color: green; font-size: 40px; font-weight: bold;">Apache Spark</span>


<br> <br>

# Conhecendo o Spark MLlib

**MLlib** é a biblioteca de aprendizado de máquina (machine learning) do Apache Spark. Projetada para ser escalável e fácil de usar, ela permite a construção e implementação de modelos de machine learning em larga escala, sendo executada em paralelo através de um cluster, assim como os demais módulos do Spark.

## Principais Funcionalidades do MLlib

### Algoritmos de Machine Learning
- **Classificação**:
  - SVM
  - Regressão logística
  - Árvore de decisão
  - Entre outros

- **Regressão**:
  - Regressão linear
  - Regressão de árvore de decisão

- **Clustering**:
  - K-means
  - GMM (Gaussian Mixture Models)

- **Filtragem Colaborativa**:
  - Recomendação baseada em ALS (Alternating Least Squares)

- **Redução de Dimensionalidade**:
  - PCA (Principal Component Analysis)
  - SVD (Singular Value Decomposition)

### Feature Engineering
- **Transformações de Dados**:
  - Normalização
  - Padronização

- **Extração de Características**:
  - TF-IDF para textos

### Pipeline de Machine Learning
Facilita o processo de criação de pipelines, que incluem várias etapas de processamento de dados e modelagem:
- **Classes**:
  - Pipeline
  - PipelineModel
  - Transformer
  - Estimator

### Validação de Modelos
Ferramentas para validação cruzada (cross-validation) e busca em grade (grid search) para ajuste de hiperparâmetros:
- **Métricas de Avaliação**:
  - Precisão
  - Recall
  - F1-score

### Persistência de Modelos
Suporte para salvar e carregar modelos treinados, facilitando a implementação e a reutilização de modelos.

## Benefícios do MLlib

- **Escalabilidade**: Projetado para processar grandes volumes de dados.
- **Integração**: Funciona perfeitamente com outras bibliotecas do Spark, como SparkSQL e Streaming.
- **Facilidade de Uso**: APIs simples e consistentes para criação de modelos de machine learning.

<br>

## Conclusão

O Spark MLlib é uma ferramenta poderosa para a construção de soluções de machine learning escaláveis e eficientes. Oferecendo uma ampla gama de algoritmos e utilitários, MLlib simplifica o desenvolvimento, a validação e a implementação de modelos em ambientes de big data. Seja para classificação, regressão, clustering ou filtragem colaborativa, o MLlib proporciona uma infraestrutura robusta para a aplicação de machine learning em larga escala.

<br><br><br>

# Scikit-Learn x Spark MLlib x NumPy

Os algoritmos do **MLlib** são otimizados para computação em clusters e com grandes conjuntos de dados. Se o seu objetivo for aplicar ML em conjuntos de dados pequenos ou médios, provavelmente o MLlib não será a melhor opção para isso. Nesse caso, você deve usar uma biblioteca de ML específica para ser executada em um único computador, como o **Scikit-learn**, que estudamos ao longo deste curso.

## Comparação entre Scikit-Learn e Spark MLlib

### Spark MLlib
- **Vantagens**:
  - Otimizado para computação em clusters.
  - Ideal para grandes volumes de dados.
  - Executa algoritmos de ML em paralelo.
- **Desvantagens**:
  - Pode ser excessivo para conjuntos de dados pequenos ou médios.
  - Requer configuração e manutenção de um cluster.

### Scikit-Learn
- **Vantagens**:
  - Simplicidade e facilidade de uso.
  - Ideal para conjuntos de dados pequenos e médios.
  - Grande variedade de algoritmos e ferramentas.
- **Desvantagens**:
  - Não é otimizado para computação distribuída.
  - Pode ser limitado em termos de escalabilidade para grandes conjuntos de dados.

### Integração de Scikit-Learn em Ambientes de Cluster
É possível executar modelos de ML criados com Scikit-learn em um ambiente de cluster usando o Spark. Para isso, podemos usar a função `map` e aplicar nosso modelo aos RDDs. Isso permite que aproveitemos a familiaridade e a simplicidade do Scikit-learn enquanto utilizamos a capacidade de computação distribuída do Spark.

### Considerações para Escolha
- **Facilidade para Construção do Modelo**: Scikit-learn é geralmente mais fácil e direto para começar.
- **Performance**: Para grandes volumes de dados, o Spark MLlib oferece melhor performance devido à sua capacidade de execução paralela.
- **Execução em Paralelo**: O Spark MLlib é projetado para executar em clusters, tornando-o ideal para processamento de big data.

## Importância do NumPy

No início do curso, mencionamos que o **NumPy** é a base de qualquer solução analítica envolvendo Python. O MLlib precisa do NumPy para ser executado, pois ele fornece a base de álgebra linear utilizada pelo MLlib. Não precisamos fazer uma chamada explícita ao NumPy, mas ele deve estar instalado na máquina onde executamos o Spark MLlib.

### Matrizes Densas e Esparsas no MLlib
Uma das bases do MLlib é o conceito de matriz densa e esparsa, que fornece a estrutura necessária para a execução dos algoritmos de ML.

### Requerimentos
Como temos Anaconda em nossos computadores, esse requerimento já está atendido, pois o NumPy está incluído na distribuição Anaconda.

## Conclusão

- **Spark MLlib** é ideal para grandes volumes de dados e computação distribuída.
- **Scikit-learn** é mais adequado para conjuntos de dados pequenos a médios, proporcionando simplicidade e facilidade de uso.
- **NumPy** é essencial para o funcionamento do MLlib, fornecendo a base de álgebra linear.

Dependendo do seu caso de uso, escolha a biblioteca que melhor atenda às suas necessidades de escalabilidade e facilidade de uso.
