# Para Saber Mais

## 1 - O que é Machine Learning?
A Inteligência Artificial (IA) tem se destacado como uma das áreas de maior crescimento e visibilidade nos últimos anos. É um campo de estudo amplo que abrange diversas áreas do conhecimento, tanto práticas quanto teóricas, incluindo a ciência da computação, a ciência cognitiva, a filosofia da mente e o **Machine Learning** (Aprendizagem de Máquina).

O Machine Learning (ML), como uma subárea da inteligência artificial, se concentra no desenvolvimento de **algoritmos** que são utilizados no computador para realizar tarefas sem a necessidade de programar explicitamente as regras que serão utilizadas. Esses algoritmos baseiam suas decisões a partir de dados com o objetivo de compreender e identificar o padrão existente nesses dados, para então utilizar esse conhecimento na realização das predições.

### Como funciona o Machine Learning
O funcionamento do Machine Learning tem 3 etapas principais:

#### 1 - Coleta dos dados
A primeira etapa de um projeto de ML é a extração ou coleta de dados. Os dados são essenciais e podem ser considerados a matéria-prima dos algoritmos. A quantidade e qualidade desses dados têm um impacto muito grande no aprendizado dos modelos. Com poucos dados, o modelo pode não ter informações suficientes para aprender. Com dados de pouca qualidade, o modelo pode não conseguir diferenciar bem o padrão dos dados ou compreender o padrão de forma diferente do que ocorre com os dados do mundo real.

#### 2 - Treinamento dos modelos
Após coletar dados e assegurar que estão com qualidade, chega à etapa de treinar os modelos. O treinamento consiste no algoritmo procurar o padrão presente nos dados e construir uma regra para tomar decisões posteriormente em novos dados.

#### 3 - Avaliação
Com o modelo treinado, chega a etapa de avaliar o desempenho do modelo, para identificar se realmente aprendeu o padrão dos dados e se é capaz de aplicar de forma satisfatória a regra gerada pelo algoritmo em dados novos, que não foram utilizados durante o momento do treinamento.

Apesar de serem as etapas principais, essas não são as únicas tarefas presentes em projetos de Machine Learning. Cada projeto tem suas próprias características, seja pelo formato e natureza dos dados, ao tipo de aplicação ou aos desafios encontrados ao longo do processo.

## 2 - O que é classificação?
Dentro da área de Machine Learning, existem diferentes tipos de aprendizado: o supervisionado, semi supervisionado, não supervisionado e por reforço. A tarefa de **classificação** é apenas uma dentre as tarefas realizadas pelos algoritmos, que faz parte do aprendizado supervisionado. Com o organograma a seguir, perceba os fluxos que são estabelecidos nessas relações.

![image.png](attachment:image.png)

Imagine um grupo de jovens que está aprendendo a identificar diferentes estilos musicais. Eles têm um mentor que possui uma coleção de músicas em seu dispositivo de áudio, cada uma devidamente rotulada com o gênero musical correspondente, porém os jovens não conseguem distinguir os gêneros musicais por conta própria. No início, o mentor começa a reproduzir várias músicas e, ao mesmo tempo, diz qual é o gênero de cada uma delas. Eles ouvem com atenção e, ao longo do tempo, começam a associar as características musicais, como batida, instrumentação e vocais, aos diferentes gêneros.

Nesse exemplo, os jovens baseiam-se em algumas características como batidas rápidas e vocais energéticos encaixando ao gênero pop, enquanto músicas com guitarras distorcidas e vocais mais intensos são direcionadas ao gênero rock. Com base nesse processo, os jovens conseguem identificar o gênero de novas músicas que não foram previamente rotuladas pelo mentor, porém usando as regras que eles aprenderam, foram capazes de rotular e nomear os novos elementos.

O aprendizado supervisionado em Machine Learning segue esse mesmo raciocínio. Ele utiliza conjuntos de dados rotulados, isto é, base de dados com registros históricos contendo a resposta correta em cada um dos registros. Para então, a partir dessa resposta e das características dos dados, o algoritmo ser capaz de traçar uma regra para se chegar até a resposta que poderá ser usada posteriormente em novos dados, no intuito de fazer uma predição.

A característica principal da classificação se dá pelo tipo do dado presente na resposta, que precisa ser do tipo categórica. Um dado do tipo categórico é aquele que possui diferentes classes ou categorias. Como exemplos de aplicações de classificação com Machine Learning, temos:
- Filtragem de e-mails spams
- Diagnósticos médicos
- Análise textual de sentimentos
- Detecção de fraudes bancárias

## 3 - Tipos de variáveis
Em uma base de dados utilizada em projetos de Machine Learning, podemos chamar as colunas de variáveis. Este conceito, proveniente da estatística, representa uma característica de interesse que é medida em cada elemento de uma amostra ou população. O nome indica que o valor varia de elemento para elemento, podendo ter valores numéricos ou não numéricos.

As variáveis são divididas da seguinte forma:

### Variáveis quantitativas ou numéricas
São características que podem ser medidas a partir de valores numéricos que fazem sentido e são divididas entre variáveis discretas e contínuas.

- **Variáveis discretas**: características medidas apenas por um número finito ou contável de valores. Só faz sentido para valores inteiros. Por exemplo: número de filhos, número de vendas.
- **Variáveis contínuas**: características medidas que assumem valores em escala contínua (na reta real), em que fazem sentido valores fracionários. Exemplo: peso, tempo, altura.

### Variáveis qualitativas ou categóricas
São características que não possuem valores quantitativos e são definidas por várias categorias ou classes. São divididas em nominais e ordinais.

- **Variáveis nominais**: não existe ordenação entre as categorias. Exemplo: sexo biológico, país, churn.
- **Variáveis ordinais**: existe uma ordenação entre as categorias. Exemplo: escolaridade, mês.
  
> Atenção: Um ponto importante a se tratar é que nem sempre uma variável representada por números é quantitativa.

Por isso, é essencial ter uma postura crítica e avaliar a informação por trás do dado, e não se atentar somente à forma que ele está disponibilizado. Por exemplo, uma informação de ID de registro pode ser um número, porém sua função está em categorizar um elemento. Da mesma forma em que uma informação de escolaridade pode estar representada com os valores 1, 2 e 3, e ainda assim não os transforma em uma variável numérica. Essa informação não pode ser usada para fazer somas e calcular médias, por exemplo.

## 4 - Scikit-Learn
Além dos dados, há algo que se torna indispensável nos projetos de Machine Learning, que são os algoritmos. É claro que não precisamos criar os algoritmos do zero, eles estão disponibilizados de forma gratuita a partir de uma biblioteca da linguagem Python, o Scikit-Learn. Ela oferece não somente uma ampla variedade de algoritmos, mas também ferramentas de pré-processamento dos dados, análise e avaliação de modelos.

Um dos pontos mais positivos da biblioteca é a sua [documentação](https://scikit-learn.org/stable/index.html), que é bem organizada e de navegação intuitiva. Ela contém a explicação e exemplos de uso de todas as funções, além de informações teóricas dos mais diversos assuntos relacionados ao Machine Learning. A documentação com certeza deve fazer parte do dia a dia da pessoa cientista de dados, desde o estágio inicial até o mais avançado de conhecimento.

O outro ponto vantajoso dessa biblioteca é a sua utilização simples. Com poucas linhas de código é possível fazer o treinamento de um modelo, abstraindo todos os detalhes complexos que acontecem por debaixo dos panos. Por conta disso, tornou-se uma das principais bibliotecas para se trabalhar com dados e, principalmente, Machine Learning.

## 5 - One Hot Encoding
Os algoritmos de Machine Learning não conseguem compreender informações que não estejam em formato numérico. Portanto, se for o desejo de utilizar variáveis categóricas em modelos, é necessário que elas passem por algum tipo de tratamento para que fiquem em formato numérico. Isso não quer dizer que vão se tornar variáveis numéricas, apenas que estarão em um formato que seja compreendido pelos modelos.

Sendo assim, essas transformações precisam preservar a informação real das categorias da melhor forma possível, sem trazer vieses para o modelo e informações que estejam distantes da realidade.

A forma ideal de fazer esse tipo de transformação, que mantém a informação original, é conhecida como one hot encoding. Essa ação transforma cada uma das classes das variáveis categóricas em novas colunas, utilizando o valor 0 para representar a ausência da característica e 1 para a presença da característica na amostra da base de dados. Perceba em detalhes, o dinamismo desse processo na imagem a seguir.

![image.png](attachment:image.png)

Existe uma forma bem simples de fazer essa transformação usando a biblioteca pandas, a partir da função [`pd.get_dummies()`](https://pandas.pydata.org/docs/reference/api/pandas.get_dummies.html), porém não é uma maneira muito recomendada quando estamos trabalhando com Machine Learning, uma vez que essa função não consegue abstrair e executar a mesma transformação para um novo dado. Caso você tenha uma nova informação que pertence apenas a uma das classes de uma variável alvo, o processo do `get_dummies` não será capaz de gerar as outras colunas provenientes das outras classes. Isso torna um problema para o modelo, uma vez que ele espera todas as características para realizar uma previsão.

O método mais recomendado para realizar a transformação em projetos de Machine Learning é o [`OneHotEnconder`](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html). Em um primeiro momento, com os dados iniciais, ele inicia a sua ação compreendendo as características dos dados e gera as novas colunas para cada classe. Além disso, armazena a regra capaz de fazer esse procedimento para novos dados. Portanto, no processo de transformação de um novo dado, ele consegue criar todas as colunas necessárias, por mais que esse novo dado tenha apenas a informação de uma das classes.

Caso queira saber mais sobre as diferenças e exemplos de código dos métodos `get_dummies()` e `OneHotEncoder`, acesse o artigo abaixo:
- [get_dummies vs OneHotEncoder: qual método escolher?](https://www.alura.com.br/artigos/get-dummies-vs-onehotencoder-qual-metodo-escolher)

## 6 - Overfitting e Underfitting
Uma tarefa muito importante para a avaliação de modelos de machine learning é a divisão dos dados entre treinamento e teste. O conjunto de treinamento é utilizado para que o modelo compreenda padrões e relações nos dados para que ele possa criar uma regra para fazer predições. O conjunto de teste, por sua vez, é reservado para avaliar o desempenho do modelo em dados que não foram utilizados no treinamento, simulando a capacidade do modelo de generalizar para novos dados.

Existem dois conceitos que estão muito ligados a essa divisão dos dados e que são muito relevantes nos projetos de machine learning: o overfitting e underfitting.

### Overfitting (Sobreajuste):
O overfitting ocorre quando um modelo se ajusta demais aos dados de treinamento. Isso indica que o modelo capturou não só o padrão dos dados, mas também ruídos e variações aleatórias que estão presentes nos dados usados para treinamento. Como resultado disso, o modelo tem um resultado muito bom ao ser avaliado com os dados de treinamento, porém seu desempenho nos dados de teste ou em dados novos cai consideravelmente.

Características do overfitting:
- Erro muito baixo nas predições em dados de treinamento;
- Erro muito alto nas predições em dados de teste;
- Modelo muito complexo que tenta memorizar os dados de treinamento ao invés de aprender o padrão dos dados.

### Underfitting (Subajuste):
O underfitting ocorre quando um modelo é muito simples e não consegue capturar o padrão presente nos dados. Isso indica que o modelo não foi capaz de aprender os relacionamentos existentes nos dados de treinamento e acaba tendo um desempenho ruim tanto em dados de treinamento quanto de teste.

Características do underfitting:
- Erro muito alto nas predições em dados de treinamento;
- Erro muito alto nas predições em dados de teste;
- Modelo muito simples que não consegue representar bem os dados.

O objetivo principal da criação de modelos de machine learning é encontrar um equilíbrio entre o overfitting e underfitting, para que tenha um ajuste adequado. Um modelo bem ajustado é capaz de aprender o padrão dos dados e generalizar para novos dados, fazendo predições com consistência sem que seja muito influenciado pelos ruídos presentes nos dados de treinamento.

## 7 - Árvore de Decisão
A árvore de decisão é um algoritmo de machine learning supervisionado que tem uma boa interpretabilidade. Isso significa que é possível ter uma compreensão fácil dos passos que foram realizados para conseguir chegar ao resultado final da predição do modelo. Esses passos podem ser representados de forma visual, a partir de um diagrama que indica cada uma das decisões que foram tomadas para se chegar na classificação de um dado.

Para se chegar em uma regra que classifica os dados com uma boa taxa de acerto, as decisões da árvore não podem ser de forma totalmente aleatória. Precisa haver um sentido em cada escolha feita pela árvore de decisão. Vamos agora entender como são feitas essas escolhas:

O primeiro passo é selecionar uma coluna da base de dados que será usada para dividir os dados em 2 subconjuntos. O objetivo é que a maior quantidade possível de dados seja separada em relação à variável alvo. Então o melhor resultado possível seria se um dos subconjuntos tivesse apenas dados de uma categoria da variável alvo e o outro subconjunto tivesse apenas dados da outra categoria restante. Para fazer a melhor escolha possível, são testadas diferentes colunas e valores, e aquela que proporcionar a melhor separação é escolhida como a primeira regra da árvore de decisão.

Para definir o que é uma boa separação, são feitos cálculos matemáticos para obter a proporção de dados de cada categoria da variável alvo dentro dos subconjuntos. O resultado desse cálculo é conhecido como **métrica de impureza**. Existem diferentes tipos de métricas, sendo as mais utilizadas a **entropia** e o **índice de Gini**. Perceba a seguir a característica de cada uma.

### Índice Gini
Este índice informa o **grau de heterogeneidade** dos dados. Seu objetivo é medir a frequência de um elemento aleatório de um nó ser rotulado de maneira incorreta. Em outros termos, esse índice quantifica e determina a impureza de um nó por meio do seguinte cálculo:

![image.png](attachment:image.png)

Onde:
- `P(i)` representa a frequência relativa das classes em cada um dos nós;
- `k` é o número de classes.

Se o índice Gini for igual a 0, isso indica que o nó é puro. No entanto, se o valor dele se aproxima mais do valor 1, o nó é impuro.

### Entropia
A ideia básica da entropia é medir **a desordem dos dados** de um nó por meio da variável classificadora. Assim, como o índice de Gini, ela é utilizada para caracterizar a impureza dos dados e pode ser calculada por meio da seguinte fórmula:

![image-2.png](attachment:image-2.png)

Onde:
- `pi` representa a proporção de dados no conjunto de dados, pertencentes à classe específica `i`;
- `c` é o número de classes.

Depois que é realizada a primeira escolha de divisão, o processo é repetido para cada subconjunto até que uma condição de parada seja atingida ou que todos os subconjuntos finais estejam totalmente puros, ou seja, com apenas dados de uma das classes da variável alvo. A partir da regra gerada, novos dados podem ser classificados passando por cada uma das decisões da árvore até chegar na escolha final.

Caso queira saber mais sobre a árvore de decisão, pode checar a documentação da biblioteca Scikit-Learn, que possui a explicação aprofundada de como funciona e também da função implementada com o algoritmo:
- [Compreendendo a estrutura da árvore de decisão](https://scikit-learn.org/stable/auto_examples/tree/plot_unveil_tree_structure.html#sphx-glr-auto-examples-tree-plot-unveil-tree-structure-py)
- [DecisionTreeClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html)

## 8 - Como funciona o KNN
O modelo k-Nearest Neighbors (KNN) é um algoritmo de machine learning amplamente utilizado. É uma técnica simples, mas eficaz, que se baseia na ideia de que objetos semelhantes tendem a estar próximos uns dos outros em um espaço de características. Vamos explorar a seguir como o KNN funciona e como ele toma decisões de classificação.

### Funcionamento
O algoritmo KNN opera calculando a distância entre todos os elementos da base de dados para determinar a classificação de um registro, que é realizado ao checar as classes dos elementos que estão mais próximos.

Nessa dinâmica, a primeira etapa segue em definir um valor de 'k', que é a quantidade de vizinhos mais próximos a serem considerados no momento de fazer a classificação. A escolha desse valor é importante e afeta o desempenho do modelo. Em seguida, é calculada a distância entre todos os elementos e são armazenados os resultados dessas distâncias.

Por fim, para classificar cada elemento, são selecionados os 'k' elementos mais próximos a ele e é feita uma votação. A votação consiste em selecionar a classe que aparece com mais frequência nesses vizinhos mais próximos.

A normalização dos dados é essencial para esse algoritmo, porque ele se baseia em cálculos de distância. Além disso, é um algoritmo que demanda muito computacionalmente quando há muitos dados, uma vez que ele precisa calcular as distâncias entre todos os elementos de treinamento.

## 9 - Pickle
Depois de criar os modelos de machine learning, comparar os resultados e selecionar aquele que obteve o melhor desempenho, é o momento de utilizar o modelo para classificar novos dados do mundo real, que é desde o princípio o objetivo real do projeto. Acontece que o modelo geralmente é construído em um notebook e o ambiente em que vai ser utilizado o modelo é diferente, em algum aplicativo, site ou sistema.

Para poder utilizar o modelo, é necessário exportá-lo, e é nesse momento que entra em cena o [`pickle`](https://docs.python.org/3/library/pickle.html). O módulo `pickle` em Python é uma ferramenta poderosa e versátil que permite a serialização e desserialização de objetos Python. Esse processo de serialização envolve a conversão de objetos Python em uma representação binária que pode ser armazenada em um arquivo. Mais tarde, essa representação pode ser desserializada para recriar o objeto original.

Assim, é possível armazenar modelos de machine learning em arquivos pickle, para que possam ser utilizados em outros programas. Ele preserva completamente o estado do objeto, incluindo todos os parâmetros e configurações. Além disso, o formato binário gerado pelo `pickle` é independente da plataforma, o que significa que é possível criar um arquivo em um sistema operacional e carregá-lo em outro sem problema de compatibilidade. Vale destacar que em versões diferentes do Python isto pode ser um problema. Objetos serializados em uma versão específica podem não ser carregados corretamente em outra versão. Portanto, é muito importante saber qual a versão da linguagem e das bibliotecas utilizadas no projeto para que sejam replicadas dentro do sistema em que vai ser utilizado.

O processo para utilizar o `pickle` envolve principalmente duas funções:
- `pickle.dump(objeto, arquivo)`: Esta função permite armazenar um objeto Python em um arquivo. O argumento `objeto` é o objeto que você deseja serializar, e o argumento `arquivo` é o objeto de arquivo onde você deseja armazenar a representação binária.
- `pickle.load(arquivo)`: Esta função permite que você desserialize (carregue) um objeto Python de um arquivo. O argumento `arquivo` é o arquivo de onde você deseja carregar a representação binária.

Podemos usar também a biblioteca `pandas` para fazer a leitura de arquivos `pickle`. Para isso, basta utilizar o método [`pd.read_pickle`](https://pandas.pydata.org/docs/reference/api/pandas.read_pickle.html).