## Machine Learning

#### Machine Learning e IA

Machine Learning é uma subcategoria da área de Inteligência Artificial. É fundamental entender que a relação de Machine Learning para Inteligência Artificial é **hierárquica**.

Aqui está uma relação de como funciona este processo com algumas outras áreas para uma melhor compreensão:

    > Ciência da computação
        > Inteligência Artificial
          > Machine Learning 
          > NLP
          > Computação Cognitiva
          > Robótica
          
          
        > Desenvolvimento de Software
          > Desenvolvimento Web
              > Desenvolvimento Backend
              > Desenvolvimento Frontend
          > Testes

        > Hardware
            > Manutenção de componentes
            
** <i>É interessante compreender que o Machine Learning não aborda todos os aspectos da área de Inteligência Artificial. Utilizemos o famoso ChatGPT como exemplo: a engenharia por trás deste projeto não está limitada ao Machine Learning; existem outras subáreas dentro da IA que foram implementadas para sua construção.</i>

#### O que é Machine Learning?

Em resumo, Machine Learning é a área da inteligência artificial dedicada a ensinar computadores por meio de dados. Na prática, um profissional desta área, geralmente chamado de Cientista de Dados, constrói os chamados modelos, que recebem um conjunto de dados e, através de um processo de treinamento, aprendem padrões e relações. Após o treinamento, o modelo é capaz de fornecer resultados para um conjunto de dados nunca antes visto. Existem exemplos classicos de como isso funciona na prática, seja para calcular o preço de alguma casa com base nas suas caracteristicas, ou determinarmos se uma foto é de um cachorro ou gato e etc... Mas vamos ver um exemplo razoavelmente diferente abaixo:

**Imagine que você trabalha como cientista de dados em uma agência que foi contratada para identificar potenciais clientes interessados em comprar ingressos para um show de rock. O contratante pretende disparar conteúdos patrocinados para estas pessoas**


E agora, o que fazer? 

Bom, já entendemos que no Machine Learning nós ensinamos nossas máquinas através de dados, então cabe a nós coletarmos esses dados. 

(estamos pulando algumas etapas que muitos textos educativos usam, mas vamos explicar todos os processos ao decorrer do texto)

Antes de coletarmos os dados, é importante ressaltar para que eles servem: estamos procurando identificar potenciais clientes para a compra de ingressos para um show de rock. Para mapear um potencial cliente, precisamos primeiro entender o que caracteriza um potencial cliente. Podemos analisar o histórico de clientes que foram a outros shows desta banda. Vamos ver nas células abaixo o processo:

##### Obtendo dados para o treinamento do modelo

Neste exemplo vamos partir do principio que conseguimos obter esses dados através de uma integração com um serviço digital. Este serviço disparou e-mail para uma base de clientes no mês passado para vender ingressos do show desta mesma banda que foi realizado em outra cidade, abaixo estão os dados destes clientes e uma coluna que representa se o cliente comprou ou não o ingresso:

In [6]:
import pandas as pd

dataset = pd.read_csv('./show-clients.csv')

display(dataset)

# Breve explicação do código:

# Na primeira linha estamos inportando o [Pandas](https://pandas.pydata.org/), é uma biblioteca muito famosa feita para manipular/ visualizar dados de  diferentes formatos: csv, xlsx, json e até tabelas SQL. 

# Na segunda linha estamos basicamente fazendo a leitrua do nossos dados que estão em formato CSV.

# Na terceira linha estamos visualizando nosso arquivo em um formato de tabela.

Unnamed: 0,name,email,yearBirth,gender,totalDaysFollowingPage,totalLikePage,wentToShow
0,Carlos Eduardo Barros,carlos_eduardo_barros@exemplo.com,1981,0,4071,834,0
1,Mariana Clara da Luz,mariana_clara_luz@exemplo.com,2003,1,577,81,0
2,Roberta Filipe Drumond,roberto_filipe@exemplo.com,1978,1,2940,381,1
3,Lívia Bianca Porto,livia_bianca_porto@exemplo.com,1998,1,877,658,1
4,Thiago Henrique de Paula,thiago_henrique_paula@exemplo.com,1979,0,1443,191,0
5,Fernanda Isabela Galvão,fernanda_isabela@exemplo.com,1995,1,2093,102,0
6,Marcos Vinicius Lima,marcos_vinicius@exemplo.com,1974,0,1202,230,1
7,Juliana Marta Teixeira,juliana_marta@exemplo.com,1985,1,1853,197,1
8,Lucas Gabriel Moura,lucas_gabriel@exemplo.com,1991,0,1071,221,1
9,Camila Rafaela Pires,camila_rafaela@exemplo.com,1983,1,448,71,0


Explicação das colunas do nosso dataset:

| Coluna                  | Descrição |
| ----------------------- | ------------------------------------------------------------------------------------------ |
| name                    | Armazenará o nome do cliente que recebeu o e-mail.                                         |
| email                   | E-mail do cliente.                                                                         |
| yearBirth               | Ano de nascimento do cliente.                                                              |
| gender                  | Gênero do(a) cliente (0 se for homem e 1 se for mulher).                                                                      |
| totalDaysFollowingPage  | Total de dias que o cliente segue a página da banda nas redes sociais.                     |
| totalLikePage           | Total de curtidas que o cliente fez nas publicações da página na banda nas redes sociais.  |
| wentToShow              | Se o cliente foi ou não no show (0 se não foi e 1 se foi).                                  |


##### Deixando a base no esquema pro treinamento do nosso modelo

O objetivo aqui é explicar o Machine Learning de maneira abrangente e objetiva. Porém, é importante destacar que, no cotidiano de um cientista de dados, os dados raramente chegam prontos para o treinamento. Precisamos aplicar diversas técnicas para preparar os dados adequadamente. Usando o exemplo da nossa base de dados, devemos nos perguntar:

*O que é realmente importante incluir no nosso modelo para que ele identifique padrões e determine se uma pessoa comprará ou não o ingresso?*

Embora existam técnicas para determinar quais colunas são relevantes para o treinamento do modelo, é útil também entender a semântica do contexto desses dados. Por exemplo:


    "Carlos Eduardo Barros não foi ao show porque o nome dele começa com C."
    
    "Lívia Bianca Porto foi ao show porque seu nome começa apenas com consoantes."

Peço desculpas pelo péssimo exemplo, mas a ideia é entender que, para o nosso modelo, algumas colunas são irrelevantes. O nome da pessoa, por exemplo, não importa para o treinamento, assim como o e-mail (embora possamos supor que o provedor tenha alguma relação com a ausência no show, não vamos considerar isso). Em resumo, **utilize dados que realmente façam sentido para o treinamento do modelo**. Digo isso porque, mais adiante, veremos que **quanto maior o número de informações usadas no treinamento do modelo, mais preciso ele será, desde que esses dados sejam corretos e relevantes.** Utilize de técnicas + bom senso para selecionar os dados que você irá utilizar.


Os dados que vamos escolher serão: 


| Coluna                  | Descrição |
| ----------------------- | ------------------------------------------------------------------------------------------ |
| yearBirth               | Faz sentido eu considerar a idade, dado que a banda pode ser mais popular em um público mais novo ou mais velho.                                                              |
| gender                  | Faz sentido eu considerar o gênero, dado que a banda pode ser mais popular com mulheres ou homens.                                                                     |
| totalDaysFollowingPage  | Vamos considerar que o  total de dias que a pessoa segue a página é um indicador razoável para isso convenhamos que no mundo real isso não é um nenhum exagero, mas também não é muito determiante.                    |
| totalLikePage           | Total de curtidas que o cliente fez nas publicações segue a mesma regra de `totalDaysFollowingPage`.  |

In [16]:
features = ["yearBirth", "gender", "totalDaysFollowingPage", "totalLikePage"]

X = dataset[features]
y = dataset["wentToShow"]

# Na primeira linha, definimos as features, ou seja, as colunas importantes para o 
#treinamento do modelo.

# Na segunda linha, selecionamos apenas os valores úteis para o treinamento, armazenando-os 
#na variável X. Essas são as colunas relevantes da nossa base de dados.

# Na terceira linha, armazenamos na variável y os dados da coluna 'wentToShow', que indica 
#se a pessoa foi ao show ou não. Esta coluna, conhecida como 'target column' (coluna alvo), é 
#essencial em modelos de machine learning supervisionados, pois contém as classes: 1 para os que 
#foram ao show e 0 para os que não foram.

# Vale mencionar que X e Y são nomes comuns na ciência de dados para representar as features e 
#a variável alvo, respectivamente.

##### Vamos treinar o modelo

In [17]:
from sklearn.tree import DecisionTreeClassifier

model = DecisionTreeClassifier(random_state=1910)

model.fit(X, y)

# Na primeira linha, importamos o modelo DecisionTreeClassifier da biblioteca sklearn.
#sklearn é uma biblioteca de código aberto para trabalhar com Machine Learning e DecisionTreeClassifier
#é o modelo que decidimos utilizar aqui o sklearn tem diversos modelos e decidir o mais adequado é
#uma decisão que exige uma maior atenção, por hora com poucos dados podemos utilizar o       
#DecisionTreeClassifier sem problemas.

# Na segunda linha, estamso instanciando a classe do DecisionTreeClassifier e passamos o random_state
#no construtor da classe, isso serve para garantir que o resultado do modelo será sempre o mesmo
#(isso é útil para que consigamos reproduzir cenários).

# Na terceira linha, estamos utilizando a função .fit da classe DecisionTreeClassifier para treinar 
#nosso modelo, passamos aqui a coluna X que tem nossas features e a coluna Y que tem nossas classes
#por debaixo dos panos o DecisionTreeClassifier vai entender o DecisionTreeRegressor "padrão" entre as features de uma mesma
#classe e então será capaz de determinar a qual classe pertence um novo conjunto de dados.         

##### Nosso modelo está treinado vamos ver a eficiência dele

In [12]:
from sklearn.metrics import accuracy_score

predictions = model.predict(X)

# A função predict pode ser traduzida como "Modelo agora que você treinou, me diga então qual classe
#dessas features aqui?", e ai passamos o X que é onde armazenamos nossos conjuntos de dados depois
#armazenamos o resultado das predições do nosso modelo na variável predictions.

# Abaixo vamos utilizar a função accuracy_score que calcula a acurácia do modelo - Considere acurácia
#uma palavra chique para "Seu modelo acertou N% dos valores que passamos pra ele testar" acurácia é o N.

accuracy = accuracy_score(y, predictions) * 100
print("A acurácia foi de {:.2f}%.".format(accuracy))

A acurácia foi de 100.00%.


Nosso modelo retornou todas as classes corretamente, mas isso não é tão animador quanto parece. Utilizamos os dados de teste para fazer as validações, o que não é uma boa prática. É como ensinar alguém a atravessar a rua, voltar à calçada inicial e pedir "Mostre-me como se faz agora". Pode até ser razoável ficar otimista se a pessoa ou o modelo respondem corretamente ao que acabamos de ensinar, mas na prática, tanto a pessoa quanto o modelo precisam estar aptos para enfrentar novas situações e novos dados, respectivamente.

Para sabermos se de fato nosso modelo está eficiente existem técnicas de validação, vamos ver sobre isso 👇.

##### Separando os dados de Treinamento dos dados de Validação

Vamos deixar nosso exemplo um pouco mais realista, agora vamos utilizar uma base com um pouco mais de informações e vamos fragmentar essa base, a ideia aqui é: 

<b><i>Separar nossos dados em treinamento e validação, para que os dados de validação sejam "inéditos" para o modelo e sua resposta não seja uma "mera reprodução" daquilo que ele acabou de ver.</i></b>

Não existe "bala de prata" para este processo, nós poderíamos ter diferentes bases uma só pra treino e outra somente para validação, ou utilizar uma mesma base e separar um percentual dos dados para treinamento outros para validação. A comunidade de cientistas costuma separar de 70% a 80% dos dados de uma base para treinamento e os demais para validação (quando trabalham com uma única base).
    

In [13]:
from sklearn.model_selection import train_test_split


dataset_prd = pd.read_csv('./show-clients-completed-base.csv')

X_prd = dataset_prd[features]
y_prd = dataset_prd["wentToShow"]

X_train, X_test, y_train, y_test = train_test_split(
    X_prd,
    y_prd,
    test_size = 0.25,
    random_state=1977 # mude este valor e execute novamente a célula para ver novos índices de acurácia
)

# Já sabemos o conceito de X e Y aqui, o que a função do sklearn está fazendo é separando nossos
#dados em treino e validação, repare que estamos passando "test_size=0.25", isso significa que 25%
#dos nossos dados seram utilizados para validação. 

# (E mais uma vez o random_state para garantir que nossos resultados não serão alterados).





# Então agora os papéis das nossas variáveis são: 

# X_train armazena 75% dos nossos dados com as features que serão utilizadas para o treinamento.
# X_test  armazena os outros 25% dos nossos dados com as features que serão utilizadas para a validação.


# y_train armazena 75% dos nossos dados com as classes de X_train.
# y_test  armazena os outros 25% dos nossos dados com as classes que serão utilizadas para a validação.

# Lembrando X_test e y_test serão utilizados apenas na etapa de validação serão dados inéditos para
#o nosso modelo


print('O dataset de treino possui {} clientes e o de  treino {} clientes.'.format(X_train.shape[0], X_test.shape[0]))

O dataset de treino possui 27 clientes e o de  treino 10 clientes.


In [15]:
# Verificando a eficiência do nosso modelo com os dados de validação

predictions = model.predict(X_test)
accuracy = accuracy_score(y_test, predictions) * 100
print ("Acurácia: {:.2f}%.".format(accuracy))

Acurácia: 70.00%.


É interessante ver o resultado acima e entender que na verdade tivemos uma melhora no nosso processo de validação, acontece que modelos com altíssimos índices de acerto tendem a ser suspeitos isso é constamente ressaltado pela comunidade de ciência de dados, é muito provável que um modelo com 100% de acurácia tenha resultados decepcionantes em produção, isso ocorre por que o processo de treinamento e/ou validação não foi feito da maneira correta e consequentemente nosso modelo não está pronto para predições de valores nunca vistos por ele antes. 

A acurácia acima de 70% nos dá uma número mais coerente com o cenário real, É como se nosso modelo fosse capaz de identificar com 70% de assertividade de que um cliente compraria ou não o ingresso para um show e isso é um número razoável/bom tanto da perspectiva do negócio como da perspectiva de machine learning.

Mas é interessante ressaltarmos, <i>**a acurácia não pode ser (e na grande maioria dos casos não é) um fator determinante para determinar a eficiência de um modelo**</i> Existem outros métodos de validação um pouco mais precisos como a [validação cruzada](https://docs.aws.amazon.com/pt_br/machine-learning/latest/dg/cross-validation.html) que são mais indicados para garantir a eficácia de alguns modelos (poderia ser aplicado neste caso inclusive), na prática nossos dados de treinamento são dividios em subconjuntos e em cada um destes subconjuntos separamos parte para treino e parte para validação e repetimos depois calculamos a média da acurácia para cada subconjunto.

Enfim, para fins didáticos e de introdução o modelo acima somado a algumas explicações deixam o processo de Machine Learning menos nebuloso (pelo menos é a ideia deste autor), espero que tenha ajudado em algo, abaixo seguem alguns pontos relevantes.

Abraços!!!

#### Alguns pontos importantes:

    - O exemplo acima considera apenas o modelo de classificação, existe o modelo de regressão também, basicamente utilizamos o modelo de classificação quando desejamos obter a **classe** de um conjunto de features e utilizamos o modelo de regressão quando desejamos obter algum "valor** de um conjunto de features. Exemplo:
    
        Desejo saber se determinada foto é de um humano ou não - Classificação (classe é humano - classe não é humano).
        
        Desejo saber se uma mulher está grávida - Classificação (classe está grávida - classe não está grávida).

        Desejo prever o placar de um jogo e fazer uma apostinha (hahaha) - Regressão (Desejo saber um valor)

        Desejo prever o próximo campeão brasileiro (me ajuda Corinthians) - Regressão (O valor que desejo obter não é uma classe) 

    - Acurácia mesmo utilizado com dados de validação não é necessariamente a forma mais eficiente de validar se um modelo é bom ou não, alguns cientistas não recomendam o uso da acurácia em bases desbalanceadas (bases desbalanceadas = Base onde tenho muitos dados de uma classe e poucos dados de outra (s) ).

</br>

#### Resumindo alguns nomes técnicos que a galera gourmet gosta de usar:

    features = Conjunto de colunas da nossa base que julgamos serem importantes para o treinamento do modelo.

    eixo X = Agrupa as features (sim, só isso). 

    eixo Y = Coluna alvo, a coluna que vai armazenas as variações da classe que nosso modelo precisa entender o padrão para julgar se um conjunto de dados pertence ou não a ela.

</br>

#### Links de canais que abordam o assunto:

[Let's Data](https://www.youtube.com/@letsdataAI) </br>

[Canal do Mario Filho](https://www.youtube.com/@MarioFilhoML) </br>

[Inteligência Mil Grau](https://www.youtube.com/c/Intelig%C3%AAnciaMilGrau) <i>(este não aborda tanto conteúdo de código - tem uma proposta mais conceitual).</i> </br>

[Andrew NG](https://www.linkedin.com/in/andrewyng/) <i>Um profissional bastante conceituado na área - tem um curso na coursera muito recomenda pela comunidade de ciência de dados.</i>