<a href="https://colab.research.google.com/github/ricardopeloi/bootcamp-alura-data-science/blob/main/Intro_Machine_Learning_Tutorial_Filipe_Deschamps.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Tutorial de Machine Learning básico

Link para o tutorial do Guilherme Silveira (Alura) no canal do Filipe Deschamps

https://www.youtube.com/watch?v=JyGGMyR3x5I&list=WL&index=49

# Introdução ao conceito: cachorro ou porco?

Primeiro, vamos criar nossa "base de dados". Ela será composta principalmente por 2 itens:
1. "Features" ou características de algo
2. Classificação desse algo

No noss exemplo abaixo, a base de dados será composta por 6 animais, cada um com 3 características distintas, definidas por 0 e 1 (ausente ou presente). As 3 features são:
1. Pelo longo
2. Perna curta
3. Faz auau

Essas características serão colocadas em uma array chamada *treino_X*.

Já os dois tipos de animais serão cachorro ou porco. Sabemos quem é quem pela nossa outra array, aquela que contém a classificação, chamada de *treino_Y*.

In [101]:
#pelo longo, perna curta, faz auau
porco1 = [0, 1, 0]
porco2 = [0, 1, 1]
porco3 = [1, 1, 0]

cachorro1 = [0, 1, 1]
cachorro2 = [1, 0, 1]
cachorro3 = [1, 1, 1]

treino_X = [porco1, porco2, porco3, cachorro1, cachorro2, cachorro3]
treino_Y = [1, 1, 1, 0, 0, 0]

Repare que as letras X e Y não são ao acaso.

A lógica de modelagem no Machine Learning não difere em nada do conceito de função, que todos aprendemos na escola.

Uma função nada mais é do que um método que recebe determinadas instruções (valores de entrada, denominados *X*) e mapeia esta entrada em uma saída (*Y*), como naquela expressão conhecida:

$$f(x) = y$$

Agora que temos nossos dados, que indicam características e classificações para cada animal, vamos generalizar um modelo, para que possamos dar novos animais "misteriosos" e o modelo nos dirá se é um porco ou um cachorro.

Repare que até agora, chamamos *X* e *Y* de **treino**, pois é isso mesmo que faremos inicialmente: treinar o modelo com esses dados. Vamos torcer para que apenas 6 exemplos sejam suficientes para gerar um modelo assertivo!

In [102]:
from sklearn.svm import LinearSVC

modelo = LinearSVC()
modelo.fit(treino_X, treino_Y)

LinearSVC(C=1.0, class_weight=None, dual=True, fit_intercept=True,
          intercept_scaling=1, loss='squared_hinge', max_iter=1000,
          multi_class='ovr', penalty='l2', random_state=None, tol=0.0001,
          verbose=0)

Usamos o modelo de ML chamado [LinearSVC](https://scikit-learn.org/stable/modules/generated/sklearn.svm.LinearSVC.html), que nada é mais que um classificador. Ele servirá para pegar as features de um animal misterioso e classificá-lo em 0 ou 1 (cachorro ou porco).

Já fizemos o treinamento acima, com a chamada de modelo.fit e os nossos dados de *X* e *Y*.

Vamos agora dar um animal misterioso para o modelo treinado e ver o que o nosso modelo nos diz. Essa é a etapa de **testes**!

In [103]:
animal_misterioso = [1, 1, 1]
modelo.predict([animal_misterioso])

array([0])

Bom, ele previu que é um cachorro!

Muito bom, mas repare que o último indivíduo do nosso *X* de treino já era o mesmo que esse animal misterioso. Não é lá uma previsão muito complexa, pois o modelo poderia ter simplesmente decorado esse exemplo e acertaria de qualquer forma.

Vamos então dar outros exemplos de animais misteriosos. Nesse caso, já sabemos quais são os resultados corretos (as classificações), mas o modelo não. Ele receberá apenas os dados para teste (ou seja, *X de teste*) e nos devolverá um array do mesmo tamanho com a sua previsão (*previsoes*).

In [104]:
misterio1 = [1,1,1]
misterio2 = [1,1,0]
misterio3 = [0,1,1]

teste_X = [misterio1, misterio2, misterio3]
teste_Y = [0,1,1]

previsoes = modelo.predict(teste_X)
previsoes

array([0, 1, 0])

Legal, temos o resultado acima. Como são poucos dados, dá para comparar a previsao com *teste_Y* e perceber que ele acertou os 2 primeiros mas errou o ultimo.

Para facilitar a vida, o pacote que estamos usando, chamado *sklearn*, tem várias métricas e uma das mais simples é a **acurácia**, calculada basicamente como o número de acertos dividido pelo número total de previsões:

In [105]:
from sklearn.metrics import accuracy_score

accuracy_score(teste_Y, previsoes)

0.6666666666666666

# Agora um exemplo um pouco mais real

Para começar, queremos uma base de dados mais próxima da realidade, ainda que simples. No [tutorial que eu estava seguindo](https://www.youtube.com/watch?v=JyGGMyR3x5I&list=WL&index=49), não achei a base de dados, então vou ter que gerar a minha própria base.

Vou usar um gerador de números aleatórios, para uma amostra de 500 linhas, [seguindo este tutorial aqui da documentação do Numpy](https://docs.scipy.org/doc/numpy-1.15.0/reference/generated/numpy.random.RandomState.randint.html#numpy.random.RandomState.randint).


### Gerando a base de dados para nosso exemplo real

In [106]:
import numpy as np #Numpy: manipulador matemático e estatístico, para gerar os números aleatórios
import pandas as pd #Pandas: pacote para gerenciamento de bancos de dados

# nossas 4 colunas, que iniciarão como uma lista, mas serão depois unidas em um DataFrame do Pandas
home = []
how_it_works = []
contact = []
bought = []

np.random.seed(2163851) # fazemos isso para garantir replicabilidade, ou seja, sempre que chamarmos random, ele gerará os mesmos valores

# geramos 500 valores em cada coluna, com valores 0 ou 1
tamanho = 500
home = np.random.randint(2, size = tamanho)
how_it_works = np.random.randint(2, size = tamanho)
contact = np.random.randint(2, size = tamanho)
bought = np.random.randint(2, size = tamanho)

# usamos o Pandas para unir as 4 colunas e dar nomes a elas
dados = pd.DataFrame({"home": home, "how_it_works": how_it_works, "contact": contact, "bought": bought})

# vamos ver como ficou
dados.sample(5)

Unnamed: 0,home,how_it_works,contact,bought
37,0,1,0,1
96,0,1,1,0
404,1,0,0,0
204,0,1,1,1
310,1,0,0,1


## Treinando e prevendo com o novo modelo

De maneira semelhante ao que fizemos antes, vamos separar nossos dados em 4 partes:
1. Dados de treino sem classificação (Treino X);
2. Dados de treino com as classificações (Treino Y);
3. Dados de teste sem classificação, onde o modelo fará as previsões (Teste X);
4. Dados de teste classificados, assim podemos calcular a qualidade do modelo com alguma métrica (Teste Y).

Em conjunto a isso tudo, haverá um quinto conjunto de dados, gerado pelo modelo ao fazer as previsões.

O fluxo então será:
- Separar os dados nesses 4 tipos ([usando uma ferramenta do sklearn](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html));
- Treinar o modelo com Treino X e Treino Y;
- Fazer as previsões alimentando o modelo com Teste X, e recebendo de volta as previsões;
- Medir o sucesso disso com as previsões e Teste Y.


Começamos separando os dados nas 4 partes, como abaixo. Veja que a função quebra o número de linhas em uma proporção de 75/25, mas isso pode ser mudado como um dos parâmetros da função.

In [107]:
from sklearn.model_selection import train_test_split
#https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html

segundo_exemplo_X = dados[["home", "how_it_works", "contact"]]
segundo_exemplo_Y = dados[["bought"]]

X_train, X_test, y_train, y_test = train_test_split(segundo_exemplo_X, segundo_exemplo_Y)

In [108]:
len(X_train)

375

In [109]:
len(y_test)

125

Em seguida, vamos instanciar o modelo, treiná-lo e prever os resultados com o modelo.

Vamos também medir o resultado usando novamente o *accuracy_score*.

In [110]:
from sklearn.svm import LinearSVC

segundo_exemplo_modelo = LinearSVC()
segundo_exemplo_modelo.fit(X_train, y_train.values.ravel())
previsoes = segundo_exemplo_modelo.predict(X_test)

from sklearn.metrics import accuracy_score
accuracy_score(y_test, previsoes) * 100

51.2

Poxa, resultado é bem ruinzinho, né? Só acertamos 50% das vezes.

Como conhecemos os dados, talvez um alento seja o fato de que foram gerados aleatoriamente entre 0 e 1, célula a célula. Pensando assim, faz bastante sentido que o resultado seja algo com perfil de probabilidade em 50%/50%, certo?

# Agora um exemplo ainda mais realista: quem sobrevive no Titanic?

Neste caso aqui, temos uma [base de dados com passageiros do Titanic](https://public.opendatasoft.com/explore/dataset/titanic-passengers/export/), com informações sobre sua sobrevivência ou não no desastre, assim como o tipo de ticket (primeira, segunda ou terceira classe), sexo, idade, porto onde embarcou, se tinha familiares no navio, etc.

Nosso objetivo será o mesmo de cima, classificação dos passageiros, de acordo com as features.

A única diferença é que usaremos um outro modelo de ML, chamado de Árvore de Decisão.

In [111]:
# coloquei os dados no meu Github
dados_Titanic = pd.read_csv("https://raw.githubusercontent.com/ricardopeloi/bootcamp-alura-data-science/main/Titanic.csv", sep = ";")
dados_Titanic.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,431,Yes,1,"Bjornstrom-Steffansson, Mr. Mauritz Hakan",male,28.0,0,0,110564,26.55,C52,S
1,664,No,3,"Coleff, Mr. Peju",male,36.0,0,0,349210,7.4958,,S
2,44,Yes,2,"Laroche, Miss. Simonne Marie Anne Andree",female,3.0,1,2,SC/Paris 2123,41.5792,,C
3,347,Yes,2,"Smith, Miss. Marion Elsie",female,40.0,0,0,31418,13.0,,S
4,891,No,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


In [112]:
# vamos dar uma olhada nas colunas, para manter apenas o que faz sentido:
dados_Titanic_limpos = dados_Titanic.copy()

# primeiro substituímos Survived e Sex por 0 e 1, para converter as categorias em int
dados_Titanic_limpos["Survived"] = dados_Titanic["Survived"].replace({"Yes": 1, "No": 0})
dados_Titanic_limpos["Sex"] = dados_Titanic["Sex"].replace({"male": 1, "female": 0})

#Imagino que as seguintes variáveis não tenham influenciado na sobrevivência do passageiro (além de serem categóricas)
dados_Titanic_limpos = dados_Titanic_limpos.drop(["PassengerId", "Name", "Ticket", "Cabin", "Embarked"], axis = 1)

# A princípio, já estaria ok, mas ao rodar o modelo nas células abaixo, me parece que Age tem valores vazios (NaN)
# O modelo de ML não roda se tiver isso, então precisamos tratar esse problema, mas como?
# Há várias opções: eliminar linhas, colocar valores fictícios, etc
# No nosso caso, é um pouco estranho definir valores fictícios de idade para alguém.
# Aliás, pensando naquela máxima "Mulheres e crianças primeiro", eu imagino que idade seja crucial para a previsão
# Assim, decido que simplemente vou eliminar as linhas que tiverem isso
dados_Titanic_limpos = dados_Titanic_limpos.dropna()

dados_Titanic_limpos.head()

Unnamed: 0,Survived,Pclass,Sex,Age,SibSp,Parch,Fare
0,1,1,1,28.0,0,0,26.55
1,0,3,1,36.0,0,0,7.4958
2,1,2,0,3.0,1,2,41.5792
3,1,2,0,40.0,0,0,13.0
4,0,3,1,32.0,0,0,7.75


In [113]:
dados_Titanic_limpos.info() # Vemos que não temos NaN em mais nenhuma coluna

<class 'pandas.core.frame.DataFrame'>
Int64Index: 714 entries, 0 to 890
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Survived  714 non-null    int64  
 1   Pclass    714 non-null    int64  
 2   Sex       714 non-null    int64  
 3   Age       714 non-null    float64
 4   SibSp     714 non-null    int64  
 5   Parch     714 non-null    int64  
 6   Fare      714 non-null    float64
dtypes: float64(2), int64(5)
memory usage: 44.6 KB


In [114]:
x_titanic = dados_Titanic_limpos.drop("Survived", axis = 1)
y_titanic = dados_Titanic_limpos["Survived"]

from sklearn.model_selection import train_test_split
X_train_titanic, X_test_titanic, y_train_titanic, y_test_titanic = train_test_split(x_titanic, y_titanic)

In [115]:
from sklearn.tree import DecisionTreeClassifier

titanic_modelo = DecisionTreeClassifier()
titanic_modelo.fit(X_train_titanic, y_train_titanic.values.ravel())
previsoes_titanic = titanic_modelo.predict(X_test_titanic)

from sklearn.metrics import accuracy_score
accuracy_score(y_test_titanic, previsoes_titanic) * 100

74.30167597765363

Prontinho! Com base nos 714 passageiros que foram usados como entrada de dados para o modelo, criamos um modelo capaz de prever com cerca de 74% de assertividade se alguém sobrevive ou não no desastre do Titanic!

Esse modelo poderia ser melhorado de diversas formas:
- Testando diversos modelos para encontrar algum com melhor capacidade de assertividade (como um ensemble, ou conjunto, de árvores de previsão) ou que também possa utilizar dados categóricos de uma melhor maneira (ao invés de apenas remover da base);
- Melhorando o preparo de dados para evitar extrair linhas ou colunas;
- Verificando correlação entre as variáveis e eliminando isso caso necessário;
- Normalizando cada variável, a fim de que não tenha uma influência maior apenas por terem média/intervalo mais largo que as demais;
- Analisando outras métricas para entender melhor o comportamento do modelo e comparando com outros modelos.
