# Machine Learning

![alt text](https://databootcamp.nyc3.digitaloceanspaces.com/img/machineLearning.png)
### "Campo de estudo que dá aos computadores a habilidade de aprender sem serem explicitamente programados" - Arthur Samuel

## As categorias de ML
### Machine Learning não é uma técnica e sim um conjunto de técnicas

![alt text](https://databootcamp.nyc3.digitaloceanspaces.com/img/f3053485f518dd42bf0fc63bb5b23215.png)

### Os principais tipos de ML

- **Aprendizado supervisionado:** São apresentadas ao computador exemplos de entradas e saídas desejadas, fornecidas por um "professor". O objetivo é aprender uma regra geral que mapeia as entradas para as saídas.
- **Aprendizado não supervisionado:** Nenhum tipo de etiqueta é dado ao algoritmo de aprendizado, deixando-o sozinho para encontrar estrutura nas entradas fornecidas. O aprendizado não supervisionado pode ser um objetivo em si mesmo (descobrir novos padrões nos dados) ou um meio para atingir um fim.
- **Aprendizado por reforço:** Um programa de computador interage com um ambiente dinâmico, em que o programa deve desempenhar determinado objetivo (por exemplo, dirigir um veículo). É fornecido, ao programa, feedback quanto a premiações e punições, na medida em que é navegado o espaço do problema. Outro exemplo de aprendizado por reforço é aprender a jogar um determinado jogo apenas jogando contra um oponente.

## O que são Features?

Features ou, em português, características, são fatores utilizados para definir um atributo que tenha mais importância e significado. Nos caso dos DataFrames as colunas são as Features/Características, nem todas as colunas são úteis para melhorar o nosso modelo e saber selecionar e manipular as Features podem ajudar muito o seu modelo. Na criação de modelos de aprendizado supervisionado eles são normalmente chamados de `X`.


Saber manipular uma Features se tornou um ramo da ciência de dados, que chamamos de **Engenharia de Features**, ela consiste em elencar as características mais importantes dos dados e, dependendo do modelo utilizado, normalizar os valores contidos na base de dados. Caso queira mais conhecer sobre o tema recomendamos esse [vídeo do Gabriel Moreira](https://www.infoq.com/br/presentations/extraindo-o-potencial-maximo-dos-dados-para-modelos-preditivos/).


![alt text](https://miro.medium.com/max/1400/1*zO3ZKcgPFvw0Qvnf6Dwtow.png)


## Qual o objetivo do Titanic? Descobrir quem sobreviveu

Para isso vamos desenvolver tratar os nossos dados para ter a melhor predição possível. Nos modelos de aprendizado supervisionado normalmente chamamos o objetivo de `Y`, `label` ou `target`.

![](https://mlwave.com/beheer/wp-content/uploads/2014/02/titanic.jpg)

## Seleção e padronização de dados

Antes de começamos a ver modelos de Machine Learning, é uma boa prática selecionarmos e padronizarmos os dados que serão usados nos modelos. A maioria desses modelos de Machine Learning utiliza features numéricas para aplicarem funções matemáticas e fazerem comparações entre os dados.

Como já fizemos toda preparação dos dados vamos observar os dados e verificar o que ainda é necessário para deixar os dados preparados.

In [1]:
import pandas
titanic = pandas.read_csv("https://databootcamp.nyc3.digitaloceanspaces.com/titanic_3.csv")
titanic.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Relatives,AgeRange,AgeNotNull,AgeFillNaSexMean
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,1,adulto,22.0,22.0
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,1,adulto,38.0,38.0
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,0,adulto,26.0,26.0
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,1,adulto,35.0,35.0
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,0,adulto,35.0,35.0


Vamos ver quais dados ainda estão faltantes

In [2]:
titanic.isnull().sum()

PassengerId           0
Survived              0
Pclass                0
Name                  0
Sex                   0
Age                 177
SibSp                 0
Parch                 0
Ticket                0
Fare                  0
Cabin               687
Embarked              2
Relatives             0
AgeRange              0
AgeNotNull          177
AgeFillNaSexMean      0
dtype: int64

## <font color='blue'>Somente olhando os dados, selecione quais seriam boas features para manter independente do que você queira prever?</font>
![alt text](https://databootcamp.nyc3.digitaloceanspaces.com/img/atrasada-relogio-pulso-1116-1400x800.jpg)

In [14]:
#solução
titanic_features = titanic
titanic_features.head()

titanic_features = titanic_features[["Pclass", "Sex", "AgeRange", "Relatives"]]

# Pclass, Sex, AgeRange, Relatives

Vimos que temos algumas features não numéricas e isso pode ser um problema para vários modelos de Machine Learning. Precisamos saber converter essas Features categóricas em numéricas

### One Hot Encoding

Com essa técnica transformamos tudo que é categórico em numérico, permitindo que os modelos consigam entender cada valor categórico como uma nova feature.

![encoding](https://databootcamp.nyc3.digitaloceanspaces.com/img/encoding.png)

Existem várias técnicas de encoding de features, mas essa é mais comum e já fornecida pelo Pandas. Vamos ver como é feito isso para a coluna **Sex**

In [15]:
gender = pandas.get_dummies(titanic_features['Sex'])
gender.head()

Unnamed: 0,female,male
0,0,1
1,1,0
2,1,0
3,1,0
4,0,1


No caso como é uma variável binária, podemos ignorar a segunda feature

In [20]:
gender = pandas.get_dummies(titanic_features['Sex'], drop_first=True)
gender.head()

Unnamed: 0,male
0,1
1,0
2,0
3,0
4,1


Agora devemos juntar esse resultado nas features e remover o antigo

In [21]:
titanic_features_no_sex = pandas.concat([titanic_features, gender], axis=1).drop("Sex", axis=1)
titanic_features_no_sex.head()

Unnamed: 0,Pclass,AgeRange,Relatives,male
0,3,adulto,1,1
1,1,adulto,1,0
2,3,adulto,0,0
3,1,adulto,1,0
4,3,adulto,0,1


## <font color='blue'>Façam para as outras features categóricas</font>
![alt text](https://databootcamp.nyc3.digitaloceanspaces.com/img/atrasada-relogio-pulso-1116-1400x800.jpg)

In [30]:
#solução
import numpy
titanic_not_categorical = titanic_features.select_dtypes(numpy.number)
titanic_not_categorical.head()

AgeRange = pandas.get_dummies(titanic_features['AgeRange'])
AgeRange.head()
titanic_features_no_AgeRange = pandas.concat([titanic_features, AgeRange], axis=1).drop("AgeRange", axis=1)
titanic_features_no_AgeRange.head()


Unnamed: 0,Pclass,Sex,Relatives,adolescente,adulto,criança,idoso,nada
0,3,male,1,0,1,0,0,0
1,1,female,1,0,1,0,0,0
2,3,female,0,0,1,0,0,0
3,1,female,1,0,1,0,0,0
4,3,male,0,0,1,0,0,0


Pronto! Agora temos todas as nossas features numéricas, mas esses números precisam ser normalizados para que alguns algoritmos funcionem bem no quando formos usar o **Scikit-Learn (Sklearn)**

### Scaler

Os *Scalers* padronizam ou normalizam as features numéricas para que os algoritmos entendam que as features possuem unidades comparativas iguais. Imaginem se um algoritmo queira entender que a diferença de idade entre 80 e 22 anos tenha mais relevância que o Pclass entre 3 e 1. Para evitar esse tipo de problema, podemos usar o Standard Scaler.

#### Não vamos confundir Padronizacão com Normalização!

![standard_normalize](https://databootcamp.nyc3.digitaloceanspaces.com/img/standard_vs_normalize.jpg)
Por conta dessa conta o resultado da normalização fica muito mais juntinho e difícil de interpretar do que da padronização.
![standard_normalize_example](https://databootcamp.nyc3.digitaloceanspaces.com/img/sdtvsnorm.png)

In [31]:
from sklearn.preprocessing import StandardScaler

As funções do **Sklearn** retornam arrays do **Numpy**

In [32]:
scaler = StandardScaler()
scaled_data = scaler.fit_transform(titanic_not_categorical)
scaled_data

array([[ 0.82737724,  0.05915988],
       [-1.56610693,  0.05915988],
       [ 0.82737724, -0.56097483],
       ...,
       [ 0.82737724,  1.29942929],
       [-1.56610693, -0.56097483],
       [ 0.82737724, -0.56097483]])

In [33]:
scaled_data.shape

(891, 2)

Como não conseguimos mais trabalhar com os dados como DataFrame vamos voltar a fazer isso quando estivermos utilizando Machine Learning com o Titanic!