# Machine Learning

![alt text](https://databootcamp.nyc3.digitaloceanspaces.com/img/machineLearning.png)
### "Campo de estudo que dá aos computadores a habilidade de aprender sem serem explicitamente programados" - Arthur Samuel

## As categorias de ML
### Machine Learning não é uma técnica e sim um conjunto de técnicas

![alt text](https://databootcamp.nyc3.digitaloceanspaces.com/img/f3053485f518dd42bf0fc63bb5b23215.png)

### Os principais tipos de ML

- **Aprendizado supervisionado:** São apresentadas ao computador exemplos de entradas e saídas desejadas, fornecidas por um "professor". O objetivo é aprender uma regra geral que mapeia as entradas para as saídas.
- **Aprendizado não supervisionado:** Nenhum tipo de etiqueta é dado ao algoritmo de aprendizado, deixando-o sozinho para encontrar estrutura nas entradas fornecidas. O aprendizado não supervisionado pode ser um objetivo em si mesmo (descobrir novos padrões nos dados) ou um meio para atingir um fim.
- **Aprendizado por reforço:** Um programa de computador interage com um ambiente dinâmico, em que o programa deve desempenhar determinado objetivo (por exemplo, dirigir um veículo). É fornecido, ao programa, feedback quanto a premiações e punições, na medida em que é navegado o espaço do problema. Outro exemplo de aprendizado por reforço é aprender a jogar um determinado jogo apenas jogando contra um oponente.

## O que são Features?

Features ou, em português, características, são fatores utilizados para definir um atributo que tenha mais importância e significado. Nos caso dos DataFrames as colunas são as Features/Características, nem todas as colunas são úteis para melhorar o nosso modelo e saber selecionar e manipular as Features podem ajudar muito o seu modelo. Na criação de modelos de aprendizado supervisionado eles são normalmente chamados de `X`.


Saber manipular uma Features se tornou um ramo da ciência de dados, que chamamos de **Engenharia de Features**, ela consiste em elencar as características mais importantes dos dados e, dependendo do modelo utilizado, normalizar os valores contidos na base de dados. Caso queira mais conhecer sobre o tema recomendamos esse [vídeo do Gabriel Moreira](https://www.infoq.com/br/presentations/extraindo-o-potencial-maximo-dos-dados-para-modelos-preditivos/).


![alt text](https://miro.medium.com/max/1400/1*zO3ZKcgPFvw0Qvnf6Dwtow.png)


## Qual o objetivo do Titanic? Descobrir quem sobreviveu

Para isso vamos desenvolver tratar os nossos dados para ter a melhor predição possível. Nos modelos de aprendizado supervisionado normalmente chamamos o objetivo de `Y`, `label` ou `target`.

![](https://mlwave.com/beheer/wp-content/uploads/2014/02/titanic.jpg)

## Seleção e padronização de dados

Antes de começamos a ver modelos de Machine Learning, é uma boa prática selecionarmos e padronizarmos os dados que serão usados nos modelos. A maioria desses modelos de Machine Learning utiliza features numéricas para aplicarem funções matemáticas e fazerem comparações entre os dados.

Como já fizemos toda preparação dos dados vamos observar os dados e verificar o que ainda é necessário para deixar os dados preparados.

In [None]:
import pandas
titanic = pandas.read_csv("https://databootcamp.nyc3.digitaloceanspaces.com/titanic_3.csv")
titanic.head()

Vamos ver quais dados ainda estão faltantes

In [None]:
titanic.isnull().sum()

## <font color='blue'>Somente olhando os dados, selecione quais seriam boas features para manter independente do que você queira prever?</font>
![alt text](https://databootcamp.nyc3.digitaloceanspaces.com/img/atrasada-relogio-pulso-1116-1400x800.jpg)

In [None]:
#solução
titanic_features = titanic
titanic_features.head()

Vimos que temos algumas features não numéricas e isso pode ser um problema para vários modelos de Machine Learning. Precisamos saber converter essas Features categóricas em numéricas

### One Hot Encoding

Com essa técnica transformamos tudo que é categórico em numérico, permitindo que os modelos consigam entender cada valor categórico como uma nova feature.

![encoding](https://databootcamp.nyc3.digitaloceanspaces.com/img/encoding.png)

Existem várias técnicas de encoding de features, mas essa é mais comum e já fornecida pelo Pandas. Vamos ver como é feito isso para a coluna **Sex**

In [None]:
gender = pandas.get_dummies(titanic_features['Sex'])
gender.head()

No caso como é uma variável binária, podemos ignorar a segunda feature

In [None]:
gender = pandas.get_dummies(titanic_features['Sex'], drop_first=True)
gender.head()

Agora devemos juntar esse resultado nas features e remover o antigo

In [None]:
titanic_features_no_sex = pandas.concat([titanic_features, gender], axis=1).drop("Sex", axis=1)
titanic_features_no_sex.head()

## <font color='blue'>Façam para as outras features categóricas</font>
![alt text](https://databootcamp.nyc3.digitaloceanspaces.com/img/atrasada-relogio-pulso-1116-1400x800.jpg)

In [None]:
#solução
import numpy
titanic_not_categorical = titanic_features.select_dtypes(numpy.number)
titanic_not_categorical.head()

Pronto! Agora temos todas as nossas features numéricas, mas esses números precisam ser normalizados para que alguns algoritmos funcionem bem no quando formos usar o **Scikit-Learn (Sklearn)**

### Scaler

Os *Scalers* padronizam ou normalizam as features numéricas para que os algoritmos entendam que as features possuem unidades comparativas iguais. Imaginem se um algoritmo queira entender que a diferença de idade entre 80 e 22 anos tenha mais relevância que o Pclass entre 3 e 1. Para evitar esse tipo de problema, podemos usar o Standard Scaler.

#### Não vamos confundir Padronizacão com Normalização!

![standard_normalize](https://databootcamp.nyc3.digitaloceanspaces.com/img/standard_vs_normalize.jpg)
Por conta dessa conta o resultado da normalização fica muito mais juntinho e difícil de interpretar do que da padronização.
![standard_normalize_example](https://databootcamp.nyc3.digitaloceanspaces.com/img/sdtvsnorm.png)

In [None]:
from sklearn.preprocessing import StandardScaler

As funções do **Sklearn** retornam arrays do **Numpy**

In [None]:
scaler = StandardScaler()
scaled_data = scaler.fit_transform(titanic_not_categorical)
scaled_data

In [None]:
scaled_data.shape

Como não conseguimos mais trabalhar com os dados como DataFrame vamos voltar a fazer isso quando estivermos utilizando Machine Learning com o Titanic!