# Machine Learning e Data Science com Python de A à Z – Completo

Instrutor: **Jones Granatyr**

https://www.udemy.com/machine-learning-e-data-science-com-python-y/

---

# Parte 1 - Classificação

---

## Introdução

* Pré-processamento e preparação de bases de dados para classificação
* Aprendizagem bayesiana (algoritmo Naive Bayes)
* Aprendizagem por árvores de decisão (algoritmo básico de árvores e Random Forest)
* Aprendizagem por regras (algoritmo OneR)
* Aprendizagem baseada em instâncias (algoritmo kNN)
* Regressão logística
* Máquinas de vetores de suporte (SVM)
* Redes neurais artificiais
* Avaliação de algoritmos de classificação
* Combinação e rejeição de classificadores

---

## I - Pré-processamento com Pandas e Scikit-learn


### 1 - Indrodução ao módulo

* Bases de dados:
    * dados de crédito
    * censo


* Carregamento de bases de dados


* Valores inconsistentes


* Valores faltantes


* Escalonamento de atributos


* Transformação de variáveis categóricas


* Introdução à avaliação de algoritmos


* Base de dados de treinamento e base de dados de teste


* Recursos do Pandas: localizar, remover linhas e colunas, alterar valores, etc)

---

### 2 - Tipos de variáveis

* numéricas

    * contínuas
        * números reais (float): 2.7, 44.3
        * exemplos: temperatura, peso, altura, salário      
        
    * discretas
        * conjunto de valores finitos (inteiros)
        * exemplo: contagem de alguma coisa
    
    
* categóricas

    * nominal
        * dados não mensuráveis
        * sem ordenação
        * exemplos: cor dos olhos, gênero, ID, nome
    
    * ordinal
        * categorizado sob uma ordenação
        * ordenado
        * exemplo: tamanho P, M e G

---

### 3 - Base de dados de crédito

* ./data/credit-data.csv

In [9]:
import pandas as pd
credit_data = pd.read_csv('./data/credit-data.csv')

In [10]:
type(credit_data)

pandas.core.frame.DataFrame

In [11]:
credit_data

Unnamed: 0,clientid,income,age,loan,default
0,1,66155.925095,59.017015,8106.532131,0
1,2,34415.153966,48.117153,6564.745018,0
2,3,57317.170063,63.108049,8020.953296,0
3,4,42709.534201,45.751972,6103.642260,0
4,5,66952.688845,18.584336,8770.099235,1
5,6,24904.064140,57.471607,15.498598,0
6,7,48430.359613,26.809132,5722.581981,0
7,8,24500.141984,32.897548,2971.003310,1
8,9,40654.892537,55.496853,4755.825280,0
9,10,25075.872771,39.776378,1409.230371,0


In [12]:
credit_data.describe()

Unnamed: 0,clientid,income,age,loan,default
count,2000.0,2000.0,1997.0,2000.0,2000.0
mean,1000.5,45331.600018,40.807559,4444.369695,0.1415
std,577.494589,14326.327119,13.624469,3045.410024,0.348624
min,1.0,20014.48947,-52.42328,1.37763,0.0
25%,500.75,32796.459717,28.990415,1939.708847,0.0
50%,1000.5,45789.117313,41.317159,3974.719419,0.0
75%,1500.25,57791.281668,52.58704,6432.410625,0.0
max,2000.0,69995.685578,63.971796,13766.051239,1.0


---

### 4 - Tratamento de valores inconsistentes

* registros com idade negativa
* necessário corrigir

In [13]:
# selecionar os registros que possuem a idade negativa
credit_data.loc[credit_data['age'] < 0]

Unnamed: 0,clientid,income,age,loan,default
15,16,50501.726689,-28.218361,3977.287432,0
21,22,32197.620701,-52.42328,4244.057136,0
26,27,63287.038908,-36.496976,9595.286289,0


In [14]:
# Primeira técnica de tratamento dos valores inconsistentes: apagar a coluna dos dados inconsistentes
credit_data.drop('age', 1, inplace=True)

In [15]:
# Foi apagada a coluna age para todos os registros. Não é uma boa abordagem, porque perdemos a informação 
# por causa de apenas 3 registros inconsistentes
credit_data

Unnamed: 0,clientid,income,loan,default
0,1,66155.925095,8106.532131,0
1,2,34415.153966,6564.745018,0
2,3,57317.170063,8020.953296,0
3,4,42709.534201,6103.642260,0
4,5,66952.688845,8770.099235,1
5,6,24904.064140,15.498598,0
6,7,48430.359613,5722.581981,0
7,8,24500.141984,2971.003310,1
8,9,40654.892537,4755.825280,0
9,10,25075.872771,1409.230371,0


In [16]:
# Recarregar os dados para aplicar a segunda técnica de tratamento de dados inconsistentes:
credit_data = pd.read_csv('./data/credit-data.csv')

In [18]:
# Segunda técnica de tratamento dos valores inconsistentes: apagar somente os registros com problema
credit_data.drop(credit_data[credit_data.age < 0].index, inplace=True)

In [19]:
# Agora foram apagados apenas os 3 registros com problema. Também não é a melhor abordagem, pois os outros
# atributos dos registros removidos podem ser importantes.
credit_data

Unnamed: 0,clientid,income,age,loan,default
0,1,66155.925095,59.017015,8106.532131,0
1,2,34415.153966,48.117153,6564.745018,0
2,3,57317.170063,63.108049,8020.953296,0
3,4,42709.534201,45.751972,6103.642260,0
4,5,66952.688845,18.584336,8770.099235,1
5,6,24904.064140,57.471607,15.498598,0
6,7,48430.359613,26.809132,5722.581981,0
7,8,24500.141984,32.897548,2971.003310,1
8,9,40654.892537,55.496853,4755.825280,0
9,10,25075.872771,39.776378,1409.230371,0


In [20]:
# Terceira técnica de tratamento dos valores inconsistentes: preencher manualmente os valores inconsistentes
# Geralmente é inviável, pois podem ser muitos registros com problema, e não temos acesso ao valor correto 
# para preencher.

In [22]:
# Recarregar os dados para aplicar a quarta técnica de tratamento de dados inconsistentes:
credit_data = pd.read_csv('./data/credit-data.csv')

In [23]:
# Quarta técnica de tratamento dos valores inconsistentes: preencher os valores inconsistentes com a média 
# do atributo
credit_data.mean()

clientid     1000.500000
income      45331.600018
age            40.807559
loan         4444.369695
default         0.141500
dtype: float64

In [24]:
credit_data['age'].mean()

40.80755937840458

In [26]:
# esta média não está correta, pois foram utilizadas as 3 idades negativas
# corrigindo o cálculo:
age_mean = credit_data['age'][credit_data.age > 0].mean()
age_mean

40.92770044906149

In [27]:
# atualizando os registros com a idade inconsistente:
credit_data.loc[credit_data.age < 0, 'age'] = age_mean

In [28]:
credit_data

Unnamed: 0,clientid,income,age,loan,default
0,1,66155.925095,59.017015,8106.532131,0
1,2,34415.153966,48.117153,6564.745018,0
2,3,57317.170063,63.108049,8020.953296,0
3,4,42709.534201,45.751972,6103.642260,0
4,5,66952.688845,18.584336,8770.099235,1
5,6,24904.064140,57.471607,15.498598,0
6,7,48430.359613,26.809132,5722.581981,0
7,8,24500.141984,32.897548,2971.003310,1
8,9,40654.892537,55.496853,4755.825280,0
9,10,25075.872771,39.776378,1409.230371,0


---

### 5 - Tratamento de valores faltantes

In [45]:
# verificando se existem registros com idade nula
pd.isnull(credit_data['age'])

0       False
1       False
2       False
3       False
4       False
5       False
6       False
7       False
8       False
9       False
10      False
11      False
12      False
13      False
14      False
15      False
16      False
17      False
18      False
19      False
20      False
21      False
22      False
23      False
24      False
25      False
26      False
27      False
28       True
29      False
        ...  
1970    False
1971    False
1972    False
1973    False
1974    False
1975    False
1976    False
1977    False
1978    False
1979    False
1980    False
1981    False
1982    False
1983    False
1984    False
1985    False
1986    False
1987    False
1988    False
1989    False
1990    False
1991    False
1992    False
1993    False
1994    False
1995    False
1996    False
1997    False
1998    False
1999    False
Name: age, Length: 2000, dtype: bool

In [46]:
# selecionando os registros com idade nula
credit_data.loc[pd.isnull(credit_data['age'])]

Unnamed: 0,clientid,income,age,loan,default
28,29,59417.805406,,2082.625938,0
30,31,48528.852796,,6155.78467,0
31,32,23526.302555,,2862.010139,0


In [48]:
# dividindo a base de dados em atributos previsores e atributo classe
# o atributo clientid não será utilizado no algoritmo de aprendizado
predict_attrs = credit_data.iloc[:, 1:4].values
predict_attrs[25:35,]

array([[4.74516301e+04, 2.70317413e+01, 5.36128272e+03],
       [6.32870389e+04, 4.09277004e+01, 9.59528629e+03],
       [4.57274599e+04, 5.58399218e+01, 6.37682295e+03],
       [5.94178054e+04,            nan, 2.08262594e+03],
       [5.88428913e+04, 5.45109476e+01, 1.08711868e+04],
       [4.85288528e+04,            nan, 6.15578467e+03],
       [2.35263026e+04,            nan, 2.86201014e+03],
       [6.72529006e+04, 3.81319075e+01, 4.22130316e+03],
       [5.88868513e+04, 3.86615042e+01, 7.27155203e+03],
       [5.75849738e+04, 3.66720209e+01, 1.72842375e+03]])

In [49]:
class_attr = credit_data.iloc[:, 4].values
class_attr

array([0, 0, 0, ..., 1, 0, 0])

In [35]:
from sklearn.preprocessing import Imputer

help(Imputer)

Help on class Imputer in module sklearn.preprocessing.imputation:

class Imputer(sklearn.base.BaseEstimator, sklearn.base.TransformerMixin)
 |  Imputation transformer for completing missing values.
 |  
 |  Read more in the :ref:`User Guide <imputation>`.
 |  
 |  Parameters
 |  ----------
 |  missing_values : integer or "NaN", optional (default="NaN")
 |      The placeholder for the missing values. All occurrences of
 |      `missing_values` will be imputed. For missing values encoded as np.nan,
 |      use the string value "NaN".
 |  
 |  strategy : string, optional (default="mean")
 |      The imputation strategy.
 |  
 |      - If "mean", then replace missing values using the mean along
 |        the axis.
 |      - If "median", then replace missing values using the median along
 |        the axis.
 |      - If "most_frequent", then replace missing using the most frequent
 |        value along the axis.
 |  
 |  axis : integer, optional (default=0)
 |      The axis along which to i

In [56]:
# a classe sklearn.preprocessing.imputation.Imputer foi descontinuada
# então, vamos usar a nova classe SimpleImputer
from sklearn.impute import SimpleImputer
import numpy as np

In [60]:
# aplicar a transformação dos valores faltantes pela média do respectivo atributo
imputer = SimpleImputer(missing_values=np.nan, strategy='mean', copy=False)
imputer.fit(predict_attrs)
imputer.transform(predict_attrs)
predict_attrs[25:35,]

array([[4.74516301e+04, 2.70317413e+01, 5.36128272e+03],
       [6.32870389e+04, 4.09277004e+01, 9.59528629e+03],
       [4.57274599e+04, 5.58399218e+01, 6.37682295e+03],
       [5.94178054e+04, 4.09277004e+01, 2.08262594e+03],
       [5.88428913e+04, 5.45109476e+01, 1.08711868e+04],
       [4.85288528e+04, 4.09277004e+01, 6.15578467e+03],
       [2.35263026e+04, 4.09277004e+01, 2.86201014e+03],
       [6.72529006e+04, 3.81319075e+01, 4.22130316e+03],
       [5.88868513e+04, 3.86615042e+01, 7.27155203e+03],
       [5.75849738e+04, 3.66720209e+01, 1.72842375e+03]])

---

### 6 - Escalonamento de atributos

Colocar os valores dos atributos na mesma escala. Como mostrado no array anterior, os 3 atributos estão em escalas diferentes. É necessário fazer o escalonamento para que os algoritmos funcionem corretamente, principalmente se forem baseados em distância euclidiana (KNN por exemplo, vai considerar os valores maiores como mais importantes).

Mesmo se o algoritmo utilizado não for baseado em distância euclidiana, o escalonamento faz com que o algoritmo execute de forma mais rápida.

Duas formas de escalonamento:

* Padronização (standardisation): $x = \dfrac{x - mean(x)}{std(x)}$


* Normalização (normalization): $x = \dfrac{x - min(x)}{max(x) - min(x)}$

In [61]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
predict_attrs = scaler.fit_transform(predict_attrs)
predict_attrs

array([[ 1.45393393,  1.36538005,  1.20281942],
       [-0.76217555,  0.54265932,  0.69642695],
       [ 0.83682073,  1.67417101,  1.17471147],
       ...,
       [-0.07122592, -0.97448606,  0.35420081],
       [-0.11000289,  1.73936652, -0.92675625],
       [ 1.682986  ,  1.14917551,  0.96381038]])

---

### 7  - Base de dados do censo

UCI - Machine Learning Repository: http://archive.ics.uci.edu/ml/datasets.html

In [62]:
import pandas as pd

census_data = pd.read_csv('./data/census.csv')
census_data

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K
5,37,Private,284582,Masters,14,Married-civ-spouse,Exec-managerial,Wife,White,Female,0,0,40,United-States,<=50K
6,49,Private,160187,9th,5,Married-spouse-absent,Other-service,Not-in-family,Black,Female,0,0,16,Jamaica,<=50K
7,52,Self-emp-not-inc,209642,HS-grad,9,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,45,United-States,>50K
8,31,Private,45781,Masters,14,Never-married,Prof-specialty,Not-in-family,White,Female,14084,0,50,United-States,>50K
9,42,Private,159449,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,5178,0,40,United-States,>50K


**Tipos das variáveis dos atributos:**

* age: numérica, discreta
* workclass: categórica, nominal
* final-weight: numérica, contínua
* education: categórica, ordinal
* education-num: numérica, discreta
* marital-status: categórica, nominal
* occupation: categórica, nominal
* relationship: categórica, nominal
* race: categórica, nominal
* sex: categórica, nominal
* capital-gain: numérica, discreta
* capital-loos: numérica, discreta
* hour-per-week: numérica, discreta
* native-country: categórica, nominal


* income: é o atributo de classe

---

### 8 - Transformação de variáveis categóricas (I)

É necessário transformar os atributos com variáveis categóricas em variáveis numéricas, porque os algoritmos de aprendizagem de máquina trabalham com cálculos numéricos e equações.

In [63]:
census_predict_attrs = census_data.iloc[:, 0:14].values
census_predict_attrs

array([[39, ' State-gov', 77516, ..., 0, 40, ' United-States'],
       [50, ' Self-emp-not-inc', 83311, ..., 0, 13, ' United-States'],
       [38, ' Private', 215646, ..., 0, 40, ' United-States'],
       ...,
       [58, ' Private', 151910, ..., 0, 40, ' United-States'],
       [22, ' Private', 201490, ..., 0, 20, ' United-States'],
       [52, ' Self-emp-inc', 287927, ..., 0, 40, ' United-States']],
      dtype=object)

In [64]:
census_class_attr = census_data.iloc[:, 14].values
census_class_attr

array([' <=50K', ' <=50K', ' <=50K', ..., ' <=50K', ' <=50K', ' >50K'],
      dtype=object)

In [65]:
from sklearn.preprocessing import LabelEncoder
labelencoder_census_predict_attrs = LabelEncoder()

In [68]:
# exemplo de transformação do atributo workclass em variável numérica
workclass_labels = labelencoder_census_predict_attrs.fit_transform(census_predict_attrs[:,1])
workclass_labels

array([7, 6, 4, ..., 4, 4, 5])

In [70]:
census_predict_attrs[:, 1] = labelencoder_census_predict_attrs.fit_transform(census_predict_attrs[:,1])
census_predict_attrs[:, 3] = labelencoder_census_predict_attrs.fit_transform(census_predict_attrs[:,3])
census_predict_attrs[:, 5] = labelencoder_census_predict_attrs.fit_transform(census_predict_attrs[:,5])
census_predict_attrs[:, 6] = labelencoder_census_predict_attrs.fit_transform(census_predict_attrs[:,6])
census_predict_attrs[:, 7] = labelencoder_census_predict_attrs.fit_transform(census_predict_attrs[:,7])
census_predict_attrs[:, 8] = labelencoder_census_predict_attrs.fit_transform(census_predict_attrs[:,8])
census_predict_attrs[:, 9] = labelencoder_census_predict_attrs.fit_transform(census_predict_attrs[:,9])
census_predict_attrs[:, 13] = labelencoder_census_predict_attrs.fit_transform(census_predict_attrs[:,13])

census_predict_attrs

array([[39, 7, 77516, ..., 0, 40, 39],
       [50, 6, 83311, ..., 0, 13, 39],
       [38, 4, 215646, ..., 0, 40, 39],
       ...,
       [58, 4, 151910, ..., 0, 40, 39],
       [22, 4, 201490, ..., 0, 20, 39],
       [52, 5, 287927, ..., 0, 40, 39]], dtype=object)