# **Machine Learning Nanodegree**

## **Projeto Final**

## **Análise Preditiva de Cota para Exercício Parlamentar. (CEAP)**

## ** PARTE 3 - Predição de Dados**

***

#### ** Introdução **

Realizaremos uma análise preditiva dos gastos para o ano de 2018 utilizando-se de algoritmo de aprendizado supervisionado. Abaixo está ilustrado quais análise serão realizadas.

É importante ressaltar que um deputado, salvo reeleição, terá registro de apenas quatros anos de despezas da CEAP. O que acaba sendo relativamente poucos dados os três primeiros anos para previsão dos gastos do último ano do mandato. Esta característica do dataset pode causar overfitting e ter impactos negativos com outliers.

Para contornar este problema devemos buscar utilizar algoritmos de menor complexidade, co menor número de parâmetros.
Tendo em vista estes desafios iremos utilizar dois tipos de lagoritmo:
> 1. Naive Bayes.
> 2. SVM.

Estes são os três deputados top 3 definidos na Análise Exploratória
> 1. FRANCISCO CHAPADINHA
> 2. DOMINGOS NETO
> 3. ROCHA

Referência: https://goo.gl/gRYnWW

In [1]:
%%html
<table ><tbody><tr><td>
<h3><b><p align='left'> Lista das análises preditivas de gastos 2018</p></b><h3></td></tr>
<tr><td><img src = 'Analise Preditiva.png', width = 600, align = left> </td></tr>
</tbody></table>

0
Lista das análises preditivas de gastos 2018


***

### **A. Importação de Biblioteca Python**

#### Serão utilizadas neste projeto as seguintes bibliotecas Python:

> 1. Pandas
> 2. Numpy
> 3. Scikit Learn
> 4. Seaborn


In [19]:
import pandas as pd
import numpy as np
import os
import sklearn
from sklearn.metrics import r2_score
import sys
import os
import matplotlib.pyplot as plt
import matplotlib.axes as axes
import seaborn as sns

# Machine learning

from sklearn import linear_model
from sklearn.cross_validation import train_test_split
from sklearn.preprocessing import OneHotEncoder

from sklearn.linear_model import Ridge


# definindo que a execução do código na linha de baixo.
%matplotlib inline

# Ajustando globalmente o impedimento de notação científica
pd.options.display.float_format = '{:20,.2f}'.format

***

### **B. Preparação de Dataset**


#### B.1 Importando o dataset

In [3]:
display(os.listdir('dataset'))

['Ano-2015.csv',
 'Ano-2016.csv',
 'Ano-2017.csv',
 'dataset_analise.numbers',
 'df_dom_trienio.csv',
 'df_fco_trienio.csv',
 'df_roc_trienio.csv',
 'df_trienio_limpo.csv']

In [4]:
# importando o dataset limpo dos três deputados
df = pd.read_csv('dataset/df_trienio_limpo.csv', sep = ';', encoding='latin1')


In [5]:
df.head(1)

Unnamed: 0,Nome,UF,Partido,Tipo,Valor,Ano,Mes
0,ABEL MESQUITA JR.,RR,DEM,Escritório,165.65,2015,11


#### B.2 Removendo os features Partido e UF.

In [6]:
# Removendo colunas UF, Partido e mês.
df.pop('UF')
z = df.pop('Partido')


In [7]:
df.head()

Unnamed: 0,Nome,Tipo,Valor,Ano,Mes
0,ABEL MESQUITA JR.,Escritório,165.65,2015,11
1,ABEL MESQUITA JR.,Escritório,59.48,2015,12
2,ABEL MESQUITA JR.,Escritório,130.95,2015,11
3,ABEL MESQUITA JR.,Escritório,196.53,2015,12
4,ABEL MESQUITA JR.,Escritório,310.25,2015,2


#### B.3 Filtrando o dataset para reter apenas os deputados Top 3.

In [8]:
# filtrando o datafra,e para conter apenas os top 3 deputad
df = df[df.Nome.isin(['FRANCISCO CHAPADINHA', 'DOMINGOS NETO' , 'ROCHA'])]

In [9]:
df.head(2)

Unnamed: 0,Nome,Tipo,Valor,Ano,Mes
95542,DOMINGOS NETO,C&L,210.18,2015,10
95543,DOMINGOS NETO,C&L,4500.0,2015,1


#### B.4 Alterando os valores do Tipo de gato para valores numéricos correspondentes.

df['Tipo'] = df['Tipo'].map({'Escritório':'1','C&L':'2',
                             'Consultorias':'3',
                             'Divulgação':'4',
                             'Segurança':'5',
                             'Passagens Aéreas':'6',
                             'Telefonia':'7',
                             'Correios':'8',
                             'Alimentação':'9',
                             'Locação de Veículo Automotor':'10',
                             'Locação de Embarcação':'11',
                             'Taxi, pedágio e estacionamento':'12',
                             'Emissão Bilhete Aéreo':'6',
                             'Hospedagem':'13',
                             'S/D':'14'})

In [10]:
#df['Tipo'] = df.Tipo.astype('category')
df.dtypes

Nome      object
Tipo      object
Valor    float64
Ano        int64
Mes        int64
dtype: object

In [11]:
df_fco = df[df['Nome'] == 'FRANCISCO CHAPADINHA']
df_dom = df[df['Nome'] == 'DOMINGOS NETO']
df_roc = df[df['Nome'] == 'ROCHA']

In [12]:
df_fco.head()

Unnamed: 0,Nome,Tipo,Valor,Ano,Mes
133391,FRANCISCO CHAPADINHA,Escritório,4200.0,2015,10
133392,FRANCISCO CHAPADINHA,Escritório,4200.0,2015,11
133393,FRANCISCO CHAPADINHA,Escritório,4200.0,2015,12
133394,FRANCISCO CHAPADINHA,Escritório,130.0,2015,3
133395,FRANCISCO CHAPADINHA,Escritório,269.15,2015,4


In [13]:
df_dom.head()

Unnamed: 0,Nome,Tipo,Valor,Ano,Mes
95542,DOMINGOS NETO,C&L,210.18,2015,10
95543,DOMINGOS NETO,C&L,4500.0,2015,1
95544,DOMINGOS NETO,C&L,4500.0,2015,2
95545,DOMINGOS NETO,C&L,4500.0,2015,3
95546,DOMINGOS NETO,C&L,194.49,2015,11


In [14]:
df_roc.head()

Unnamed: 0,Nome,Tipo,Valor,Ano,Mes
309472,ROCHA,Escritório,7.89,2015,11
309473,ROCHA,Escritório,33.8,2015,6
309474,ROCHA,Escritório,192.3,2015,3
309475,ROCHA,Escritório,262.9,2015,6
309476,ROCHA,Escritório,206.0,2015,8


#### B.5 Separando a coluna valor do dataframe

In [15]:
df_x = df
df_Y = df_x.pop('Valor')

In [16]:
df_Y.head()

95542                 210.18
95543               4,500.00
95544               4,500.00
95545               4,500.00
95546                 194.49
Name: Valor, dtype: float64

In [17]:
df_x.head()

Unnamed: 0,Nome,Tipo,Ano,Mes
95542,DOMINGOS NETO,C&L,2015,10
95543,DOMINGOS NETO,C&L,2015,1
95544,DOMINGOS NETO,C&L,2015,2
95545,DOMINGOS NETO,C&L,2015,3
95546,DOMINGOS NETO,C&L,2015,11


#### B.6 Preprocessing o dataset

In [None]:
# Testing OHE

from sklearn.linear_model import Ridge 

ridge_inst = Ridge() 

from sklearn.multioutput import MultiOutputRegressor 

multi_ridge = MultiOutputRegressor( ridge_inst, n_jobs =-1)




In [18]:
 = OneHotEncoder(handle_unknown='ignore')

enc.fit(X_train_ordinal)

X_train_one_hot = enc.transform(X_train_ordinal)
X_test_one_hot = enc.transform(X_test_ordinal)

l.fit(X_train_one_hot,y_train)
y_pred = l.predict_proba(X_test_one_hot)
print(log_loss(y_test,y_pred))

r.fit(X_train_one_hot,y_train)
y_pred = r.predict_proba(X_test_one_hot)
print(log_loss(y_test,y_pred))
print(X_train_one_hot.shape)

NameError: name 'X_train_ordinal' is not defined

***
### C. Preprocessing

#### Transformando feature object em category.

In [None]:
cat_encoder = preprocessing.OneHotEncoder() 
cat_encoder.fit_transform( y.reshape(-1,1)).toarray()[: 5] 
array([[ 1., 0., 0.], [ 1., 0., 0.], [ 1., 0., 0.], [ 1., 0., 0.], [ 1., 0., 0.]])



***
### D. Iniciando uso de Algoritmos de Machine Learning


#### REGRESSÃO LINEAR
#### Definindo a função de regressão para variável reg

In [None]:
reg = linear_model.LinearRegression()

In [None]:
x_train, x_test, Y_train, Y_test = train_test_split(df_x, df_Y, test_size = 0.2, \
                                                    random_state = 4)

In [None]:
reg.fit(x_train, Y_train)


In [None]:
x_train.head()