# Machine Learning
 
 - É um processo que explora e analisa grandes volumes de dados em busca de padrões, previsões, erros, associações, entre outros.
 - Aprendizado contínuo: com mais dados, o computador pode melhorar seu modelo
 - Aprendizado mensurável: pode ser medido o quanto o computador aprendeu
 
 ## Tarefas
 
  ### 1. Classificação
  
   - A partir de dados ja existentes, tenta prever qual a classificação de um novo dado
   - Descreve ou preve um atributo do atributo classe
   - Usado para prever uma fraude, descobrir qual espécime um animal pertence, prever uma doença, classificar um tipo de fungo, etcs.
   - Overfiting: quando o modelo tem uma alta taixa de acerto para uma base de dados especifica, e quando submetida a outra, a taixa cai; como se o modelo tivesse "decorado" os dados, envés de aprendido
     - Causas
       - Dados não representativos
       - Dados não significativo
       - Forma de treinamento
       - Modelo incorreto
       - Classe rara → quando nos dados há um desbalanceamento da classe. Existe muito mais dados o qual o algoritomo possa prever para um tipo expecifico, quando para outro, não
   - Modelos genéricos: modelos com desenpenhos similares entre diferentes base de dados
   - Algoritimos
     - Árvores de decisão 
     - Regras
     - Naïve bayes
     - Redes Bayesianas
     - Redes neurais artificiais e deep learning
     - Maquina de vetor de suporte
     - Métodos de grupos
     - Aprendizado baseado em instância (KNN)
   
   #### 1.1 Naïve Bayes

In [1]:
import pandas as pandas
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import confusion_matrix, accuracy_score

In [2]:
credito = pandas.read_csv("data/Credit.csv")
credito.head()

Unnamed: 0,checking_status,duration,credit_history,purpose,credit_amount,savings_status,employment,installment_commitment,personal_status,other_parties,...,property_magnitude,age,other_payment_plans,housing,existing_credits,job,num_dependents,own_telephone,foreign_worker,class
0,<0,6,'critical/other existing credit',radio/tv,1169,'no known savings',>=7,4,'male single',none,...,'real estate',67,none,own,2,skilled,1,yes,yes,good
1,0<=X<200,48,'existing paid',radio/tv,5951,<100,1<=X<4,2,'female div/dep/mar',none,...,'real estate',22,none,own,1,skilled,1,none,yes,bad
2,'no checking',12,'critical/other existing credit',education,2096,<100,4<=X<7,2,'male single',none,...,'real estate',49,none,own,1,'unskilled resident',2,none,yes,good
3,<0,42,'existing paid',furniture/equipment,7882,<100,4<=X<7,2,'male single',guarantor,...,'life insurance',45,none,'for free',1,skilled,2,none,yes,good
4,<0,24,'delayed previously','new car',4870,<100,1<=X<4,3,'male single',none,...,'no known property',53,none,'for free',2,skilled,2,none,yes,bad


In [3]:
previsores = credito.iloc[:,0:20].values
previsores[:6]

array([['<0', 6, "'critical/other existing credit'", 'radio/tv', 1169,
        "'no known savings'", '>=7', 4, "'male single'", 'none', 4,
        "'real estate'", 67, 'none', 'own', 2, 'skilled', 1, 'yes',
        'yes'],
       ['0<=X<200', 48, "'existing paid'", 'radio/tv', 5951, '<100',
        '1<=X<4', 2, "'female div/dep/mar'", 'none', 2, "'real estate'",
        22, 'none', 'own', 1, 'skilled', 1, 'none', 'yes'],
       ["'no checking'", 12, "'critical/other existing credit'",
        'education', 2096, '<100', '4<=X<7', 2, "'male single'", 'none',
        3, "'real estate'", 49, 'none', 'own', 1, "'unskilled resident'",
        2, 'none', 'yes'],
       ['<0', 42, "'existing paid'", 'furniture/equipment', 7882, '<100',
        '4<=X<7', 2, "'male single'", 'guarantor', 4, "'life insurance'",
        45, 'none', "'for free'", 1, 'skilled', 2, 'none', 'yes'],
       ['<0', 24, "'delayed previously'", "'new car'", 4870, '<100',
        '1<=X<4', 3, "'male single'", 'none', 4, "'n

In [4]:
classe = credito.iloc[:,20].values
classe[:6]

array(['good', 'bad', 'good', 'good', 'bad', 'good'], dtype=object)

In [5]:
# transformando as variáveis nominais em numéricas
labelEncoder = LabelEncoder()
previsores[:,0] = labelEncoder.fit_transform(previsores[:,0])
previsores[:,2] = labelEncoder.fit_transform(previsores[:,2])
previsores[:,3] = labelEncoder.fit_transform(previsores[:,3])
previsores[:,5] = labelEncoder.fit_transform(previsores[:,5])
previsores[:,6] = labelEncoder.fit_transform(previsores[:,6])
previsores[:,8] = labelEncoder.fit_transform(previsores[:,8])
previsores[:,9] = labelEncoder.fit_transform(previsores[:,9])
previsores[:,11] = labelEncoder.fit_transform(previsores[:,11])
previsores[:,13] = labelEncoder.fit_transform(previsores[:,13])
previsores[:,14] = labelEncoder.fit_transform(previsores[:,14])
previsores[:,16] = labelEncoder.fit_transform(previsores[:,16])
previsores[:,18] = labelEncoder.fit_transform(previsores[:,18])
previsores[:,19] = labelEncoder.fit_transform(previsores[:,19])

In [6]:
df = pandas.DataFrame(previsores)
df.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19
0,2,6,1,7,1169,0,3,4,3,2,4,2,67,1,1,2,3,1,1,1
1,1,48,3,7,5951,3,0,2,0,2,2,2,22,1,1,1,3,1,0,1
2,0,12,1,4,2096,3,1,2,3,2,3,2,49,1,1,1,2,2,0,1
3,2,42,3,5,7882,3,1,2,3,1,4,0,45,1,0,1,3,2,0,1
4,2,24,2,1,4870,3,0,3,3,2,4,1,53,1,0,2,3,2,0,1


In [7]:
df.columns = credito.columns[:20]
df.head()

Unnamed: 0,checking_status,duration,credit_history,purpose,credit_amount,savings_status,employment,installment_commitment,personal_status,other_parties,residence_since,property_magnitude,age,other_payment_plans,housing,existing_credits,job,num_dependents,own_telephone,foreign_worker
0,2,6,1,7,1169,0,3,4,3,2,4,2,67,1,1,2,3,1,1,1
1,1,48,3,7,5951,3,0,2,0,2,2,2,22,1,1,1,3,1,0,1
2,0,12,1,4,2096,3,1,2,3,2,3,2,49,1,1,1,2,2,0,1
3,2,42,3,5,7882,3,1,2,3,1,4,0,45,1,0,1,3,2,0,1
4,2,24,2,1,4870,3,0,3,3,2,4,1,53,1,0,2,3,2,0,1


In [8]:
x_treinamento, x_teste, y_treinamento, y_test = train_test_split(previsores,
                                                                 classe,
                                                                 test_size=0.3,
                                                                 random_state=0)

In [9]:
x_treinamento[:6]

array([[1, 24, 1, 6, 11938, 3, 0, 2, 3, 0, 3, 3, 39, 1, 1, 2, 0, 2, 1, 1],
       [0, 36, 3, 4, 1819, 3, 0, 4, 3, 2, 4, 1, 37, 2, 0, 1, 3, 1, 1, 1],
       [2, 15, 1, 5, 1478, 3, 3, 4, 3, 2, 4, 3, 44, 1, 1, 2, 3, 2, 1, 1],
       [0, 24, 1, 7, 1516, 4, 0, 4, 0, 2, 1, 2, 43, 1, 1, 2, 2, 1, 0, 1],
       [2, 9, 3, 5, 2136, 3, 0, 3, 3, 2, 2, 2, 25, 1, 1, 1, 3, 1, 0, 1],
       [0, 15, 3, 2, 3812, 1, 2, 1, 0, 2, 4, 3, 23, 1, 1, 1, 3, 1, 1, 1]],
      dtype=object)

In [10]:
y_treinamento[:6]

array(['bad', 'bad', 'good', 'good', 'good', 'good'], dtype=object)

In [11]:
print(x_treinamento.shape)
print(y_treinamento.shape)
print(x_teste.shape)
print(y_test.shape)

(700, 20)
(700,)
(300, 20)
(300,)


In [12]:
naive_bayes = GaussianNB()
naive_bayes.fit(x_treinamento, y_treinamento)

GaussianNB(priors=None, var_smoothing=1e-09)

In [13]:
previsoes = naive_bayes.predict(x_teste)
previsoes[:10]

array(['bad', 'good', 'good', 'good', 'bad', 'good', 'good', 'good',
       'good', 'bad'], dtype='<U4')

In [14]:
confusao = confusion_matrix(y_test, previsoes)
confusao
# 45 falsos negativos
# 42 falsos positivos

array([[ 41,  45],
       [ 42, 172]])

In [15]:
taxe_de_acerto = accuracy_score(y_test, previsoes)
taxe_de_acerto

0.71