In [None]:
# -*- coding: utf-8 -*-
import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

## Supervisionado

In [None]:
df = pd.read_csv("../input/heart-disease-uci/heart.csv")
# Dataset com features que indicam condições de saúde e tem classe booliana de quadro de doença cardíaca
# será feito um algorítmo para prever se uma pessoa tem/terá doença cardíaca (1) ou não (0)

In [None]:
# separando em dois dataframes: features e classe
previsores = df.iloc[:, 0:13].values 
classe = df.iloc[:, 13].values

In [None]:
# Escalonamento: 
from sklearn.preprocessing import StandardScaler 
scaler = StandardScaler() 
previsores = scaler.fit_transform(previsores)

In [None]:
# dividindo a base em treinamento e teste:
from sklearn.model_selection import train_test_split 
previsores_treinamento, previsores_teste, classe_treinamento,classe_teste = train_test_split(previsores,
                                                                                             classe,
                                                                                             test_size=0.3,
                                                                                             random_state=0)

Escolhemos o Support Vector Machine como classificador.
Por um rápido tunning de parâmetros, selecionamos o kernel 'rbf' e custo 2.0 por ter dado a maior precisão nos dados. RBF (Radial basis function) é um kernel exponencial baseado na distância euclidiana dos pontos para determinar o hiperplano que separa as classes.


In [None]:
# classificador:
from sklearn.svm import SVC
classificador = SVC(kernel='rbf',random_state=2, C=2.0)
# kernel = 'rbf'
classificador.fit(previsores_treinamento,classe_treinamento)

In [None]:
# classificação: 
previsoes = classificador.predict(previsores_teste)

In [None]:
# comparação com base de teste
from sklearn.metrics import confusion_matrix, accuracy_score 
precisao = accuracy_score(classe_teste, previsoes) # precisão do algoritmo
matriz = confusion_matrix(classe_teste, previsoes) # matriz de confusão 

In [None]:
precisao

In [None]:
matriz

> ## Não Supervisionado

In [None]:
import pandas as pd
df2 = pd.read_csv("../input/customer-segmentation-tutorial-in-python/Mall_Customers.csv")

dataset de registros são clientes de um shopping. Seus features são identidade, gênero, idade, renda e o quanto gasta no shopping.
Uma boa aplicação do aprendizado não supervisionado é a segmentação de clientes, então encontrei uma base simples, talvez simples demais, para fazer grupos de perfis de compra.

Usei o clustering de Kmeans para clasificar. Os inputs necessários são basicamente o número de grupos que se quer classificar.

É necessário transformar as variáveis categóricas em variáveis encoder. Além disso, faz-se a padronização (levar todos os valores para a mesma escala) para que não haja priorização de alguma variável pela distância euclidiana.

In [None]:
df2.head()

In [None]:
X = df2.iloc[:,1:5]

In [None]:
X

In [None]:
# transformando variável categórica em numérica em numerica:
from sklearn.preprocessing import LabelEncoder
labelencoder=LabelEncoder()
X['Gender']=labelencoder.fit_transform(X['Gender'])

In [None]:
X = X.iloc[:,0:5].values

In [None]:
# padronização das variáveis
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X = scaler.fit_transform(X)

In [None]:
# cluster
from sklearn.cluster import KMeans
kmeans = KMeans(n_clusters = 5)
kmeans.fit(X)

In [None]:
centroides = kmeans.cluster_centers_  # posição dos centroides
rotulos = kmeans.labels_ # grupo de cada registro

In [None]:
X = scaler.inverse_transform(X)

In [None]:
import matplotlib.pyplot as plt
cores = ["g.", "r.", "b.","k.","c."]  # lista de cores verde, vermelho e azul
for i in range(len(X)): # pra cada registro
    plt.plot(X[i][2], X[i][3], cores[rotulos[i]], markersize = 15) 
plt.scatter(centroides[:,0], centroides[:,1])  

In [None]:
cores = ["g.", "r.", "b.","k.","c."]  # lista de cores verde, vermelho e azul
for i in range(len(X)): # pra cada registro
    plt.plot(X[i][1], X[i][3], cores[rotulos[i]], markersize = 15) 
plt.scatter(centroides[:,0], centroides[:,1])  

Podemos visualizar bem os grupos, que surpreendentemente é bem dividido e o algoritmo detectou bem essa tendência.
