# Imports

In [None]:
import pandas as pd 
import numpy as np

### Base com atributos numéricos

In [None]:
# Base tirada de https://archive.ics.uci.edu/ml/datasets/Ecoli

ecoli = pd.read_csv('databases/ecoli.csv',
                      header=None, 
                      names=[
                        "Sequence Name",
                        "mcg",
                        "gvh",
                        "lip",
                        "chg",
                        "aac",
                        "alm1",
                        "alm2",
                        "Class"
                      ])

# Substituindo a string de pendência para valores compreenciveis
# ecoli = ecoli.replace({

# })

ecoli

In [None]:
# ecoli.describe()

In [None]:
# ecoli.dtypes

## Pré-Processamento Inicial

##### Deletando a coluna 'Sequence Name'

In [None]:
# A coluna em questão é uma coluna de ID de busca, logo não é necessária para o que será feito no trabalho
if ecoli.get("Sequence Name") is not None:
    del ecoli["Sequence Name"]

ecoli.dtypes

In [None]:
from sklearn.preprocessing import StandardScaler

atributos = [           
    "mcg",
    "gvh",
    "lip",
    "chg",
    "aac",
    "alm1",
    "alm2",
    ]

ecoli[atributos] = StandardScaler().fit_transform(ecoli[atributos])
#ecoli = pd.DataFrame(balance)

limiar = 7

ecoli

## Aprendizagem supervisionada
##### Selecionando o X e y

In [None]:
# Selecionando o X e o y


# X = ecoli[atributos]
X = ecoli.iloc[:, :limiar] # Atributos do Data Frame do Pandas
y = ecoli.iloc[:, limiar:] # Classes do Data Frame do Pandas

y = np.squeeze(y) # Converter em um unico Array quando usar o dataFrame do Pandas

y_unique = np.unique(y)

from sklearn.preprocessing import LabelEncoder # Criando um mapa de cores para mapear o gráfico

lb = LabelEncoder()
lb.fit(y)
mapa_cores = lb.transform(y)
mapa_cores
# y_unique # Valores unicos de classes

##### PCA

In [None]:
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA

pca = PCA(n_components=2)
X_reduced = pca.fit_transform(X)

print('Projecting %d-dimensional data to 2D' % X.shape[1])

def plot_g(pyplot, title, colors, n_classes):
    pyplot.scatter(X_reduced[:, 0], X_reduced[:, 1], c=colors, 
             edgecolor='none', alpha=0.7, s=40,
             cmap=plt.cm.get_cmap('nipy_spectral', n_classes)
           )
    pyplot.colorbar()
    pyplot.title(title)

plt.figure(figsize=(10, 8)) # Tamanho da Figura
plot_g(plt, 'Projeção 2D do Dados em PCA', mapa_cores, len(y_unique))
plt.show()


##### Plotando os Gráficos 

In [None]:

# plt.figure(figsize=(10*2, 7))

# plt.subplot(1, 2, 1) # row 1, col 2 index 1
# plt.scatter(X_reduced[:, 0], X_reduced[:, 1], c=labels, 
#             edgecolor='none', alpha=0.7, s=40,
#             cmap=plt.cm.get_cmap('nipy_spectral', len(y_unique)))
# plt.colorbar()
# plt.title('Projeção KMeans com X Original')

# plt.subplot(1, 2, 2) # row 1, col 2 index 1
# plt.scatter(X_reduced[:, 0], X_reduced[:, 1], c=labels_PCA, 
#             edgecolor='none', alpha=0.7, s=40,
#             cmap=plt.cm.get_cmap('nipy_spectral', len(y_unique)))
# plt.colorbar()
# plt.title('Projeção KMeans com X PCA')

# plt.show()

# Utilização do k-NN

##### Sem PCA

In [None]:
dataset = ecoli

i_sort = np.random.randint(len(X) - 1) # Selecionando aleatóriamente um index de teste

X_teste = X.iloc[i_sort] 
X = X.drop(i_sort)

y_teste = y.iloc[i_sort]
y = y.drop(i_sort)

In [None]:
from sklearn.neighbors import KNeighborsClassifier

knn = KNeighborsClassifier(n_neighbors=5)

knn.fit(X, y)

predict = knn.predict(np.array(X_teste).reshape(1,-1))

print({"Previsto:": predict, "Correto:": y_teste})

In [None]:
dist, vizinhos = knn.kneighbors(np.array(X_teste).reshape(1,-1))
classes = []
for v in vizinhos:
    classes.append(dataset.iloc[:-1, limiar][v])
classes

# Utilização do Naive Bayes

##### Sem PCA

In [None]:
from sklearn.naive_bayes import GaussianNB

gnb = GaussianNB()
gnb.fit(X, y)
predict = gnb.predict(np.array(X_teste).reshape(1,-1))

print({"Previsto:": predict, "Correto:": y_teste})

In [None]:
# from sklearn.naive_bayes import MultinomialNB

# mnb = MultinomialNB()
# mnb.fit(X, y)
# predict = mnb.predict(np.array(X_teste).reshape(1,-1))

# print({"Previsto:": predict, "Correto:": y_teste})

# Utilização do SVM

##### RBF

In [None]:
from sklearn.svm import SVC

svc = SVC(kernel='rbf')
svc.fit(X, y)
predict = svc.predict(np.array(X_teste).reshape(1,-1))

print({"Previsto:": predict, "Correto:": y_teste})

##### Linear

In [None]:
svc = SVC(kernel='linear')
svc.fit(X, y)
predict = svc.predict(np.array(X_teste).reshape(1,-1))

print({"Previsto:": predict, "Correto:": y_teste})

##### Polinomial

In [None]:
svc = SVC(kernel='poly')
svc.fit(X, y)
predict = svc.predict(np.array(X_teste).reshape(1,-1))

print({"Previsto:": predict, "Correto:": y_teste})

##### Sigmoid

In [None]:
svc = SVC(kernel='sigmoid')
svc.fit(X, y)
predict = svc.predict(np.array(X_teste).reshape(1,-1))

print({"Previsto:": predict, "Correto:": y_teste})