# Competição MNIST

Descrição da competição O MNIST ("Instituto Nacional Modificado de Padrões e Tecnologia") é o conjunto de dados de fato "olá mundo" da visão computacional. Desde seu lançamento em 1999, esse conjunto de dados clássico de imagens manuscritas serviu de base para algoritmos de classificação de benchmarking. À medida que surgem novas técnicas de aprendizado de máquina, o MNIST continua sendo um recurso confiável para pesquisadores e alunos. 

Nesta competição, seu objetivo é identificar corretamente os dígitos de um conjunto de dados de dezenas de milhares de imagens manuscritas.

# **Objetivo**

Habilidades práticas: Fundamentos da visão computacional, incluindo redes neurais simples. 
Métodos de classificação como SVM e vizinhos mais próximos K-NN.

**Algoritmos**

K-NN

Naive Bayes

Rede neural - CNN 

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import collections
import matplotlib.pyplot as plt

from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.naive_bayes import BernoulliNB
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score
from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix, accuracy_score

In [None]:
train = pd.read_csv("train.csv")
test = pd.read_csv("test.csv")

In [None]:
train.head()

In [None]:
test.head()

In [None]:
train.describe()

In [None]:
test.describe()

In [None]:
train.shape

In [None]:
test.shape

In [None]:
train.columns

In [None]:
print(train.shape)
train.head()

In [None]:
Y_train = train["label"]
X_train = train.drop(labels = ["label"],axis = 1) 

In [None]:
X_train

In [None]:
Y_train

**Graficos**

In [None]:
plt.imshow(X_train.values[30].reshape(28,28), cmap=plt.cm.binary)
plt.show()

In [None]:
plt.imshow(X_train.values[3].reshape(28,28), cmap=plt.cm.binary)
plt.show()

In [None]:
plt.imshow(X_train.values[5].reshape(28,28), cmap=plt.cm.binary)
plt.show()

In [None]:
plt.imshow(X_train.values[41].reshape(28,28), cmap=plt.cm.binary)
plt.show()

In [None]:
plt.imshow(X_train.values[55].reshape(28,28), cmap=plt.cm.binary)
plt.show()

In [None]:
plt.imshow(X_train.values[15].reshape(28,28), cmap=plt.cm.binary)
plt.show()

# **Naive Bayes**

In [None]:
onehotencorder = ColumnTransformer(transformers=[("OneHot", OneHotEncoder(), [1,3,5,6,7,8,9,13])],remainder='passthrough')

In [None]:
onehotencorder

In [None]:
t1 = train.iloc[:, 0:14].values
f1 = train.iloc[:, 14].values

t2 = test.iloc[:, 0:15].values
f2 = test.iloc[:, 14].values

In [None]:
t1

In [None]:
f1

In [None]:
t2

In [None]:
f2

In [None]:
scaler = StandardScaler()
t1 = scaler.fit_transform(t1)
t1

In [None]:
classificador = GaussianNB()
classificador.fit(t1, f1)

In [None]:
t1

In [None]:
f1

In [None]:
classificador = GaussianNB()
classificador.fit(t2, f2)

In [None]:
t2

In [None]:
#Treino e Teste

previsores_treinamento, previsores_teste, classe_treinamento, classe_teste = train_test_split(t1, f1, test_size=0.15, random_state=0)

In [None]:
previsores_treinamento

In [None]:
previsores_teste

In [None]:
classe_treinamento

In [None]:
classe_teste

In [None]:
classificador = GaussianNB()
classificador.fit(previsores_treinamento, classe_treinamento)
previsoes = classificador.predict(previsores_teste)

In [None]:
previsores_treinamento

In [None]:
classe_treinamento

In [None]:
previsoes

**Modelo**

In [None]:
precisao = accuracy_score(classe_teste, previsoes)
matriz = confusion_matrix(classe_teste, previsoes)

In [None]:
print("Acuracia de: %.2f" %(precisao * 100))

In [None]:
print("Matriz de confussão", matriz)

# **K-NN**

In [None]:
x1 = train.iloc[:, 1:4].values
x2 = train.iloc[:, 4].values

In [None]:
x1

In [None]:
x2

In [None]:
scaler = StandardScaler()
x1 = scaler.fit_transform(x1)

In [None]:
x1

In [None]:
#Treino e Teste

previsores_treinamento, previsores_teste, classe_treinamento, classe_teste = train_test_split(x1, x2, test_size=0.25, random_state=0)

In [None]:
x1

In [None]:
x2

In [None]:
previsores_treinamento

In [None]:
previsores_teste

In [None]:
classe_treinamento

In [None]:
classe_teste

**K-NN**

In [None]:
classificador = KNeighborsClassifier(n_neighbors=5, metric="minkowski", p = 2)
classificador.fit(previsores_treinamento, classe_treinamento)
x1 = classificador.predict(previsores_teste)

In [None]:
classificador

In [None]:
x1

In [None]:
classe_treinamento

In [None]:
previsores_teste

In [None]:
previsores_treinamento

**K-NN Resultados**

In [None]:
#KNN - R
knn = KNeighborsClassifier(n_neighbors=3)
knn.fit(previsores_treinamento, classe_treinamento)
resultado_final = knn.predict(previsores_teste)

In [None]:
knn

In [None]:
resultado_final = knn.predict(previsores_teste)
resultado_final

**Modelo**

In [None]:
acuracia = accuracy_score(classe_teste, x1)
matriz = confusion_matrix(classe_teste, x1)

print("Acuracia: %.2f" % (precisao * 100))

In [None]:
print("Matriz de confussao", matriz)

In [None]:
classe_teste

In [None]:
x1

In [None]:
collections.Counter(classe_teste)

In [None]:
classe_teste

# **Rede neural - CNN**

In [None]:
import tensorflow as tf
import keras

from tensorflow.keras.layers import Dense, Dropout, Flatten, MaxPool2D, Conv2D
from tensorflow.keras.models import Sequential
from tensorflow.keras.utils import to_categorical
from tensorflow.keras.callbacks import EarlyStopping
from sklearn.metrics import classification_report, confusion_matrix

In [None]:
X = train.drop('label', axis=1).values
y = train['label'].values

In [None]:
X

In [None]:
y

In [None]:
X = X.reshape(42000,28,28,1)
X = X/255

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
#Categorias

y_train_cat = to_categorical(y_train)
y_test_cat = to_categorical(y_test)

In [None]:
y_train_cat

In [None]:
y_test_cat

In [None]:
#Modelo da rede neural

model = Sequential()
model.add(Conv2D(filters=32, kernel_size=(4,4), activation='relu', input_shape=(28,28,1)))
model.add(MaxPool2D(2,2))
model.add(Flatten())
model.add(Dense(128, activation='relu'))
model.add(Dense(10, activation='softmax'))
model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])

model = EarlyStopping(monitor='val_loss', mode='min', verbose=1, patience=25)
model.fit(x=X_train, y=y_train_cat, epochs=30, validation_data=(X_test, y_test_cat), callbacks=[early_stop])

In [None]:
model.summary()

In [None]:
d1 = pd.DataFrame(model.history.history)
d1

# Curva roc

In [None]:
d1[["accuracy", "val_accuracy"]]

In [None]:
d1[["accuracy", "val_accuracy"]].plot()
plt.show()

In [None]:
d1[['loss', 'val_loss']].plot()
plt.show()

# Matriz de confussão

In [None]:
y_pred = model.predict_classes(X_test)

classification = classification_report(y_test, y_pred)
cm = confusion_matrix(y_test, y_pred)

print(classification)
print("\n")
print("Martiz de confussão")
print("\n")
print(cm)