# An Introduction to Neural Networks
# 01 - Python for Machine Learning

<p>
    Nesse primeiro tutorial iremos nos familiar com a utilização da linguagem de programação Python 3.x para Machine Learning. <br>Mais específicamente, iremos aprender como:
</p>
<ul>
    <li>Carregar um Conjunto de Dados utilizando a biblioteca Pandas;</li>
    <li>Realizar operações matriciais utilizando a biblioteca Numpy;</li>
    <li>Construir visualizações dos dados utilizando a biblioteca Pyplot (matplolib);</li>
</ul>

### Bibliotecas

In [1]:
import pandas as pd                 # <-- Representação e Manipulação dos Dados
import numpy as np                  # <-- Biblioteca para Operações Matriciais e Complexas
import matplotlib.pyplot as plt     # <-- Biblioteca para Visualização de Dados

# Essa linha abaixo é apenas para que os 
# plots sejam gerados numa janela separada
%matplotlib qt5

## Parte 1 - Representação de Dados

<p>
    Em todos os algoritmos de Machine Learning, nossos modelos serão treinados através de uma alimentação de dados. <br><br>
    
    Na forma mais comum, os dados são armazenados de forma estruturada: são Tabelas, onde cada arquivo trás uma observação por linha, e cada observação é descrita por um conjunto de atributos, dispostos nas colunas. Em Aprendizagem Supervisionada, a última coluna costuma representar o "output" do modelo para cada observação (no caso de Classificação, a última coluna indica a qual classe a observação pertence.
</p>

In [2]:
## CARREGANDO OS DADOS ATRAVÉS DE UM ARQUIVO ##
data = pd.read_csv('datasets/iris.csv')

data.head()

Unnamed: 0,Sepal Length,Sepal Width,Petal Length,Petal Width,Class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


In [3]:
## ACESSANDO E MANIPULANDO OS DADOS ##
# Indexação por posição: dataframe.iloc[<Linha>, <Coluna>]
data.iloc[0,0]             # Acessando o elemento [0, 0]
data.iloc[:,0]             # Acessando os elementos da coluna [0] de todas as linhas
data.iloc[1,0]             # Acessando os elementos da linha [1] de todas as colunas
data.iloc[:,-1]            # Acessando a última coluna de todas as linhas
data.iloc[-1,3]            # Acessando a ultima linha e coluna 3
data.iloc[10:20,:]         # Slice: Acessando todas as colunas de todas as linhas entre 10 e 20
data.iloc[135:, :]         # Slice: Acessando todas as colunas da 135ª linha até a última
data.iloc[:10,2:4]         # Slice: Acessando da coluna 2 até a 4 da primeira até a 10ª linha
data.iloc[-10:, :]         # Slice: Acessando todas as colunas das 10 últimas linhas
data.iloc[[2,7,28], :]     # Slice: Acessando todas as colunas dos elementos nas linhas [2,7,28]
# E aí por diante...

# Indexação por índice/atributo: dataframe.loc[<Índice>, <Atributo>]
data.loc[0, "Class"]                     # Acesando a coluna "Class" do elemento de índice "0"
data.loc[0:10, "Petal Length":"Class"]   # Slice: Acessando os índices de 0 a 10, nas colunas "Petal Length" a "Class"

# Indexação por condição: dataframe[<Teste Condicional>]
data[data["Class"] == "Iris-setosa"]
data[data["Class"] == "Iris-setosa"].iloc[-5:, :-1]

Unnamed: 0,Sepal Length,Sepal Width,Petal Length,Petal Width
45,4.8,3.0,1.4,0.3
46,5.1,3.8,1.6,0.2
47,4.6,3.2,1.4,0.2
48,5.3,3.7,1.5,0.2
49,5.0,3.3,1.4,0.2


In [9]:
## PRÉ-PROCESSAMENTO DOS DADOS ##
# Armazenando as dimensões dos dados
m = data.shape[0]
n = data.shape[1]-1

# Transformando as Classes em Números
data["Class"] = data["Class"].astype('category').cat.codes

# Separação do Conjunto de Treino e Conjunto de Teste
np.random.seed(10) # Só pra a gente poder visualizar a aleatoriedade :P
trainingSize = int(0.8 * m)
indexes = np.random.randint(0, m, m)

trainData = data.iloc[indexes[:trainingSize]]
testData = data.iloc[indexes[trainingSize:]]

# Obtendo matrizes (formato Numpy) correspondentes
X_train = trainData.iloc[:,:-1].values
y_train = trainData.iloc[:, -1].values

X_test = testData.iloc[:,:-1].values
y_test = testData.iloc[:, -1].values

array([0, 2, 0, 1, 2, 2, 2, 0, 1, 0, 0, 2, 0, 2, 2, 1, 1, 2, 2, 1, 0, 2, 1,
       1, 0, 2, 2, 1, 1, 0, 1, 2, 1, 0, 1, 0, 0, 0, 1, 1, 1, 2, 1, 2, 0, 0,
       2, 1, 1, 2, 2, 2, 0, 0, 1, 0, 2, 0, 1, 1, 1, 1, 2, 0, 2, 0, 1, 2, 2,
       1, 0, 2, 0, 1, 1, 2, 0, 1, 1, 1, 0, 2, 2, 0, 0, 0, 0, 1, 1, 2, 0, 1,
       1, 0, 1, 2, 0, 1, 0, 1, 0, 0, 2, 2, 2, 2, 2, 0, 1, 1, 1, 1, 1, 1, 1,
       1, 2, 0, 2, 2], dtype=int8)

### Parte 2 - Operações Matriciais

<p>
    A Álgebra Linear é nossa aliada em todos os algoritmos de IA. <br><br>
    
    Apesar de que um conhecimento teórico mais profundo (Espaços Vetoriais, Propriedades Matriciais, etc...) é extremamente desejável, nosso mini-curso apenas irá exigir que você saiba as operações mais elementares entre matrizes. São elas:
</p>

<h5> Soma/Subtração de Matrizes </h5>
<p><i>Condição Necessária: Matrizes de mesma dimensão</i></p>

$$
    \begin{bmatrix}
     X_{11} & X_{12} \\ 
     X_{21} & X_{22}  
    \end{bmatrix} + \begin{bmatrix}
     Y_{11} & Y_{12} \\ 
     Y_{21} & Y_{22}  
    \end{bmatrix} = \begin{bmatrix}
     X_{11}+Y_{11} & X_{12}+X_{12} \\ 
     X_{21}+X_{21} & X_{22}+X_{22}  
    \end{bmatrix}
$$

<h5> Multiplicação por Escalar </h5>

$$
    C * \begin{bmatrix}
     X_{11} & X_{12} \\ 
     X_{21} & X_{22}  
    \end{bmatrix} = \begin{bmatrix}
     C*X_{11} & C*X_{12} \\ 
     C*X_{21} & C*X_{22}  
    \end{bmatrix}
$$

<h5> Multiplicação Matricial </h5>
<p><i>Condição Necessária: número de colunas da primeira matriz igual ao número de linhas da segunda matriz</i></p>

$$
    \begin{bmatrix}
     X_{11} & X_{12} & X_{13} \\ 
     X_{21} & X_{22} & X_{23}
    \end{bmatrix} + \begin{bmatrix}
     Y_{11} & Y_{12} \\ 
     Y_{21} & Y_{22} \\ 
     Y_{31} & Y_{32}
    \end{bmatrix} = \begin{bmatrix}
     X_{11}*Y_{11} + X_{12}*Y_{21} + X_{13}*Y_{31} & X_{11}*Y_{12} + X_{12}*Y_{22} + X_{13}*Y_{32} \\ 
     X_{21}*Y_{11} + X_{22}*Y_{21} + X_{23}*Y_{31} & X_{21}*Y_{12} + X_{22}*Y_{22} + X_{23}*Y_{32}
    \end{bmatrix}
$$

In [5]:
## OPERAÇÕES MATRICIAIS COM O NUMPY ##
# Criando matrizes no Numpy:
A = np.array([[1,  3, 7],
              [5, -2, 0]])
B = np.array([[-3, 4,  1],
              [10, 0, -1]])

print("Matriz A:\n", A, "Dimensões:", A.shape)
print()
print("Matriz B:\n", B, "Dimensões:", B.shape)
print("---\n")

# Soma/Subtração de Matrizes
print("Soma:\n", A + B)
print()
print("Subtração:\n", A - B)
print("---\n")

# Multiplicação por Escalar
print("Multiplicação Escalar:\n", 5 * A)
print()
print("Invertendo a Matriz:\n", -B)
print()
print("---\n")

# Multiplicação pointwise de Matrizes (.*)
print("Multiplicação Pointwise:\n", A * B)
print("---\n")

# Transpostas
print("Matriz A^T:\n", A.T, "Dimensões:", A.T.shape)
print()
print("Matriz B^T:\n", B.T, "Dimensões:", B.T.shape)
print("---\n")

# Multiplicação Matricial (necessário tomar a transposta de B)
print("Multiplicação:\n", np.matmul(A, B.T))
print("Dimensões:", A.shape, "*", B.T.shape, " = ", "(",A.shape[0], ",", B.T.shape[1],")")
print("---\n")

Matriz A:
 [[ 1  3  7]
 [ 5 -2  0]] Dimensões: (2, 3)

Matriz B:
 [[-3  4  1]
 [10  0 -1]] Dimensões: (2, 3)
---

Soma:
 [[-2  7  8]
 [15 -2 -1]]

Subtração:
 [[ 4 -1  6]
 [-5 -2  1]]
---

Multiplicação Escalar:
 [[  5  15  35]
 [ 25 -10   0]]

Invertendo a Matriz:
 [[  3  -4  -1]
 [-10   0   1]]

---

Multiplicação Pointwise:
 [[-3 12  7]
 [50  0  0]]
---

Matriz A^T:
 [[ 1  5]
 [ 3 -2]
 [ 7  0]] Dimensões: (3, 2)

Matriz B^T:
 [[-3 10]
 [ 4  0]
 [ 1 -1]] Dimensões: (3, 2)
---

Multiplicação:
 [[ 16   3]
 [-23  50]]
Dimensões: (2, 3) * (3, 2)  =  ( 2 , 2 )
---



### Parte 3 - Visualização de Dados

--> Inserir descrição

In [6]:
## VISUALIZAÇÃO NÃO-CONDICIONADA COM O MATPLOTLIB ##
plt.figure(figsize=[12,5])

plt.subplot(1,2,1)
plt.title("Iris Dataset")
plt.xlabel("Setal Length")
plt.ylabel("Sepal Length")

plt.scatter(X_train[:,0], X_train[:,1], color="#00aedb", edgecolor="#2A2A2A")

plt.subplot(1,2,2)
plt.title("Iris Dataset")
plt.xlabel("Petal Length")
plt.ylabel("Pepal Length")

plt.scatter(X_train[:,2], X_train[:,3], color="#00aedb", edgecolor="#2A2A2A")

plt.show()

In [12]:
## VISUALIZAÇÃO CONDICIONADA COM O MATPLOTLIB E NUMPY ##

setosa = np.where(y_train == 0)
virginica = np.where(y_train == 1)
versicolor = np.where(y_train == 2)

plt.figure(figsize=[12,5])

plt.subplot(1,2,1)
plt.title("Iris Dataset")
plt.xlabel("Setal Length")
plt.ylabel("Sepal Length")

plt.scatter(X_train[setosa,0], X_train[setosa,1], marker="s", color="#00aedb", edgecolor="#2A2A2A")
plt.scatter(X_train[virginica,0], X_train[virginica,1], marker="o", color="#00b159", edgecolor="#2A2A2A")
plt.scatter(X_train[versicolor,0], X_train[versicolor,1], marker="^", color="#d11141", edgecolor="#2A2A2A")

plt.subplot(1,2,2)
plt.title("Iris Dataset")
plt.xlabel("Petal Length")
plt.ylabel("Pepal Length")

plt.scatter(X_train[setosa,2], X_train[setosa,3], marker="s", color="#00aedb", edgecolor="#2A2A2A")
plt.scatter(X_train[virginica,2], X_train[virginica,3], marker="o", color="#00b159", edgecolor="#2A2A2A")
plt.scatter(X_train[versicolor,2], X_train[versicolor,3], marker="^", color="#d11141", edgecolor="#2A2A2A")

plt.show()