# An Introduction to Neural Networks
--------
# 01 - Python for Machine Learning

Nesse primeiro tutorial iremos nos familiar com a utilização da linguagem de programação **Python 3** para **Machine Learning**.  

Mais específicamente, iremos aprender como manipular grandes conjuntos de dados utilizando a biblioteca [Pandas](https://pandas.pydata.org/), como realizar complexas operações matemáticas utilizando a biblioteca [Numpy](http://www.numpy.org/) e, por fim, como criar visualizações intuitivas utilizando a biblioteca [Matplotlib](https://matplotlib.org/).


### Sumário
* [Parte 1 - Manipulação de Dados](#Parte-1---Representa%C3%A7%C3%A3o-de-Dados)
* [Parte 2 - Operações Matemáticas](#Parte-2---Operações-Matemáticas)
* [Parte 3 - Visualização de Dados](#Parte-3---Visualização-de-Dados)


### Bibliotecas

In [None]:
import pandas as pd                 # Representação e Manipulação dos Dados
import numpy as np                  # Operações Matriciais e Complexas
import matplotlib.pyplot as plt     # Visualização de Dados

# Essa linha abaixo é apenas para que os 
# plots sejam gerados logo abaixo da célula de código
%matplotlib inline

---
## Parte 1 - Representação de Dados

Em todos os algoritmos de Machine Learning, nossos modelos serão treinados através de uma alimentação de dados.
    
Na forma mais comum, os dados são estruturados em Tabelas. Regularmente, esses dados estão armazenados em arquivos onde cada arquivo referente a um fenômeno trás uma observação por cada linha, e para cada observação um conjunto de atributos dispostos nas colunas. Em _Aprendizagem Supervisionada_, a última coluna costuma representar o "output" do modelo para cada observação (no caso de Classificação, a última coluna indica a qual "classe" a observação pertence).

A biblioteca **Pandas** é uma ferramenta ótima para carregar, manipular, processar e representar grandes conjuntos de dados. As células abaixo demonstram diversas formas de utilização das funções dessa bibliotecas para carregar e manipular um conjunto de dados armazenado em um arquivo do tipo CSV. 

Para mais informações, consulte a [documentação dessa biblioteca](http://pandas.pydata.org/pandas-docs/stable/).

In [None]:
## CARREGANDO OS DADOS ATRAVÉS DE UM ARQUIVO ##
# -- SEU CÓDIGO AQUI -- #

In [None]:
## ACESSANDO E MANIPULANDO OS DADOS ##
# Indexação por posição: dataframe.iloc[<Linha>, <Coluna>]
# -- SEU CÓDIGO AQUI -- #

# Indexação por índice/atributo: dataframe.loc[<Índice>, <Atributo>]
# -- SEU CÓDIGO AQUI -- #

# Indexação por condição: dataframe[<Teste Condicional>]
# -- SEU CÓDIGO AQUI -- #

In [None]:
## PRÉ-PROCESSAMENTO DOS DADOS ##
# Armazenando as dimensões dos dados
# -- SEU CÓDIGO AQUI -- #

# Transformando as Classes em Números
# -- SEU CÓDIGO AQUI -- #

# Separação do Conjunto de Treino e Conjunto de Teste
# -- SEU CÓDIGO AQUI -- #

# Obtendo matrizes (formato Numpy) correspondentes
# -- SEU CÓDIGO AQUI -- #

---
## Parte 2 - Operações Matemáticas

Como estamos trabalhando com conjuntos de dados tabulares, podemos representá-los como matrizes (como visto na célula anterior) e então utilizarmos de técnicas de álgebra linear para processar os dados e implementar os algoritmos desejados. Na realidade, a álgebra linear é uma das ciências que fundamentam toda a área de Machine Learning.
    
Apesar de que um conhecimento teórico mais profundo (Espaços Vetoriais, Propriedades Matriciais, etc...) é extremamente desejável, este mini-curso apenas irá exigir que você conheça algumas operações matrizes/vetores.

**Soma/Subtração de Matrizes**: sejam duas matrizes $\mathbf{X}$ e $\mathbf{Y}$, de mesma dimensão (condição necessária!), a soma $\mathbf{X} + \mathbf{Y}$ é computada como:

$$
    \begin{bmatrix}
     X_{11} & X_{12} \\ 
     X_{21} & X_{22}  
    \end{bmatrix} + \begin{bmatrix}
     Y_{11} & Y_{12} \\ 
     Y_{21} & Y_{22}  
    \end{bmatrix} = \begin{bmatrix}
     X_{11}+Y_{11} & X_{12}+X_{12} \\ 
     X_{21}+X_{21} & X_{22}+X_{22}  
    \end{bmatrix}
$$

**Multiplicação por Escalar**: seja um número escalar $c$ e uma matriz qualquer $\mathbf{X}$, a multiplicação $c  \mathbf{X}$ é computada como:

$$
    c  \times  \begin{bmatrix}
     X_{11} & X_{12} \\ 
     X_{21} & X_{22}  
    \end{bmatrix} = \begin{bmatrix}
     c \times X_{11} & c \times X_{12} \\ 
     c \times X_{21} & c \times X_{22}  
    \end{bmatrix}
$$

**Multiplicação Element-Wise**: sejam duas matrizes $\mathbf{X}$ e $\mathbf{Y}$, de mesma dimensão (condição necessária!), a multiplicação elemento-a-elemento $\mathbf{X}\ .\times \mathbf{Y}$ é computada como:

$$
    \begin{bmatrix}
     X_{11} & X_{12} \\ 
     X_{21} & X_{22}  
    \end{bmatrix} .\times \begin{bmatrix}
     Y_{11} & Y_{12} \\ 
     Y_{21} & Y_{22}  
    \end{bmatrix} = \begin{bmatrix}
     X_{11} \times Y_{11} & X_{12} \times Y_{12} \\ 
     X_{21} \times Y_{21} & X_{22} \times Y_{22}  
    \end{bmatrix}
$$

**Transposta**: a transposta de uma matriz qualquer **X**, representada por $\mathbf{X^T}$, é computada como:

$$
    \begin{bmatrix}
     X_{11} & X_{12} & X_{13} \\ 
     X_{21} & X_{22} & X_{23} \\
     X_{31} & X_{32} & X_{33}
    \end{bmatrix}^T =
     \begin{bmatrix}
     X_{11} & X_{21} & X_{31} \\ 
     X_{12} & X_{22} & X_{32} \\
     X_{13} & X_{23} & X_{33}
    \end{bmatrix}
$$

**Multiplicação Matricial**: sejam duas matrizes $\mathbf{X}$ e $\mathbf{Y}$, tal que o número de colunas da primeira matriz é igual ao número de linhas da segunda matriz (condição necessária!), a multiplicação $\mathbf{X} \times \mathbf{Y}$ é computada como:

$$
    \begin{bmatrix}
     X_{11} & X_{12} & X_{13} \\ 
     X_{21} & X_{22} & X_{23}
    \end{bmatrix} \times \begin{bmatrix}
     Y_{11} & Y_{12} \\ 
     Y_{21} & Y_{22} \\ 
     Y_{31} & Y_{32}
    \end{bmatrix} = \begin{bmatrix}
     X_{11} \times Y_{11} + X_{12} \times Y_{21} + X_{13} \times Y_{31} & X_{11} \times Y_{12} + X_{12} \times Y_{22} + X_{13} \times Y_{32} \\ 
     X_{21} \times Y_{11} + X_{22} \times Y_{21} + X_{23} \times Y_{31} & X_{21} \times Y_{12} + X_{22} \times Y_{22} + X_{23} \times Y_{32}
    \end{bmatrix}
$$

Todas estas operações (e muitas outras) já estão nativamente incorporadas na biblioteca **Numpy**, e funcionarão perfeitamente contanto que as variáveis utilizadas sejam justamente do tipo específico dessa biblioteca. Além disso, a bibilioteca também dispõe de outras dezenas de complexas operações matemáticas e computacionais, mas que não serão tratadas neste mini-curso.

Para mais informações, consulte a [documentação dessa biblioteca](https://docs.scipy.org/doc/numpy-1.14.5/reference/).

In [None]:
## OPERAÇÕES MATRICIAIS COM O NUMPY ##
## Criando matrizes no Numpy:
A = np.array([[1,  3, 7],
              [5, -2, 0]])
B = np.array([[-3, 4,  1],
              [10, 0, -1]])

print("Matriz A:\n", A, "\nDimensões:", A.shape)
print()
print("Matriz B:\n", B, "\nDimensões:", B.shape)
print("\n---\n")

## Soma/Subtração de Matrizes
# -- SEU CÓDIGO AQUI -- #

## Multiplicação por Escalar
# -- SEU CÓDIGO AQUI -- #

## Multiplicação element-wise de Matrizes (.*)
# Obs.: O operador comum de multiplicação, *, é automaticamente interpretado como o operador de multiplicação 
#       element-wise quando as matrizes possuem a mesma dimensão.
# -- SEU CÓDIGO AQUI -- #

## Transpostas
# Obs.: O numpy já automaticamente computa um atributo "T" para cada matriz que armazena sua transposta.
# -- SEU CÓDIGO AQUI -- #

## Multiplicação Matricial
# Obs.: A função que implementa a multiplicação matricial no numpy é a "np.matmul"
# Obs.2: Note que precisamos utilizar a transposta de B para que as matrizes estejam na condição necessária.
# -- SEU CÓDIGO AQUI -- #

---
## Parte 3 - Visualização de Dados

Nossos algoritmos processam conjuntos de dados grandes com certa facilidade. Visualizar os resultados desse processamento, no entanto, pode não ser tão intuitivo a nós, meros humanos.  

Dessa forma, sempre que estamos trabalhando com dados é importante dispor de ferramentas que permitam uma rápida e clara visualização dos resultados de qualquer processamento/manipulação realizada, para que possamos avaliar e interpretar aquilo que os algoritmos estão produzindo.

A biblioteca **Matplotlib** é equipada com um conjunto de ferramentas para plotar gráficos e permitir a visualização de grandes conjuntos de dados. Seu funcionamento é relativamente intuitivo, e bastante similar com quase todas as outras bibliotecas de visualização que existem.

Para mais informações, consulte a [secção de tutoriais da biblioteca](https://matplotlib.org/2.2.2/tutorials/index.html).

In [None]:
## VISUALIZAÇÃO NÃO-CONDICIONADA COM O MATPLOTLIB ##
# Obs.: A visualização não-condicionada se refere à plotagem realizada sem nenhum elemento que identifique a que 
#       classe pertence as observações. É utilizada, principalmente, para analisar a distribuição dos atributos.

# -- SEU CÓDIGO AQUI -- #

In [None]:
## VISUALIZAÇÃO CONDICIONADA COM O MATPLOTLIB E NUMPY ##
# Obs.: A visualização condicionada se refere à plotagem realizada com as observações identificadas por diferentes
#       formas e/ou cores. É utilizada, principalmente, para interpretar a distribuição das classes.

# -- SEU CÓDIGO AQUI -- #