<a href="https://colab.research.google.com/github/jmcava/Curso-PHP-Laravel-Completo-E-Total/blob/master/Aula_7.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<p align="center"> <img src="https://datascience.study/wp-content/uploads/2019/01/python-logo.png"> </p>

## Bibliotecas para Machine Learning

Quando falamos a respeito de Machine Learning (em português, Aprendizagem de Máquinas) algumas tarefas rotineiras começam a surgir: leitura e manipulação de dados; pré-processamento de dados; escolha de técnicas para aprendizagem e visualização de dados. Nessa aula vamos estudar bibliotecas Python que nos auxiliam em tais tarefas, mas nosso foco não vai ser em técnicas de Machine Learning (isso será visto mais a frente em uma disciplina específica). Vamos estudar três bibliotecas: **pandas**, para manipulação de dados; **numpy**, para álgebra linear, cálculo e estatística e **matplotlib** para visualização de dados.



In [0]:
# Bibliotecas que vamos estudar
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from google.colab import files

### Numpy

A biblioteca [Numpy](https://numpy.org/) do python é fundamental na área de ciência de dados e em específico também para Machine Learning. É uma biblioteca que possui implementações matemáticas eficientes: 



1. **ndarray**, uma estrutura eficiente para armazenar arrays (vetores, matrizes,...) multidimensionais contendo operações aritméticas vetorizadas e capacidades sofisticadas de *broadcasting*.
2. Diversas operações matemáticas para operações eficientes.
3. Ferramentas para leitura e escrita de dados (bem simples em comparação ao pandas).
4. Implementações de álgebra linear, geração de números aleatórios e muitas outras. 
5. Ferramentas para integração de código em outras linguagens (C, C++, Fortran).

A biblioteca numpy é usada largamente no universo Python. Isso é tão verdade que, bibliotecas como o **pandas** e o **matplotlib** foram construídas para manipilar estruturas numpy e por isso é importante estudar a numpy primeiro.



### Numpy ndarray

Uma das melhores ferramentas da numpy certamente são os seus arrays multidimensionais. No uso diário de um cientista de dados estão mais presentes os arrays 1D e 2D, por isso esses serão nosso foco. Essas estruturas são tão flexíveis que nos permitem escrever operações entre matrizes, vetores e escalares de forma muito próxima a matemática.

In [0]:
# Criando um array (matriz) com 2 linhas e 3 colunas
X = np.array([[0.9526, -0.246, -0.8856],
              [0.5639, 0.2379, 0.9104]])

# Imprimindo nossos dados
print(X)

O método **array** cria um objeto array da numpy a partir de uma lista aninhada, no nosso caso essa lista representa uma matriz com 2 linhas e 3 colunas. Agora podemos executar diversas operações sobre os arrays da numpy. Por exemplo operações com escalares:

In [0]:
# Um número qualquer
n = 1 #@param {type:"number"}

# Multiplicando o array por n
print('Operação X * n')
print(X * n)

# A multiplicação não modifica o conteúdo de X
print('\nO array X não é alterado pela operação')
print(X)

Para saber o tamanho de um array em numpy nós fazemos uso do atributo **shape** que retorna uma tupla (praticamente uma lista imutável) com o tamanho de cada dimensão.

In [0]:
# Qual o tamanho do meu array (linhas e colunas)?
(linhas, colunas) = X.shape
print('Meu array tem %d linhas e %d colunas' % (linhas, colunas))

A numpy fornece um atributo **dtype** para informar o tipo de dado que estamos lidando (similar ao type do Python):

In [0]:
# Se usarmos o operador type convencional ele vai retornar o tipo de ndarray e não do conteúdo
print('O tipo do array é', type(X))

# Vamos ver qual o tipo de dados do meu array
print('O tipo de dados do array é',X.dtype)

O termo array, ndarray e Numpy Array podem ser usados como sinônimos, portanto sempre que uma das expressões surgir será relacionada a estrutura ndarray da Numpy.

### Criando arrays

A forma mais simples de criar novos arrays numpy é a partir do método **array**. Conforme o exemplo acima, podemos criar arrays a partir de listas aninhadas, mas também é possível utilizar listas comuns.


In [0]:
# Lista de dados
lista = [1, 5, 7, 9.6, 0]

# Criando um array numpy a partir de lista
y = np.array(lista)
print('Minha lista agora é um numpy array\n', y)
print('\nTamanho do array', y.shape)

No primeiro exemplo, nós convertemos implicitamente uma lista aninhada em um numpy array. No geral as listas aninhadas (de igual tamanho) serão convertidas em arrays multidimensionais:

In [0]:
# Uma lista aninhada de dados
listaaninhada = [[0, 1, 5], [4, 9, 3]]

# Criando um array de lista aninhada
X = np.array(listaaninhada)
print('Minha lista agora é um numpy array\n', X)
print('\nTamanho do array', X.shape)

Sem especificar o tipo de dados a numpy vai sempre buscar um tipo de dados mais adequado. Por exemplo nos casos acima:

In [0]:
# Tipo de dados de y
print('O array y é do tipo:', y.dtype)

# Tipo de dados de X
print('O array X é do tipo:', X.dtype)

Note que, no exemplo acima o array X é do tipo **int64**, pois, nós passamos uma lista aninhada apenas com valores inteiros, contudo muitas vezes vamos trabalhar com valores float, caso contrário as computações seriam sempre arredondadas!!! Portanto, é sempre útil informar o tipo de dados que você quer que seja utilizado, em nosso caso quase sempre será do tipo **float64** (quando tivermos apenas números) e **strings** em outros casos (quando possuímos dados categóricos).

In [0]:
# Forçando os dados a serem usados como float64
X = np.array(listaaninhada, dtype=np.float64)

# Tipo de dados de X
print('O array X é do tipo:', X.dtype)

A numpy também fornece métodos para criar arrays com conteúdo específico. Por exemplo, os métodos **zeros**, **ones** e **empty**, respectivamente iniciam um array com zeros, uns e vazio. Para criar um array com qualquer desses tipos de dados, passamos uma tupla com as dimensões:

In [0]:
# Criando um array 1D de zeros
array1D = np.zeros(10)
print('Array 1d de zeros\n', array1D)

# Criando um array 2D de uns
array2D = np.ones((4, 5))
print('\nArray 2d de uns\n', array2D)

# Criando um array 1D vazio
array1Dvazio = np.empty(6)
print('\nArray 1d vazio\n', array1Dvazio)

Verifique abaixo os tipos de dados de cada um deles (atributo **dtype**) e o tamanho de cada um deles (atributo **shape**):

In [0]:
# Escreva aqui


A numpy fornece um outro método chamado **arange** que cria um array numpy similar a função **range** do Python.

In [0]:
# Criando um array de valores similar ao range do Python
arraydevalores = np.arange(10)

# O resultado é similar ao que a função range faz, mas nesse caso é um array numpy
print('A arange da numpy parece com a range do python\n', arraydevalores)

### Numpy arrays e álgebra linear

Em Machine Learning (ML) é essencial trabalharmos com álgebra linear, pois, as bibliotecas de ML fazem uso de extensas rotinas matemáticas, que sem álgebra linear dificilmente seriam resolvidas de forma eficiente. No caso do Python a numpy é certamente a biblioteca mais utilizada para álgebra linear. Bibliotecas de ML como a [scikit-learn](https://scikit-learn.org/stable/) implementam grande parte de seus algoritmos utilizando a numpy. Quando falamos sobre álgebra linear estamos interessados em um tipo de estrutura matemática chamada **matriz**. Vamos ver alguns conceitos de álgebra linear e depois veremos a relação com numpy arrays.

### Conceitos básicos de álgebra linear

Nesta sessão são apresentadas algumas notações e conceitos básicos úteis para o entendimento dos algoritmos de Machine Learning. Primeiro, denotamos por $A \in \mathbb{R}^{m\times n}$ uma matriz de $m$ linhas e $n$ colunas de números reais. Um elemento $i, j$ da matriz é acessado por suas coordenadas linha e coluna, isto é, $A_{i,j}$. Por exemplo, uma matriz $A$ de $4 \times 8$: 

$$A=\begin{bmatrix} 3 & 4 & 10 & 28 & 99 & 59 & 8 & 9\\ 8 & 4 & 6 & 45 & 6 & 9 & 0 & 3\\ 9 & 2 & 3 & 4 & 6 & 7 & 89 & 10\\ 9 & 5 & 45 & 7 & 8 & 10 & 23 & 6 \end{bmatrix}$$

Nesse exemplo, o elemento $A_{1,4}=28$. Também, denotamos por $x \in \mathbb{R}^n$ um vetor de $n$ elementos. Em matemática um vetor com $n$ elementos é normalmente definido como um vetor coluna com dimensão $n \times 1$, também dizemos que um vetor é um vetor linha se ele tem dimensão $1\times n$. Um dado elemento $i$ de um vetor qualquer $x$ é acessado por $x_i$. Por exemplo, um vetor linha $1\times 5$ e um vetor coluna $5\times 1$: 

$$b=\begin{bmatrix} 50 & 70 & 30 & 7 & 10 \end{bmatrix}, ~c=\begin{bmatrix} 50 \\ 70 \\ 30 \\ 7 \\ 10 \end{bmatrix}$$

Para esses vetores, os elementos $b_2=70$ e $c_3=30$. Note que, por convenção os vetores são denotados por letras minúsculas enquanto as matrizes são denotadas por letras maiúsculas, outro fato importante é que vetores são um caso especial de matrizes que tem ou uma linha, ou uma coluna. Matrizes são interessantes para lidar com problemas de álgebra linear, pois, é possível desenvolver algoritmos eficientes utilizando essas estruturas. Além do mais, muitas linguagens como Python, MATLAB e R possuem implementações eficientes de operações com matrizes, portanto é muito importante estudar essa área. Dessa forma, vamos definir algumas operações com matrizes. A primeira delas é a adição: 

$$A+B=\begin{bmatrix}3 & 7 \\ 10 & 3 \\ 4 & 8 \end{bmatrix}+\begin{bmatrix}5 & 6 \\ 8 & 3 \\ 0 & 9 \end{bmatrix}=\begin{bmatrix}8 & 13 \\ 18 & 6 \\ 4 & 17 \end{bmatrix}$$

Prosseguimos com a inversa da adição, a subtração: 

$$A-B=\begin{bmatrix}3 & 7 \\ 10 & 3 \\ 4 & 8 \end{bmatrix}-\begin{bmatrix}5 & 6 \\ 8 & 3 \\ 0 & 9 \end{bmatrix}=\begin{bmatrix}-2 & 1 \\ 2 & 0 \\ 4 & -1 \end{bmatrix}$$

Note que somar ou subtrair matrizes só é possível dado que ambas tenham as mesmas dimensões. Também é possível fazer operações entre matrizes e escalares. Nesse caso, todos os elementos da matriz fazem operação com o escalar. Por exemplo, multiplicação escalar: 

$$100\times C = 100\times \begin{bmatrix}5 & 6 \\ 8 & 3 \\ 0 & 9 \end{bmatrix}=\begin{bmatrix}500 & 600 \\ 800 & 300 \\ 0 & 900 \end{bmatrix}$$

Multiplicações de matrizes podem ser feitas de mais de uma forma. A mais comum é definida sobre duas matrizes, onde o número de colunas da primeira matriz deve ser igual ao de linhas da segunda, caso contrário a operação não existe. Nesse caso, a matriz resultante tem o mesmo número de linhas da primeira matriz e o mesmo número de colunas da segunda matriz. Considere por exemplo, a multiplicação de uma matriz e um vetor: 

$$Ab=\begin{bmatrix}5 & 6 \\ 8 & 3 \\ 0 & 9 \end{bmatrix}\times \begin{bmatrix}5 \\ 2\end{bmatrix}=\begin{bmatrix}(5\times 5) + (6\times 2) \\ (8\times 5) + (3\times 2) \\ (0\times 5) + (9\times 2) \end{bmatrix}=\begin{bmatrix} 37 \\ 46 \\ 18 \end{bmatrix}$$

A operação $Ab$ resulta em um vetor que é também chamada de combinação linear. Finalmente, outra operação importante é a transposição. Transpor uma matriz é trocar suas linhas pelas suas colunas. Se $A$ é uma matriz então sua transposta é $A^T$. Exemplo: 

$$A=\begin{bmatrix}8 & 68 & 6 & 5 \\ 8 & 4 & 6 & 12 \\ 9 & 12 & 67 & 7 \end{bmatrix},~~ A^T=\begin{bmatrix} 8 & 8 & 9 \\ 68 & 4 & 12 \\ 6 & 6 & 67 \\ 5 & 12 & 7\end{bmatrix}$$

Existem muitas outras operações de matrizes, contudo o conteúdo que vamos abordar se limita ao que foi apresentado. Existe um [material](http://cs229.stanford.edu/section/cs229-linalg.pdf) excelente de álgebra linear disponibilizado na internet pelo professor Andrew Ng, contendo uma revisão aprofundada em outros conceitos de álgebra linear.


### Matrizes e vetores com numpy arrays

A relação entre os numpy arrays e matrizes e vetores de álgebra linear são diretas. Basta associarmos as listas com vetores e as listas aninhadas com matrizes. Pode surgir a dúvida de porque não usar as listas em vez dos arrays da numpy? A resposta é simples: **listas em Python não possuem operações matemáticas por default**, lembre-se do operador + que concatena e do operador * que repete a lista. Por exemplo, considere o seguinte vetor:
$$x= \begin{bmatrix}
50\\
70\\
30\\
7\\
10
\end{bmatrix} $$

Vamos criar uma lista que tem os valores de $x$ e em seguida passar para a numpy criar um array e pronto nós temos o nosso vetor:

In [0]:
# Lista de valores do vetor x
listax = [50, 70, 30, 7, 10]

# Criando um vetor com a numpy
x = np.array(listax)

# Agora temos um vetor implementado com a numpy
print('Meu vetor é\n', x)

A associação com as matrizes e as listas aninhadas segue a mesma regra. Suponha que temos a seguinte matriz:

$$A=\begin{bmatrix}8 & 68 & 6 & 5 \\ 8 & 4 & 6 & 12 \\ 9 & 12 & 67 & 7 \end{bmatrix}$$

Passando ela para uma lista aninhada e depois para um numpy array temos então nossa matriz:

In [0]:
# Lista aninhada de A
listaA = [[8, 68, 6, 5],
          [8, 4, 6, 12],
          [9, 12, 67, 7]]

# Criando uma matriz com a numpy
A = np.array(listaA)

# Agora temos uma matriz implementada com a numpy
print('Minha matriz é\n', A)

Agora que sabemos como implementar matrizes e vetores com a numpy array, podemos utilizar operações de álbegra linear. Daqui para frente vamos nos referir como array numpy, quando for 1D estamos falando de um vetor e quando for 2D estamos falando de uma matriz. A lista e a lista aninhada são úteis para entender a relação entre as estruturas, porém, o código fica mais simples passando diretamente a estrutura para o numpy array, portanto vamos adotar esse comportamento a partir de agora.

### Operações entre arrays e escalares

Operações entre arrays (matrizes e vetores) com escalares geralmente são implementadas via loops. Contudo, quando utilizamos bibliotecas de álgebra linear esperamos que essas operações sejam feitas sem uso de loops, esse comportamento é chamado de **vetorização**. Qualquer operação entre arrays numpy e escalares é uma operação elemento a elemento:

In [0]:
# Criando um vetor com a numpy
x = np.array([50, 70, 30, 7, 10])

# Vamos dividir o vetor por algum valor
valor = 6 #@param {type:"number"}

# Operação de divisão de 
# um vetor por um escalar
print(x / valor)

Podemos fazer operações mais complexas como por exemplo elevar todo o array para algum expoente:

In [0]:
# Criando uma matriz com a numpy
A = np.array([[8, 68, 6, 5],
              [8, 4, 6, 12],
              [9, 12, 67, 7]])

# Vamos elevar a matriz por algum expoente
expoente = 2 #@param {type:"number"}

# Operação de potência 
# da matriz por um expoente
print(A**expoente)

E certamente as operações mais interessantes são entre arrays:

In [0]:
# Um vetor e uma matriz
A = np.array([[8, 68, 6, 5],
              [8, 4, 6, 12],
              [9, 12, 67, 7]])

x = np.array([50, 70, 30, 7])

# Transposição de A
print('A transposição é feita pelo atributo T, ou seja, \nAˆT=\n', A.T)

# Somando A com A (elemento a elemento)
print('\nA+A=\n', A + A)

# Subtraindo A com A (elemento a elemento)
print('\nA-A=\n', A - A)

# Multiplicando A por A (elemento a elemento)
print('\nA*A=\n', A * A)

# Dividindo A por A (elemento a elemento)
print('\nA/A=\n', A / A)

# Combinação linear entre A e x é feita pelo método dot
print('\nAx\n', A.dot(x))

# Fazendo a combinação linear de x com x
print('\nx^Tx=\n', x.T.dot(x))

### Índices e Slice

Os arrays numpy permitem fazer operações de **índices** e **slicing**. Quando falamos de arrays 1D as operações de acesso a índices e de slicing são muito similares as de lista, utilizando o operador [ ]. Claramente os arrays numpy são **mutáveis**.

In [0]:
# Criando um array 1D
x = np.array([50, 70, 30, 7])

# Acessando uma posição
print('O primeiro elemento de x é', x[0])

# Extraindo um subarray, parecido com sublista
print('Os primeiros 3 elementos de x são', x[0:3])

# Também suporta atribuição multipla
x[0:3] = [7, 9, 100]
print('Agora os primeiros 3 elementos de x são', x[0:3])

Uma diferença importante entre as listas e os arrays da numpy é que as operações de slicing não realizam cópias como no caso das listas. Esse comportamento é para evitar problemas de eficiência de memória.

In [0]:
# Criando um array 1D
x = np.array([50, 70, 30, 7])

# Atribuindo uma referência aos valores de x
y = x[0:2]
print('Valores em y\n', y)

# Se alterarmos x y também será alterado
x[0:2] = [29, 80]
print('\nValores em y alterados\n', y)

Se você realmente quer copiar os valores entre os arrays, você pode fazer uso do método **copy()**.

In [0]:
# Criando um array 1D
x = np.array([50, 70, 30, 7])

# Agora x será copiado para y
y = x[0:2].copy()
print('Valores em y\n', y)

# Se alterarmos x y também será alterado
x[0:2] = [29, 80]
print('\nValores em y não são alterados\n', y)

Quando se trata de arrays 2D as indexações e slicing são um pouco diferentes e igualmente mais poderosas. Continuamos com o uso dos colchetes [ ], mas agora podemos usar os : em ambas as dimensões (também chamados de eixos, ou **axis**), o que vai significar que podemos obter slicing de linhas e de colunas.

In [0]:
# Um array 2D
A = np.array([[8, 68, 6],
              [8, 4, 6],
              [9, 12, 67]])

# Podemos acessar as posições com apenas um colchete []
# ou com dois colchetes [][] essas operações são equivalentes em 2D
print('O primeiro valor de A é', A[0,0])
print('O primeiro valor de A é', A[0][0])

Para termos em mente o que ocorre quando acessamos as posições de um array 2D da numpy, podemos fazer uma figura representando as posições na memória do array:

<p align="center">
    <img width=270px src="https://i.imgur.com/x76KKku.jpg"/>
</p>
<center><b>Fig-1.</b> Exemplo de um array numpy 2D com 3 linhas e 3 colunas na memória.</center>

Se passarmos apenas um índice para o array 2D ele vai retornar uma linha do array, se passarmos um intervalo ele vai retornar multiplas linhas. Por exemplo, retornar a primeira linha do array:

In [0]:
# Um array qualquer
A = np.array([[8, 68, 6],
              [8, 4, 6],
              [9, 12, 67]])

# Acessando a primeira linha de duas formas equivalentes
print('Primeira linha de A é', A[0])
print('Primeira linha de A é', A[0, :])

A segunda operação $A[0, :]$ indica para a numpy que ela deve retornar a primeira linha (ou seja, linha 0) e todas as colunas (ou seja, operador :). Claro que isso é útil para pegarmos intervalos e não apenas a primeira linha. Por exemplo, fazendo slicing em linhas:

In [0]:
# Um array qualquer
A = np.array([[8, 68, 6],
              [8, 4, 6],
              [9, 12, 67]])

# Pegar as duas primeiras linhas e todas as suas colunas
print('As duas primeiras linhas são \n', A[0:2, :])

Podemos fazer também o slicing em colunas:

In [0]:
# Um array qualquer
A = np.array([[8, 68, 6],
              [8, 4, 6],
              [9, 12, 67]])

# Pegar todas as linhas e as 2 primeiras colunas
print('As duas primeiras colunas são \n', A[:, 0:2])

Podemos combinar em ambas as dimensões:

In [0]:
# Um array qualquer
A = np.array([[8, 68, 6],
              [8, 4, 6],
              [9, 12, 67]])

# Pegar todas as 2 primeiras linhas e colunas
print('As duas linhas/colunas são \n', A[0:2, 0:2])

Os slicings também suportam índices negativos como nas listas:

In [0]:
# Um array qualquer
A = np.array([[8, 68, 6],
              [8, 4, 6],
              [9, 12, 67]])

# Pegar todas as linhas da última coluna
print('A última coluna é \n', A[:, -1])

### Métodos úteis

Vamos considerar a aplicação desses métodos em arrays 2D, pois, em 1D é muito similar considerando que temos apenas uma dimensão (eixo). A numpy fornece alguns métodos muito úteis para estatística e algumas outras operações. Por exemplo é fácil calcular a média de um array a partir do método **mean()**:

In [0]:
# Um array 2D
A = np.array([[8, 68, 6],
              [8, 4, 6],
              [9, 12, 67]])

# Calculando a média de A
print('A média de A é', A.mean())

Outro método útil é para calcular o desvio padrão, pelo método **std()**:

In [0]:
# Um array 2D
A = np.array([[8, 68, 6],
              [8, 4, 6],
              [9, 12, 67]])

# Calculando o desvio padrão de A
print('A desvio padrão de A é', A.std())

Podemos calcular também a soma dos elementos com **sum()**:

In [0]:
# Um array 2D
A = np.array([[8, 68, 6],
              [8, 4, 6],
              [9, 12, 67]])

# Calculando o desvio padrão de A
print('A soma dos elementos de A é', A.sum())

Podemos também encontrar o mínimo e o máximo com **min()** e **max()**:

In [0]:
# Um array 2D
A = np.array([[8, 68, 6],
              [8, 4, 6],
              [9, 12, 67]])

# Encontrando o mínimo
print('O menor elemento de A é', A.min())
# Encontrando o máximo
print('O maior elemento de A é', A.max())

O mais interessante é que, essas operações podem ser aplicadas sobre os eixos do array. Por exemplo, é possível calcular a média do array por linha ou por coluna passando a opção **axis**:

In [0]:
# Um array 2D
A = np.array([[8, 68, 6],
              [8, 4, 6],
              [9, 12, 67]])

# Computa a média por coluna de A
print('A média por coluna é', A.mean(axis=0))

# Computa a média por linha de A
print('A média por linha é', A.mean(axis=1))

### Salvando um array numpy

Vamos utilizar na maioria dos casos uma biblioteca como o **pandas** para leitura de dados. Contudo, é comum nós salvarmos os arrays numpy separadamente, pois, os modelos de ML geralmente fornecem arrays de **pesos**. Para salvar um array numpy é muito simples, basta usar o método **np.savetxt**, que apesar do nome salva em outros formatos além do txt. O **np.savetxt** recebe como primeiro argumento o nome do arquivo, o segundo ele recebe o array e se necessário um delimitador no parâmetro default **delimiter**:

In [0]:
# Um array 2D
A = np.array([[8, 68, 6],
              [8, 4, 6],
              [9, 12, 67]])

# Salvando A
np.savetxt("A.csv", A, delimiter=",")

Para carregar podemos usar o pandas (veremos mais a frente) e a própria numpy fornece o método **np.loadtxt**. O método **np.loadtxt** recebe como primeiro argumento o nome do arquivo como extensão e geralmente recebe o parâmetro **delimiter**. É importante frisar que o delimiter deve ser o **mesmo que foi utilizado para salvar o arquivo**, caso contrário vai ocasionar um erro.

In [0]:
# Carregando um array do arquivo A.csv
B = np.loadtxt('A.csv', delimiter=',')

# A matriz foi carregada
print('Array carregado de A.csv\n', B)

Mude os delimitadores para '\t' e ';' e veja o que acontece ao tentar carregar com o ',':

In [0]:
# Escreva aqui


O que é interessante de usar numpy arrays é que podemos implementar de forma direta muitas equações matemáticas de álgebra linear e principalmente as de ML. Considere por exemplo a seguinte equação:

$$ Z = \frac{X-\min(X)}{\max(X)-\min(X)} $$

onde, $ \max(X) $ é o vetor de máximos do eixo 0 e $ \min(X) $ é o vetor de mínimos do eixo 0. Esse método é chamado na literatura de normalização **maxmin** e é usado como pré-processamento nos modelos de ML. Para implementar com a numpy é muito simples:

In [0]:
# Um array 2D
A = np.array([[8, 68, 6],
              [8, 4, 6],
              [9, 12, 67]])

# Normalização maxmin
Z = (A-A.min(axis=0))/(A.max(axis=0)-A.min(axis=0))

# Imprimindo X normalizado por maxmin
print('O array X normalizado por maxmin é\n', Z)

### Exercícios

Considere as seguintes matrizes / vetores:
$$ X = \begin{bmatrix}
1 & 34.62365962 & 78.02469282\\
1 & 30.28671077 & 43.89499752\\
1 & 35.84740877 & 72.90219803\\
1 & 60.18259939 & 86.3085521 \\
1 & 79.03273605 & 75.34437644\\
\end{bmatrix}, Y=\begin{bmatrix}
0\\
0\\
0\\
1\\
1\\
\end{bmatrix}, \theta = \begin{bmatrix}-0.04730813\\  0.21502388\\  0.11895605\\\end{bmatrix} $$

**Ex1.** Crie numpy arrays para representar todas as estruturas acima.

In [0]:
# Escreva aqui


**Ex2.** Implemente a operação $ X\theta $.

In [0]:
# Escreva aqui
)

**Ex3.** Implemente as seguintes operações: 

$X\theta - Y$ <br>
$X\theta + Y$ <br>
$X\theta * Y$ <br>
$X\theta ~/~ Y$

In [0]:
# Escreva aqui


**Ex4.** Implemente a seguinte operação: 

$$c = \frac{1}{2m} (X\theta-Y)^T(X\theta-Y) $$

onde $m$ é o número de linhas de $X$.

In [0]:
# Escreva aqui


**Ex5.** Implemente a seguinte operação: 

$$d = \frac{1}{m}(X\theta-Y)(X) $$ 

onde $m$ é o número de linhas de $X$.

In [0]:
# Escreva aqui


**Ex6.** Acima nós falamos de uma aplicação de numpy arrays chamada de normalização. Especificamente falamos sobre o maxmin. Existe uma outra chamada de zscore que é utilizada para normalizar dados e em outras aplições também. A normalização zscore é definida da seguinte forma:

$$ Z = \frac{X-\mu(X)}{\sigma(X)} $$

onde, $ \mu(X) $ é o vetor de média do eixo 0 e $ \sigma(X) $ é o vetor de desvio padrão do eixo 0. Implemente uma função chamada **zscore** que recebe um numpy array 2D chamado $X$ e retorna o valor normalizado pela equação acima.

In [0]:
# Escreva aqui


### Pandas

O [pandas](https://pandas.pydata.org/pandas-docs/stable/) é uma biblioteca Python muito utilizada para leitura e manipulação de dados provenientes de arquivos de texto (csv, xls, txt). Além disso, ela possuí diversos métodos para filtrar dados, selecionar dados, juntar dados e muitos outros. Nosso foco da aula será na leitura e filtragem de dados. Para manipular os arquivos precisamos subir eles para o google colab. Uma das formas é utilizando **files.upload()** que vai abrir uma janela convencional e solicitar os arquivos.

In [0]:
# Carregando arquivo via upload para o colab
upload = files.upload()

Agora podemos carregar nossos dados utilizando o método **pd.read_csv**, que recebe como primeiro parâmetro o nome do arquivo com extensão, e os parâmetros opcionais **sep** que especifica um separador e **header** que indica se existe ou não header no arquivo (por default ele considera que existe, para ignorar deve-se passar **header=None**).

In [0]:
# Lendo um arquivo com pandas
dados1 = pd.read_csv('data1.csv', sep=',')
dados1

Quando chamamos dados1 acima ele apresenta uma tabela bem amigável com os dados carregados. Internamente os dados estão armazenados como arrays numpy. Muitas vezes temos uma quantidade absurda de dados e não é possível imprimir todos eles no terminal. Dessa forma, existe um método chamado **head()** que recebe como parâmetro o número de linhas que deve ser impresso:

In [0]:
# Imprime as três primeiras linhas de dados1
dados1.head(3)

Algumas vezes é interessante extrair informações estatísticas dos nossos dados, no pandas existe o método **describe()** que apresenta uma estatística resumida dos dados:

In [0]:
# Apresentando algumas estatísticas dos nossos dados
dados1.describe()

Quando informamos um **header** para os nosso dados é possível utilizar a chave como índice das colunas (similar ao funcionamento de um dicionário em Python)

In [0]:
# Pegando os dados da coluna faltas
dados1['Faltas']

Para obter a lista de colunas atuais do nosso objeto pandas existe o atributo **columns**, mais uma vez é similar aos dicionários em Python (provavelmente é implementado assim).

In [0]:
# Lista de colunas
print('As colunas do meu objeto pandas são', dados1.columns)

Estamos usando o nome objeto pandas, isso porque internamente o que temos é uma classe chamada DataFrame que contém os métodos que estamos utilizando, porém não vamos ver orientação a objetos nessa aula, portanto vamos manter o nome objeto pandas. O pandas permite ordenar os dados utilizando alguma coluna como referência, podemos fazer isso a partir do método **sort_values** passando na opção **by** o nome da coluna.

In [0]:
# Ordenando nossos dados pela coluna Aluno
dados1.sort_values(by='Aluno')

No nosso exemplo acima, os dados foram ordenados a partir da coluna Aluno. Esse comportamento é similar ao **order_by** muito utilizado em bancos de dados **Sql**. Outro comando útil é o **unique()** que serve para retornar os valores exclusivos de uma dada coluna do objeto pandas.

In [0]:
# Por exemplo na seminários temos valores entre 7.5 e 9.0 
# os valores únicos seriam aqueles sem repetição, isto é,
# 7.5, 8, 8.5, 9
dados1['Seminário'].unique()

Podemos também utilizar o comando **len** que vai retornar a quantidade de itens (ou linhas, ou registros) do nosso objeto pandas.

In [0]:
# Pegando o número de linhas (ou comprimento)
# do nosso objeto pandas
print('Nós temos %d registros' % len(dados1))

### Comando iloc

E se quissermos selecionar linhas ao invés de colunas? Podemos fazer uso do método iloc. O método iloc funciona como os arrays 2D da numpy, podemos selecionar por linhas, colunas ou por slicing. Uma coisa importante é que o iloc suporta apenas números como índices (similar  a uma lista em Python).

In [0]:
# Primeiro aluno da tabela
print('O primeiro aluno é\n')
print(dados1.iloc[0, :])

# Último aluno da tabela
print('\nO último aluno é\n')
print(dados1.iloc[-1, :])

# Dois primeiros alunos
print('Os dois primeiros alunos são\n')
dados1.iloc[0:2, :]

O comando **iloc** é bem simples mas versátil quando precisamos filtrar os dados por índices numéricos. Contudo, geralmente queremos utilizar condições ou mesmo chaves que representam strings (similar aos dicionários), nesse caso temos o comando **loc**.

### Comando loc

O irmão mais velho do iloc é o loc. No loc é possível usar strings para obter linhas, como fazemos com os headers das colunas. Além do mais podemos usar condições. Vale ressaltar que, ele também suporta as operações do iloc. Vejamos um exemplo do loc utilizando uma chave do tipo string.

In [0]:
# Precisamos dizer ao pandas o que ele deve utilizar como índice para o loc
dados2 = dados1.set_index('Aluno')

# Pegando o usuário com nome Alberto
dados2.loc['Alberto']

Note que, no nosso exemplo acima, tivemos que atribuir a chamada de set_index novamente para dados1, isso ocorre porque essa operação não altera o dados1 e sim retorna um novo dataframe com o resultado do filtro. Isso ocorre porque muitos filtros são interessantes para obter dados sem alterar o objeto original. Também é possível passar uma lista de chaves (no nosso caso Aluno) para filtrar os dados:

In [0]:
# Pegando os Alunos com nomes Alberto e Joaquim
dados2.loc[['Alberto', 'Joaquim']]

Também podemos fazer combinações mais complexas como filtrar as colunas (nesse caso obrigatóriamente utilizando strings)

In [0]:
# Pegando os dados de Faltas dos Alunos com nome Alberto e Joaquim
dados2.loc[['Alberto', 'Joaquim'], 'Faltas']

E agora vem um dos recursos mais fantásticos do loc! Podemos utilizar operadores condicionais e lógicos para filtrar os dados. Por exemplo, suponha que queremos apenas os alunos com falta maior que dois.

In [0]:
# Pegando os alunos com falta > 2
dados2.loc[dados2['Faltas'] > 2, :]

Operações de seleção mais complexas são possíveis. Por exemplo, retornar todos os alunos que tiveram Prova > 5 e Seminários > 7.5

In [0]:
# Pegando os alunos com Prova > 5 e Seminário > 7.5 
dados2.loc[(dados2['Prova'] > 5) & (dados2['Seminário'] > 7.5)]

O operador loc também suporta atribuição por slicing e pelas condicionais. Tome cuidado com essa operação, pois, ela vai alterar o conteúdo do objeto. Por exemplo, digamos que queremos adicionar um ponto aos alunos que tem falta menor que 3. 

In [0]:
# Cuidado a linha abaixo altera o conteúdo!
dados2.loc[dados2['Faltas'] < 3, ['Prova']] += 1
dados2

### Método values

O pandas também tem por padrão um método values que retorna um objeto numpy contendo os dados (ou por um filtro ou direto do próprio objeto). Por exemplo, vamos retornar os dados de Faltas e Seminário.

In [0]:
# Colocando os dados de Faltas e Seminários do pandas em um array numpy
dados = dados1[['Faltas', 'Seminário']].values
print('Agora tenho um numpy array 2D com os dados de Faltas e Seminário\n', dados)

Normalmente o ciclo de trabalho entre a pandas e a numpy segue o que vimos aqui. Carregamos os dados via **pandas**, aplicamos algum filtro necessário e então passamos através de **values** para um array **numpy**, depois disso podemos aplicar Machine Learning em nossos dados. Claro que existem muitos outros recursos do **pandas** bem como da **numpy**, mas para as aplicações gerais de ML o que vimos na aula é mais do que suficiente.

### Exercícios

Antes de começar os exercícios carregue o arquivo de dados usando o files.upload(). Nossos dados são informações de apartamentos a venda em diversas localidades do Rio de janeiro. Os dados foram obtidos do site [DataHackers](https://datahackers.com.br/).

In [0]:
# Carregando arquivo via upload para o colab
upload = files.upload()

**Ex1.** Carregue os dados utilizando o pandas e mostre as 7 primeiras linhas.

In [0]:
# Não esqueça de especificar o separador
# a maioria dos erros ocorrem ou por esquecer o
# separador ou pelos dados não possuirem header


**Ex2.** Faça uma função **filtra_por_bairro** que recebe um objeto pandas e uma string **bairro** e retorna um objeto pandas filtrado pelo bairro.

In [0]:
# Escreva aqui


**Ex3.** Filtre os dados utilizando **bairro**='Botafogo' e apenas as linhas que tem **condominio** abaixo de 1000 reais. 

In [0]:
# Escreva aqui


**Ex4.** Filtre os dados de saída do exercício acima considerando as linhas do objeto pandas que tem pelo menos uma suite, uma vaga de garagem e dois quartos.

In [0]:
# Escreva aqui


**Ex5.** Construa uma função **filtra_por_preco** que recebe os dados originais e retorna todas as casas que custam entre R\$:1140613 reais e R\$:3188386 reais.

In [0]:
# Escreva aqui


**Ex6.** Faça um filtro que remove todos os apartamentos com perímetro quadrado (pm2) menor que 10000, depois ordene e exiba os quinze primeiros registros de acordo com a coluna bairro e finalmente salve os dados de **condominio**, **quartos**, **suites**, **vagas**, **area** e **preco** em um csv no formato de um array numpy.

In [0]:
# Escreva aqui


### Matplotlib

A [matplotlib](https://matplotlib.org/) é provavelmente a mais famosa biblioteca para plotar gráficos em Python. Existem alternativas como a [seaborn](https://seaborn.pydata.org/), mas como a seaborn é baseada na matplotlib é melhor aprender a própria matplotlib. O comando mais simples da matplotlib é o **plot**. O comando plot recebe uma grande quantidade de argumentos, mas pelo menos dois são obrigatórios: um valor (ou lista, ou numpy array) para o eixo x e outro valor (ou lista, ou numpy array) para o y.

In [0]:
# Valores de x e y
x = np.array([1, 2, 3, 4])
y = np.array([1, 4, 9, 16])

# Plotando meu primeiro gráfico com matplotlib
plt.plot(x, y)
plt.show()

Nosso gráfico acima está bem incompleto, vamos adicionar algumas informações interessantes. Para adicionar um título, utilizamos o método **plt.title** para adicionar rótulos nos eixos fazemos uso dos métodos **plt.xlabel** e **plt.ylabel**.

In [0]:
# Valores de x e y
x = np.array([1, 2, 3, 4])
y = np.array([1, 4, 9, 16])

# Plotando meu primeiro gráfico com matplotlib
plt.plot(x, y)
plt.title('Meu primeiro gráfico em matplotlib')
plt.xlabel('Valores de x')
plt.ylabel('Valores de y')
plt.show()

Podemos passar um terceiro parâmetro para estilizar a cor e o tipo de linha do plot, ele é uma string, as variações são enormes, elas estão disponíveis na [documentação](https://matplotlib.org/2.1.2/api/_as_gen/matplotlib.pyplot.plot.html) oficial. Por exemplo, podemos mudar a cor para vermelho e a linha para tracejada passando a terceira opção do plot como 'r--'.

In [0]:
# Valores de x e y
x = np.array([1, 2, 3, 4])
y = np.array([1, 4, 9, 16])

# Plotando um gráfico mais elaborado
plt.plot(x, y, 'r--')
plt.title('Um gráfico mais elaborado em matplotlib')
plt.xlabel('Valores de x')
plt.ylabel('Valores de y')
plt.show()

Também é possível fazer múltiplos plots em um mesmo comando passando sequências x, y e estilização.

In [0]:
# Valores de x e y
x = np.array([1, 2, 3, 4])
y = np.array([1, 4, 9, 16])

# Múltiplos plots no mesmo comando
plt.plot(x, y, 'r--', x, y**2, 'bs', x, y**3, 'g^')
plt.title('Um gráfico com plots múltiplos em matplotlib')
plt.xlabel('Valores de x')
plt.ylabel('Valores de y')
plt.show()

Podemos plotar também variáveis categóricas. Por exemplo, com o comando **plt.bar** plotamos um gráfico de barra (um histograma) considerando que a categoria vem no eixo x e a contagem da categoria no eixo y.

In [0]:
# Cores de carro e quantidade de carros por cor
cores_de_carros = ['azul', 'preto', 'vermelho']
carros_por_cor = [10, 50, 100]

# Plotando
plt.figure(figsize=(9, 6))
plt.bar(cores_de_carros, carros_por_cor, color=['blue', 'black', 'red'])
plt.title('Um gráfico de barras com matplotlib')
plt.xlabel('Cores de carro')
plt.ylabel('Quantidade por cor')
plt.show()

No gráfico acima utilizamos um comando **plt.figure** e passamos a opção **figsize** que recebe uma tupla com os valores de tamanho em largura e altura do gráfico. Além disso, utilizamos a opção **color** que permite passar uma lista de cores para as nossas barras. Podemos estilizar os gráficos utilizando estilos prontos da matplotlib através do método **plt.style.use**, alguns vêm da biblioteca searborn.

In [0]:
# Usando um estilo da searborn
plt.style.use('seaborn-darkgrid')

# Cores de carro e quantidade de carros por cor
cores_de_carros = ['azul', 'preto', 'vermelho']
carros_por_cor = [10, 50, 100]

# Plotando
plt.figure(figsize=(9, 6))
plt.bar(cores_de_carros, carros_por_cor, color=['blue', 'black', 'red'])
plt.title('Um gráfico de barras com matplotlib')
plt.xlabel('Cores de carro')
plt.ylabel('Quantidade por cor')
plt.show()

É possível consultar a lista de estilos disponíveis através do atributo **plt.style.available**.

In [0]:
# Estilos disponíveis
print('Lista de estilos disponíveis:\n', plt.style.available)

# Setando o estilo ggplot
plt.style.use('ggplot')

Uma aplicação interessante é usando funções para fazer os plots. Por exemplo, considere a seguinte função sigmóide que recebe um array numpy e retorna o calculo da sigmóide:

In [0]:
#
# Função sigmóide, muito utilizada
# em ML em modelos de redes neurais e regressão logística.
#
def sigmoide(z):
    return (1/(1+np.exp(-z)))

Agora podemos definir um range de valores para x e plotar em y os valores de sigmoide(x). Vamos usar o método np.arange, passando três parâmetros, o início, o fim e o passo (lembre-se é similar ao range do Python).

In [0]:
# Usando a função arange com três parâmetros
x = np.arange(-10., 10., 0.2)

# Plotando nossa sigmoide para x
plt.figure(figsize=(9, 6))
plt.plot(x, sigmoide(x))
plt.title('Gráfico da sigmóide')
plt.xlabel('x')
plt.ylabel('sigmoide(x)')
plt.show()

### Exercícios

**Ex1.** Usando os dados do exercício sobre pandas, faça um filtro que faz um histograma da coluna bairro, depois faça um gráfico de barra com a matplotlib usando o histograma. 

In [0]:
# Escreva aqui


**Ex2.** Faça um gráfico entre a relação área e preço dos apartamentos.

In [0]:
# Escreva aqui


**Ex3.** Faça um gráfico da relação pm2 com preço dos apartamentos.



In [0]:
# Escreva aqui


**Ex4.** Faça um histograma da quantidade de quartos e plote um gráfico de barra com a matplotlib.

In [0]:
# Escreva aqui


**Ex5.** Faça um histograma da quantidade de vagas e plote um gráfico de barra com a matplotlib.

In [0]:
# Escreva aqui


**Ex6.** Faça um gráfico da relação da área com preço do condomínio.

In [0]:
# Escreva aqui
