# **Anotações da disciplina de Inteligência Artificial**

## **Normalização**
* *Note que, essas operações devem ser resolvidas obtendo os valores linha a linha*;
* Obter a média dos termos(**np.mean()**):
    * $\text{Média: }\mu_k=\frac{1}{m}\sum\limits_{i=1}^{m}x_k^{(i)}$ *(Onde 'm' é a quantidade das linhas)*

* Calcular o desvio padrão dos termos(**np.std()**):
    * $\text{Desvio Padrão: }\sigma_k=\sqrt{\frac{1}{m}\sum\limits_{i=1}^{m}(x_k^{(i)}-\mu_k)^2}$

* Atribuir o "novo" valor de X para cada X calculado:
    * $X_k=\frac{x_k-\mu_k}{\sigma_k}$

## **Regressão Linear**

### Observações
* $J(h)$ = *Função de Perda*

* *Custo* seria essa mesma função, porém, somente para um valor;

* **Logo, a função de perda é a soma dos custos!**

### Notação Algébrica

Definições:
* $h(x)=\theta_1x+\theta_0$
    
* $J(h)=\frac{1}{2m}\sum\limits_{i=0}^{m}((h(x_i)-y_i)^2)$    

    Algoritmo; sendo $i$ a iteração:

    * $\theta^i_1= \theta_1^{i-1} - \alpha \frac{\partial}{\partial \theta_1^{i-1}}J \to ~
     \theta_1^{i-1} - \alpha \frac{1}{m}\sum\limits_{i=0}^{m}((h(x_i)-y_i)x)$
    * $\theta^i_0= \theta_0^{i-1} - \alpha \frac{\partial}{\partial \theta_0^{i-1}}J \to ~
    \ \theta_0^{i-1} - \alpha \frac{1}{m}\sum\limits_{i=0}^{m}((h(x_i)-y_i)1)$
    

### Notação Matricial

Definições:

Considere $x'$ a entrada, então:

* $X=\begin{bmatrix}
        1 & x'_1 \\
        1 & x'_2 \\
        1 & .. \\
        1 & x'_m \\
    \end{bmatrix}$ ,
* $\Theta=\begin{bmatrix}
        \theta_0\\
        \theta_1
    \end{bmatrix}$
    
    O algoritmo é representado por:
    
    * $H=X \cdot \Theta$
    * $E=H - Y$
    * $J_i=\frac{1}{2m}(E^T \cdot E)$
    * $\Theta=\Theta - \frac{\alpha}{m}(X^T \cdot E)$    
    
    Sendo $i$ a iteração;

### Múltiplas Variáveis
$X=\begin{bmatrix}
1 & x^{(1)}_1 & x^{(1)}_2 & x^{(1)}_3 \\
1 & x^{(2)}_1 & x^{(2)}_2 & x^{(2)}_3 \\
1 & x^{(3)}_1 & x^{(3)}_2 & x^{(3)}_3 \\
\end{bmatrix},
\Theta=\begin{bmatrix}
\theta_0 \\
\theta_1 \\
\theta_2 \\
\theta_3
\end{bmatrix}$

## Métricas de avaliação de regressão

Aqui estão três métricas de avaliação comuns para problemas de regressão:

Onde $n$ é quantidade de *linhas* da matriz.

**Mean absolute error**(erro absoluto médio) (MAE) é a média do valor absoluto dos erros:

$$\frac 1n\sum_{i=1}^n|y_i-\hat{y}_i|$$

**Mean Squared Error**(erro médio quadrático) (MSE) é a média dos erros quadrados:

$$\frac 1n\sum_{i=1}^n(y_i-\hat{y}_i)^2$$

**Root Mean Square Error**(raiz do erro quadrático médio) (RMSE) é a raiz quadrada da média dos erros quadrados:

$$\sqrt{\frac 1n\sum_{i=1}^n(y_i-\hat{y}_i)^2}$$

Comparando estas métricas:

- **MAE** é o mais fácil de entender, porque é o erro médio.
- **MSE** é mais popular que o MAE, porque a MSE "puniria" erros maiores, o que tende a ser útil no mundo real.
- **RMSE** é ainda mais popular do que MSE, porque o RMSE é interpretável nas unidades "y".

Todas estas são **funções de perda**, porque queremos minimizá-las.

## **Regressão Logística**

### Observações
* Na Regressão Logística, temos a **Função sigmóide** sendo um componente de $H_{\theta}$.

* $\hat y$ = $\textit{y predito}$ = $h(x)$ = $H_{\theta}$.

$X,Y$ são os mesmos da regressão linear com multiplas variaveis matricial

Na regressão logística a seguinte inequação deve ser seguida $0 \leq h_\theta(x) \leq 1$.

* Se $h(\theta) \geq 0.5 \to \hat y$ = 1

* Se $h(\theta) \lt 0.5 \to \hat y$ = 0

![](https://upload.wikimedia.org/wikipedia/commons/thumb/8/88/Logistic-curve.svg/323px-Logistic-curve.svg.png)


Portanto sendo $g(z)=\frac{1}{1+e^{-z}}$,$z=X\cdot\Theta$

Então:

* $h_\theta(x)=g(z)$

Contudo, o $J$ terá que mudar pois se não o algorítmo não irá convergir pelo fato do J não 
ser mais convexo.

* $J(\theta)=\frac{1}{m}\sum\limits_{i=1}^{m}\text{custo}(h_\theta(x^{(i)}),y^{(i)})$

Onde $m$ é a quantidade de linhas.

* $\text{custo}(h_\theta(x),y)=-y.\log(h_\theta(x))-(1-y).\log(1-(h_\theta(x)))$

E o resto algorítmo continua o mesmo da Regressão Linear na sua forma matricial!

A **Acurácia** é a média de todos os resultados corretos e mostra quanto o nosso modelo está acertando. A mesma pode ser descrita como:

 * $acc=\frac{1}{m}\sum\limits_{i=0}^{num\_it\_train}\text{corretos}$

## **Redes Neurais**

*Variáveis em letra maíuscula representa um **vetor** e letra minúscula um **escalar**.*

Para Redes Neurais, utilizaremos a seguinte equação

$Z = W \cdot X + b$

* Os **pesos** eram representados por $\Theta$, agora é representado por $W$.

* $X$ são os dades de entrada da rede.

* b(bias) é o viés da rede, ou seja, é como um intercepto adicionado em uma equação linear. É um parâmetro adicional na Rede Neural que é usado para ajustar a saída junto com a soma ponderada das entradas no neurônio. Além disso, o valor da polarização permite mudar a função de ativação para a direita ou esquerda.

Partido da seguinte Rede Neural:

![](imgs/graphviz.png)

*Obs: A quantidade de camadas de uma Rede Neural é contabilizada a partir da quantidade de camadas desconsiderando a entrada, ou seja, temos duas camadas nesse exemplo, uma oculta e uma de saída.* 

$X1$ e $X2$ são as entradas da rede, onde estes, por sua vez, são vetores.

Onde $n1, n2, n3$ e $nF$ representa o neurônio 1, neurônio 2, neurônio 3 e neurônio final(saída da rede), respectivamente.

Tanto na Regressão Linear quanto na Logística, tinhamos que uma determinada entrada($X$) era representada com a dimensão $m x n$, onde $m$ era a quantidade de varíaveis desse vetor, ou seja, cada **linha** era um dado diferente.

Porém, em Redes Neurais, temos que os mesmos dados são utilizados de forma **Transposta**.

**A dimensão dos cada vetores de entrada é dada da seguinte maneira:** 

Para $W^{[1]}$, temos que a quantidade de linhas é a quantidade de neurônios na camada oculta e as colunas desse vetor será a quantidade de entradas na rede!

* $W^{[1]} \rightarrow$ qtd de neurônios na camada oculta x quantidade de variáveis de entrada.
* $W^{[1]} \rightarrow 3 x 2$.

$
W^{[1]}=\begin{bmatrix}
   W_1^{[1]} && W_1^{[2]} \\
   W_2^{[1]} && W_2^{[2]} \\
   W_3^{[1]} && W_3^{[2]} \\
\end{bmatrix}
$   

Para $b^{[1]}$, temos que este sempre será um vetor coluna! Ou seja, $nx1$, onde $n$ é a quantidade de neurônios na camada oculta.

$n= $*Quantidade de neurônios na camada oculta(linhas);*

* $b^{[1]} \rightarrow$ qtd de neurônios na camada oculta x 1.
* $b^{[1]} \rightarrow 3 x 1$.

$b^{[1]}=\begin{bmatrix}
       b_1^{[1]} \\
       b_2^{[1]} \\
       b_3^{[1]} \\
   \end{bmatrix}$

Por fim, temos que $X$ tem dimensão $kxm$, onde cada **linha** é uma entrada, ou seja, um conjunto de dados diferente e cada **coluna** é uma variável.

$k= $*Quantidade de entradas(linhas);*

$m = $*Tamanho da entrada(colunas);*

Exemplo:

$X=\begin{bmatrix}
       X_1 \\
       X_2 \\
   \end{bmatrix} \rightarrow X=\begin{bmatrix}
                                   X_1^{[0]} && X_1^{[1]} && \cdots && X_1^{[m]} \\
                                   X_2^{[0]} && X_2^{[1]} && \cdots && X_2^{[m]} \\
                               \end{bmatrix}$

Partindo dessa mesma lógica, podemos perceber que, na segunda camada, é esperado que $W$ e $b$ tenham as seguintes dimensões:

$W_{1xn}$ e $b_{1x1}$, ou seja, um **escalar**! Pois só temos **1** neurônio nessa camada!

$
W^{[2]}=\begin{bmatrix}
   W_1^{[1]} && W_1^{[2]} && W_1^{[3]}\\
\end{bmatrix}
$   

### Propagation

*Obs: Para este exemplo, a função de ativação que está sendo utilizada é a sigmóide e está sendo considerado que uma entrada possui 4 varíaveis.*

A propagação é a fase na rede neural que é obtido a saída do modelo, ou seja, a saída do mesmo será $A^{[2]}$, nesse contexto, é mesma coisa que 
$g(Z) \rightarrow \hat{y} \rightarrow H_{\Theta}$, ou seja, é o que foi predito!

$Z^{[1]}_{3x4} = W^{[1]}_{3x2} \cdot X_{2x4} + B^{[1]}_{3x1}$

$A^{[1]}_{3x4} = g^{[1]}(Z^{[1]})$

$Z^{[2]}_{1x4} = W^{[2]}_{1x3} \cdot A^{[1]}_{3x4} + B^{[2]}_{1x1}$

$A^{[2]}_{1x4} = g^{[2]}(Z^{[2]}_{1xm})$

### Backpropagation

A retropropagação é a fase onde atualiza o valor das variáveis da rede, no intuito de melhorar o resultado final. Após calcular o loss na fase de progação, é possível melhorar o resultado do modelo. Essa fase consiste na aplicação da regra da cadeia(chain rule).

O *loss* é calculado para saber o quão bom está o modelo e este é importante para ser utilizado na fase de retropropagação(backpropagation).

$L(A^{[2]}_{1xm}, Y_{1xm}) = -Y \cdot log (A^{[2]}) - (1 - Y) \cdot log (1 - A^{[2]})$

$\frac{\partial L}{\partial A^{[2]}} = A^{[2]} - Y$

$\frac{\partial L}{\partial W^{[2]}} = \frac{\partial L}{\partial A^{[2]}} \cdot A^{[1]T}$

$\frac{\partial L}{\partial b^{[2]}} = \frac{\partial L}{\partial A^{[2]}} \cdot 1$

$\frac{\partial L}{\partial W^{[1]}} = \frac{\partial L}{\partial A^{[2]}} \cdot \frac{\partial Z^{[2]}}{\partial A^{[1]}} \cdot \frac{\partial A^{[1]}}{\partial Z^{[1]}} \cdot \frac{\partial Z^{[1]}}{\partial W^{[1]}}$

$\frac{\partial L}{\partial b^{[1]}} = \frac{\partial L}{\partial A^{[2]}} \cdot \frac{\partial Z^{[2]}}{\partial A^{[1]}} \cdot \frac{\partial A^{[1]}}{\partial Z^{[1]}} \cdot \frac{\partial Z^{[1]}}{\partial b^{[1]}}$

$\frac{\partial Z^{[2]}}{\partial A^{[1]}} = W^{[2]}$

$\frac{\partial Z^{[1]}}{\partial W^{[1]}} = X$

$\frac{\partial Z^{[1]}}{\partial b^{[1]}} = 1$

$\frac{\partial A^{[1]}}{\partial Z^{[1]}} = A^{[1]} \cdot (1 - A^{[1]}) \rightarrow g^{[1]'}(Z^{[1]})$

### Algoritmo

Em redes neurais, não podemos inicializar os pesos com $0$, assim como fazíamos na regressão linear e logística.

Portanto, os mesmos devem ser inicializados de forma randômica, com os valores próximos a 0.

O $b$ deve ser inicializado como um vetor de $0$ de dimensão $nx1$.

## Eixos NumPy

* **Axis 0 - Linha**; 
* **Axis 1 - Coluna**;

**Operações por coluna = Axis 0, porque ele faz linha a linha sobre uma mesma coluna**

**Operações por linha = Axis 1, porque ele faz coluna a coluna sobre uma mesma linha**

Por exemplo, se eu quero saber qual é a média de um valores de uma mesma coluna, eu devo realizar:
    
    np.mean(array, axis=0)

![](https://i.stack.imgur.com/gj5ue.jpg)

Logo, temos de pegar a média e o desvio padrão dos valores de cada coluna, que seria referente a um dado.

A Normalização vai deixar os dados numa mesma escala.

In [1]:
import numpy as np

In [2]:
a = np.array([[1, 2], [3, 4]])

$a=\begin{bmatrix}
        1 & 2 \\
        3 & 4 \\
    \end{bmatrix}$

axis = 0 **SOMA DAS COLUNAS, OPERACAO LINHA A LINHA**

In [3]:
a.mean(axis=0) #(1+3)/2 = 2 ||| (2+4)/2 = 3

array([2., 3.])

axis = 1 **SOMA DAS LINHAS, OPERACAO COLUNA A COLUNA**

In [4]:
a.mean(axis=1) #(1+2)/2 = 1.5 ||| (3+4)/2 = 7.5

array([1.5, 3.5])

In [5]:
(1+2+3+4)/ 4

2.5

In [6]:
a.mean()

2.5

# ANOTAÇÕES Variadas

**ignorar esse tópico qqr coisa**

verificar o balanceamento para o exemplo que fizemos em aula - (exemplo das notas)

entradas positivas e negativas, ta balanceado no exemplo em aula(40,40), SE NAO TIVER BALANCEADO, existem métodos para balancear(ex: data aumentation - para imagens)

Estudar: diferença da reg. linear vs reg. logistica

cada matriz de cores é chamada de canal

nossas imagens sao de 64x64, como essas sao colorias(r,g,b)

teremos 3 canais diferentes, uma para o R, uma para o G e outra para o B.
logo, 64 * 64 * 3 = 12288 - quantidade total de pixel(valores).

4096 * 3

**FAZER EM ESCALA RGB**

$\theta_0$ seria o cara que multiplica vezes 1, por isso que começamos no $\theta_1$

nesse exemplo teriamos 4096 thetas para o canal 1, 4096 thetas para o canal 2 e 4096 thetas para o canal 3,
no caso $\theta_1$ ate $\theta_{4096}$, $\theta_{4097}$ ate $\theta_{8192}$, $\theta_{4097}$ ate $\theta_{8192}$, $\theta_{8193}$ ate $\theta_{12288}$

**POR QUE CONVERTER PARA ESCALA DE CINZA?**

fica menor o intervalo de valores (0-255), e em vez de trabalhar com 3 canais, iremos trabalhar com somente um

converter para cinza é uma ideia para plotar num histograma:

histograma tem o formato (254,quantidade de valores)

f(x) no hist é a frequencia que a cor de 0-255 aparece nas imagens, o tamanho da barra é a quantidade de vezes que essa cor aparece na imagem