# **Anotações da disciplina de Inteligência Artificial**

## **Normalização**
* *Note que, essas operações devem ser resolvidas obtendo os valores linha a linha*;
* Obter a média dos termos(**np.mean()**):
    * $\text{Média: }\mu_k=\frac{1}{m}\sum\limits_{i=1}^{m}x_k^{(i)}$ *(Onde 'm' é a quantidade das linhas)*

* Calcular o desvio padrão dos termos(**np.std()**):
    * $\text{Desvio Padrão: }\sigma_k=\sqrt{\frac{1}{m}\sum\limits_{i=1}^{m}(x_k^{(i)}-\mu_k)^2}$

* Atribuir o "novo" valor de X para cada X calculado:
    * $X_k=\frac{x_k-\mu_k}{\sigma_k}$

## **Regressão Linear**

### Observações
* $J(h)$ = *Função de Perda*

* *Custo* seria essa mesma função, porém, somente para um valor;

* **Logo, a função de perda é a soma dos custos!**

### Notação Algébrica

Definições:
* $h(x)=\theta_1x+\theta_0$
    
* $J(h)=\frac{1}{2m}\sum\limits_{i=0}^{m}((h(x_i)-y_i)^2)$    

    Algoritmo; sendo $i$ a iteração:

    * $\theta^i_1= \theta_1^{i-1} - \alpha \frac{\partial}{\partial \theta_1^{i-1}}J \to ~
     \theta_1^{i-1} - \alpha \frac{1}{m}\sum\limits_{i=0}^{m}((h(x_i)-y_i)x)$
    * $\theta^i_0= \theta_0^{i-1} - \alpha \frac{\partial}{\partial \theta_0^{i-1}}J \to ~
    \ \theta_0^{i-1} - \alpha \frac{1}{m}\sum\limits_{i=0}^{m}((h(x_i)-y_i)1)$
    

### Notação Matricial

Definições:

Considere $x'$ a entrada, então:

* $X=\begin{bmatrix}
        1 & x'_1 \\
        1 & x'_2 \\
        1 & .. \\
        1 & x'_m \\
    \end{bmatrix}$ ,
* $\Theta=\begin{bmatrix}
        \theta_0\\
        \theta_1
    \end{bmatrix}$
    * $H=X \cdot \Theta$
    * $E=H - Y$
    * $J=\frac{1}{2m}(E^T \cdot E)$
    
    Algoritmo; sendo $i$ a iteração:
    * $\Theta_i=\Theta_{i-1} - \frac{\alpha}{m}(X^T \cdot E)$
    
    Sendo que a cada iteração, o valor de $H$, $E$ e $J$ devem ser atualizados.

### Múltiplas Variáveis
$X=\begin{bmatrix}
1 & x^{(1)}_1 & x^{(1)}_2 & x^{(1)}_3 \\
1 & x^{(2)}_1 & x^{(2)}_2 & x^{(2)}_3 \\
1 & x^{(3)}_1 & x^{(3)}_2 & x^{(3)}_3 \\
\end{bmatrix},
\Theta=\begin{bmatrix}
\theta_0 \\
\theta_1 \\
\theta_2 \\
\theta_3
\end{bmatrix}$

## **Regressão Logística**

### Observações
* Na Regressão Logística, temos que a função de ativação é a **Função sigmóide.**

* $\hat y$ = y predito = $h(x)$

$X,Y$ são os mesmos da regressão linear com multiplas variaveis matricial

Na regressão logística a seguinte inequação deve ser seguida $0 \leq h_\theta(x) \leq 1$.

* Se $h(\theta) \geq 0.5 \to \hat y$ = 1

* Se $h(\theta) \lt 0.5 \to \hat y$ = 0


Portanto sendo $g(z)=\frac{1}{1+e^{-z}}$,$z=X\cdot\Theta$

Então:

* $h_\Theta(x)=g(z)$

Contudo, o $J$ terá que mudar pois se não o algorítmo não irá convergir pelo fato do J não 
ser mais convexo.

* $J(\Theta)=\frac{1}{m}\sum\limits_{i=1}^{m}\text{custo}(h_\theta(x^{(i)}),y^{(i)})$

* $\text{custo}(h_{\theta},y)=-y.\log(h_{\theta}(x)-(1-y)).\log(1-h_{\theta}(x))$

E o resto algorítmo continua o mesmo da Regressão Linear na sua forma matricial!

A **Acurácia** é a média de todos os resultados corretos e mostra quanto o nosso modelo está acertando. A mesma pode ser descrita como:

 * $acc=\frac{1}{m}\sum\limits_{i=0}^{num\_it\_train}corretos$

## Métricas de avaliação de regressão

Aqui estão três métricas de avaliação comuns para problemas de regressão:

Onde $n$ é quantidade de *linhas* da matriz.

**Mean absolute error**(erro absoluto médio) (MAE) é a média do valor absoluto dos erros:

$$\frac 1n\sum_{i=1}^n|y_i-\hat{y}_i|$$

**Mean Squared Error**(erro médio quadrático) (MSE) é a média dos erros quadrados:

$$\frac 1n\sum_{i=1}^n(y_i-\hat{y}_i)^2$$

**Root Mean Square Error**(raiz do erro quadrático médio) (RMSE) é a raiz quadrada da média dos erros quadrados:

$$\sqrt{\frac 1n\sum_{i=1}^n(y_i-\hat{y}_i)^2}$$

Comparando estas métricas:

- **MAE** é o mais fácil de entender, porque é o erro médio.
- **MSE** é mais popular que o MAE, porque a MSE "puniria" erros maiores, o que tende a ser útil no mundo real.
- **RMSE** é ainda mais popular do que MSE, porque o RMSE é interpretável nas unidades "y".

Todas estas são **funções de perda**, porque queremos minimizá-las.

# Eixos NumPy

* Axis 0
* Axis 1

In [1]:
import numpy as np

In [2]:
a = np.array([[1, 2], [3, 4]])

$a=\begin{bmatrix}
        1 & 2 \\
        3 & 4 \\
    \end{bmatrix}$

axis = 0 **SOMA DAS COLUNAS, OPERACAO LINHA A LINHA**

In [3]:
a.mean(axis=0) #(1+3)/2 = 2 ||| (2+4)/2 = 3

array([2., 3.])

axis = 1 **SOMA DAS LINHAS, OPERACAO COLUNA A COLUNA**

In [4]:
a.mean(axis=1) #(1+2)/2 = 1.5 ||| (3+4)/2 = 7.5

array([1.5, 3.5])

In [5]:
(1+2+3+4)/ 4

2.5

In [6]:
a.mean()

2.5

# ANOTAÇÕES Variadas

**ignorar esse tópico qqr coisa**

verificar o balanceamento para o exemplo que fizemos em aula - (exemplo das notas)

entradas positivas e negativas, ta balanceado no exemplo em aula(40,40), SE NAO TIVER BALANCEADO, existem métodos para balancear(ex: data aumentation - para imagens)

Estudar: diferença da reg. linear vs reg. logistica

cada matriz de cores é chamada de canal

nossas imagens sao de 64x64, como essas sao colorias(r,g,b)

teremos 3 canais diferentes, uma para o R, uma para o G e outra para o B.
logo, 64 * 64 * 3 = 12288 - quantidade total de pixel(valores).

4096 * 3

**FAZER EM ESCALA RGB**

$\theta_0$ seria o cara que multiplica vezes 1, por isso que começamos no $\theta_1$

nesse exemplo teriamos 4096 thetas para o canal 1, 4096 thetas para o canal 2 e 4096 thetas para o canal 3,
no caso $\theta_1$ ate $\theta_{4096}$, $\theta_{4097}$ ate $\theta_{8192}$, $\theta_{4097}$ ate $\theta_{8192}$, $\theta_{8193}$ ate $\theta_{12288}$

**POR QUE CONVERTER PARA ESCALA DE CINZA?**

fica menor o intervalo de valores (0-255), e em vez de trabalhar com 3 canais, iremos trabalhar com somente um

converter para cinza é uma ideia para plotar num histograma:

histograma tem o formato (254,quantidade de valores)

f(x) no hist é a frequencia que a cor de 0-255 aparece nas imagens, o tamanho da barra é a quantidade de vezes que essa cor aparece na imagem