In [None]:
import os, sys
import numpy as np
import pandas as pd

from scipy import stats

is_colab = False

if is_colab:
    # create src and upload stat_lib into it
    from src import stat_lib
else:
    sys.path.insert(1, '../src/')
    import stat_lib

import seaborn as sns
import matplotlib.pyplot as plt
# %matplotlib inline

In [None]:
fig = plt.figure(figsize=(8,5))

x = np.random.random(100)
y = np.random.random(100)

plt.scatter(x,y)

slope, intercept, rho, p_value, std_err = stats.linregress(x,y)

seqx = np.linspace(0,1,50)
seqy = slope*seqx + intercept

plt.plot(seqx, seqy, color="black")

title = "Corra várias vezes, há correlação? boa inclinação da reta"
plt.grid()
plt.title(title);

msg1 = f"coeficiente angular a={slope:.3f}, coeficiente linear b={intercept:.3f}"
msg2 = f"coeficiente de correlação rho={rho:.3f}, p-valor={p_value:.1e}"

print("y = ax + b")
print(msg1)
print(msg2, '\n\n')

### Reta perfeita - sem ruído !

In [None]:
N=30
liminf=-20
limsup=+20

x = np.linspace(liminf, limsup, N)

a=-2.3
b=4.5

y = a*x + b

In [None]:
# linregress -> regressão linear
slope, intercept, rho, p_value, std_err = stats.linregress(x,y)
seqx = np.linspace(liminf, limsup, N)

seqy = slope*x + intercept

In [None]:

slope, intercept, rho, p_value, std_err = stats.linregress(x,y)

seqy = slope*seqx + intercept

plt.plot(seqx, seqy, color="black", linestyle='--')
plt.scatter(x,y, s=3, color='red')

title = "Reta perfeita, inverta a inclinação, o que acontece com o coeficiente de correlação?"
plt.grid()
plt.title(title);

msg1 = f"coeficiente angular a={slope:.3f}, coeficiente linear b={intercept:.3f}"
msg2 = f"coeficiente de correlação rho={rho:.3f}, p-valor={p_value:.1e}"

plt.axvline(0, color="black")
plt.axhline(0, color="black")

print("y = ax + b")
print(msg1)
print(msg2, '\n\n')

### Inverteu e variou o sinal de a (coef.angular)}

### Correlação imperfeita: ruído

In [None]:
N=30
liminf=-20
limsup=+20

x = np.linspace(liminf, limsup, N)

# ruido = random.normal(media=0, desvio padrão=1 ...5)
ruido = np.random.normal(0, 1.5, N)

a=1.5
b=10

# sinal + ruído
y = a*x + b + ruido

# linregress -> regressão linear
slope, intercept, rho, p_value, std_err = stats.linregress(x,y)
seqx = np.linspace(liminf, limsup, N)

seqy = slope*x + intercept

In [None]:
plt.plot(seqx, seqy, color="black", linestyle='--')
plt.scatter(x,y, s=3, color='red')

title = "Reta perfeita, inverta a inclinação, o que acontece com o coeficiente de correlação?"
plt.grid()
plt.title(title);

msg1 = f"coeficiente angular a={slope:.3f}, coeficiente linear b={intercept:.3f}"
msg2 = f"coeficiente de correlação rho={rho:.3f}, p-valor={p_value:.1e}"

plt.axvline(0, color="black")
plt.axhline(0, color="black")

print("y = ax + b")
print(msg1)
print(msg2, '\n\n')

### Aumente o desvio padrão do ruído e observe a correlação e outros paraâmetros

In [None]:
def build_calc_line(a=1.5, b=10, SD_ruido=1, liminf=-20, limsup=+20, N=30, verbose=False):
    x = np.linspace(liminf, limsup, N)
    
    # ruido = random.normal(media=0, desvio padrão=1 ...5)
    ruido = np.random.normal(0, SD_ruido, N)
    
    # sinal + ruído
    y = a*x + b + ruido
    
    # linregress -> regressão linear
    slope, intercept, rho, p_value, std_err = stats.linregress(x,y)
    seqx = np.linspace(liminf, limsup, N)
    
    seqy = slope*x + intercept

    plt.plot(seqx, seqy, color="black", linestyle='--')
    plt.scatter(x,y, s=3, color='red')
    
    title = "Reta perfeita, inverta a inclinação, o que acontece com o coeficiente de correlação?"
    plt.grid()
    plt.title(title);
    
    msg1 = f"coeficiente angular a={slope:.3f}, coeficiente linear b={intercept:.3f}"
    msg2 = f"coeficiente de correlação rho={rho:.3f}, p-valor={p_value:.1e}"
    
    plt.axvline(0, color="black")
    plt.axhline(0, color="black")

    if verbose:
        print("y = ax + b")
        print(msg1)
        print(msg2, '\n\n')

    return x, y, slope, intercept, rho, p_value, std_err, msg1, msg2

In [None]:
a=-1.5
b=10
SD_ruido=3
N=30

x, y, slope, intercept, rho, p_value, std_err, msg1, msg2 = \
build_calc_line(a=a, b=b, SD_ruido=SD_ruido, liminf=-20, limsup=+20, N=N, verbose=True)

### Grande desvio padrão amostral -> o que acontece com coef.correlação?

In [None]:
a=1.5
b=10
SD_ruido=10
N=30

x, y, slope, intercept, rho, p_value, std_err, msg1, msg2 = \
build_calc_line(a=a, b=b, SD_ruido=SD_ruido, liminf=-20, limsup=+20, N=N, verbose=True)

### Pequeno desvio padrão amostral - correlação negativa

In [None]:
a=-1.5
b=10
SD_ruido=.5
N=30

x, y, slope, intercept, rho, p_value, std_err, msg1, msg2 = \
build_calc_line(a=a, b=b, SD_ruido=SD_ruido, liminf=-20, limsup=+20, N=N, verbose=True)

### O que são resíduos

### yhat = valor predito

  - dada a regressão linear(x,y):
    - slope = inclinação ou coeficiente agular previsto
    - intercept = coeficiente linear previsto
  - yhat = resposta prevista

yhat = slope*x + intercept

In [None]:
fig = plt.figure(figsize=(8,5))

# seqy = slope*x + intercept
yhat = slope*x + intercept

plt.plot(x, yhat, color="black", label='regressão', linestyle='--')
plt.scatter(x, y, s=3, label='dados', color='red')

title = "Linha preta = regressão linear (x,y) - yhat versus x"
plt.grid()
plt.title(title);

plt.axvline(0, color="black")
plt.axhline(0, color="black")

plt.xlabel('x')
plt.ylabel('y')
plt.legend();

In [None]:
erro = yhat - y

In [None]:
fig = plt.figure(figsize=(8,5))

# seqy = slope*x + intercept
yhat = slope*x + intercept

plt.plot(x, erro, color="red", label='resíduo')
y0 = [0]*len(x)
plt.scatter(x,y0, s=3, label='abcissa', color='black')

title = "Erro ou Resíduo"
plt.grid()
plt.title(title);

plt.xlabel('x')
plt.ylabel('y')
plt.ylim(-10,10)
plt.legend();

### Se não houver viés o resíduo ~N(0, sd_resi)

In [None]:
mu_resi = np.mean(erro)
sd_resi = np.std(erro)

f"Resíduo: média {mu_resi:.3f} ({sd_resi:.3f})"

### soma dos erros ~0 , parece que o erro é uma distribuição normal

In [None]:
ret, text, text_stat, stat, pvalue = stat_lib.calc_normalidade_SWT(erro)
print(text)
print(text_stat)

In [None]:
plt.hist(erro)
plt.grid();

## Regressão

### coeficiente de correlação (positivo ou negativo)

  - rho = [-1, +1]

  - rho: faixas qualitativas
    - 0.0 a 0.2 - sem correlação (muito ruim)
    - 0.2 a 0.4 - regular
    - 0.4 a 0.6 - bom
    - 0.6 a 0.8 - muito bom
    - 0.8 a 1   - ótimo

## Se voce espera linearidade entre as medidas que você fez?

  - Sim: TL x HL devo encontrar uma correlação > 0.6
    - TL x comprimento do rim esperar uma correlação > 0.6
  - Não: TL x Número de Escamas Ventrais - zero de correlação
    - se tiver correlação: não acreditar - é casual, é random !!! provavelmente
    - comprimento x altura onde vive - não correlação

### Máxima em estudos de correlações:
  - Correlação não uma demonstração de causa (causa x efeito)
  - Correlação linear é só uma demonstração que a saída (y ou output) está variando linearmente com a entrada (x)
  - Importante:
    - Você pode fazer uma regressão linear comparando-se y versus x para qualquer fenômeno:
      - Se o fenômeno tiver um componente linear + rúido - ok
      - Se o fenômeno for não linear (y = x**2) - você está 'forçando a barra'

### Dois tipos de correlações NÃO LINEARES

In [None]:
x = np.linspace(0,100,51)

SSD = 3
y = x**2 + 30*np.random.normal(0, SSD, 51)  # sinal + ruído
slope, intercept, rho, p_value, std_err = stats.linregress(x,y)

f"Correlação linear (Pearson) {rho:.3f} p-valor = {p_value:.1e}"

In [None]:
yhat = slope*x + intercept

title = "função quadrática x**2\nmas a regressão linear é uma primeira aproximação local"
title += f"\nCorrelação linear (Pearson) {rho:.3f} p-valor = {p_value:.1e}"

plt.scatter(x,y, s=3, color='red')
plt.plot(x, yhat, color="black");
plt.title(title)
plt.grid();

In [None]:
def calc_show_funcao_quadratica(a, b, c, lim_inf, lim_sup, SD_ruido=3, N=50):
    x = np.linspace(lim_inf, lim_sup, N)
    
    ruido = np.random.normal(0, SD_ruido, N)  # sinal + ruído

    y = a*x**2 + b*x + c + ruido
    
    slope, intercept, rho, p_value, std_err = stats.linregress(x,y)
    
    yhat = slope*x + intercept
    
    title = "função quadrática x**2\nmas a regressão linear é uma primeira aproximação local"
    title += f"\nCorrelação linear (Pearson) {rho:.3f} p-valor = {p_value:.1e}"
    
    plt.scatter(x,y, s=3, color='red')
    plt.plot(x, yhat, color="black");
    plt.title(title)
    plt.grid();

In [None]:
a=1
b=0; c=0
lim_inf=0
lim_sup=50

calc_show_funcao_quadratica(a, b, c, lim_inf, lim_sup, SD_ruido=3, N=50)

### Expandindo a função de segundo grau

In [None]:
a=1
b=0; c=0
lim_inf=-100
lim_sup=+100

calc_show_funcao_quadratica(a, b, c, lim_inf, lim_sup, SD_ruido=3, N=50)

### Localmente se lineariza
### Globalmente a correlação é ZERO

### Terceiro grau

In [None]:
def calc_show_funcao_terceiro_grau(a, b, c, d, lim_inf, lim_sup, SD_ruido=3, N=50):
    x = np.linspace(lim_inf, lim_sup, N)
    
    ruido = np.random.normal(0, SD_ruido, N)  # sinal + ruído

    y = a*x**3 + b*x**2 + c*x + d + ruido
    
    slope, intercept, rho, p_value, std_err = stats.linregress(x,y)
    
    yhat = slope*x + intercept
    
    title = "função 3o-grau x**3\nmas a regressão linear é uma primeira aproximação local"
    title += f"\nCorrelação linear (Pearson) {rho:.3f} p-valor = {p_value:.1e}"
    
    plt.scatter(x,y, s=3, color='red')
    plt.plot(x, yhat, color="black");
    plt.title(title)
    plt.grid();

In [None]:
a=1
b=0; c=0; d=0
lim_inf=+0
lim_sup=+30

calc_show_funcao_terceiro_grau(a, b, c, d, lim_inf, lim_sup, SD_ruido=3, N=50)

In [None]:
a=1
b=0; c=0; d=0
lim_inf=-100
lim_sup=+100

calc_show_funcao_terceiro_grau(a, b, c, d, lim_inf, lim_sup, SD_ruido=3, N=50)

In [None]:
a=1
b=0; c=0; d=0
lim_inf=-3
lim_sup=+3

calc_show_funcao_terceiro_grau(a, b, c, d, lim_inf, lim_sup, SD_ruido=3, N=50)

In [None]:
a=1
b=0; c=0; d=0
lim_inf=-3
lim_sup=+3

calc_show_funcao_terceiro_grau(a, b, c, d, lim_inf, lim_sup, SD_ruido=3, N=50)

### Exponencial (repita para uma função logaritmica)

In [None]:
def calc_show_funcao_exponencial(a, b, lim_inf, lim_sup, SD_ruido=3, N=50):
    x = np.linspace(lim_inf, lim_sup, N)
    
    ruido = np.random.normal(0, SD_ruido, N)  # sinal + ruído

    y = a*np.exp(x) + b + ruido
    
    slope, intercept, rho, p_value, std_err = stats.linregress(x,y)
    
    yhat = slope*x + intercept
    
    title = "função exponencial a*exp(x)+b\nmas a regressão linear é uma primeira aproximação local"
    title += f"\nCorrelação linear (Pearson) {rho:.3f} p-valor = {p_value:.1e}"
    
    plt.scatter(x,y, s=3, color='red')
    plt.plot(x, yhat, color="black");
    plt.title(title)
    plt.grid();

In [None]:
a=10
b=0
N=200
lim_inf=0
lim_sup=+5

calc_show_funcao_exponencial(a, b, lim_inf, lim_sup, SD_ruido=.1, N=N)

In [None]:
a=10
b=0
N=200
lim_inf=-3
lim_sup=+3

calc_show_funcao_exponencial(a, b, lim_inf, lim_sup, SD_ruido=.1, N=N)

In [None]:
a=10
b=0
N=200
lim_inf=-10
lim_sup=+10

calc_show_funcao_exponencial(a, b, lim_inf, lim_sup, SD_ruido=.1, N=N)

### Outlier

In [None]:
def build_calc_line_outlier(a=1.5, b=10, SD_ruido=1, liminf=-20, limsup=+20, N=30, 
                            outlier_list=[], title='Reta e Regressão', verbose=False):
    x = np.linspace(liminf, limsup, N)
    
    # ruido = random.normal(media=0, desvio padrão=1 ...5)
    ruido = np.random.normal(0, SD_ruido, N)
    
    # sinal + ruído
    y = a*x + b + ruido

    for posi, offset in outlier_list:
        y[posi] += offset
    
    # linregress -> regressão linear
    slope, intercept, rho, p_value, std_err = stats.linregress(x,y)
    seqy = slope*x + intercept

    plt.plot(x, seqy, color="black", linestyle='--')
    plt.scatter(x,y, s=3, color='red')
    
    plt.grid()
    plt.title(title);
    
    msg1 = f"coeficiente angular a={slope:.3f}, coeficiente linear b={intercept:.3f}"
    msg2 = f"coeficiente de correlação rho={rho:.3f}, p-valor={p_value:.1e}"
    
    plt.axvline(0, color="black")
    plt.axhline(0, color="black")

    if verbose:
        print("y = ax + b")
        print(msg1)
        print(msg2, '\n\n')

    return x, y, slope, intercept, rho, p_value, std_err, msg1, msg2

In [None]:
a=2
b=10
SD_ruido=1
N=30

outlier_list=[(20, 50), (N-1, 50), (N-2, 50)]
# outlier_list=[]
title = "Reta perfeita, incluindo outliers, como fica a inclinação da reta?"

x, y, slope, intercept, rho, p_value, std_err, msg1, msg2 = \
build_calc_line_outlier(a=a, b=b, SD_ruido=SD_ruido, liminf=-20, limsup=+20, 
                        N=N, outlier_list=outlier_list, title=title, verbose=True)

In [None]:
fig = plt.figure(figsize=(8,5))

# seqy = slope*x + intercept
yhat = slope*x + intercept
erro = y-yhat

plt.plot(x, erro, color="red", label='resíduo')
y0 = [0]*len(x)
plt.scatter(x,y0, s=3, label='abcissa', color='black')

title = "Erro ou Resíduo"
plt.grid()
plt.title(title);

plt.xlabel('x')
plt.ylabel('y')
plt.ylim(-50,50)
plt.legend();

### Outlier gera um viés (bias)

### Moral da história:
  - Numa regressão linear
  - Se eu não tirar os outliers:
    - a inclinação da reta sofre um viés
    - eventualmetne o coeficiente linear e a correlação

### Enxergar de uma outra forma
  - Variável que pode ser representada por uma distribuição normal
    - Peso: sim (correto) - porque? var continua, simetrico, media = mediana ....
    - Comprimento: sim (correto) - porque?  var continua, simetrico, media = mediana ....
    - Número de escamas: não (correto) - porque? var discreta, não normal ~ pode se aproximar da normalidade
    - Temperatura aonde vive: sim (errado) - porque? continua e não normal !!!! tem >= 2 picos (modas)

### Vamos ver graficamente

In [None]:
plt.boxplot(y);

In [None]:
ax = sns.boxplot(y=y,  color='darkcyan')
ax = sns.swarmplot(y=y, color="gray")
plt.title("limite inferior, abaixo são outliers inferiores\n"+
          "box de interquartis (25%, 50%, 75%)\n" +
          "  - 25% - são os primeiros 25% individuos\n" +
          "  - 50% - são os primeiros 50% individuos\n" +
          "  - 75% - são os primeiros 75% individuos\n" +
          "limite superior, acima são outliers superiores\n"
         )

### Simulando outliers

In [None]:
MU = 500 # gramas
SSD = 20

n_cobras = 200 # cobras digitais + 2 outliers do dr.
cobras = np.arange(n_cobras)  # 0, 1, 2 .... 241 (python começa no zero)

y = np.random.normal(MU, SSD,n_cobras)

# recém nascida
y[25] = 30
# alguém anotou errado
y[180] = 5000

In [None]:
plt.boxplot(y)
plt.title("Ao menos 2 cobras são outliers");

In [None]:
ynew, dfa = stat_lib.calc_params_remove_outliers(y, name=None, type=None, canNeg = False, ndig=2)

In [None]:
plt.boxplot(ynew)
plt.title("Boxplot sem outliers");