# Estatística com Python

O objetivo deste *notebook* é utilizar a linguagem Python para 
manipular dados por meio de ferramentas da Estatística! Aprenderemos principalmente a criar representações simples de amostras de dados, a calcular medidas de resumo e dispersão e, finalmente, a fazer regressões básicas. 

Para tanto, faremos uso da biblioteca **numpy**, comumente utilizada para computação numérica e manipulações matemáticas com Python.

## Sumário

1.   Representação de dados numéricos (numpy arrays)
2.   Medidas de resumo e dispersão (média, mediana, variância, desvio padrão)
3.   Regressão linear e polinomial

## Importando a biblioteca numpy

Antes de começarmos, precisamos importar a biblioteca *numpy*, para que possamos utilizar as suas funções. Geralmente, ela é apelidada 
com `np` na maioria dos códigos que encontramos na Internet, e adotaremos aqui a mesma ideia:




In [0]:
import numpy as np

# Representação de dados numéricos (numpy arrays)

*numpy* provê uma forma de representar dados escalares, vetores e matrizes: os `numpy.array`s. Essa é uma **estrutura de dados** (representação de valores, mais operações) que facilita bastante a manipulação de dados em Python, provendo diversas operações úteis, como:

*   Atributos de arrays
*   Indexação de arrays
*   Fatiamento de arrays
*   Redimensionamento de arrays
*   Junção e particionamento de arrays

## Representando vetores e matrizes

Vamos começar criando um vetor simples, digamos 
$$x=\langle 1, 2, 3, 4, 5, 6\rangle$$

Usaremos, para isso, a função `np.array(<lista de valores>)`:

In [0]:
x = np.array([1, 2, 3, 4, 5, 6])
x

Vamos explorar alguns atributos desse array:

In [0]:
print("Dimensão (quantas dimensões?): ", x.ndim)
print("Forma (qual o tamanho de cada dimensão?): ", x.shape)
print("Tamanho (quantos elementos no total?): ", x.size)

E se quisermos representar uma matriz? Digamos:

$$
A = 
\begin{pmatrix}
5.0 & 4.0 & 10.0\\
1.0 & 11.0 & -1.0\\
-4.0 & 3.0 & 20.0\\
\end{pmatrix}
$$

Basta utilizarmos a mesma função `np.array`, porém
fornecendo uma lista de listas: cada lista interna é uma linha
da matriz:

In [0]:
A = np.array([
      [5.0, 4.0, 10.0],
      [1.0, 11.0, -1.0],
      [-4.0, 3.0, 20.0]
  ])
A

Quais seriam os valores dos atributos para $A$? Vejamos:

In [0]:
print("Dimensão (quantas dimensões?): ", A.ndim)
print("Forma (qual o tamanho de cada dimensão?): ", A.shape)
print("Tamanho (quantos elementos no total?): ", A.size)

## Acesso a elementos

Como podemos obter um valor específico dentro dessas estruturas?

Começando pelo vetor $x$, vamos acessar o valor em sua terceira
posição:

In [0]:
x[2]

Para a matriz, vamos acessar o valor na primeira linha, terceira coluna:

In [0]:
A[0, 2]

Podemos também modificar os valores armazenados nessas posições:

In [0]:
x[2] = 44.0
A[0, 2] = 100.0

In [0]:
# EXERCICIO: imprima x para ver o valor alterado

In [0]:
# EXERCICIO: imprima A para ver o valor alterado

## Obtendo fatias

O *numpy* nos permite fatiar seus arrays, pegando uma porção menor deles! Basta usarmos a seguinte forma:
```
x[start:stop:step]
```
onde `stop` é não inclusivo, ou seja, se você passar um número $n$,
a seleção será feita até o elemento $n-1$. Quando não especificado,
`start` é 0, `stop` é o tamanho da dimensão, `step` vale 1.

Assim, digamos que queiramos um vetor formado pelo segundo, o terceiro e o quarto elementos de $x$:

In [0]:
x[1:4:1]

Mais algumas experimentações (você consegue explicar o porquê?):

In [0]:
x[:3]

In [0]:
x[3:]

In [0]:
x[2:4]

In [0]:
x[::2]

In [0]:
x[1::2]

E para matrizes, como poderíamos obter submatrizes (fatias de duas dimensões) de $A$? A sintaxe é a mesma, porém considerando que agora temos duas dimensões:

In [0]:
A

In [0]:
A[1:3, 1:3]

Se o interesse é obter uma linha ou coluna específica, utilizamos `:` para indicar que queremos toda a linha ou toda a coluna:

In [0]:
A[:, 0]

In [0]:
A[2, :]



> ## Atenção
As fatias são, na verdade, **visões** dos dados, e não cópias! Podemos
alterar os elementos de uma fatia, e isso fará com que o todo seja alterado também.



Poderíamos falar muito mais sobre os numpy arrays, mas já temos o bastante para fazermos um pouco de estatística! Se você quiser saber mais recursos básicos e interessantes, este link é uma boa pedida: https://jakevdp.github.io/PythonDataScienceHandbook/02.02-the-basics-of-numpy-arrays.html.

## Reshape

Uma função muito importante de um array numpy é a `reshape`. 

A `reshape` é uma função da biblioteca *numpy* capaz de remodelar uma array numpy sem alterar os seus dados. Seus parâmetros são **reshape( a,  b )** (a = linha e b = coluna), lembrando sempre de respeitar o número de elementos dentro da matriz.

Escolher o valor ** -1** em reshape tem uma particularidade: basicamente você diz para a função rearranjar o valor do **-1** de acordo com o que está no outro parâmetro. Por exemplo, se uma matriz é **( 4 , 4 )** ela tem 16 elementos, certo? Então eu posso mexer nela como **( 8 , 2 )**, **( 2 , 8 )**, mas na hora que eu colocar o **-1** em um dos parâmetros e inserir um valor diferente no outro, ele vai reajustar o  **-1** de acordo com o número inserido. Ou seja, se **( -1 , 8 )**, o valor da linha em **-1** será o **2** já que isso dará os 16 elementos.

In [0]:
A.reshape((9,))

# Medidas básicas de resumo e dispersão

Agora que sabemos como representar vetores e matrizes com *numpy* arrays, podemos utilizar suas funções básicas de estatística!

## Média

In [0]:
x.mean()

## Mediana

In [0]:
np.median(x)

## Variância

In [0]:
x.var()

## Desvio padrão

In [0]:
x.std()

## Usando `describe`

Podemos utilizar a função `describe` da biblioteca `scipy`, que retorna várias medidas de resumo estatístico de um numpy array:

In [0]:
from scipy.stats import describe

describe(x)

# Regressão

Quando temos um conjunto finito de observações, 
precisamos muitas vezes obter uma função que se aproxima
o melhor possível de nossas observações, para que
consigamos valores coerentes para observações que não tínhamos.

Um caso de uso é a calibração de equipamentos para medição de concentração (por exemplo, espectroscopia de infravermelho médio, MIR). O que se faz é obter
a resposta do equipamento para alguns pontos, construir um modelo de regressão com base neles, e ajustar
as medidas futuras conforme esse modelo.

Consideramos aqui o exemplo de medir a concentração de óleos
e graxas em água produzida no contexto da indústria de petróleo.
Foram obtidas as seguintes medidas para calibrar o equipamento
que mede essas concentrações:


| [Org] (mg/L) | Medida 1 ($\mu$A) | Medida 2 ($\mu$A) | Medida 3 ($\mu$A) |
|------------|--------------------|--------------------|--------------------|
| 0          | 0.004              | 0.002              | 0.004              |
| 20         | 0.22               | 0.21               | 0.213              |
| 40         | 0.39               | 0.38               | 0.38               |
| 80         | 0.773              | 0.81               | 0.796              |
| 100        | 1.002              | 1.08               | 0.98               |
| 120        | 1.19               | 1.22               | 1.201              |


Primeiramente, vamos construir um modelo de regressão linear
com base nesses dados.

## Representando a tabela como uma matriz

Vamos separar a primeira coluna em um vetor, já que ela contém as concentrações fixas, e os demais dados como uma matriz:

In [0]:
concentracoes = np.array([0,20,40,80,100,120])

concentracoes

In [0]:
intensidades = np.array([
  [0.004, 0.002, 0.004],
  [0.22, 0.21, 0.213],
  [0.39,0.38, 0.38],
  [0.773,0.81, 0.796],
  [1.002, 1.08, 0.98],
  [1.19, 1.22, 1.201],
])

intensidades

Precisamos resumir esses dados pela média de cada linha, assim saberemos a intensidade média obtida para cada valor de concentração:

In [0]:
intensidades_medias = intensidades.mean(1)

intensidades_medias

Vamos computar também o desvio padrão, para usar como erro na exibição dos gráficos:

In [0]:
intensidades_desvio = intensidades.std(1)

intensidades_desvio

## Visualizando essas medidas

Para visualizar essas medidas, utilizaremos a biblioteca
`matplotlib`:

In [0]:
import matplotlib.pyplot as plt

Utilizaremos a função `plt.errorbar(...)` para plotar os pontos de calibração, exibindo barras de erro dadas pelos desvios-padrões:

In [0]:
plt.errorbar(concentracoes, intensidades_medias, fmt='*b', color='black', yerr=intensidades_desvio)

## Obtendo o modelo linear

Utilizaremos a biblioteca `sklearn` para construir o modelo:

In [0]:
from sklearn import linear_model

modelo_linear = linear_model.LinearRegression()
modelo_linear.fit(concentracoes.reshape(-1, 1), intensidades_medias)

Vamos agora plotar a função referente a esse modelo, para
vermos o quanto ela se aproxima dos dados de calibração:

In [0]:
x_teste = np.linspace(0, 120, 100).reshape(-1, 1)
y_pred = modelo_linear.predict(x_teste)

plt.scatter(concentracoes, intensidades_medias, color='black')
plt.plot(x_teste, y_pred, color='blue', linewidth=3)

plt.show()

Bastante próxima, não é mesmo? Porém, como não ficar apenas na impressão? Como obter medidas que indiquem a qualidade desse modelo com respeito aos dados originais?

## Verificando a qualidade do modelo

Utilizaremos aqui duas medidas: coeficiente de correlação (R2) e MSE (erro mínimo quadrático).

### R2

Aqui, quanto mais próxima de 1, melhor.

In [0]:
score = modelo_linear.score(x.reshape(-1, 1), intensidades_medias)
score

### MSE

Aqui, quanto mais próximo de 0 melhor.

In [0]:
from sklearn.metrics import mean_squared_error

y_teste = modelo_linear.predict(x.reshape(-1, 1))
mean_squared_error(intensidades_medias, y_teste)

## Usando o modelo

Suponha que, para uma dada amostra de água, foram
medidos 6 valores de intensidade:
$$v = \langle 0.454, 0.461, 0.45, 0.449,
0.441, 0.453 \rangle$$

De acordo com o nosso modelo, quais seriam os valores de concentração obtidos?



In [0]:
intensidades_medidas = [0.454, 0.461, 0.45, 0.449, 0.441, 0.453]

a = modelo_linear.coef_
b = modelo_linear.intercept_

def obter_concentracao(intensidade):
  return (intensidade - b) / a

concentracoes_medidas = np.array([obter_concentracao(intens) for intens in intensidades_medidas])
concentracoes_medidas = concentracoes_medidas.reshape((6))
print(concentracoes_medidas)

describe(concentracoes_medidas)

Assuma agora que existam valores oficiais para tais medidas, e que desejamos compará-los. São eles:
$$o = \langle 45.1, 45.8, 45.3, 45.9, 44.7, 44.5 \rangle$$

In [0]:
valores_oficiais = np.array([45.1, 45.8, 45.3, 45.9, 44.7, 44.5])

print(describe(valores_oficiais))

Como primeira forma de comparação, vamos utilizar um boxplot:

In [0]:
plt.boxplot([concentracoes_medidas, valores_oficiais])
plt.show()

Agora, podemos aplicar algum o F-test, que nos ajuda a ver se as duas amostras possuem a mesma média populacional:

In [0]:
from scipy.stats import f_oneway

f_oneway(concentracoes_medidas, valores_oficiais)

Como `pvalue > 0.05`, nós falhamos em rejeitar a hipótese de que as médias são iguais.

## Outro exemplo: utilização de outros tipos de regressão

Para situações onde os dados não estão linearmente distribuídos, existem outros tipos de regressão que se adaptam melhor aos dados. Faremos agora um modelo de regressão polinomial, onde os dados são aproximados por um polinômio. A diferença em relação ao exemplo anterior é que os dados precisam ser modificados para um formato polinomial, para depois serem submetidos à regressão. Ao final, é feita uma regressao simples (linha verde), para ser comparada com a regressão polinomial (linha vermelha). Perceba que o grau do polinômio pode ser alterado de acordo com a nescessidade. 

In [0]:
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression

# dados de exemplo
x1 = np.asarray([18, 23, 28, 33, 38, 43 ,48, 53, 58, 63]).reshape(-1,1)
y1 = np.asarray([470, 520, 630, 830, 1150, 1530, 2040, 3080, 5100, 10100])

#modificando o grau das variaveis
poly = PolynomialFeatures(degree=2)
x_poly = poly.fit_transform(x1)

poly_regressor = LinearRegression()
poly_regressor.fit(x_poly, y1)
y_pred = poly_regressor.predict(x_poly)

plt.scatter(x1,y1)
plt.plot(x1, y_pred, color='red')

#regressão linear simples 
linear_regressor = LinearRegression()
linear_regressor.fit(x1,y1)

import matplotlib.pyplot as plt
plt.scatter(x1,y1)
plt.plot(x1,linear_regressor.predict(x1), color='green')
