# Scipy

SciPy é uma coleção de algoritmos matemáticos e funções convenientes construídas em cima do **NumPy**. Adiciona significativo poder para a sessão Python proporcionando ao usuário comandos de alto nível e classes para manipular e visualizar dados.

* Pacote de Cluster (scipy.cluster)
* Constantes (scipy.constants)
* Transformada de Fourier discreta (scipy.fftpack)
* Integração numérica e solução de ODEs (scipy.integrate)
* **Interpolação (scipy.interpolate)**
* Input e output (scipy.io)
* Algebra linear (scipy.linalg)
* Rotinas diversas (scipy.misc)
* Processamento de imagens n-dimensionais (scipy.ndimage)
* <p><span style="color:red">Orthogonal distance regression (scipy.odr)</p>
* Optimização e solução de sistemas (scipy.optimize)
* Processamento de sinais (scipy.signal)
* <p><span style="color:red">Sparse matrices (scipy.sparse)</p>
* <p><span style="color:red">Sparse linear algebra (scipy.sparse.linalg)</p>
* <p><span style="color:red">Compressed Sparse Graph Routines (scipy.sparse.csgraph)</p>
* <p><span style="color:red">Spatial algorithms and data structures (scipy.spatial)</p>
* Funções especiais (scipy.special)
* **Funções estatísticas (scipy.stats)**
* Funções estatísticas para arrays mascarados (scipy.stats.mstats)
* <p><span style="color:red">Low-level callback functions</p>

## Interpolação

A classe `interp1d` permite que a partir de um conjunto de pontos nós possamos criar uma função de interpolação dentro desse domínio. Por exemplo:

In [None]:
import numpy as np

import matplotlib.pyplot as plt
from scipy.interpolate import interp1d
% matplotlib inline

In [None]:
x = np.linspace(0, 20, 21)
y = np.cos((x * np.pi) ** 2 / 2)

plt.scatter(x, y)

In [None]:
# função de interpolação default linear
f = interp1d(x, y)
f2 = interp1d(x, y, kind='cubic')

xnew = np.linspace(0, 20, 100)
plt.plot(x, y, 'o') 
plt.plot(xnew, f(xnew), '-') 
plt.plot(xnew, f2(xnew), '--')

<div class="alert alert-block alert-success">
<b>Em que situação isso pode ser usado?</b> Imagine que você tem uma série de dados de temperatura que possui várias falhas. Isso pode ser usado para preencher essas falhas de forma simples
</div>

Agora vamos tentar interpolar um campo de duas dimensões

In [None]:
from scipy.interpolate import interp2d

In [None]:
x = np.arange(-5.01, 5.01, 0.25)
y = np.arange(-5.01, 5.01, 0.25)
xx, yy = np.meshgrid(x, y)

z = np.sin(xx**2+yy**2)

# aumentamos a grade para pontos a cada 0.01
xnew = np.arange(-5.01, 5.01, 1e-2)
ynew = np.arange(-5.01, 5.01, 1e-2)
xxnew, yynew = np.meshgrid(xnew, ynew)

f = interp2d(x, y, z, kind='cubic')

znew = f(xnew, ynew)

fig, [ax1, ax2] = plt.subplots(1, 2, figsize=(16,6))

ax1.pcolormesh(xx, yy, z)
ax2.pcolormesh(xxnew, yynew, znew)

<div class="alert alert-block alert-success">
<b>Em que situação isso pode ser usado?</b> Imagine que você tem dados observacionais em pontos de grade divididos em uma malha de 0.25° x 0.25° de lat/lon e quer comparar com o GFS de 1° x 1°. Dessa forma você pode reinterpolar seus dados observados para a grade do GFS de 1° x 1° para comparar de forma mais homogênea.
</div>

E se tivessemos dados não estruturados?

In [None]:
npts = 200

# pontos (coordeanadas)
x = np.random.uniform(-2,2,npts)
y = np.random.uniform(-2,2,npts)
# valor no dado ponto (ex: temperatura)
z = x*np.exp(-x**2-y**2)

fig, ax = plt.subplots(figsize=(6,6))

cf = ax.scatter(x, y, c=z)
fig.colorbar(cf, ax=ax)

In [None]:
from scipy.interpolate import griddata

In [None]:
# minha grade
xi = np.linspace(-2.1,2.1,100)
yi = np.linspace(-2.1,2.1,100)
xx, yy = np.meshgrid(xi, yi)

grid_z0 = griddata((x, y), z, (xx, yy), method='nearest')
grid_z1 = griddata((x, y), z, (xx, yy), method='linear', fill_value=0)
grid_z2 = griddata((x, y), z, (xx, yy), method='cubic', fill_value=0)

fig, axarr = plt.subplots(2, 2, figsize=(16,8))

axarr[0, 0].pcolormesh(xx, yy, xx*np.exp(-xx**2-yy**2))
axarr[0, 0].scatter(x, y, color='k')
axarr[0, 1].pcolormesh(xx, yy, grid_z0)
axarr[1, 0].pcolormesh(xx, yy, grid_z1)
axarr[1, 0].contour(xx, yy, grid_z1, colors='k')
axarr[1, 1].contourf(xx, yy, grid_z2)

<div class="alert alert-block alert-success">
<b>Em que situação isso pode ser usado?</b> Imagine que você tem dados de temperatura de várias estações e quer
fazer uma mapa com esses dados em pontos de grade para talvez comparar com um modelo, ou simplesmente para 
facilitar a visualização.
</div>

## Estatística

O que temos de estatística no scipy? https://docs.scipy.org/doc/scipy/reference/stats.html

In [None]:
from scipy import stats

In [None]:
fig, axarr = plt.subplots(2, 2, figsize=(16,10))

# distribuição normal
x = np.linspace(stats.norm.ppf(0.01), stats.norm.ppf(0.99), 100)
axarr[0, 0].plot(x, stats.norm.pdf(x, loc=0, scale=1), c='r', lw=5, alpha=0.6, label='norm pdf')
axarr[0, 0].set_title(u'Distribuição Normal')

# distribuição gamma
x = np.linspace(stats.gamma.ppf(0.01, 1.99), stats.gamma.ppf(0.99, 1.99), 100)
axarr[0, 1].plot(x, stats.gamma.pdf(x, 1.99), c='r', lw=5, alpha=0.6, label='norm pdf')
axarr[0, 1].set_title(u'Distribuição Gamma')

# distribuição exponencial
x = np.linspace(stats.expon.ppf(0.01), stats.expon.ppf(0.99), 100)
axarr[1, 0].plot(x, stats.expon.pdf(x), c='r', lw=5, alpha=0.6, label='norm pdf')
axarr[1, 0].set_title(u'Distribuição Exponencial')

# distribuição uniforme
x = np.linspace(stats.uniform.ppf(0.01), stats.uniform.ppf(0.99), 100)
axarr[1, 1].plot(x, stats.uniform.pdf(x), c='r', lw=5, alpha=0.6, label='norm pdf')
axarr[1, 1].set_title(u'Distribuição Uniforme')

## Exercício 6

Dada duas séries de dados $a \sim N(2,2)$ e $b \sim N(0,1)$ com 100 elementos cada, faça uma figura que contenha dois subplots contendo: 1. A série de dados, 2. O histograma normalizado com o ajuste das PDF (Não se esqueça de nomear os eixos e de da adicionar uma legenda).

Algumas funções e testes úteis:

In [None]:
a = np.random.normal(loc=2, scale=2, size=100)
b = np.random.normal(loc=0, scale=1, size=100)

r, pvalue = stats.pearsonr(a, b)

print 'Coeficiente de correlação de pearson é:', r

In [None]:
statistic, pvalue = stats.ttest_ind(a, b)

if pvalue > 0.05: # nível de significância
    print 'Não podemos rejeitar H_0, a hipótese que as distribuições tem médias idênticas pois pvalue =', pvalue
else:
    print 'Podemos rejeitar H_0, a hipótese que as distribuições tem médias idênticas pois pvalue =', pvalue

<div class="alert alert-block alert-success">
<b>Em que situação isso pode ser usado?</b> Em clima muitas vezes isso pode ser utilizado. Imagine que você quer estudar eventos de ZCAS, você separa todas as ocorrências desse fenômeno e quer comparar os padrões de circulação. Com todos os eventos de ZCAS comparando com os eventos de não ZCAS você consegue com isso identificar o quão significativa são as diferenças que você encontrou nos padrões atmosféricos.
</div>

In [None]:
statistic, pvalue = stats.kstest(b, 'norm')

if pvalue > 0.05: # nível de significância
    print 'Não podemos rejeitar H_0, a hipótese de que y vem da distribuição N(0,1), pois pvalue =', pvalue
else:
    print 'Podemos rejeitar H_0, a hipótese de que y vem da distribuição N(0,1) pois pvalue =', pvalue

<div class="alert alert-block alert-success">
<b>Em que situação isso pode ser usado?</b> Testes de normalidade ou de outras distribuições geralmente são usados quando você precisa que determinada condição de distribuição seja satisfeita para que um modelo ou um teste seja feito. O caso do teste T indicado anteriormente pode ser usado como exemplo: para que ele possa ser utilizado é necessário que as distribuições sejam gaussianas.
</div>

In [None]:
statistic, pvalue = stats.ks_2samp(a, b)

if pvalue > 0.05: # nível de significância
    print 'Não podemos rejeitar H_0, a hipótese de que y1 vem da mesma distribuição que y2, pois pvalue =', pvalue
else:
    print 'Podemos rejeitar H_0, a hipótese de que y1 vem da mesma distribuição que y2 pois pvalue =', pvalue

<div class="alert alert-block alert-success">
<b>Em que situação isso pode ser usado?</b> Imagine que você tem dados de temperatura de um modelo e das observações. Um jeito de avaliar o quão confiável o modelo é pode ser usando um teste desse tipo em que as distribuições de duas amostras são comparadas entre si.
</div>

# Pandas

Pandas é um pacote Python que proporciona estruturas de dados rápidas, flexivas e expressivas, desenhadas para fazer trabalhar com dados "relacionais" ou "nomeados" fácil e inuitivo. Pandas é usado para diferentes tipos de dados:

- Dados tabelados como SQL e Excel
- Séries temporais ordenadas ou não ordenadas
- Matrizes com nomes nas colunas e linhas
- Qualquer tipo de dado que seja nomeado

(http://pandas.pydata.org/pandas-docs/stable/getting_started/overview.html)

In [None]:
import pandas as pd

`Series` é um array unidimensional capaz de receber dado de qualquer tipo (inteiro, strings, float, objetos, etc.). Os nomes nos eixo são geralmente chamados de índice ou index. O método para se criar uma série é:

In [None]:
s = pd.Series([1, 3, 5, np.nan, 6, 8])

s

`DataFrame` é uma estrutura de dados bidimensional nomeada (labeled) com colunas que podem ser de tipos diferentes. Você pode pensar nele como uma planolha de Excel ou uma tabela SQL, ou um dicionário com várias `Series`. É o objeto mais usado no pandas. Assim como `Series`, o `DataFrame` também consegue receber vários tipos diferentes de dados. 

In [None]:
dates = pd.date_range('20130101', periods=6, freq='M')

print 'dates = ', dates

df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=['A', 'B', 'C', 'D'])

df

In [None]:
df2 = pd.DataFrame({'A': 1.,
                    'B': pd.Timestamp('20130102'),
                    'C': pd.Series(1, index=list(range(4)), dtype='float32'),
                    'D': np.array([3] * 4, dtype='int32'),
                    'E': pd.Categorical(["test", "train", "test", "train"]),
                    'F': 'foo'})


df2

Para abrir arquivos geralmente usamos o comando `pd.read_csv()`. Esse comando pode ser usado para qualquer tipo de arquivo texto, não necessariamente apenas os que terminam com `.csv`. Vamos usar como exemplo a série histórica da estação Mirante de Santana do INMET que está na pasta **data**. O método `read_csv` tem os seguintes argumentos:

`pandas.read_csv(filepath_or_buffer, sep=', ', delimiter=None, header='infer', names=None, index_col=None, usecols=None, squeeze=False, prefix=None, mangle_dupe_cols=True, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skipinitialspace=False, skiprows=None, skipfooter=0, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, skip_blank_lines=True, parse_dates=False, infer_datetime_format=False, keep_date_col=False, date_parser=None, dayfirst=False, iterator=False, chunksize=None, compression='infer', thousands=None, decimal=b'.', lineterminator=None, quotechar='"', quoting=0, doublequote=True, escapechar=None, comment=None, encoding=None, dialect=None, tupleize_cols=None, error_bad_lines=True, warn_bad_lines=True, delim_whitespace=False, low_memory=True, memory_map=False, float_precision=None)`

(https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html)

In [None]:
df = pd.read_csv('data/inmconv_83781.csv', index_col=0, parse_dates=True)

df.head()

In [None]:
df.tail()

In [None]:
df.describe()

In [None]:
df.index

In [None]:
df.columns

In [None]:
df['Precipitacao'].head()

In [None]:
df.sort_values('Precipitacao', ascending=False).head(6)

Você pode selecionar os dados pelas labels do índice

In [None]:
df['19800101':'19800105']

In [None]:
df.loc['2000-01-01', ['TempMaxima', 'TempMinima']]

Ou pelo índice:

In [None]:
df.iloc[9:12, [4, 5]]

Ou mesmo por booleano

In [None]:
df['Precipitacao'] > 1 

In [None]:
df[df['Precipitacao'] > 1].describe()

<div class="alert alert-block alert-success">
<b>Em que situação isso pode ser usado?</b> Qualquer tipo de série temporal. Você pode estar interessado apenas em casos de chuva ou temperatura acima de um limiar particular. Isso pode ser um valor numérico ou mesmo um percentil, por exemplo.
</div>

## Preenchendo Falhas

In [None]:
df_tmax = df['TempMaxima'].to_frame() # vamos usar a temperatura máxima apenas por enquanto

df_tmax.dropna().head()

In [None]:
df_tmax.fillna(value=999).head() # argumento inplace=True é o mesmo que df_tmax = df_tmax.dropna()

In [None]:
df_tmax.fillna(method='ffill').head()

Podemos interpolar também: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.interpolate.html#pandas.DataFrame.interpolate

In [None]:
df_tmax.interpolate(method='linear').head()

<div class="alert alert-block alert-danger">
<b>Atenção:</b> Aqui existe uma diferença importante entre usar o pandas e o numpy. O pandas não considera as falhas, ou seja, os NaN nos cálculos (médias, cálculo de percentis, etc.). Dessa forma, suponha que você tenha 1000 dados na sua série e 100 faltantes, e quer calcular uma média. Esse valor será calculado com relação à esses 900 dados da série e não aos 1000. Já abrindo o arquivo diretamente no numpy ele não entende o que são os dados faltantes, logo qualquer operação feita com dados faltantes retornará NaN.
</div>

## Resampling dos dados

Lidando com séries temporais geralmente estamos interessados em médias, máximos, mínimos, percentis diários, mensais, climatológicos. O pandas tem funções bem práticas para isso:

In [None]:
df_tmax.dropna(inplace=True) # removendo os missing data

# versões mais antigas do pandas devem ser escritas como df_tmax.resample('M', how='mean')
df_tmax_month = df_tmax.resample('M').mean() # pode ser substituido por min, max, sum, por exemplo.

df_tmax_month.head()

In [None]:
df_tmax.resample('AS').max().head()

Podemos calcular uma climatologia dos dados também com a função `groupby` (https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html)

In [None]:
df_clim = df_tmax['1961':'1990'] # geralmente usamos 1961 a 1990 como base para a climatologia

df_clim.groupby(df_clim.index.month).mean()

## Funções úteis para plots com o pandas

In [None]:
fig, ax = plt.subplots(figsize=(16,5))

df_tmax.plot(ax=ax, alpha=0.5)
df_tmax.resample('M').mean().plot(ax=ax, linewidth=2)
df_tmax.resample('AS').mean().plot(ax=ax, linewidth=2)

Para a precipitação por exemplo

In [None]:
df_prec_month = df.loc['1961':'1990', 'Precipitacao'].resample('M').sum()
df_clim = df_prec_month.groupby(df_prec_month.index.month).mean()

fig, ax = plt.subplots(figsize=(16,5))

df_clim.plot(kind='bar', color='C0')

## Aplicando funções a um DataFrame

In [None]:
df = pd.DataFrame([[4, 9],] * 3, columns=['A', 'B'])

df

In [None]:
df.apply(np.sqrt)

Você pode aplicar algumas funções ao longo de um eixo (`axis`) específico ainda

In [None]:
df.apply(np.sum, axis=1)

In [None]:
df.apply(np.sum, axis=0)

Você pode ainda usar funções definidas por você, ou funções anônimas

In [None]:
df.apply(lambda x: x ** 2)

In [None]:
def sum_row(row):
    return row['A'] + row['B']

df.apply(sum_row, axis=1)

## Exercício 7

Dada a série de dados em `data/inmconv_83781.csv` calculate a anomalia de precipitação mensal com base no período de 1961 a 1990 e identifique quais são os três anos com Dezembro mais secos da série histórica (menor anomalia). Faça uma figura com a anomalia não se esquecendo de nomear os eixos da figura e dar nome (label) à série.