Universidade Federal do Rio Grande  
Instituto de Oceanografia  
Programa de Pós-graduação em Oceanologia  
**Disciplina**: Análises de Séries Temporais em Oceanografia – 2023  
**Estudante**: Andrés Eloy Piñango Jauregui (153423)  

## Exercícios #1: Visualização e edição dos dados oceanográficos & Estatística básica
---
**Dados utilizados**: Dados biogeoquímicos com uma resolução temporal de 1 hora coletados pelo *Autonomous Surface Vehicle* ASV_Saildrone1020 (EXPOCODE 32DB20190119) no Oceano Austral entre 2019-01-19 e 2019-08-03. Os dados se encontram no arquivo `saildrone_data.csv` o qual foi gerado pela união de dois datasets: os [dados hidrográficos de superficie](https://data.saildrone.com/id/2091) e os [dados de pressão parcial de CO<sub>2</sub>](https://doi.org/10.25921/6zja-cg56).

As variáveis conteúdas no arquivo `saildrone_data.csv` são:

1. Tempo (*time*)
2. Concentração de oxigênio dissolvido (*oxy*) em micromol L<sup>-1</sup>
3. Concentração de clorofila (*chla*) em micrograma L<sup>-1</sup>
4. Radiação fotossinteticamente ativa no ar (*par*) em micromol s<sup>-1</sup> m<sup>-2</sup>
5. Temperatura do ar (*temp_air*) em graus centígrados
6. Pressão parcial de CO<sub>2</sub> na água de mar (*pco2_sw*) em μatm
7. Pressão parcial de CO<sub>2</sub> no ar (*pco2_air*) em μatm
8. A diferença entre a pressão parcial de CO<sub>2</sub> na água e o ar (*dpco2*) em μatm
9. Temperatura superficial do mar (*mean_sst*) em graus centígrados
10. Salinidade da água do mar (*mean_sal*)

**Atividades:**
****
### Parte I – Visualização e edição dos dados oceanográficos
#### 1. Visualização:
**a) Leia as séries de dados**


In [None]:
### ------------------------------------------------------------------------------------
### Load the libraries to be used in the analysis
### ------------------------------------------------------------------------------------
import pandas as pd
import numpy as np
from scipy import stats
import matplotlib.pyplot as plt
import matplotlib.dates as mdates

In [None]:
### ------------------------------------------------------------------------------------
### Load the saildrone time-series
### ------------------------------------------------------------------------------------
saildrone_data = pd.read_csv("./Data/saildrone_data.csv", parse_dates=[0]).set_index(
    "time"
)
saildrone_data

**b) Plote as séries na mesma figura, utilizando a função subplot.m**

**c) Verifique se existem lacunas de dados nas séries. Se existir, preencha as lacunas usando algum interpolador que você conheça do MATLAB. Plot as séries interpoladas sobrepostas às séries originais**


In [None]:
### ------------------------------------------------------------------------------------
### Fill the gaps using an Piecewise Cubic Hermite Polynomial interpolation
### ------------------------------------------------------------------------------------
saildrone_filled = saildrone_data.interpolate(
    method="pchip", limit_direction="forward", limit_area="inside", axis=0
)

In [None]:
### ------------------------------------------------------------------------------------
### Plot some of the saildrone variables in the same figure
### ------------------------------------------------------------------------------------
fig = plt.figure(figsize=(10, 10), dpi=300)
ax1 = fig.add_subplot(511)
ax2 = fig.add_subplot(512)
ax3 = fig.add_subplot(513)
ax4 = fig.add_subplot(514)
ax5 = fig.add_subplot(515)
### Subplot 1: Temperature
ax1.plot(saildrone_data["mean_sst"], color="#E71D36", label="Original")
ax1.plot(
    saildrone_filled["mean_sst"],
    color="#E71D36",
    label="Interpolated",
    linestyle="dashed",
    alpha=0.5,
)
ax1.legend()
ax1.set_title("Temperatura superficial do mar", loc="left")
ax1.set_ylabel("°C")
ax1.grid(linestyle="dashed", alpha=0.3)
ax1.xaxis.set_major_locator(mdates.MonthLocator())
ax1.xaxis.set_minor_locator(mdates.DayLocator(bymonthday=(7, 14, 21, 28)))
ax1.xaxis.set_major_formatter(
    mdates.ConciseDateFormatter(ax1.xaxis.get_major_locator())
)
### Subplot 2: Salinity
ax2.plot(saildrone_data["mean_sal"], color="#FF9F1C", label="Original")
ax2.plot(
    saildrone_filled["mean_sal"],
    color="#FF9F1C",
    label="Interpolated",
    linestyle="dashed",
    alpha=0.5,
)
ax2.legend()
ax2.set_title("Salinidade", loc="left")
ax2.set_ylabel("psu")
ax2.grid(linestyle="dashed", alpha=0.3)
ax2.xaxis.set_major_locator(mdates.MonthLocator())
ax2.xaxis.set_minor_locator(mdates.DayLocator(bymonthday=(7, 14, 21, 28)))
ax2.xaxis.set_major_formatter(
    mdates.ConciseDateFormatter(ax2.xaxis.get_major_locator())
)
### Subplot 3: Dissolved Oxygen
ax3.plot(saildrone_data["oxy"], color="#346083", label="Original")
ax3.plot(
    saildrone_filled["oxy"],
    color="#346083",
    label="Interpolated",
    linestyle="dashed",
    alpha=0.5,
)
ax3.legend()
ax3.set_title("Oxigênio dissolvido", loc="left")
ax3.set_ylabel("μM")
ax3.grid(linestyle="dashed", alpha=0.3)
ax3.xaxis.set_major_locator(mdates.MonthLocator())
ax3.xaxis.set_minor_locator(mdates.DayLocator(bymonthday=(7, 14, 21, 28)))
ax3.xaxis.set_major_formatter(
    mdates.ConciseDateFormatter(ax3.xaxis.get_major_locator())
)
### Subplot 4: Partial pressure of carbon dioxide in seawater
ax4.plot(saildrone_data["pco2_sw"], color="#CB904D", label="Original")
ax4.plot(
    saildrone_filled["pco2_sw"],
    color="#CB904D",
    label="Interpolated",
    linestyle="dashed",
    alpha=0.5,
)
ax4.legend()
ax4.set_title("Pressão parcial CO₂ na água do mar", loc="left")
ax4.set_ylabel("μatm")
ax4.grid(linestyle="dashed", alpha=0.3)
ax4.xaxis.set_major_locator(mdates.MonthLocator())
ax4.xaxis.set_minor_locator(mdates.DayLocator(bymonthday=(7, 14, 21, 28)))
ax4.xaxis.set_major_formatter(
    mdates.ConciseDateFormatter(ax4.xaxis.get_major_locator())
)
### Subplot 5: Chlorophyll
ax5.semilogy(saildrone_data["chla"], color="#008F45", label="Original")
ax5.plot(
    saildrone_filled["chla"],
    color="#008F45",
    label="Interpolated",
    linestyle="dashed",
    alpha=0.5,
)
ax5.legend()
ax5.set_title("Concentração clorofila", loc="left")
ax5.set_ylabel("μg $L^{-1}$")
ax5.grid(linestyle="dashed", alpha=0.3)
ax5.xaxis.set_major_locator(mdates.MonthLocator())
ax5.xaxis.set_minor_locator(mdates.DayLocator(bymonthday=(7, 14, 21, 28)))
ax5.xaxis.set_major_formatter(
    mdates.ConciseDateFormatter(ax5.xaxis.get_major_locator())
)
### Final touch
fig.tight_layout(pad=0.2)
plt.show()

**d) Comente os dados em termos da necessidade de editar os dados**

Em geral, os dados precisaram pouca edição, sendo o aspecto mais relevante uma falta de dados de todos os sensores entre finais de maio e meados de junho devido a uma falha do saildrone associada ao gelo marinho. Como esse período é muito grande (levando em consideração que a resolução temporal é de 1h), os dados interpolados são pouco confiáveis e não devem ser usados numa análise. Temperatura e salinidade foram as variáveis com maiores observações ininterruptas. Oxigênio dissolvido e clorofila apresentaram maiores "gaps", mas o interpolador usado parece ter capturado bem o comportamento destas variáveis.

#### 2. Edição:
Usando o conceito do “wild edit”, elabore uma rotina em MATLAB para editar automaticamente as séries temporais. Os passos são:
* Calcule o desvio padrão da série selecionada. 
* Forme janelas de 5 pontos da série.
* Ordene os dados (ascendente) dentro da janela de 5 pontos e use o valor do meio (i=3).
* Repita os passos b e c, usando agora uma janela de 3 pontos (usando o valor do meio) com os dados gerados no item c.
* Plot a série original sobreposta à série obtida no passo anterior.
* Encontre valores tais que |xi-xi’| >= constante × Desvio Padrão (sugestão: cte =3).
* Substitua o valor original com o valor novo.
* Coloque em distintos gráficos as séries originais e as editadas.
* Comente sobre o método utilizado, suas qualidade e defeitos. Dê a sua opinião sobre qual método reproduz melhor o resultado esperado. Você acha que os dados ainda precisariam de mais algum tipo de edição?


In [None]:
### ------------------------------------------------------------------------------------
### Define the function that edit the time-series
### ------------------------------------------------------------------------------------
def wild_edit(dataframe, constant):
    stdv = dataframe.std()
    median_5p = dataframe.rolling(window=5, min_periods=3, center=True).median()
    median_3p = median_5p.rolling(window=3, min_periods=2, center=True).median()
    difference = abs(dataframe - median_3p)
    edited_df = dataframe.copy()
    for variable, std_value in enumerate(stdv):
        substitution = difference.iloc[:, variable] >= constant * std_value
        edited_df.iloc[:, variable][substitution] = median_3p.iloc[:, variable][
            substitution
        ]
    return median_3p, edited_df

In [None]:
### ------------------------------------------------------------------------------------
### Apply the fuction to the data
### ------------------------------------------------------------------------------------
saildrone_3p, saildrone_edited = wild_edit(saildrone_data, 3)

In [None]:
### ------------------------------------------------------------------------------------
### Plot the original data and the rolling median data
### ------------------------------------------------------------------------------------
fig = plt.figure(figsize=(10, 10), dpi=300)
ax1 = fig.add_subplot(511)
ax2 = fig.add_subplot(512)
ax3 = fig.add_subplot(513)
ax4 = fig.add_subplot(514)
ax5 = fig.add_subplot(515)
### Subplot 1: Temperature
ax1.plot(saildrone_data["mean_sst"], color="#E71D36", label="Original")
ax1.plot(saildrone_3p["mean_sst"], color="black", label="Rolling median", alpha=0.5)
ax1.legend()
ax1.set_title("Temperatura superficial do mar", loc="left")
ax1.set_ylabel("°C")
ax1.grid(linestyle="dashed", alpha=0.3)
ax1.xaxis.set_major_locator(mdates.MonthLocator())
ax1.xaxis.set_minor_locator(mdates.DayLocator(bymonthday=(7, 14, 21, 28)))
ax1.xaxis.set_major_formatter(
    mdates.ConciseDateFormatter(ax1.xaxis.get_major_locator())
)
### Subplot 2: Salinity
ax2.plot(saildrone_data["mean_sal"], color="#FF9F1C", label="Original")
ax2.plot(saildrone_3p["mean_sal"], color="black", label="Rolling median", alpha=0.5)
ax2.legend()
ax2.set_title("Salinidade", loc="left")
ax2.set_ylabel("psu")
ax2.grid(linestyle="dashed", alpha=0.3)
ax2.xaxis.set_major_locator(mdates.MonthLocator())
ax2.xaxis.set_minor_locator(mdates.DayLocator(bymonthday=(7, 14, 21, 28)))
ax2.xaxis.set_major_formatter(
    mdates.ConciseDateFormatter(ax2.xaxis.get_major_locator())
)
### Subplot 3: Dissolved Oxygen
ax3.plot(saildrone_data["oxy"], color="#346083", label="Original")
ax3.plot(saildrone_3p["oxy"], color="black", label="Rolling median", alpha=0.5)
ax3.legend()
ax3.set_title("Oxigênio dissolvido", loc="left")
ax3.set_ylabel("μM")
ax3.grid(linestyle="dashed", alpha=0.3)
ax3.xaxis.set_major_locator(mdates.MonthLocator())
ax3.xaxis.set_minor_locator(mdates.DayLocator(bymonthday=(7, 14, 21, 28)))
ax3.xaxis.set_major_formatter(
    mdates.ConciseDateFormatter(ax3.xaxis.get_major_locator())
)
### Subplot 4: Partial pressure of carbon dioxide in seawater
ax4.plot(saildrone_data["pco2_sw"], color="#CB904D", label="Original")
ax4.plot(saildrone_3p["pco2_sw"], color="black", label="Rolling median", alpha=0.5)
ax4.legend()
ax4.set_title("Pressão parcial CO₂ na água do mar", loc="left")
ax4.set_ylabel("μatm")
ax4.grid(linestyle="dashed", alpha=0.3)
ax4.xaxis.set_major_locator(mdates.MonthLocator())
ax4.xaxis.set_minor_locator(mdates.DayLocator(bymonthday=(7, 14, 21, 28)))
ax4.xaxis.set_major_formatter(
    mdates.ConciseDateFormatter(ax4.xaxis.get_major_locator())
)
### Subplot 5: Chlorophyll
ax5.semilogy(saildrone_data["chla"], color="#008F45", label="Original")
ax5.plot(saildrone_3p["chla"], color="black", label="Rolling median", alpha=0.5)
ax5.legend()
ax5.set_title("Concentração clorofila", loc="left")
ax5.set_ylabel("μg $L^{-1}$")
ax5.grid(linestyle="dashed", alpha=0.3)
ax5.xaxis.set_major_locator(mdates.MonthLocator())
ax5.xaxis.set_minor_locator(mdates.DayLocator(bymonthday=(7, 14, 21, 28)))
ax5.xaxis.set_major_formatter(
    mdates.ConciseDateFormatter(ax5.xaxis.get_major_locator())
)
### Final touch
fig.tight_layout(pad=0.2)
plt.show()

In [None]:
### ------------------------------------------------------------------------------------
### Plot the edited data
### ------------------------------------------------------------------------------------
fig = plt.figure(figsize=(10, 10), dpi=300)
ax1 = fig.add_subplot(511)
ax2 = fig.add_subplot(512)
ax3 = fig.add_subplot(513)
ax4 = fig.add_subplot(514)
ax5 = fig.add_subplot(515)
### Subplot 1: Temperature
ax1.plot(saildrone_edited["mean_sst"], color="#E71D36", label="Original")
ax1.set_title("Temperatura superficial do mar", loc="left")
ax1.set_ylabel("°C")
ax1.grid(linestyle="dashed", alpha=0.3)
ax1.xaxis.set_major_locator(mdates.MonthLocator())
ax1.xaxis.set_minor_locator(mdates.DayLocator(bymonthday=(7, 14, 21, 28)))
ax1.xaxis.set_major_formatter(
    mdates.ConciseDateFormatter(ax1.xaxis.get_major_locator())
)
### Subplot 2: Salinity
ax2.plot(saildrone_edited["mean_sal"], color="#FF9F1C", label="Original")
ax2.set_title("Salinidade", loc="left")
ax2.set_ylabel("psu")
ax2.grid(linestyle="dashed", alpha=0.3)
ax2.xaxis.set_major_locator(mdates.MonthLocator())
ax2.xaxis.set_minor_locator(mdates.DayLocator(bymonthday=(7, 14, 21, 28)))
ax2.xaxis.set_major_formatter(
    mdates.ConciseDateFormatter(ax2.xaxis.get_major_locator())
)
### Subplot 3: Dissolved Oxygen
ax3.plot(saildrone_edited["oxy"], color="#346083", label="Original")
ax3.set_title("Oxigênio dissolvido", loc="left")
ax3.set_ylabel("μM")
ax3.grid(linestyle="dashed", alpha=0.3)
ax3.xaxis.set_major_locator(mdates.MonthLocator())
ax3.xaxis.set_minor_locator(mdates.DayLocator(bymonthday=(7, 14, 21, 28)))
ax3.xaxis.set_major_formatter(
    mdates.ConciseDateFormatter(ax3.xaxis.get_major_locator())
)
### Subplot 4: Partial pressure of carbon dioxide in seawater
ax4.plot(saildrone_edited["pco2_sw"], color="#CB904D", label="Original")
ax4.set_title("Pressão parcial CO₂ na água do mar", loc="left")
ax4.set_ylabel("μatm")
ax4.grid(linestyle="dashed", alpha=0.3)
ax4.xaxis.set_major_locator(mdates.MonthLocator())
ax4.xaxis.set_minor_locator(mdates.DayLocator(bymonthday=(7, 14, 21, 28)))
ax4.xaxis.set_major_formatter(
    mdates.ConciseDateFormatter(ax4.xaxis.get_major_locator())
)
### Subplot 5: Chlorophyll
ax5.semilogy(saildrone_edited["chla"], color="#008F45", label="Original")
ax5.set_title("Concentração clorofila", loc="left")
ax5.set_ylabel("μg $L^{-1}$")
ax5.grid(linestyle="dashed", alpha=0.3)
ax5.xaxis.set_major_locator(mdates.MonthLocator())
ax5.xaxis.set_minor_locator(mdates.DayLocator(bymonthday=(7, 14, 21, 28)))
ax5.xaxis.set_major_formatter(
    mdates.ConciseDateFormatter(ax5.xaxis.get_major_locator())
)
### Final touch
fig.tight_layout(pad=0.2)
plt.show()

O método utilizado traz dois benefícios: ao aplicar uma média móvel, é possível reduzir a variabilidade de alta frequência, que, dependendo do tipo de observação, geralmente pode ser associada ao ruído do sensor. Além disso, permite identificar e substituir valores muito diferentes em comparação com o restante dos dados, ou seja, valores anômalos. Porém, dependendo do tipo de análise, o método pode não ser apropriado. Por exemplo, se o pesquisador tem interesse na análise da variabilidade de alta frequência, a aplicação de uma média móvel pode eliminar grande parte da informação relevante. Da mesma forma, valores anômalos podem fornecer informações sobre processos pontuais que podem ser de interesse. Em resumo, o método aplicado deve ser coerente com o tipo de análise a ser feito posteriormente. Para uma análise exploratória dos dados, eu acho que não é necessário outro tipo de edição.

****
### Parte II – Estatística básica
#### 3. Análise de Distribuição:
As funções rand.m e randn.m do Matlab permitem a criação de séries randômicas. A primeira gera uma série de valores uniformemente distribuídos, já a segunda gera uma série de valores normalmente distribuídos. Utilize o comando help na tela de comando do Matlab par visualizar os detalhes de cada uma.

* Gere duas séries x1 e x2, com 10000 valores cada, e usando as funções rand.m e randn.m, respectivamente.
* Plot os histogramas de cada série (hist.m).
* Calcule as médias e os desvios padrões de cada série. Os valores encontrados já eram esperados? Comente.


In [None]:
### ------------------------------------------------------------------------------------
### Create the series
### ------------------------------------------------------------------------------------
x1 = pd.Series(np.random.uniform(0, 1, 10000))
x2 = pd.Series(np.random.normal(0, 1, 10000))

In [None]:
### ------------------------------------------------------------------------------------
### Plot the histogram of the serie 1
### ------------------------------------------------------------------------------------
plt.figure(dpi=300)
hist1 = x1.hist(bins="auto")
hist1.set_title("Histogram (x1 series | Uniforme)", loc="left")
hist1.set_ylabel("Counts")
plt.grid(linestyle="dashed", alpha=0.3)
plt.show()

In [None]:
### ------------------------------------------------------------------------------------
### Plot the histogram of the serie 2
### ------------------------------------------------------------------------------------
plt.figure(dpi=300)
hist2 = x2.hist(bins="auto")
hist2.set_title("Histogram (x2 series | Normal)", loc="left")
hist2.set_ylabel("Counts")
plt.grid(linestyle="dashed", alpha=0.3)
plt.show()

In [None]:
### ------------------------------------------------------------------------------------
### Print the info
### ------------------------------------------------------------------------------------
print(
    f"A media da serie X1 é: {round(x1.mean(), 4)} e o desvio padrão é: {round(x1.std(), 4)}"
)
print(
    f"A media da serie X2 é: {round(x2.mean(), 4)} e o desvio padrão é: {round(x2.std(), 4)}"
)

Os valores encontrados eram esperados. No caso da série uniformemente distribuída, os dados vão desde 0 até 1, por isso era esperado uma média perto de 0.5. No caso da distribuição normal, durante sua elaboração, foi escolhido que sua média fosse 0 e seu desvio padrão 1, e os resultados encontrados estão perto desses valores.

Gere uma série randômica de temperatura, cuja média é 14.2 °C e o desvio padrão 4.7 °C. (x = 14.2+4.7*randn(1,10000)).
* Padronize a série utilizando o z-score.
* Calcule a média e o desvio padrão do z-score.
* Faça o histograma do z-score.
* Gere o gráfico de probabilidade normal da série (normplot.m).


In [None]:
### ------------------------------------------------------------------------------------
### Create the serie 3
### ------------------------------------------------------------------------------------
x3 = pd.Series(np.random.normal(14.2, 4.7, 10000))
x3_norm = stats.zscore(x3)
print(
    f"A media da serie x3 z-score é: {round(x3_norm.mean(), 4)} e o desvio padrão é: {round(x3_norm.std(), 4)}"
)

In [None]:
### ------------------------------------------------------------------------------------
### Print the info
### ------------------------------------------------------------------------------------
plt.figure(dpi=300)
hist3 = x3_norm.hist(bins="auto")
hist3.set_title("Histogram (x3 z-score)", loc="left")
hist3.set_ylabel("Counts")
plt.grid(linestyle="dashed", alpha=0.3)
plt.show()

In [None]:
### ------------------------------------------------------------------------------------
### Make the probability analysis
### ------------------------------------------------------------------------------------
# Calculate quantiles and least-square-fit curve
(quantiles, values), (slope, intercept, r) = stats.probplot(x3_norm, dist="norm")
# plot results
plt.figure(dpi=300)
plt.plot(values, quantiles, "+b")
plt.plot(quantiles * slope + intercept, quantiles, "r")
# define ticks
ticks_perc = [1, 5, 10, 20, 50, 80, 90, 95, 99]
### Transform them from precentile to cumulative density
ticks_quan = [stats.norm.ppf(i / 100.0) for i in ticks_perc]
### Assign new ticks
plt.yticks(ticks_quan, ticks_perc)
### Final touch
plt.title("Normal probability plot (x3 z-score)")
plt.ylabel("Probability")
plt.grid(linestyle="dashed", alpha=0.3)
plt.show()

Crie uma nova série x variando de 0 a 30, com intervalo de 0.1. 
* Calcule a função de densidade de probabilidade normal (normpdf.m) de x cuja média seja 14.2 e o desvio padrão seja 4.7. Plot o resultado.
* Calcule o z-score de x.
* Quais os valores da média e do desvio padrão do z-score?
* Plot a função de densidade da probabilidade do z-score (normpdf.m)
* Quais as diferenças entre (b) e (e)?
* Calcule o valor acumulado da probabilidade normal (normcdf.m) e faça um gráfico do valor acumulado da probabilidade P.
* Qual é a probabilidade de encontrar um valor de x ≤3? E para x ≥20?
* Use a função lillietest.m que verifica o ajuste dos dados à uma curva de distribuição normal (lillietest(x)). Se lillietest = 0, indica que a hipótese nula (dados normalmente distribuídos) NÃO pode ser rejeitada. Se lillietest = 1, indica que a hipótese pode ser rejeitada. O nível de confiança é de 95%, neste caso. Comente os resultados.


In [None]:
### ------------------------------------------------------------------------------------
### Create serie 4
### ------------------------------------------------------------------------------------
x4 = pd.Series(np.arange(0, 30, 0.1))
x4_pdf = pd.Series(stats.norm.pdf(x4, 14.2, 4.7)).set_axis(x4)
plt.figure(dpi=300)
pdf = x4_pdf.plot()
pdf.set_title("Probability density function (x4 series)", loc="left")
pdf.set_ylabel("Probability")
plt.grid(linestyle="dashed", alpha=0.3)
plt.show()

In [None]:
### ------------------------------------------------------------------------------------
### Norm the serie 4
### ------------------------------------------------------------------------------------
x4_norm = stats.zscore(x4)
print(
    f"A media da serie z-score é: {round(x4_norm.mean(), 4)} e o desvio padrão é: {round(x4_norm.std(), 4)}"
)

In [None]:
### ------------------------------------------------------------------------------------
### Probability density function
### ------------------------------------------------------------------------------------
x4_norm_pdf = pd.Series(stats.norm.pdf(x4_norm)).set_axis(x4_norm)
plt.figure(dpi=300)
pdf = x4_norm_pdf.plot()
pdf.set_title("Probability density function (x4 z-score)", loc="left")
pdf.set_ylabel("Probability")
plt.grid(linestyle="dashed", alpha=0.3)
plt.show()

A diferença entre os gráficos de densidade de probabilidade da série x4 e a série x4 normalizada está no valor médio (~14 para x4 e 0 para o seu z-score) e no comprimento da curva, sendo este maior para a série x4, o que é esperado considerando que esta série tem um maior desvio padrão que a série normalizada, a qual tem um desvio padrão de 1.

In [None]:
### ------------------------------------------------------------------------------------
### Cumulative distribution function
### ------------------------------------------------------------------------------------
x4_cdf = pd.Series(stats.norm.cdf(x4, x4.mean(), x4.std())).set_axis(x4)
plt.figure(dpi=300)
cdf = x4_cdf.plot()
cdf.set_title("Cumulative distribution function (x4 series)", loc="left")
cdf.set_ylabel("Cumulative Probability")
plt.grid(linestyle="dashed", alpha=0.3)
plt.show()

In [None]:
### ------------------------------------------------------------------------------------
### Print the info
### ------------------------------------------------------------------------------------
prob_3 = x4_cdf[3.0] * 100
prob_20 = (1 - x4_cdf[20.0]) * 100
print(
    f"A probabilidade de encontrar um valor de x ≤ 3 é: {round(prob_3, 2)}% e a probabilidade de encontrar um valor de x ≥ 20 é: {round(prob_20, 2)}%"
)

In [None]:
### ------------------------------------------------------------------------------------
### Define a function for nomal test
### ------------------------------------------------------------------------------------
def normal_test(series, alpha):
    # One-sample Kolmogorov-Smirnov test (kst):
    kst = stats.ks_1samp(series, stats.norm.cdf).pvalue
    if kst < alpha:
        print(f"KST (p-values): {round(kst, 4)} < {alpha}")
        print(
            f"Com um nivel de confiança de {100-alpha*100}% o teste de normalidade de Kolmogorov-Smirnov sugere que a série não possui uma distribuição normal"
        )
    else:
        print(f"KST (p-values): {round(kst, 4)} > {alpha}")
        print(
            f"Com um nivel de confiança de {100-alpha*100}% o teste de normalidade de Kolmogorov-Smirnov sugere que a série pode ter uma distribuição normal"
        )
    # Shapiro-Wilk test (swt):
    print("---------------------------------------------------------------------------")
    swt = stats.shapiro(series).pvalue
    if swt < alpha:
        print(f"SWT (p-values): {round(swt, 4)} < {alpha}")
        print(
            f"Com um nivel de confiança de {100-alpha*100}% o teste de normalidade de Shapiro-Wilk sugere que a série não possui uma distribuição normal"
        )
    else:
        print(f"SWT (p-values): {round(swt, 4)} > {alpha}")
        print(
            f"Com um nivel de confiança de {100-alpha*100}% o teste de normalidade de Shapiro-Wilk sugere que a série pode ter uma distribuição normal"
        )
    # D’Agostino and Pearson’s test (dpt):
    print("---------------------------------------------------------------------------")
    dpt = stats.normaltest(series, nan_policy="omit").pvalue
    if dpt < alpha:
        print(f"DPT (p-values): {round(dpt, 4)} < {alpha}")
        print(
            f"Com um nivel de confiança de {100-alpha*100}% o teste de normalidade de D’Agostino and Pearson’s sugere que a série não possui uma distribuição normal"
        )
    else:
        print(f"DPT (p-values): {round(dpt, 4)} > {alpha}")
        print(
            f"Com um nivel de confiança de {100-alpha*100}% o teste de normalidade de D’Agostino and Pearson’s sugere que a série pode ter uma distribuição normal"
        )

In [None]:
### ------------------------------------------------------------------------------------
### Normal test
### ------------------------------------------------------------------------------------
normal_test(x4, 0.05)

Seguindo os resultados dos três testes estatísticos utilizados, a série x4 não apresenta uma distribuição normal. Este resultado é esperado já que a série tem todos seus valores uniformemente distribuídos, e isso pode ser observado no histograma mostrado a seguir:

In [None]:
### ------------------------------------------------------------------------------------
### Print the info
### ------------------------------------------------------------------------------------
plt.figure(dpi=300)
hist4 = x4.hist(bins="auto")
hist4.set_title("Histogram (x4 series)", loc="left")
hist4.set_ylabel("Counts")
plt.grid(linestyle="dashed", alpha=0.3)
plt.show()