# üìä Modelagem Epidemiol√≥gica da COVID-19 no Par√° com o Modelo SIRC

Neste notebook √© apresentada a aplica√ß√£o de um **modelo epidemiol√≥gico compartimental do tipo SIRC** ‚Äî *Suscet√≠veis (S)*, *Infectados (I)*, *Recuperados (R)* e *Casos acumulados (C)* ‚Äî para descrever e ajustar a din√¢mica da pandemia de **COVID-19 no estado do Par√°**, com base em dados reais de casos confirmados.

O objetivo central √© **ajustar um sistema de equa√ß√µes diferenciais ordin√°rias (EDOs)** aos dados observados de casos acumulados, estimando par√¢metros epidemiol√≥gicos relevantes por meio de **otimiza√ß√£o n√£o linear**.

---

## üî¨ Vis√£o Geral da Metodologia

O fluxo de trabalho adotado neste estudo pode ser dividido em quatro etapas principais:

### 1Ô∏è‚É£ Leitura e organiza√ß√£o dos dados epidemiol√≥gicos

Os dados s√£o carregados a partir de um arquivo no formato `parquet`, contendo registros di√°rios de casos confirmados de COVID-19. Neste estudo os dados selecionados s√£o para Bel√©m-Pa. A vari√°vel observada principal √© o n√∫mero de **casos novos di√°rios**, a partir do qual se constr√≥i a s√©rie de **casos acumulados**.

---

### 2Ô∏è‚É£ Constru√ß√£o das s√©ries temporais

Seja \( C(t) \) o n√∫mero acumulado de casos no tempo \( t \). A partir da s√©rie de casos novos \( \Delta C(t) \), calcula-se:

$$[
C(t) = \sum_{i=1}^{t} \Delta C(i)
]$$

A an√°lise √© restrita aos **primeiros 150 dias da pandemia**, per√≠odo no qual a din√¢mica de crescimento √© mais informativa para a estima√ß√£o dos par√¢metros epidemiol√≥gicos.

---

### 3Ô∏è‚É£ Modelo Epidemiol√≥gico SIRC

O modelo SIRC descreve a evolu√ß√£o temporal das popula√ß√µes por meio do seguinte sistema de equa√ß√µes diferenciais ordin√°rias:


\begin{aligned}
\frac{dS}{dt} &= -\beta \frac{S I}{N} \\
\frac{dI}{dt} &= \beta \frac{S I}{N} - \gamma I \\
\frac{dR}{dt} &= \gamma I \\
\frac{dC}{dt} &= \beta \frac{S I}{N}
\end{aligned}


onde:

- \( S(t) \): n√∫mero de indiv√≠duos suscet√≠veis
- \( I(t) \): n√∫mero de indiv√≠duos infectados
- \( R(t) \): n√∫mero de indiv√≠duos recuperados
- \( C(t) \): n√∫mero de casos acumulados
- \( \beta \): taxa de cont√°gio
- \( \gamma \): taxa de recupera√ß√£o
- \( N \): popula√ß√£o total considerada (constante)

A condi√ß√£o inicial do sistema √© dada por:


\begin{aligned}
S(0) &= N - I_0 \\
I(0) &= I_0 \\
R(0) &= 0 \\
C(0) &= I_0
\end{aligned}


---

### 4Ô∏è‚É£ Resolu√ß√£o Num√©rica e Ajuste do Modelo

O sistema de EDOs √© resolvido numericamente por meio do m√©todo de **integra√ß√£o de Runge‚ÄìKutta**, implementado pela fun√ß√£o `odeint` da biblioteca `scipy`.

O ajuste do modelo aos dados observados √© realizado utilizando a biblioteca **`lmfit`**, que permite:

* Definir par√¢metros livres e fixos;
* Impor limites f√≠sicos aos par√¢metros;
* Estimar incertezas associadas aos par√¢metros;
* Avaliar correla√ß√µes entre eles.

O processo de ajuste minimiza a fun√ß√£o objetivo:

$
\min_{\beta, \gamma} \sum_{t} \left[ C_{\text{obs}}(t) - C_{\text{mod}}(t; \beta, \gamma) \right]^2
$

---

## üìà M√©tricas de Avalia√ß√£o

A qualidade do ajuste √© avaliada a partir de m√©tricas estat√≠sticas como:

* coeficiente de determina√ß√£o \( R^2 \);
* qui-quadrado reduzido ( $\chi^2_{\text{red}}$ \);
* Crit√©rio de Informa√ß√£o de Akaike (AIC);
* Crit√©rio de Informa√ß√£o Bayesiano (BIC).

Essas m√©tricas permitem avaliar tanto a ader√™ncia do modelo aos dados quanto a complexidade do ajuste.

---

## üéØ Import√¢ncia do Estudo

A modelagem epidemiol√≥gica baseada em modelos compartimentais permite:

* Compreender a din√¢mica temporal da pandemia em escala regional;
* Estimar par√¢metros epidemiol√≥gicos relevantes;
* Comparar diferentes regi√µes e per√≠odos;
* Avaliar a adequa√ß√£o de modelos mecan√≠sticos a dados reais;
* Fornecer subs√≠dios quantitativos para an√°lises retrospectivas e estudos em sa√∫de p√∫blica.

Este notebook tem car√°ter **explorat√≥rio e quantitativo**, servindo como base para extens√µes futuras, como a inclus√£o de efeitos temporais, interven√ß√µes n√£o farmacol√≥gicas ou varia√ß√£o de par√¢metros no tempo.

## üìå Resumo dos Resultados

O modelo SIRC explica aproximadamente **97% da variabilidade observada** ($\(R^2 = 0{,}97\)$). Os par√¢metros estimados foram **Œ≤ = 0,514 ¬± 0,008** e **Œ≥ = 0,396 ¬± 0,008**, com baixas incertezas relativas, indicando boa identifica√ß√£o estat√≠stica no per√≠odo analisado. O n√∫mero b√°sico de reprodu√ß√£o estimado foi **\($R_0 \approx 1{,}30\$)**, consistente com um cen√°rio de crescimento epid√™mico moderado. Observou-se ainda **forte correla√ß√£o entre Œ≤ e Œ≥** (0,997), sugerindo que a din√¢mica do modelo √© majoritariamente controlada pela raz√£o \(Œ≤/Œ≥\).



## üß© Bibliotecas Utilizadas

In [None]:
import numpy as np
import pandas as pd
from scipy.integrate import odeint
import lmfit
import matplotlib.pyplot as plt
import modelos_epidemiologicos as model
from datetime import datetime

print(datetime.now().isoformat(timespec='seconds'))

## üì• Leitura e Pr√©-processamento dos Dados


In [None]:
# leitura dados
df0= pd.read_parquet("/home/akel/PycharmProjects/Endemic_model/data/caso_full.parquet")
df0['date']=pd.to_datetime(df0['date'],format='%Y-%m-%d')

dfE=df0.groupby(['date', 'state'])['new_confirmed'].sum().reset_index() #agrupar por estados
dfPA= dfE[dfE['state']=='PA' ]                                          #filtrar estado
dfbel= df0[(df0["city"] == "Bel√©m") & (df0['state']=='PA') ]            #filtrar cidade
print('arquivos lidos')
print(datetime.now().isoformat(timespec='seconds'))


## üìà Visualiza√ß√£o dos Dados


In [None]:
# Visualiza√ß√£o
NCP=dfPA['new_confirmed'].values
NCB=dfbel['new_confirmed'].values

# casos acumulados
Cp=np.cumsum(NCP)
Cb=np.cumsum(NCB)

t_date=dfPA['date'].values

# periodo -01/02/2020 - 12/07/2020 (318)
yc=NCP[0:150]
y=Cp[0:150]
x=t_date[0:150] 

plt.figure(figsize=(12, 6))
plt.bar(x, y, color='red', label='Dados originais')
plt.title('Casos aculumados COVID-19 estado do Par√°\n 2020-2021', fontsize=14)
plt.xlabel('Data', fontsize=12)
plt.tight_layout()
plt.ylim([0,300000])
plt.xlim(pd.to_datetime(['2020-03-18', '2020-07-30'])) 
plt.grid(True, linestyle='--', alpha=0.6)
plt.xticks(rotation=45);  # Rotaciona as datas para melhor legibilidade

## üßÆ Defini√ß√£o do Modelo SIRC


In [None]:
#funcoes
def solve_sirc(t,N,beta,gamma,I0):
    """Resolve o modelo SIRC e retorna casos acumulados."""
    R0 = 0
    C0 = I0
    S0 = N - I0 - R0
    y0 = [S0, I0, R0, C0]
    sol = odeint(model.SIRC, y0, t, args=(N, beta, gamma))
    return sol[:, 3]

print(datetime.now().isoformat(timespec='seconds'))

## üéØ Estimativa Inicial dos Par√¢metros


In [None]:
c = y                  
t = np.arange(len(c))
#I0=1.728745
#N=700000
# gamma_i=0.291505
# beta_i=0.437257

R0 = 0
#C0 = I0             # Casos acumulados iniciais = infectados iniciais
#S0 = N  - I0 - R0
#y0 = [S0, I0, R0, C0]


# Estimar chutes inicias e N
K,r,A = model.initial_SIRC(c)

I0 = K / (A + 1)         #infectados inicias
N = 2 * K                #populacao
gamma_i = 2 * r          #taxa de recuperacao
beta_i = 1.5 * gamma_i   #taxa de contagio

# ---------------------------
# PAR√ÇMETROS INICIAIS
# ---------------------------
print('\n' + '='*40)
print('PAR√ÇMETROS INICIAIS'.center(40))
print('='*40)
print(f'{"I0:":<10}{I0:>30.6f}')
print(f'{"N:":<10}{N:>30.6f}')
print(f'{"gamma_i:":<10}{gamma_i:>30.6f}')
print(f'{"beta_i:":<10}{beta_i:>30.6f}')
print(datetime.now().isoformat(timespec='seconds'))

## ‚öôÔ∏è Ajuste dos Par√¢metros com lmfit

In [None]:
# Configurar modelo
SIRC_model= lmfit.Model(solve_sirc,independent_vars=['t'])


print(N,beta_i,gamma_i,I0)
# # Defini√ß√£o dos limites dos parametros
params = SIRC_model.make_params()
params['N'].set(value=N, vary=False)
params['beta'].set(value=beta_i, min=0.001, max=3.0)
params['gamma'].set(value=gamma_i, min=0.001, max=2.0)
params['I0'].set(value=I0, vary=False)
                # min=1, max=N)
result = SIRC_model.fit(y, params, t=t)
print(result.fit_report())

## üìâ Resultados dos ajustes

In [None]:
fig, ax = plt.subplots(figsize=(12, 6))
plt.plot(x,y,'o',label='dados')
plt.plot(x,result.best_fit,label='melhor ajuste');  #melhor ajuste do modelo
plt.fill_between(
    x, 
    result.best_fit - result.residual.std(), 
    result.best_fit+ result.residual.std(), 
    color='Orange', alpha=0.2, label='Incerteza'
);


## üìä An√°lise dos Resultados do Ajuste do Modelo SIRC

Os resultados apresentados correspondem ao ajuste do modelo SIRC aos **casos acumulados de COVID-19 no estado do Par√°**, considerando um per√≠odo inicial de 150 dias da pandemia. A seguir, discute-se a qualidade do ajuste, a interpreta√ß√£o dos par√¢metros estimados e suas implica√ß√µes epidemiol√≥gicas.

---

### üîç Qualidade do Ajuste

O coeficiente de determina√ß√£o obtido foi:


$R^2 = 0.969$

Esse valor indica que o modelo √© capaz de explicar aproximadamente **97% da variabilidade observada** nos dados de casos acumulados, evidenciando uma **excelente ader√™ncia global** do modelo SIRC aos dados nesse intervalo temporal. Esse resultado sugere que a estrutura mecan√≠stica do modelo √© adequada para capturar a din√¢mica m√©dia de crescimento da pandemia no per√≠odo analisado.

Por outro lado, o **qui-quadrado reduzido elevado** (( $\chi^2_{\text{red}}$ $\sim$ 4.8 $\times$ 10^8 )) est√° associado √† escala absoluta dos dados (casos acumulados), que envolve n√∫meros elevados. Como n√£o foi considerada uma modelagem expl√≠cita das incertezas observacionais, esse valor n√£o deve ser interpretado isoladamente como indica√ß√£o de mau ajuste, mas sim como consequ√™ncia da magnitude da vari√°vel-alvo.

Os crit√©rios de informa√ß√£o:


$\text{AIC} = 2998.9, \quad \text{BIC} = 3004.9$


refletem um bom compromisso entre **qualidade do ajuste e complexidade do modelo**, especialmente considerando que apenas **dois par√¢metros livres** foram estimados (( \beta ) e ( \gamma )).

---

### üßÆ Interpreta√ß√£o dos Par√¢metros Estimados

Os valores ajustados para os par√¢metros epidemiol√≥gicos foram:

$
\beta = 0.514 \pm 0.008 \quad (1.65%)
$
$
\gamma = 0.396 \pm 0.008 \quad (2.04%)
$

As **incertezas relativas baixas** indicam que os par√¢metros foram bem identificados pelos dados no per√≠odo analisado.

Do ponto de vista epidemiol√≥gico:

* **Œ≤ (taxa de cont√°gio)** representa a intensidade das intera√ß√µes efetivas capazes de gerar novas infec√ß√µes;
* **Œ≥ (taxa de recupera√ß√£o)** est√° associada ao inverso do tempo m√©dio de infec√ß√£o.

A partir desses valores, pode-se estimar o **n√∫mero b√°sico de reprodu√ß√£o**:

$
R_0 = \frac{\beta}{\gamma} \approx \frac{0.514}{0.396} \approx 1.30
$

Esse valor √© compat√≠vel com um cen√°rio de **crescimento epid√™mico sustentado**, por√©m moderado, coerente com a fase inicial da pandemia e com a ado√ß√£o parcial de medidas de mitiga√ß√£o ao longo do per√≠odo.

---

### üîó Correla√ß√£o entre Par√¢metros

O ajuste revelou uma **correla√ß√£o extremamente alta** entre os par√¢metros ( $\beta$ ) e ( $\gamma$ ):

$
\text{Corr}(\beta, \gamma) = 0.997
$

Essa correla√ß√£o quase perfeita indica que os par√¢metros **n√£o s√£o completamente independentes**, o que √© t√≠pico em modelos compartimentais ajustados a **casos acumulados**. Em termos pr√°ticos, diferentes combina√ß√µes de ( $\beta$ ) e ( $\gamma$ ) podem produzir trajet√≥rias muito semelhantes para ( C(t) ), dificultando a identifica√ß√£o individual de cada par√¢metro.

Esse resultado sugere que:

* o ajuste √© fortemente sens√≠vel √† **raz√£o ( $\beta$ / $\gamma$ )** (isto √©, ao ( $R_0$ ));
* a inclus√£o de dados adicionais, como casos ativos ou recuperados, poderia reduzir essa degeneresc√™ncia;
* modelos com par√¢metros variando no tempo poderiam capturar melhor mudan√ßas estruturais na din√¢mica da epidemia.

---

### üìå Considera√ß√µes Finais

Em s√≠ntese:

* o modelo SIRC apresentou **excelente desempenho descritivo** para os dados analisados;
* os par√¢metros estimados s√£o **estatisticamente bem definidos**, por√©m altamente correlacionados;
* o valor estimado de ( $R_0$ ) √© consistente com a din√¢mica observada no per√≠odo inicial da pandemia;
* os resultados refor√ßam tanto a **utilidade** quanto as **limita√ß√µes** de modelos compartimentais simples quando aplicados a dados reais agregados.

Esses achados destacam a import√¢ncia de interpretar os par√¢metros epidemiol√≥gicos **em conjunto com o contexto dos dados e das hip√≥teses do modelo**, evitando leituras puramente num√©ricas dos resultados.

