# Regressão Poisson, Binomial Negativa e Quasi-Poisson

**Regressão de Poisson** é utilizada quando a variável dependente é de contagem ou taxa (número de atendimentos num hospital, vendas diárias, número de ocorrências policiais...).

Requisitos:

- **Contagem** devem ser **positivas**
- Aplicado em **contagens discretas** (números inteiros positivos)
- **Variável dependente** com **distribuição de Poisson**

$$µ_i = exp(\beta_0 + \beta_1x_{i1} + \beta_2x_{i2} + \beta_3x_{i3})$$

***
**Regressão Binomial Negativa** é também utilizada quando a variável dependente é de contagem ou no formato de taxa. A distribuição binomial é afetada pelo tamanho da amostra e pela probabilidade, **enquanto que a de Poisson só é afetada apenas pela média**.

$$\tilde{µ_i} = exp(\beta_0 + \beta_1x_{i1} + \beta_2x_{i2} + \beta_3x_{i3} + \epsilon_i) $$ 
***

**Quasi-Poisson** é uma alternativa à regressão binomial negativa. Pode ser usado para dados de contagem superdispersos (variância dos dados maior que a contagem média) e sub-dispersos (variância dos dados de contagem menor que a contagem média). A variância de um modelo Quasi-Poisson é uma função linear da média, enquanto a variância de um modelo binomial negativo é uma função quadrática da média

# Regressão de Poisson

Iremos trabalhar com um banco de dados hipotético, reclamações de um serviço de internet prestado por uma empresa. O objetivo dessa análise será analisar as reclamações nessa hipotética empresa fornecedora de internet.

In [1]:
import pandas as pd
import numpy as np
import statsmodels.formula.api as smf
import statsmodels.api as sm

In [2]:
dados_reclamacoes = pd.read_excel('reclamacoes.xlsx')
dados_reclamacoes

Unnamed: 0,dia,velocidade,conexao,instabilidade
0,1,43,15,34
1,2,45,21,29
2,3,46,17,26
3,4,49,14,23
4,5,52,20,25
5,6,55,18,22
6,7,63,17,19
7,8,59,21,20
8,9,58,23,14
9,10,60,16,12


15 linhas de dados com 4 variáveis

## Modelo Reclamação por Velocidade

In [3]:
modelo1 = smf.poisson("velocidade ~ dia", data = dados_reclamacoes).fit() # Dependente = Velocidade, Idenpendente = Dia
print(modelo1.summary())

Optimization terminated successfully.
         Current function value: 3.003118
         Iterations 4
                          Poisson Regression Results                          
Dep. Variable:             velocidade   No. Observations:                   15
Model:                        Poisson   Df Residuals:                       13
Method:                           MLE   Df Model:                            1
Date:                Fri, 20 Jan 2023   Pseudo R-squ.:                  0.1745
Time:                        21:23:43   Log-Likelihood:                -45.047
converged:                       True   LL-Null:                       -54.572
Covariance Type:            nonrobust   LLR p-value:                 1.273e-05
                 coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept      3.7679      0.076     49.297      0.000       3.618       3.918
dia            0.0345      0.

$\text{Equação:}$

$$\text{Velocidade} = e^{3,768 + 0,0345 \cdot dia}$$

In [4]:
modelo1.predict(dados_reclamacoes['dia']) # Reclamações por dia

0     44.807363
1     46.378509
2     48.004746
3     49.688006
4     51.430289
5     53.233664
6     55.100273
7     57.032334
8     59.032141
9     61.102071
10    63.244582
11    65.462218
12    67.757615
13    70.133499
14    72.592692
dtype: float64

In [5]:
dados_reclamacoes['previsao_veloc'] = modelo1.predict(dados_reclamacoes['dia'])

In [6]:
dados_reclamacoes

Unnamed: 0,dia,velocidade,conexao,instabilidade,previsao_veloc
0,1,43,15,34,44.807363
1,2,45,21,29,46.378509
2,3,46,17,26,48.004746
3,4,49,14,23,49.688006
4,5,52,20,25,51.430289
5,6,55,18,22,53.233664
6,7,63,17,19,55.100273
7,8,59,21,20,57.032334
8,9,58,23,14,59.032141
9,10,60,16,12,61.102071


## Modelo reclamação por instabilidade

In [7]:
modelo2 = smf.poisson("instabilidade ~ dia", data = dados_reclamacoes).fit() # Dependente = Instabilidade, Idenpendente = Dia
print(modelo2.summary())

Optimization terminated successfully.
         Current function value: 2.408169
         Iterations 5
                          Poisson Regression Results                          
Dep. Variable:          instabilidade   No. Observations:                   15
Model:                        Poisson   Df Residuals:                       13
Method:                           MLE   Df Model:                            1
Date:                Fri, 20 Jan 2023   Pseudo R-squ.:                  0.3963
Time:                        21:23:43   Log-Likelihood:                -36.123
converged:                       True   LL-Null:                       -59.836
Covariance Type:            nonrobust   LLR p-value:                 5.709e-12
                 coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept      3.6116      0.109     32.986      0.000       3.397       3.826
dia           -0.0985      0.

$\text{Equação:}$

$$\text{Instabilidade} = e^{3,6116 - 0,0985 \cdot dia}$$

In [8]:
modelo2.predict(dados_reclamacoes['dia']) # Reclamações por dia

0     33.551308
1     30.403004
2     27.550122
3     24.964942
4     22.622344
5     20.499565
6     18.575977
7     16.832891
8     15.253368
9     13.822060
10    12.525060
11    11.349765
12    10.284754
13     9.319678
14     8.445162
dtype: float64

In [9]:
dados_reclamacoes['previsao_instabi'] = modelo2.predict(dados_reclamacoes['dia'])
dados_reclamacoes

Unnamed: 0,dia,velocidade,conexao,instabilidade,previsao_veloc,previsao_instabi
0,1,43,15,34,44.807363,33.551308
1,2,45,21,29,46.378509,30.403004
2,3,46,17,26,48.004746,27.550122
3,4,49,14,23,49.688006,24.964942
4,5,52,20,25,51.430289,22.622344
5,6,55,18,22,53.233664,20.499565
6,7,63,17,19,55.100273,18.575977
7,8,59,21,20,57.032334,16.832891
8,9,58,23,14,59.032141,15.253368
9,10,60,16,12,61.102071,13.82206


## Modelo reclamação por Conexão

Não houve uma tendência clara, será um problema para o modelo.

In [10]:
modelo3 = smf.poisson("conexao ~ dia", data = dados_reclamacoes).fit() # Dependente = Conexao, Idenpendente = Dia
print(modelo3.summary())

Optimization terminated successfully.
         Current function value: 2.548776
         Iterations 4
                          Poisson Regression Results                          
Dep. Variable:                conexao   No. Observations:                   15
Model:                        Poisson   Df Residuals:                       13
Method:                           MLE   Df Model:                            1
Date:                Fri, 20 Jan 2023   Pseudo R-squ.:                0.001732
Time:                        21:23:43   Log-Likelihood:                -38.232
converged:                       True   LL-Null:                       -38.298
Covariance Type:            nonrobust   LLR p-value:                    0.7157
                 coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept      2.8604      0.129     22.250      0.000       2.608       3.112
dia            0.0051      0.

$\text{Equação:}$

$$\text{Conexão} = e^{2,8604 - 0,0051 \cdot dia}$$

Temos um problema, a nossa variável independente **`dia`**, tem um P-valor de 0,716, ou seja, um coeficiente estatísticamente não significativo.

In [11]:
dados_reclamacoes['previsao_conexao'] = modelo3.predict(dados_reclamacoes['dia'])
dados_reclamacoes

Unnamed: 0,dia,velocidade,conexao,instabilidade,previsao_veloc,previsao_instabi,previsao_conexao
0,1,43,15,34,44.807363,33.551308,17.557142
1,2,45,21,29,46.378509,30.403004,17.646957
2,3,46,17,26,48.004746,27.550122,17.737231
3,4,49,14,23,49.688006,24.964942,17.827968
4,5,52,20,25,51.430289,22.622344,17.919168
5,6,55,18,22,53.233664,20.499565,18.010835
6,7,63,17,19,55.100273,18.575977,18.102971
7,8,59,21,20,57.032334,16.832891,18.195578
8,9,58,23,14,59.032141,15.253368,18.288659
9,10,60,16,12,61.102071,13.82206,18.382216


## Modelo Reclamação por Velocidade com duas variáveis independentes

In [13]:
modelo4 = smf.poisson("velocidade ~ dia + instabilidade", data = dados_reclamacoes).fit() # Variável dependente = Velocidade, Variável independente = Dia e instabilidade
print(modelo4.summary())

Optimization terminated successfully.
         Current function value: 3.003105
         Iterations 5
                          Poisson Regression Results                          
Dep. Variable:             velocidade   No. Observations:                   15
Model:                        Poisson   Df Residuals:                       12
Method:                           MLE   Df Model:                            2
Date:                Fri, 20 Jan 2023   Pseudo R-squ.:                  0.1745
Time:                        21:25:06   Log-Likelihood:                -45.047
converged:                       True   LL-Null:                       -54.572
Covariance Type:            nonrobust   LLR p-value:                 7.298e-05
                    coef    std err          z      P>|z|      [0.025      0.975]
---------------------------------------------------------------------------------
Intercept         3.7560      0.627      5.989      0.000       2.527       4.985
dia               0.

$\text{Equação:}$

$$\text{Conexão} = e^{3,756 + 0,0351 \cdot dia\; + \; 0,0004 \cdot instabilidade}$$

Temos dois problemas, a nossa variável independente **`dia`** e **`instabilidade`**, tem um P-valor, respectivamente, de 0,306 e 0,985, ou seja, um coeficiente estatísticamente não significativo.

In [16]:
dados_reclamacoes['previsao_veloc2'] = modelo4.predict()
dados_reclamacoes

Unnamed: 0,dia,velocidade,conexao,instabilidade,previsao_veloc,previsao_instabi,previsao_conexao,previsao_veloc2
0,1,43,15,34,44.807363,33.551308,17.557142,44.866082
1,2,45,21,29,46.378509,30.403004,17.646957,46.383143
2,3,46,17,26,48.004746,27.550122,17.737231,47.986915
3,4,49,14,23,49.688006,24.964942,17.827968,49.646139
4,5,52,20,25,51.430289,22.622344,17.919168,51.457623
5,6,55,18,22,53.233664,20.499565,18.010835,53.236853
6,7,63,17,19,55.100273,18.575977,18.102971,55.077602
7,8,59,21,20,57.032334,16.832891,18.195578,57.066199
8,9,58,23,14,59.032141,15.253368,18.288659,58.974009
9,10,60,16,12,61.102071,13.82206,18.382216,61.035657
