# **PROJETO MVP DA SPRINT DE ENGENHARIA DE DADOS**
- Objetivo (1,0 pt). O objetivo do trabalho deve ser muito bem detalhado; √© um planejamento do trabalho, contendo de forma clara e objetiva o problema a ser resolvido e as perguntas de neg√≥cio a serem respondidas. Ser√° avaliada a qualidade desta descri√ß√£o.
- Coleta (0,5 pt). Ser√° avaliada a documenta√ß√£o sobre a coleta dos conjuntos de dados e a persist√™ncia dos mesmos na plataforma de nuvem.
- Modelagem (2,0 pt). Ser√° avaliada a qualidade da modelagem dos dados (1,0 pt) e documenta√ß√£o do Cat√°logo de Dados (1,0 pt).
- Carga (1,0 pt). Ser√° avaliada a qualidade da documenta√ß√£o da carga dos dados, bem como a corretude e persist√™ncia dos dados na plataforma de nuvem ap√≥s a carga.
- An√°lise (3,0 pt). Ser√£o avaliados a an√°lise de qualidade dos dados (1,0 pt) e da solu√ß√£o do problema de forma correta (0 pt) e bem analisada pela discuss√£o a partir das respostas obtidas (1,0 pt).
- Autoavalia√ß√£o (0,5 pt). Ser√° avaliada a autoavalia√ß√£o do aluno com as quest√µes pertinentes sobre o atingimento de seus objetivos tra√ßados no in√≠cio do trabalho.
- Capricho (2,0 pt). Aqui ser√£o avaliados o capricho e a qualidade geral do trabalho como um todo de forma subjetiva.

# **OBJETIVO**
- Construir uma curva de Phillips para o Brasil com **objetivo** de _1) verificar se existe uma rela√ß√£o de curto prazo inversa entre desemprego e infla√ß√£o, 2) analisar se √© possivel estudar essa rela√ß√£o atrav√©s de um modelo de regress√£o linear simples_.

Explica√ß√£o Te√≥rica: _A Curva de Phillips √© um conceito da economia que mostra a rela√ß√£o inversa entre infla√ß√£o e desemprego no curto prazo. Ela surgiu a partir de estudos do economista A. W. Phillips, que observou que quando o desemprego estava baixo, os sal√°rios tendiam a subir mais rapidamente, o que pressionava os pre√ßos e aumentava a infla√ß√£o. Por outro lado, quando o desemprego era alto, os sal√°rios cresciam pouco ou at√© ca√≠am, reduzindo o consumo e levando a uma infla√ß√£o menor. Assim, a ideia central √© que existe um trade-off: pol√≠ticas que estimulam o emprego podem gerar mais infla√ß√£o, enquanto medidas para controlar a infla√ß√£o podem aumentar o desemprego. No entanto, essa rela√ß√£o n√£o √© permanente. A partir dos anos 1970, com epis√≥dios de estagfla√ß√£o ‚Äî infla√ß√£o alta junto com desemprego elevado ‚Äî, os economistas perceberam que a curva n√£o explicava todos os cen√°rios. Por isso, teorias posteriores, como as de Milton Friedman e Edmund Phelps, argumentaram que no longo prazo a curva se torna vertical, indicando que n√£o √© poss√≠vel reduzir o desemprego apenas aumentando a infla√ß√£o. Hoje, a Curva de Phillips √© vista como uma ferramenta √∫til para entender os efeitos de pol√≠ticas monet√°rias e fiscais, mas com limita√ß√µes diante da complexidade das economias modernas._



## **Dados**
- ICPA, S√©rie Hist√≥rica, Tabela 1737. Fonte: IBGE <https://sidra.ibge.gov.br/Tabela/1737>
- Taxa de desocupa√ß√£o, Tabela 6381. Fonte: IBGE <https://sidra.ibge.gov.br/Tabela/6381>

### **Instalando pacotes e importando bibliotecas**

In [0]:
import pandas as pd
import numpy as np
import seaborn as sns
from matplotlib import pyplot as plt
import statsmodels.formula.api as smf

### **Coleta e Tratamento dos Dados**

- **Coleta**

In [0]:
#Base IPCA
ipca = pd.read_csv(
    'file:/Workspace/Users/m-henrique@live.com/ipca_raw.csv'
)

In [0]:
ipca

In [0]:
#Base Desemprego
desemprego = pd.read_csv(
    'file:/Workspace/Users/m-henrique@live.com/desocupacao_raw.csv'
)

In [0]:
desemprego

- **Tratamento Base IPCA**

In [0]:
#Tratamento Base IPCA
#Realizando a limpeza e manipula√ß√£o da tabela
ipca = (
        ipca
        .loc[0: ,['V','D2C']]
        .rename(columns = {'V': 'IPCA',
                          'D2C': 'Date'})
)



#tranforma a coluna date em tipo datetime
ipca['date'] = pd.to_datetime(ipca['Date'],
                             format='%Y%m')



#filtra os dados
ipca = ipca.loc[ipca.date >= '2004-01-01']
ipca = ipca.drop(columns=["Date"])



#tranforma a coluna IPCA em tipo float
ipca['IPCA'] = ipca['IPCA'].astype(float)


#Verifica se as altera√ß√µes funcionaram
ipca.describe()


In [0]:
#Base Pronta
ipca

In [0]:
#grafico do IPCA
sns.lineplot(x='date', y='IPCA', data=ipca)

- **Tratamento Base Desemprego**

In [0]:
#realiza a limpeza e manipula√ß√£o da tabela
desemprego=(
    desemprego
    .loc[0:,['V', 'D2C']]
    .rename(columns={'V': 'desemprego',
                    'D2C': 'date',}))


#tranforma a coluna date em tipo datetime
desemprego['date']=pd.to_datetime(desemprego['date'], format="%Y%m")


#filtra os dados
desemprego=desemprego.loc[desemprego.date >='2004-01-01']

#tranforma a coluna desocupa√ß√£o em tipo float
desemprego['desemprego']=desemprego['desemprego'].astype(float)

#Verifica se as altera√ß√µes funcionaram
desemprego.describe()

In [0]:
#Base Pronta
desemprego

In [0]:
#grafico do desemprego
sns.lineplot(x='date', y='desemprego', data=desemprego)

### **Unindo as bases de dados e criando o dataframe que sera utilizado na modelagem**

In [0]:
#juntar dados
df_dados=pd.merge(ipca,desemprego, on='date')
df_dados

## **Modelagem**

In [0]:
#construindo os graficos para analisar se existe uma rela√ß√£o inversa entre os dois dados
plt.plot('date',
        'IPCA',
        data=df_dados,
        label='IPCA')
plt.plot('date',
        'desemprego',
        data=df_dados,
        label='desemprego')
plt.legend()
plt.show()

In [0]:
sns.regplot(x='desemprego',
           y='IPCA',
           data=df_dados)

In [0]:
#Modelo de regress√£o linear para analisar a rela√ß√£o entre os dados
modelo=smf.ols('IPCA ~ desemprego', data=df_dados).fit()
print(modelo.summary())

## **An√°lise dos Resultados**

üìä Principais resultados
- Intercepto (constante): 7.016
‚Üí Quando o desemprego √© zero (hipoteticamente), a infla√ß√£o m√©dia prevista seria em torno de 7%.
- Coeficiente do desemprego: -0.1201
‚Üí Cada aumento de 1 ponto percentual no desemprego est√° associado, em m√©dia, a uma redu√ß√£o de 0.12 pontos percentuais na infla√ß√£o.
‚Üí Isso sugere uma rela√ß√£o negativa entre desemprego e infla√ß√£o (consistente com a ideia da Curva de Phillips).
- Signific√¢ncia estat√≠stica (p-valor = 0.084)

üìå Diagn√≥sticos do modelo
- Durbin-Watson = 0.042
‚Üí Extremamente baixo, indicando forte autocorrela√ß√£o positiva dos res√≠duos. Isso √© um problema: os erros n√£o s√£o independentes, o que compromete a validade dos testes estat√≠sticos.
- Omnibus / Jarque-Bera significativos
‚Üí Os res√≠duos n√£o seguem distribui√ß√£o normal (p-valor muito baixo). Isso tamb√©m afeta a confiabilidade dos intervalos de confian√ßa e testes.
- AIC = 751.2, BIC = 757.3
‚Üí Medidas de qualidade do ajuste. Valores menores indicariam modelos melhores

üßæ Interpreta√ß√£o geral
- Existe ind√≠cio de uma rela√ß√£o negativa entre desemprego e infla√ß√£o, mas estatisticamente fraca.
- O modelo sofre com problemas de autocorrela√ß√£o dos res√≠duos e n√£o normalidade, o que sugere que uma regress√£o linear simples n√£o captura bem a din√¢mica entre infla√ß√£o e desemprego.

üëâ Em resumo: O modelo sugere, tanto atrav√©s da analise gr√°fica quanto do output da regress√£o que de fato existe uma rela√ß√£o inversa descrita pela curva de Philips entre infla√ß√£o e desemprego no curto prazo, no entanto os residuos do modelo indicam que a estima√ß√£o atrav√©s da t√©cnica de regress√£o linear n√£o √© a melhor metodologia de analise.


### **Catalogo de Dados**

Anexo "_catalogo.txt_"