# Ingestão de dados

Aqui, pegamos os dados das diversas fontes (bases) e criamos uma base unificada com as informações disponíveis **sem processar, preencher nulos ou fazer algum tipo de data prep**

Path das bases de dados: `https://raw.githubusercontent.com/LeiteJu/TCC/main/dados/bases/`
- aqui estão os arquivos originais obtidos do IBGE, IPEA, CNIC, ...

Path da base única: `https://raw.githubusercontent.com/LeiteJu/TCC/main/dados/csv/base_unica.csv`

Na base única, manteremos apenas a sigla de cada estado, para evitar problemas com diferenças na grafia do nome dos estados (acento, til, ...)

In [516]:
# importamos as libs
import matplotlib.pyplot as plt 
import seaborn as sns
import pandas as pd 

In [517]:
PATH="https://raw.githubusercontent.com/LeiteJu/TCC/main/dados/"

SIGLAS = ["AC","AL","AM","AP","BA","CE",
          "DF","ES","GO","MA","MG","MS",
          "MT","PA","PB","PE","PI","PR",
          "RJ","RN","RO","RR","RS","SC",
          "SE","SP","TO"]

ESTADOS = ['Acre', 'Alagoas', 'Amazonas', 'Amapá', 'Bahia', 'Ceará',
  'Distrito Federal', 'Espírito Santo', 'Goiás', 'Maranhão',
  'Minas Gerais', 'Mato Grosso do Sul', 'Mato Grosso', 'Pará', 'Paraíba',
  'Pernambuco', 'Piauí', 'Paraná', 'Rio de Janeiro',
  'Rio Grande do Norte', 'Rondônia', 'Roraima', 'Rio Grande do Sul',
  'Santa Catarina', 'Sergipe', 'São Paulo', 'Tocantins']

MAP={'Acre':'AC', 'Alagoas':'AL', 'Amazonas':"AM", 'Amapá':'AP', 
        'Bahia':"BA", 'Ceará':"CE", 'Distrito Federal' : "DF", 
        'Espírito Santo':'ES', 'Goiás':'GO', 'Maranhão':'MA',
        'Minas Gerais' : 'MG', 'Mato Grosso do Sul': 'MS', 
        'Mato Grosso' : 'MT', 'Pará':'PA', 'Paraíba':'PB', 'Pernambuco': 'PE', 
        'Piauí':'PI', 'Paraná' : 'PR', 'Rio de Janeiro' : 'RJ',
        'Rio Grande do Norte' : 'RN', 'Rondônia' : 'RO', 'Roraima' : 'RR', 
        'Rio Grande do Sul' : 'RS', 'Santa Catarina' : 'SC', 
        'Sergipe' : 'SE', 'São Paulo' : 'SP', 'Tocantins' : 'TO'}

In [518]:
df = pd.DataFrame(SIGLAS*35*12, columns=["estados"]).sort_values("estados").reset_index(drop=True)

In [519]:
init=pd.to_datetime('011985', format='%m%Y')
end=pd.to_datetime('122019', format='%m%Y')
df['data'] = pd.Series(pd.date_range(start=init, end=end, freq='MS')).to_list() * 27

In [520]:
df.shape

(11340, 2)

In [521]:
df.head()

Unnamed: 0,estados,data
0,AC,1985-01-01
1,AC,1985-02-01
2,AC,1985-03-01
3,AC,1985-04-01
4,AC,1985-05-01


In [633]:
def search_duplicates(df):
    print(f"Todas as datas repetem 27 vezes? {(df['data'].value_counts() == 27).all()}")
    print(f"Estados unicos: {df['estados'].nunique()}")
    print(f"Shape: {df.shape}")
    print(f"Duplicados? {df.duplicated().any()}")

In [523]:
(df["data"].value_counts() == 27).all()

True

In [524]:
df["estados"].nunique()

27

# PIB dos estados a preços constantes

- Fonte: IBGE
- Link: ipeadata
- Granularidade: anual por estado

In [525]:
pib_pc = pd.read_csv(f"{PATH}bases/pib_precos_constantes.csv")

In [526]:
pib_pc.drop(["Código", "Estado"], inplace=True, axis=1)
pib_pc = pib_pc.melt(id_vars=["Sigla"], value_vars=[f"{i}" for i in range (1985,2020)], value_name="pib_pc", var_name="data")

In [527]:
pib_pc.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 945 entries, 0 to 944
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Sigla   945 non-null    object 
 1   data    945 non-null    object 
 2   pib_pc  941 non-null    float64
dtypes: float64(1), object(2)
memory usage: 22.3+ KB


In [528]:
pib_pc["data"]=pd.to_datetime(pib_pc["data"], format="%Y")

In [529]:
pib_pc.columns=["estados", "data", "pib_pc"]

In [530]:
pib_pc.head()

Unnamed: 0,estados,data,pib_pc
0,AC,1985-01-01,3263960.0
1,AL,1985-01-01,13075160.0
2,AM,1985-01-01,12682260.0
3,AP,1985-01-01,2396901.0
4,BA,1985-01-01,54172850.0


In [531]:
pib_pc["pib_pc"] = pib_pc["pib_pc"] / 12

In [532]:
pib_pc.head()

Unnamed: 0,estados,data,pib_pc
0,AC,1985-01-01,271996.7
1,AL,1985-01-01,1089597.0
2,AM,1985-01-01,1056855.0
3,AP,1985-01-01,199741.8
4,BA,1985-01-01,4514404.0


In [533]:
df = pd.merge(df, pib_pc, how="left").fillna(method="ffill")

In [534]:
(df["data"].value_counts() == 27).all()

True

In [535]:
df["estados"].nunique()

27

In [536]:
df.shape

(11340, 3)

In [537]:
search_duplicates(df)

Todas as datas repetem 27 vezes? True
Estados unicos: 27
Shape: (11340, 3)


# PIB do estado de mercado corrente

- Fonte: IBGE
- Link: ipeadata
- Granularidade: anual por estado

In [538]:
pib_pmc = pd.read_csv(f"{PATH}bases/pib_precos_mercado_corrente.csv")

In [539]:
pib_pmc.head()

Unnamed: 0,Sigla,Código,Estado,1985,1986,1987,1988,1989,1990,1991,...,2011,2012,2013,2014,2015,2016,2017,2018,2019,Unnamed: 38
0,AC,12,Acre,0.00062,0.001771,0.005193,0.038876,0.547705,15.996393,80.808201,...,8165288.0,9149380.0,10483520.0,12348990.0,12443130.0,12500000.0,12835660.0,13622060.0,13939290.0,
1,AL,27,Alagoas,0.004075,0.010037,0.033596,0.200712,2.45833,81.602266,428.900043,...,28529960.0,31248930.0,33708090.0,37264090.0,42260660.0,44754660.0,47805620.0,48892280.0,53032290.0,
2,AM,13,Amazonas,0.007241,0.022455,0.072782,0.538409,7.521879,210.045517,1015.38191,...,59108110.0,59572310.0,68812000.0,71897860.0,72694790.0,75908490.0,78497470.0,84361540.0,90725250.0,
3,AP,16,Amapá,0.000574,0.001458,0.004728,0.040189,0.764695,18.591401,96.910902,...,8716746.0,10250580.0,11756080.0,12372440.0,12890800.0,13468620.0,14472590.0,15665020.0,16324200.0,
4,BA,29,Bahia,0.025442,0.065506,0.189984,1.404576,19.22115,518.982825,2652.432271,...,145727100.0,159295900.0,178261700.0,196202800.0,215986100.0,228329300.0,236137900.0,250533800.0,256468500.0,


In [540]:
pib_pmc.drop(["Código", "Estado"], inplace=True, axis=1)
pib_pmc = pib_pmc.melt(id_vars=["Sigla"], value_vars=[f"{i}" for i in range (1985,2020)], value_name="pib_pmc", var_name="anos")

In [541]:
pib_pmc.head()

Unnamed: 0,Sigla,anos,pib_pmc
0,AC,1985,0.00062
1,AL,1985,0.004075
2,AM,1985,0.007241
3,AP,1985,0.000574
4,BA,1985,0.025442


In [542]:
pib_pmc["data"] = pd.to_datetime(pib_pc["data"], format="%Y")
pib_pmc["pib_pmc"] = pib_pmc["pib_pmc"] / 12

In [543]:
pib_pmc = pib_pmc.rename({"Sigla":"estados"}, axis=1)

In [544]:
pib_pmc = pib_pmc.drop("anos", axis=1)

In [545]:
df = pd.merge(df, pib_pmc, how="left").fillna(method="ffill")

In [546]:
df.head()

Unnamed: 0,estados,data,pib_pc,pib_pmc
0,AC,1985-01-01,271996.683911,5.2e-05
1,AC,1985-02-01,271996.683911,5.2e-05
2,AC,1985-03-01,271996.683911,5.2e-05
3,AC,1985-04-01,271996.683911,5.2e-05
4,AC,1985-05-01,271996.683911,5.2e-05


In [547]:
search_duplicates(df)

Todas as datas repetem 27 vezes? True
Estados unicos: 27
Shape: (11340, 4)


# PIB per capita

- Fonte: IBGE
- Link: ipeadata
- Granularidade: anual por estado

In [548]:
pib_pcpt =  pd.read_csv(f"{PATH}bases/pib_per_capita.csv")
pib_pcpt.head()

Unnamed: 0,Sigla,Código,Estado,1985,1986,1987,1988,1989,1990,1991,...,2011,2012,2013,2014,2015,2016,2017,2018,2019,Unnamed: 38
0,AC,12,Acre,9.215645,9.076744,8.537466,8.61098,8.402114,8.504651,8.723272,...,10.099619,10.312746,10.741417,11.52967,10.620112,9.70972,9.470557,9.287253,8.993397,
1,AL,27,Alagoas,5.879142,5.925594,6.320284,5.730295,5.771642,6.12453,6.170056,...,8.379165,8.443036,8.124044,8.275502,8.674832,8.452503,8.668324,8.720275,9.041852,
2,AM,13,Amazonas,7.306192,7.546578,7.601859,8.054953,7.828067,7.616238,7.471428,...,15.421931,14.188381,14.376439,13.691574,12.658521,12.03377,11.824399,12.252257,12.455625,
3,AP,16,Amapá,10.554527,10.754808,10.423195,10.149562,9.71835,9.521564,9.716494,...,11.759778,12.549329,12.724844,12.154425,11.530783,10.92207,11.105306,11.192173,10.982957,
4,BA,29,Bahia,5.134586,5.385667,5.456052,6.312963,5.609763,5.866089,5.945315,...,9.5432,9.611099,9.426834,9.568387,9.742704,9.481745,9.419988,10.023776,9.811905,


In [549]:
pib_pcpt = pib_pcpt.drop(["Código", "Estado", 'Unnamed: 38'], axis=1)
pib_pcpt = pib_pcpt.melt(id_vars=["Sigla"], value_vars=[f"{i}" for i in range (1985,2020)], value_name="pib_pcpt", var_name="anos")

In [550]:
pib_pcpt['data'] = pd.to_datetime(pib_pcpt['anos'], format="%Y")
pib_pcpt = pib_pcpt.drop(['anos'], axis=1)

In [551]:
pib_pcpt["pib_pcpt"] = pib_pcpt["pib_pcpt"] / 12

In [552]:
pib_pcpt = pib_pcpt.rename({"Sigla":"estados"}, axis=1)

In [553]:
pib_pcpt.head()

Unnamed: 0,estados,pib_pcpt,data
0,AC,0.76797,1985-01-01
1,AL,0.489929,1985-01-01
2,AM,0.608849,1985-01-01
3,AP,0.879544,1985-01-01
4,BA,0.427882,1985-01-01


In [554]:
df = pd.merge(df, pib_pcpt, how="left").fillna(method="ffill")

In [555]:
search_duplicates(df)

Todas as datas repetem 27 vezes? True
Estados unicos: 27
Shape: (11340, 5)


# PIB da construção civil

- Fonte: IBGE
- Link: ipeadata
- Granularidade: anual por estado

In [556]:
pib_cc =  pd.read_csv(f"{PATH}bases/pib_construcao_civil.csv")
pib_cc.head()

Unnamed: 0,Sigla,Código,Estado,1985,1986,1987,1988,1989,1990,1991,...,2011,2012,2013,2014,2015,2016,2017,2018,2019,Unnamed: 38
0,AC,12,Acre,207486.4,307323.2,235058.0,274841.3,278643.3,203948.6,213061.8,...,581433.7,559164.0,517569.4,680114.1,463529.1,363269.0,303200.5,308058.1,309687.4,
1,AL,27,Alagoas,1094083.0,1648612.0,1675906.0,1661463.0,1320639.0,1140776.0,873791.2,...,1958261.0,1846452.0,1859065.0,1823977.0,1458481.0,1459544.0,1293523.0,1188205.0,1097614.0,
2,AM,13,Amazonas,1502130.0,2014757.0,2168534.0,2466623.0,2529082.0,1885088.0,2017014.0,...,3148854.0,2926015.0,3405730.0,2994511.0,2430038.0,2216941.0,1823895.0,1673511.0,1760398.0,
3,AP,16,Amapá,84791.47,98438.2,95423.97,109643.0,111254.4,79659.13,84414.34,...,478230.5,649747.7,573830.1,657590.4,702421.4,476897.5,371627.9,371693.8,316135.1,
4,BA,29,Bahia,6513353.0,9173761.0,5200354.0,4989453.0,6707817.0,6753978.0,6077555.0,...,11230770.0,11094620.0,11975950.0,12223090.0,10836190.0,9365402.0,8056606.0,7452787.0,7105524.0,


In [557]:
pib_cc.drop(["Código", "Estado"], inplace=True, axis=1)
pib_cc = pib_cc.melt(id_vars=["Sigla"], value_vars=[f"{i}" for i in range (1985,2020)], value_name="pib_cc", var_name="anos")
#df["pib_cc"] = pib_cc["pib_cc"]

In [558]:
pib_cc['data'] = pd.to_datetime(pib_cc['anos'], format="%Y")
pib_cc = pib_cc.drop(['anos'], axis=1)

In [559]:
pib_cc = pib_cc.rename({'Sigla':"estados"}, axis=1)

In [560]:
pib_cc.head()

Unnamed: 0,estados,pib_cc,data
0,AC,207486.4,1985-01-01
1,AL,1094083.0,1985-01-01
2,AM,1502130.0,1985-01-01
3,AP,84791.47,1985-01-01
4,BA,6513353.0,1985-01-01


In [561]:
df = pd.merge(df, pib_cc, how="left").fillna(method="ffill")

In [562]:
search_duplicates(df)

Todas as datas repetem 27 vezes? True
Estados unicos: 27
Shape: (11340, 6)


# População

- Fonte: IBGE
- Link: https://basedosdados.org/dataset/br-ibge-populacao
- Granularidade: anual por estado

In [563]:
pop = pd.read_csv(f"{PATH}bases/populacao.csv")

In [564]:
pop.head()

Unnamed: 0,ano,sigla_uf,populacao
0,1991,AC,417102
1,1991,AL,2512658
2,1991,AM,2102766
3,1991,AP,289035
4,1991,BA,11867336


In [565]:
pop["data"] = pd.to_datetime(pop["ano"], format="%Y")
pop=pop.drop("ano", axis=1)
pop = pop.rename({"sigla_uf":"estados"}, axis=1)

In [566]:
pop.head()

Unnamed: 0,estados,populacao,data
0,AC,417102,1991-01-01
1,AL,2512658,1991-01-01
2,AM,2102766,1991-01-01
3,AP,289035,1991-01-01
4,BA,11867336,1991-01-01


In [567]:
df = pd.merge(df, pop, how="left").fillna(method="ffill")

In [568]:
search_duplicates(df)

Todas as datas repetem 27 vezes? True
Estados unicos: 27
Shape: (11340, 7)


# INCC

- Fonte: FGV
- Granularidade: mensal para o Brasil

In [569]:
incc = pd.read_csv(f"{PATH}bases/INCC.csv")

In [570]:
incc.head()

Unnamed: 0,Ano,janeiro,fevereiro,março,abril,maio,junho,julho,agosto,setembro,outubro,novembro,dezembro
0,1980,4.7,9.53,12.8,3.13,4.86,5.73,6.33,10.28,8.02,3.1,5.06,4.98
1,1981,4.48,14.89,8.06,3.39,3.5,2.35,1.96,12.39,5.54,1.72,3.28,3.11
2,1982,3.8,10.87,12.55,4.28,5.25,3.67,5.5,16.94,4.02,3.24,4.06,2.37
3,1983,3.86,12.65,8.29,4.07,7.16,5.05,6.65,16.87,8.91,5.06,12.05,4.94
4,1984,5.94,21.67,9.36,4.36,7.99,8.93,5.26,27.61,5.6,8.64,8.64,8.16


In [571]:
incc = pd.melt(incc, id_vars=["Ano"], value_vars=incc.columns[1:], var_name="mes", value_name="incc")

In [572]:
meses = ['janeiro', 'fevereiro', 'março', 'abril',
         'maio', 'junho', 'julho', 'agosto', 'setembro', 
         'outubro', 'novembro', 'dezembro']

def categorize (x):
    for i in range(12):
        if x == meses[i]:
            return f"{i+1:02d}"

categorize("fevereiro")
incc["ind_mes"] = incc["mes"].apply(categorize)
#incc[incc["mes"] == "janeiro"]["data"] = pd.to_datetime(f"{str(incc['Ano'])}01", format="%Y%m")

In [573]:
incc["Ano"]=incc["Ano"].astype('str')
incc["anomes"] = incc["Ano"]+incc["ind_mes"]
incc["data"] = pd.to_datetime(incc["anomes"], format="%Y%m")

In [574]:
incc =incc[["data", "incc"]]

In [575]:
df = pd.merge(df, incc, how="left", on=["data"])#.fillna(method="ffill")

In [576]:
search_duplicates(df)

Todas as datas repetem 27 vezes? True
Estados unicos: 27
Shape: (11340, 8)


# IPCA

In [577]:
ipca = pd.read_csv(f"{PATH}bases/ipca.csv")

In [578]:
ipca.head()

Unnamed: 0,Ano,janeiro,fevereiro,março,abril,maio,junho,julho,agosto,setembro,outubro,novembro,dezembro
0,1980,6.62,11.54,18.27,24.53,31.63,38.61,46.3,53.53,60.03,75.2,86.89,99.25
1,1981,6.84,13.68,19.33,27.04,34.1,41.5,50.35,58.62,66.95,75.43,84.68,95.62
2,1982,6.97,14.06,20.58,27.68,36.18,45.86,55.13,64.39,72.75,80.42,89.96,104.79
3,1983,8.64,17.18,25.78,34.06,42.75,56.86,72.66,88.4,107.8,126.23,142.93,164.01
4,1984,9.67,20.09,30.82,43.31,56.28,72.03,88.76,106.41,130.65,154.73,181.54,215.26


In [579]:
ipca = pd.melt(ipca, id_vars=["Ano"], value_vars=ipca.columns[1:], var_name="mes", value_name="ipca")

In [580]:
ipca["ind_mes"] = ipca["mes"].apply(categorize)

In [581]:
ipca["anomes"] = ipca["Ano"].astype('str')+ipca["ind_mes"]
ipca["data"] = pd.to_datetime(ipca["anomes"], format="%Y%m")

In [582]:
ipca=ipca[["data", "ipca"]]

In [583]:
df = pd.merge(df, ipca, how="left", on=["data"])#.fillna(method="ffill")

In [584]:
search_duplicates(df)

Todas as datas repetem 27 vezes? True
Estados unicos: 27
Shape: (11340, 9)


# IGP

In [585]:
igp = pd.read_csv(f"{PATH}bases/igp.csv").dropna(axis="columns", how="any")
igp.columns = ["data", "igp"]
igp["data"]=pd.to_datetime(igp["data"], format="%Y%m")

In [586]:
df = pd.merge(df, igp, how="left", on=["data"])

In [587]:
search_duplicates(df)

Todas as datas repetem 27 vezes? True
Estados unicos: 27
Shape: (11340, 10)


# SELIC

In [588]:
selic = pd.read_csv(f"{PATH}bases/SELIC.csv")

In [589]:
selic.head()

Unnamed: 0,Ano,janeiro,fevereiro,março,abril,maio,junho,julho,agosto,setembro,outubro,novembro,dezembro
0,1986,,,,,,0.066482,0.083826,0.120788,0.131875,0.084264,0.117146,0.242219
1,1987,0.498423,0.899355,0.566052,0.752127,1.107117,0.792399,0.37165,0.370975,0.366568,0.430937,0.609279,0.612633
2,1988,0.778818,0.890577,0.700062,0.975415,0.858712,0.838859,1.056574,0.891064,1.11606,1.381863,1.197748,1.208201
3,1989,1.039475,0.968531,0.888536,0.575459,0.516613,1.103163,1.372702,1.329308,1.644868,1.874483,1.993559,2.511088
4,1990,2.375185,3.384407,1.440015,0.218263,0.252015,0.41945,0.589091,0.475493,0.74821,0.729572,0.90865,1.034617


In [590]:
selic = pd.melt(selic, id_vars=["Ano"], value_vars=selic.columns[1:], var_name="mes", value_name="selic")

In [591]:
selic["ind_mes"] = selic["mes"].apply(categorize)

In [592]:
selic["anomes"] = selic["Ano"].astype('str') + selic["ind_mes"]
selic["data"] = pd.to_datetime(selic["anomes"], format="%Y%m")

In [593]:
selic = selic[["data", "selic"]]

In [594]:
selic.head()

Unnamed: 0,data,selic
0,1986-01-01,
1,1987-01-01,0.498423
2,1988-01-01,0.778818
3,1989-01-01,1.039475
4,1990-01-01,2.375185


In [595]:
df = pd.merge(df, selic, how="left", on=["data"])

In [596]:
search_duplicates(df)

Todas as datas repetem 27 vezes? True
Estados unicos: 27
Shape: (11340, 11)


# IDH

In [597]:
def map_sigla (x):
    if x == "Acre":
        return "AC"
    else:
        return "outros"

In [598]:
SIGLAS = ["AC","AL","AP","AM","BA","CE",
          "DF","ES","GO","MA","MS","MT",
          "MG","PB","PN","PA","PE","PI",
          "RJ","RN","RS","RO","RR","SC",
          "SP","SE","TO"]

## IDH Longevidade

In [599]:
idh_l = pd.read_csv(f"{PATH}bases/idh_longevidade.csv")
idh_l["estados"] = SIGLAS

In [600]:
idh_l = idh_l.melt(id_vars=["Territorialidades","estados"], value_vars=idh_l.columns[1:-1], value_name="idh_l", var_name="anos")

In [601]:
idh_l['data'] = pd.to_datetime(idh_l['anos'], format='%Y')

In [602]:
idh_l = idh_l[["data", "estados", "idh_l"]]

In [603]:
idh_l.head()

Unnamed: 0,data,estados,idh_l
0,1991-01-01,AC,0.645
1,1991-01-01,AL,0.552
2,1991-01-01,AP,0.668
3,1991-01-01,AM,0.645
4,1991-01-01,BA,0.582


In [604]:
df=pd.merge(df, idh_l, how="left", on=["data", "estados"])
df["idh_l"] = df["idh_l"].fillna(method="ffill")

In [605]:
search_duplicates(df)

Todas as datas repetem 27 vezes? True
Estados unicos: 27
Shape: (11340, 12)


## IDH Renda

In [606]:
idh_r = pd.read_csv(f"{PATH}bases/idh_renda.csv")
idh_r["estados"] = ["BR"] + SIGLAS
idh_r.drop("Territorialidades", axis=1, inplace=True)

In [607]:
idh_r=idh_r.melt(id_vars=["estados"], value_vars=idh_r.columns[:-1], var_name="Anos", value_name="idh_r") 

In [608]:
idh_r['data'] = pd.to_datetime(idh_r['Anos'], format="%Y")
idh_r.drop('Anos', axis=1, inplace=True)

In [609]:
df = pd.merge(df, idh_r, how="left", on=["data", "estados"])
df["idh_r"] = df["idh_r"].fillna(method="ffill")

In [610]:
search_duplicates(df)

Todas as datas repetem 27 vezes? True
Estados unicos: 27
Shape: (11340, 13)


## IDH Educação

In [611]:
idh_e = pd.read_csv(f"{PATH}bases/idh_educacao.csv")
idh_e["estados"] = SIGLAS
idh_e.drop("Territorialidades", axis=1, inplace=True)

In [612]:
idh_e=idh_e.melt(id_vars=["estados"], value_vars=idh_e.columns[:-1], var_name="Anos", value_name="idh_e") 

In [613]:
idh_e['data'] = pd.to_datetime(idh_e['Anos'], format="%Y")
idh_e.drop('Anos', axis=1, inplace=True)

In [614]:
df = pd.merge(df, idh_e, how="left", on=["data", "estados"])
df['idh_e'] = df['idh_e'].fillna(method="ffill")

In [615]:
search_duplicates(df)

Todas as datas repetem 27 vezes? True
Estados unicos: 27
Shape: (11340, 14)


# NFSP

- Fonte: BACEN
- Granularidade: mensal para o Brasil

In [683]:
nfsp = pd.read_csv(PATH+"bases/nfsp.csv", names=["data", "nfsp"], skiprows=1)
nfsp=nfsp.dropna()

In [684]:
nfsp.head()

Unnamed: 0,data,nfsp
12,1991.01,11.17
13,1991.02,11.17
14,1991.03,11.17
15,1991.04,11.17
16,1991.05,11.17


In [685]:
nfsp["data"] = nfsp["data"] * 100

In [686]:
nfsp['data'] = pd.to_datetime(nfsp['data'], format="%Y%m")

In [689]:
df = pd.merge(df, nfsp, how="left", on=["data"])

In [690]:
search_duplicates(df)

Todas as datas repetem 27 vezes? True
Estados unicos: 27
Shape: (11340, 15)
Duplicados? False


# Estoque

- Fonte: IPEA
- Granularidade: mensal para o Brasil

In [691]:
estoque = pd.read_csv(PATH+"bases/estoque.csv")

In [692]:
estoque.columns=["data", 'estoque', 'trash']
estoque.drop('trash', axis=1, inplace=True)
estoque['data'] = pd.to_datetime(estoque['data'], format="%Y")

In [693]:
estoque

Unnamed: 0,data,estoque
0,1947-01-01,1.906553e+05
1,1948-01-01,2.025084e+05
2,1949-01-01,2.173332e+05
3,1950-01-01,2.328778e+05
4,1951-01-01,2.552773e+05
...,...,...
68,2015-01-01,7.751228e+06
69,2016-01-01,7.806242e+06
70,2017-01-01,7.820758e+06
71,2018-01-01,7.813724e+06


In [694]:
df = pd.merge(df, estoque, how="left", on=["data"])
df["estoque"] = df["estoque"].fillna(method="ffill")

In [695]:
search_duplicates(df)

Todas as datas repetem 27 vezes? True
Estados unicos: 27
Shape: (11340, 16)
Duplicados? False


# Desemprego

In [696]:
# de 1992 a 2019
init=pd.to_datetime('011992', format='%m%Y')
end=pd.to_datetime('122019', format='%m%Y')
desemprego_geral=pd.DataFrame(SIGLAS * 336, columns=["estados"]).sort_values("estados").reset_index(drop=True)
desemprego_geral["data"] = pd.Series(pd.date_range(start=init, end=end, freq='MS')).to_list() * 27

In [697]:
init=pd.to_datetime('011992', format='%m%Y')
end=pd.to_datetime('022012', format='%m%Y')
desemprego_geral_anual=pd.DataFrame(SIGLAS * 242, columns=["estados"]).sort_values("estados").reset_index(drop=True)
desemprego_geral_anual["data"] = pd.Series(pd.date_range(start=init, end=end, freq='MS')).to_list() * 27

In [698]:
desemprego_anual =pd.read_csv(PATH+"bases/desemprego_b2015.csv", sep=";", skiprows=1, decimal=",")
desemprego_anual = desemprego_anual.drop(["Código", "Estado","Unnamed: 23"], axis=1)

In [699]:
desemprego_anual.head()

Unnamed: 0,Sigla,1992,1993,1995,1996,1997,1998,1999,2001,2002,...,2004,2005,2006,2007,2008,2009,2011,2012,2013,2014
0,AC,9.216314,10.05649,9.80071,8.437029,8.887605,8.53551,12.203437,8.558123,6.582788,...,10.247832,11.327006,8.581848,5.786489,7.743653,7.556724,5.357073,8.002315,9.56258,9.808001
1,AL,8.980849,11.086582,8.312264,8.011287,7.972121,12.287512,14.748984,12.065698,9.080515,...,10.209505,9.775723,10.637167,8.359978,8.005988,12.126772,10.407524,12.241125,13.191182,13.133901
2,AM,11.55573,16.032611,11.311703,10.816192,15.131507,18.481736,19.326194,10.684138,12.966133,...,12.448917,12.828997,9.430801,12.23877,10.012385,12.44182,9.27554,8.995633,10.19457,10.835797
3,AP,5.92294,8.304413,13.067481,7.528157,10.932264,10.538872,15.278558,19.057839,20.539464,...,14.564569,11.961929,6.666667,16.331604,15.193255,13.756124,14.214812,10.91379,13.103432,10.325027
4,BA,8.211435,7.681225,7.45973,8.524951,8.366323,8.734137,9.92229,10.603811,10.735432,...,11.530353,11.071503,10.248704,10.34383,10.533664,10.669944,10.509659,10.181658,9.865157,9.984575


In [700]:
desemprego_anual = desemprego_anual.melt(id_vars=["Sigla"], value_vars=desemprego_anual[1:], value_name="desemprego", var_name="data")

In [380]:
desemprego_anual

Unnamed: 0,Sigla,data,desemprego
0,AC,1992,9.216314
1,AL,1992,8.980849
2,AM,1992,11.555730
3,AP,1992,5.922940
4,BA,1992,8.211435
...,...,...,...
535,RS,2014,5.004448
536,SC,2014,3.133842
537,SE,2014,8.652161
538,SP,2014,7.896507


In [701]:
desemprego_anual['data'] = pd.to_datetime(desemprego_anual['data'], format="%Y")

In [382]:
desemprego_anual

Unnamed: 0,Sigla,data,desemprego
0,AC,1992-01-01,9.216314
1,AL,1992-01-01,8.980849
2,AM,1992-01-01,11.555730
3,AP,1992-01-01,5.922940
4,BA,1992-01-01,8.211435
...,...,...,...
535,RS,2014-01-01,5.004448
536,SC,2014-01-01,3.133842
537,SE,2014-01-01,8.652161
538,SP,2014-01-01,7.896507


In [702]:
desemprego_anual=desemprego_anual.rename({"Sigla":"estados"}, axis=1)

In [703]:
desemprego_geral_anual=pd.merge(desemprego_geral_anual, desemprego_anual, how="left", on=["data", "estados"]).fillna(method="ffill")

In [704]:
desemprego_mensal = pd.read_csv(PATH+"bases/desemprego_a2015.csv", sep=";", skiprows=1, decimal=",")
desemprego_mensal=desemprego_mensal.dropna()

In [705]:
desemprego_mensal.head()

Unnamed: 0,Unnamed: 1,jan-fev-mar 2012,fev-mar-abr 2012,mar-abr-mai 2012,abr-mai-jun 2012,mai-jun-jul 2012,jun-jul-ago 2012,jul-ago-set 2012,ago-set-out 2012,set-out-nov 2012,...,ago-set-out 2021,set-out-nov 2021,out-nov-dez 2021,nov-dez-jan 2022,dez-jan-fev 2022,jan-fev-mar 2022,fev-mar-abr 2022,mar-abr-mai 2022,abr-mai-jun 2022,mai-jun-jul 2022
0,Brasil,8.0,7.8,7.7,7.6,7.5,7.4,7.1,7.0,6.8,...,12.1,11.6,11.1,11.2,11.2,11.1,10.5,9.8,9.3,9.1


In [706]:
desemprego_mensal = desemprego_mensal.melt(id_vars=[], value_vars=desemprego_mensal[:], value_name="desemprego", var_name="data")

In [707]:
desemprego_mensal.head()

Unnamed: 0,data,desemprego
0,,Brasil
1,jan-fev-mar 2012,8.0
2,fev-mar-abr 2012,7.8
3,mar-abr-mai 2012,7.7
4,abr-mai-jun 2012,7.6


In [708]:
desemprego_mensal=desemprego_mensal.iloc[1:]

In [709]:
desemprego_mensal.tail()

Unnamed: 0,data,desemprego
121,jan-fev-mar 2022,11.1
122,fev-mar-abr 2022,10.5
123,mar-abr-mai 2022,9.8
124,abr-mai-jun 2022,9.3
125,mai-jun-jul 2022,9.1


In [710]:
init = pd.to_datetime("032012", format='%m%Y')
end = pd.to_datetime("072022", format='%m%Y')
desemprego_mensal['data'] = pd.date_range(start=init, end=end, freq='MS')

In [711]:
desemprego_mensal.tail()

Unnamed: 0,data,desemprego
121,2022-03-01,11.1
122,2022-04-01,10.5
123,2022-05-01,9.8
124,2022-06-01,9.3
125,2022-07-01,9.1


In [712]:
desemprego_geral = pd.merge(desemprego_geral,desemprego_geral_anual, how="left", on=["estados", "data"])

In [713]:
desemprego_geral = pd.merge(desemprego_geral,desemprego_mensal, how="left", on=["data"]).fillna(0)

In [714]:
desemprego_geral.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 9072 entries, 0 to 9071
Data columns (total 4 columns):
 #   Column        Non-Null Count  Dtype         
---  ------        --------------  -----         
 0   estados       9072 non-null   object        
 1   data          9072 non-null   datetime64[ns]
 2   desemprego_x  9072 non-null   float64       
 3   desemprego_y  9072 non-null   object        
dtypes: datetime64[ns](1), float64(1), object(2)
memory usage: 354.4+ KB


In [715]:
desemprego_geral["desemprego_y"] = desemprego_geral["desemprego_y"].astype("float")

In [716]:
desemprego_geral["desemprego"] = desemprego_geral["desemprego_x"] + desemprego_geral["desemprego_y"]

In [717]:
desemprego_geral.head()

Unnamed: 0,estados,data,desemprego_x,desemprego_y,desemprego
0,AC,1992-01-01,9.216314,0.0,9.216314
1,AC,1992-02-01,9.216314,0.0,9.216314
2,AC,1992-03-01,9.216314,0.0,9.216314
3,AC,1992-04-01,9.216314,0.0,9.216314
4,AC,1992-05-01,9.216314,0.0,9.216314


In [718]:
desemprego_geral=desemprego_geral.drop(["desemprego_x","desemprego_y"],axis=1)

In [719]:
desemprego_geral.shape

(9072, 3)

In [720]:
desemprego_geral[desemprego_geral['estados'] == "TO"].sort_values("data").drop_duplicates()

Unnamed: 0,estados,data,desemprego
8736,TO,1992-01-01,6.100175
8737,TO,1992-02-01,6.100175
8738,TO,1992-03-01,6.100175
8739,TO,1992-04-01,6.100175
8740,TO,1992-05-01,6.100175
...,...,...,...
9067,TO,2019-08-01,11.900000
9068,TO,2019-09-01,11.900000
9069,TO,2019-10-01,11.800000
9070,TO,2019-11-01,11.300000


In [721]:
df = pd.merge(df, desemprego_geral.drop_duplicates(), how="left", on=["estados", "data"])

In [724]:
search_duplicates(df)

Todas as datas repetem 27 vezes? True
Estados unicos: 27
Shape: (11340, 17)
Duplicados? False
