In [1]:
import pandas as pd
import statsmodels.api as sm
import seaborn as sns
import matplotlib.pyplot as plt
import plotly.express as px
import numpy as np

Importando a tabela de produção dos items da cesta básica (1974 - 2020)

In [2]:
producao = pd.read_excel('C:\dcc-fellowship-ciencia-de-dados\pam.xlsx')
producao.head()

Unnamed: 0,Ano,Item,Produçao
0,1974,Arroz,6764038
1,1975,Arroz,7781538
2,1976,Arroz,9757079
3,1977,Arroz,8993696
4,1978,Arroz,7296142


In [3]:
for item in producao.Item.unique():
    print(item)

Arroz 
Café (em grão)
Cana-de-açúcar
Feijão (em grão)
Mandioca
Milho (em grão)
Soja (em grão)
Tomate
Trigo (em grão)


Criando um dataframe para cada item da cesta

In [4]:
df_arroz=producao[producao['Item']=='Arroz '].reset_index(drop = True)
df_cafe=producao[producao['Item']=='Café (em grão)'].reset_index(drop = True)
df_cana=producao[producao['Item']=='Cana-de-açúcar'].reset_index(drop = True)
df_feijao=producao[producao['Item']=='Feijão (em grão)'].reset_index(drop = True)
df_mandioca=producao[producao['Item']=='Mandioca'].reset_index(drop = True)
df_milho=producao[producao['Item']=='Milho (em grão)'].reset_index(drop = True)
df_soja=producao[producao['Item']=='Soja (em grão)'].reset_index(drop = True)
df_tomate=producao[producao['Item']=='Tomate'].reset_index(drop = True)
df_trigo=producao[producao['Item']=='Trigo (em grão)'].reset_index(drop = True)

Cálculo da média móvel para cada item da cesta

* Arroz

In [5]:
## Média móvel
df_arroz['Média móvel'] = df_arroz['Produçao'].rolling(window =5).mean()

In [6]:
fig =px.line(df_arroz, x ='Ano', y = ['Produçao','Média móvel'], title = 'Produção de ARROZ - Brasil - (1974-2020)', labels= {'value': 'Produção (ton)'})
fig.update_layout(template = 'plotly_white')

In [7]:
df_arroz.to_excel('df_arroz_demanda.xlsx')

Regressão linear simples utilizando a coluna Média móvel como resposta

In [8]:
# Declarar as variáveis 
#Arroz
Y_arroz = df_arroz.loc[4:]['Média móvel'].values  
X_arroz = df_arroz.loc[4:][['Ano']].values
X_arroz = sm.add_constant(X_arroz)

In [9]:
#Arroz
modelo_arroz_mm = sm.OLS(Y_arroz,X_arroz)
resultados_arroz_mm = modelo_arroz_mm.fit()
#print(resultados_arroz_mm.summary())

In [10]:
resultados_arroz_mm.params[1]

95663.92869223907

In [11]:
print("Coeficientes: ", resultados_arroz_mm.params)
print("R2: ", resultados_arroz_mm.rsquared)

Coeficientes:  [-1.80831250e+08  9.56639287e+04]
R2:  0.8246475580115764


Filtrando os registros onde a coluna ANO é maior que 2018, já que estamos levando em consideração os padrões alimentares de consumo indicados pela POF (2018)

In [12]:
df_arroz = pd.read_excel("C:\dcc-fellowship-ciencia-de-dados\previsões consumo e producao\df_arroz_demanda.xlsx")
df_arroz = df_arroz[df_arroz['Ano']>2017]

Demanda populacional por ARROZ em toneladas (2018 -2030)

In [13]:
projecao_demanda_brasil = pd.read_excel("C:\dcc-fellowship-ciencia-de-dados\projecao_demanda_brasil.xlsx")
projecao_demanda_brasil.head()

Unnamed: 0.1,Unnamed: 0,Ano,Região,Populacao (mi),Items,Consumo médio per capita (kg),Demanda pop (ton)
0,0,2018,Brasil,208494900,Arroz polido,17.065,3557965.0
1,1,2018,Brasil,208494900,Feijão,4.983333,1039000.0
2,2,2018,Brasil,208494900,Farinha de mandioca,2.03,423244.6
3,3,2018,Brasil,208494900,Farinha de trigo,2.311667,481970.7
4,4,2018,Brasil,208494900,Fubá de milho,1.12,233514.3


In [14]:
df_demanda_arroz = projecao_demanda_brasil[projecao_demanda_brasil['Items'] == ' Arroz polido'][['Ano', 'Items', 'Região', 'Consumo médio per capita (kg)', 'Demanda pop (ton)', 'Populacao (mi)']].reset_index(drop = True)

Juntando os dataframe df_arroz e df_demanda_arroz

In [15]:
df_arroz = pd.merge(df_arroz, df_demanda_arroz, how = 'inner', on = 'Ano')

In [16]:
df_arroz['Razão Prod(mm)/Demanda'] = df_arroz['Produçao']/df_arroz['Demanda pop (ton)']
df_arroz['Razão Prod(mm)/População (kg/pct)'] = (df_arroz['Produçao']/df_arroz['Populacao (mi)'])*1000

In [17]:
df_arroz

Unnamed: 0,Ano,Item,Produçao,Items,Região,Consumo médio per capita (kg),Demanda pop (ton),Populacao (mi),Razão Prod(mm)/Demanda,Razão Prod(mm)/População (kg/pct)
0,2018,Arroz,11874430.0,Arroz polido,Brasil,17.065,3557965.0,208494900,3.337422,56.953115
1,2019,Arroz,11513040.0,Arroz polido,Brasil,17.065,3586161.0,210147125,3.210409,54.785624
2,2020,Arroz,11271000.0,Arroz polido,Brasil,17.065,3613611.0,211755692,3.119042,53.226448
3,2021,Arroz,11366670.0,Arroz polido,Brasil,17.065,3640266.0,213317639,3.122483,53.285169
4,2022,Arroz,11674540.0,Arroz polido,Brasil,17.065,3666049.0,214828540,3.184503,54.343544
5,2023,Arroz,11635600.0,Arroz polido,Brasil,17.065,3690891.0,216284269,3.152518,53.797722
6,2024,Arroz,11587830.0,Arroz polido,Brasil,17.065,3714785.0,217684462,3.119382,53.232253
7,2025,Arroz,11602790.0,Arroz polido,Brasil,17.065,3737731.0,219029093,3.104234,52.973752
8,2026,Arroz,11669150.0,Arroz polido,Brasil,17.065,3759702.0,220316530,3.103744,52.965389
9,2027,Arroz,11729650.0,Arroz polido,Brasil,17.065,3780669.0,221545234,3.102532,52.944708


In [18]:
fig =px.scatter(df_arroz, x ='Ano', y = ['Demanda pop (ton)', 'Produçao'], title = 'Projeção produção/demanda por ARROZ - Brasil - (2018-2030)', labels= {'value': 'Produção (ton)'}, trendline = 'ols')
fig.update_layout(template = 'plotly_white')


fig.update_layout(
    font_family="Helvetica",
    font_color="black",
    title_font_family="Helvetica",
    title_font_color="black",
    legend_title_font_color="black")

* Feijão

In [19]:
## Média móvel
df_feijao['Média móvel'] = df_feijao['Produçao'].rolling(window =5).mean()

In [20]:
fig =px.scatter(df_feijao, x ='Ano', y='Produçao', trendline = 'ols', title = 'Produção de FEIJÃO - Brasil - (1974-2020)', labels= {'value': 'Produção (ton)'})
fig.update_layout(template = 'plotly_white')

In [21]:
fig =px.scatter(df_feijao, x ='Ano', y='Média móvel', trendline = 'ols', title = 'Produção de FEIJÃO - Brasil - (1974-2020)', labels= {'value': 'Produção (ton)'})
fig.update_layout(template = 'plotly_white')

In [22]:
fig =px.line(df_feijao, x ='Ano', y=['Produçao','Média móvel'], title = 'Produção de FEIJÃO - Brasil - (1974-2020)', labels= {'value': 'Produção (ton)'})
fig.update_layout(template = 'plotly_white')

In [23]:
df_feijao.to_excel('df_feijao_demanda.xlsx')

Regressão linear simples utilizando a coluna Média móvel como variável resposta

In [24]:
# Declarar as variáveis 
#Arroz
Y_feijao= df_feijao.loc[4:]['Média móvel'].values  
X_feijao = df_feijao.loc[4:][['Ano']].values
X_feijao = sm.add_constant(X_feijao)

In [25]:
#Modelo
modelo_feijao_mm = sm.OLS(Y_feijao,X_feijao)
resultados_feijao_mm = modelo_feijao_mm.fit()
#print(resultados_feijao_mm.summary())

In [26]:
print("Coeficientes: ", resultados_feijao_mm.params)
print("R2: ", resultados_feijao_mm.rsquared)

Coeficientes:  [-5.05970273e+07  2.66786866e+04]
R2:  0.7875152128257473


In [27]:
resultados_feijao_mm.params[1]

26678.686590154357

Filtrando os registros onde a coluna ANO é maior que 2018, já que estamos levando em consideração os padrões alimentares de consumo indicados pela POF (2018)

In [28]:
df_feijao = pd.read_excel("C:\dcc-fellowship-ciencia-de-dados\previsões consumo e producao\df_feijao_demanda.xlsx")
df_feijao = df_feijao[df_feijao['Ano']>2017].reset_index(drop = True)
df_feijao

Unnamed: 0,Ano,Item,Produção ton
0,2018,Feijão,2993445.0
1,2019,Feijão,2916142.0
2,2020,Feijão,2905415.0
3,2021,Feijão,2932093.0
4,2022,Feijão,2973835.0
5,2023,Feijão,2970864.0
6,2024,Feijão,2966348.0
7,2025,Feijão,2976389.0
8,2026,Feijão,2990584.0
9,2027,Feijão,3002282.0


Demanda populacional por FEIJÂO em toneladas (2018 -2030)

In [29]:
df_demanda_feijao = projecao_demanda_brasil[projecao_demanda_brasil['Items'] == 'Feijão'][['Ano', 'Items', 'Região', 'Demanda pop (ton)', 'Populacao (mi)', 'Consumo médio per capita (kg)']].reset_index(drop = True)
df_demanda_feijao

Unnamed: 0,Ano,Items,Região,Demanda pop (ton),Populacao (mi),Consumo médio per capita (kg)
0,2018,Feijão,Brasil,1039000.0,208494900,4.983333
1,2019,Feijão,Brasil,1047233.0,210147125,4.983333
2,2020,Feijão,Brasil,1055249.0,211755692,4.983333
3,2021,Feijão,Brasil,1063033.0,213317639,4.983333
4,2022,Feijão,Brasil,1070562.0,214828540,4.983333
5,2023,Feijão,Brasil,1077817.0,216284269,4.983333
6,2024,Feijão,Brasil,1084794.0,217684462,4.983333
7,2025,Feijão,Brasil,1091495.0,219029093,4.983333
8,2026,Feijão,Brasil,1097911.0,220316530,4.983333
9,2027,Feijão,Brasil,1104034.0,221545234,4.983333


Juntando os dataframe df_feijao e df_demanda_feijao

In [30]:
df_feijao = pd.merge(df_feijao, df_demanda_feijao, how = 'inner', on = 'Ano')
df_feijao

Unnamed: 0,Ano,Item,Produção ton,Items,Região,Demanda pop (ton),Populacao (mi),Consumo médio per capita (kg)
0,2018,Feijão,2993445.0,Feijão,Brasil,1039000.0,208494900,4.983333
1,2019,Feijão,2916142.0,Feijão,Brasil,1047233.0,210147125,4.983333
2,2020,Feijão,2905415.0,Feijão,Brasil,1055249.0,211755692,4.983333
3,2021,Feijão,2932093.0,Feijão,Brasil,1063033.0,213317639,4.983333
4,2022,Feijão,2973835.0,Feijão,Brasil,1070562.0,214828540,4.983333
5,2023,Feijão,2970864.0,Feijão,Brasil,1077817.0,216284269,4.983333
6,2024,Feijão,2966348.0,Feijão,Brasil,1084794.0,217684462,4.983333
7,2025,Feijão,2976389.0,Feijão,Brasil,1091495.0,219029093,4.983333
8,2026,Feijão,2990584.0,Feijão,Brasil,1097911.0,220316530,4.983333
9,2027,Feijão,3002282.0,Feijão,Brasil,1104034.0,221545234,4.983333


In [31]:
df_feijao['Razão Prod(mm)/Demanda'] = df_feijao['Produção ton']/df_feijao['Demanda pop (ton)']
df_feijao['Razão Prod(mm)/População (kg/pct)'] = (df_feijao['Produção ton']/df_feijao['Populacao (mi)'])*1000

In [32]:
df_feijao

Unnamed: 0,Ano,Item,Produção ton,Items,Região,Demanda pop (ton),Populacao (mi),Consumo médio per capita (kg),Razão Prod(mm)/Demanda,Razão Prod(mm)/População (kg/pct)
0,2018,Feijão,2993445.0,Feijão,Brasil,1039000.0,208494900,4.983333,2.881084,14.3574
1,2019,Feijão,2916142.0,Feijão,Brasil,1047233.0,210147125,4.983333,2.784616,13.87667
2,2020,Feijão,2905415.0,Feijão,Brasil,1055249.0,211755692,4.983333,2.753298,13.7206
3,2021,Feijão,2932093.0,Feijão,Brasil,1063033.0,213317639,4.983333,2.758234,13.745198
4,2022,Feijão,2973835.0,Feijão,Brasil,1070562.0,214828540,4.983333,2.777826,13.842832
5,2023,Feijão,2970864.0,Feijão,Brasil,1077817.0,216284269,4.983333,2.756373,13.735923
6,2024,Feijão,2966348.0,Feijão,Brasil,1084794.0,217684462,4.983333,2.73448,13.626825
7,2025,Feijão,2976389.0,Feijão,Brasil,1091495.0,219029093,4.983333,2.726892,13.589013
8,2026,Feijão,2990584.0,Feijão,Brasil,1097911.0,220316530,4.983333,2.723886,13.574034
9,2027,Feijão,3002282.0,Feijão,Brasil,1104034.0,221545234,4.983333,2.719375,13.551554


In [33]:
fig =px.scatter(df_feijao, x ='Ano', y = ['Demanda pop (ton)', 'Produção ton'], title = 'Projeção da razão produção/demanda por FEIJÃO - Brasil - (2018-2030)', labels= {'value': 'Produção (ton)'}, trendline = 'ols')
fig.update_layout(template = 'plotly_white')


fig.update_layout(
    font_family="Helvetica",
    font_color="black",
    title_font_family="Helvetica",
    title_font_color="black",
    legend_title_font_color="black")

* Cana

In [34]:
## Média móvel
df_cana['Média móvel'] = df_cana['Produçao'].rolling(window =5).mean()

In [35]:
fig =px.line(df_cana, x ='Ano', y=['Produçao', 'Média móvel'], title = 'Produção de CANA-DE-AÇUCAR - Brasil - (1974-2020)', labels= {'value': 'Produção (ton)'})
fig.update_layout(template = 'plotly_white')

In [36]:
df_cana.to_excel('df_cana_demanda.xlsx')

Regressão linear simples utilizando a coluna Média Móvel como demanda

In [37]:
# Declarar as variáveis 
#Cana
Y_cana= df_cana.loc[4:]['Média móvel'].values  
X_cana = df_cana.loc[4:][['Ano']].values
X_cana = sm.add_constant(X_cana)

In [38]:
#Modelo
modelo_cana = sm.OLS(Y_cana,X_cana)
resultados_cana = modelo_cana.fit()
#print(resultados_cana_mm.summary())

In [39]:
print("Coeficientes: ", resultados_cana.params)
print("R2: ", resultados_cana.rsquared)

Coeficientes:  [-3.26436167e+10  1.65275074e+07]
R2:  0.9119548158915369


In [40]:
resultados_cana.params[1]

16527507.355512176

Filtrando os registros onde a coluna ANO é maior que 2018, já que estamos levando em consideração os padrões alimentares de consumo indicados pela POF (2018)

In [41]:
df_cana = pd.read_excel("C:\dcc-fellowship-ciencia-de-dados\previsões consumo e producao\df_cana_demanda.xlsx")
df_cana = df_cana[df_cana['Ano']>2017].reset_index(drop = True)
df_cana

Unnamed: 0,Ano,Item,Prod ton
0,2018,Cana-de-açúcar,752239200.0
1,2019,Cana-de-açúcar,755711600.0
2,2020,Cana-de-açúcar,757076900.0
3,2021,Cana-de-açúcar,773604400.0
4,2022,Cana-de-açúcar,775523100.0
5,2023,Cana-de-açúcar,779358500.0
6,2024,Cana-de-açúcar,784782400.0
7,2025,Cana-de-açúcar,790596600.0
8,2026,Cana-de-açúcar,797300500.0
9,2027,Cana-de-açúcar,802039700.0


Correção em relação a proporção da produção de CANA destinada para a produção e consumo doméstico de AÇÚCAR CRISTAL

In [42]:
df_cana['Prod ton'] = df_cana['Prod ton']*0.062

In [43]:
df_cana

Unnamed: 0,Ano,Item,Prod ton
0,2018,Cana-de-açúcar,46638830.0
1,2019,Cana-de-açúcar,46854120.0
2,2020,Cana-de-açúcar,46938770.0
3,2021,Cana-de-açúcar,47963470.0
4,2022,Cana-de-açúcar,48082430.0
5,2023,Cana-de-açúcar,48320230.0
6,2024,Cana-de-açúcar,48656510.0
7,2025,Cana-de-açúcar,49016990.0
8,2026,Cana-de-açúcar,49432630.0
9,2027,Cana-de-açúcar,49726460.0


Demanda populacional por CANA em toneladas (2018 -2030)

In [44]:
df_demanda_acucar = projecao_demanda_brasil[projecao_demanda_brasil['Items'] == 'Açúcar cristal'][['Ano', 'Items', 'Região', 'Demanda pop (ton)', 'Populacao (mi)', 'Consumo médio per capita (kg)']].reset_index(drop = True)
df_demanda_acucar

Unnamed: 0,Ano,Items,Região,Demanda pop (ton),Populacao (mi),Consumo médio per capita (kg)
0,2018,Açúcar cristal,Brasil,1141510.0,208494900,5.475
1,2019,Açúcar cristal,Brasil,1150556.0,210147125,5.475
2,2020,Açúcar cristal,Brasil,1159362.0,211755692,5.475
3,2021,Açúcar cristal,Brasil,1167914.0,213317639,5.475
4,2022,Açúcar cristal,Brasil,1176186.0,214828540,5.475
5,2023,Açúcar cristal,Brasil,1184156.0,216284269,5.475
6,2024,Açúcar cristal,Brasil,1191822.0,217684462,5.475
7,2025,Açúcar cristal,Brasil,1199184.0,219029093,5.475
8,2026,Açúcar cristal,Brasil,1206233.0,220316530,5.475
9,2027,Açúcar cristal,Brasil,1212960.0,221545234,5.475


Juntando os dataframe df_cana e df_demanda_cana

In [45]:
df_cana = pd.merge(df_cana, df_demanda_acucar, how = 'inner', on = 'Ano')
df_cana

Unnamed: 0,Ano,Item,Prod ton,Items,Região,Demanda pop (ton),Populacao (mi),Consumo médio per capita (kg)
0,2018,Cana-de-açúcar,46638830.0,Açúcar cristal,Brasil,1141510.0,208494900,5.475
1,2019,Cana-de-açúcar,46854120.0,Açúcar cristal,Brasil,1150556.0,210147125,5.475
2,2020,Cana-de-açúcar,46938770.0,Açúcar cristal,Brasil,1159362.0,211755692,5.475
3,2021,Cana-de-açúcar,47963470.0,Açúcar cristal,Brasil,1167914.0,213317639,5.475
4,2022,Cana-de-açúcar,48082430.0,Açúcar cristal,Brasil,1176186.0,214828540,5.475
5,2023,Cana-de-açúcar,48320230.0,Açúcar cristal,Brasil,1184156.0,216284269,5.475
6,2024,Cana-de-açúcar,48656510.0,Açúcar cristal,Brasil,1191822.0,217684462,5.475
7,2025,Cana-de-açúcar,49016990.0,Açúcar cristal,Brasil,1199184.0,219029093,5.475
8,2026,Cana-de-açúcar,49432630.0,Açúcar cristal,Brasil,1206233.0,220316530,5.475
9,2027,Cana-de-açúcar,49726460.0,Açúcar cristal,Brasil,1212960.0,221545234,5.475


In [46]:
df_cana['Razão Prod(mm)/Demanda'] = df_cana['Prod ton']/df_cana['Demanda pop (ton)']
df_cana['Razão Prod(mm)/População (kg/pct)'] = (df_cana['Prod ton']/df_cana['Populacao (mi)'])*1000

In [47]:
df_cana

Unnamed: 0,Ano,Item,Prod ton,Items,Região,Demanda pop (ton),Populacao (mi),Consumo médio per capita (kg),Razão Prod(mm)/Demanda,Razão Prod(mm)/População (kg/pct)
0,2018,Cana-de-açúcar,46638830.0,Açúcar cristal,Brasil,1141510.0,208494900,5.475,40.857151,223.692901
1,2019,Cana-de-açúcar,46854120.0,Açúcar cristal,Brasil,1150556.0,210147125,5.475,40.72304,222.958642
2,2020,Cana-de-açúcar,46938770.0,Açúcar cristal,Brasil,1159362.0,211755692,5.475,40.486708,221.664725
3,2021,Cana-de-açúcar,47963470.0,Açúcar cristal,Brasil,1167914.0,213317639,5.475,41.067638,224.845319
4,2022,Cana-de-açúcar,48082430.0,Açúcar cristal,Brasil,1176186.0,214828540,5.475,40.879947,223.817711
5,2023,Cana-de-açúcar,48320230.0,Açúcar cristal,Brasil,1184156.0,216284269,5.475,40.805615,223.410743
6,2024,Cana-de-açúcar,48656510.0,Açúcar cristal,Brasil,1191822.0,217684462,5.475,40.825301,223.518522
7,2025,Cana-de-açúcar,49016990.0,Açúcar cristal,Brasil,1199184.0,219029093,5.475,40.875275,223.792131
8,2026,Cana-de-açúcar,49432630.0,Açúcar cristal,Brasil,1206233.0,220316530,5.475,40.980997,224.370961
9,2027,Cana-de-açúcar,49726460.0,Açúcar cristal,Brasil,1212960.0,221545234,5.475,40.995958,224.452869


In [130]:
fig =px.scatter(df_cana, x ='Ano', y = ['Prod ton', 'Demanda pop (ton)'], title = 'Projeção produção/demanda por CANA-DE-AÇUCAR/AÇUCAR CRISTAL - Brasil - (2018-2030)', labels= {'value': 'Produção (ton)'}, trendline = 'ols')
fig.update_layout(template = 'plotly_white')


fig.update_layout(
    font_family="Helvetica",
    font_color="black",
    title_font_family="Helvetica",
    title_font_color="black",
    legend_title_font_color="black")

* Café

In [49]:
## Média móvel
df_cafe['Média móvel'] = df_cafe['Produçao'].rolling(window =5).mean()

In [50]:
fig =px.line(df_cafe, x ='Ano', y=['Produçao', 'Média móvel'], title = 'Produção de CAFÉ - Brasil - (1974-2020)', labels= {'value': 'Produção (ton)'})
fig.update_layout(template = 'plotly_white')

In [51]:
df_cafe.to_excel('df_cafe_demanda.xlsx')

Regressão linear simples utilizando a coluna média movel como resposta

In [52]:
# Declarar as variáveis 
#Cana
Y_cafe= df_cafe.loc[4:]['Média móvel'].values  
X_cafe = df_cafe.loc[4:][['Ano']].values
X_cafe = sm.add_constant(X_cana)

In [53]:
#Modelo
modelo_cafe = sm.OLS(Y_cafe,X_cafe)
resultados_cafe = modelo_cafe.fit()
#print(resultados_cana.summary())

In [54]:
print("Coeficientes: ", resultados_cafe.params)
print("R2: ", resultados_cafe.rsquared)

Coeficientes:  [-4.84865285e+06  3.81830936e+03]
R2:  0.02068642534011156


In [55]:
resultados_cafe.params[1]

3818.309362730035

Filtrando os registros onde a coluna ANO é maior que 2018, já que estamos levando em consideração os padrões alimentares de consumo indicados pela POF (2018)

In [56]:
df_cafe = pd.read_excel("C:\dcc-fellowship-ciencia-de-dados\previsões consumo e producao\df_cafe_demanda.xlsx")
df_cafe = df_cafe[df_cafe['Ano']>2017].reset_index(drop = True)
df_cafe

Unnamed: 0,Ano,Item,Média móvel
0,2018,Café (em grão),2942655.0
1,2019,Café (em grão),2984190.0
2,2020,Café (em grão),3194736.0
3,2021,Café (em grão),3198554.0
4,2022,Café (em grão),3032849.0
5,2023,Café (em grão),3074415.0
6,2024,Café (em grão),3100767.0
7,2025,Café (em grão),3124082.0
8,2026,Café (em grão),3109951.0
9,2027,Café (em grão),3092231.0


Demanda populacional por CAFÉ SOLÚVEL em toneladas (2018 -2030)

In [57]:
df_demanda_cafe = projecao_demanda_brasil[projecao_demanda_brasil['Items'] == 'Café moído'][['Ano', 'Items', 'Região', 'Demanda pop (ton)', 'Populacao (mi)', 'Consumo médio per capita (kg)']].reset_index(drop = True)
df_demanda_cafe

Unnamed: 0,Ano,Items,Região,Demanda pop (ton),Populacao (mi),Consumo médio per capita (kg)
0,2018,Café moído,Brasil,510465.0135,208494900,2.448333
1,2019,Café moído,Brasil,514510.211042,210147125,2.448333
2,2020,Café moído,Brasil,518448.519247,211755692,2.448333
3,2021,Café moído,Brasil,522272.686152,213317639,2.448333
4,2022,Café moído,Brasil,525971.875433,214828540,2.448333
5,2023,Café moído,Brasil,529535.985268,216284269,2.448333
6,2024,Café moído,Brasil,532964.124463,217684462,2.448333
7,2025,Café moído,Brasil,536256.229362,219029093,2.448333
8,2026,Café moído,Brasil,539408.304283,220316530,2.448333
9,2027,Café moído,Brasil,542416.581243,221545234,2.448333


Juntando os dataframe df_cafe e df_demanda_cafe

In [58]:
df_cafe = pd.merge(df_cafe, df_demanda_cafe, how = 'inner', on = 'Ano')
df_cafe

Unnamed: 0,Ano,Item,Média móvel,Items,Região,Demanda pop (ton),Populacao (mi),Consumo médio per capita (kg)
0,2018,Café (em grão),2942655.0,Café moído,Brasil,510465.0135,208494900,2.448333
1,2019,Café (em grão),2984190.0,Café moído,Brasil,514510.211042,210147125,2.448333
2,2020,Café (em grão),3194736.0,Café moído,Brasil,518448.519247,211755692,2.448333
3,2021,Café (em grão),3198554.0,Café moído,Brasil,522272.686152,213317639,2.448333
4,2022,Café (em grão),3032849.0,Café moído,Brasil,525971.875433,214828540,2.448333
5,2023,Café (em grão),3074415.0,Café moído,Brasil,529535.985268,216284269,2.448333
6,2024,Café (em grão),3100767.0,Café moído,Brasil,532964.124463,217684462,2.448333
7,2025,Café (em grão),3124082.0,Café moído,Brasil,536256.229362,219029093,2.448333
8,2026,Café (em grão),3109951.0,Café moído,Brasil,539408.304283,220316530,2.448333
9,2027,Café (em grão),3092231.0,Café moído,Brasil,542416.581243,221545234,2.448333


In [59]:
df_cafe['Razão Prod(mm)/Demanda'] = df_cafe['Média móvel']/df_cafe['Demanda pop (ton)']
df_cafe['Razão Prod(mm)/População (kg/pct)'] = (df_cafe['Média móvel']/df_cafe['Populacao (mi)'])*1000
df_cafe

Unnamed: 0,Ano,Item,Média móvel,Items,Região,Demanda pop (ton),Populacao (mi),Consumo médio per capita (kg),Razão Prod(mm)/Demanda,Razão Prod(mm)/População (kg/pct)
0,2018,Café (em grão),2942655.0,Café moído,Brasil,510465.0135,208494900,2.448333,5.764656,14.1138
1,2019,Café (em grão),2984190.0,Café moído,Brasil,514510.211042,210147125,2.448333,5.800061,14.200482
2,2020,Café (em grão),3194736.0,Café moído,Brasil,518448.519247,211755692,2.448333,6.162108,15.086895
3,2021,Café (em grão),3198554.0,Café moído,Brasil,522272.686152,213317639,2.448333,6.124298,14.994324
4,2022,Café (em grão),3032849.0,Café moído,Brasil,525971.875433,214828540,2.448333,5.76618,14.117531
5,2023,Café (em grão),3074415.0,Café moído,Brasil,529535.985268,216284269,2.448333,5.805866,14.214694
6,2024,Café (em grão),3100767.0,Café moído,Brasil,532964.124463,217684462,2.448333,5.817965,14.244318
7,2025,Café (em grão),3124082.0,Café moído,Brasil,536256.229362,219029093,2.448333,5.825726,14.263319
8,2026,Café (em grão),3109951.0,Café moído,Brasil,539408.304283,220316530,2.448333,5.765486,14.115832
9,2027,Café (em grão),3092231.0,Café moído,Brasil,542416.581243,221545234,2.448333,5.700841,13.957559


In [131]:
fig =px.scatter(df_cafe, x ='Ano', y = ['Média móvel', 'Demanda pop (ton)'], title = 'Projeção da produção/demanda por CAFÉ/CAFÉ MOÍDO - Brasil - (2018-2030)', labels= {'value': 'Produção (ton)'}, trendline = 'ols')
fig.update_layout(template = 'plotly_white')


fig.update_layout(
    font_family="Helvetica",
    font_color="black",
    title_font_family="Helvetica",
    title_font_color="black",
    legend_title_font_color="black")

* Mandioca

In [61]:
## Média móvel
df_mandioca['Média móvel'] = df_mandioca['Produçao'].rolling(window =5).mean()

In [62]:
fig =px.line(df_mandioca, x ='Ano', y=['Produçao', 'Média móvel'], title = 'Produção de MANDIOCA - Brasil - (1974-2020)', labels= {'value': 'Produção (ton)'})
fig.update_layout(template = 'plotly_white')

In [63]:
df_mandioca.to_excel('df_mandioca_demada.xlsx')

Regressão linear simples utilizando a coluna média movel como resposta

In [64]:
# Declarar as variáveis 
#Cana
Y_mandioca= df_mandioca.loc[4:]['Média móvel'].values  
X_mandioca = df_mandioca.loc[4:][['Ano']].values
X_mandioca = sm.add_constant(X_mandioca)

In [65]:
#Mandioca
modelo_mandioca = sm.OLS(Y_mandioca,X_mandioca)
resultados_mandioca = modelo_mandioca.fit()
#print(resultados_mandioca.summary())

In [66]:
print("Coeficientes: ", resultados_mandioca.params)
print("R2: ", resultados_mandioca.rsquared)

Coeficientes:  [ 1.12570415e+08 -4.46970284e+04]
R2:  0.10359849310247826


In [67]:
resultados_mandioca.params[1]

-44697.02842041658

In [68]:
df_mandioca.columns

Index(['Ano', 'Item', 'Produçao', 'Média móvel'], dtype='object')

Filtrando os registros onde a coluna ANO é maior que 2018, já que estamos levando em consideração os padrões alimentares de consumo indicados pela POF (2018)

In [69]:
df_mandioca = pd.read_excel("C:\dcc-fellowship-ciencia-de-dados\previsões consumo e producao\df_mandioca_demanda.xlsx")
df_mandioca = df_mandioca[df_mandioca['Ano']>2017].reset_index(drop = True)
df_mandioca

Unnamed: 0,Ano,Item,Média móvel
0,2018,Mandioca,20745670.0
1,2019,Mandioca,19613600.0
2,2020,Mandioca,18642690.0
3,2021,Mandioca,18597990.0
4,2022,Mandioca,19768710.0
5,2023,Mandioca,19429030.0
6,2024,Mandioca,19165710.0
7,2025,Mandioca,19076130.0
8,2026,Mandioca,19162820.0
9,2027,Mandioca,19275780.0


Correção em relação a proporção da produção de MANDIOCA destinada para a produção e consumo doméstico de FARINHA DE MANDIOCA

In [70]:
df_mandioca['Média móvel'] = df_mandioca['Média móvel']*0.75

Demanda populacional por FARINHA DE MANDIOCA em toneladas (2018 -2030)

In [71]:
df_demanda_farinha_mandioca = projecao_demanda_brasil[projecao_demanda_brasil['Items'] == 'Farinha de mandioca'][['Ano', 'Items', 'Região', 'Demanda pop (ton)', 'Populacao (mi)', 'Consumo médio per capita (kg)']].reset_index(drop = True)
df_demanda_farinha_mandioca

Unnamed: 0,Ano,Items,Região,Demanda pop (ton),Populacao (mi),Consumo médio per capita (kg)
0,2018,Farinha de mandioca,Brasil,423244.647,208494900,2.03
1,2019,Farinha de mandioca,Brasil,426598.66375,210147125,2.03
2,2020,Farinha de mandioca,Brasil,429864.05476,211755692,2.03
3,2021,Farinha de mandioca,Brasil,433034.80717,213317639,2.03
4,2022,Farinha de mandioca,Brasil,436101.9362,214828540,2.03
5,2023,Farinha de mandioca,Brasil,439057.06607,216284269,2.03
6,2024,Farinha de mandioca,Brasil,441899.45786,217684462,2.03
7,2025,Farinha de mandioca,Brasil,444629.05879,219029093,2.03
8,2026,Farinha de mandioca,Brasil,447242.5559,220316530,2.03
9,2027,Farinha de mandioca,Brasil,449736.82502,221545234,2.03


Juntando os dataframe df_mandioca e df_demanda_farinha_mandioca

In [72]:
df_mandioca = pd.merge(df_mandioca, df_demanda_farinha_mandioca, how = 'inner', on = 'Ano')
df_mandioca

Unnamed: 0,Ano,Item,Média móvel,Items,Região,Demanda pop (ton),Populacao (mi),Consumo médio per capita (kg)
0,2018,Mandioca,15559250.0,Farinha de mandioca,Brasil,423244.647,208494900,2.03
1,2019,Mandioca,14710200.0,Farinha de mandioca,Brasil,426598.66375,210147125,2.03
2,2020,Mandioca,13982010.0,Farinha de mandioca,Brasil,429864.05476,211755692,2.03
3,2021,Mandioca,13948490.0,Farinha de mandioca,Brasil,433034.80717,213317639,2.03
4,2022,Mandioca,14826530.0,Farinha de mandioca,Brasil,436101.9362,214828540,2.03
5,2023,Mandioca,14571780.0,Farinha de mandioca,Brasil,439057.06607,216284269,2.03
6,2024,Mandioca,14374280.0,Farinha de mandioca,Brasil,441899.45786,217684462,2.03
7,2025,Mandioca,14307100.0,Farinha de mandioca,Brasil,444629.05879,219029093,2.03
8,2026,Mandioca,14372110.0,Farinha de mandioca,Brasil,447242.5559,220316530,2.03
9,2027,Mandioca,14456840.0,Farinha de mandioca,Brasil,449736.82502,221545234,2.03


In [73]:
df_mandioca['Razão Prod(mm)/Demanda'] = df_mandioca['Média móvel']/df_mandioca['Demanda pop (ton)']
df_mandioca['Razão Prod(mm)/População (kg/pct)'] = (df_mandioca['Média móvel']/df_mandioca['Populacao (mi)'])*1000
df_mandioca

Unnamed: 0,Ano,Item,Média móvel,Items,Região,Demanda pop (ton),Populacao (mi),Consumo médio per capita (kg),Razão Prod(mm)/Demanda,Razão Prod(mm)/População (kg/pct)
0,2018,Mandioca,15559250.0,Farinha de mandioca,Brasil,423244.647,208494900,2.03,36.761838,74.62653
1,2019,Mandioca,14710200.0,Farinha de mandioca,Brasil,426598.66375,210147125,2.03,34.482531,69.999539
2,2020,Mandioca,13982010.0,Farinha de mandioca,Brasil,429864.05476,211755692,2.03,32.526595,66.028989
3,2021,Mandioca,13948490.0,Farinha de mandioca,Brasil,433034.80717,213317639,2.03,32.211017,65.388364
4,2022,Mandioca,14826530.0,Farinha de mandioca,Brasil,436101.9362,214828540,2.03,33.997856,69.015648
5,2023,Mandioca,14571780.0,Farinha de mandioca,Brasil,439057.06607,216284269,2.03,33.188795,67.373254
6,2024,Mandioca,14374280.0,Farinha de mandioca,Brasil,441899.45786,217684462,2.03,32.528395,66.032641
7,2025,Mandioca,14307100.0,Farinha de mandioca,Brasil,444629.05879,219029093,2.03,32.177599,65.320526
8,2026,Mandioca,14372110.0,Farinha de mandioca,Brasil,447242.5559,220316530,2.03,32.134938,65.233924
9,2027,Mandioca,14456840.0,Farinha de mandioca,Brasil,449736.82502,221545234,2.03,32.145101,65.254556


In [74]:
df_mandioca.columns

Index(['Ano', 'Item', 'Média móvel', 'Items', 'Região', 'Demanda pop (ton)',
       'Populacao (mi)', 'Consumo médio per capita (kg)',
       'Razão Prod(mm)/Demanda', 'Razão Prod(mm)/População (kg/pct)'],
      dtype='object')

In [132]:
fig =px.scatter(df_mandioca, x ='Ano', y = ['Média móvel', 'Demanda pop (ton)'], title = 'Projeção da produção/demanda por MANDIOCA/FARINHA DE MANDIOCA - Brasil - (2018-2030)', labels= {'value': 'Produção (ton)'}, trendline = 'ols')
fig.update_layout(template = 'plotly_white')

fig.update_layout(
    font_family="Helvetica",
    font_color="black",
    title_font_family="Helvetica",
    title_font_color="black",
    legend_title_font_color="black")

* Milho

In [76]:
## Média móvel
df_milho['Média móvel'] = df_milho['Produçao'].rolling(window =5).mean()

In [77]:
fig =px.line(df_milho, x ='Ano', y=['Produçao', 'Média móvel'], title = 'Produção de MILHO - Brasil - (1974-2020)', labels= {'value': 'Produção (ton)'})
fig.update_layout(template = 'plotly_white')

In [78]:
df_milho.to_excel('df_milho_demanda.xlsx')

In [79]:
# Declarar as variáveis 
#Milho
Y_milho= df_milho.loc[4:]['Média móvel'].values  
X_milho = df_milho.loc[4:][['Ano']].values
X_milho= sm.add_constant(X_milho)

In [80]:
#Milho
modelo_milho = sm.OLS(Y_milho,X_milho)
resultados_milho = modelo_milho.fit()
#print(resultados_milho.summary())

In [81]:
print("Coeficientes: ", resultados_milho.params)
print("R2: ", resultados_milho.rsquared)

Coeficientes:  [-3.14034490e+09  1.59083931e+06]
R2:  0.8741085894428411


In [82]:
resultados_milho.params[1]

1590839.3149199905

Filtrando os registros onde a coluna ANO é maior que 2018, já que estamos levando em consideração os padrões alimentares de consumo indicados pela POF (2018)

In [83]:
df_milho = pd.read_excel("C:\dcc-fellowship-ciencia-de-dados\previsões consumo e producao\df_milho_demanda.xlsx")
df_milho = df_milho[df_milho['Ano']>2017].reset_index(drop = True)
df_milho

Unnamed: 0,Ano,Item,Média móvel
0,2018,Milho (em grão),81926040.0
1,2019,Milho (em grão),86175000.0
2,2020,Milho (em grão),89911110.0
3,2021,Milho (em grão),91501950.0
4,2022,Milho (em grão),87795130.0
5,2023,Milho (em grão),89052680.0
6,2024,Milho (em grão),90478010.0
7,2025,Milho (em grão),91338610.0
8,2026,Milho (em grão),91624120.0
9,2027,Milho (em grão),91648550.0


Correção em relação a proporção da produção de MILHO destinada para a produção e consumo doméstico de FUBÁ DE MILHO

In [84]:
df_milho['Média móvel'] = df_milho['Média móvel']*0.025

In [85]:
df_milho

Unnamed: 0,Ano,Item,Média móvel
0,2018,Milho (em grão),2048151.0
1,2019,Milho (em grão),2154375.0
2,2020,Milho (em grão),2247778.0
3,2021,Milho (em grão),2287549.0
4,2022,Milho (em grão),2194878.0
5,2023,Milho (em grão),2226317.0
6,2024,Milho (em grão),2261950.0
7,2025,Milho (em grão),2283465.0
8,2026,Milho (em grão),2290603.0
9,2027,Milho (em grão),2291214.0


Demanda populacional por FUBÁ DE MILHO em toneladas (2018 -2030)

In [86]:
df_demanda_fuba_milho = projecao_demanda_brasil[projecao_demanda_brasil['Items'] == 'Fubá de milho'][['Ano', 'Items', 'Região', 'Demanda pop (ton)', 'Populacao (mi)', 'Consumo médio per capita (kg)']].reset_index(drop = True)
df_demanda_fuba_milho

Unnamed: 0,Ano,Items,Região,Demanda pop (ton),Populacao (mi),Consumo médio per capita (kg)
0,2018,Fubá de milho,Brasil,233514.288,208494900,1.12
1,2019,Fubá de milho,Brasil,235364.78,210147125,1.12
2,2020,Fubá de milho,Brasil,237166.37504,211755692,1.12
3,2021,Fubá de milho,Brasil,238915.75568,213317639,1.12
4,2022,Fubá de milho,Brasil,240607.9648,214828540,1.12
5,2023,Fubá de milho,Brasil,242238.38128,216284269,1.12
6,2024,Fubá de milho,Brasil,243806.59744,217684462,1.12
7,2025,Fubá de milho,Brasil,245312.58416,219029093,1.12
8,2026,Fubá de milho,Brasil,246754.5136,220316530,1.12
9,2027,Fubá de milho,Brasil,248130.66208,221545234,1.12


Juntando os dataframe df_milho e df_demanda_fuba_milho

In [87]:
df_milho = pd.merge(df_milho, df_demanda_fuba_milho, how = 'inner', on = 'Ano')
df_milho

Unnamed: 0,Ano,Item,Média móvel,Items,Região,Demanda pop (ton),Populacao (mi),Consumo médio per capita (kg)
0,2018,Milho (em grão),2048151.0,Fubá de milho,Brasil,233514.288,208494900,1.12
1,2019,Milho (em grão),2154375.0,Fubá de milho,Brasil,235364.78,210147125,1.12
2,2020,Milho (em grão),2247778.0,Fubá de milho,Brasil,237166.37504,211755692,1.12
3,2021,Milho (em grão),2287549.0,Fubá de milho,Brasil,238915.75568,213317639,1.12
4,2022,Milho (em grão),2194878.0,Fubá de milho,Brasil,240607.9648,214828540,1.12
5,2023,Milho (em grão),2226317.0,Fubá de milho,Brasil,242238.38128,216284269,1.12
6,2024,Milho (em grão),2261950.0,Fubá de milho,Brasil,243806.59744,217684462,1.12
7,2025,Milho (em grão),2283465.0,Fubá de milho,Brasil,245312.58416,219029093,1.12
8,2026,Milho (em grão),2290603.0,Fubá de milho,Brasil,246754.5136,220316530,1.12
9,2027,Milho (em grão),2291214.0,Fubá de milho,Brasil,248130.66208,221545234,1.12


In [88]:
df_milho['Razão Prod(mm)/Demanda'] = df_milho['Média móvel']/df_milho['Demanda pop (ton)']
df_milho['Razão Prod(mm)/População (kg/pct)'] = (df_milho['Média móvel']/df_milho['Populacao (mi)'])*1000
df_milho

Unnamed: 0,Ano,Item,Média móvel,Items,Região,Demanda pop (ton),Populacao (mi),Consumo médio per capita (kg),Razão Prod(mm)/Demanda,Razão Prod(mm)/População (kg/pct)
0,2018,Milho (em grão),2048151.0,Fubá de milho,Brasil,233514.288,208494900,1.12,8.770988,9.823506
1,2019,Milho (em grão),2154375.0,Fubá de milho,Brasil,235364.78,210147125,1.12,9.153345,10.251746
2,2020,Milho (em grão),2247778.0,Fubá de milho,Brasil,237166.37504,211755692,1.12,9.477641,10.614957
3,2021,Milho (em grão),2287549.0,Fubá de milho,Brasil,238915.75568,213317639,1.12,9.574708,10.723673
4,2022,Milho (em grão),2194878.0,Fubá de milho,Brasil,240607.9648,214828540,1.12,9.122218,10.216884
5,2023,Milho (em grão),2226317.0,Fubá de milho,Brasil,242238.38128,216284269,1.12,9.190604,10.293477
6,2024,Milho (em grão),2261950.0,Fubá de milho,Brasil,243806.59744,217684462,1.12,9.277642,10.390959
7,2025,Milho (em grão),2283465.0,Fubá de milho,Brasil,245312.58416,219029093,1.12,9.308391,10.425397
8,2026,Milho (em grão),2290603.0,Fubá de milho,Brasil,246754.5136,220316530,1.12,9.282922,10.396873
9,2027,Milho (em grão),2291214.0,Fubá de milho,Brasil,248130.66208,221545234,1.12,9.2339,10.341968


In [89]:
df_milho.columns

Index(['Ano', 'Item', 'Média móvel', 'Items', 'Região', 'Demanda pop (ton)',
       'Populacao (mi)', 'Consumo médio per capita (kg)',
       'Razão Prod(mm)/Demanda', 'Razão Prod(mm)/População (kg/pct)'],
      dtype='object')

In [134]:
fig =px.scatter(df_milho, x ='Ano', y = ['Média móvel', 'Demanda pop (ton)'], title = 'Projeção da produção/demanda por MILHO/FUBÁ DE MILHO - Brasil - (2018-2030)', labels= {'value': 'Produção (ton)'}, trendline = 'ols')
fig.update_layout(template = 'plotly_white')


fig.update_layout(
    font_family="Helvetica",
    font_color="black",
    title_font_family="Helvetica",
    title_font_color="black",
    legend_title_font_color="black")

* Soja

In [91]:
## Média móvel
df_soja['Média móvel'] = df_soja['Produçao'].rolling(window =5).mean()

In [92]:
fig =px.line(df_soja, x ='Ano', y=['Produçao', 'Média móvel'], title = 'Produção de SOJA - Brasil - (1974-2020)', labels= {'value': 'Produção (ton)'})
fig.update_layout(template = 'plotly_white')

In [93]:
df_soja.to_excel('df_soja_demanda.xlsx')

In [94]:
# Declarar as variáveis 
#Soja
Y_soja= df_soja.loc[4:]['Média móvel'].values  
X_soja = df_soja.loc[4:][['Ano']].values
X_soja= sm.add_constant(X_soja)

In [95]:
#Soja
modelo_soja = sm.OLS(Y_soja, X_soja)
resultados_soja = modelo_soja.fit()
#print(resultados_soja.summary())

In [96]:
print("Coeficientes: ", resultados_soja.params)
print("R2: ", resultados_soja.rsquared)

Coeficientes:  [-4.36941771e+09  2.20607155e+06]
R2:  0.8700789750330067


In [97]:
resultados_soja.params[1]

2206071.548051986

Filtrando os registros onde a coluna ANO é maior que 2018, já que estamos levando em consideração os padrões alimentares de consumo indicados pela POF (2018)

In [98]:
df_soja = pd.read_excel("C:\dcc-fellowship-ciencia-de-dados\previsões consumo e producao\df_soja_demanda.xlsx")
df_soja = df_soja[df_soja['Ano']>2017].reset_index(drop = True)
df_soja

Unnamed: 0,Ano,Item,Média móvel
0,2018,Soja (em grão),102653000.0
1,2019,Soja (em grão),108164200.0
2,2020,Soja (em grão),113030800.0
3,2021,Soja (em grão),115236900.0
4,2022,Soja (em grão),109106100.0
5,2023,Soja (em grão),111844300.0
6,2024,Soja (em grão),113682500.0
7,2025,Soja (em grão),114786200.0
8,2026,Soja (em grão),115137300.0
9,2027,Soja (em grão),115117300.0


Correção em relação a proporção da produção de SOJA destinada para a produção e consumo doméstico de ÓLEO DE SOJA

In [99]:
df_soja['Média móvel'] = df_soja['Média móvel']*0.075

In [100]:
df_soja

Unnamed: 0,Ano,Item,Média móvel
0,2018,Soja (em grão),7698972.0
1,2019,Soja (em grão),8112317.0
2,2020,Soja (em grão),8477309.0
3,2021,Soja (em grão),8642764.0
4,2022,Soja (em grão),8182958.0
5,2023,Soja (em grão),8388319.0
6,2024,Soja (em grão),8526189.0
7,2025,Soja (em grão),8608963.0
8,2026,Soja (em grão),8635294.0
9,2027,Soja (em grão),8633800.0


Demanda populacional por ÓLEO DE SOJA em toneladas (2018 -2030)

In [101]:
df_demanda_oleo_soja = projecao_demanda_brasil[projecao_demanda_brasil['Items'] == 'Óleo de soja'][['Ano', 'Items', 'Região', 'Demanda pop (ton)', 'Populacao (mi)', 'Consumo médio per capita (kg)']].reset_index(drop = True)
df_demanda_oleo_soja

Unnamed: 0,Ano,Items,Região,Demanda pop (ton),Populacao (mi),Consumo médio per capita (kg)
0,2018,Óleo de soja,Brasil,910427.73,208494900,4.366667
1,2019,Óleo de soja,Brasil,917642.445833,210147125,4.366667
2,2020,Óleo de soja,Brasil,924666.521733,211755692,4.366667
3,2021,Óleo de soja,Brasil,931487.023633,213317639,4.366667
4,2022,Óleo de soja,Brasil,938084.624667,214828540,4.366667
5,2023,Óleo de soja,Brasil,944441.307967,216284269,4.366667
6,2024,Óleo de soja,Brasil,950555.484067,217684462,4.366667
7,2025,Óleo de soja,Brasil,956427.039433,219029093,4.366667
8,2026,Óleo de soja,Brasil,962048.847667,220316530,4.366667
9,2027,Óleo de soja,Brasil,967414.188467,221545234,4.366667


Juntando os dataframe df_soja e df_demanda_oleo_soja

In [102]:
df_soja = pd.merge(df_soja, df_demanda_oleo_soja, how = 'inner', on = 'Ano')
df_soja

Unnamed: 0,Ano,Item,Média móvel,Items,Região,Demanda pop (ton),Populacao (mi),Consumo médio per capita (kg)
0,2018,Soja (em grão),7698972.0,Óleo de soja,Brasil,910427.73,208494900,4.366667
1,2019,Soja (em grão),8112317.0,Óleo de soja,Brasil,917642.445833,210147125,4.366667
2,2020,Soja (em grão),8477309.0,Óleo de soja,Brasil,924666.521733,211755692,4.366667
3,2021,Soja (em grão),8642764.0,Óleo de soja,Brasil,931487.023633,213317639,4.366667
4,2022,Soja (em grão),8182958.0,Óleo de soja,Brasil,938084.624667,214828540,4.366667
5,2023,Soja (em grão),8388319.0,Óleo de soja,Brasil,944441.307967,216284269,4.366667
6,2024,Soja (em grão),8526189.0,Óleo de soja,Brasil,950555.484067,217684462,4.366667
7,2025,Soja (em grão),8608963.0,Óleo de soja,Brasil,956427.039433,219029093,4.366667
8,2026,Soja (em grão),8635294.0,Óleo de soja,Brasil,962048.847667,220316530,4.366667
9,2027,Soja (em grão),8633800.0,Óleo de soja,Brasil,967414.188467,221545234,4.366667


In [103]:
df_soja['Razão Prod(mm)/Demanda'] = df_soja['Média móvel']/df_soja['Demanda pop (ton)']
df_soja['Razão Prod(mm)/População (kg/pct)'] = (df_soja['Média móvel']/df_soja['Populacao (mi)'])*1000
df_soja

Unnamed: 0,Ano,Item,Média móvel,Items,Região,Demanda pop (ton),Populacao (mi),Consumo médio per capita (kg),Razão Prod(mm)/Demanda,Razão Prod(mm)/População (kg/pct)
0,2018,Soja (em grão),7698972.0,Óleo de soja,Brasil,910427.73,208494900,4.366667,8.456434,36.92643
1,2019,Soja (em grão),8112317.0,Óleo de soja,Brasil,917642.445833,210147125,4.366667,8.84039,38.603036
2,2020,Soja (em grão),8477309.0,Óleo de soja,Brasil,924666.521733,211755692,4.366667,9.167963,40.033439
3,2021,Soja (em grão),8642764.0,Óleo de soja,Brasil,931487.023633,213317639,4.366667,9.278459,40.515937
4,2022,Soja (em grão),8182958.0,Óleo de soja,Brasil,938084.624667,214828540,4.366667,8.723049,38.090648
5,2023,Soja (em grão),8388319.0,Óleo de soja,Brasil,944441.307967,216284269,4.366667,8.881779,38.78377
6,2024,Soja (em grão),8526189.0,Óleo de soja,Brasil,950555.484067,217684462,4.366667,8.969691,39.16765
7,2025,Soja (em grão),8608963.0,Óleo de soja,Brasil,956427.039433,219029093,4.366667,9.001171,39.305113
8,2026,Soja (em grão),8635294.0,Óleo de soja,Brasil,962048.847667,220316530,4.366667,8.975941,39.194944
9,2027,Soja (em grão),8633800.0,Óleo de soja,Brasil,967414.188467,221545234,4.366667,8.924616,38.970823


In [135]:
fig =px.scatter(df_soja, x ='Ano', y = ['Média móvel', 'Demanda pop (ton)'], title = 'Projeção da razão produção/demanda por SOJA/ÓLEO DE SOJA - Brasil - (2018-2030)', labels= {'value': 'Produção (ton)'}, trendline = 'ols')
fig.update_layout(template = 'plotly_white')


fig.update_layout(
    font_family="Helvetica",
    font_color="black",
    title_font_family="Helvetica",
    title_font_color="black",
    legend_title_font_color="black")

* Tomate

In [105]:
## Média móvel
df_tomate['Média móvel'] = df_tomate['Produçao'].rolling(window =5).mean()

In [106]:
fig =px.line(df_tomate, x ='Ano', y=['Produçao', 'Média móvel'], title = 'Produção de TOMATE - Brasil - (1974-2020)', labels= {'value': 'Produção (ton)'})
fig.update_layout(template = 'plotly_white')

In [107]:
df_tomate.to_excel('df_demanda_tomate.xlsx')

In [108]:
# Declarar as variáveis 
#Tomate
Y_tomate= df_tomate.loc[4:]['Média móvel'].values  
X_tomate = df_tomate.loc[4:][['Ano']].values
X_tomate= sm.add_constant(X_tomate)

In [109]:
#Tomate
modelo_tomate = sm.OLS(Y_tomate, X_tomate)
resultados_tomate = modelo_tomate.fit()
#print(resultados_tomate.summary())

In [110]:
print("Coeficientes: ", resultados_tomate.params)
print("R2: ", resultados_tomate.rsquared)

Coeficientes:  [-1.54504616e+08  7.87177928e+04]
R2:  0.9826947565947943


In [111]:
resultados_tomate.params[1]

78717.79278163797

Filtrando os registros onde a coluna ANO é maior que 2018, já que estamos levando em consideração os padrões alimentares de consumo indicados pela POF (2018)

In [112]:
df_tomate = pd.read_excel("C:\dcc-fellowship-ciencia-de-dados\previsões consumo e producao\df_tomate_demanda.xlsx")
df_tomate = df_tomate[df_tomate['Ano']>2017].reset_index(drop = True)
df_tomate

Unnamed: 0,Ano,Item,Média móvel
0,2018,Tomate,4201939.0
1,2019,Tomate,4125583.0
2,2020,Tomate,4038757.0
3,2021,Tomate,4117474.0
4,2022,Tomate,4218282.0
5,2023,Tomate,4219124.0
6,2024,Tomate,4222561.0
7,2025,Tomate,4241956.0
8,2026,Tomate,4282596.0
9,2027,Tomate,4315621.0


Correção em relação a proporção da produção de TOMATE destinada para a produção e consumo doméstico de MOLHO DE TOMATE

In [113]:
df_tomate['Média móvel'] = df_tomate['Média móvel']*0.37
df_tomate

Unnamed: 0,Ano,Item,Média móvel
0,2018,Tomate,1554718.0
1,2019,Tomate,1526466.0
2,2020,Tomate,1494340.0
3,2021,Tomate,1523465.0
4,2022,Tomate,1560764.0
5,2023,Tomate,1561076.0
6,2024,Tomate,1562348.0
7,2025,Tomate,1569524.0
8,2026,Tomate,1584561.0
9,2027,Tomate,1596780.0


Demanda populacional por MOLHO DE TOMATE em toneladas (2018 -2030)

In [114]:
df_demanda_molho_tomate = projecao_demanda_brasil[projecao_demanda_brasil['Items'] == 'Molho de tomate'][['Ano', 'Items', 'Região', 'Demanda pop (ton)', 'Populacao (mi)', 'Consumo médio per capita (kg)']].reset_index(drop = True)
df_demanda_molho_tomate

Unnamed: 0,Ano,Items,Região,Demanda pop (ton),Populacao (mi),Consumo médio per capita (kg)
0,2018,Molho de tomate,Brasil,233514.288,208494900,1.12
1,2019,Molho de tomate,Brasil,235364.78,210147125,1.12
2,2020,Molho de tomate,Brasil,237166.37504,211755692,1.12
3,2021,Molho de tomate,Brasil,238915.75568,213317639,1.12
4,2022,Molho de tomate,Brasil,240607.9648,214828540,1.12
5,2023,Molho de tomate,Brasil,242238.38128,216284269,1.12
6,2024,Molho de tomate,Brasil,243806.59744,217684462,1.12
7,2025,Molho de tomate,Brasil,245312.58416,219029093,1.12
8,2026,Molho de tomate,Brasil,246754.5136,220316530,1.12
9,2027,Molho de tomate,Brasil,248130.66208,221545234,1.12


Juntando os dataframe df_tomate e df_molho_tomate

In [115]:
df_tomate = pd.merge(df_tomate, df_demanda_molho_tomate, how = 'inner', on = 'Ano')
df_tomate

Unnamed: 0,Ano,Item,Média móvel,Items,Região,Demanda pop (ton),Populacao (mi),Consumo médio per capita (kg)
0,2018,Tomate,1554718.0,Molho de tomate,Brasil,233514.288,208494900,1.12
1,2019,Tomate,1526466.0,Molho de tomate,Brasil,235364.78,210147125,1.12
2,2020,Tomate,1494340.0,Molho de tomate,Brasil,237166.37504,211755692,1.12
3,2021,Tomate,1523465.0,Molho de tomate,Brasil,238915.75568,213317639,1.12
4,2022,Tomate,1560764.0,Molho de tomate,Brasil,240607.9648,214828540,1.12
5,2023,Tomate,1561076.0,Molho de tomate,Brasil,242238.38128,216284269,1.12
6,2024,Tomate,1562348.0,Molho de tomate,Brasil,243806.59744,217684462,1.12
7,2025,Tomate,1569524.0,Molho de tomate,Brasil,245312.58416,219029093,1.12
8,2026,Tomate,1584561.0,Molho de tomate,Brasil,246754.5136,220316530,1.12
9,2027,Tomate,1596780.0,Molho de tomate,Brasil,248130.66208,221545234,1.12


In [116]:
df_tomate['Razão Prod(mm)/Demanda'] = df_tomate['Média móvel']/df_tomate['Demanda pop (ton)']
df_tomate['Razão Prod(mm)/População (kg/pct)'] = (df_tomate['Média móvel']/df_tomate['Populacao (mi)'])*1000
df_tomate

Unnamed: 0,Ano,Item,Média móvel,Items,Região,Demanda pop (ton),Populacao (mi),Consumo médio per capita (kg),Razão Prod(mm)/Demanda,Razão Prod(mm)/População (kg/pct)
0,2018,Tomate,1554718.0,Molho de tomate,Brasil,233514.288,208494900,1.12,6.657912,7.456861
1,2019,Tomate,1526466.0,Molho de tomate,Brasil,235364.78,210147125,1.12,6.485532,7.263796
2,2020,Tomate,1494340.0,Molho de tomate,Brasil,237166.37504,211755692,1.12,6.300809,7.056906
3,2021,Tomate,1523465.0,Molho de tomate,Brasil,238915.75568,213317639,1.12,6.376579,7.141769
4,2022,Tomate,1560764.0,Molho de tomate,Brasil,240607.9648,214828540,1.12,6.486752,7.265163
5,2023,Tomate,1561076.0,Molho de tomate,Brasil,242238.38128,216284269,1.12,6.444379,7.217704
6,2024,Tomate,1562348.0,Molho de tomate,Brasil,243806.59744,217684462,1.12,6.408143,7.17712
7,2025,Tomate,1569524.0,Molho de tomate,Brasil,245312.58416,219029093,1.12,6.398057,7.165824
8,2026,Tomate,1584561.0,Molho de tomate,Brasil,246754.5136,220316530,1.12,6.421608,7.1922
9,2027,Tomate,1596780.0,Molho de tomate,Brasil,248130.66208,221545234,1.12,6.435237,7.207466


In [136]:
fig =px.scatter(df_tomate, x ='Ano', y = ['Média móvel', 'Demanda pop (ton)'], title = 'Projeção da razão produção/demanda por TOMATE/MOLHO DE TOMATE - Brasil - (2018-2030)', labels= {'value': 'Produção (ton)'}, trendline = 'ols')
fig.update_layout(template = 'plotly_white')


fig.update_layout(
    font_family="Helvetica",
    font_color="black",
    title_font_family="Helvetica",
    title_font_color="black",
    legend_title_font_color="black")

* Trigo

In [118]:
## Média móvel
df_trigo['Média móvel'] = df_trigo['Produçao'].rolling(window =5).mean()

In [119]:
fig =px.line(df_trigo, x ='Ano', y=['Produçao', 'Média móvel'], title = 'Produção de TRIGO - Brasil - (1974-2020)', labels= {'value': 'Produção (ton)'})
fig.update_layout(template = 'plotly_white')

In [120]:
df_trigo.to_excel('df_trigo_demanda.xlsx')

In [121]:
# Declarar as variáveis 
#Tomate
Y_trigo= df_tomate.loc[4:]['Média móvel'].values  
X_trigo = df_tomate.loc[4:][['Ano']].values
X_trigo= sm.add_constant(X_trigo)

In [122]:
#Trigo
modelo_trigo = sm.OLS(Y_trigo, X_trigo)
resultados_trigo = modelo_trigo.fit()
#print(resultados_trigo.summary())

In [123]:
print("Coeficientes: ", resultados_trigo.params)
print("R2: ", resultados_trigo.rsquared)

Coeficientes:  [-1.57148189e+07  8.53940859e+03]
R2:  0.9560597917744066


In [124]:
resultados_trigo.params[1]

8539.408594247463

Filtrando os registros onde a coluna ANO é maior que 2018, já que estamos levando em consideração os padrões alimentares de consumo indicados pela POF (2018)

In [125]:
df_trigo = pd.read_excel("C:\dcc-fellowship-ciencia-de-dados\previsões consumo e producao\df_trigo_demanda.xlsx")
df_trigo = df_trigo[df_trigo['Ano']>2017].reset_index(drop = True)
df_trigo

Unnamed: 0,Ano,Item,Média móvel
0,2018,Trigo (em grão),5683363.0
1,2019,Trigo (em grão),5549147.0
2,2020,Trigo (em grão),5717054.0
3,2021,Trigo (em grão),5740133.0
4,2022,Trigo (em grão),5708461.0
5,2023,Trigo (em grão),5702711.0
6,2024,Trigo (em grão),5706580.0
7,2025,Trigo (em grão),5738067.0
8,2026,Trigo (em grão),5742269.0
9,2027,Trigo (em grão),5742696.0


Demanda populacional por FARINHA DE TRIGO em toneladas (2018 -2030)

In [126]:
df_demanda_farinha_trigo = projecao_demanda_brasil[projecao_demanda_brasil['Items'] == 'Farinha de trigo'][['Ano', 'Items', 'Região', 'Demanda pop (ton)', 'Populacao (mi)', 'Consumo médio per capita (kg)']].reset_index(drop = True)
df_demanda_farinha_trigo

Unnamed: 0,Ano,Items,Região,Demanda pop (ton),Populacao (mi),Consumo médio per capita (kg)
0,2018,Farinha de trigo,Brasil,481970.7105,208494900,2.311667
1,2019,Farinha de trigo,Brasil,485790.103958,210147125,2.311667
2,2020,Farinha de trigo,Brasil,489508.574673,211755692,2.311667
3,2021,Farinha de trigo,Brasil,493119.275488,213317639,2.311667
4,2022,Farinha de trigo,Brasil,496611.974967,214828540,2.311667
5,2023,Farinha de trigo,Brasil,499977.135172,216284269,2.311667
6,2024,Farinha de trigo,Brasil,503213.914657,217684462,2.311667
7,2025,Farinha de trigo,Brasil,506322.253318,219029093,2.311667
8,2026,Farinha de trigo,Brasil,509298.378517,220316530,2.311667
9,2027,Farinha de trigo,Brasil,512138.732597,221545234,2.311667


Juntando os dataframe df_trigo e df_farinha_trigo

In [127]:
df_trigo = pd.merge(df_trigo, df_demanda_farinha_trigo, how = 'inner', on = 'Ano')
df_trigo

Unnamed: 0,Ano,Item,Média móvel,Items,Região,Demanda pop (ton),Populacao (mi),Consumo médio per capita (kg)
0,2018,Trigo (em grão),5683363.0,Farinha de trigo,Brasil,481970.7105,208494900,2.311667
1,2019,Trigo (em grão),5549147.0,Farinha de trigo,Brasil,485790.103958,210147125,2.311667
2,2020,Trigo (em grão),5717054.0,Farinha de trigo,Brasil,489508.574673,211755692,2.311667
3,2021,Trigo (em grão),5740133.0,Farinha de trigo,Brasil,493119.275488,213317639,2.311667
4,2022,Trigo (em grão),5708461.0,Farinha de trigo,Brasil,496611.974967,214828540,2.311667
5,2023,Trigo (em grão),5702711.0,Farinha de trigo,Brasil,499977.135172,216284269,2.311667
6,2024,Trigo (em grão),5706580.0,Farinha de trigo,Brasil,503213.914657,217684462,2.311667
7,2025,Trigo (em grão),5738067.0,Farinha de trigo,Brasil,506322.253318,219029093,2.311667
8,2026,Trigo (em grão),5742269.0,Farinha de trigo,Brasil,509298.378517,220316530,2.311667
9,2027,Trigo (em grão),5742696.0,Farinha de trigo,Brasil,512138.732597,221545234,2.311667


In [128]:
df_trigo['Razão Prod(mm)/Demanda'] = df_trigo['Média móvel']/df_trigo['Demanda pop (ton)']
df_trigo['Razão Prod(mm)/População (kg/pct)'] = (df_trigo['Média móvel']/df_trigo['Populacao (mi)'])*1000
df_trigo

Unnamed: 0,Ano,Item,Média móvel,Items,Região,Demanda pop (ton),Populacao (mi),Consumo médio per capita (kg),Razão Prod(mm)/Demanda,Razão Prod(mm)/População (kg/pct)
0,2018,Trigo (em grão),5683363.0,Farinha de trigo,Brasil,481970.7105,208494900,2.311667,11.791926,27.259002
1,2019,Trigo (em grão),5549147.0,Farinha de trigo,Brasil,485790.103958,210147125,2.311667,11.422931,26.40601
2,2020,Trigo (em grão),5717054.0,Farinha de trigo,Brasil,489508.574673,211755692,2.311667,11.679171,26.99835
3,2021,Trigo (em grão),5740133.0,Farinha de trigo,Brasil,493119.275488,213317639,2.311667,11.640456,26.908854
4,2022,Trigo (em grão),5708461.0,Farinha de trigo,Brasil,496611.974967,214828540,2.311667,11.494811,26.57217
5,2023,Trigo (em grão),5702711.0,Farinha de trigo,Brasil,499977.135172,216284269,2.311667,11.405943,26.366738
6,2024,Trigo (em grão),5706580.0,Farinha de trigo,Brasil,503213.914657,217684462,2.311667,11.340267,26.214917
7,2025,Trigo (em grão),5738067.0,Farinha de trigo,Brasil,506322.253318,219029093,2.311667,11.332835,26.197738
8,2026,Trigo (em grão),5742269.0,Farinha de trigo,Brasil,509298.378517,220316530,2.311667,11.274863,26.063724
9,2027,Trigo (em grão),5742696.0,Farinha de trigo,Brasil,512138.732597,221545234,2.311667,11.213166,25.921101


In [129]:
fig =px.scatter(df_trigo, x ='Ano', y = ['Razão Prod(mm)/Demanda', 'Razão Prod(mm)/População (kg/pct)'], title = 'Projeção da razão produção/demanda por TOMATE/MOLHO DE TOMATE - Brasil - (2018-2030)', labels= {'value': 'Produção (ton)'}, trendline = 'ols')
fig.update_layout(template = 'plotly_white')