### DCC - Sirius Education

#### Exploração inicial
Abaixo foram feitas explorações iniciais nos dois datasets escolhidos pelo grupo

* Produção Municipal Agrícola [(PAM)](https://sidra.ibge.gov.br/tabela/5457)
* Pesquisa de Orçamentos Familiares [(POF)](https://www.ibge.gov.br/estatisticas/sociais/saude/24786-pesquisa-de-orcamentos-familiares-2.html?=&t=resultados)

#### Imports

In [40]:
import pandas as pd
import numpy as np
import seaborn as sns
import plotly.express as px

#### Exploração inicial da PAM - Produção Agrícola Municipal (1974 - 2020)



<a href="https://sidra.ibge.gov.br/tabela/5457">Tabela 5457 - Área plantada ou destinada à colheita, área colhida, quantidade produzida, rendimento médio e valor da produção das lavouras temporárias e permanente</a>

In [41]:
producao = pd.read_excel('C:\dcc-fellowship-ciencia-de-dados\pam_alimentos_cesta.xlsx', index_col='Ano')
producao.shape

(47, 9)

In [42]:
producao.head(3)

Unnamed: 0_level_0,Arroz,Café (em grão),Cana-de-açúcar,Feijão (em grão),Mandioca,Milho (em grão),Soja (em grão),Tomate,Trigo (em grão)
Ano,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1974,6764038,3230618,95623685,2238012,24797636,16273227,7876527,1144037,2858530
1975,7781538,2544596,91524559,2282466,26117614,16334516,9893008,1049724,1788180
1976,9757079,751969,103173449,1840315,25443053,17751077,11227123,1166888,3215745


In [43]:
producao_2 = pd.read_excel('C:\dcc-fellowship-ciencia-de-dados\pam.xlsx')

In [44]:
producao_2.head()

Unnamed: 0,Ano,Item,Produçao
0,1974,Arroz,6764038
1,1975,Arroz,7781538
2,1976,Arroz,9757079
3,1977,Arroz,8993696
4,1978,Arroz,7296142


#### Verificando o shape do dataframe

In [45]:
producao.shape

(47, 9)

In [46]:
producao_2.shape

(423, 3)

#### Análise de valores nulos

In [47]:
producao.isnull().sum()

Arroz               0
Café (em grão)      0
Cana-de-açúcar      0
Feijão (em grão)    0
Mandioca            0
Milho (em grão)     0
Soja (em grão)      0
Tomate              0
Trigo (em grão)     0
dtype: int64

#### Análise de valores duplicados

In [48]:
producao.duplicated().sum()

0

#### Centralidade, dispersão e boxplot para cada alimento da cesta básica

In [49]:
producao.describe().round(2)

Unnamed: 0,Arroz,Café (em grão),Cana-de-açúcar,Feijão (em grão),Mandioca,Milho (em grão),Soja (em grão),Tomate,Trigo (em grão)
count,47.0,47.0,47.0,47.0,47.0,47.0,47.0,47.0,47.0
mean,10326226.04,2792463.06,397545900.0,2720224.36,23092518.74,41257250.0,42504270.0,2824882.79,3912155.32
std,1735004.69,649779.05,231530800.0,473004.79,2504254.13,24968210.0,33658500.0,1059247.07,1653151.46
min,6764038.0,751969.0,91524560.0,1580546.0,17593186.0,13569400.0,7876527.0,1049724.0,1533871.0
25%,9025959.0,2500516.5,241854500.0,2300276.5,21760870.5,21595130.0,15348300.0,1890457.5,2473352.0
50%,10419029.0,2737660.0,326121000.0,2808639.0,23464484.0,32321000.0,26392640.0,2717965.0,3292777.0
75%,11629787.5,3050224.0,668453200.0,3051184.0,24964168.5,53738240.0,58845140.0,3810625.0,5640247.5
max,13476994.0,4405416.0,768594200.0,3486763.0,26703039.0,103963600.0,121797700.0,4416652.0,6834421.0


In [50]:
producao_2.describe()

Unnamed: 0,Ano,Produçao
count,423.0,423.0
mean,1997.0,58552870.0
std,13.580722,143763700.0
min,1974.0,751969.0
25%,1985.0,2955353.0
50%,1997.0,10240310.0
75%,2009.0,26023550.0
max,2020.0,768594200.0


#### Boxplots

In [51]:
px.box(producao, title = 'Análise da disperção', labels = {'value': 'Produção (Toneladas)', 'variable' : 'Culturas'} )

#### Avaliando o crescimento histórico das culturas

In [52]:
fig = px.line(producao_2, title = 'Evolução da produção dos items da cesta básica ao longo dos anos (1974-2020)', x = 'Ano', y = 'Produçao', color = 'Item',  labels = {'value': 'Produção (Toneladas)', 'variable' : 'Culturas'} )
fig.update_layout(template = 'plotly_white')

In [53]:
fig = px.histogram(producao_2, x = 'Ano', y = 'Produçao', title='Histograma da produção por item da cesta básica ao longo dos anos (1974-2020)', color = 'Item',  labels = {'sum of Produção': 'Produção (Toneladas)', 'Item' : 'Culturas'}, nbins =150)
fig.update_layout(template = 'plotly_white')
fig.update_traces(texttemplate = '%{y:.2s}', textposition = 'outside')


#### Exploração inicial da POF - Pesquisa de Orçamentos familiares (2017-2018)
Aquisição alimentar per capita por classes de rendimento - 
<a href="https://sidra.ibge.gov.br/tabela/8157/">Tabela 8157 - Aquisição alimentar domiciliar per capita anual por classes de rendimento total variação patrimonial mensal familiar e grupos, subgrupos e produtos</a>

#### Legendas das classes de rendimento:
* Até 1.908 Reais: F
* Mais de 1.908 a 2.862 Reais: E
* Mais de 2.862 a 5.724 Reais: D
* Mais de 5.724 a 9.540 Reais: C
* Mais de 9.540 a 14.310 Reais: B
* Mais de 14.310 Reais: A

In [54]:
consumo = pd.read_excel('C:\dcc-fellowship-ciencia-de-dados\pof_rendimento_regiao_2.xlsx')

In [55]:
consumo = consumo.query('Items != "Feijão-mulatinho"')

In [56]:
consumo.loc[consumo['Items'].isin(['Feijão-preto','Feijão']),'Items']='Feijão'

In [57]:
consumo_2= pd.melt(consumo, id_vars=['Items', 'Região', 'Total']) 

In [58]:
consumo_2.head()

Unnamed: 0,Items,Região,Total,variable,value
0,Arroz polido,Brasil,18.22,Classe F,20.48
1,Arroz polido,Norte,17.94,Classe F,17.84
2,Arroz polido,Nordeste,20.33,Classe F,22.35
3,Arroz polido,Sudeste,17.05,Classe F,18.96
4,Arroz polido,Sul,14.7,Classe F,15.58


In [59]:
consumo_2.rename(columns = {'variable': 'Classe', 'value': 'Consumo (kg/ano)'}, inplace =  True)

In [60]:
consumo_2.head()

Unnamed: 0,Items,Região,Total,Classe,Consumo (kg/ano)
0,Arroz polido,Brasil,18.22,Classe F,20.48
1,Arroz polido,Norte,17.94,Classe F,17.84
2,Arroz polido,Nordeste,20.33,Classe F,22.35
3,Arroz polido,Sudeste,17.05,Classe F,18.96
4,Arroz polido,Sul,14.7,Classe F,15.58


Aquisição alimentar per capita por produtos - 2002, 2008, 2018.
<a href="https://sidra.ibge.gov.br/tabela/2393">Tabela 2393 - Aquisição alimentar domiciliar per capita anual por grupos, subgrupos e produtos</a>

In [61]:
consumo_medio_ano = pd.read_excel("C:\dcc-fellowship-ciencia-de-dados\pof_media_consumo_kg_ano1.xlsx")

In [62]:
consumo_medio_ano

Unnamed: 0,Item,2002,2008,2018
0,Arroz,31.58,26.5,19.76
1,Feijão,12.4,9.11,5.91
2,Farinha de mandioca,7.77,5.33,2.33
3,Farinha de trigo,5.08,3.4,2.23
4,Fubá de milho,3.19,2.3,1.28
5,Açúcar cristal,12.16,8.04,6.05
6,Molho de tomate,0.41,0.63,0.95
7,Óleo de soja,7.33,6.34,4.58
8,Cafés,2.67,2.59,2.56


In [63]:
fig = px.bar(consumo_medio_ano, x = 'Item', barmode= 'group', y = ['2002', '2008', '2018'], title = 'Consumo de alimentos nos anos de 2002, 2008, 2018', labels= {'Item': 'Alimentos', 'value': 'Consumo anual per capita (kg)' })
fig.show()

   #### Verificando o shape do dataframe 

In [64]:
consumo.shape

(54, 9)

In [65]:
consumo_medio_ano.shape

(9, 4)

#### Agrupamento por items e região com relação ao total e as classes

In [66]:
consumo_agrupado = consumo.groupby(['Items', 'Região']).mean()

In [67]:
consumo_agrupado.head(20)

Unnamed: 0_level_0,Unnamed: 1_level_0,Total,Classe F,Classe E,Classe D,Classe C,Classe B,Classe A
Items,Região,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Arroz polido,Brasil,18.22,20.48,20.28,18.8,14.86,15.57,12.4
Arroz polido,Centro-Oeste,24.07,27.03,32.29,24.8,21.73,18.18,12.88
Arroz polido,Nordeste,20.33,22.35,22.21,19.58,14.12,15.28,10.86
Arroz polido,Norte,17.94,17.84,19.64,16.94,18.65,16.49,15.87
Arroz polido,Sudeste,17.05,18.96,16.81,18.67,14.6,16.76,13.0
Arroz polido,Sul,14.7,15.58,19.33,15.77,12.16,11.29,10.46
Açúcar cristal,Brasil,6.05,6.27,6.68,6.64,5.62,4.15,3.49
Açúcar cristal,Centro-Oeste,7.89,9.15,9.35,7.3,8.22,5.85,6.77
Açúcar cristal,Nordeste,7.13,6.6,7.36,8.18,7.04,5.2,5.23
Açúcar cristal,Norte,5.81,5.14,5.96,5.66,7.97,5.92,7.44


#### Análise de valores nulos


In [68]:
consumo.isnull().sum()

Items       0
Região      0
Total       0
Classe F    0
Classe E    0
Classe D    0
Classe C    0
Classe B    0
Classe A    0
dtype: int64

### Centralidade, dispersão e boxplot 


In [69]:
consumo.describe()

Unnamed: 0,Total,Classe F,Classe E,Classe D,Classe C,Classe B,Classe A
count,54.0,54.0,54.0,54.0,54.0,54.0,54.0
mean,4.528148,4.761852,5.036111,4.639074,4.168333,3.838704,3.427593
std,5.63928,6.210909,6.712041,5.74721,4.9366,4.599125,3.692793
min,0.29,0.17,0.18,0.29,0.33,0.32,0.36
25%,0.975,0.875,0.9175,1.03,0.92,0.9675,1.0575
50%,2.315,2.195,2.44,2.175,2.175,2.04,2.21
75%,5.3925,5.71,5.9475,5.635,5.1925,4.195,3.7525
max,24.07,27.03,32.29,24.8,21.73,18.18,15.87


#### Separando o dataframe por região


In [70]:
consumo_nordeste = consumo.query("Região == 'Nordeste'").sort_values(['Classe A', 'Classe B', 'Classe C', 'Classe D', 'Classe E'], ascending = False)
consumo_centro_oeste = consumo.query("Região == 'Centro-Oeste'").sort_values(['Classe A', 'Classe B', 'Classe C', 'Classe D', 'Classe E'], ascending = False)
consumo_norte = consumo.query("Região == 'Norte'").sort_values(['Classe A', 'Classe B', 'Classe C', 'Classe D', 'Classe E'], ascending = False)
consumo_sul = consumo.query("Região == 'Sul'").sort_values(['Classe A', 'Classe B', 'Classe C', 'Classe D', 'Classe E'], ascending = False)
consumo_sudeste = consumo.query("Região == 'Sudeste'").sort_values(['Classe A', 'Classe B', 'Classe C', 'Classe D', 'Classe E'], ascending = False)
consumo_brasil = consumo.query("Região == 'Brasil'").sort_values(['Classe A', 'Classe B', 'Classe C', 'Classe D', 'Classe E'], ascending = False)

#### Dentre os alimentos da cesta básica, qual o mais consumido por região e classe?

* Região nordeste

In [71]:
fig = px.bar(consumo_nordeste, x = 'Items', barmode= 'group', y = ['Classe A', 'Classe B', 'Classe C', 'Classe D', 'Classe E'], title = 'Consumo de alimentos por classe na regiao NORDESTE', labels= {'Items': 'Alimentos', 'value': 'Consumo anual per capita (kg)' })
fig.show()

* Região Norte

In [72]:
fig = px.bar(consumo_norte, barmode = 'group', x = 'Items', y = ['Classe A', 'Classe B', 'Classe C', 'Classe D', 'Classe E'], title = 'Consumo de alimentos por classe na regiao NORTE', labels= {'Items': 'Alimentos', 'value': 'Consumo anual per capita (kg)' })
fig.show()

* Região Centro-Oeste

In [73]:
fig = px.bar(consumo_norte, barmode = 'group', x = 'Items', y = ['Classe A', 'Classe B', 'Classe C', 'Classe D', 'Classe E'], title = 'Consumo de alimentos por classe na regiao CENTRO-OESTE', labels= {'Items': 'Alimentos', 'value': 'Consumo anual per capita (kg)' })
fig.show()

* Região Sul 

In [74]:
fig = px.bar(consumo_sul, barmode = 'group', x = 'Items', y = ['Classe A', 'Classe B', 'Classe C', 'Classe D', 'Classe E'], title = 'Consumo de alimentos por classe na regiao SUL', labels= {'Items': 'Alimentos', 'value': 'Consumo anual per capita (kg)' })
fig.show()


* Região Sudeste

In [75]:
fig = px.bar(consumo_sudeste, barmode = 'group', x = 'Items', y = ['Classe A', 'Classe B', 'Classe C', 'Classe D', 'Classe E'], title = 'Consumo de alimentos por classe na regiao SUDESTE', labels= {'Items': 'Alimentos', 'value': 'Consumo anual per capita (kg)' })
fig.show()


* Brasil

In [76]:
fig = px.bar(consumo_brasil, barmode = 'group', x = 'Items', y = ['Classe A', 'Classe B', 'Classe C', 'Classe D', 'Classe E'], title = 'Consumo de alimentos por classe na regiao BRASIL', labels= {'Items': 'Alimentos', 'value': 'Consumo anual per capita (kg)' })
fig.show()