### DCC - Sirius Education

#### Exploração inicial
Abaixo foram feitas explorações iniciais nos dois datasets escolhidos pelo grupo

* Produção Municipal Agrícola [(PAM)](https://sidra.ibge.gov.br/tabela/5457)
* Pesquisa de Orçamentos Familiares [(POF)](https://www.ibge.gov.br/estatisticas/sociais/saude/24786-pesquisa-de-orcamentos-familiares-2.html?=&t=resultados)

#### Imports

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import plotly.express as px

#### Exploração inicial da PAM - Produção Agrícola Municipal (1974 - 2020)



<a href="https://sidra.ibge.gov.br/tabela/5457">Tabela 5457 - Área plantada ou destinada à colheita, área colhida, quantidade produzida, rendimento médio e valor da produção das lavouras temporárias e permanente</a>

In [None]:
producao = pd.read_excel('C:\dcc-fellowship-ciencia-de-dados\pam_alimentos_cesta.xlsx', index_col='Ano')
producao.shape

In [None]:
producao.head(3)

In [None]:
producao_2 = pd.read_excel('C:\dcc-fellowship-ciencia-de-dados\pam.xlsx')

In [None]:
producao_2.head()

#### Verificando o shape do dataframe

In [None]:
producao.shape

In [None]:
producao_2.shape

#### Análise de valores nulos

In [None]:
producao.isnull().sum()

#### Análise de valores duplicados

In [None]:
producao.duplicated().sum()

#### Centralidade, dispersão e boxplot para cada alimento da cesta básica

In [None]:
producao.describe().round(2)

In [None]:
producao_2.describe()

#### Boxplots

In [None]:
px.box(producao, title = 'Análise da disperção', labels = {'value': 'Produção (Toneladas)', 'variable' : 'Culturas'} )

#### Avaliando o crescimento histórico das culturas

In [None]:
fig = px.line(producao_2, title = 'Evolução da produção dos items da cesta básica ao longo dos anos (1974-2020)', x = 'Ano', y = 'Produçao', color = 'Item',  labels = {'value': 'Produção (Toneladas)', 'variable' : 'Culturas'} )
fig.update_layout(template = 'plotly_white')

fig.update_layout(
    font_family="Helvetica",
    font_color="black",
    title_font_family="Helvetica",
    title_font_color="black",
    legend_title_font_color="black")

In [None]:
fig = px.histogram(producao_2, x = 'Ano', y = 'Produçao', title='Histograma da produção por item da cesta básica ao longo dos anos (1974-2020)', color = 'Item',  labels = {'sum of Produção': 'Produção (Toneladas)', 'Item' : 'Culturas'}, nbins =150)
fig.update_layout(template = 'plotly_white')
fig.update_traces(texttemplate = '%{y:.2s}', textposition = 'outside')


#### Exploração inicial da POF - Pesquisa de Orçamentos familiares (2017-2018)
Aquisição alimentar per capita por classes de rendimento - 
<a href="https://sidra.ibge.gov.br/tabela/8157/">Tabela 8157 - Aquisição alimentar domiciliar per capita anual por classes de rendimento total variação patrimonial mensal familiar e grupos, subgrupos e produtos</a>

#### Legendas das classes de rendimento:
* Até 1.908 Reais: F
* Mais de 1.908 a 2.862 Reais: E
* Mais de 2.862 a 5.724 Reais: D
* Mais de 5.724 a 9.540 Reais: C
* Mais de 9.540 a 14.310 Reais: B
* Mais de 14.310 Reais: A

In [None]:
consumo = pd.read_excel("C:\dcc-fellowship-ciencia-de-dados\pof_rendimento_regiao_2_copia.xlsx")

Aquisição alimentar per capita por produtos - 2002, 2008, 2018.
<a href="https://sidra.ibge.gov.br/tabela/2393">Tabela 2393 - Aquisição alimentar domiciliar per capita anual por grupos, subgrupos e produtos</a>

In [None]:
consumo_medio_ano = pd.read_excel("C:\dcc-fellowship-ciencia-de-dados\pof_media_consumo_kg_ano1.xlsx")

In [None]:
consumo_medio_ano

In [None]:
fig = px.bar(consumo_medio_ano, x = 'Item', barmode= 'group', y = ['2002', '2008', '2018'], title = 'Consumo de alimentos nos anos de 2002, 2008, 2018', labels= {'Item': 'Alimentos', 'value': 'Consumo anual per capita (kg)' })
fig.show()

   #### Verificando o shape do dataframe 

In [None]:
consumo.shape

In [None]:
consumo_medio_ano.shape

#### Agrupamento por items e região com relação ao total e as classes

In [None]:
consumo_agrupado = consumo.groupby(['Items', 'Região']).mean()

In [None]:
consumo_agrupado.head(20)

#### Análise de valores nulos


In [None]:
consumo.isnull().sum()

### Centralidade, dispersão e boxplot 


In [None]:
consumo.describe()

#### Separando o dataframe por região


In [None]:
consumo_nordeste = consumo.query("Região == 'Nordeste'").sort_values(['Classe A', 'Classe B', 'Classe C', 'Classe D', 'Classe E', 'Classe F'], ascending = False)
consumo_centro_oeste = consumo.query("Região == 'Centro-Oeste'").sort_values(['Classe A', 'Classe B', 'Classe C', 'Classe D', 'Classe E', 'Classe F'], ascending = False)
consumo_norte = consumo.query("Região == 'Norte'").sort_values(['Classe A', 'Classe B', 'Classe C', 'Classe D', 'Classe E', 'Classe F'], ascending = False)
consumo_sul = consumo.query("Região == 'Sul'").sort_values(['Classe A', 'Classe B', 'Classe C', 'Classe D', 'Classe E', 'Classe F'], ascending = False)
consumo_sudeste = consumo.query("Região == 'Sudeste'").sort_values(['Classe A', 'Classe B', 'Classe C', 'Classe D', 'Classe E','Classe F'],  ascending = False)
consumo_brasil = consumo.query("Região == 'Brasil'").sort_values(['Classe A', 'Classe B', 'Classe C', 'Classe D', 'Classe E', 'Classe F'], ascending = False)

#### Dentre os alimentos da cesta básica, qual o mais consumido por região e classe?

* Região nordeste

In [None]:
fig = px.bar(consumo_nordeste, x = 'Items', barmode= 'group', y = ['Classe A', 'Classe B', 'Classe C', 'Classe D', 'Classe E', 'Classe F'], title = 'Consumo de alimentos por classe na regiao NORDESTE', labels= {'Items': 'Alimentos', 'value': 'Consumo anual per capita (kg)' })
fig.show()

* Região Norte

In [None]:
fig = px.bar(consumo_norte, barmode = 'group', x = 'Items', y = ['Classe A', 'Classe B', 'Classe C', 'Classe D', 'Classe E', 'Classe F'], title = 'Consumo de alimentos por classe na regiao NORTE', labels= {'Items': 'Alimentos', 'value': 'Consumo anual per capita (kg)' })
fig.show()

* Região Centro-Oeste

In [None]:
fig = px.bar(consumo_norte, barmode = 'group', x = 'Items', y = ['Classe A', 'Classe B', 'Classe C', 'Classe D', 'Classe E', 'Classe F'], title = 'Consumo de alimentos por classe na regiao CENTRO-OESTE', labels= {'Items': 'Alimentos', 'value': 'Consumo anual per capita (kg)' })
fig.show()

* Região Sul 

In [None]:
fig = px.bar(consumo_sul, barmode = 'group', x = 'Items', y = ['Classe A', 'Classe B', 'Classe C', 'Classe D', 'Classe E', 'Classe F'], title = 'Consumo de alimentos por classe na regiao SUL', labels= {'Items': 'Alimentos', 'value': 'Consumo anual per capita (kg)' })
fig.show()


* Região Sudeste

In [None]:
fig = px.bar(consumo_sudeste, barmode = 'group', x = 'Items', y = ['Classe A', 'Classe B', 'Classe C', 'Classe D', 'Classe E', 'Classe F'], title = 'Consumo de alimentos por classe na regiao SUDESTE', labels= {'Items': 'Alimentos', 'value': 'Consumo anual per capita (kg)' })
fig.show()


* Brasil

In [None]:
fig = px.bar(consumo_brasil, barmode = 'group', x = 'Items', y = ['Classe A', 'Classe B', 'Classe C', 'Classe D', 'Classe E', 'Classe F'], title = 'Consumo de alimentos por classe na regiao BRASIL', labels= {'Items': 'Alimentos', 'value': 'Consumo anual per capita (kg)' })
fig.update_layout(template = 'plotly_white')
fig.show()

fig.update_layout(
    font_family="Helvetica",
    font_color="black",
    title_font_family="Helvetica",
    title_font_color="black",
    legend_title_font_color="black")

Comparando as razões de prod/demanda de 2018 e 2030

In [None]:
df = pd.read_excel("C:\dcc-fellowship-ciencia-de-dados\inal results.xlsx")

In [None]:
fig = px.bar(df, x = 'Item', y = ['Razão da produção pela manda (2018)', 'Razão da produção pela demanda (2030)'], labels= {'value': 'Produção/Demanda' }, barmode = 'group')

fig.update_layout(
    font_family="Helvetica",
    font_color="black",
    title_font_family="Helvetica",
    title_font_color="black",
    legend_title_font_color="black")
fig.show()