### 1. Utilit√°rios

In [1]:
import pandas as pd
import os

In [2]:
# Lista de 3 valores:
# Caminho dos arquivo no diret√≥rio. (str)
# Nome para Dataframe. (str)
# Nome para subtituir coluna "Total" de cada arquivo. (str)
dados = [
    (os.path.join("..", "√Årea de Culturas Permanentes (hectares)", "√Årea colhida permanente 1999-2020.csv"), "df_permanente", "Culturas P. Colhidas (hec)"),
    (os.path.join("..", "Producao-Milhos", "Produ√ß√£o - milho(R$).xls"), "df_milho", "Producao de Milho (R$)"),
    (os.path.join("..", "Producao-Soja", "Produ√ß√£o - soja (R$).csv"), "df_soja", "Producao de Soja (R$)"),
    (os.path.join("..", "Despesa Or√ßament√°ria (R$)", "Despesa por fun√ß√£o - gest√£o ambiental, agricultura e organiza√ß√£o agr√°ria - empenhada - estadual.xls"), "df_despesa", "Despesa Or√ßament√°ria (R$)"),
    (os.path.join("..", "Focos de Incendio", "firefoci.csv"), "df_incendio", "Focos de Inc√™ndio"),
    (os.path.join("..", "√Årea de Culturas Tempor√°rias (hectares)", "√Årea colhida tempor√°ria 1999-2020.csv"), "df_temporaria", "Culturas T. Colhidas (hec)"),
    (os.path.join("..", "√Årea Plantada ou Colhida (hectares)", "√Årea plantada ou destinada √† colheita - total.xls"), "df_plantada_colhida", "√Årea Plantada ou Colhida (hec)"),
    (os.path.join("..", "PIB", "PIB 1999-2020.csv"), "df_pib", "PIB Estadual"),
    (os.path.join("..", "Valor da Produ√ß√£o Agr√≠cola (R$)", "Valor de Produ√ß√£o 1999-2020.csv"), "df_producao", "PIB Agr√≠cula Estadual") 
]

# Lista dos estados que queremos filtrar
estados = ["Acre", "Amazonas", "Amap√°", "Maranh√£o", "Par√°", "Roraima", "Tocantins", "Rond√¥nia", "Mato Grosso"] 

# Lista de anos como strings
anos_str = [str(year) for year in range(1999, 2021)]

### 2. Pr√©-processamento

O objetivo final √© unir os valores anuais de 1999 a 2020 de cada vari√°vel estadual dos 9 estados da regi√£o em uma tabela √∫nica, para futura implementa√ß√£o de um algoritmo de machine learning.

In [3]:
for arquivo, nome_df, coluna in dados:
    try:
        # Ler arquivos .csv com separador ',', se n√£o, ler arquivo .xls
        try:
            df = pd.read_csv(arquivo, sep=",")
        except:
            df = pd.read_excel(arquivo)

        # Normalizar os nomes das colunas (remover espa√ßos extras)
        df.columns = df.columns.str.strip()

        # Configurar Pandas para exibir n√∫meros inteiros completos
        pd.options.display.float_format = '{:.2f}'.format
        
        # Remover colunas "C√≥digo" e "Sigla", se existirem
        colunas_para_remover = [col for col in ["Codigo", "C√≥digo", "Sigla"] if col in df.columns]
        if colunas_para_remover:
            df = df.drop(columns=colunas_para_remover)
            print(f"üóëÔ∏è Colunas removidas de {nome_df}: {colunas_para_remover}")

        # Filtrar os estados desejados
        if "Estado" in df.columns:
            df = df[df["Estado"].isin(estados)]
            print(f"üåé Filtrados apenas os estados desejados em {nome_df}")

        # Armazenar na vari√°vel correta
        globals()[nome_df] = df
        print(f"‚úî {arquivo} carregado como {nome_df}")
        
    except Exception as e:
        print(f"Erro ao ler {arquivo}: {e}")

# Exibir quais DataFrames foram carregados
print("\nüìÇ DataFrames dispon√≠veis:", list(nome_df for _, nome_df, _ in dados))

üóëÔ∏è Colunas removidas de df_permanente: ['Codigo', 'Sigla']
üåé Filtrados apenas os estados desejados em df_permanente
‚úî ..\√Årea de Culturas Permanentes (hectares)\√Årea colhida permanente 1999-2020.csv carregado como df_permanente
üóëÔ∏è Colunas removidas de df_milho: ['Codigo', 'Sigla']
üåé Filtrados apenas os estados desejados em df_milho
‚úî ..\Producao-Milhos\Produ√ß√£o - milho(R$).xls carregado como df_milho
üóëÔ∏è Colunas removidas de df_soja: ['Sigla']
üåé Filtrados apenas os estados desejados em df_soja
‚úî ..\Producao-Soja\Produ√ß√£o - soja (R$).csv carregado como df_soja
üóëÔ∏è Colunas removidas de df_despesa: ['Codigo', 'Sigla']
üåé Filtrados apenas os estados desejados em df_despesa
‚úî ..\Despesa Or√ßament√°ria (R$)\Despesa por fun√ß√£o - gest√£o ambiental, agricultura e organiza√ß√£o agr√°ria - empenhada - estadual.xls carregado como df_despesa
‚úî ..\Focos de Incendio\firefoci.csv carregado como df_incendio
üóëÔ∏è Colunas removidas de df_temporaria: ['C√≥

##### 3. Transforma√ß√£o formato Wide para Long

Os DataFrames est√£o no formato longo, com 22 colunas representando os anos de 1999 a 2020, exceto no Data frame "Focos de inc√™ndio", em que as colunas representam os 9 estados.
A fun√ß√£o .melt() permite transformar essas colunas em linhas, facilitando a an√°lise e manipula√ß√£o dos dados.

In [4]:
df_incendio.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 22 entries, 0 to 21
Data columns (total 10 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Ano          22 non-null     int64  
 1   Acre         22 non-null     float64
 2   Amap√°        22 non-null     float64
 3   Amazonas     22 non-null     float64
 4   Maranh√£o     22 non-null     float64
 5   Mato Grosso  22 non-null     float64
 6   Par√°         22 non-null     float64
 7   Rond√¥nia     22 non-null     float64
 8   Roraima      22 non-null     float64
 9   Tocantins    22 non-null     float64
dtypes: float64(9), int64(1)
memory usage: 1.8 KB


In [5]:
for arquivo, nome_df, coluna in dados:
    df = globals()[nome_df]
    try:
        df = df.melt(id_vars=['Estado'], value_vars=anos_str, var_name='Ano', value_name= f'{coluna}')
    except:
        #altera√ß√µes df_incendio
        df["Ano"] = df['Ano'].astype(str)
        df = df.melt(id_vars=["Ano"], value_vars=estados, var_name="Estado", value_name= f'{coluna}')
    globals()[nome_df] = df

In [6]:
df_incendio.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 198 entries, 0 to 197
Data columns (total 3 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Ano                198 non-null    object 
 1   Estado             198 non-null    object 
 2   Focos de Inc√™ndio  198 non-null    float64
dtypes: float64(1), object(2)
memory usage: 4.8+ KB


##### 3. Merge do DataFrame final

In [7]:
df_geral = df_permanente.merge(df_milho, how='outer', on=["Ano", "Estado"])\
                            .merge(df_soja, how='outer', on=["Ano", "Estado"] )\
                            .merge(df_despesa, how='outer', on=["Ano", "Estado"])\
                            .merge(df_temporaria, how='outer', on=["Ano", "Estado"])\
                            .merge(df_plantada_colhida, how='outer', on=["Ano", "Estado"])\
                            .merge(df_pib, how='outer', on=["Ano", "Estado"])\
                            .merge(df_producao, how='outer', on=["Ano", "Estado"])\
                            .merge(df_incendio, how='outer', on=["Ano", "Estado"])
df_geral

Unnamed: 0,Estado,Ano,Culturas P. Colhidas (hec),Producao de Milho (R$),Producao de Soja (R$),Despesa Or√ßament√°ria (R$),Culturas T. Colhidas (hec),√Årea Plantada ou Colhida (hec),PIB Estadual,PIB Agr√≠cula Estadual,Focos de Inc√™ndio
0,Acre,1999,9864,18904.94,135.89,16480351.00,81922,91787,1866542.32,280900.59,347.00
1,Amap√°,1999,1283,663.59,,2869221.75,6903,8235,2128307.03,54019.05,101.00
2,Amazonas,1999,61397,12572.44,875.29,17685970.41,150055,213964,13933920.08,623336.20,1048.00
3,Maranh√£o,1999,28896,96560.50,243966.36,15239850.98,1130797,1180275,10308256.16,1174349.20,8712.00
4,Mato Grosso,1999,91480,287455.01,3470093.09,43232165.00,4259560,4445242,12364904.96,6462377.66,44307.00
...,...,...,...,...,...,...,...,...,...,...,...
193,Mato Grosso,2020,37589,10090285.97,22939332.03,555308252.18,17149919,17188641,178649564.00,41799931.48,47708.00
194,Par√°,2020,651600,346956.98,1428548.90,380705994.45,1310866,1968093,215935604.00,7981858.68,38603.00
195,Rond√¥nia,2020,83545,396740.36,884772.42,210685707.64,721826,813919,51598741.00,2196163.25,11145.00
196,Roraima,2020,10007,47137.95,162262.75,67296396.75,84045,94052,16024276.00,422452.65,1930.00


##### 4. Normaliza√ß√£o por √°rea

Ajustar os valores de cada registro de acordo com a extens√£o territorial de seu respectivo estado

In [None]:
arquivo_area = os.path.join("Extens√£o Territorial", "IBGE_area_geografica_98-22.csv")
df_area = pd.read_csv(arquivo_area, sep=";", skiprows=1)

In [9]:
df_area

Unnamed: 0,Sigla,C√≥digo,Estado,1998,2000,2010,2013,2014,2015,2016,2017,2018,2019,2020,2021,2022,Unnamed: 16
0,AC,12,Acre,1531499,1525219,16412304,164123739,164123739,164123712,164123737,164123737,164123738,164123964,164173431,164173431,164173431,
1,AL,27,Alagoas,279331,278189,27778506,27774993,27848003,27848158,2784814,2784814,27843295,27843295,27830656,27830657,27830657,
2,AM,13,Amazonas,15778202,15709471,1559159148,1559148889,155914889,1559149074,1559146876,1559146876,1559168117,1559167889,1559167878,1559167879,1559255883,
3,AP,16,Amap√°,1434537,1428158,142828521,14282852,14282852,142828523,142828521,142828521,142470762,142470762,142470762,142470762,142470762,
4,BA,29,Bahia,5672953,5642723,564733177,564733081,564733081,564732642,56473245,56473245,564722611,564760427,564760427,564760427,564760426,
5,CE,23,Cear√°,1463483,1457123,148920472,148886308,148886308,148887632,148887633,148887633,148894757,148894441,148894442,148894441,148894441,
6,DF,53,Distrito Federal,58221,58019,5779999,5779999,5779999,5779999,5779997,5779997,5760783,5760783,5760784,5760784,5760784,
7,ES,32,Esp√≠rito Santo,461841,460472,46095583,46095299,46096925,4608939,46086907,46086907,46074444,46074447,46074447,46074447,46074447,
8,GO,52,Goi√°s,3412895,3401188,340111783,340111376,340111376,340110385,340106492,340106492,340125715,340203329,340242854,340242859,340242858,
9,MA,21,Maranh√£o,3333656,3319186,33193745,331936948,331936948,331936955,331936949,331936949,32964217,329642182,329651495,329651495,329651495,


In [None]:
#Seleciona os estados de interesse
df_area = df_area.query("@estados in Estado")

#Seleciona os dados mais recentes (2022)
df_area22 = df_area[["Estado", "Area"]]
df_area22

Unnamed: 0,Estado,2022
0,Acre,164173431
2,Amazonas,1559255883
3,Amap√°,142470762
9,Maranh√£o,329651495
12,Mato Grosso,903208362
13,Par√°,1240882471
20,Rond√¥nia,237754173
21,Roraima,223644527
26,Tocantins,277423631


teste

In [None]:
df_com_area = df_geral.merge(df_area22, how='outer', on=["Estado"])
df_com_area

Unnamed: 0,Estado,Ano,Culturas P. Colhidas (hec),Producao de Milho (R$),Producao de Soja (R$),Despesa Or√ßament√°ria (R$),Culturas T. Colhidas (hec),√Årea Plantada ou Colhida (hec),PIB Estadual,PIB Agr√≠cula Estadual,Focos de Inc√™ndio,2022
0,Acre,1999,9864,18904.94,135.89,16480351.00,81922,91787,1866542.32,280900.59,347.00,164173431
1,Acre,2000,11194,24988.62,,28832578.47,93973,105167,2154284.48,313604.57,430.00,164173431
2,Acre,2001,10652,20954.80,,23410698.78,91928,102604,2475169.50,239926.84,829.00,164173431
3,Acre,2002,13487,29299.78,,41052040.32,90418,113139,2971301.00,269826.59,6739.00,164173431
4,Acre,2003,14160,35786.63,,38074672.00,95655,113362,3377234.00,305032.27,10523.00,164173431
...,...,...,...,...,...,...,...,...,...,...,...,...
193,Tocantins,2016,4572,205070.37,1220868.41,218469173.36,1195553,1232549,31584816.00,2109560.61,14494.00,277423631
194,Tocantins,2017,4083,229747.15,1397605.34,227070044.04,1278379,1282545,34108132.00,2274246.75,15673.00,277423631
195,Tocantins,2018,13046,232523.41,1530335.31,231303102.81,1348373,1361447,35666183.00,2512067.49,8033.00,277423631
196,Tocantins,2019,13704,298800.31,1575215.24,253891184.06,1413202,1427218,39355941.00,2678345.23,13625.00,277423631


In [None]:
df_geral.to_csv("tabela_geral", index = False, encoding="utf-8")
path = os.getcwd()

print("üìÇ Dataframe salvo em: ", path) 