# Project Setup and Data Loading

In [1]:
import pandas as pd
import numpy as np
import os
import math

In [2]:
performance_data_path = "./performance_data"
councils_path = os.path.join(performance_data_path, 'councils.csv')
mp_path = os.path.join(performance_data_path, 'management_plans.csv')
fires_path = os.path.join(performance_data_path, 'fires.csv')
visitation_sede_path = os.path.join(performance_data_path, 'visitation_cadastral_uc.csv')
visitation_total_mes_path = os.path.join(performance_data_path, 'visitation_dados_visitacao.csv')

In [3]:
performance_data_cols = ['council_status',
                        'council_creation_year',
                        'pa_creation_year_cmi',
                        'reg_coord_2021',
                        'munis_covered_cmi',
                        'biome_cmi',
                        'mp_cmi',
                        'mp_creation_year_cmi',
                        'mp_in_progress',
                        'mp_revised',
                        'management_muni_cmi',
                        'management_state_cmi',
                        'visitors',
                        'area_burned']

In [4]:
dict1 = {"CNUCA": [4, "PA", 0, ["name1", "name2", "name3"]],
        "CNUCB": [7, "PA", 1, ["name1", "name2", "name3"]],
        "CNUCC": [9, "PA", 0, ["name1", "name2", "name3"]]}
pd.DataFrame.from_dict(dict1, orient='index', columns=performance_data_cols[:4])

Unnamed: 0,council_status,council_creation_year,pa_creation_year_cmi,reg_coord_2021
CNUCA,4,PA,0,"[name1, name2, name3]"
CNUCB,7,PA,1,"[name1, name2, name3]"
CNUCC,9,PA,0,"[name1, name2, name3]"


In [5]:
dict1["CNUCA"].append("Hello")
dict1

{'CNUCA': [4, 'PA', 0, ['name1', 'name2', 'name3'], 'Hello'],
 'CNUCB': [7, 'PA', 1, ['name1', 'name2', 'name3']],
 'CNUCC': [9, 'PA', 0, ['name1', 'name2', 'name3']]}

In [6]:
dict1["CNUCA"][2]=4000
dict1

{'CNUCA': [4, 'PA', 4000, ['name1', 'name2', 'name3'], 'Hello'],
 'CNUCB': [7, 'PA', 1, ['name1', 'name2', 'name3']],
 'CNUCC': [9, 'PA', 0, ['name1', 'name2', 'name3']]}

In [7]:
council_df_cols = ['Código CNUC',
                   'Nome da UC',
                   'Situação do Conselho\n(Instituído / Em formação / Inexistente)',
                   'Ano de instituição do Conselho\n(ano / NA)']
council_df = pd.read_csv(councils_path, encoding='latin-1', usecols=council_df_cols)
council_df.head()

Unnamed: 0,Código CNUC,Nome da UC,Situação do Conselho\n(Instituído / Em formação / Inexistente),Ano de instituição do Conselho\n(ano / NA)
0,0000.00.0001,APA Anhatomirim,Instituído,2008.0
1,0000.00.1521,APA Bacia Hidrográfica do Rio Paraíba do Sul,Em formação,
2,0000.00.0007,APA Barra do Rio Mamanguape,Instituído,2005.0
3,0000.00.0020,APA Carste da Lagoa Santa,Instituído,2005.0
4,0000.00.0002,APA Cavernas do Peruaçu,Instituído,2004.0


In [8]:
mp_df_cols = ['Código CNUC',
              'Nome da UC',
              'Ano de criação',
              'Coordenação Regional do ICMBio',
              'Municípios sobrepostos',
              'Bioma referencial (CGFUN)',
              'A UC possui plano de manejo (Sim / Não)',
              'Ano de elaboração do plano de manejo',
              'O plano de manejo está em elaboração? (Sim / Não / NA)',
              'O plano de manejo foi revisado? (Sim / Não / NA)',
             ]
mp_df = pd.read_csv(mp_path, encoding='latin-1', usecols=mp_df_cols)
mp_df.head()

Unnamed: 0,Código CNUC,Nome da UC,Ano de criação,Coordenação Regional do ICMBio,Municípios sobrepostos,Bioma referencial (CGFUN),A UC possui plano de manejo (Sim / Não),Ano de elaboração do plano de manejo,O plano de manejo está em elaboração? (Sim / Não / NA),O plano de manejo foi revisado? (Sim / Não / NA)
0,0000.00.0001,APA Anhatomirim,1992,CR9 Florianópolis/SC,Governador Celso Ramos,Marinho-Costeiro,Sim,2013.0,,Não
1,0000.00.0002,APA Cavernas do Peruaçu,1989,CR11 Lagoa Santa/MG,"Bonito de Minas, Cônego Marinho, Januária, Ita...",Cerrado,Não,,Não,
2,0000.00.0003,APA da Bacia do Rio Descoberto,1983,CR11 Lagoa Santa/MG,"Brasília, Águas Lindas de Goiás, Padre Bernardo",Cerrado,Sim,2014.0,,Não
3,0000.00.0004,APA da Bacia do Rio São Bartolomeu,1983,CR11 Lagoa Santa/MG,Brasília,Cerrado,Não,,Não,
4,0000.00.0005,APA da Bacia do Rio São João - Mico-Leão-Dourado,2002,CR8 Rio de Janeiro/RJ,"Silva Jardim, Cachoeiras de Macacu, Rio Bonito...",Mata Atlântica,Sim,2008.0,,Não


In [9]:
fires_cols = ['Código CNUC',
              'Nome da UC',
              'Área queimada em 2012',
             'Área queimada em 2013',
             'Área queimada em 2014',
             'Área queimada em 2015',
             'Área queimada em 2016',
             'Área queimada em 2017']
fires_df = pd.read_csv(fires_path, encoding='latin-1', usecols=fires_cols)
fires_df.head()

Unnamed: 0,Código CNUC,Nome da UC,Área queimada em 2017,Área queimada em 2016,Área queimada em 2015,Área queimada em 2014,Área queimada em 2013,Área queimada em 2012
0,0000.00.0001,APA Anhatomirim,,,,,,
1,0000.00.1521,APA Bacia Hidrográfica do Rio Paraíba do Sul,182.1,,,,,
2,0000.00.0007,APA Barra do Rio Mamanguape,,,,,,
3,0000.00.0020,APA Carste da Lagoa Santa,,,,,,
4,0000.00.0002,APA Cavernas do Peruaçu,260.7,,,,,


In [10]:
visitation_sede_cols = ['cnuc',
                       'uc',
                       'sede_município-uf',
                       'sede_UF']
visitation_sede_df = pd.read_csv(visitation_sede_path, encoding = 'latin-1', usecols=visitation_sede_cols)
visitation_sede_df=visitation_sede_df.rename(columns={"cnuc":"Código CNUC", "uc":"Nome da UC"})
visitation_sede_df.head()

Unnamed: 0,Nome da UC,Código CNUC,sede_município-uf,sede_UF
0,ARIE Seringal Nova Esperança,0000.00.0044,Rio Branco/AC,Acre
1,ESEC Rio Acre,0000.00.0068,Brasiléia/AC,Acre
2,FLONA de Santa Rosa do Purus,0000.00.0107,Rio Branco/AC,Acre
3,FLONA de São Francisco,0000.00.0108,Sena Madureira/AC,Acre
4,FLONA do Macauã,0000.00.0120,Sena Madureira/AC,Acre


In [11]:
visitation_total_mes_cols = ['cnuc',
                            'uc',
                            'mes_ano',
                            'total_mes']
visitation_total_mes_df = pd.read_csv(visitation_total_mes_path, encoding='latin-1', usecols=visitation_total_mes_cols)
visitation_total_mes_df=visitation_total_mes_df.rename(columns={"cnuc":"Código CNUC", "uc":"Nome da UC"})
visitation_total_mes_df.head()

Unnamed: 0,Código CNUC,Nome da UC,mes_ano,total_mes
0,0000.00.0001,APA Anhatomirim,31/01/15,45810
1,0000.00.0001,APA Anhatomirim,28/02/15,28870
2,0000.00.0001,APA Anhatomirim,31/03/15,16023
3,0000.00.0001,APA Anhatomirim,30/04/15,10152
4,0000.00.0001,APA Anhatomirim,31/05/15,2134


In [12]:
def proper_CNUC(df, PA):
    return df.loc[df["Nome da UC"]==PA, "Código CNUC"].iloc[0]

In [13]:
correct_CNUCs = []
for idx, row in council_df.iterrows():
    PA = row[1]
    correct_CNUCs.append(proper_CNUC(mp_df, PA))
correct_CNUCs = np.array(correct_CNUCs)

In [14]:
council_df["Código CNUC"] = correct_CNUCs
council_df.tail()

Unnamed: 0,Código CNUC,Nome da UC,Situação do Conselho\n(Instituído / Em formação / Inexistente),Ano de instituição do Conselho\n(ano / NA)
329,0000.00.3432,REVIS do Arquipélago de Alcatrazes,Instituído,2016.0
330,0000.00.1813,REVIS do Rio dos Frades,Instituído,2011.0
331,0000.00.0278,REVIS dos Campos de Palmas,Instituído,2011.0
332,0000.00.0190,REVIS Ilha dos Lobos,Instituído,2016.0
333,0000.00.3694,RVS da Ararinha Azul,Inexistente,


# Creating Data Skeleton

In [15]:
council_CNUC_arr = list(council_df['Código CNUC'])
len(council_CNUC_arr)

334

In [16]:
mp_CNUC_arr = list(mp_df['Código CNUC'])
len(mp_CNUC_arr)

334

In [17]:
arr = np.setdiff1d(mp_CNUC_arr, council_CNUC_arr)
arr

array([], dtype='<U12')

In [18]:
master_df = pd.DataFrame(correct_CNUCs, columns=["CNUC"])
master_df.head()

Unnamed: 0,CNUC
0,0000.00.0001
1,0000.00.1521
2,0000.00.0007
3,0000.00.0020
4,0000.00.0002


In [19]:
master_df.shape

(334, 1)

In [20]:
PAs = []
for CNUC in master_df["CNUC"]:
    mp_PA = mp_df.loc[mp_df["Código CNUC"]==CNUC, "Nome da UC"].iloc[0]
    council_PA = council_df.loc[council_df["Código CNUC"]==CNUC, "Nome da UC"].iloc[0]
    assert mp_PA==council_PA
    PAs.append(mp_PA)
PAs = np.array(PAs)

In [21]:
master_df["PA"]=PAs
master_df

Unnamed: 0,CNUC,PA
0,0000.00.0001,APA Anhatomirim
1,0000.00.1521,APA Bacia Hidrográfica do Rio Paraíba do Sul
2,0000.00.0007,APA Barra do Rio Mamanguape
3,0000.00.0020,APA Carste da Lagoa Santa
4,0000.00.0002,APA Cavernas do Peruaçu
...,...,...
329,0000.00.3432,REVIS do Arquipélago de Alcatrazes
330,0000.00.1813,REVIS do Rio dos Frades
331,0000.00.0278,REVIS dos Campos de Palmas
332,0000.00.0190,REVIS Ilha dos Lobos


In [22]:
def create_multiples(arr):
    multipled_arr = []
    
    for i in range(len(arr)):
        item = arr[i]
        # create 10 instances of each item to match the 10 PA-year indices that are needed
        multipled_arr.extend([item]*10)
    
    return multipled_arr

In [23]:
years = [2008, 2009, 2010, 2011, 2012, 2013, 2014, 2015, 2016, 2017]*334
print(len(years))

3340


In [24]:
multipled_CNUCS = create_multiples(correct_CNUCs)
multipled_PAs = create_multiples(PAs)
print(len(multipled_CNUCS))
print(len(multipled_PAs))

3340
3340


In [25]:
final_df_cols = ["CNUC", "PA", "Year"]
final_df = pd.DataFrame(list(zip(multipled_CNUCS, multipled_PAs, years)), columns=final_df_cols)
final_df.head(10)

Unnamed: 0,CNUC,PA,Year
0,0000.00.0001,APA Anhatomirim,2008
1,0000.00.0001,APA Anhatomirim,2009
2,0000.00.0001,APA Anhatomirim,2010
3,0000.00.0001,APA Anhatomirim,2011
4,0000.00.0001,APA Anhatomirim,2012
5,0000.00.0001,APA Anhatomirim,2013
6,0000.00.0001,APA Anhatomirim,2014
7,0000.00.0001,APA Anhatomirim,2015
8,0000.00.0001,APA Anhatomirim,2016
9,0000.00.0001,APA Anhatomirim,2017


In [26]:
council_df.loc[council_df["Código CNUC"]=="0000.00.3694", "Ano de instituição do Conselho\n(ano / NA)"].isnull()

333    True
Name: Ano de instituição do Conselho\n(ano / NA), dtype: bool

In [27]:
council_df

Unnamed: 0,Código CNUC,Nome da UC,Situação do Conselho\n(Instituído / Em formação / Inexistente),Ano de instituição do Conselho\n(ano / NA)
0,0000.00.0001,APA Anhatomirim,Instituído,2008.0
1,0000.00.1521,APA Bacia Hidrográfica do Rio Paraíba do Sul,Em formação,
2,0000.00.0007,APA Barra do Rio Mamanguape,Instituído,2005.0
3,0000.00.0020,APA Carste da Lagoa Santa,Instituído,2005.0
4,0000.00.0002,APA Cavernas do Peruaçu,Instituído,2004.0
...,...,...,...,...
329,0000.00.3432,REVIS do Arquipélago de Alcatrazes,Instituído,2016.0
330,0000.00.1813,REVIS do Rio dos Frades,Instituído,2011.0
331,0000.00.0278,REVIS dos Campos de Palmas,Instituído,2011.0
332,0000.00.0190,REVIS Ilha dos Lobos,Instituído,2016.0


In [28]:
DF_SIZE = 334
def create_council_status(CNUCs, council_df):
    council_status = []
    council_creation_year = []
    
    for i in range(DF_SIZE):
        CNUC = CNUCs[i]
        year_created = council_df.loc[council_df["Código CNUC"]==CNUC, "Ano de instituição do Conselho\n(ano / NA)"].iloc[0]
        council_creation_year.extend([year_created]*10)
        
        if np.isnan(year_created) or year_created>2017:
            council_status.extend([0]*10)
        elif year_created<=2008:
            council_status.extend([1]*10)
        else:
            within_tf_arr = []
            for j in range(10):
                if year_created-2008<=j:
                    within_tf_arr.append(1)
                else:
                    within_tf_arr.append(0)
            council_status.extend(within_tf_arr)            
            
    return (council_status, council_creation_year)

In [29]:
council_status_arr, council_creation_year_arr = create_council_status(correct_CNUCs, council_df)
print(len(council_status_arr), len(council_creation_year_arr))

3340 3340


In [30]:
final_df["council_status"] = council_status_arr
final_df["council_creation_year"] = council_creation_year_arr
final_df.head()

Unnamed: 0,CNUC,PA,Year,council_status,council_creation_year
0,0000.00.0001,APA Anhatomirim,2008,1,2008.0
1,0000.00.0001,APA Anhatomirim,2009,1,2008.0
2,0000.00.0001,APA Anhatomirim,2010,1,2008.0
3,0000.00.0001,APA Anhatomirim,2011,1,2008.0
4,0000.00.0001,APA Anhatomirim,2012,1,2008.0


In [31]:
# tf = [2008, 2009, 2010, 2011, 2012, 2013, 2014, 2015, 2016, 2017]
# j=0
# for i in range(20):
#     print("======", i, "=====")
#     for year in tf:
#         print(year, arr[j])
#         j+=1

In [57]:
def create_mp_df_arrs(CNUCs, mp_df):
    pa_creation_year_cmi = []
    reg_coord_2021 = []
    munis_covered_cmi = []
    biome_cmi = []
    mp_in_progress = []
    mp_revised = []
    
    for i in range(mp_df.shape[0]):
        CNUC = CNUCs[i]
        
        # pa_creation_year_cmi
        year = mp_df.loc[mp_df["Código CNUC"]==CNUC, "Ano de criação"].iloc[0]
        pa_creation_year_cmi.extend([year]*10)
        
        # reg_coord_2021
        coord = mp_df.loc[mp_df["Código CNUC"]==CNUC, "Coordenação Regional do ICMBio"].iloc[0]
        reg_coord_2021.extend([coord]*10)
        
        # munis_covered_cmi
        munis = mp_df.loc[mp_df["Código CNUC"]==CNUC, "Municípios sobrepostos"].iloc[0]
        munis_covered_cmi.extend([munis]*10)
        
        # biome_cmi
        biomes = mp_df.loc[mp_df["Código CNUC"]==CNUC, "Bioma referencial (CGFUN)"].iloc[0]
        biome_cmi.extend([biomes]*10)
        
        # mp_in_progress
        in_prog = mp_df.loc[mp_df["Código CNUC"]==CNUC, "O plano de manejo está em elaboração? (Sim / Não / NA)"].iloc[0]
        mp_in_progress.extend([in_prog]*10)
        
        # mp_revised
        revised = mp_df.loc[mp_df["Código CNUC"]==CNUC, "O plano de manejo foi revisado? (Sim / Não / NA)"].iloc[0]
        mp_revised.extend([revised]*10)
        
    return (pa_creation_year_cmi, reg_coord_2021, munis_covered_cmi, biome_cmi, mp_in_progress, mp_revised)

In [58]:
pa_creation_year_cmi_arr, reg_coord_2021_arr, munis_covered_cmi_arr, biome_cmi_arr, mp_in_progress_arr, mp_revised_arr = create_mp_df_arrs(correct_CNUCs, mp_df)

In [59]:
len(pa_creation_year_cmi_arr)

3340

In [51]:
final_df["pa_creation_year_cmi"] = pa_creation_year_cmi_arr
final_df["reg_coord_2021"] = reg_coord_2021_arr
final_df["munis_covered_cmi"] = munis_covered_cmi_arr
final_df["biome_cmi"] = biome_cmi_arr
final_df.head(30)

Unnamed: 0,CNUC,PA,Year,council_status,council_creation_year,pa_creation_year_cmi,reg_coord_2021,munis_covered_cmi,biome_cmi
0,0000.00.0001,APA Anhatomirim,2008,1,2008.0,1992,CR9 Florianópolis/SC,Governador Celso Ramos,Marinho-Costeiro
1,0000.00.0001,APA Anhatomirim,2009,1,2008.0,1992,CR9 Florianópolis/SC,Governador Celso Ramos,Marinho-Costeiro
2,0000.00.0001,APA Anhatomirim,2010,1,2008.0,1992,CR9 Florianópolis/SC,Governador Celso Ramos,Marinho-Costeiro
3,0000.00.0001,APA Anhatomirim,2011,1,2008.0,1992,CR9 Florianópolis/SC,Governador Celso Ramos,Marinho-Costeiro
4,0000.00.0001,APA Anhatomirim,2012,1,2008.0,1992,CR9 Florianópolis/SC,Governador Celso Ramos,Marinho-Costeiro
5,0000.00.0001,APA Anhatomirim,2013,1,2008.0,1992,CR9 Florianópolis/SC,Governador Celso Ramos,Marinho-Costeiro
6,0000.00.0001,APA Anhatomirim,2014,1,2008.0,1992,CR9 Florianópolis/SC,Governador Celso Ramos,Marinho-Costeiro
7,0000.00.0001,APA Anhatomirim,2015,1,2008.0,1992,CR9 Florianópolis/SC,Governador Celso Ramos,Marinho-Costeiro
8,0000.00.0001,APA Anhatomirim,2016,1,2008.0,1992,CR9 Florianópolis/SC,Governador Celso Ramos,Marinho-Costeiro
9,0000.00.0001,APA Anhatomirim,2017,1,2008.0,1992,CR9 Florianópolis/SC,Governador Celso Ramos,Marinho-Costeiro


In [52]:
mp_df

Unnamed: 0,Código CNUC,Nome da UC,Ano de criação,Coordenação Regional do ICMBio,Municípios sobrepostos,Bioma referencial (CGFUN),A UC possui plano de manejo (Sim / Não),Ano de elaboração do plano de manejo,O plano de manejo está em elaboração? (Sim / Não / NA),O plano de manejo foi revisado? (Sim / Não / NA)
0,0000.00.0001,APA Anhatomirim,1992,CR9 Florianópolis/SC,Governador Celso Ramos,Marinho-Costeiro,Sim,2013.0,,Não
1,0000.00.0002,APA Cavernas do Peruaçu,1989,CR11 Lagoa Santa/MG,"Bonito de Minas, Cônego Marinho, Januária, Ita...",Cerrado,Não,,Não,
2,0000.00.0003,APA da Bacia do Rio Descoberto,1983,CR11 Lagoa Santa/MG,"Brasília, Águas Lindas de Goiás, Padre Bernardo",Cerrado,Sim,2014.0,,Não
3,0000.00.0004,APA da Bacia do Rio São Bartolomeu,1983,CR11 Lagoa Santa/MG,Brasília,Cerrado,Não,,Não,
4,0000.00.0005,APA da Bacia do Rio São João - Mico-Leão-Dourado,2002,CR8 Rio de Janeiro/RJ,"Silva Jardim, Cachoeiras de Macacu, Rio Bonito...",Mata Atlântica,Sim,2008.0,,Não
...,...,...,...,...,...,...,...,...,...,...
329,0000.00.3654,RESEX Apapiranga-Tromai,2018,CR4 Belém/PA,"Carutapera/MA, Luís Domingues/MA",Marinho-Costeiro,Não,,Não,
330,0000.00.3655,APA do Boqueirao da onça,2018,CR6 Cabedelo/PB,"Sento Sé/BA, Juazeiro/BA, Sobradinho/BA, Campo...",Caatinga,Não,,Não,
331,0000.00.3693,RESEX Baixo Rio Branco-Jauaperi,2018,CR2 Manaus/AM,"Rorainópolis/RO, Novo Airão/AM",Amazônia,Não,,Não,
332,0000.00.3694,RVS da Ararinha Azul,2018,CR6 Cabedelo/PB,"Juazeiro/BA, Curaçá/BA",Caatinga,Não,,Não,


In [53]:
DF_SIZE = 334
def create_mp_cmi(CNUCs, mp_df):
    mp_cmi = []
    mp_creation_year_cmi = []
    
    for i in range(DF_SIZE):
        CNUC = CNUCs[i]
        year_created = mp_df.loc[mp_df["Código CNUC"]==CNUC, "Ano de elaboração do plano de manejo"].iloc[0]
        mp_creation_year_cmi.extend([year_created]*10)
        
        if np.isnan(year_created) or year_created>2017:
            mp_cmi.extend([0]*10)
        elif year_created<=2008:
            mp_cmi.extend([1]*10)
        else:
            within_tf_arr = []
            for j in range(10):
                if year_created-2008<=j:
                    within_tf_arr.append(1)
                else:
                    within_tf_arr.append(0)
            mp_cmi.extend(within_tf_arr)            
            
    return (mp_cmi, mp_creation_year_cmi)

In [54]:
mp_cmi_arr, mp_creation_year_cmi_arr = create_mp_cmi(correct_CNUCs, mp_df)
print(len(mp_cmi_arr), len(mp_creation_year_cmi_arr))

3340 3340


In [56]:
final_df["mp_cmi"] = mp_cmi_arr
final_df["mp_creation_year_cmi"] = mp_creation_year_cmi_arr
final_df.head()

Unnamed: 0,CNUC,PA,Year,council_status,council_creation_year,pa_creation_year_cmi,reg_coord_2021,munis_covered_cmi,biome_cmi,mp_cmi,mp_creation_year_cmi
0,0000.00.0001,APA Anhatomirim,2008,1,2008.0,1992,CR9 Florianópolis/SC,Governador Celso Ramos,Marinho-Costeiro,0,2013.0
1,0000.00.0001,APA Anhatomirim,2009,1,2008.0,1992,CR9 Florianópolis/SC,Governador Celso Ramos,Marinho-Costeiro,0,2013.0
2,0000.00.0001,APA Anhatomirim,2010,1,2008.0,1992,CR9 Florianópolis/SC,Governador Celso Ramos,Marinho-Costeiro,0,2013.0
3,0000.00.0001,APA Anhatomirim,2011,1,2008.0,1992,CR9 Florianópolis/SC,Governador Celso Ramos,Marinho-Costeiro,0,2013.0
4,0000.00.0001,APA Anhatomirim,2012,1,2008.0,1992,CR9 Florianópolis/SC,Governador Celso Ramos,Marinho-Costeiro,0,2013.0


In [62]:
final_df["mp_in_progress"] = mp_in_progress_arr
final_df["mp_revised"] = mp_revised_arr
final_df.head()

Unnamed: 0,CNUC,PA,Year,council_status,council_creation_year,pa_creation_year_cmi,reg_coord_2021,munis_covered_cmi,biome_cmi,mp_cmi,mp_creation_year_cmi,mp_in_progress,mp_revised
0,0000.00.0001,APA Anhatomirim,2008,1,2008.0,1992,CR9 Florianópolis/SC,Governador Celso Ramos,Marinho-Costeiro,0,2013.0,,Não
1,0000.00.0001,APA Anhatomirim,2009,1,2008.0,1992,CR9 Florianópolis/SC,Governador Celso Ramos,Marinho-Costeiro,0,2013.0,,Não
2,0000.00.0001,APA Anhatomirim,2010,1,2008.0,1992,CR9 Florianópolis/SC,Governador Celso Ramos,Marinho-Costeiro,0,2013.0,,Não
3,0000.00.0001,APA Anhatomirim,2011,1,2008.0,1992,CR9 Florianópolis/SC,Governador Celso Ramos,Marinho-Costeiro,0,2013.0,,Não
4,0000.00.0001,APA Anhatomirim,2012,1,2008.0,1992,CR9 Florianópolis/SC,Governador Celso Ramos,Marinho-Costeiro,0,2013.0,,Não


In [63]:
visitation_sede_df

Unnamed: 0,Nome da UC,Código CNUC,sede_município-uf,sede_UF
0,ARIE Seringal Nova Esperança,0000.00.0044,Rio Branco/AC,Acre
1,ESEC Rio Acre,0000.00.0068,Brasiléia/AC,Acre
2,FLONA de Santa Rosa do Purus,0000.00.0107,Rio Branco/AC,Acre
3,FLONA de São Francisco,0000.00.0108,Sena Madureira/AC,Acre
4,FLONA do Macauã,0000.00.0120,Sena Madureira/AC,Acre
...,...,...,...,...
329,ARIE Buriti de Vassununga,0000.00.0030,,São Paulo
330,ARIE Capetinga-Taquara,0000.00.0031,,Distrito Federal
331,ARIE Cerrado Pé-de-Gigante,0000.00.0032,,São Paulo
332,ESEC do Castanhão,0000.00.0066,,Ceara


In [77]:
def create_visitation_df_arrs(CNUCs, visitation_df):
    management_muni_cmi = []
    management_state_cmi = []
    
    for i in range(mp_df.shape[0]):
        CNUC = CNUCs[i]
        
        # management_muni_cmi
        muni_cmi = visitation_df.loc[visitation_df["Código CNUC"]==CNUC, "sede_município-uf"].iloc[0]
        
        # cut off the state codes
        try:
            muni_cmi = muni_cmi.split("/")[0]
        except:
            pass
            
        management_muni_cmi.extend([muni_cmi]*10)
        
        # management_state_cmi
        state_cmi = visitation_df.loc[visitation_df["Código CNUC"]==CNUC, "sede_UF"].iloc[0]
        management_state_cmi.extend([state_cmi]*10)
        
    return (management_muni_cmi, management_state_cmi)

In [78]:
management_muni_cmi_arr, management_state_cmi_arr = create_visitation_df_arrs(correct_CNUCs, visitation_sede_df)
print(len(management_muni_cmi_arr), len(management_state_cmi_arr))

3340 3340


In [80]:
final_df["management_muni_cmi"] = management_muni_cmi_arr
final_df["management_state_cmi"] = management_state_cmi_arr
final_df.head()

Unnamed: 0,CNUC,PA,Year,council_status,council_creation_year,pa_creation_year_cmi,reg_coord_2021,munis_covered_cmi,biome_cmi,mp_cmi,mp_creation_year_cmi,mp_in_progress,mp_revised,management_muni_cmi,management_state_cmi
0,0000.00.0001,APA Anhatomirim,2008,1,2008.0,1992,CR9 Florianópolis/SC,Governador Celso Ramos,Marinho-Costeiro,0,2013.0,,Não,Florianópolis,Santa Catarina
1,0000.00.0001,APA Anhatomirim,2009,1,2008.0,1992,CR9 Florianópolis/SC,Governador Celso Ramos,Marinho-Costeiro,0,2013.0,,Não,Florianópolis,Santa Catarina
2,0000.00.0001,APA Anhatomirim,2010,1,2008.0,1992,CR9 Florianópolis/SC,Governador Celso Ramos,Marinho-Costeiro,0,2013.0,,Não,Florianópolis,Santa Catarina
3,0000.00.0001,APA Anhatomirim,2011,1,2008.0,1992,CR9 Florianópolis/SC,Governador Celso Ramos,Marinho-Costeiro,0,2013.0,,Não,Florianópolis,Santa Catarina
4,0000.00.0001,APA Anhatomirim,2012,1,2008.0,1992,CR9 Florianópolis/SC,Governador Celso Ramos,Marinho-Costeiro,0,2013.0,,Não,Florianópolis,Santa Catarina


In [98]:
int_nums = []

for str_num in visitation_total_mes_df["total_mes"]:
    try:
        int_num = int(str_num.replace("," , ""))
    # using 0 for NaN entries
    except:
        int_num = 0
    int_nums.append(int_num)

visitation_total_mes_df["total_mes_int"] = int_nums
visitation_total_mes_df.head()

Unnamed: 0,Código CNUC,Nome da UC,mes_ano,total_mes,total_mes_int
0,0000.00.0001,APA Anhatomirim,31/01/15,45810,45810
1,0000.00.0001,APA Anhatomirim,28/02/15,28870,28870
2,0000.00.0001,APA Anhatomirim,31/03/15,16023,16023
3,0000.00.0001,APA Anhatomirim,30/04/15,10152,10152
4,0000.00.0001,APA Anhatomirim,31/05/15,2134,2134


In [100]:
# only 160 CNUC with data, so must fill in rest with 0s
visitation_total_mes_df["Código CNUC"].nunique()

160

In [118]:
def create_visitors(CNUCs, visitation_total_mes_df):
    visitors = []
    for i in range(mp_df.shape[0]):
        CNUC = CNUCs[i]
        
        visitation_df = visitation_total_mes_df.groupby("Código CNUC").sum()
        visitation_df = visitation_df.reset_index()
        
        # cut off the state codes
        visitor_val = 0
        try:
            visitor_val = visitation_df.loc[visitation_df["Código CNUC"]==CNUC, "total_mes_int"].iloc[0]
        except:
            pass
        
        visitors.extend([visitor_val]*10)
        
    return visitors

In [119]:
visitors_arr = create_visitors(correct_CNUCs, visitation_total_mes_df)
print(len(visitors_arr))

3340


In [122]:
final_df["visitors"] = visitors_arr
final_df.head()

Unnamed: 0,CNUC,PA,Year,council_status,council_creation_year,pa_creation_year_cmi,reg_coord_2021,munis_covered_cmi,biome_cmi,mp_cmi,mp_creation_year_cmi,mp_in_progress,mp_revised,management_muni_cmi,management_state_cmi,visitors
0,0000.00.0001,APA Anhatomirim,2008,1,2008.0,1992,CR9 Florianópolis/SC,Governador Celso Ramos,Marinho-Costeiro,0,2013.0,,Não,Florianópolis,Santa Catarina,784184
1,0000.00.0001,APA Anhatomirim,2009,1,2008.0,1992,CR9 Florianópolis/SC,Governador Celso Ramos,Marinho-Costeiro,0,2013.0,,Não,Florianópolis,Santa Catarina,784184
2,0000.00.0001,APA Anhatomirim,2010,1,2008.0,1992,CR9 Florianópolis/SC,Governador Celso Ramos,Marinho-Costeiro,0,2013.0,,Não,Florianópolis,Santa Catarina,784184
3,0000.00.0001,APA Anhatomirim,2011,1,2008.0,1992,CR9 Florianópolis/SC,Governador Celso Ramos,Marinho-Costeiro,0,2013.0,,Não,Florianópolis,Santa Catarina,784184
4,0000.00.0001,APA Anhatomirim,2012,1,2008.0,1992,CR9 Florianópolis/SC,Governador Celso Ramos,Marinho-Costeiro,0,2013.0,,Não,Florianópolis,Santa Catarina,784184


In [125]:
fires_df

Unnamed: 0,Código CNUC,Nome da UC,Área queimada em 2017,Área queimada em 2016,Área queimada em 2015,Área queimada em 2014,Área queimada em 2013,Área queimada em 2012
0,0000.00.0001,APA Anhatomirim,,,,,,
1,0000.00.1521,APA Bacia Hidrográfica do Rio Paraíba do Sul,182.1,,,,,
2,0000.00.0007,APA Barra do Rio Mamanguape,,,,,,
3,0000.00.0020,APA Carste da Lagoa Santa,,,,,,
4,0000.00.0002,APA Cavernas do Peruaçu,260.7,,,,,
...,...,...,...,...,...,...,...,...
320,0000.00.1880,REVIS de Una,,,,,,
321,0000.00.3432,REVIS do Arquipélago de Alcatrazes,,,,,,
322,0000.00.1813,REVIS do Rio dos Frades,,,,,,
323,0000.00.0278,REVIS dos Campos de Palmas,109.5,3249.5,,,,


In [133]:
def create_fire_arrs(CNUCs, fires_df):
    area_burned_2017 = []
    area_burned_2016 = []
    area_burned_2015 = []
    area_burned_2014 = []
    area_burned_2013 = []
    area_burned_2012 = []
    
    for i in range(mp_df.shape[0]):
        CNUC = CNUCs[i]
        
        # 2017
        area_2017 = np.nan
        try:
            area_2017 = fires_df.loc[fires_df["Código CNUC"]==CNUC, "Área queimada em 2017"].iloc[0]
        except:
            pass
        area_burned_2017.extend([area_2017]*10)
        
        # 2016
        area_2016 = np.nan
        try:
            area_2016 = fires_df.loc[fires_df["Código CNUC"]==CNUC, "Área queimada em 2016"].iloc[0]
        except:
            pass
        area_burned_2016.extend([area_2016]*10)
        
        # 2015
        area_2015 = np.nan
        try:
            area_2015 = fires_df.loc[fires_df["Código CNUC"]==CNUC, "Área queimada em 2015"].iloc[0]
        except:
            pass
        area_burned_2015.extend([area_2015]*10)
        
        # 2014
        area_2014 = np.nan
        try:
            area_2014 = fires_df.loc[fires_df["Código CNUC"]==CNUC, "Área queimada em 2014"].iloc[0]
        except:
            pass
        area_burned_2014.extend([area_2014]*10)
        
        # 2013
        area_2013 = np.nan
        try:
            area_2013 = fires_df.loc[fires_df["Código CNUC"]==CNUC, "Área queimada em 2013"].iloc[0]
        except:
            pass
        area_burned_2013.extend([area_2013]*10)
        
        # 2012
        area_2012 = np.nan
        try:
            area_2012 = fires_df.loc[fires_df["Código CNUC"]==CNUC, "Área queimada em 2012"].iloc[0]
        except:
            pass
        area_burned_2012.extend([area_2012]*10)
        
    return (area_burned_2017, area_burned_2016, area_burned_2015, area_burned_2014, area_burned_2013, area_burned_2012)

In [137]:
area_burned_2017_arr, area_burned_2016_arr, area_burned_2015_arr, area_burned_2014_arr, area_burned_2013_arr, area_burned_2012_arr = create_fire_arrs(correct_CNUCs, fires_df)
len(area_burned_2013_arr)

3340

In [143]:
final_df["area_burned_2017"] = area_burned_2017_arr
final_df["area_burned_2016"] = area_burned_2016_arr
final_df["area_burned_2015"] = area_burned_2015_arr
final_df["area_burned_2014"] = area_burned_2014_arr
final_df["area_burned_2013"] = area_burned_2013_arr
final_df["area_burned_2012"] = area_burned_2012_arr
final_df.head()

Unnamed: 0,CNUC,PA,Year,council_status,council_creation_year,pa_creation_year_cmi,reg_coord_2021,munis_covered_cmi,biome_cmi,mp_cmi,...,mp_revised,management_muni_cmi,management_state_cmi,visitors,area_burned_2017,area_burned_2016,area_burned_2015,area_burned_2014,area_burned_2013,area_burned_2012
0,0000.00.0001,APA Anhatomirim,2008,1,2008.0,1992,CR9 Florianópolis/SC,Governador Celso Ramos,Marinho-Costeiro,0,...,Não,Florianópolis,Santa Catarina,784184,,,,,,
1,0000.00.0001,APA Anhatomirim,2009,1,2008.0,1992,CR9 Florianópolis/SC,Governador Celso Ramos,Marinho-Costeiro,0,...,Não,Florianópolis,Santa Catarina,784184,,,,,,
2,0000.00.0001,APA Anhatomirim,2010,1,2008.0,1992,CR9 Florianópolis/SC,Governador Celso Ramos,Marinho-Costeiro,0,...,Não,Florianópolis,Santa Catarina,784184,,,,,,
3,0000.00.0001,APA Anhatomirim,2011,1,2008.0,1992,CR9 Florianópolis/SC,Governador Celso Ramos,Marinho-Costeiro,0,...,Não,Florianópolis,Santa Catarina,784184,,,,,,
4,0000.00.0001,APA Anhatomirim,2012,1,2008.0,1992,CR9 Florianópolis/SC,Governador Celso Ramos,Marinho-Costeiro,0,...,Não,Florianópolis,Santa Catarina,784184,,,,,,


In [145]:
final_df

Unnamed: 0,CNUC,PA,Year,council_status,council_creation_year,pa_creation_year_cmi,reg_coord_2021,munis_covered_cmi,biome_cmi,mp_cmi,...,mp_revised,management_muni_cmi,management_state_cmi,visitors,area_burned_2017,area_burned_2016,area_burned_2015,area_burned_2014,area_burned_2013,area_burned_2012
0,0000.00.0001,APA Anhatomirim,2008,1,2008.0,1992,CR9 Florianópolis/SC,Governador Celso Ramos,Marinho-Costeiro,0,...,Não,Florianópolis,Santa Catarina,784184,,,,,,
1,0000.00.0001,APA Anhatomirim,2009,1,2008.0,1992,CR9 Florianópolis/SC,Governador Celso Ramos,Marinho-Costeiro,0,...,Não,Florianópolis,Santa Catarina,784184,,,,,,
2,0000.00.0001,APA Anhatomirim,2010,1,2008.0,1992,CR9 Florianópolis/SC,Governador Celso Ramos,Marinho-Costeiro,0,...,Não,Florianópolis,Santa Catarina,784184,,,,,,
3,0000.00.0001,APA Anhatomirim,2011,1,2008.0,1992,CR9 Florianópolis/SC,Governador Celso Ramos,Marinho-Costeiro,0,...,Não,Florianópolis,Santa Catarina,784184,,,,,,
4,0000.00.0001,APA Anhatomirim,2012,1,2008.0,1992,CR9 Florianópolis/SC,Governador Celso Ramos,Marinho-Costeiro,0,...,Não,Florianópolis,Santa Catarina,784184,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3335,0000.00.3694,RVS da Ararinha Azul,2013,0,,2018,CR6 Cabedelo/PB,"Juazeiro/BA, Curaçá/BA",Caatinga,0,...,,Juazeiro,Bahia,0,,,,,,
3336,0000.00.3694,RVS da Ararinha Azul,2014,0,,2018,CR6 Cabedelo/PB,"Juazeiro/BA, Curaçá/BA",Caatinga,0,...,,Juazeiro,Bahia,0,,,,,,
3337,0000.00.3694,RVS da Ararinha Azul,2015,0,,2018,CR6 Cabedelo/PB,"Juazeiro/BA, Curaçá/BA",Caatinga,0,...,,Juazeiro,Bahia,0,,,,,,
3338,0000.00.3694,RVS da Ararinha Azul,2016,0,,2018,CR6 Cabedelo/PB,"Juazeiro/BA, Curaçá/BA",Caatinga,0,...,,Juazeiro,Bahia,0,,,,,,


In [147]:
final_df.to_csv("performance_analysis_data.csv", na_rep = "NaN", encoding='utf-8-sig', index=False)