# Limpeza e Tratamento de DF


O governo brasileiro protege as áreas naturais por meio de Unidades de Conservação (UC) - estratégia extremamente eficaz para a manutenção dos recursos naturais em longo prazo. Para atingir esse objetivo de forma efetiva e eficiente, foi instituído o Sistema Nacional de Conservação da Natureza (SNUC), com a promulgação da Lei nº 9.985, de 18 de julho de 2000. A Lei do SNUC representou grandes avanços à criação e gestão das UC nas três esferas de governo (federal, estadual e municipal), pois ele possibilita uma visão de conjunto das áreas naturais a serem preservadas. Além disso, estabeleceu mecanismos que regulamentam a participação da sociedade na gestão das UC, potencializando a relação entre o Estado, os cidadãos e o meio ambiente.

O documento contem a lista das UCs ativas no CNUC com respectivas categorias de manejo, área, esfera de governo e ano de criação; Tabela consolidada por categoria de manejo, bioma e esfera. * Foram identificadas inconsistências nos campos sobre plano de manejo e conselho gestor da versão de fevereiro de 2024. Uma atualização com correções foi realizada em 14/05/2024 (fonte: dados.gov.br).

- Documento coletado no endereço https://dados.gov.br/dados/conjuntos-dados/unidadesdeconservacao


# 1º Etapa: Limpar e Organizar o DF

In [None]:
%reset

Once deleted, variables cannot be recovered. Proceed (y/[n])? y


## Importando Bibliotecas

In [None]:
import pandas as pd
import numpy as np

## Encontrando informações sobre o dataset

In [None]:
# Lendo as informações básicas
df = pd.read_csv('/content/cnuc_2024_02-2.csv', sep=';')
df.head(2)

Unnamed: 0,ID_UC,Código UC,Informações Gerais,Nome da UC,Esfera Administrativa,Categoria de Manejo,Categoria IUCN,UF,Ano do ato legal mais recente,Ato Legal de Criação,...,Mosaico,Reserva da Biosfera,Sobreposição com TI ou TQ,Biomas Abrangidos,Região,Presente na versão anterior,Diferença Área,Razão Diferença Área,Qualidade dos dados georreferenciados,Data da última certificação dos dados pelo Órgão Gestor
0,1,0000.00.0001,,ÁREA DE PROTEÇÃO AMBIENTAL ANHATOMIRIM,Federal,Área de Proteção Ambiental,Category V,SC,1992,Decreto 528 de 20/05/1992,...,,RB - Mt Atlântica,,,,1,0,,Polígono corresponde ao memorial descritivo,"segunda-feira, 30 de outubro de 2023"
1,2,0000.00.0002,,ÁREA DE PROTEÇÃO AMBIENTAL CAVERNAS DO PERUAÇU,Federal,Área de Proteção Ambiental,Category V,MG,1989,Decreto 98182 de 26/09/1989,...,Sertão Veredas-Peruaçu,"RB - Caatinga, RB - Mt Atlântica",,,,1,0,,Polígono corresponde ao memorial descritivo,"sexta-feira, 23 de abril de 2010"


In [None]:
# Lendo as informações básicas
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2945 entries, 0 to 2944
Data columns (total 51 columns):
 #   Column                                                   Non-Null Count  Dtype  
---  ------                                                   --------------  -----  
 0   ID_UC                                                    2945 non-null   int64  
 1   Código UC                                                2945 non-null   object 
 2   Informações Gerais                                       0 non-null      float64
 3   Nome da UC                                               2945 non-null   object 
 4   Esfera Administrativa                                    2945 non-null   object 
 5   Categoria de Manejo                                      2945 non-null   object 
 6   Categoria IUCN                                           2945 non-null   object 
 7   UF                                                       2945 non-null   object 
 8   Ano do ato legal mais recent

## Trabalhando com as linhas e colunas vazias

In [None]:
# Verificando a quantidade de linhas vazias
empty_rows = df[df.isna().any(axis=1)]
empty_rows.count()

ID_UC                                                      2945
Código UC                                                  2945
Informações Gerais                                            0
Nome da UC                                                 2945
Esfera Administrativa                                      2945
Categoria de Manejo                                        2945
Categoria IUCN                                             2945
UF                                                         2945
Ano do ato legal mais recente                              2945
Ato Legal de Criação                                       2945
Outros atos legais                                         2945
Municípios Abrangidos                                      2945
Plano de Manejo                                            2945
Conselho Gestor                                            2945
Órgão Gestor                                               2945
Fonte da Área: (1 = SHP, 0 = Ato legal) 

In [None]:
# Eliminando as colunas vazias ou com muitos dados vazios. Coloquei um limiar de
# 50% de dados faltante.

def drop_columns_with_missing_data(df):
    # Calcula o número de linhas que representam 50% do DataFrame
    threshold = len(df) * 0.5

    # Elimina as colunas que têm mais de 50% de dados faltantes
    df = df.dropna(thresh=threshold, axis=1)

    return df

# Uso da função
df = drop_columns_with_missing_data(df)
df.head(2)

Unnamed: 0,ID_UC,Código UC,Nome da UC,Esfera Administrativa,Categoria de Manejo,Categoria IUCN,UF,Ano do ato legal mais recente,Ato Legal de Criação,Outros atos legais,...,PI,US,Mar Territorial,Município Costeiro,Município Costeiro + Área Marinha,Reserva da Biosfera,Presente na versão anterior,Diferença Área,Qualidade dos dados georreferenciados,Data da última certificação dos dados pelo Órgão Gestor
0,1,0000.00.0001,ÁREA DE PROTEÇÃO AMBIENTAL ANHATOMIRIM,Federal,Área de Proteção Ambiental,Category V,SC,1992,Decreto 528 de 20/05/1992,Sem informação.,...,0,1,1,1,1,RB - Mt Atlântica,1,0,Polígono corresponde ao memorial descritivo,"segunda-feira, 30 de outubro de 2023"
1,2,0000.00.0002,ÁREA DE PROTEÇÃO AMBIENTAL CAVERNAS DO PERUAÇU,Federal,Área de Proteção Ambiental,Category V,MG,1989,Decreto 98182 de 26/09/1989,Sem informação.,...,0,1,0,0,0,"RB - Caatinga, RB - Mt Atlântica",1,0,Polígono corresponde ao memorial descritivo,"sexta-feira, 23 de abril de 2010"


In [None]:
def drop_colunns(df):
  # Eliminando as colunas que não serão utilizadas
  df = df.drop(columns=['ID_UC' , 'Fonte da Área: (1 = SHP, 0 = Ato legal)',
                   'PI', 'US', 'Presente na versão anterior',
                   'Qualidade dos dados georreferenciados'])
  return df

# Uso da função
df = drop_colunns(df)
df.head(2)

Unnamed: 0,Código UC,Nome da UC,Esfera Administrativa,Categoria de Manejo,Categoria IUCN,UF,Ano do ato legal mais recente,Ato Legal de Criação,Outros atos legais,Municípios Abrangidos,...,Área Marinha,Bioma declarado,% Além da linha de costa,Grupo,Mar Territorial,Município Costeiro,Município Costeiro + Área Marinha,Reserva da Biosfera,Diferença Área,Data da última certificação dos dados pelo Órgão Gestor
0,0000.00.0001,ÁREA DE PROTEÇÃO AMBIENTAL ANHATOMIRIM,Federal,Área de Proteção Ambiental,Category V,SC,1992,Decreto 528 de 20/05/1992,Sem informação.,GOVERNADOR CELSO RAMOS (SC),...,256700,Área Marinha,58,Uso Sustentável,1,1,1,RB - Mt Atlântica,0,"segunda-feira, 30 de outubro de 2023"
1,0000.00.0002,ÁREA DE PROTEÇÃO AMBIENTAL CAVERNAS DO PERUAÇU,Federal,Área de Proteção Ambiental,Category V,MG,1989,Decreto 98182 de 26/09/1989,Sem informação.,BONITO DE MINAS (MG) - CÔNEGO MARINHO (MG) - I...,...,0,Cerrado,0,Uso Sustentável,0,0,0,"RB - Caatinga, RB - Mt Atlântica",0,"sexta-feira, 23 de abril de 2010"


In [None]:
# Reimprimindo os dados
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2945 entries, 0 to 2944
Data columns (total 32 columns):
 #   Column                                                   Non-Null Count  Dtype 
---  ------                                                   --------------  ----- 
 0   Código UC                                                2945 non-null   object
 1   Nome da UC                                               2945 non-null   object
 2   Esfera Administrativa                                    2945 non-null   object
 3   Categoria de Manejo                                      2945 non-null   object
 4   Categoria IUCN                                           2945 non-null   object
 5   UF                                                       2945 non-null   object
 6   Ano do ato legal mais recente                            2945 non-null   int64 
 7   Ato Legal de Criação                                     2945 non-null   object
 8   Outros atos legais                    

## Corrigindo as colunas

### Tirando os espaços dos nomes das colunas

In [None]:
# tirei os espaços vazios entre os nomes das colunas

def replace_spaces_with_underscore(df):
    df.columns = df.columns.str.replace(' ', '_')
    return df

# Uso da função
df = replace_spaces_with_underscore(df)
print(df.columns)

Index(['Código_UC', 'Nome_da_UC', 'Esfera_Administrativa',
       'Categoria_de_Manejo', 'Categoria_IUCN', 'UF',
       'Ano_do_ato_legal_mais_recente', 'Ato_Legal_de_Criação',
       'Outros_atos_legais', 'Municípios_Abrangidos', 'Plano_de_Manejo',
       'Conselho_Gestor', 'Órgão_Gestor', 'Área_soma_biomas',
       'Área_soma_Biomas_Continental', 'Área_Ato_Legal_de_Criação', 'Amazônia',
       'Caatinga', 'Cerrado', 'Mata_Atlântica', 'Pampa', 'Pantanal',
       'Área_Marinha', 'Bioma_declarado', '%_Além_da_linha_de_costa', 'Grupo',
       'Mar_Territorial', 'Município_Costeiro',
       'Município_Costeiro_+_Área_Marinha', 'Reserva_da_Biosfera',
       'Diferença_Área',
       'Data_da_última_certificação_dos_dados_pelo_Órgão_Gestor'],
      dtype='object')


### Corrigindo a coluna 'Reserva da Biosfera

In [None]:
# a Coluna 'Reserva da Biosfera' tem linhas na qual tem dois valores. Então foi
# preciso criar duas colunas: 'Reserva da Biosfera', 'Segunda Reserva da Biosfera'.
# Pois se trata de áreas que na sua grande maioria representam áreas de transição de biomas chamados de
# Ecótonos. Nessas áreas de transição ambiental, diferentes comunidades ecológicas ou biomas
# entram em contato, adquirindo características específicas a partir dessa junção entre fauna e flora.

def split_biosphere_reserves(df, column_name):
    # Divide a coluna em duas novas colunas
    df[['Reserva_da_Biosfera', 'Reserva_da_Biosfera_2']] = df[column_name].str.split(',', expand=True, n=1)

    # Remove espaços em branco extras
    df['Reserva_da_Biosfera'] = df['Reserva_da_Biosfera'].str.strip()
    df['Reserva_da_Biosfera_2'] = df['Reserva_da_Biosfera_2'].str.strip()

    # Substitui NaN por 'Sem Informação' na coluna 'Reserva_da_Biosfera'
    df['Reserva_da_Biosfera'].fillna('Sem Informação', inplace=True)

    # Substitui NaN por 'Não Possui' na coluna 'Reserva_da_Biosfera_2'
    df['Reserva_da_Biosfera_2'].fillna('Não Possui', inplace=True)

    return df

# Uso da função
df = split_biosphere_reserves(df, 'Reserva_da_Biosfera')
df.head(2)

Unnamed: 0,Código_UC,Nome_da_UC,Esfera_Administrativa,Categoria_de_Manejo,Categoria_IUCN,UF,Ano_do_ato_legal_mais_recente,Ato_Legal_de_Criação,Outros_atos_legais,Municípios_Abrangidos,...,Bioma_declarado,%_Além_da_linha_de_costa,Grupo,Mar_Territorial,Município_Costeiro,Município_Costeiro_+_Área_Marinha,Reserva_da_Biosfera,Diferença_Área,Data_da_última_certificação_dos_dados_pelo_Órgão_Gestor,Reserva_da_Biosfera_2
0,0000.00.0001,ÁREA DE PROTEÇÃO AMBIENTAL ANHATOMIRIM,Federal,Área de Proteção Ambiental,Category V,SC,1992,Decreto 528 de 20/05/1992,Sem informação.,GOVERNADOR CELSO RAMOS (SC),...,Área Marinha,58,Uso Sustentável,1,1,1,RB - Mt Atlântica,0,"segunda-feira, 30 de outubro de 2023",Não Possui
1,0000.00.0002,ÁREA DE PROTEÇÃO AMBIENTAL CAVERNAS DO PERUAÇU,Federal,Área de Proteção Ambiental,Category V,MG,1989,Decreto 98182 de 26/09/1989,Sem informação.,BONITO DE MINAS (MG) - CÔNEGO MARINHO (MG) - I...,...,Cerrado,0,Uso Sustentável,0,0,0,RB - Caatinga,0,"sexta-feira, 23 de abril de 2010",RB - Mt Atlântica


In [None]:
# verificando se deu certo a função
print(df['Reserva_da_Biosfera'])
print( df['Reserva_da_Biosfera_2'])

0       RB - Mt Atlântica
1           RB - Caatinga
2            RB - Cerrado
3            RB - Cerrado
4       RB - Mt Atlântica
              ...        
2940       Sem Informação
2941       Sem Informação
2942       Sem Informação
2943       Sem Informação
2944       Sem Informação
Name: Reserva_da_Biosfera, Length: 2945, dtype: object
0              Não Possui
1       RB - Mt Atlântica
2              Não Possui
3              Não Possui
4              Não Possui
              ...        
2940           Não Possui
2941           Não Possui
2942           Não Possui
2943           Não Possui
2944           Não Possui
Name: Reserva_da_Biosfera_2, Length: 2945, dtype: object


### Corrigindo as colunas UF e Municipios abrangidos

In [None]:
# Algumas Unidades de Conservação possuem mais de uma UF na qual faz parte, dividi
# a coluna 'UF' em várias, na qual poderá ter valores únicos

def expand_ufs(df, column='UF'):
    # Separa em colunas
    ufs_expandidos = df[column].str.split(',', expand=True)

    # Remove espaços em branco no início e no fim das strings e substitui quebras de linha por espaços
    ufs_expandidos = ufs_expandidos.applymap(lambda x: x.strip().replace('\n', ' ') if isinstance(x, str) else x)

    # Renomeia as colunas para 'UF_1', 'UF_2', 'UF_3' assim por diante.
    for i in range(ufs_expandidos.shape[1]):
        ufs_expandidos.rename(columns={i: f'UF_{i+1}'}, inplace=True)

    # Preenche as células vazias com 'Não Possui'
    ufs_expandidos.fillna('Não Possui', inplace=True)

    # Concatena o novo DataFrame com as colunas expandidas de volta ao DataFrame original
    df = pd.concat([df, ufs_expandidos], axis=1)

    # Elimina a coluna original 'UF'
    df.drop(columns=[column], inplace=True)

    return df

# Uso da função
df = expand_ufs(df)
df.head()

Unnamed: 0,Código_UC,Nome_da_UC,Esfera_Administrativa,Categoria_de_Manejo,Categoria_IUCN,Ano_do_ato_legal_mais_recente,Ato_Legal_de_Criação,Outros_atos_legais,Municípios_Abrangidos,Plano_de_Manejo,...,Município_Costeiro,Município_Costeiro_+_Área_Marinha,Reserva_da_Biosfera,Diferença_Área,Data_da_última_certificação_dos_dados_pelo_Órgão_Gestor,Reserva_da_Biosfera_2,UF_1,UF_2,UF_3,UF_4
0,0000.00.0001,ÁREA DE PROTEÇÃO AMBIENTAL ANHATOMIRIM,Federal,Área de Proteção Ambiental,Category V,1992,Decreto 528 de 20/05/1992,Sem informação.,GOVERNADOR CELSO RAMOS (SC),Sim,...,1,1,RB - Mt Atlântica,0,"segunda-feira, 30 de outubro de 2023",Não Possui,SC,Não Possui,Não Possui,Não Possui
1,0000.00.0002,ÁREA DE PROTEÇÃO AMBIENTAL CAVERNAS DO PERUAÇU,Federal,Área de Proteção Ambiental,Category V,1989,Decreto 98182 de 26/09/1989,Sem informação.,BONITO DE MINAS (MG) - CÔNEGO MARINHO (MG) - I...,Não,...,0,0,RB - Caatinga,0,"sexta-feira, 23 de abril de 2010",RB - Mt Atlântica,MG,Não Possui,Não Possui,Não Possui
2,0000.00.0003,ÁREA DE PROTEÇÃO AMBIENTAL DA BACIA DO RIO DES...,Federal,Área de Proteção Ambiental,Category V,1983,Decreto nº 88.940 de 07/11/1983,Sem informação.,ÁGUAS LINDAS DE GOIÁS (GO) - BRASÍLIA (DF) - P...,Sim,...,0,0,RB - Cerrado,0,"segunda-feira, 4 de setembro de 2023",Não Possui,DF,GO,Não Possui,Não Possui
3,0000.00.0004,ÁREA DE PROTEÇÃO AMBIENTAL DA BACIA DO RIO SÃO...,Federal,Área de Proteção Ambiental,Category V,1983,Decreto 88940 de 07/11/1983,Sem informação.,BRASÍLIA (DF),Não,...,0,0,RB - Cerrado,0,"quarta-feira, 27 de abril de 2011",Não Possui,DF,Não Possui,Não Possui,Não Possui
4,0000.00.0005,ÁREA DE PROTEÇÃO AMBIENTAL DA BACIA DO RIO SÃO...,Federal,Área de Proteção Ambiental,Category V,2002,Decreto S/N de 27/06/2002,Sem informação.,ARARUAMA (RJ) - CABO FRIO (RJ) - CACHOEIRAS DE...,Sim,...,1,1,RB - Mt Atlântica,0,"segunda-feira, 24 de julho de 2023",Não Possui,RJ,Não Possui,Não Possui,Não Possui


In [None]:
# Algumas Unidades de Conservação possuem mais de um município na qual faz parte, dividi
# a coluna 'Municípios_Abrangidos' em várias, na qual poderá ter valores únicos

def expand_municipios(df, column='Municípios_Abrangidos'):
    # separa em colunas
    municipios_expandidos = df[column].str.split(' - ', expand=True)

    # Remove espaços em branco no início e no fim das strings e substitui quebras de linha por espaços
    municipios_expandidos = municipios_expandidos.applymap(lambda x: x.strip().replace('\n', ' ') if isinstance(x, str) else x)

    # Renomeia as colunas para 'Municipio_1', 'Municipio_2', 'Municipio_3', etc.
    for i in range(municipios_expandidos.shape[1]):
        municipios_expandidos.rename(columns={i: f'Municipio_{i+1}'}, inplace=True)

    # Preenche as células vazias com 'Não Possui'
    municipios_expandidos.fillna('Não Possui', inplace=True)

    # Concatena o novo DataFrame com as colunas expandidas de volta ao DataFrame original
    df = pd.concat([df, municipios_expandidos], axis=1)

    # Elimina a coluna original 'Municípios Abrangidos'
    df.drop(columns=[column], inplace=True)

    return df

# Uso da função
df = expand_municipios(df)
df.head()

Unnamed: 0,Código_UC,Nome_da_UC,Esfera_Administrativa,Categoria_de_Manejo,Categoria_IUCN,Ano_do_ato_legal_mais_recente,Ato_Legal_de_Criação,Outros_atos_legais,Plano_de_Manejo,Conselho_Gestor,...,Municipio_24,Municipio_25,Municipio_26,Municipio_27,Municipio_28,Municipio_29,Municipio_30,Municipio_31,Municipio_32,Municipio_33
0,0000.00.0001,ÁREA DE PROTEÇÃO AMBIENTAL ANHATOMIRIM,Federal,Área de Proteção Ambiental,Category V,1992,Decreto 528 de 20/05/1992,Sem informação.,Sim,Sim,...,Não Possui,Não Possui,Não Possui,Não Possui,Não Possui,Não Possui,Não Possui,Não Possui,Não Possui,Não Possui
1,0000.00.0002,ÁREA DE PROTEÇÃO AMBIENTAL CAVERNAS DO PERUAÇU,Federal,Área de Proteção Ambiental,Category V,1989,Decreto 98182 de 26/09/1989,Sem informação.,Não,Sim,...,Não Possui,Não Possui,Não Possui,Não Possui,Não Possui,Não Possui,Não Possui,Não Possui,Não Possui,Não Possui
2,0000.00.0003,ÁREA DE PROTEÇÃO AMBIENTAL DA BACIA DO RIO DES...,Federal,Área de Proteção Ambiental,Category V,1983,Decreto nº 88.940 de 07/11/1983,Sem informação.,Sim,Sim,...,Não Possui,Não Possui,Não Possui,Não Possui,Não Possui,Não Possui,Não Possui,Não Possui,Não Possui,Não Possui
3,0000.00.0004,ÁREA DE PROTEÇÃO AMBIENTAL DA BACIA DO RIO SÃO...,Federal,Área de Proteção Ambiental,Category V,1983,Decreto 88940 de 07/11/1983,Sem informação.,Não,Não,...,Não Possui,Não Possui,Não Possui,Não Possui,Não Possui,Não Possui,Não Possui,Não Possui,Não Possui,Não Possui
4,0000.00.0005,ÁREA DE PROTEÇÃO AMBIENTAL DA BACIA DO RIO SÃO...,Federal,Área de Proteção Ambiental,Category V,2002,Decreto S/N de 27/06/2002,Sem informação.,Sim,Sim,...,Não Possui,Não Possui,Não Possui,Não Possui,Não Possui,Não Possui,Não Possui,Não Possui,Não Possui,Não Possui


In [None]:
# Aqui verifico o resultado das duas funções acima e incluo mais uma coluna: 'Contagem_Municipios'

def linha_com_mais_municipios(df):
    # Cria uma lista com os nomes das colunas que contêm 'Municipio'
    colunas_municipio = [col for col in df.columns if 'Municipio' in col]

    # Cria uma nova coluna 'Contagem_Municipios' que é a soma de todas as colunas 'Municipio' que não são 'Não Possui'
    df['Contagem_Municipios'] = df[colunas_municipio].apply(lambda row: sum(row != 'Não Possui'), axis=1)

    # Encontra a linha com a maior contagem de municípios
    linha_max_municipios = df[df['Contagem_Municipios'] == df['Contagem_Municipios'].max()]

    return linha_max_municipios

# Uso da função
linha_max_municipios = linha_com_mais_municipios(df)
linha_max_municipios

Unnamed: 0,Código_UC,Nome_da_UC,Esfera_Administrativa,Categoria_de_Manejo,Categoria_IUCN,Ano_do_ato_legal_mais_recente,Ato_Legal_de_Criação,Outros_atos_legais,Plano_de_Manejo,Conselho_Gestor,...,Municipio_25,Municipio_26,Municipio_27,Municipio_28,Municipio_29,Municipio_30,Municipio_31,Municipio_32,Municipio_33,Contagem_Municipios
7,0000.00.0008,ÁREA DE PROTEÇÃO AMBIENTAL CHAPADA DO ARARIPE,Federal,Área de Proteção Ambiental,Category V,1997,"Decreto SN, de 04 de agosto de 1997 de 04/08/1997",Sem informação.,Não,Sim,...,PENAFORTE (CE),PORTEIRAS (CE),POTENGI (CE),SALITRE (CE),SANTANA DO CARIRI (CE),SÃO JULIÃO (PI),SERRITA (PE),SIMÕES (PI),TRINDADE (PE),33


In [None]:
# Aqui verifico o resultado das duas funções acima e incluo mais uma coluna: 'Contagem_UFs'

def linha_com_mais_ufs(df):
    # Cria uma lista com os nomes das colunas que contêm 'UF'
    colunas_uf = [col for col in df.columns if 'UF' in col]

    # Cria uma nova coluna 'Contagem_UFs' que é a soma de todas as colunas 'UF' que não são 'Não Possui'
    df['Contagem_UFs'] = df[colunas_uf].apply(lambda row: sum(row != 'Não Possui'), axis=1)

    # Encontra a linha com a maior contagem de UFs
    linha_max_ufs = df[df['Contagem_UFs'] == df['Contagem_UFs'].max()]

    return linha_max_ufs

# Uso da função
linha_max_ufs = linha_com_mais_ufs(df)
linha_max_ufs

Unnamed: 0,Código_UC,Nome_da_UC,Esfera_Administrativa,Categoria_de_Manejo,Categoria_IUCN,Ano_do_ato_legal_mais_recente,Ato_Legal_de_Criação,Outros_atos_legais,Plano_de_Manejo,Conselho_Gestor,...,Municipio_26,Municipio_27,Municipio_28,Municipio_29,Municipio_30,Municipio_31,Municipio_32,Municipio_33,Contagem_Municipios,Contagem_UFs
149,0000.00.0156,PARQUE NACIONAL DAS NASCENTES DO RIO PARNAIBA,Federal,Parque,Category II,2015,Decreto S/N de 16/07/2002,Ampliação: Lei complementar 13090 de 12/01/2015,Não,Não,...,Não Possui,Não Possui,Não Possui,Não Possui,Não Possui,Não Possui,Não Possui,Não Possui,9,4


## Criando uma coluna com informações do ano de criação da UC

In [None]:
# Optei por criar mais uma coluna na qual é possível ter a data de criação
df['Data_Criação_UC'] = df['Ato_Legal_de_Criação'].str.extract(r'(\d{2}/\d{2}/\d{4})')

# Converte a coluna 'Data_Criação_UC' para datetime
df['Data_Criação_UC'] = pd.to_datetime(df['Data_Criação_UC'], format='%d/%m/%Y')

# Verifica as primeiras linhas para confirmar que as datas foram extraídas corretamente
print(df[['Ato_Legal_de_Criação', 'Data_Criação_UC']].head())

              Ato_Legal_de_Criação Data_Criação_UC
0        Decreto 528 de 20/05/1992      1992-05-20
1      Decreto 98182 de 26/09/1989      1989-09-26
2  Decreto nº 88.940 de 07/11/1983      1983-11-07
3      Decreto 88940 de 07/11/1983      1983-11-07
4        Decreto S/N de 27/06/2002      2002-06-27


In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2945 entries, 0 to 2944
Data columns (total 71 columns):
 #   Column                                                   Non-Null Count  Dtype         
---  ------                                                   --------------  -----         
 0   Código_UC                                                2945 non-null   object        
 1   Nome_da_UC                                               2945 non-null   object        
 2   Esfera_Administrativa                                    2945 non-null   object        
 3   Categoria_de_Manejo                                      2945 non-null   object        
 4   Categoria_IUCN                                           2945 non-null   object        
 5   Ano_do_ato_legal_mais_recente                            2945 non-null   int64         
 6   Ato_Legal_de_Criação                                     2945 non-null   object        
 7   Outros_atos_legais                                 

## Corrigindo o dtype das colunas

### Corrigindo data e hora


In [None]:
def corrigir_datas(df):
    # Convertendo colunas para datetime
    df['Ano_do_ato_legal_mais_recente'] = pd.to_datetime(df['Ano_do_ato_legal_mais_recente'], format='%Y').dt.year

    # Mapeamento dos nomes dos meses
    meses = {
        'janeiro': 'January',
        'fevereiro': 'February',
        'março': 'March',
        'abril': 'April',
        'maio': 'May',
        'junho': 'June',
        'julho': 'July',
        'agosto': 'August',
        'setembro': 'September',
        'outubro': 'October',
        'novembro': 'November',
        'dezembro': 'December'
    }

    # Removendo o dia da semana
    df['Data_da_última_certificação_dos_dados_pelo_Órgão_Gestor'] = df['Data_da_última_certificação_dos_dados_pelo_Órgão_Gestor'].str.split(',').str[1]

    # Substituindo os nomes dos meses
    for mes_pt, mes_en in meses.items():
        df['Data_da_última_certificação_dos_dados_pelo_Órgão_Gestor'] = df['Data_da_última_certificação_dos_dados_pelo_Órgão_Gestor'].str.replace(mes_pt, mes_en)

    # Convertendo a data para o formato datetime
    df['Data_da_última_certificação_dos_dados_pelo_Órgão_Gestor'] = pd.to_datetime(
        df['Data_da_última_certificação_dos_dados_pelo_Órgão_Gestor'],
        format=' %d de %B de %Y',
        errors='coerce',
        dayfirst=True
    )

    return df

# Uso da função
df = corrigir_datas(df)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2945 entries, 0 to 2944
Data columns (total 71 columns):
 #   Column                                                   Non-Null Count  Dtype         
---  ------                                                   --------------  -----         
 0   Código_UC                                                2945 non-null   object        
 1   Nome_da_UC                                               2945 non-null   object        
 2   Esfera_Administrativa                                    2945 non-null   object        
 3   Categoria_de_Manejo                                      2945 non-null   object        
 4   Categoria_IUCN                                           2945 non-null   object        
 5   Ano_do_ato_legal_mais_recente                            2945 non-null   int32         
 6   Ato_Legal_de_Criação                                     2945 non-null   object        
 7   Outros_atos_legais                                 

In [None]:
print(df['Data_Criação_UC'].head())
print(df['Data_da_última_certificação_dos_dados_pelo_Órgão_Gestor'].head())

0   1992-05-20
1   1989-09-26
2   1983-11-07
3   1983-11-07
4   2002-06-27
Name: Data_Criação_UC, dtype: datetime64[ns]
0   2023-10-30
1   2010-04-23
2   2023-09-04
3   2011-04-27
4   2023-07-24
Name: Data_da_última_certificação_dos_dados_pelo_Órgão_Gestor, dtype: datetime64[ns]


### Corrigindo floats

In [None]:
def corrigir_floats(df):
    # Lista de colunas para converter para float
    colunas_para_float = ['Área_soma_biomas', 'Área_soma_Biomas_Continental', 'Área_Ato_Legal_de_Criação', 'Amazônia',
                          'Caatinga', 'Cerrado', 'Mata_Atlântica', 'Pampa', 'Pantanal', 'Área_Marinha', '%_Além_da_linha_de_costa', 'Diferença_Área']

    # Convertendo colunas para float
    for col in colunas_para_float:
        if df[col].dtype == 'object':
            df[col] = df[col].str.replace(',', '.').astype(float)
        else:
            df[col] = df[col].astype(float)

    return df

# Uso da função
df = corrigir_floats(df)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2945 entries, 0 to 2944
Data columns (total 71 columns):
 #   Column                                                   Non-Null Count  Dtype         
---  ------                                                   --------------  -----         
 0   Código_UC                                                2945 non-null   object        
 1   Nome_da_UC                                               2945 non-null   object        
 2   Esfera_Administrativa                                    2945 non-null   object        
 3   Categoria_de_Manejo                                      2945 non-null   object        
 4   Categoria_IUCN                                           2945 non-null   object        
 5   Ano_do_ato_legal_mais_recente                            2945 non-null   int32         
 6   Ato_Legal_de_Criação                                     2945 non-null   object        
 7   Outros_atos_legais                                 

### Corrigindo os booleanos

In [None]:
def col_boolean(df):
    # Lista de colunas para converter para boolean
    colunas_boolean = ['Conselho_Gestor','Plano_de_Manejo']  # Adicione os nomes das colunas aqui

    for col in colunas_boolean:
        df[col] = df[col].map({'Sim': 1, 'Não': 0}).fillna('NaN')

    return df

# Uso da função
df = col_boolean(df)

## Eliminando dados duplicados

In [None]:
def remove_duplicatas(df):
    # Verifica se existem linhas duplicadas
    if df.duplicated().any():
        print("As linhas duplicadas são:")
        print(df[df.duplicated(keep=False)])  # Mostra todas as linhas duplicadas
        df = df.drop_duplicates()
    else:
        print("Não existem linhas duplicadas no DataFrame.")
    return df

# Uso da função
df = remove_duplicatas(df)

Não existem linhas duplicadas no DataFrame.


In [None]:
# Na hora de fazer as consultas e deparei com um erro na linha 130. Imprimi e vi
# que não havia um erro na qual eu pudesse consertar. Então eliminei a linha.

def remove_linha(df, linha):
    # Remova a linha
    df = df.drop(linha)
    # Redefina o índice
    df = df.reset_index(drop=True)

    return df
df = remove_linha(df, 130)

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2944 entries, 0 to 2943
Data columns (total 71 columns):
 #   Column                                                   Non-Null Count  Dtype         
---  ------                                                   --------------  -----         
 0   Código_UC                                                2944 non-null   object        
 1   Nome_da_UC                                               2944 non-null   object        
 2   Esfera_Administrativa                                    2944 non-null   object        
 3   Categoria_de_Manejo                                      2944 non-null   object        
 4   Categoria_IUCN                                           2944 non-null   object        
 5   Ano_do_ato_legal_mais_recente                            2944 non-null   int32         
 6   Ato_Legal_de_Criação                                     2944 non-null   object        
 7   Outros_atos_legais                                 

## Criando o dataset com os dados limpos

In [None]:
# df.to_csv('CNUC_2024_02_limpo.csv', index = False)

# 2º Etapa: Análise das informações no DF

## Análise dos dados

In [None]:
#Carrando o CSV em um DataFrame do pandas
df = pd.read_csv('/content/CNUC_2024_02_limpo.csv', sep =';')
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2944 entries, 0 to 2943
Data columns (total 71 columns):
 #   Column                                                   Non-Null Count  Dtype  
---  ------                                                   --------------  -----  
 0   Código_UC                                                2944 non-null   object 
 1   Nome_da_UC                                               2944 non-null   object 
 2   Esfera_Administrativa                                    2944 non-null   object 
 3   Categoria_de_Manejo                                      2944 non-null   object 
 4   Categoria_IUCN                                           2944 non-null   object 
 5   Ano_do_ato_legal_mais_recente                            2944 non-null   int64  
 6   Ato_Legal_de_Criação                                     2944 non-null   object 
 7   Outros_atos_legais                                       2944 non-null   object 
 8   Plano_de_Manejo             


Através da função S3 Select crie pelo menos uma consulta nos seus srquivos que utilize:

1. Uma cláusula que filtra dados usados ao menos dois operadores lógicos
2. Duas funções de agregação
3. Uma função condicional
4. Uma função de Conversão
5. Uma função de data
6. uma função de String

Com base nos levantamentos feitos previamente, pode-se sugerir algumas perguntas para a análise dos dados:

1. Priorizar a proteção de biomas sub-representados: Se a análise mostrar que certos biomas
têm menos Unidades de Conservação (UCs) do que outros, é possível propor a criação de mais
UCs nesses biomas para garantir a proteção da biodiversidade.

2. Melhorar a gestão de UCs em certos estados ou municípios: Se alguns estados ou municípios
têm um grande número de UCs, mas a frequência de certificação dos dados é baixa, isso pode
indicar problemas de gestão. É possível propor soluções para melhorar a gestão e a supervisão dessas UCs.

3. Foco nas UCs costeiras: Se uma grande proporção de UCs está localizada na costa, é possível
propor medidas específicas para proteger essas áreas, que muitas vezes são mais
vulneráveis à poluição e à pressão do desenvolvimento.

4. Aumentar a proteção das Reservas da Biosfera: Se a análise mostrar que poucas UCs são
designadas como Reservas da Biosfera, é possível propor aumentar o número dessas reservas,
que são reconhecidas internacionalmente por sua importância biológica.

5. Promover a diversidade de categorias de manejo: Se a análise mostrar que certas
categorias de manejo são mais comuns do que outras, é possível propor a promoção de uma maior
diversidade de categorias de manejo para garantir uma proteção mais abrangente da biodiversidade.

In [None]:
# Análise da distribuição de diferentes categorias de manejo
distribuicao_manejo = df['Categoria_de_Manejo'].value_counts()

# Proporção de UCs por esfera administrativa
proporcao_esfera = df['Esfera_Administrativa'].value_counts(normalize=True)

print("Distribuição de diferentes categorias de manejo:")
print(distribuicao_manejo)
print("\nProporção de UCs por esfera administrativa:")
print(proporcao_esfera)

Distribuição de diferentes categorias de manejo:
Categoria_de_Manejo
Reserva Particular do Patrimônio Natural    1215
Parque                                       568
Área de Proteção Ambiental                   458
Floresta                                     110
Estação Ecológica                            104
Refúgio de Vida Silvestre                     99
Reserva Extrativista                          96
Área de Relevante Interesse Ecológico         93
Monumento Natural                             87
Reserva Biológica                             68
Reserva de Desenvolvimento Sustentável        46
Name: count, dtype: int64

Proporção de UCs por esfera administrativa:
Esfera_Administrativa
Estadual     0.417799
Federal      0.369226
Municipal    0.212976
Name: proportion, dtype: float64


In [None]:
print(df['Data_Criação_UC'].head())
print(df['Data_da_última_certificação_dos_dados_pelo_Órgão_Gestor'].head())

0    20/05/1992
1    26/09/1989
2    07/11/1983
3    07/11/1983
4    27/06/2002
Name: Data_Criação_UC, dtype: object
0    30/10/2023
1    23/04/2010
2    04/09/2023
3    27/04/2011
4    24/07/2023
Name: Data_da_última_certificação_dos_dados_pelo_Órgão_Gestor, dtype: object


In [None]:
df['Data_Criação_UC'] = pd.to_datetime(df['Data_Criação_UC'], format='%d/%m/%Y', errors='coerce')
df['Data_da_última_certificação_dos_dados_pelo_Órgão_Gestor'] = pd.to_datetime(
    df['Data_da_última_certificação_dos_dados_pelo_Órgão_Gestor'],
    format='%d/%m/%Y',
    errors='coerce'
)

# Cria uma nova coluna para o ano da última certificação
df['Ano_da_última_certificação'] = df['Data_da_última_certificação_dos_dados_pelo_Órgão_Gestor'].dt.year

# Análisa do número de UCs criadas por ano
ucs_por_ano = df['Data_Criação_UC'].dt.year.value_counts().sort_index()

# Análisa da frequência de certificação dos dados
certificacoes_por_ano = df['Ano_da_última_certificação'].value_counts().sort_index()

print("Número de UCs criadas por ano:")
print(ucs_por_ano)
print("\nFrequência de certificação dos dados por ano:")
print(certificacoes_por_ano)

Número de UCs criadas por ano:
Data_Criação_UC
1934     1
1937     1
1939     2
1941     2
1944     1
        ..
2020    44
2021    85
2022    73
2023    31
2024     2
Name: count, Length: 78, dtype: int64

Frequência de certificação dos dados por ano:
Ano_da_última_certificação
2007    106
2008      8
2009     37
2010     60
2011    734
2012    165
2013     54
2014    129
2015     48
2016    271
2017    119
2018    152
2019    187
2020    111
2021    138
2022    112
2023    438
2024     75
Name: count, dtype: int64


In [None]:
print(df['Data_Criação_UC'].head())
print(df['Data_da_última_certificação_dos_dados_pelo_Órgão_Gestor'].head())

0   1992-05-20
1   1989-09-26
2   1983-11-07
3   1983-11-07
4   2002-06-27
Name: Data_Criação_UC, dtype: datetime64[ns]
0   NaT
1   NaT
2   NaT
3   NaT
4   NaT
Name: Data_da_última_certificação_dos_dados_pelo_Órgão_Gestor, dtype: datetime64[ns]


In [None]:
# Cria uma lista com todas as colunas de estados
colunas_estados = ['UF_' + str(i) for i in range(1, 5)]

# Concatena todas as colunas de estados em uma única série
todos_estados = pd.concat([df[coluna] for coluna in colunas_estados])

# Análisa da quantidade de UCs por estado
ucs_por_estado = todos_estados.value_counts()
print("Quantidade de UCs por Estado:")
print(ucs_por_estado)

# Cria uma lista com todas as colunas de municípios
colunas_municipios = ['Municipio_' + str(i) for i in range(1, 34)]

# Concatena todas as colunas de municípios em uma única série
todos_municipios = pd.concat([df[coluna] for coluna in colunas_municipios])

# Análisa da quantidade de UCs por município
ucs_por_municipio = todos_municipios.value_counts()
ucs_por_municipio = ucs_por_municipio[:20]  # Vamos pegar apenas os 20 municípios com mais UCs
print("\nQuantidade de UCs por Município (20 municípios com mais UCs):")
print(ucs_por_municipio)


# Análisa da proporção de UCs costeiras versus terrestres
ucs_costeiras_terrestres = df['Município_Costeiro'].value_counts()
print("\nProporção de UCs Costeiras vs Terrestres:")
print(ucs_costeiras_terrestres)

Quantidade de UCs por Estado:
Não Possui    8787
RJ             408
MG             333
SP             294
BA             277
SC             167
GO             166
ES             133
PR             113
PE             110
AM             102
RS              97
PA              97
MS              94
CE              94
MT              87
RO              78
AL              69
MA              44
DF              38
PB              36
TO              33
RN              25
AC              21
AP              20
PI              18
SE              18
RR              17
Name: count, dtype: int64

Quantidade de UCs por Município (20 municípios com mais UCs):
Não Possui                    92715
RIO DE JANEIRO (RJ)              59
BRASÍLIA (DF)                    38
PORTO SEGURO (BA)                29
NOVA FRIBURGO (RJ)               28
RECIFE (PE)                      27
SILVA JARDIM (RJ)                25
PRADO (BA)                       24
PIRENÓPOLIS (GO)                 24
PORTO VELHO (RO)         

In [None]:
# Análisa da distribuição de área de UCs por bioma
biomas = ['Amazônia', 'Caatinga', 'Cerrado', 'Mata_Atlântica', 'Pampa', 'Pantanal', 'Área_Marinha']
for bioma in biomas:
    area_total_bioma = df[bioma].sum()
    print(f"Área total de UCs no bioma {bioma}: {area_total_bioma}")

# Análisa da proporção de UCs que contêm certos biomas
ucs_por_bioma = df['Bioma_declarado'].value_counts(normalize=True) * 100
print("\nProporção de UCs que contêm certos biomas:")
print(ucs_por_bioma)

Área total de UCs no bioma Amazônia: 122362023.52000001
Área total de UCs no bioma Caatinga: 7890215.280000001
Área total de UCs no bioma Cerrado: 17964229.39
Área total de UCs no bioma Mata_Atlântica: 12683689.06
Área total de UCs no bioma Pampa: 588620.75
Área total de UCs no bioma Pantanal: 704040.3
Área total de UCs no bioma Área_Marinha: 96557060.38000001

Proporção de UCs que contêm certos biomas:
Bioma_declarado
Mata Atlântica    56.385870
Cerrado           17.968750
Amazônia          12.703804
Caatinga           8.050272
Área Marinha       2.309783
Pampa              1.630435
Pantanal           0.951087
Name: proportion, dtype: float64


In [None]:
# Análisa da quantidade de UCs que são designadas como Reservas da Biosfera
ucs_reserva_biosfera = df['Reserva_da_Biosfera'].value_counts()
print("Quantidade de UCs que são designadas como Reservas da Biosfera:")
print(ucs_reserva_biosfera)

# Análisa da quantidade de UCs que são designadas como Segunda Reserva da Biosfera
ucs_segunda_reserva_biosfera = df['Reserva_da_Biosfera_2'].value_counts()
print("\nQuantidade de UCs que são designadas como Segunda Reserva da Biosfera:")
print(ucs_segunda_reserva_biosfera)

Quantidade de UCs que são designadas como Reservas da Biosfera:
Reserva_da_Biosfera
RB - Mt Atlântica                             1475
Sem Informação                                1066
RB - Caatinga                                   98
RB - Cinturão Verde da Cidade de São Paulo      91
RB - Cerrado                                    88
RB - Pantanal                                   58
RB - Amazônia                                   44
RB - Serra do Espinhaço                         24
Name: count, dtype: int64

Quantidade de UCs que são designadas como Segunda Reserva da Biosfera:
Reserva_da_Biosfera_2
Não Possui                 2711
RB - Mt Atlântica           149
RB - Serra do Espinhaço      74
RB - Pantanal                 9
RB - Cerrado                  1
Name: count, dtype: int64


In [None]:
# Cria uma nova coluna para o ano da última certificação
df['Ano_da_última_certificação'] = df['Data_da_última_certificação_dos_dados_pelo_Órgão_Gestor'].dt.year

# Cria uma lista com todas as colunas de estados e municípios
colunas_estados = ['UF_' + str(i) for i in range(1, 5)]
colunas_municipios = ['Municipio_' + str(i) for i in range(1, 34)]

# Concatena todas as colunas de estados e municípios em uma única série
todos_estados = pd.concat([df[coluna] for coluna in colunas_estados])
todos_municipios = pd.concat([df[coluna] for coluna in colunas_municipios])

# Análisa da quantidade de UCs por estado
ucs_por_estado = todos_estados.value_counts()
print("Quantidade de UCs por Estado:")
print(ucs_por_estado)

# Análisa da quantidade de UCs por município
ucs_por_municipio = todos_municipios.value_counts()
ucs_por_municipio = ucs_por_municipio[:20]  # Vamos pegar apenas os 20 municípios com mais UCs
print("\nQuantidade de UCs por Município (20 municípios com mais UCs):")
print(ucs_por_municipio)

# Crie uma nova coluna que concatena todas as colunas de estados e municípios
df['Todos_Estados'] = df[colunas_estados].apply(lambda row: ', '.join(row.values.astype(str)), axis=1)
df['Todos_Municipios'] = df[colunas_municipios].apply(lambda row: ', '.join(row.values.astype(str)), axis=1)

# Análise da frequência de certificação dos dados por estado
certificacoes_por_estado_ano = df.groupby('Todos_Estados')['Ano_da_última_certificação'].value_counts()
print("\nFrequência de certificação dos dados por Estado e Ano:")
print(certificacoes_por_estado_ano)

Quantidade de UCs por Estado:
Não Possui    8790
RJ             408
MG             333
SP             294
BA             278
SC             167
GO             166
ES             133
PR             113
PE             110
AM             102
RS              97
PA              97
MS              94
CE              94
MT              87
RO              78
AL              69
MA              44
DF              38
PB              36
TO              33
RN              25
AC              21
AP              20
PI              18
SE              18
RR              17
Name: count, dtype: int64

Quantidade de UCs por Município (20 municípios com mais UCs):
Não Possui                    92743
RIO DE JANEIRO (RJ)              59
BRASÍLIA (DF)                    38
PORTO SEGURO (BA)                29
NOVA FRIBURGO (RJ)               28
RECIFE (PE)                      27
SILVA JARDIM (RJ)                25
PRADO (BA)                       24
PIRENÓPOLIS (GO)                 24
PORTO VELHO (RO)         

## Teste da consulta em python

In [None]:
# Função de Conversão, Função de Data, Função Condicional e Função de String
df = df.assign(
    Data_Criação_UC = pd.to_datetime(df['Data_Criação_UC'], format='%d/%m/%Y'),
    Na_Amazônia = df['Amazônia'].apply(lambda x: 'Sim' if x > 0 else 'Não'),
    Nome_da_UC = df['Nome_da_UC'].str.upper()
)

# Filtrando dados usando dois operadores lógicos
df_filtrado = df[(df['Na_Amazônia'] == 'Sim') & (df['Data_Criação_UC'].dt.year > 2000)]
# Duas Funções de Agregação
media_area = df_filtrado['Área_soma_biomas'].mean()
soma_area = df_filtrado['Área_soma_biomas'].sum()

print(f"Média da área dos biomas para UCs na Amazônia criadas após 2000: {media_area:.2f}")
print(f"Soma da área dos biomas para UCs na Amazônia criadas após 2000: {soma_area:.2f}")

Média da área dos biomas para UCs na Amazônia criadas após 2000: 359570.64
Soma da área dos biomas para UCs na Amazônia criadas após 2000: 76228975.42


# 3º Etapa: Conexão com a AWS e execução da consulta

## Credenciais AWS

In [None]:
!pip install boto3

Collecting boto3
  Downloading boto3-1.34.117-py3-none-any.whl (139 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m139.3/139.3 kB[0m [31m1.8 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting botocore<1.35.0,>=1.34.117 (from boto3)
  Downloading botocore-1.34.117-py3-none-any.whl (12.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.3/12.3 MB[0m [31m29.5 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting jmespath<2.0.0,>=0.7.1 (from boto3)
  Downloading jmespath-1.0.1-py3-none-any.whl (20 kB)
Collecting s3transfer<0.11.0,>=0.10.0 (from boto3)
  Downloading s3transfer-0.10.1-py3-none-any.whl (82 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m82.2/82.2 kB[0m [31m2.3 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: jmespath, botocore, s3transfer, boto3
Successfully installed boto3-1.34.117 botocore-1.34.117 jmespath-1.0.1 s3transfer-0.10.1


## Importando bibliotecas

In [None]:
import pandas as pd
import numpy as np
import boto3

In [None]:
import boto3
from botocore.exceptions import NoCredentialsError, PartialCredentialsError

# Configurar credenciais
aws_access_key_id =
aws_secret_access_key =
aws_session_token =

# Criar uma sessão boto3
session = boto3.Session(
    aws_access_key_id=aws_access_key_id,
    aws_secret_access_key=aws_secret_access_key,
    aws_session_token=aws_session_token
)

# Criar um cliente S3
s3 = session.client('s3')

# Nome do bucket e chave S3
bucket_name = 'desafiopamela'
s3_key = 'CNUC_2024_02_limpo.csv'
file_path = 'CNUC_2024_02_limpo.csv'

try:
    # Criar um novo bucket
    s3.create_bucket(Bucket=bucket_name)
    print(f"Bucket {bucket_name} criado com sucesso.")

    # Fazer o upload do arquivo para o bucket
    s3.upload_file(file_path, bucket_name, s3_key)
    print(f"Arquivo {s3_key} carregado com sucesso no bucket {bucket_name}.")

except NoCredentialsError:
    print("Erro: Credenciais não encontradas.")
except PartialCredentialsError:
    print("Erro: Credenciais incompletas.")
except Exception as e:
    print(f"Erro: {e}")

Bucket desafiopamela criado com sucesso.
Arquivo CNUC_2024_02_limpo.csv carregado com sucesso no bucket desafiopamela.


In [None]:
# Criar uma sessão boto3
session = boto3.Session(
    aws_access_key_id=aws_access_key_id,
    aws_secret_access_key=aws_secret_access_key,
    aws_session_token=aws_session_token  # Opcional, para credenciais temporárias
)

# Criar um cliente S3
s3 = session.client('s3')
bucket_name = 'desafiopamela'
s3_key = 'CNUC_2024_02_limpo.csv'

response = s3.select_object_content(
    Bucket=bucket_name,
    Key=s3_key,
    ExpressionType='SQL',
    Expression= """SELECT UPPER(Bioma_declarado), Contagem_UFs,
                          COALESCE(Bioma_declarado = 'Cerrado'),
                          CASE WHEN CAST(Contagem_UFs as INT) = 1 THEN 'group1'
                                            WHEN CAST(Contagem_UFs as INT) = 2 THEN 'group2'
                                            WHEN CAST(Contagem_UFs as INT) = 3 THEN 'group3'
                                            ELSE 'group4' END FROM S3Object;
            """,
    InputSerialization={'CSV': {"FileHeaderInfo": "USE", "FieldDelimiter": ";"}},
    OutputSerialization={'CSV': {}},
)

#Eu usei esse codigo para fazer testes
# for event in response['Payload']:
#     if 'Records' in event:
#         print(event['Records']['Payload'].decode('utf-8', 'ignore'))
#     elif 'Stats' in event:
#         print(event['Stats'])

# Criar um arquivo para salvar a saída
with open('string_condicinal.py', 'w') as f:
    for event in response['Payload']:
        if 'Records' in event:
            f.write(event['Records']['Payload'].decode('utf-8', 'ignore') + '\n')
        elif 'Stats' in event:
            f.write(str(event['Stats']) + '\n')