**Projeto Final de Análise de Dados**

Desenvolvido por:

Paloma Avena  palomaavena@gmail.com

Anne Ribeiro  anne.asribeiro@gmail.com



**Contexto**
Este projeto consiste na criação de um banco de dados e análise destes dados de desmatamento e CO2 do estado da Bahia nos últimos 5 anos.

**Etapas do projeto:**


1. Selecionar a Base de Dados
2. Definir Objetivo e Perguntas
3. Realizar Análise Exploratória
4. Gerar Base Final
5. Criar Visualizações no Tableau
6. Preparar Apresentação Final







**Bases Escolhidas**

Base 1: MapBiomas Alertas
https://plataforma.alerta.mapbiomas.org/downloads

Base 2: Sistema de Estimativas de Emissões e Remoções de Gases de Efeito Estufa (SEEG)
https://plataforma.seeg.eco.br/?highlight=states-net-emissions-by-sector-goias&_gl=1*1nqir75*_ga*NTI0MDk2MzUwLjE3Mjc1NDQ0NjA.*_ga_XZWSWEJDWQ*MTcyNzU0NDQ2MC4xLjAuMTcyNzU0NDQ2MC4wLjAuMA..

**Objetivo Geral:**

Criar um banco de dados e realizar uma análise dos dados com o objetivo de identificar variáveis de como o desmatamento na Bahia impacta nas taxas de emissão de CO2 ?

**As perguntas norteadoras deste projeto são:**

Como o desmatamento na Bahia impacta as taxas de emissão de CO₂ e qual sua relação com a temperatura dos oceanos?

Qual a taxa de desmatamento nos biomas/municípios da Bahia e como ela evoluiu no período de 2019 a 2022?

Qual a taxa de CO2 nos municípios da Bahia e como ela evoluiu no período de 2019 a 2022?

Existe uma relação entre as áreas desmatadas e o aumento de CO2?

Quais regiões da Bahia apresentam as maiores emissões de carbono derivadas do desmatamento?

Houve alguma alteração no período da Pandemia?

**Ferramentas Utilizadas:**

Banco de dados
Python (Jupyter Notebook): Para a análise exploratória de dados utilizando bibliotecas como Pandas, Seaborn, Matplotlib, etc.
Tableau: Para criar as visualizações finais e apresentar os insights gerados.
GitHub: Para versionamento do projeto e documentação.
Google Colab (opcional): Para execução de notebooks de forma colaborativa e em nuvem.



Instalando o **Python**: Acesse o site oficial do Python (https://www.python.org/) e baixe a versão mais recente para o seu sistema operacional. Siga as instruções de instalação para configurar o Python em seu computador.

Instalando o  **Visual Studio Code (VS Code)**: Acesse o site (https://code.visualstudio.com/).

**Extensões** que irão tornar o processo de desenvolvimento mais simples e intuitivo:

SQLite: Essa extensão essencial oferece recursos para abrir e editar arquivos SQLite (.db), executar consultas SQL, visualizar dados e até mesmo criar tabelas e colunas diretamente no VS Code.

SQLite Viewer: Com o SQLite Viewer, você pode visualizar seus dados SQLite de forma gráfica, sem precisar escrever código. Ele oferece uma interface simples e amigável para navegar pelas tabelas, visualizar os dados e editar registros.


**Bibliotecas e módulos:**

sqlite3
csv
Pandas
Seaborn
Matplotlib


**Lendo Dados de um Arquivo CSV e Inserindo no Banco**

Vamos começar lendo dados de um arquivo CSV e inserindo-os em uma tabela do banco de dados SQLite.

In [None]:
# Criando a Tabela no SQLite
# Primeiro, vamos criar uma tabela no banco de dados SQLite onde os dados do CSV serão armazenados.

import sqlite3

# Conectando ao banco de dados SQLite (ou criando se não existir)
conn = sqlite3.connect('banco_projeto.db')
cursor = conn.cursor()

# Criando a tabela
cursor.execute("""
CREATE TABLE IF NOT EXISTS dados_projeto (
    id INTEGER PRIMARY KEY AUTOINCREMENT,
    municipio TEXT NOT NULL,
    ano INTEGER NOT NULL,
    co2_t INTEGER NOT NULL,
    area_ha INTEGER NOT NULL,

)
""")

# Salvando as mudanças
conn.commit()



> Adicionar aspas

Talvez essa parte seja no final apos os dados trabalhados

> Adicionar aspas



In [None]:
# Agora, vamos ler o arquivo CSV e inserir os dados na tabela:

import csv
import sqlite3

# Conectando ao banco de dados
conn = sqlite3.connect('banco_projeto.db')
cursor = conn.cursor()

# Abrindo o arquivo CSV  , dados.csv o nome do arquivo
with open('dados.csv', 'r') as arquivo_csv:   # with open('clientes.csv', newline='', encoding='utf-8') as csvfile:
    leitor_csv = csv.reader(arquivo_csv)      #    leitor = csv.reader(csvfile)

    # Pulando o cabeçalho
    next(leitor_csv)    #   next(leitor)

    # Inserindo cada linha do CSV na tabela
    for linha in leitor_csv:      #    for linha in leitor:
        cursor.execute("INSERT INTO dados_projeto (id, municipio, ano, co2_t, area_ha) VALUES (?, ?, ?, ?, ?)", (linha[0], int(linha[1]))   # cursor.execute("INSERT INTO clientes (nome, email) VALUES (?, ?)", (linha[1], linha[2]))

   # Insere vários estudantes de uma vez
     # cursor.executemany("INSERT INTO estudantes (nome, idade) VALUES (?, ?)", estudantes)

        # consultar https://github.com/palomaavena/on35-python-s08-banco-de-dados-II/tree/main/exercicios/para-casa

# Salvando as mudanças
conn.commit()

# Fechando a conexão
cursor.close()
conn.close()


**Análise exploratória de dados**



1. DADOS DE CO2



Coleta de dados CO2 Bahia, SEEG:


link: https://plataforma.seeg.eco.br/?highlight=states-net-emissions-by-sector-bahia&_gl=1*gambxz*_ga*MTk5NTgxNjM5MS4xNzI1NjQzNTE1*_ga_XZWSWEJDWQ*MTcyNTY0MzUxNS4xLjAuMTcyNTY0MzUxNS4wLjAuMA..blob:https://plataforma.seeg.eco.br/845fd445-2d02-43a9-bb87-14435bfb6c1b


CO2: quantidade em tonelada

In [None]:
# como fazer o download direto com o link?

import requests

# URL do arquivo CSV
url = 'https://plataforma.seeg.eco.br/900a4305-86dd-4409-9b21-4e869a8d4768'
# Nome do arquivo para salvar
filename = 'co2_seeg.csv'

# Fazer o download do arquivo
response = requests.get(url)

# Verificar se o download foi bem-sucedido
if response.status_code == 200:
    with open('co2_seeg.csv', 'wb') as file:
        file.write(response.content)
    print(f"Arquivo {'co2_seeg.csv'} baixado com sucesso!")
else:
    print(f"Falha ao baixar o arquivo. Status code: {response.status_code}")

Arquivo co2_seeg.csv baixado com sucesso!


Merge (mesclar) dados csv

In [8]:
# Primeiro, instale a biblioteca pandas se ainda não estiver instalada
!pip install pandas

# Importando os dados
import pandas as pd
import csv

# Carregando os dois arquivos CSV
# Caso esteja rodando localmente, altere o caminho dos arquivos.
# No Colab, você pode fazer upload dos arquivos com os botões de upload
df1 = pd.read_csv('SEEG.csv')
df2 = pd.read_csv('SEEG1.csv')

# Exibindo as primeiras linhas dos DataFrames para verificar
print(df1.head())
print(df2.head())


#with open('maio_abril_2024.csv', newline='', encoding='utf-8') as csvfile:
  #  leitor = csv.reader(csvfile)
 #   for linha in leitor:
 #       print(linha)



                            Categoria          1990          1991  \
0  Mudança de Uso da Terra e Floresta  7.034675e+07  7.178002e+07   

           1992          1993          1994          1995          1996  \
0  6.619761e+07  7.059627e+07  6.556189e+07  6.583727e+07  5.788894e+07   

           1997          1998  ...          2013          2014          2015  \
0  4.795778e+07  4.590264e+07  ...  5.195822e+07  3.719111e+07  3.190265e+07   

           2016          2017          2018          2019          2020  \
0  3.130805e+07  3.234297e+07  3.804942e+07  3.372027e+07  3.324519e+07   

           2021      2022  
0  3.181527e+07  31412973  

[1 rows x 34 columns]
                   Categoria          1990          1991          1992  \
0         São Desidério (BA)  2.002523e+06  2.116496e+06  1.342632e+06   
1  Formosa do Rio Preto (BA)  8.268747e+05  3.994671e+05  5.396696e+05   
2             Jaborandi (BA)  5.986577e+05  3.230176e+05  5.522217e+05   
3            Correntina

In [22]:
# Converta todas as colunas de anos para string, por exemplo
df1[['2019', '2020', '2021', '2022']] = df1[['2019', '2020', '2021', '2022']].astype(str)
df2[['2019', '2020', '2021', '2022']] = df2[['2019', '2020', '2021', '2022']].astype(str)

# Converta a coluna Categoria também, se necessário
df1['Categoria'] = df1['Categoria'].astype(str)
df2['Categoria'] = df2['Categoria'].astype(str)


# Exibindo as primeiras linhas dos DataFrames para verificar
print(df1.head())
print(df2.head())


                            Categoria          1990          1991  \
0  Mudança de Uso da Terra e Floresta  7.034675e+07  7.178002e+07   

           1992          1993          1994          1995          1996  \
0  6.619761e+07  7.059627e+07  6.556189e+07  6.583727e+07  5.788894e+07   

           1997          1998  ...          2013          2014          2015  \
0  4.795778e+07  4.590264e+07  ...  5.195822e+07  3.719111e+07  3.190265e+07   

           2016          2017          2018                2019  \
0  3.130805e+07  3.234297e+07  3.804942e+07  33720265.584785685   

                 2020               2021      2022  
0  33245186.445011582  31815271.56421204  31412973  

[1 rows x 34 columns]
                   Categoria          1990          1991          1992  \
0         São Desidério (BA)  2.002523e+06  2.116496e+06  1.342632e+06   
1  Formosa do Rio Preto (BA)  8.268747e+05  3.994671e+05  5.396696e+05   
2             Jaborandi (BA)  5.986577e+05  3.230176e+05  5.522

In [23]:
# Remover espaços em branco no início e no fim dos valores das colunas de chave
df1['Categoria'] = df1['Categoria'].str.strip()
df2['Categoria'] = df2['Categoria'].str.strip()

# Para as colunas de ano
for col in ['2019', '2020', '2021', '2022']:
    df1[col] = df1[col].str.strip()
    df2[col] = df2[col].str.strip()

# Exibindo as primeiras linhas dos DataFrames para verificar
print(df1.head())
print(df2.head())


                            Categoria          1990          1991  \
0  Mudança de Uso da Terra e Floresta  7.034675e+07  7.178002e+07   

           1992          1993          1994          1995          1996  \
0  6.619761e+07  7.059627e+07  6.556189e+07  6.583727e+07  5.788894e+07   

           1997          1998  ...          2013          2014          2015  \
0  4.795778e+07  4.590264e+07  ...  5.195822e+07  3.719111e+07  3.190265e+07   

           2016          2017          2018                2019  \
0  3.130805e+07  3.234297e+07  3.804942e+07  33720265.584785685   

                 2020               2021      2022  
0  33245186.445011582  31815271.56421204  31412973  

[1 rows x 34 columns]
                   Categoria          1990          1991          1992  \
0         São Desidério (BA)  2.002523e+06  2.116496e+06  1.342632e+06   
1  Formosa do Rio Preto (BA)  8.268747e+05  3.994671e+05  5.396696e+05   
2             Jaborandi (BA)  5.986577e+05  3.230176e+05  5.522

In [24]:
print("Valores únicos de Categoria no df1:", df1['Categoria'].unique())
print("Valores únicos de Categoria no df2:", df2['Categoria'].unique())


Valores únicos de Categoria no df1: ['Mudança de Uso da Terra e Floresta']
Valores únicos de Categoria no df2: ['São Desidério (BA)' 'Formosa do Rio Preto (BA)' 'Jaborandi (BA)'
 'Correntina (BA)' 'Barreiras (BA)' 'Riachão das Neves (BA)'
 'Santa Rita de Cássia (BA)' 'Jequié (BA)' 'Encruzilhada (BA)'
 'Baianópolis (BA)' 'Valença (BA)' 'Cocos (BA)' 'Belmonte (BA)'
 'Luís Eduardo Magalhães (BA)' 'Barra (BA)' 'Cotegipe (BA)'
 'Ibirapitanga (BA)' 'Itagibá (BA)' 'Itapetinga (BA)' 'Iguaí (BA)'
 'Maraú (BA)' 'Ibicuí (BA)' 'Guaratinga (BA)' 'Nilo Peçanha (BA)'
 'Camamu (BA)' 'Itambé (BA)' 'Dário Meira (BA)' 'Igrapiúna (BA)'
 'Ilhéus (BA)' 'Itarantim (BA)' 'Outros']


In [25]:
# Fazendo a mesclagem com base em várias colunas
df_merged = pd.merge(df1, df2, on=['Categoria', '2019', '2020', '2021', '2022'], how='outer', suffixes=('.x', '.y'))


# Exibindo as primeiras linhas do arquivo mesclado
print(df_merged.head())

# Salvando o arquivo final mesclado em um novo CSV
df_merged.to_csv('co2_mesclado.csv', index=False)


          Categoria  1990.x  1991.x  1992.x  1993.x  1994.x  1995.x  1996.x  \
0  Baianópolis (BA)     NaN     NaN     NaN     NaN     NaN     NaN     NaN   
1        Barra (BA)     NaN     NaN     NaN     NaN     NaN     NaN     NaN   
2    Barreiras (BA)     NaN     NaN     NaN     NaN     NaN     NaN     NaN   
3     Belmonte (BA)     NaN     NaN     NaN     NaN     NaN     NaN     NaN   
4       Camamu (BA)     NaN     NaN     NaN     NaN     NaN     NaN     NaN   

   1997.x  1998.x  ...         2009.y         2010.y        2011.y  \
0     NaN     NaN  ...  201533.680923  198100.860538  6.037104e+05   
1     NaN     NaN  ...  293285.996844  190840.199123  2.542452e+05   
2     NaN     NaN  ...  782536.543400  499205.103294  1.123564e+06   
3     NaN     NaN  ...  305481.817527  362152.208117  3.601907e+05   
4     NaN     NaN  ...  233046.682173  244347.041716  1.454052e+05   

         2012.y        2013.y        2014.y        2015.y         2016.y  \
0  6.769915e+05  6.462472e+0

In [26]:
df_merged.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32 entries, 0 to 31
Data columns (total 63 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   Categoria  32 non-null     object 
 1   1990.x     1 non-null      float64
 2   1991.x     1 non-null      float64
 3   1992.x     1 non-null      float64
 4   1993.x     1 non-null      float64
 5   1994.x     1 non-null      float64
 6   1995.x     1 non-null      float64
 7   1996.x     1 non-null      float64
 8   1997.x     1 non-null      float64
 9   1998.x     1 non-null      float64
 10  1999.x     1 non-null      float64
 11  2000.x     1 non-null      float64
 12  2001.x     1 non-null      float64
 13  2002.x     1 non-null      float64
 14  2003.x     1 non-null      float64
 15  2004.x     1 non-null      float64
 16  2005.x     1 non-null      float64
 17  2006.x     1 non-null      float64
 18  2007.x     1 non-null      float64
 19  2008.x     1 non-null      float64
 20  2009.x     1

In [27]:
# Exibe os nomes das colunas
df_merged.columns

Index(['Categoria', '1990.x', '1991.x', '1992.x', '1993.x', '1994.x', '1995.x',
       '1996.x', '1997.x', '1998.x', '1999.x', '2000.x', '2001.x', '2002.x',
       '2003.x', '2004.x', '2005.x', '2006.x', '2007.x', '2008.x', '2009.x',
       '2010.x', '2011.x', '2012.x', '2013.x', '2014.x', '2015.x', '2016.x',
       '2017.x', '2018.x', '2019', '2020', '2021', '2022', '1990.y', '1991.y',
       '1992.y', '1993.y', '1994.y', '1995.y', '1996.y', '1997.y', '1998.y',
       '1999.y', '2000.y', '2001.y', '2002.y', '2003.y', '2004.y', '2005.y',
       '2006.y', '2007.y', '2008.y', '2009.y', '2010.y', '2011.y', '2012.y',
       '2013.y', '2014.y', '2015.y', '2016.y', '2017.y', '2018.y'],
      dtype='object')

In [36]:
# Selecionar 3 colunas específicas
df_reduzido = df_merged[['Categoria','2019', '2020', '2021', '2022']]
print(df_co2)

                             Categoria                2019  \
0                     Baianópolis (BA)   607436.7982445955   
1                           Barra (BA)   226011.0523688793   
2                       Barreiras (BA)  1568927.0175619423   
3                        Belmonte (BA)   390403.1881421805   
4                          Camamu (BA)  221471.44368362427   
5                           Cocos (BA)    959394.147064954   
6                      Correntina (BA)   1545572.943816781   
7                        Cotegipe (BA)   331163.8086628318   
8                     Dário Meira (BA)   94401.96469908953   
9                    Encruzilhada (BA)   403895.9177992344   
10           Formosa do Rio Preto (BA)  4220327.0016454905   
11                     Guaratinga (BA)  211708.01093423367   
12                         Ibicuí (BA)  16963.917866706848   
13                   Ibirapitanga (BA)   86205.62920188904   
14                      Igrapiúna (BA)   257694.0746061802   
15      

In [37]:
# Altera os nomes das colunas
df_reduzido.columns = ['Municípios', '2019', '2020', '2021', '2022']
print(df_reduzido)

                            Municípios                2019  \
0                     Baianópolis (BA)   607436.7982445955   
1                           Barra (BA)   226011.0523688793   
2                       Barreiras (BA)  1568927.0175619423   
3                        Belmonte (BA)   390403.1881421805   
4                          Camamu (BA)  221471.44368362427   
5                           Cocos (BA)    959394.147064954   
6                      Correntina (BA)   1545572.943816781   
7                        Cotegipe (BA)   331163.8086628318   
8                     Dário Meira (BA)   94401.96469908953   
9                    Encruzilhada (BA)   403895.9177992344   
10           Formosa do Rio Preto (BA)  4220327.0016454905   
11                     Guaratinga (BA)  211708.01093423367   
12                         Ibicuí (BA)  16963.917866706848   
13                   Ibirapitanga (BA)   86205.62920188904   
14                      Igrapiúna (BA)   257694.0746061802   
15      

In [41]:
# Verifica valores nulos
nulos = df_reduzido.isnull()
print(nulos)

# Contagem de valores nulos em cada coluna
nulos_por_coluna = df_reduzido.isnull().sum()
print(nulos_por_coluna)

    Municípios   2019   2020   2021   2022
0        False  False  False  False  False
1        False  False  False  False  False
2        False  False  False  False  False
3        False  False  False  False  False
4        False  False  False  False  False
5        False  False  False  False  False
6        False  False  False  False  False
7        False  False  False  False  False
8        False  False  False  False  False
9        False  False  False  False  False
10       False  False  False  False  False
11       False  False  False  False  False
12       False  False  False  False  False
13       False  False  False  False  False
14       False  False  False  False  False
15       False  False  False  False  False
16       False  False  False  False  False
17       False  False  False  False  False
18       False  False  False  False  False
19       False  False  False  False  False
20       False  False  False  False  False
21       False  False  False  False  False
22       Fa

In [42]:
# Remove linhas duplicadas
df_sem_duplicatas = df_reduzido.drop_duplicates()
print(df_sem_duplicatas)

                            Municípios                2019  \
0                     Baianópolis (BA)   607436.7982445955   
1                           Barra (BA)   226011.0523688793   
2                       Barreiras (BA)  1568927.0175619423   
3                        Belmonte (BA)   390403.1881421805   
4                          Camamu (BA)  221471.44368362427   
5                           Cocos (BA)    959394.147064954   
6                      Correntina (BA)   1545572.943816781   
7                        Cotegipe (BA)   331163.8086628318   
8                     Dário Meira (BA)   94401.96469908953   
9                    Encruzilhada (BA)   403895.9177992344   
10           Formosa do Rio Preto (BA)  4220327.0016454905   
11                     Guaratinga (BA)  211708.01093423367   
12                         Ibicuí (BA)  16963.917866706848   
13                   Ibirapitanga (BA)   86205.62920188904   
14                      Igrapiúna (BA)   257694.0746061802   
15      

In [44]:
# Salvando o arquivo final mesclado em um novo CSV

df_sem_duplicatas.to_csv('co2.csv', index=False)

df_co2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32 entries, 0 to 31
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   Municípios  32 non-null     object
 1   2019        32 non-null     object
 2   2020        32 non-null     object
 3   2021        32 non-null     object
 4   2022        32 non-null     object
dtypes: object(5)
memory usage: 1.4+ KB
