In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import plotly.express as px

In [2]:
url = 'https://raw.githubusercontent.com/PedroCosDi/p4dataedgeflow/main/queimadas.csv'
df = pd.read_csv(url, encoding='ISO-8859-1', sep=';')

In [3]:
print(df.head())

      date                     class  focuses           uf
0  2024/01  Desmatamento Consolidado        3         ACRE
1  2024/01  Desmatamento Consolidado        1        AMAPÁ
2  2024/01  Desmatamento Consolidado       22     AMAZONAS
3  2024/01  Desmatamento Consolidado       69     MARANHÃO
4  2024/01  Desmatamento Consolidado      274  MATO GROSSO


In [4]:
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1977 entries, 0 to 1976
Data columns (total 4 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   date     1977 non-null   object
 1   class    1977 non-null   object
 2   focuses  1977 non-null   int64 
 3   uf       1977 non-null   object
dtypes: int64(1), object(3)
memory usage: 61.9+ KB
None


In [5]:
print(df.describe())

           focuses
count  1977.000000
mean    235.412747
std     647.066236
min       1.000000
25%       6.000000
50%      27.000000
75%     156.000000
max    7803.000000


In [6]:
for column in df.columns:
    print(df[column].unique())

['2024/01' '2023/01' '2023/02' '2023/03' '2023/04' '2023/05' '2023/06'
 '2023/07' '2023/08' '2023/09' '2023/10' '2023/11' '2023/12' '2022/01'
 '2022/02' '2022/03' '2022/04' '2022/05' '2022/06' '2022/07' '2022/08'
 '2022/09' '2022/10' '2022/11' '2022/12' '2021/01' '2021/02' '2021/03'
 '2021/04' '2021/05' '2021/06' '2021/07' '2021/08' '2021/09' '2021/10'
 '2021/11' '2021/12' '2020/01' '2020/02' '2020/03' '2020/04' '2020/05'
 '2020/06' '2020/07' '2020/08' '2020/09' '2020/10' '2020/11' '2020/12'
 '2019/08' '2019/09' '2019/10' '2019/11' '2019/12']
['Desmatamento Consolidado' 'Desmatamento Recente' 'Floresta' 'Outros'
 'Vegetacao Secundaria']
[   3    1   22   69  274  308   26   59    6   27    5   64   67    4
   44   54    7   70  115  194   37   15   32   38  285   20   35   24
  105    2    9   94  148   29   31   25   19   57    8  108   17  118
   11   77  270   49   13   39   16   12   88  250   62   18   45  149
  239  271   30   92   10   23   68   79  379  123  453  312   33   14


In [7]:
# Gráfico de barras para contagem de cada UF
uf_counts = df['uf'].value_counts().reset_index()
uf_counts.columns = ['uf', 'count']
fig = px.bar(uf_counts, x='uf', y='count', title='Contagem de ocorrências por estado',
             labels={'count': 'Número de ocorrências'}, color='uf')
fig.update_traces(marker_line_width=1, marker_line_color="black")
fig.show()

In [8]:
# Gráfico de barras para contagem de cada Class
class_counts = df['class'].value_counts().reset_index()
class_counts.columns = ['class', 'count']
fig = px.bar(class_counts, x='class', y='count', title='Contagem de ocorrências por classe',
             labels={'count': 'Número de ocorrências'}, color='class')
fig.update_traces(marker_line_width=1, marker_line_color="black")
fig.show()

In [9]:
# Gráfico de barras agrupadas para distribuição de Class por UF
uf_class_counts = df.groupby(['uf', 'class']).size().unstack(fill_value=0).reset_index()
fig = px.bar(uf_class_counts, x='uf', y=uf_class_counts.columns[1:], title='Distribuição de classe por estado',
             labels={'value': 'Número de ocorrências', 'class': 'Classe'}, barmode='stack')
fig.update_layout(barmode='stack', xaxis={'categoryorder':'total descending'})
fig.update_traces(marker_line_width=1, marker_line_color="black")
fig.show()

In [10]:
# Convertendo a coluna 'date' para o tipo datetime
df['date'] = pd.to_datetime(df['date'])

# Ordenando o DataFrame pelo 'date'
df_sorted = df.sort_values(by='date')

# Plotando o gráfico de linha
fig = px.line(df_sorted, x='date', y='focuses', color='uf', title='Número de focos por estado ao longo do tempo')
fig.update_layout(xaxis_title='Data', yaxis_title='Número de focos')
fig.show()