Incêndios são um sério problema no Brasil. Conforme declarado na descrição do conjunto de dados, "Compreender a frequência de incêndios florestais em uma série temporal pode ajudar a tomar medidas para evitá-los". Ser capaz de identificar onde e quando essa frequência é mais observada deve dar alguma clareza sobre qual é o escopo que estamos analisando.

Este é um pequeno conjunto de dados que nos é apresentado, com cerca de 6.500 observações e 5 recursos; é uma mistura entre valores categóricos e numéricos.

### Adquirindo e carregando dados

_Apresentando o código e métodos para adquirir os dados. Carregando os dados no formato apropriado para análise. Explicando o processo e os resultados_

In [18]:
#primeiro vamos importar todas as bibliotecas necessárias para esta análise
import numpy as np
import pandas as pd
import plotly.graph_objects as go
import plotly.express as px

In [19]:
#using biblioteca do pandas e função 'read_csv' para ler o arquivo csv da amazon como arquivo já formatado
amazonia_df=pd.read_csv('./CSV/amazon.csv', encoding='latin1')
#examinando o cabecalho do conjunto de dados
amazonia_df.head(10)

Unnamed: 0,year,state,month,number,date
0,1998,Acre,Janeiro,0.0,1998-01-01
1,1999,Acre,Janeiro,0.0,1999-01-01
2,2000,Acre,Janeiro,0.0,2000-01-01
3,2001,Acre,Janeiro,0.0,2001-01-01
4,2002,Acre,Janeiro,0.0,2002-01-01
5,2003,Acre,Janeiro,10.0,2003-01-01
6,2004,Acre,Janeiro,0.0,2004-01-01
7,2005,Acre,Janeiro,12.0,2005-01-01
8,2006,Acre,Janeiro,4.0,2006-01-01
9,2007,Acre,Janeiro,0.0,2007-01-01


### Compreendendo dados

_Exame dos recursos apresentados no conjunto de dados para análise. Explicando o processo e os resultados_

In [20]:
#verificando o comprimento do conjunto de dados
len(amazonia_df)

6454

In [21]:
#verificando se existem nulos com os quais estamos lidando (dados ausentes)
amazonia_df.isna().sum()

year      0
state     0
month     0
number    0
date      0
dtype: int64

In [22]:
#checando valores exclusivos na coluna state
amazonia_df.state.unique()

array(['Acre', 'Alagoas', 'Amapa', 'Amazonas', 'Bahia', 'Ceara',
       'Distrito Federal', 'Espirito Santo', 'Goias', 'Maranhao',
       'Mato Grosso', 'Minas Gerais', 'Pará', 'Paraiba', 'Pernambuco',
       'Piau', 'Rio', 'Rondonia', 'Roraima', 'Santa Catarina',
       'Sao Paulo', 'Sergipe', 'Tocantins'], dtype=object)

In [23]:
#checando valores exclusivos na coluna mês
amazonia_df.month.unique()

array(['Janeiro', 'Fevereiro', 'Março', 'Abril', 'Maio', 'Junho', 'Julho',
       'Agosto', 'Setembro', 'Outubro', 'Novembro', 'Dezembro'],
      dtype=object)

Aqui, é importante observar que os meses que nos são apresentados não estão em inglês. Portanto, para facilitar a análise e os espectadores.

In [24]:
#criando um dicionário com traduções de meses
month_map={'Janeiro': 'January', 'Fevereiro': 'February', 'Março': 'March', 'Abril': 'April', 'Maio': 'May',
          'Junho': 'June', 'Julho': 'July', 'Agosto': 'August', 'Setembro': 'September', 'Outubro': 'October',
          'Novembro': 'November', 'Dezembro': 'December'}
#mapeando nossos meses traduzidos
amazonia_df['month']=amazonia_df['month'].map(month_map)
#checando a coluna do mês pela segunda vez depois que as alterações foram feitas
amazonia_df.month.unique()

array(['January', 'February', 'March', 'April', 'May', 'June', 'July',
       'August', 'September', 'October', 'November', 'December'],
      dtype=object)

In [25]:
#a distribuição percentual numérica dos incêndios relatados
amazonia_df.number.describe()

count    6454.000000
mean      108.293163
std       190.812242
min         0.000000
25%         3.000000
50%        24.000000
75%       113.000000
max       998.000000
Name: number, dtype: float64

Aqui, já podemos apontar observações interessantes de que o percentil de 50% de todas as observações (em todos os meses, anos e regiões) soma até 24 relatórios de incêndio.

In [26]:
#checando quantos incêndios foram relatados em 20 anos 
amazonia_df.number.sum()

698924.073

In [27]:
#já recebemos a coluna do ano; no entanto, para boas práticas, também podemos extraí-la da data em que
amazonia_df['Year']=pd.DatetimeIndex(amazonia_df['date']).year
#checando anos únicos na nova coluna criada
amazonia_df.Year.unique()

array([1998, 1999, 2000, 2001, 2002, 2003, 2004, 2005, 2006, 2007, 2008,
       2009, 2010, 2011, 2012, 2013, 2014, 2015, 2016, 2017], dtype=int64)

In [28]:
amazonia_df['Year']

0       1998
1       1999
2       2000
3       2001
4       2002
5       2003
6       2004
7       2005
8       2006
9       2007
10      2008
11      2009
12      2010
13      2011
14      2012
15      2013
16      2014
17      2015
18      2016
19      2017
20      1998
21      1999
22      2000
23      2001
24      2002
25      2003
26      2004
27      2005
28      2006
29      2007
        ... 
6424    2007
6425    2008
6426    2009
6427    2010
6428    2011
6429    2012
6430    2013
6431    2014
6432    2015
6433    2016
6434    2017
6435    1998
6436    1999
6437    2000
6438    2001
6439    2002
6440    2003
6441    2004
6442    2005
6443    2006
6444    2007
6445    2008
6446    2009
6447    2010
6448    2011
6449    2012
6450    2013
6451    2014
6452    2015
6453    2016
Name: Year, Length: 6454, dtype: int64

### Explorando Dados

_Explorar os dados analisando suas estatísticas e visualizando os valores dos recursos e correlações entre os diferentes recursos. Explicando o processo e os resultados_

In [29]:
#ordem de alteração de colunas para o formato preferido
amazonia_df=amazonia_df[['state','number','month','Year']]
#alterando nomes de colunas para o formato preferido
amazonia_df.rename(columns={'state': 'State', 'number': 'Fire_Number', 'month': 'Month'}, inplace=True)
#verificando as alterações feitas
amazonia_df

Unnamed: 0,State,Fire_Number,Month,Year
0,Acre,0.0,January,1998
1,Acre,0.0,January,1999
2,Acre,0.0,January,2000
3,Acre,0.0,January,2001
4,Acre,0.0,January,2002
5,Acre,10.0,January,2003
6,Acre,0.0,January,2004
7,Acre,12.0,January,2005
8,Acre,4.0,January,2006
9,Acre,0.0,January,2007


Primeiro, será interessante observar a tendência dos incêndios relatados ao longo de 20 anos.

In [30]:
#criando uma lista de anos que temos 
years=list(amazonia_df.Year.unique())
#criando uma lista vazia, que será preenchida posteriormente com a quantidade de incêndios relatados
sub_fires_per_year=[]
#usando o loop for para extrair a soma de incêndios relatados para cada ano e anexar a lista acima
for i in years:
    y=amazonia_df.loc[amazonia_df['Year']==i].Fire_Number.sum().round(0)
    sub_fires_per_year.append(y)
#criando um dicionário com resultados
fire_year_dic={'Year':years,'Total_Fires':sub_fires_per_year}
#criando um novo sub-quadro de dados para plotagem posterior
time_plot_1_df=pd.DataFrame(fire_year_dic)
#verificando o dataframe
time_plot_1_df.head(5)

Unnamed: 0,Year,Total_Fires
0,1998,20014.0
1,1999,26883.0
2,2000,27351.0
3,2001,29072.0
4,2002,37391.0


In [33]:
#Com a idéia de olhar mais fundo, será necessário um pouco mais de preparação

#colocando todos os estados disponíveis na lista
states=list(amazonia_df.State.unique())
#criando lista vazia para cada estado que será anexado posteriormente
acre_list=[]
alagoas_list=[] 
amapa_list=[] 
amazonas_list=[] 
bahia_list=[] 
ceara_list=[]
distrito_list=[] 
espirito_list=[] 
goias_list=[] 
maranhao_list=[] 
mato_list=[] 
minas_list=[]
para_list=[] 
paraiba_list=[] 
perna_list=[]
piau_list=[]
rio_list=[]
rondonia_list=[]
roraima_list=[]
santa_list=[]
sao_list=[]
sergipe_list=[]
tocantins_list=[]

In [37]:
#Fica interessante aqui
#quebrar incêndios relatados para cada estado ao longo de 20 anos e anexar listas vazias
for x in states:
    st=x
    for i in years:
        ye=i
        if st=='Acre':
            y=amazonia_df.loc[(amazonia_df['State']== st) & (amazonia_df['Year']== ye)].Fire_Number.sum().round(0)
            acre_list.append(y)
        elif st=='Alagoas':
            y=amazonia_df.loc[(amazonia_df['State']== st) & (amazonia_df['Year']== ye)].Fire_Number.sum().round(0)
            alagoas_list.append(y)
        elif st=='Amazonas':
            y=amazonia_df.loc[(amazonia_df['State']== st) & (amazonia_df['Year']== ye)].Fire_Number.sum().round(0)
            amazonas_list.append(y)
        elif st=='Amapa':
            y=amazonia_df.loc[(amazonia_df['State']== st) & (amazonia_df['Year']== ye)].Fire_Number.sum().round(0)
            amapa_list.append(y)
        elif st=='Bahia':
            y=amazonia_df.loc[(amazonia_df['State']== st) & (amazonia_df['Year']== ye)].Fire_Number.sum().round(0)
            bahia_list.append(y)
        elif st=='Ceara':
            y=amazonia_df.loc[(amazonia_df['State']== st) & (amazonia_df['Year']== ye)].Fire_Number.sum().round(0)
            ceara_list.append(y)
        elif st=='Distrito Federal':
            y=amazonia_df.loc[(amazonia_df['State']== st) & (amazonia_df['Year']== ye)].Fire_Number.sum().round(0)
            distrito_list.append(y)
        elif st=='Espirito Santo':
            y=amazonia_df.loc[(amazonia_df['State']== st) & (amazonia_df['Year']== ye)].Fire_Number.sum().round(0)
            espirito_list.append(y)
        elif st=='Goias':
            y=amazonia_df.loc[(amazonia_df['State']== st) & (amazonia_df['Year']== ye)].Fire_Number.sum().round(0)
            goias_list.append(y)
        elif st=='Maranhao':
            y=amazonia_df.loc[(amazonia_df['State']== st) & (amazonia_df['Year']== ye)].Fire_Number.sum().round(0)
            maranhao_list.append(y)
        elif st=='Mato Grosso':
            y=amazonia_df.loc[(amazonia_df['State']== st) & (amazonia_df['Year']== ye)].Fire_Number.sum().round(0)
            mato_list.append(y)
        elif st=='Minas Gerais':
            y=amazonia_df.loc[(amazonia_df['State']== st) & (amazonia_df['Year']== ye)].Fire_Number.sum().round(0)
            minas_list.append(y)
        elif st=='Pará':
            y=amazonia_df.loc[(amazonia_df['State']== st) & (amazonia_df['Year']== ye)].Fire_Number.sum().round(0)
            para_list.append(y)
        elif st=='Paraiba':
            y=amazonia_df.loc[(amazonia_df['State']== st) & (amazonia_df['Year']== ye)].Fire_Number.sum().round(0)
            paraiba_list.append(y)
        elif st=='Pernambuco':
            y=amazonia_df.loc[(amazonia_df['State']== st) & (amazonia_df['Year']== ye)].Fire_Number.sum().round(0)
            perna_list.append(y)
        elif st=='Piau':
            y=amazonia_df.loc[(amazonia_df['State']== st) & (amazonia_df['Year']== ye)].Fire_Number.sum().round(0)
            piau_list.append(y)
        elif st=='Rio':
            y=amazonia_df.loc[(amazonia_df['State']== st) & (amazonia_df['Year']== ye)].Fire_Number.sum().round(0)
            rio_list.append(y)
        elif st=='Rondonia':
            y=amazonia_df.loc[(amazonia_df['State']== st) & (amazonia_df['Year']== ye)].Fire_Number.sum().round(0)
            rondonia_list.append(y)
        elif st=='Roraima':
            y=amazonia_df.loc[(amazonia_df['State']== st) & (amazonia_df['Year']== ye)].Fire_Number.sum().round(0)
            roraima_list.append(y)
        elif st=='Santa Catarina':
            y=amazonia_df.loc[(amazonia_df['State']== st) & (amazonia_df['Year']== ye)].Fire_Number.sum().round(0)
            santa_list.append(y)
        elif st=='Sao Paulo':
            y=amazonia_df.loc[(amazonia_df['State']== st) & (amazonia_df['Year']== ye)].Fire_Number.sum().round(0)
            sao_list.append(y)
        elif st=='Sergipe':
            y=amazonia_df.loc[(amazonia_df['State']== st) & (amazonia_df['Year']== ye)].Fire_Number.sum().round(0)
            sergipe_list.append(y)
        elif st=='Tocantins':
            y=amazonia_df.loc[(amazonia_df['State']== st) & (amazonia_df['Year']== ye)].Fire_Number.sum().round(0)
            tocantins_list.append(y)

In [38]:
#com essas listas preenchidas, agora criando um poderoso dataframe
time_plot_2_df=pd.DataFrame(list(zip(years, acre_list, alagoas_list, amapa_list, amazonas_list,
                                     bahia_list, ceara_list, distrito_list, espirito_list,
                                     goias_list, maranhao_list, mato_list, minas_list, para_list,
                                     paraiba_list, perna_list, piau_list, rio_list, rondonia_list,
                                     roraima_list, santa_list, sao_list, sergipe_list, tocantins_list)),
                            columns =['Year', 'Acre', 'Alagoas', 'Amapa', 'Amazonas', 'Bahia', 'Ceara',
                                      'Distrito Federal', 'Espirito Santo', 'Goias', 'Maranhao',
                                      'Mato Grosso', 'Minas Gerais', 'Pará', 'Paraiba', 'Pernambuco',
                                      'Piau', 'Rio', 'Rondonia', 'Roraima', 'Santa Catarina',
                                      'Sao Paulo', 'Sergipe', 'Tocantins'])
#vamos olhar o dataframe
time_plot_2_df.head(10)

Unnamed: 0,Year,Acre,Alagoas,Amapa,Amazonas,Bahia,Ceara,Distrito Federal,Espirito Santo,Goias,...,Paraiba,Pernambuco,Piau,Rio,Rondonia,Roraima,Santa Catarina,Sao Paulo,Sergipe,Tocantins
0,1998,730.0,86.0,278.0,946.0,1225.0,1612.0,103.0,218.0,750.0,...,816.0,767.0,1494.0,1149.0,916.0,21.0,59.0,3196.0,20.0,913.0
1,1999,333.0,172.0,101.0,1061.0,1198.0,1688.0,46.0,240.0,1910.0,...,3437.0,463.0,2015.0,1030.0,209.0,220.0,364.0,4249.0,93.0,608.0
2,2000,434.0,123.0,253.0,853.0,1379.0,2211.0,48.0,175.0,2516.0,...,2804.0,691.0,1112.0,650.0,868.0,362.0,306.0,4128.0,17.0,994.0
3,2001,828.0,86.0,1301.0,1297.0,2428.0,1848.0,64.0,130.0,2066.0,...,2073.0,1080.0,731.0,857.0,1004.0,1309.0,200.0,2926.0,24.0,2039.0
4,2002,1544.0,258.0,862.0,2852.0,2281.0,454.0,149.0,297.0,1619.0,...,2249.0,1909.0,1504.0,2945.0,1452.0,2224.0,1715.0,3539.0,208.0,1919.0
5,2003,947.0,299.0,1652.0,1524.0,3076.0,796.0,96.0,708.0,2079.0,...,2797.0,2431.0,1964.0,3438.0,1465.0,1789.0,1609.0,3306.0,403.0,1582.0
6,2004,1184.0,159.0,2261.0,2298.0,1644.0,383.0,279.0,174.0,1799.0,...,2761.0,1683.0,1778.0,3437.0,920.0,1457.0,2955.0,2864.0,190.0,1003.0
7,2005,984.0,217.0,1271.0,1657.0,2358.0,680.0,92.0,121.0,1709.0,...,3427.0,1520.0,2211.0,2297.0,1678.0,860.0,1483.0,2123.0,200.0,1398.0
8,2006,1221.0,161.0,817.0,998.0,2509.0,1109.0,76.0,215.0,1294.0,...,3308.0,1268.0,2358.0,2501.0,680.0,1245.0,1855.0,2209.0,147.0,1002.0
9,2007,1213.0,128.0,440.0,590.0,2210.0,1712.0,274.0,382.0,888.0,...,2665.0,1631.0,2714.0,2067.0,396.0,1863.0,1230.0,1877.0,124.0,2160.0


In [39]:
#examinando os 10 principais estados com mais incêndios relatados
time_plot_2_df.sum().nlargest(11)

Mato Grosso     96245.0
Paraiba         52437.0
Sao Paulo       51120.0
Rio             45160.0
Bahia           44747.0
Year            40150.0
Piau            37805.0
Goias           37694.0
Minas Gerais    37475.0
Tocantins       33707.0
Amazonas        30652.0
dtype: float64

Agora, sabemos quais estados (10 principais) estão gerando mais relatórios de incêndio. Vamos visualizar esses números para obter uma compreensão ainda melhor!