# Incêndios no Brasil
Fonte = https://www.kaggle.com/datasets/gustavomodelli/forest-fires-in-brazil


## Insights:
1. Quais **anos** houveram mais incêndios?
2. Quais **meses** houveram mais incêndios?
3. Em que **estados** houveram mais incêndios?
4. Em quais **regiões** do Brasil houveram mais incêndios?
5. Os incêndios seguem algum padrão geográfico ao longo do tempo?
6. Como varia a quantidade de incêndios de **cada região** ao longo dos meses?
7. Como variou a quantidade de incêndios de uma **região** ao longo dos anos?

In [1]:
import pandas as pd
import numpy as np
import plotly.express as px

In [2]:
df = pd.read_csv('amazon.csv', encoding='ISO-8859-1')
df.head()

Unnamed: 0,year,state,month,number,date
0,1998,Acre,Janeiro,0.0,1998-01-01
1,1999,Acre,Janeiro,0.0,1999-01-01
2,2000,Acre,Janeiro,0.0,2000-01-01
3,2001,Acre,Janeiro,0.0,2001-01-01
4,2002,Acre,Janeiro,0.0,2002-01-01


In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6454 entries, 0 to 6453
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   year    6454 non-null   int64  
 1   state   6454 non-null   object 
 2   month   6454 non-null   object 
 3   number  6454 non-null   float64
 4   date    6454 non-null   object 
dtypes: float64(1), int64(1), object(3)
memory usage: 252.2+ KB


#### Mudando o formato da data e ano


In [4]:
df['date'] = pd.to_datetime(df['date'])
df['year'] = df['year'].astype(str)
df.dtypes

year              object
state             object
month             object
number           float64
date      datetime64[ns]
dtype: object

#### Verificando a existência de valores nulos

In [5]:
df.isna().sum()

year      0
state     0
month     0
number    0
date      0
dtype: int64

### Estatística Descritiva
#### Acabei nem usando esses valores pra nada, acredito que tenha mais utilidades kkkkk ##

In [6]:
df['number'].describe()

count    6454.000000
mean      108.293163
std       190.812242
min         0.000000
25%         3.000000
50%        24.000000
75%       113.000000
max       998.000000
Name: number, dtype: float64

### 1. Em quais anos ocorreram mais incêndios?

In [32]:
df1 = df[['year', 'number']].groupby('year').sum().reset_index()

fig = px.line(df1, x=df1['year'], y=df1['number'],
              title='FOCOS DE INCÊNDIO AO LONGO DOS ANOS (1998 - 2017)',
              labels={
                 "number": " ",
                 "year": " "
                 })

fig.show()
df[['year', 'number']].groupby('year').sum().sort_values('number', ascending=False).reset_index().head()

Unnamed: 0,year,number
0,2003,42760.674
1,2016,42212.229
2,2015,41208.292
3,2012,40084.86
4,2014,39621.183


### 2. Em quais meses ocorreram mais incêndios?

In [31]:
df2 = df[['month', 'number']].groupby('month', sort=False).sum().reset_index()


fig = px.line(df2, 'month', 'number',
              title='FOCOS DE INCÊNDIO AO LONGO DOS MESES (1998 - 2017)',
              labels={
                 "number": " ",
                 "month": " "
                 })

fig.show()
df[['month', 'number']].groupby('month').sum().sort_values('number', ascending=False).reset_index().head()

Unnamed: 0,month,number
0,Julho,92326.113
1,Outubro,88681.579
2,Agosto,88050.435
3,Novembro,85508.054
4,Setembro,58578.305


### 3. Em que estados houveram mais incêndios?

In [33]:
df3 = df[['state', 'number']].groupby('state').sum().sort_values('number').reset_index()

fig = px.bar(df3, x='number', y='state', color='number', 
             title='FOCOS DE INCÊNDIO POR ESTADO (1998 - 2017)',
             labels={
                 "number": " ",
                 "state": " ",
                 "number": " "
                 })
fig.show()
df[['state', 'number']].groupby('state').sum().sort_values('number', ascending=False).reset_index().head()

Unnamed: 0,state,number
0,Mato Grosso,96246.028
1,Paraiba,52435.918
2,Sao Paulo,51121.198
3,Rio,45160.865
4,Bahia,44746.226


### 4. Em que regiões ocorreram mais incêndios?

#### Separando os estados por regiões

In [12]:
df['regiao'] = df['state'].apply(lambda x: 
        'Sudeste' if (x == 'Sao Paulo' or x =='Rio' or x =='Espirito Santo' or x =='Minas Gerais')
            else 'Sul' if (x == 'Santa Catarina')
            else 'Norte' if (x == 'Acre' or x == 'Amapa' or x == 'Roraima' or x == 'Pará' or x == 'Amazonas' or x == 'Rondonia' or x == 'Tocantins')
            else 'Centro-Oeste' if (x == 'Goias' or x == 'Mato Grosso')
            else 'Nordeste')

In [34]:
df4 = df[['regiao', 'number']].groupby('regiao').sum().sort_values('number').reset_index()

fig = px.bar(df4, 'number', 'regiao', color='number',
             title='FOCOS DE INCÊNDIO POR REGIÃO (1998 - 2017)',
             labels={
                 "number": " ",
                 "regiao": " ",
                 "number": " "
                 }
            )
fig.show()
df[['regiao', 'number']].groupby('regiao').sum().sort_values('number', ascending=False).reset_index()

Unnamed: 0,regiao,number
0,Nordeste,226483.085
1,Norte,173836.267
2,Sudeste,140303.321
3,Centro-Oeste,133941.548
4,Sul,24359.852


### 5. OS INCÊNDIOS APRESENTAM ALGUM PADRÃO GEOGRÁFICO AO LONGO DO TEMPO?

#### Aqui queria saber dos 5 estados com maior quantidade de incêndios então criei uma coluna nova só pra eles ##

In [40]:
for i in range(len(df)):
        if df.loc[i, 'state'] == 'Mato Grosso':
            df.loc[i, 'estado'] = 'Mato Grosso'
        
        elif df.loc[i, 'state'] == 'Paraiba':
            df.loc[i, 'estado'] = 'Paraiba'
        
        elif df.loc[i, 'state'] == 'Sao Paulo':
            df.loc[i, 'estado'] = 'Sao Paulo'
        
        elif df.loc[i, 'state'] == 'Rio':
            df.loc[i, 'estado'] = 'Rio'
        
        elif df.loc[i, 'state'] == 'Bahia':
            df.loc[i, 'estado'] = 'Bahia'
            

df5 = df[['estado', 'year', 'number']].groupby(['estado', 'year']).sum('number').reset_index()

fig = px.line(df5, x = 'year', y = 'number', color = 'estado',
              title='VARIAÇÃO NOS 5 ESTADOS COM MAIOR ÍNDICE DE INCÊNDIOS AO LONGO DOS ANOS (1998 - 2017)',
              labels={
                 "number": " ",
                 "estado": "Estados ",
                 "year": " "
                 }
            )
fig.show()

#### Fiz um gráfico de dispersão tb pra poder observar como a linha de tendência se comportava ao longo do tempo

In [42]:
fig = px.scatter(df5, x = 'year', y = 'number', color = 'estado', trendline="ols",
              title='VARIAÇÃO NOS 5 ESTADOS COM MAIOR ÍNDICE DE INCÊNDIOS AO LONGO DOS ANOS (1998 - 2017)',
              labels={
                 "number": " ",
                 "estado": "Estados ",
                 "year": " "
                 }
            )
fig.show()

#### Não é um gráfico bonito mas dá pra observar que: 
- Dá pra ver que os casos de incêndio no Mato Grosso aumentaram muito mais que em outros estados.
- Já em São Paulo os casos diminuíram.

### 6. Como varia a quantidade de incêndios de cada região ao longo dos meses?

In [44]:
df6 = df[['number', 'regiao', 'month']].groupby(['regiao', 'month'], sort=False).sum('number').reset_index()

fig = px.line(df6, x = 'month', y = 'number', color = 'regiao',
              title='FOCOS DE INCÊNDIO POR REGIÃO AO LONGO DOS MESES (1998 - 2017)',
              labels={
                 "number": " ",
                 "regiao": "Região ",
                 "month": " "
                 }
            )
fig.show()

- De julho pra agosto (começo do inverno) os números sobem para todos, menos Norte e Centro-Oeste
- De setembro a outubro todos sobem (e muito) menos Sul e Sudeste
- De outubro a novembro somente nordeste sobe (e muito)
    - Teria como complementar esse gráfico ou tornar essas conslusões mais visíveis?
    - Essas conslusões são de fato úteis? kkkk

### 7. Como variou a quantidade de incêndios de uma região ao longo dos anos?

In [46]:
df7 = df[['number', 'regiao', 'year']].groupby(['regiao', 'year'], sort=False).sum('number').reset_index()

fig = px.line(df7, x = 'year', y = 'number', color = 'regiao',
              title='FOCOS DE INCÊNDIO POR REGIÃO AO LONGO DOS ANOS (1998 - 2017)',
              labels={
                 "number": " ",
                 "regiao": "Região ",
                 "year": " "
                 }
            )
fig.show()

In [47]:
fig = px.scatter(df7, x = 'year', y = 'number', color = 'regiao', trendline="ols",
                 title='FOCOS DE INCÊNDIO POR REGIÃO AO LONGO DOS ANOS (1998 - 2017)',
                 labels={
                 "number": " ",
                 "regiao": "Região ",
                 "year": " "
                 },
                 hover_name = 'regiao',
            )

fig.show()

#### Aqui tb quis plotar um gráfico de dispersão pelo mesmo motivo, e dá pra ver que:
- As regiões sul e sudeste foram as que menos tiveram crescimento ao longo dos anos embora a sudeste tenha VALORES bem altos.