<h1>
    <p align="center">
        <b>
            <font color='gold'>
        An√°lise Explorat√≥ria: Inc√™ndios Florestais Brasileiros üî•üå≥
            </font>
        </b>
    </p>
</h1>

# <font color='gold'> **Objetivos da An√°lise** üéØ </font>
---

Nesse projeto, realizaremos uma Analise Explorat√≥ria de Dados (EDA) em um [banco de dados](https://www.kaggle.com/datasets/gustavomodelli/forest-fires-in-brazil) que cont√©m uma s√©rie hist√≥rica de inc√™ndios florestais no Brasil em diferentes estados. Mais especificamente, desse projeto iremos:

- üé≤ Realizar uma an√°lise descritiva das caracter√≠sticas principais dos dados, como suas dimens√µes, seus registros e tipos de dados, valores nulos e outliers, etc;

- üßπ Limpar e tratar os dados;

- üìä Utilizar de visualiza√ß√µes gr√°ficas para gera√ß√£o de insights e an√°lises mais aprofundadas acerca dos inc√™ndios e suas caracter√≠sticas.

Como quest√µes centrais que abordaremos nessa pesquisa, temos:

>***1. Quais os estados e regi√µes mais afetados por inc√™ndios durante toda a s√©rie hist√≥rica?***
>
>***2. Qual a d√©cada com mais registros de inc√™ndios no Brasil?***
>
>***3. Durante qual per√≠odo de qual governante brasileiro tivemos mais inc√™ndios no Brasil? e qual o menor valor?***

Entre outras quest√µes que ser√£o abordadas durante o projeto.

# <font color='gold'>***Importando Pacotes e Conhecendo Dados*** üì¶üé≤</font>
---

In [42]:
# Importando bibliotecas necess√°rias para a an√°lise:
import pandas as pd
import numpy as np
import matplotlib
import matplotlib.pyplot as plt
import seaborn as sns
import warnings

# Definindo par√¢metros:

# Setando estilo escuro do grid para os gr√°ficos.
sns.set_theme(context='notebook', style='darkgrid')

# Utilizando a biblioteca warnings para retirar avisos da execu√ß√£o do c√≥digo
# para uma visualiza√ß√£o mais limpa.
warnings.filterwarnings('ignore')

# Mostrando vers√µes utilizadas dos pacotes:
print('Pacotes Prontos! Vers√µes Utilizadas:\n')
print(f'Pandas      --> {pd.__version__}')
print(f'Numpy       --> {np.__version__}')
print(f'Matplotlib  --> {matplotlib.__version__}')
print(f'Seaborn     --> {sns.__version__}')

Pacotes Prontos! Vers√µes Utilizadas:

Pandas      --> 1.4.2
Numpy       --> 1.21.5
Matplotlib  --> 3.6.2
Seaborn     --> 0.11.2


In [43]:
# Criando o Dataframe:
data = pd.read_csv('data/amazon.csv', sep=',', encoding='latin-1')

<font color='gold'> ‚ö†Ô∏è**Nota** </font>

>A sele√ß√£o do encoding como [latin-1](https://www.ic.unicamp.br/~stolfi/EXPORT/www/ISO-8859-1-Encoding.html) foi utilizada pois existem caracteres especiais nos dados, assim, a defini√ß√£o do enconding espec√≠fico foi necess√°ria (em vez do padr√£o UTF-8).

In [44]:
# Visualizando primeiros 5 registros dos dados:
data.head()

Unnamed: 0,year,state,month,number,date
0,1998,Acre,Janeiro,0.0,1998-01-01
1,1999,Acre,Janeiro,0.0,1999-01-01
2,2000,Acre,Janeiro,0.0,2000-01-01
3,2001,Acre,Janeiro,0.0,2001-01-01
4,2002,Acre,Janeiro,0.0,2002-01-01


In [45]:
# Visualizando uma sample aleat√≥ria dos dados:
data.sample(5)

Unnamed: 0,year,state,month,number,date
1122,2003,Bahia,Setembro,8.847,2003-01-01
4440,2015,Rio,Julho,74.0,2015-01-01
6383,2006,Tocantins,Setembro,2.979,2006-01-01
2266,2012,Maranhao,Junho,915.0,2012-01-01
4744,2000,Rio,Novembro,9.0,2000-01-01


Para termos uma compreens√£o clara de nossos dados, iremos criar um dicion√°rio de vari√°veis contendo as colunas do Dataset e a descri√ß√£o de seu conte√∫do:

| Vari√°vel   | Conte√∫do                                 |
|------------|------------------------------------------|
| `year`     | Ano em que o inc√™ndio florestal ocorreu  |
| `state`    | Estado brasileiro                        |
| `month`    | M√™s em que o inc√™ndio ocorreu            |
| `number`   | Quantidade de inc√™ndios reportados       |
| `date`     | Data em que o inc√™ndio foi reportado     |

Com alguns dos registros aparentes, uma caracter√≠stica not√°vel √© a aparente duplicata nas colunas. 

- A coluna `year`, que representa o ano em que o inc√™ndio ocorreu e a coluna `date` que informa a data em que o inc√™ndio foi reportado, aparentam possuir os mesmos dados:

    - Quando a coluna year apresenta o ano de 1998, a coluna date informa a data 1998-01-01, e esse padr√£o da coluna date apenas repetir a coluna year com a adi√ß√£o das datas "1 de Janeiro" se mostra presente em todo dataset como mostrado pelo uso do comando `data.sample(5)`.

Dessa forma, iremos arranjar essas informa√ß√µes de uma maneira diferente:

- Substituir os valores da coluna `month` por num√©ricos ('Janeiro' = 1, 'Fevereiro' = 2, etc);

- Utilizar a coluna `date` para mostrar o ano e o m√™s (agora em formato num√©rico) do registro;

- Transformar essa nova coluna `date` para datetime.

Como outros ajustes, tamb√©m iremos renomear as colunas para que tenham a primeira letra mai√∫scula e tamb√©m, renomear algumas colunas. Tamb√©m iremos inserir algumas novas colunas para fortalecer as an√°lises, tendo essas etapas ocorrendo na etapa de limpeza e tratamento dos dados.

Para uma vis√£o mais completa das dimens√µes dos dados que estamos trabalhando, vamos checar o shape do Dataset:

In [46]:
# Checando dimens√µes dos dados:
data.shape

(6454, 5)

Temos ***6454 registros*** em ***5 vari√°veis***.

Tamb√©m se faz necess√°ria a checagem do tipo de dados dessas vari√°veis:

In [47]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6454 entries, 0 to 6453
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   year    6454 non-null   int64  
 1   state   6454 non-null   object 
 2   month   6454 non-null   object 
 3   number  6454 non-null   float64
 4   date    6454 non-null   object 
dtypes: float64(1), int64(1), object(3)
memory usage: 252.2+ KB


Com essa visualiza√ß√£o, temos algumas informa√ß√µes importantes sobre os dados:

- O dataset n√£o possui null values;

- As colunas `year`, `month` e `date` ser√£o unidas numa s√≥ coluna datetime;

- Os dados alocam pouca quantidade de mem√≥ria (cerca de 250 Kb).

Para coletarmos mais informa√ß√µes sobre poss√≠veis outliers e tamb√©m sobre a distribui√ß√£o dos dados, utilizaremos o m√©todo `.describe()`:

In [99]:
# Descri√ß√£o estat√≠stica dos dados (colunas num√©ricas):
data.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
year,6454.0,2007.461729,5.746654,1998.0,2002.0,2007.0,2012.0,2017.0
number,6454.0,108.293163,190.812242,0.0,3.0,24.0,113.0,998.0


Com a descri√ß√£o estat√≠stica das colunas num√©ricas do dataset, podemos notar:

- At√© 75% dos dados (terceiro quantil) relacionados ao n√∫mero de inc√™ndios relatados v√£o at√© 113, j√° o valor m√°ximo √© de 998, um outlier claro.

Nesse caso, outliers s√£o esperados como "normais", pois se tratando de n√∫mero de focos de inc√™ndios florestais num pa√≠s continental como o Brasil, n√£o existe uma regra ou uma l√≥gica exata que dita o intervalo desses n√∫meros, tendo muitas vari√°vies que os influenciam (a√ß√£o humana mais intensa ou menos intensa numa determinada regi√£o num determinado per√≠odo de tempo, uma esta√ß√£o do ano muito mais fria ou quente do que o normal, etc).

Sendo assim, os registros de n√∫mero de focos de inc√™ndio n√£o ser√£o alterados, pois buscamos ter uma vis√£o completa desses dados.

Tamb√©m iremos coletar informa√ß√µes sobre as colunas categ√≥ricas do dataset:

In [98]:
# Descri√ß√£o estat√≠stica dos dados (colunas categ√≥ricas):
data.describe(exclude='number').T

Unnamed: 0,count,unique,top,freq
state,6454,23,Rio,717
month,6454,12,Janeiro,541
date,6454,20,1998-01-01,324


Com isso, temos a informa√ß√£o de que o estado que mais vezes consta no dataset √© o Rio de Janeiro, com 717 registros diferentes de focos de inc√™ndio.

Tamb√©m temos a informa√ß√£o de que o m√™s mais comum nos dados √© Janeiro.

√â importante termos em mente que isso n√£o necessariamente significa que o estado do Rio de Janeiro e o m√™s de Janeiro s√£o os que mais possuem focos de inc√™ndio no geral. Apenas estamos indicando que essas duas informa√ß√µes s√£o as mais presentes nos dados, sem considerarmos a dimens√£o e quantidade dos focos de inc√™ndio atribuidos a eles.

# <font color='gold'> ***Limpeza e Tratamento*** üóÉÔ∏è </font>