# <font color='gold'> ***An√°lise Explorat√≥ria: Inc√™ndios Florestais Brasileiros*** </font> üî•üå≥

# <font color='gold'> ***Objetivos da An√°lise*** üéØ </font>
---

Nesse projeto, realizaremos uma Analise Explorat√≥ria de Dados (EDA) em um [banco de dados](https://www.kaggle.com/datasets/gustavomodelli/forest-fires-in-brazil) que cont√©m uma s√©rie hist√≥rica de inc√™ndios florestais no Brasil em diferentes estados. Mais especificamente, desse projeto iremos:

- üé≤ Realizar uma an√°lise descritiva das caracter√≠sticas principais dos dados, como suas dimens√µes, seus registros e tipos de dados, valores nulos e outliers, etc;

- üßπ Limpar e tratar os dados;

- üìä Utilizar de visualiza√ß√µes gr√°ficas para gera√ß√£o de insights e an√°lises mais aprofundadas acerca dos inc√™ndios e suas caracter√≠sticas.

Como quest√µes centrais que abordaremos nessa pesquisa, temos:

>***1. Quais os estados e regi√µes mais afetados por inc√™ndios durante toda a s√©rie hist√≥rica?***
>
>***2. Durante qual per√≠odo de qual governante brasileiro tivemos mais inc√™ndios no Brasil? e qual o menor valor?***

Entre outras quest√µes que ser√£o abordadas durante o projeto.

# <font color='gold'>***Importando Pacotes e Conhecendo Dados*** üì¶üé≤</font>
---

In [842]:
# Importando bibliotecas necess√°rias para a an√°lise:
import pandas as pd
import numpy as np
import matplotlib
import matplotlib.pyplot as plt
import seaborn as sns
import warnings

# Definindo par√¢metros:

# Setando estilo escuro do grid para os gr√°ficos.
sns.set_theme(context='notebook', style='darkgrid')

# Utilizando a biblioteca warnings para retirar avisos da execu√ß√£o do c√≥digo
# para uma visualiza√ß√£o mais limpa.
warnings.filterwarnings('ignore')

# Mostrando vers√µes utilizadas dos pacotes:
print('Pacotes Prontos! Vers√µes Utilizadas:\n')
print(f'Pandas      --> {pd.__version__}')
print(f'Numpy       --> {np.__version__}')
print(f'Matplotlib  --> {matplotlib.__version__}')
print(f'Seaborn     --> {sns.__version__}')

Pacotes Prontos! Vers√µes Utilizadas:

Pandas      --> 1.4.2
Numpy       --> 1.21.5
Matplotlib  --> 3.6.2
Seaborn     --> 0.11.2


In [843]:
# Criando o Dataframe:
data = pd.read_csv('data/amazon.csv', sep=',', encoding='latin-1')

<font color='gold'> ‚ö†Ô∏è**Nota** </font>

>A sele√ß√£o do encoding como [latin-1](https://www.ic.unicamp.br/~stolfi/EXPORT/www/ISO-8859-1-Encoding.html) foi utilizada pois existem caracteres especiais nos dados, assim, a defini√ß√£o do enconding espec√≠fico foi necess√°ria (em vez do padr√£o UTF-8).

In [844]:
# Visualizando primeiros 5 registros dos dados:
data.head()

Unnamed: 0,year,state,month,number,date
0,1998,Acre,Janeiro,0.0,1998-01-01
1,1999,Acre,Janeiro,0.0,1999-01-01
2,2000,Acre,Janeiro,0.0,2000-01-01
3,2001,Acre,Janeiro,0.0,2001-01-01
4,2002,Acre,Janeiro,0.0,2002-01-01


In [845]:
# Visualizando uma sample aleat√≥ria dos dados:
data.sample(5)

Unnamed: 0,year,state,month,number,date
5976,1998,Sergipe,Janeiro,0.0,1998-01-01
2444,2011,Mato Grosso,Mar√ßo,252.0,2011-01-01
447,2005,Alagoas,Novembro,25.0,2005-01-01
2264,2010,Maranhao,Junho,494.0,2010-01-01
2176,2002,Maranhao,Fevereiro,116.0,2002-01-01


Para termos uma compreens√£o clara de nossos dados, iremos criar um dicion√°rio de vari√°veis contendo as colunas do Dataset e a descri√ß√£o de seu conte√∫do:

| Vari√°vel   | Conte√∫do                                 |
|------------|------------------------------------------|
| `year`     | Ano em que o inc√™ndio florestal ocorreu  |
| `state`    | Estado brasileiro                        |
| `month`    | M√™s em que o inc√™ndio ocorreu            |
| `number`   | Quantidade de inc√™ndios reportados       |
| `date`     | Data em que o inc√™ndio foi reportado     |

Com alguns dos registros aparentes, uma caracter√≠stica not√°vel √© a aparente duplicata nas colunas. 

- A coluna `year`, que representa o ano em que o inc√™ndio ocorreu e a coluna `date` que informa a data em que o inc√™ndio foi reportado, aparentam possuir os mesmos dados:

    - Quando a coluna year apresenta o ano de 1998, a coluna date informa a data 1998-01-01, e esse padr√£o da coluna date apenas repetir a coluna year com a adi√ß√£o das datas "1 de Janeiro" se mostra presente em todo dataset como mostrado pelo uso do comando `data.sample(5)`.

Dessa forma, iremos arranjar essas informa√ß√µes de uma maneira diferente:

- Substituir os valores da coluna `month` por num√©ricos ('Janeiro' = 1, 'Fevereiro' = 2, etc);

- Utilizar a coluna `date` para mostrar o ano e o m√™s (agora em formato num√©rico) do registro;

- Transformar essa nova coluna `date` para datetime.

Como outros ajustes, tamb√©m iremos renomear as colunas para que tenham a primeira letra mai√∫scula e tamb√©m, renomear algumas colunas. Tamb√©m iremos inserir algumas novas colunas para fortalecer as an√°lises, tendo essas etapas ocorrendo na etapa de limpeza e tratamento dos dados.

Para uma vis√£o mais completa das dimens√µes dos dados que estamos trabalhando, vamos checar o shape do Dataset:

In [846]:
# Checando dimens√µes dos dados:
data.shape

(6454, 5)

Temos ***6454 registros*** em ***5 vari√°veis***.

Tamb√©m se faz necess√°ria a checagem do tipo de dados dessas vari√°veis:

In [847]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6454 entries, 0 to 6453
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   year    6454 non-null   int64  
 1   state   6454 non-null   object 
 2   month   6454 non-null   object 
 3   number  6454 non-null   float64
 4   date    6454 non-null   object 
dtypes: float64(1), int64(1), object(3)
memory usage: 252.2+ KB


Com essa visualiza√ß√£o, temos algumas informa√ß√µes importantes sobre os dados:

- O dataset n√£o possui null values;

- As colunas `year`, `month` e `date` ser√£o unidas numa s√≥ coluna datetime;

- Os dados alocam pouca quantidade de mem√≥ria (cerca de 250 Kb).

Para coletarmos mais informa√ß√µes sobre poss√≠veis outliers e tamb√©m sobre a distribui√ß√£o dos dados, utilizaremos o m√©todo `.describe()`:

In [848]:
# Descri√ß√£o estat√≠stica dos dados (colunas num√©ricas):
data.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
year,6454.0,2007.461729,5.746654,1998.0,2002.0,2007.0,2012.0,2017.0
number,6454.0,108.293163,190.812242,0.0,3.0,24.0,113.0,998.0


Com a descri√ß√£o estat√≠stica das colunas num√©ricas do dataset, podemos notar:

- At√© 75% dos dados (terceiro quantil) relacionados ao n√∫mero de inc√™ndios relatados v√£o at√© 113, j√° o valor m√°ximo √© de 998, um outlier claro.

Nesse caso, outliers s√£o esperados como "normais", pois se tratando de n√∫mero de focos de inc√™ndios florestais num pa√≠s continental como o Brasil, n√£o existe uma regra ou uma l√≥gica exata que dita o intervalo desses n√∫meros, tendo muitas vari√°vies que os influenciam (a√ß√£o humana mais intensa ou menos intensa numa determinada regi√£o num determinado per√≠odo de tempo, uma esta√ß√£o do ano muito mais fria ou quente do que o normal, etc).

Sendo assim, os registros de n√∫mero de focos de inc√™ndio n√£o ser√£o alterados, pois buscamos ter uma vis√£o completa desses dados.

Tamb√©m iremos coletar informa√ß√µes sobre as colunas categ√≥ricas do dataset:

In [849]:
# Descri√ß√£o estat√≠stica dos dados (colunas categ√≥ricas):
data.describe(exclude='number').T

Unnamed: 0,count,unique,top,freq
state,6454,23,Rio,717
month,6454,12,Janeiro,541
date,6454,20,1998-01-01,324


Com isso, temos a informa√ß√£o de que o estado que mais vezes consta no dataset √© o Rio de Janeiro, com 717 registros diferentes de focos de inc√™ndio.

Tamb√©m temos a informa√ß√£o de que o m√™s mais comum nos dados √© Janeiro.

√â importante termos em mente que isso n√£o necessariamente significa que o estado do Rio de Janeiro e o m√™s de Janeiro s√£o os que mais possuem focos de inc√™ndio no geral. Apenas estamos indicando que essas duas informa√ß√µes s√£o as mais presentes nos dados, sem considerarmos a dimens√£o e quantidade dos focos de inc√™ndio atribuidos a eles.

# <font color='gold'> ***Limpeza e Tratamento*** üóÉÔ∏è </font>

Nessa etapa, iremos realizar todas as modifica√ß√µes e tratamentos que descrevemos anteriormente. Come√ßando pelo refatoramento das colunas `year`, `date` e `month`. Para isso, iremos primeiramente definir uma fun√ß√£o para iterar sobre nossos dados e passar os meses de linhas de texto para n√∫meros.

## **Reformulando formato de data**:

In [850]:
def month_string_to_int(df: pd.DataFrame) -> pd.DataFrame:
    '''Essa fun√ß√£o pega um Dataframe fornecido pelo usu√°rio e altera
    os valores dos meses de linhas de texto para n√∫meros.

    Utilizando uma fun√ß√£o lambda, checamos cada string dos meses, onde cada
    uma delas recebe um n√∫mero equivalente ao m√™s do ano.
    '''
    df['month'] = df['month'].apply(
        lambda month_id:
        1 if month_id == 'Janeiro' else
        2 if month_id == 'Fevereiro' else
        3 if month_id == 'Mar√ßo' else
        4 if month_id == 'Abril' else
        5 if month_id == 'Maio' else
        6 if month_id == 'Junho' else
        7 if month_id == 'Julho' else
        8 if month_id == 'Agosto' else
        9 if month_id == 'Setembro' else
        10 if month_id == 'Outubro' else
        11 if month_id == 'Novembro' else
        12 if month_id == 'Dezembro' else
        month_id
    )   


Antes de iniciarmos as modifica√ß√µes nos dados, √© uma boa pr√°tica criar uma c√≥pia dos mesmos, assim se preservam os dados no formato original e se cria outra vers√£o para a limpeza e manipula√ß√£o:

In [851]:
# Criando c√≥pia dos dados para limpeza:
data_clean = data.copy()

In [852]:
# Aplicando a fun√ß√£o no dataset:
data_clean == month_string_to_int(data_clean)

# Exibindo novos resultados:
data_clean.sample(5)

Unnamed: 0,year,state,month,number,date
3231,2001,Par√°,7,708.0,2001-01-01
2963,2012,Minas Gerais,5,144.0,2012-01-01
6410,2013,Tocantins,10,2.155,2013-01-01
3776,2008,Paraiba,10,78.0,2008-01-01
1486,2009,Distrito Federal,3,0.0,2009-01-01


Agora que os meses est√£o no formato num√©rico (ainda com o dtype string, por√©m com valores num√©ricos), vamos criar um m√©todo para unificar a coluna `month` com a coluna `year`, para termos o ano e o m√™s do inc√™ndio florestal na mesma coluna:

In [853]:
# Definindo quais as colunas a serem manipuladas:
columns = ['year', 'month']

# Com uma fun√ß√£o lambda, unificaremos os valores da coluna 'year' e 'month'
# utilizando o caracter '-', retornando assim a data no formato 'ano-m√™s':
data_clean['date'] = data_clean[columns].apply(
    lambda new_date: 
    '-'.join(new_date.values.astype(str)), axis=1
)

In [854]:
# Checando resultados:
data_clean.sample(5)

Unnamed: 0,year,state,month,number,date
6025,2007,Sergipe,3,2.0,2007-3
64,2002,Acre,4,0.0,2002-4
5436,2015,Roraima,9,77.0,2015-9
6274,2017,Tocantins,3,98.0,2017-3
1757,2001,Espirito Santo,5,8.0,2001-5


Agora que temos a coluna `date` constando o ano e o m√™s do inc√™ndio florestal, basta atribuir o data type `datetime` √† ela:

In [855]:
# Transformando a coluna date para datetime:
data_clean['date'] = pd.to_datetime(data_clean['date'])

# Checando resultados:
data_clean.sample(5)

Unnamed: 0,year,state,month,number,date
3982,2015,Pernambuco,8,21.0,2015-08-01
6440,2003,Tocantins,12,109.0,2003-12-01
2583,2010,Mato Grosso,10,4.465,2010-10-01
1850,2014,Espirito Santo,9,61.0,2014-09-01
1061,2002,Bahia,6,118.0,2002-06-01


In [856]:
# Checando dtypes:
data_clean.dtypes

year               int64
state             object
month              int64
number           float64
date      datetime64[ns]
dtype: object

Com essa nova coluna `date`, temos a informa√ß√£o das datas dos inc√™ndios florestais no formato apropriado. Agora, vamos dropar as colunas `year` e `month`:

In [857]:
# Excluindo coluna month:
data_clean = data_clean.drop(['month', 'year'], axis=1)

In [858]:
# Checando novo formato dos dados:
data_clean.sample(5)

Unnamed: 0,state,number,date
3080,Minas Gerais,246.0,2009-11-01
2074,Goias,1.898,1999-09-01
1555,Distrito Federal,17.0,1998-07-01
5713,Santa Catarina,84.0,2013-11-01
1901,Espirito Santo,5.0,2005-12-01


## **Criando novas vari√°veis**

Com os dados no formato atual, j√° se √© poss√≠vel realizar algumas an√°lises, por√©m, visamos nesse projeto uma vis√£o mais aprofundada dos inc√™ndios florestais no Brasil, e por essa raz√£o se faz necess√°ria a cria√ß√£o de algumas novas vari√°veis para nossos dados, sendo elas:

- Coluna `UF` > A coluna que representar√° a Unidade da Federa√ß√£o do estado (SP, RJ, BA, etc). Essa coluna ser√° criada pois os nomes dos estados n√£o podem ser confiados de estarem no formato adequado para cria√ß√£o de Dashboards e an√°lises, como exemplo, o estado do Rio de Janeiro apenas consta com o nome 'Rio' no dataset. Sendo assim, a cria√ß√£o da coluna UF vem como forma de padronizar esses indicadores de estado.

- Coluna `Region` > A coluna que representar√° a regi√£o brasileira na qual o estado pertence (Norte, Sul, Sudeste, etc). Essa coluna ser√° concebida como forma de aprofundar as an√°lises posteriores, nos possibilitando ter respostas acerca de quais regi√µes foram mais e menos afetadas pelos inc√™ndios.

- Coluna `President` > A coluna que representar√° o nome de qual mandat√°rio brasileiro estava em vig√™ncia quando os inc√™ndios ocorreram. Essa coluna nos permitir√° ter um olhar mais hist√≥rico acerca desses registros, onde poderemos comparar as diferentes gest√µes dos diversos mandat√°rios nesses per√≠odos e identificar quais passaram por um per√≠odo de mais ou menos inc√™ndios.

### Criando coluna: UF

Para a cria√ß√£o da coluna `UF`, iremos criar uma fun√ß√£o que percorre os dados e atribui a UF correta para seu respectivo estado, para isso, vamos checar quais s√£o os estados presentes no Dataset:

In [859]:
# Checando quais estados aparecem nos dados:
states = list(data_clean['state'].unique())

for (index, names) in enumerate(states, start=1):
    print(f'Estado {index:2} --> {names}')

Estado  1 --> Acre
Estado  2 --> Alagoas
Estado  3 --> Amapa
Estado  4 --> Amazonas
Estado  5 --> Bahia
Estado  6 --> Ceara
Estado  7 --> Distrito Federal
Estado  8 --> Espirito Santo
Estado  9 --> Goias
Estado 10 --> Maranhao
Estado 11 --> Mato Grosso
Estado 12 --> Minas Gerais
Estado 13 --> Par√°
Estado 14 --> Paraiba
Estado 15 --> Pernambuco
Estado 16 --> Piau
Estado 17 --> Rio
Estado 18 --> Rondonia
Estado 19 --> Roraima
Estado 20 --> Santa Catarina
Estado 21 --> Sao Paulo
Estado 22 --> Sergipe
Estado 23 --> Tocantins


√â aparente que nem todos os estados da na√ß√£o est√£o presentes nos dados. Temos 23 estados diferentes por√©m o Brasil possu√≠ 27 unidades federativas. 

Outro fator relevante √© o registro errado do estado de Piau√≠, que consta apenas como 'Piau'. Esse registro errado apenas fortalece o motivo da qual estamos criando a coluna UF, para padronizar esses dados e garantir que todos est√£o corretamente representados.

Antes de definir nossa fun√ß√£o de cria√ß√£o das UFs, vamos corrigir essa entrada do estado de Piau√≠ e tamb√©m adicionar o nome completo do estado do Rio de Janeiro:

In [860]:
# Corrigindo registros de Rio de Janeiro e Piau√≠:
data_clean['state'] = (
    data_clean['state']
    .replace(['Rio', 'Piau'], ['Rio de Janeiro', 'Piaui'])
)

# Checando os novos registros:
data_clean.query('state == "Rio de Janeiro" | state == "Piaui"').sample(5)

Unnamed: 0,state,number,date
4763,Rio de Janeiro,29.0,1999-12-01
4494,Rio de Janeiro,18.0,2009-10-01
4961,Rio de Janeiro,169.0,1998-10-01
4541,Rio de Janeiro,5.0,2016-12-01
4831,Rio de Janeiro,38.0,2008-03-01


Com os estados presentes nos dados de maneira correta, podemos definir nossa fun√ß√£o de atribui√ß√£o das UFs:

In [861]:
def set_uf(df: pd.DataFrame) -> pd.DataFrame:
    '''Essa fun√ß√£o recebe um dataframe, itera sobre os registros e
    atribui aos estados suas respectivas UFs.
    
    Para isso, criamos um dicion√°rio que cont√©m o par 'estado: UF' e 
    e atribu√≠mos diretamente esses valores a nova coluna.
    '''
    state_uf = {
        'Acre': 'AC',
        'Alagoas': 'AL',
        'Amapa': 'AP',
        'Amazonas': 'AM',
        'Bahia': 'BA',
        'Ceara': 'CE',
        'Distrito Federal': 'DF',
        'Espirito Santo': 'ES',
        'Goias': 'GO',
        'Maranhao': 'MA',
        'Mato Grosso': 'MT',
        'Minas Gerais': 'MG',
        'Par√°': 'PA',
        'Paraiba': 'PB',
        'Pernambuco': 'PE',
        'Piaui': 'PI',
        'Rio de Janeiro': 'RJ',
        'Rondonia': 'RO',
        'Roraima': 'RR',
        'Santa Catarina': 'SC',
        'Sao Paulo': 'SP',
        'Sergipe': 'SE',
        'Tocantins': 'TO'
    }

    df['UF'] = df['state'].map(state_uf)

    return df

In [862]:
# Aplicando a fun√ß√£o:
data_clean = set_uf(data_clean)

# Exibindo resultados:
data_clean.sample(5)

Unnamed: 0,state,number,date,UF
1739,Espirito Santo,22.0,2003-04-01,ES
1028,Bahia,40.0,2009-04-01,BA
5498,Santa Catarina,0.0,1998-01-01,SC
1885,Espirito Santo,18.0,2009-11-01,ES
4930,Rio de Janeiro,258.0,2007-08-01,RJ


### Criando coluna: Region

Para adicionar as regi√µes de cada estado, vamos criar uma fun√ß√£o que itera sobre os registros e atribui a cada estado sua devida regi√£o:

In [863]:
def set_region(df: pd.DataFrame) -> pd.DataFrame:
    '''Essa fun√ß√£o adiciona as regi√µes dos respectivos
    estados com base em sua UF.
    
    Delimita-se uma lista com os estados para cada regi√£o e utiliza-se
    uma fun√ß√£o lambda para aplicar ao dataset.
    '''
    regiao_norte = ['AC', 'AP', 'AM', 'PA', 'RO', 'RR', 'TO']
    regiao_nordeste = ['AL', 'BA', 'CE', 'MA', 'PB', 'PE', 'PI', 'SE']
    regiao_centro_oeste = ['DF', 'GO', 'MT']
    regiao_sudeste = ['ES', 'MG', 'RJ', 'SP']
    regiao_sul = ['SC']

    df['Region'] = df['UF'].apply(
        lambda state:
        'Norte' if state in regiao_norte else
        'Nordeste' if state in regiao_nordeste else
        'Centro Oeste' if state in regiao_centro_oeste else
        'Sudeste' if state in regiao_sudeste else
        'Sul' if state in regiao_sul else
        state
    )

    return df

In [864]:
# Aplicando a fun√ß√£o:
data_clean = set_region(data_clean)

# Checando novos dados:
data_clean.sample(5)

Unnamed: 0,state,number,date,UF,Region
3422,Paraiba,6.0,2013-04-01,PB,Nordeste
3115,Par√°,1.768,2005-01-01,PA,Norte
1375,Ceara,505.0,2017-09-01,CE,Nordeste
818,Amazonas,2.0,1998-06-01,AM,Norte
2904,Minas Gerais,143.0,2013-02-01,MG,Sudeste


### Criando coluna: President

Para podermos inserir nos dados o mandat√°rio vigente durante os registros de inc√™ndio florestal, primeiro iremos checar o intervalo de tempo que temos nos dados:

In [865]:
# Checando intervalo de anos:
print(f'Ano m√≠nimo: {data_clean.date.min().year}')
print(f'Ano m√°ximo: {data_clean.date.max().year}')

Ano m√≠nimo: 1998
Ano m√°ximo: 2017


Com os anos definidos, utilizando uma [lista com todos os mandat√°rios](https://pt.wikipedia.org/wiki/Lista_de_presidentes_do_Brasil) do Brasil, iremos atribu√≠-los aos respectivos per√≠odos que constam nos dados. Para isso, utilizaremos uma fun√ß√£o:

In [866]:
def set_president(df: pd.DataFrame) -> pd.DataFrame:
    '''Essa fun√ß√£o itera sobre os anos do dataset e atribu√≠ a uma nova coluna
    o nome do mandat√°rio vigente durante esse per√≠odo.
    '''
    df['President'] = df['date'].apply(
        lambda date:
        'FHC' if (date.strftime('%Y-%M') > '1997-01' and 
                    date.strftime('%Y-%M') < '2002-12') else
        'Lula' if (date.strftime('%Y-%M') > '2002-12' and 
                    date.strftime('%Y-%M') < '2010-12') else
        'Dilma' if (date.strftime('%Y-%M') > '2010-12' and 
                    date.strftime('%Y-%M') < '2016-12') else
        'Temer' if (date.strftime('%Y-%M') > '2016-12') else
        date
    )

    return df

In [867]:
# Aplicando a fun√ß√£o:
data_clean = set_president(data_clean)

# Visualizando novos resultados:
data_clean.sample(5)

Unnamed: 0,state,number,date,UF,Region,President
5576,Santa Catarina,36.0,2016-04-01,SC,Sul,Dilma
109,Acre,4.0,2007-06-01,AC,Norte,Lula
551,Amapa,2.0,2010-04-01,AP,Norte,Lula
2021,Goias,70.0,2006-06-01,GO,Centro Oeste,Lula
4070,Piaui,42.0,2004-01-01,PI,Nordeste,Lula


Com todas as colunas necess√°rias criadas para as an√°lises, vamos realizar os √∫ltimos ajustes nos dados, isto √©, renomear as colunas e reposicion√°-las no dataset:

### Renomeando e Reposicionando Colunas

In [868]:
# Renomeando colunas utilizando um dicion√°rio:
data_clean = data_clean.rename(columns={
    'state': 'State',
    'number': 'Num_wild_fires',
    'date': 'Date'
})

# Reposicionando colunas:
data_clean = data_clean.loc[
    :, 
    ['State', 'UF', 'Region', 
    'Num_wild_fires', 'Date', 'President']
]
# Visualizando novos dados:
data_clean.head()

Unnamed: 0,State,UF,Region,Num_wild_fires,Date,President
0,Acre,AC,Norte,0.0,1998-01-01,FHC
1,Acre,AC,Norte,0.0,1999-01-01,FHC
2,Acre,AC,Norte,0.0,2000-01-01,FHC
3,Acre,AC,Norte,0.0,2001-01-01,FHC
4,Acre,AC,Norte,0.0,2002-01-01,FHC


Com as colunas nomeadas e reorganizadas temos uma padroniza√ß√£o melhor, onde elas descrevem bem o conte√∫do das vari√°veis e tamb√©m, iniciam-se com letra mai√∫scula.