### Projeto de avaliação da disciplina Introdução à Análise de Dados - Prof. Luciano Barbosa
#### Alunos: David Soares (dsm3@cin.ufpe.br) & Wanderson R. Marques (wrm@cin.ufpe.br)

#### Importação das Bibliotecas e do Dataset

In [71]:
import pandas as pd
import numpy as np

In [72]:
# Importação dataset
df = pd.read_csv('Focos_2021-01-01_2021-08-31.csv')

In [73]:
# Número de linhas e colunas do DataSet
df.shape

(10448, 12)

In [74]:
# Amostra do dataset
df.head()

Unnamed: 0,datahora,satelite,pais,estado,municipio,bioma,diasemchuva,precipitacao,riscofogo,latitude,longitude,frp
0,2021/01/01 17:00:00,AQUA_M-T,Brasil,PARA,SANTA MARIA DAS BARREIRAS,Amazonia,,,,-8.577,-49.952,8.8
1,2021/01/01 17:05:00,AQUA_M-T,Brasil,PARA,AVEIRO,Amazonia,,,,-3.909,-56.037,18.9
2,2021/01/01 17:05:00,AQUA_M-T,Brasil,PARA,AVEIRO,Amazonia,,,,-3.904,-56.045,9.5
3,2021/01/01 17:05:00,AQUA_M-T,Brasil,PARA,JACAREACANGA,Amazonia,,,,-5.845,-57.716,149.8
4,2021/01/01 17:05:00,AQUA_M-T,Brasil,PARA,ORIXIMINA,Amazonia,,,,-1.587,-55.922,11.3


### Pré-processamento dos Dados

#### Definição de Tipos

In [75]:
# Visualização dos tipos
df.dtypes

datahora         object
satelite         object
pais             object
estado           object
municipio        object
bioma            object
diasemchuva     float64
precipitacao    float64
riscofogo       float64
latitude        float64
longitude       float64
frp             float64
dtype: object

In [76]:
# Ajuste dos Tipos
df['datahora'] = pd.to_datetime(df['datahora'], format="%Y/%m/%d %H:%M:%S")
df['satelite'] = df['satelite'].astype('category')
df['pais'] = df['pais'].astype('category')
df['estado'] = df['estado'].astype('category')
df['municipio'] = df['municipio'].astype('category')
df['bioma'] = df['bioma'].astype('category')

In [77]:
# Verificação dos tipos após modificação
df.dtypes

datahora        datetime64[ns]
satelite              category
pais                  category
estado                category
municipio             category
bioma                 category
diasemchuva            float64
precipitacao           float64
riscofogo              float64
latitude               float64
longitude              float64
frp                    float64
dtype: object

#### Removendo colunas irrelevantes 

As colunas foram removidas porque todas as linhas continham as mesmas informações, a saber: **pais(Brasil), estado(Pará), satélite(AQUA_M-T), bioma(Amazoniia)

In [78]:
df = df.drop(columns=['pais','estado','satelite','bioma'])

**Remoção de linhas** com dados ausentes, usando o risco de fogo como filtro, pois o cálculo do risco de fogo depende diretamente do conhecimento dos dias sem chuva e do volume de precipitação para aquele dia. Portanto, se a informação do risco de fogo é ausente, implica que a informação dos dias sem chuva e precipitação também é ausente.

In [79]:
# Remoção de linhas especificando a coluna "riscofogo"
df.dropna(subset=["riscofogo"], inplace=True)

In [80]:
# Reiniciando os índices 
df.reset_index(inplace=True,drop=True)
df.head()

Unnamed: 0,datahora,municipio,diasemchuva,precipitacao,riscofogo,latitude,longitude,frp
0,2021-01-04 17:35:00,ORIXIMINA,1.0,2.5,0.5,2.066,-55.929,12.6
1,2021-01-05 16:40:00,MOJU,0.0,15.6,0.0,-3.039,-49.437,13.9
2,2021-01-05 16:40:00,CAPITAO POCO,2.0,0.7,0.0,-1.931,-47.215,9.2
3,2021-01-05 16:40:00,BRAGANCA,7.0,0.0,0.7,-1.014,-46.658,18.9
4,2021-01-05 16:40:00,BRAGANCA,7.0,0.0,0.7,-1.015,-46.667,9.3


**Removendo as linhas** nas quais o "riscofogo" é igual a -999, pois isso representa um código de erro desse parâmetro.

In [81]:
indexNames = df[(df['riscofogo'] == -999)].index
df.drop(indexNames, inplace=True)

In [85]:
# Verificando se ainda existe algum valor do "riscofogo" igual a -999
df[df['riscofogo'] == -999]['riscofogo'].count()

0