# **Leitrura e Interpretação dos Dados ML**

## **Sumário**

- [1. Introdução](#1)
  - [1.1 Instalação de Pacotes Python](#11)
  - [1.2 Importação das Bibliotecas](#12)
- [2. Carregamento dos Dados](#2)
  - [2.1 Carregando Arquivo](#21)
  - [2.2. Tamanho do DataFrame](#22)
  - [2.2. Dados Faltantes ou Nulos](#22)
  - [2.4. Análise do tipo de dado](#24)
  - [2.5 Verificando o Alvo](#25)
- [3. Análise Exploratória dos Dados](#3)
  - [3.1. Tabelas de Estatística descritiva](#31)
    - [3.1.1. Analise das Tabelas descritica do Fósforo](#311)
    - [3.1.2. Analise das Tabelas descritica do Nitrogênio](#312)
    - [3.1.3. Analise das Tabelas descritica do Potássio](#313)
    - [3.1.4. Analise das Tabelas descritica do Humidade](#314)
    - [3.1.5. Analise das Tabelas descritica do Tremperatura](#315)
    - [3.1.6. Analise das Tabelas descritica do ph](#316)
    - [3.1.7. Analise das Tabelas descritica do Precipitação](#317)
  - [3.2. Visualizacao Gráfica](#32)
    - [3.2.1. Histograma do Nitrogênio](#321)
    - [3.2.2. Boxplot do Nitrogênio](#322)
    - [3.2.3. Histograma Potássio](#323)
    - [3.2.4. Boxplot do Potássio](#324)
    - [3.2.5. Histograma do Fósforo](#325)
    - [3.2.6. Boxplot do Fósforo](#326)
    - [3.2.7. Matriz de Correlação Linear](#327)
    - [3.2.8. Gráfico Linear](#328)
    - [3.2.9. Boxplot de Precipitação de Chuva](#329)
  - [3.3. Análise de Perfil Ideal](#33)
    - [3.3.1. Relatório de resultados da análise de perfil ideal](#331)
- [4. Modelagem Preditiva](#4)
  - [4.1. Separando o Modelo para Treino e Teste](#41)
  - [4.2. Modelo de Regressão Logistica](#42)
  - [4.3. Modelo de Árvore de Decisão](#43)
  - [4.4. Modelo de Floresta Aleatória](#43)
  - [4.5. Modelo de K-Nearest Neoghbeils (KNN)](#44)
  - [4.6. Modelo de Regressão Linear](#43)
  - [4.7. Modelo de Máquina de Vetor de Suporte](#43)
  - [4.8. Comparando Modelos](#43)
- [5. Conclusão](#5-conclusao)


<a id='1'></a>
## **1. Introdução**

<a id='11'></a>
### **1.1. Instalação de Pacotes Python**

In [9]:
#import sys
#!{sys.executable} -m pip install openpyxl
#!conda install pandas -y
# !pip install seaborn
#!pip install matplotlib
#!pip install scipy
#!pip install scikit-learn

<a id='12'></a>
### **1.2. Importação das Bibliotecas** 

In [10]:
# Manipulação de dados
import pandas as pd
import numpy as np

# Estatísticas e operações matemáticas
from statistics import mode, StatisticsError
from scipy import stats

# Visualização de dados
import seaborn as sns
import matplotlib.pyplot as plt

# Ambientes interativos
from IPython.display import display

# Controle de avisos
import warnings
warnings.filterwarnings("ignore")

# Machine Learning - Pré-processamento e treino/teste
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# Modelos de classificação
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC

# Avaliação de modelos
from sklearn.metrics import (
    accuracy_score, classification_report,
    confusion_matrix, ConfusionMatrixDisplay,
    precision_score, recall_score, f1_score
)

<a id='2'></a>
## **2. Carregando Dados**


| **Coluna**                     | **Descrição**                                                                           |
| ------------------------------ | --------------------------------------------------------------------------------------- |
| **latitude**                   | Coordenada geográfica de latitude do local da medição                                   |
| **longitude**                  | Coordenada geográfica de longitude do local da medição                                  |
| **data\_hora**                 | Data e hora da coleta dos dados                                                         |
| **temperatura\_ar**            | Temperatura do ar em graus Celsius                                                      |
| **umidade\_relativa**          | Umidade relativa do ar em percentual                                                    |
| **velocidade\_vento**          | Velocidade do vento (m/s ou km/h)                                                       |
| **direcao\_vento**             | Direção do vento em graus (0° a 360°)                                                   |
| **precipitacao**               | Quantidade de precipitação (chuva) em milímetros                                        |
| **indice\_seca**               | Índice que indica o grau de seca                                                        |
| **temperatura\_superficie**    | Temperatura da superfície do solo ou vegetação em graus Celsius                         |
| **radiacao\_solar**            | Intensidade da radiação solar (W/m²)                                                    |
| **concentracao\_CO**           | Concentração de monóxido de carbono (µg/m³ ou ppm)                                      |
| **concentracao\_CO2**          | Concentração de dióxido de carbono                                                      |
| **concentracao\_PM25**         | Concentração de partículas finas PM2.5                                                  |
| **frp (fire radiative power)** | Potência radiativa de focos de incêndio, indicador da intensidade do fogo               |
| **intensidade\_foco**          | Classificação qualitativa da intensidade do foco de incêndio (ex: alta, média, nenhuma) |
| **tipo\_cobertura\_solo**      | Tipo de cobertura do solo (ex: pastagem, floresta, solo exposto)                        |
| **indice\_vegetacao\_ndvi**    | Índice NDVI que indica a saúde e densidade da vegetação (valores entre -1 e 1)          |
| **deteccao\_foco**             | Indica a presença (1) ou ausência (0) de focos de incêndio                              |




In [17]:
import os

caminho_arquivo = '/Users/francismaralvesmartinsjunior/Documents/GitHub/Global-Solution-2025-1/ml/data/raw/dataset_queimadas.csv'

os.path.isfile(caminho_arquivo)
df = pd.read_csv(caminho_arquivo)
df

Unnamed: 0,latitude,longitude,data_hora,temperatura_ar,umidade_relativa,velocidade_vento,direcao_vento,precipitacao,indice_seca,temperatura_superficie,radiacao_solar,concentracao_CO,concentracao_CO2,concentracao_PM25,frp,intensidade_foco,tipo_cobertura_solo,indice_vegetacao_ndvi,deteccao_foco
0,-18.767475,-47.091880,2024-12-05 17:21:00.674804,34.447709,92.222021,13.086126,179.881288,32.284533,0.772502,47.421121,1051.100010,6.417631,426.352407,137.905893,66.601088,alta,pastagem,0.951430,1
1,3.127144,-42.132744,2024-04-06 16:35:57.219847,20.171591,57.282443,1.600651,268.828838,20.120925,0.481144,38.702838,128.918834,4.646995,395.928196,142.780973,65.491247,media,pastagem,0.831636,1
2,-5.184230,-63.981284,2025-05-07 10:19:45.660717,41.171837,75.241924,4.846596,202.560041,23.595455,0.788958,22.228276,1102.096724,9.648535,489.753510,5.639469,464.968602,nenhuma,solo exposto,0.440288,0
3,-10.250978,-49.005036,2025-03-15 13:29:20.711585,33.393487,49.244347,15.473587,29.988930,35.836239,0.073508,56.740406,436.319714,2.267887,384.243210,50.975880,47.390254,nenhuma,pastagem,0.742556,0
4,-27.071292,-51.130161,2025-01-23 10:05:25.054140,19.716117,66.703112,10.573717,66.808885,43.815301,0.191594,59.213165,659.044972,5.919779,412.987778,126.419814,2.039803,alta,floresta,0.998107,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2995,-0.118761,-46.622586,2024-09-20 19:54:19.497182,30.447885,10.418003,13.017670,223.868191,7.548250,0.913305,33.145210,1147.502995,6.663809,386.058509,34.392527,437.761762,nenhuma,solo exposto,0.540407,0
2996,-27.023618,-53.871183,2024-12-25 08:38:11.635780,19.961113,88.630179,3.555967,273.791593,41.178714,0.428473,39.192807,922.606632,4.291066,355.114454,137.445296,384.902658,nenhuma,pastagem,0.114012,0
2997,-21.228061,-43.394046,2023-09-06 14:51:45.930723,44.331384,37.659266,1.024791,261.249066,15.683045,0.377866,54.684070,121.401449,1.341172,459.009294,114.548671,255.103171,nenhuma,floresta,0.919504,0
2998,-21.978270,-54.588375,2023-04-09 10:19:15.981091,18.237737,94.472997,13.659232,249.131050,22.704677,0.231320,30.082374,541.105327,6.777222,385.021426,58.390209,301.646514,nenhuma,pastagem,0.928105,0


<a id="22"></a>
### **2.2. Tamanho do DataFrame**