In [30]:
%pip install -r requirements.txt

Note: you may need to restart the kernel to use updated packages.


In [31]:
import geopandas as gpd
import matplotlib.pyplot as plt
import contextily as cx # Para o basemap

In [32]:
# Corrigir IDs duplicados no arquivo GeoJSON
def carregar_geojson_eficiente():
    caminho_arquivo = "censo_arboreo.geojson"
    # Simplesmente use geopandas.read_file
    df = gpd.read_file(caminho_arquivo)
    return df

def carregar_bairros():
    caminho_arquivo_bairros = "bairros.geojson"
    gdf_bairros = gpd.read_file(caminho_arquivo_bairros)
    return gdf_bairros

print("carregamento iniciado...")
df = carregar_geojson_eficiente()
gdf_bairros = carregar_bairros()
print("carregamento finalizado!")


carregamento iniciado...
carregamento finalizado!


In [33]:
print(f"CRS original dos Bairros: {gdf_bairros.crs}")
print(f"CRS original das √Årvores (df): {df.crs}")
gdf_bairros = gdf_bairros.to_crs(epsg=3857)
df = df.to_crs(epsg=3857)
print(f"CRS original dos Bairros: {gdf_bairros.crs}")
print(f"CRS original das √Årvores (df): {df.crs}")

CRS original dos Bairros: EPSG:4326
CRS original das √Årvores (df): EPSG:31985
CRS original dos Bairros: EPSG:3857
CRS original das √Årvores (df): EPSG:3857


In [34]:
bairros_siglas = df["bairro"].unique()
bairros_siglas_list = bairros_siglas.tolist()
bairros_siglas_list.remove(None)  
bairros_siglas_list.sort()# Remove valores None, se houver
print(len(bairros_siglas_list))

94


In [35]:
dados_bairros = {
    'Sigla': [
        'ADM', 'AFG', 'AFT', 'AGF', 'AJB', 'AJP', 'APP', 'ARE', 'ARR', 'AST', 
        'BAR', 'BBE', 'BBH', 'BEB', 'BGU', 'BNG', 'BRT', 'BVG', 'BVS', 'CAJ', 
        'CAX', 'CBG', 'CCT', 'CDB', 'CDU', 'CHB', 'CJE', 'CMG', 'COE', 'COQ', 
        'CRD', 'CSA', 'CSF', 'CUR', 'DBY', 'DIR', 'DUN', 'ENC', 'ENG', 'ESP', 
        'EST', 'FUN', 'GRA', 'GUA', 'HIP', 'IBU', 'IJB', 'ILT', 'IMB', 'IPS', 
        'IPU', 'IRE', 'JAQ', 'JIQ', 'JOR', 'JSP', 'LTR', 'MAC', 'MAD', 'MCO', 
        'MGA', 'MGE', 'MON', 'MUS', 'NOV', 'PAI', 'PAR', 'PAS', 'PAU', 'PEI', 
        'PIN', 'POC', 'POP', 'PRA', 'PTM', 'REC', 'RSA', 'SAM', 'SAT', 'SDP', 
        'SJE', 'SLD', 'SMT', 'SNC', 'STN', 'TAO', 'TEJ', 'TES', 'TMA', 'TOT', 
        'TRR', 'VCG', 'VRZ', 'ZMB'
    ],
    'Bairro': [
        'Alto do Mandu', 'Afogados', 'Aflitos', '√Ågua Fria', 'Alto Jos√© Bonif√°cio', 
        'Alto Jos√© do Pinho', 'Apipucos', 'Areias', 'Arruda', 'Alto Santa Terezinha',
        'Barro', 'Beberibe', 'Bomba do Hemet√©rio', 'Brejo de Beberibe', 
        'Brejo da Guabiraba', 'Bongi', 'Bras√≠lia Teimosa', 'Boa Viagem', 'Boa Vista',
        'Cajueiro', 'Caxang√°', 'Cabanga', 'Ca√ßote', 'Campina do Barreto', 
        'Cidade Universit√°ria', 'Cohab', 'C√≥rrego do Jenipapo', 'Campo Grande', 
        'Coelhos', 'Coqueiral', 'Cordeiro', 'Casa Amarela', 'Casa Forte', 'Curado',
        'Derby', 'Dois Irm√£os', 'Dois Unidos', 'Encruzilhada', 'Engenho do Meio',
        'Espinheiro', 'Est√¢ncia', 'Fund√£o', 'Gra√ßas', 'Guabiraba', 'Hip√≥dromo',
        'Ibura', 'Ilha Joana Bezerra', 'Ilha do Leite', 'Imbiribeira', 'Ipsep',
        'Iputinga', 'Ilha do Retiro', 'Jaqueira', 'Jiqui√°', 'Jord√£o', 
        'Jardim S√£o Paulo', 'Linha do Tiro', 'Macaxeira', 'Madalena', 
        'Morro da Concei√ß√£o', 'Mangabeira', 'Mangueira', 'Monteiro', 'Mustardinha',
        'Nova Descoberta', 'Paissandu', 'Parnamirim', 'Passarinho', 'Pau Ferro',
        'Peixinhos', 'Pina', 'Po√ßo', 'Ponto de Parada', 'Prado', 'Porto da Madeira',
        'Recife', 'Rosarinho', 'Santo Amaro', 'Santo Ant√¥nio', 'S√≠tio dos Pintos',
        'S√£o Jos√©', 'Soledade', 'San Martin', 'Sancho', 'Santana', 'Torre√£o',
        'Tejipi√≥', 'Torre', 'Tamarineira', 'Tot√≥', 'Torr√µes', 'Vasco da Gama',
        'V√°rzea', 'Zumbi'
    ]
}

In [36]:
# Adicionar uma coluna ao DataFrame com os bairros correspondentes √†s siglas
sigla_para_bairro = dict(zip(dados_bairros['Sigla'], dados_bairros['Bairro']))
df['bairro_nome'] = df['bairro'].map(sigla_para_bairro)
print(df[['bairro', 'bairro_nome']].head())

  bairro  bairro_nome
0    GUA    Guabiraba
1    MAC    Macaxeira
2   None          NaN
3    SAM  Santo Amaro
4    IPU     Iputinga


In [37]:
df.info()


<class 'geopandas.geodataframe.GeoDataFrame'>
RangeIndex: 259575 entries, 0 to 259574
Data columns (total 56 columns):
 #   Column       Non-Null Count   Dtype         
---  ------       --------------   -----         
 0   objectid     259575 non-null  int32         
 1   tipo_ponto   259575 non-null  object        
 2   porte_esp    14400 non-null   object        
 3   bairro       259492 non-null  object        
 4   rpa          259575 non-null  int32         
 5   x            259575 non-null  float64       
 6   y            259575 non-null  float64       
 7   nome_popul   1364 non-null    object        
 8   categoria_   2127 non-null    object        
 9   obs          211919 non-null  object        
 10  created_us   636 non-null     object        
 11  created_da   2480 non-null    datetime64[ms]
 12  last_edite   169 non-null     object        
 13  last_edi_1   169 non-null     datetime64[ms]
 14  tipologia    463 non-null     object        
 15  idlote       18 non-null  

In [22]:
# Definir as colunas que vamos usar
colunas_selecionadas = [
    'porte_esp',
    'rpa',
    'nome_popul',
    'tipologia',
    'copa',
    'altura',
    'cap',
    'dap',
    'geometry',
    'bairro_nome'
]

# Verificar quais colunas existem no DataFrame
colunas_existentes = [col for col in colunas_selecionadas if col in df.columns]
colunas_faltando = [col for col in colunas_selecionadas if col not in df.columns]

if colunas_faltando:
    print(f"‚ö†Ô∏è  Colunas n√£o encontradas no DataFrame: {colunas_faltando}")

# DataFrame com as colunas que vamos usar
df_usado = df[colunas_existentes].copy()

# DataFrame com as colunas que n√£o vamos usar
colunas_descartadas = [col for col in df.columns if col not in colunas_existentes]
df_descartado = df[colunas_descartadas].copy()

print(f"\n‚úÖ DataFrame de colunas USADAS:")
print(f"   - {len(df_usado.columns)} colunas: {list(df_usado.columns)}")
print(f"   - {len(df_usado)} linhas\n")

print(f"üì¶ DataFrame de colunas DESCARTADAS:")
print(f"   - {len(df_descartado.columns)} colunas: {list(df_descartado.columns)}")
print(f"   - {len(df_descartado)} linhas\n")

df_usado


‚úÖ DataFrame de colunas USADAS:
   - 10 colunas: ['porte_esp', 'rpa', 'nome_popul', 'tipologia', 'copa', 'altura', 'cap', 'dap', 'geometry', 'bairro_nome']
   - 259575 linhas

üì¶ DataFrame de colunas DESCARTADAS:
   - 46 colunas: ['objectid', 'tipo_ponto', 'bairro', 'x', 'y', 'categoria_', 'obs', 'created_us', 'created_da', 'last_edite', 'last_edi_1', 'idlote', 'origem', 'apermeavel', 'caracsolo', 'fiacaohorz', 'redesubter', 'postetrans', 'posteilumi', 'cruzamvias', 'eqpeqporte', 'rusticidad', 'processo', 'nomecienti', 'execucao', 'dataplanti', 'resptecnic', 'datamonito', 'invalidaca', 'injuria', 'fitossanid', 'x_wgs84', 'y_wgs84', 'created__1', 'created__2', 'last_edi_2', 'last_edi_3', 'nome_comum', 'nome_sp', 'globalid', 'projeto', 'responsave', 'contato', 'id', 'altfuste', 'corflor']
   - 259575 linhas



Unnamed: 0,porte_esp,rpa,nome_popul,tipologia,copa,altura,cap,dap,geometry,bairro_nome
0,,3,,,0.0,0.0,0.0,0.00000,POINT (-3890403.21 -885668.925),Guabiraba
1,GP,3,,UC,0.0,5.0,30.0,0.00000,POINT (-3888494.474 -895271.92),Macaxeira
2,GP,0,,,0.0,0.0,0.0,0.00000,POINT (-3882170.411 -900517.987),
3,MP,1,Ip√™-rosa,CC,0.0,1.8,0.0,0.00000,POINT (-3883312.685 -898253.656),Santo Amaro
4,MP,4,,QU,1.0,3.2,1.0,0.31831,POINT (-3889349.335 -898736.882),Iputinga
...,...,...,...,...,...,...,...,...,...,...
259570,GP,0,,,0.0,3.5,17.0,0.00000,POINT (-3882358.885 -898921.784),
259571,GP,0,,,0.0,3.5,17.0,0.00000,POINT (-3882330.347 -898916.764),
259572,GP,0,,,0.0,2.7,13.0,0.00000,POINT (-3883138.257 -898395.868),
259573,GP,0,,,0.0,2.5,10.0,0.00000,POINT (-3883144.352 -898393.283),


In [23]:
# An√°lise de dados nulos e preenchidos no df_usado
total_cells = df_usado.size
total_null = df_usado.isnull().sum().sum()
total_filled = total_cells - total_null

pct_null = (total_null / total_cells) * 100
pct_filled = (total_filled / total_cells) * 100

print("=" * 60)
print("AN√ÅLISE DE DADOS - df_usado")
print("=" * 60)
print(f"\nüìä Quantidade total de c√©lulas: {total_cells:,}")
print(f"‚úÖ Dados preenchidos: {total_filled:,} ({pct_filled:.2f}%)")
print(f"‚ùå Dados nulos (NaN/None): {total_null:,} ({pct_null:.2f}%)")
print("\n" + "=" * 60)
print("DETALHAMENTO POR COLUNA")
print("=" * 60)

# An√°lise por coluna
for col in df_usado.columns:
    total_col = len(df_usado)
    null_col = df_usado[col].isnull().sum()
    null_col += df_usado[col].eq('').sum()
    null_col += df_usado[col].eq(0).sum()
    filled_col = total_col - null_col
    pct_filled_col = (filled_col / total_col) * 100
    pct_null_col = (null_col / total_col) * 100
    
    print(f"\n{col}:")
    print(f"  Preenchidos: {filled_col:,} ({pct_filled_col:.2f}%)")
    print(f"  Nulos: {null_col:,} ({pct_null_col:.2f}%)")

AN√ÅLISE DE DADOS - df_usado

üìä Quantidade total de c√©lulas: 2,595,750
‚úÖ Dados preenchidos: 1,833,169 (70.62%)
‚ùå Dados nulos (NaN/None): 762,581 (29.38%)

DETALHAMENTO POR COLUNA

porte_esp:
  Preenchidos: 14,400 (5.55%)
  Nulos: 245,175 (94.45%)

rpa:
  Preenchidos: 258,812 (99.71%)
  Nulos: 763 (0.29%)

nome_popul:
  Preenchidos: 1,364 (0.53%)
  Nulos: 258,211 (99.47%)

tipologia:
  Preenchidos: 463 (0.18%)
  Nulos: 259,112 (99.82%)

copa:
  Preenchidos: 11,488 (4.43%)
  Nulos: 248,087 (95.57%)

altura:
  Preenchidos: 12,390 (4.77%)
  Nulos: 247,185 (95.23%)

cap:
  Preenchidos: 982 (0.38%)
  Nulos: 258,593 (99.62%)

dap:
  Preenchidos: 932 (0.36%)
  Nulos: 258,643 (99.64%)

geometry:
  Preenchidos: 259,575 (100.00%)
  Nulos: 0 (0.00%)

bairro_nome:
  Preenchidos: 259,492 (99.97%)
  Nulos: 83 (0.03%)


In [24]:
df_usado = df_usado.dropna(subset=['bairro_nome'])
df_usado = df_usado[~((df_usado['cap'] == 0) & (df_usado['altura'] == 0) & (df_usado['dap'] == 0) & (df_usado['copa'] == 0))]
df_usado.info()


<class 'geopandas.geodataframe.GeoDataFrame'>
Index: 13785 entries, 1 to 259563
Data columns (total 10 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   porte_esp    12021 non-null  object  
 1   rpa          13785 non-null  int32   
 2   nome_popul   445 non-null    object  
 3   tipologia    334 non-null    object  
 4   copa         13785 non-null  float64 
 5   altura       13785 non-null  float64 
 6   cap          13785 non-null  float64 
 7   dap          13785 non-null  float64 
 8   geometry     13785 non-null  geometry
 9   bairro_nome  13785 non-null  object  
dtypes: float64(4), geometry(1), int32(1), object(4)
memory usage: 1.1+ MB


In [25]:
# Imputa√ß√£o Avan√ßada usando k-NN para valores faltantes (incluindo zeros)
from sklearn.impute import KNNImputer
from sklearn.preprocessing import LabelEncoder
import numpy as np

print("=" * 60)
print("IMPUTA√á√ÉO AVAN√áADA COM k-NN")
print("=" * 60)

# Fazer uma c√≥pia para trabalhar
df_imputado = df_usado.copy()

# Separar colunas por tipo
colunas_numericas = ['copa', 'altura', 'cap', 'dap']
colunas_categoricas = ['porte_esp', 'rpa', 'nome_popul', 'tipologia', 'nome_sp', 'bairro_nome']

# IMPORTANTE: Substituir zeros por NaN nas colunas num√©ricas
print("\nüîÑ Tratando zeros como valores faltantes...")
for col in colunas_numericas:
    zeros_count = (df_imputado[col] == 0).sum()
    print(f"  {col}: {zeros_count} zeros encontrados")
    df_imputado[col] = df_imputado[col].replace(0, np.nan)

# Verificar valores faltantes antes (agora incluindo os zeros)
print("\nüìä Valores faltantes ANTES da imputa√ß√£o (incluindo zeros):")
for col in colunas_numericas:
    missing = df_imputado[col].isnull().sum()
    pct = (missing / len(df_imputado)) * 100
    print(f"  {col}: {missing} ({pct:.2f}%)")

# Criar encoders para vari√°veis categ√≥ricas (para usar como features)
encoders = {}
df_temp = df_imputado.copy()

print("\nüîÑ Codificando vari√°veis categ√≥ricas...")
for col in colunas_categoricas:
    if col in df_temp.columns:
        # Preencher valores categ√≥ricos faltantes com 'DESCONHECIDO'
        df_temp[col] = df_temp[col].fillna('DESCONHECIDO')
        
        le = LabelEncoder()
        df_temp[f'{col}_encoded'] = le.fit_transform(df_temp[col].astype(str))
        encoders[col] = le

# Preparar features para k-NN
# Usar vari√°veis categ√≥ricas codificadas + vari√°veis num√©ricas
features_para_knn = [f'{col}_encoded' for col in colunas_categoricas if col in df_temp.columns] + colunas_numericas

print(f"\nüîç Features usadas para k-NN: {features_para_knn}")

# Criar e aplicar KNNImputer
# n_neighbors=5 significa que usaremos as 5 √°rvores mais similares
# weights='distance' d√° mais peso √†s √°rvores mais pr√≥ximas
knn_imputer = KNNImputer(n_neighbors=5, weights='distance')

print("\n‚öôÔ∏è  Aplicando k-NN Imputer (n_neighbors=5, weights='distance')...")
print("   (Isso pode levar alguns segundos para processar ~64k √°rvores...)")

# Aplicar imputa√ß√£o
df_temp_array = knn_imputer.fit_transform(df_temp[features_para_knn])

# Atualizar apenas as colunas num√©ricas no DataFrame original
for i, col in enumerate(colunas_numericas):
    col_index = features_para_knn.index(col)
    df_imputado[col] = df_temp_array[:, col_index]

print("\n‚úÖ Imputa√ß√£o conclu√≠da!")

# Verificar valores faltantes depois
print("\nüìä Valores faltantes DEPOIS da imputa√ß√£o:")
remaining_nulls = df_imputado[colunas_numericas].isnull().sum()
print(remaining_nulls)

# Estat√≠sticas sobre as mudan√ßas
print("\n" + "=" * 60)
print("RESUMO DAS MUDAN√áAS")
print("=" * 60)
for col in colunas_numericas:
    # Contar zeros que foram substitu√≠dos por NaN e depois imputados
    antes_zeros = (df_usado[col] == 0).sum()
    depois_zeros = (df_imputado[col] == 0).sum()
    
    print(f"\n{col}:")
    print(f"  Zeros antes: {antes_zeros}")
    print(f"  Zeros depois: {depois_zeros}")
    print(f"  Valores imputados: {antes_zeros - depois_zeros}")
    print(f"  M√©dia antes (excluindo zeros): {df_usado[df_usado[col] != 0][col].mean():.2f}")
    print(f"  M√©dia depois (com imputa√ß√£o): {df_imputado[col].mean():.2f}")
    print(f"  Min: {df_imputado[col].min():.2f}, Max: {df_imputado[col].max():.2f}")

# Substituir df_usado pelo imputado
df_usado = df_imputado.copy()

print("\n" + "=" * 60)
print("‚úÖ df_usado atualizado com valores imputados!")
print("=" * 60)
df_usado.head(10)

IMPUTA√á√ÉO AVAN√áADA COM k-NN

üîÑ Tratando zeros como valores faltantes...
  copa: 2308 zeros encontrados
  altura: 1462 zeros encontrados
  cap: 12851 zeros encontrados
  dap: 12853 zeros encontrados

üìä Valores faltantes ANTES da imputa√ß√£o (incluindo zeros):
  copa: 2308 (16.74%)
  altura: 1462 (10.61%)
  cap: 12851 (93.22%)
  dap: 12853 (93.24%)

üîÑ Codificando vari√°veis categ√≥ricas...

üîç Features usadas para k-NN: ['porte_esp_encoded', 'rpa_encoded', 'nome_popul_encoded', 'tipologia_encoded', 'bairro_nome_encoded', 'copa', 'altura', 'cap', 'dap']

‚öôÔ∏è  Aplicando k-NN Imputer (n_neighbors=5, weights='distance')...
   (Isso pode levar alguns segundos para processar ~64k √°rvores...)

‚úÖ Imputa√ß√£o conclu√≠da!

üìä Valores faltantes DEPOIS da imputa√ß√£o:
copa      0
altura    0
cap       0
dap       0
dtype: int64

RESUMO DAS MUDAN√áAS

copa:
  Zeros antes: 2308
  Zeros depois: 0
  Valores imputados: 2308
  M√©dia antes (excluindo zeros): 4.78
  M√©dia depois (com

Unnamed: 0,porte_esp,rpa,nome_popul,tipologia,copa,altura,cap,dap,geometry,bairro_nome
1,GP,3,,UC,4.8,5.0,30.0,9.772132,POINT (-3888494.474 -895271.92),Macaxeira
3,MP,1,Ip√™-rosa,CC,3.0,1.8,11.393722,3.626734,POINT (-3883312.685 -898253.656),Santo Amaro
4,MP,4,,QU,1.0,3.2,1.0,0.31831,POINT (-3889349.335 -898736.882),Iputinga
5,GP,1,Ip√™-roxo,CC,3.0,2.0,11.145082,3.54759,POINT (-3883292.913 -898281.249),Santo Amaro
6,MP,1,,CL,2.0,1.8,1.0,0.31831,POINT (-3883253.708 -898259.034),Santo Amaro
7,PP,1,Ip√™-rosa,CC,3.0,2.6,11.468412,3.650509,POINT (-3883294.853 -898245.713),Santo Amaro
20,MP,4,,QU,1.0,3.3,1.0,0.31831,POINT (-3889359.088 -898737.239),Iputinga
21,MP,4,,CL,1.0,2.2,1.0,0.31831,POINT (-3889269.051 -898733.967),Iputinga
23,GP,1,,CL,3.392944,2.2,1.0,0.31831,POINT (-3882609.215 -899768.673),Santo Amaro
25,GP,3,,UC,7.0,8.0,33.0,10.441062,POINT (-3888520.382 -895285.587),Macaxeira


In [26]:
df_usado['nome_popul'].value_counts()

nome_popul
Ac√°cia Amarela       40
Oitizeiro            37
Pau-Ferro            31
Ficus                29
Palmeira-imperial    27
                     ..
Algod√£o da praia      1
Mangueira             1
ip√™ amarelo           1
Paubrasil             1
Guamirim              1
Name: count, Length: 74, dtype: int64

In [27]:
# Classifica√ß√£o de nome_popul usando KNN baseado em caracter√≠sticas f√≠sicas
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import StandardScaler
import pandas as pd
import numpy as np

print("=" * 60)
print("CLASSIFICA√á√ÉO DE nome_popul COM KNN")
print("=" * 60)

# Fazer uma c√≥pia para trabalhar
df_classificado = df_usado.copy()

# Features num√©ricas para usar na classifica√ß√£o
features_numericas = ['copa', 'altura', 'cap', 'dap']

# Verificar valores faltantes em nome_popul
print("\nüìä An√°lise de nome_popul:")
total = len(df_classificado)
faltantes = df_classificado['nome_popul'].isnull().sum()
vazios = (df_classificado['nome_popul'] == '').sum()
validos = total - faltantes - vazios

print(f"  Total de registros: {total}")
print(f"  Valores v√°lidos: {validos} ({(validos/total)*100:.2f}%)")
print(f"  Valores nulos/vazios: {faltantes + vazios} ({((faltantes+vazios)/total)*100:.2f}%)")

# Identificar registros com e sem nome_popul
mask_com_nome = df_classificado['nome_popul'].notna() & (df_classificado['nome_popul'] != '')
mask_sem_nome = ~mask_com_nome

# Separar dados de treino (com nome_popul) e dados para prever (sem nome_popul)
df_treino = df_classificado[mask_com_nome].copy()
df_prever = df_classificado[mask_sem_nome].copy()

print(f"\nüéØ Dados de treino: {len(df_treino)} √°rvores com nome_popul conhecido")
print(f"üîÆ Dados para classificar: {len(df_prever)} √°rvores sem nome_popul")

if len(df_prever) == 0:
    print("\n‚úÖ Todos os registros j√° possuem nome_popul! Nenhuma classifica√ß√£o necess√°ria.")
else:
    # Preparar features (X) e target (y) para treino
    X_treino = df_treino[features_numericas].values
    y_treino = df_treino['nome_popul'].values
    
    # Preparar features para predi√ß√£o
    X_prever = df_prever[features_numericas].values
    
    # Normalizar os dados (importante para KNN)
    print("\nüîÑ Normalizando features...")
    scaler = StandardScaler()
    X_treino_scaled = scaler.fit_transform(X_treino)
    X_prever_scaled = scaler.transform(X_prever)
    
    # Treinar o classificador KNN
    print("\n‚öôÔ∏è  Treinando KNN Classifier (n_neighbors=7)...")
    knn_classifier = KNeighborsClassifier(
        n_neighbors=7,
        weights='distance',  # Vizinhos mais pr√≥ximos t√™m mais peso
        metric='euclidean'
    )
    
    knn_classifier.fit(X_treino_scaled, y_treino)
    
    # Fazer as predi√ß√µes
    print("üîÆ Classificando valores faltantes...")
    predicoes = knn_classifier.predict(X_prever_scaled)
    
    # Obter probabilidades para avaliar a confian√ßa
    probabilidades = knn_classifier.predict_proba(X_prever_scaled)
    confianca_maxima = probabilidades.max(axis=1)
    
    # Atualizar o DataFrame com as predi√ß√µes
    df_classificado.loc[mask_sem_nome, 'nome_popul'] = predicoes
    df_classificado.loc[mask_sem_nome, 'confianca_classificacao'] = confianca_maxima
    
    print("\n‚úÖ Classifica√ß√£o conclu√≠da!")
    
    # Estat√≠sticas das predi√ß√µes
    print("\n" + "=" * 60)
    print("RESUMO DAS PREDI√á√ïES")
    print("=" * 60)
    print(f"\nTotal de valores classificados: {len(predicoes)}")
    print(f"Confian√ßa m√©dia das predi√ß√µes: {confianca_maxima.mean():.2%}")
    print(f"Confian√ßa m√≠nima: {confianca_maxima.min():.2%}")
    print(f"Confian√ßa m√°xima: {confianca_maxima.max():.2%}")
    
    # Distribui√ß√£o das esp√©cies preditas
    print("\nüìä Top 10 esp√©cies mais preditas:")
    predicoes_series = pd.Series(predicoes)
    top_predicoes = predicoes_series.value_counts().head(10)
    for especie, count in top_predicoes.items():
        print(f"  {especie}: {count} ({(count/len(predicoes))*100:.2f}%)")
    
    # Comparar distribui√ß√£o antes e depois
    print("\n" + "=" * 60)
    print("VERIFICA√á√ÉO FINAL")
    print("=" * 60)
    faltantes_final = df_classificado['nome_popul'].isnull().sum()
    vazios_final = (df_classificado['nome_popul'] == '').sum()
    print(f"Valores nulos/vazios restantes: {faltantes_final + vazios_final}")
    
    # Atualizar df_usado
    df_usado = df_classificado.copy()
    print("\n‚úÖ df_usado atualizado com classifica√ß√µes!")

# Mostrar alguns exemplos
print("\n" + "=" * 60)
print("EXEMPLOS DE REGISTROS CLASSIFICADOS")
print("=" * 60)
if 'confianca_classificacao' in df_usado.columns:
    exemplos = df_usado[df_usado['confianca_classificacao'].notna()].nlargest(5, 'confianca_classificacao')
    print("\n5 classifica√ß√µes com maior confian√ßa:")
    print(exemplos[['nome_popul', 'copa', 'altura', 'cap', 'dap', 'confianca_classificacao']])
else:
    print("\nTodos os valores j√° estavam preenchidos - nenhuma classifica√ß√£o foi necess√°ria.")

df_usado.head()

CLASSIFICA√á√ÉO DE nome_popul COM KNN

üìä An√°lise de nome_popul:
  Total de registros: 13785
  Valores v√°lidos: 445 (3.23%)
  Valores nulos/vazios: 13340 (96.77%)

üéØ Dados de treino: 445 √°rvores com nome_popul conhecido
üîÆ Dados para classificar: 13340 √°rvores sem nome_popul

üîÑ Normalizando features...

‚öôÔ∏è  Treinando KNN Classifier (n_neighbors=7)...
üîÆ Classificando valores faltantes...

‚úÖ Classifica√ß√£o conclu√≠da!

RESUMO DAS PREDI√á√ïES

Total de valores classificados: 13340
Confian√ßa m√©dia das predi√ß√µes: 59.62%
Confian√ßa m√≠nima: 14.29%
Confian√ßa m√°xima: 100.00%

üìä Top 10 esp√©cies mais preditas:
  Ac√°cia Amarela: 2840 (21.29%)
  Sapoti-do-mangue: 2822 (21.15%)
  Ficus: 1894 (14.20%)
  Oitizeiro: 1105 (8.28%)
  Fel√≠cio: 845 (6.33%)
  Pau-Ferro: 645 (4.84%)
  Pitanga: 627 (4.70%)
  Sibipiruna: 374 (2.80%)
  Palmeira-imperial: 303 (2.27%)
  Craibeira: 292 (2.19%)

VERIFICA√á√ÉO FINAL
Valores nulos/vazios restantes: 0

‚úÖ df_usado atualizado com cl

Unnamed: 0,porte_esp,rpa,nome_popul,tipologia,copa,altura,cap,dap,geometry,bairro_nome,confianca_classificacao
1,GP,3,Ac√°cia Amarela,UC,4.8,5.0,30.0,9.772132,POINT (-3888494.474 -895271.92),Macaxeira,0.857021
3,MP,1,Ip√™-rosa,CC,3.0,1.8,11.393722,3.626734,POINT (-3883312.685 -898253.656),Santo Amaro,
4,MP,4,Pau-Ferro,QU,1.0,3.2,1.0,0.31831,POINT (-3889349.335 -898736.882),Iputinga,0.638066
5,GP,1,Ip√™-roxo,CC,3.0,2.0,11.145082,3.54759,POINT (-3883292.913 -898281.249),Santo Amaro,
6,MP,1,Sapoti-do-mangue,CL,2.0,1.8,1.0,0.31831,POINT (-3883253.708 -898259.034),Santo Amaro,0.30509


In [29]:
df_usado['porte_esp'].value_counts()

porte_esp
GP    5924
MP    4984
PP    1113
Name: count, dtype: int64