# Análise Exploratória de Dados Agrícolas

## Introdução

Esta análise exploratória visa identificar padrões e características relevantes
no conjunto de dados agrícolas, compreendendo os fatores que influenciam o
cultivo de diferentes tipos de culturas. O dataset contém informações sobre
condições do solo (nutrientes e pH), condições climáticas (temperatura, umidade
e precipitação) e o tipo de cultura plantada.

## Estrutura do Dataset

O dataset possui **2.200 registros** e **8 colunas**:

- **N**: quantidade de nitrogênio no solo
- **P**: quantidade de fósforo no solo
- **K**: quantidade de potássio no solo
- **temperature**: temperatura média da região em graus Celsius
- **humidity**: umidade média do ar na região
- **pH**: pH do solo
- **rainfall**: precipitação em milímetros
- **label**: tipo de cultura plantada (variável alvo)

O dataset está completo, sem valores ausentes em nenhuma coluna.

## Estatísticas Descritivas

### Variáveis Numéricas

| Variável    | Média     | Desvio Padrão | Mínimo    | Mediana   | Máximo     |
|-------------|-----------|---------------|-----------|-----------|------------|
| N           | 50.55     | 36.92         | 0.00      | 37.00     | 140.00     |
| P           | 53.36     | 32.99         | 5.00      | 51.00     | 145.00     |
| K           | 43.30     | 32.30         | 5.00      | 32.00     | 205.00     |
| temperature | 25.62     | 5.06          | 8.83      | 25.60     | 43.68      |
| humidity    | 71.48     | 23.02         | 14.26     | 80.47     | 99.98      |
| pH          | 6.47      | 0.77          | 3.50      | 6.43      | 9.94       |
| rainfall    | 103.46    | 54.96         | 20.21     | 94.87     | 298.56     |

### Distribuição da Variável Alvo

O dataset é balanceado, com exatamente 100 registros para cada uma das 22
culturas. As culturas presentes são:

Rice, Maize, Chickpea, Kidneybeans, Pigeonpeas, Mothbeans, Mungbean, Blackgram,
Lentil, Pomegranate, Banana, Mango, Grapes, Watermelon, Muskmelon, Apple,
Orange, Papaya, Coconut, Cotton, Jute e Coffee.

## Análise de Outliers

Foram detectados outliers em várias variáveis utilizando o método IQR
(Intervalo Interquartil):

- **P**: 138 outliers (6.27%)
- **K**: 200 outliers (9.09%)
- **temperature**: 86 outliers (3.91%)
- **humidity**: 30 outliers (1.36%)
- **pH**: 57 outliers (2.59%)
- **rainfall**: 100 outliers (4.55%)

Embora existam outliers, eles parecem representar características genuínas das
diferentes culturas e não erros de medição.

## Distribuição das Variáveis

- **N**: Distribuição bimodal com picos em valores baixos e altos
- **P**: Distribuição ligeiramente assimétrica à direita (skewness = 1.01)
- **K**: Fortemente assimétrica à direita (skewness = 2.38)
- **temperature**: Distribuição aproximadamente normal
- **humidity**: Distribuição assimétrica à esquerda (skewness = -1.09)
- **pH**: Distribuição próxima à normal com ligeira assimetria à direita
- **rainfall**: Assimétrica à direita (skewness = 0.97)

## Correlações Entre Variáveis

As principais correlações identificadas foram:

- **P e K**: Correlação positiva forte (0.74)
- **N e P**: Correlação negativa fraca (-0.23)
- **humidity e temperature**: Correlação positiva fraca (0.21)
- **pH e K**: Correlação negativa fraca (-0.17)

As demais correlações são relativamente fracas, sugerindo independência entre a
maioria das variáveis.

## Análise por Tipo de Cultura

Cada cultura apresenta características distintas em termos de condições
ideais de cultivo:

- **Cereais** (Rice, Maize): Geralmente requerem níveis moderados a altos de
nitrogênio e precipitação.
- **Leguminosas** (Chickpea, Kidneybeans, etc.): Preferem solos com níveis
médios de pH e moderada umidade.
- **Frutas** (Banana, Mango, Apple, etc.): Apresentam variações significativas
nas necessidades de nutrientes e condições climáticas.
- **Culturas Comerciais** (Cotton, Jute, Coffee): Tendem a ser cultivadas em
condições específicas de temperatura e umidade.

## Insights Principais

1. **Requisitos Nutricionais**: Diferentes culturas exigem combinações
específicas de N, P e K, confirmando a importância do balanço nutricional
apropriado para cada tipo de planta.

2. **Condições Climáticas**: A temperatura e precipitação apresentam padrões
distintos para diferentes grupos de culturas, destacando a importância das
condições climáticas na seleção de culturas apropriadas.

3. **pH do Solo**: A faixa de pH ideal varia entre as culturas, indicando a
necessidade de considerar este fator na otimização da produção agrícola.

4. **Clusters Naturais**: As visualizações mostram agrupamentos naturais entre
culturas com requisitos similares, sugerindo potencial para implementação de
modelos de classificação.

## Conclusão

A análise exploratória revela que cada cultura possui um perfil único de
condições ideais de cultivo. Os dados são adequados para o desenvolvimento de
modelos preditivos que podem auxiliar agricultores na seleção de culturas
apropriadas com base nas condições do solo e fatores climáticos disponíveis.

Este dataset oferece boa oportunidade para a aplicação de técnicas de machine
learning, especialmente modelos de classificação que possam recomendar culturas
adequadas para condições específicas.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path

In [None]:
# configurações de visualização
plt.style.use('seaborn-v0_8-whitegrid')
sns.set_palette("Set2")
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['axes.labelsize'] = 12
plt.rcParams['axes.titlesize'] = 14
plt.rcParams['xtick.labelsize'] = 10
plt.rcParams['ytick.labelsize'] = 10

In [None]:
# definição caminho para o dataset
DATA_DIR = Path('datasets')
DATASET_PATH = DATA_DIR / 'Atividade_Cap_14_produtos_agricolas.csv'

In [None]:
def carregar_dados():
    """
    Carrega o dataset e retorna um DataFrame
    """
    try:
        df = pd.read_csv(DATASET_PATH)
        print(f"Dataset carregado com sucesso: {df.shape[0]} linhas e {df.shape[1]} colunas")
        return df
    except Exception as e:
        print(f"Erro ao carregar o dataset: {e}")
        return None

In [None]:
def info_basica(df):
    """
    Exibe informações básicas sobre o DataFrame
    """
    print("\n===== INFORMAÇÕES BÁSICAS =====")
    print("\nPrimeiras 5 linhas:")
    print(df.head())

    print("\nÚltimas 5 linhas:")
    print(df.tail())

    print("\nInformações sobre o DataFrame:")
    print(df.info())

    print("\nEstatísticas descritivas:")
    print(df.describe())

    print("\nValores únicos por coluna:")
    for col in df.columns:
        if df[col].dtype == 'object':
            print(f"{col}: {df[col].nunique()} valores únicos")
            if df[col].nunique() < 20:
                print(f"Valores: {df[col].unique()}")

In [None]:
def verificar_valores_ausentes(df):
    """
    Verifica a presença de valores ausentes no DataFrame
    """
    print("\n===== VERIFICAÇÃO DE VALORES AUSENTES =====")

    valores_ausentes = df.isnull().sum()
    percentual_ausentes = (valores_ausentes / len(df)) * 100

    info_ausentes = pd.DataFrame({
        'Valores Ausentes': valores_ausentes,
        'Percentual (%)': percentual_ausentes
    })

    print(info_ausentes)

    if valores_ausentes.sum() > 0:
        plt.figure(figsize=(10, 6))
        sns.heatmap(df.isnull(), yticklabels=False, cbar=False, cmap='viridis')
        plt.title('Mapa de Calor de Valores Ausentes')
        plt.tight_layout()
        plt.savefig('output/valores_ausentes.png')
        plt.close()
        print("Mapa de calor de valores ausentes salvo como 'valores_ausentes.png'")

In [None]:
def detectar_outliers(df):
    """
    Detecta e visualiza outliers nas variáveis numéricas
    """
    print("\n===== DETECÇÃO DE OUTLIERS =====")

    num_cols = df.select_dtypes(include=['int64', 'float64']).columns

    plt.figure(figsize=(12, 10))
    for i, col in enumerate(num_cols, 1):
        plt.subplot(3, 3, i)
        sns.boxplot(y=col, data=df)
        plt.title(f'Boxplot de {col}')
        plt.tight_layout()

    plt.savefig('output/outliers_boxplot.png')
    plt.close()
    print("Boxplots para detecção de outliers salvos como 'outliers_boxplot.png'")

    # cálculo de estatísticas para detectar outliers pelo método IQR
    print("\nDetecção de outliers pelo método IQR:")
    for col in num_cols:
        Q1 = df[col].quantile(0.25)
        Q3 = df[col].quantile(0.75)
        IQR = Q3 - Q1
        limite_inferior = Q1 - 1.5 * IQR
        limite_superior = Q3 + 1.5 * IQR

        outliers = df[(df[col] < limite_inferior) | (df[col] > limite_superior)][col]

        if len(outliers) > 0:
            print(f"{col}: {len(outliers)} outliers detectados ({len(outliers)/len(df)*100:.2f}%)")
            print(f"   - Limite inferior: {limite_inferior}")
            print(f"   - Limite superior: {limite_superior}")
            print(f"   - Valores mínimo e máximo dos outliers: {outliers.min()} e {outliers.max()}")

In [None]:
def analisar_distribuicoes(df):
    """
    Analisa e visualiza a distribuição das variáveis numéricas
    """
    print("\n===== DISTRIBUIÇÃO DAS VARIÁVEIS =====")

    num_cols = df.select_dtypes(include=['int64', 'float64']).columns

    # histogramas e KDE para variáveis numéricas
    plt.figure(figsize=(16, 12))
    for i, col in enumerate(num_cols, 1):
        plt.subplot(3, 3, i)
        sns.histplot(df[col], kde=True)
        plt.title(f'Distribuição de {col}')
        plt.tight_layout()

    plt.savefig('output/distribuicoes.png')
    plt.close()
    print("Histogramas de distribuição salvos como 'distribuicoes.png'")

    # estatísticas de assimetria e curtose
    print("\nAssimetria e Curtose:")
    for col in num_cols:
        print(f"{col}:")
        print(f"   - Assimetria: {df[col].skew():.4f}")
        print(f"   - Curtose: {df[col].kurt():.4f}")

In [None]:
def analisar_correlacoes(df):
    """
    Analisa e visualiza correlações entre variáveis numéricas
    """
    print("\n===== ANÁLISE DE CORRELAÇÕES =====")

    num_cols = df.select_dtypes(include=['int64', 'float64']).columns

    # matriz de correlação
    corr_matrix = df[num_cols].corr()
    print("\nMatriz de correlação:")
    print(corr_matrix)

    # visualiza da matriz de correlação
    plt.figure(figsize=(12, 10))
    mask = np.triu(np.ones_like(corr_matrix, dtype=bool))
    sns.heatmap(corr_matrix, mask=mask, annot=True, fmt=".2f", cmap='coolwarm',
               vmin=-1, vmax=1, center=0, square=True, linewidths=.5)
    plt.title('Matriz de Correlação')
    plt.tight_layout()
    plt.savefig('output/correlacao.png')
    plt.close()
    print("Matriz de correlação salva como 'correlacao.png'")

    # pairplot para visualização de relações bivariadas
    if len(num_cols) <= 8:  # limitação para evitar pairplots muito grandes
        plt.figure(figsize=(15, 15))
        sns.pairplot(df[num_cols])
        plt.tight_layout()
        plt.savefig('output/pairplot.png')
        plt.close()
        print("Pairplot salvo como 'pairplot.png'")


In [None]:
def analisar_variavel_alvo(df):
    """
    Analisa a distribuição e relações da variável alvo (label)
    """
    print("\n===== ANÁLISE DA VARIÁVEL ALVO =====")

    if 'label' not in df.columns:
        print("Variável alvo 'label' não encontrada no dataset.")
        return

    # contagem de valores da variável alvo
    contagem = df['label'].value_counts()
    print("\nDistribuição da variável alvo:")
    print(contagem)

    # gráfico de barras para a variável alvo
    plt.figure(figsize=(12, 6))
    ax = sns.countplot(x='label', data=df)
    plt.title('Distribuição da Variável Alvo (label)')
    plt.xticks(rotation=45, ha='right')

    # adiciona rótulos de contagem
    for p in ax.patches:
        ax.annotate(f'{p.get_height()}', (p.get_x() + p.get_width()/2., p.get_height()),
                   ha='center', va='bottom', fontsize=10)

    plt.tight_layout()
    plt.savefig('output/distribuicao_alvo.png')
    plt.close()
    print("Gráfico de distribuição da variável alvo salvo como 'distribuicao_alvo.png'")

    # relação entre variáveis numéricas e a variável alvo
    num_cols = df.select_dtypes(include=['int64', 'float64']).columns

    plt.figure(figsize=(15, 10))
    for i, col in enumerate(num_cols, 1):
        plt.subplot(3, 3, i)
        sns.boxplot(x='label', y=col, data=df)
        plt.title(f'{col} por Categoria de Cultura')
        plt.xticks(rotation=45, ha='right')
        plt.tight_layout()

    plt.savefig('output/variaveis_por_alvo.png')
    plt.close()
    print("Boxplots das variáveis por categoria da variável alvo salvos como 'variaveis_por_alvo.png'")


In [None]:
def main():
    """
    Função principal para executar a análise exploratória de dados
    """
    # carrega os dados
    df = carregar_dados()
    if df is None:
        return

    # executa as análises
    info_basica(df)
    verificar_valores_ausentes(df)
    detectar_outliers(df)
    analisar_distribuicoes(df)
    analisar_correlacoes(df)
    analisar_variavel_alvo(df)

    print("\n===== ANÁLISE EXPLORATÓRIA CONCLUÍDA =====")
    print("Todos os gráficos foram salvos no diretório atual.")

if __name__ == "__main__":
    main()

Dataset carregado com sucesso: 2200 linhas e 8 colunas

===== INFORMAÇÕES BÁSICAS =====

Primeiras 5 linhas:
    N   P   K  temperature   humidity        ph    rainfall label
0  90  42  43    20.879744  82.002744  6.502985  202.935536  rice
1  85  58  41    21.770462  80.319644  7.038096  226.655537  rice
2  60  55  44    23.004459  82.320763  7.840207  263.964248  rice
3  74  35  40    26.491096  80.158363  6.980401  242.864034  rice
4  78  42  42    20.130175  81.604873  7.628473  262.717340  rice

Últimas 5 linhas:
        N   P   K  temperature   humidity        ph    rainfall   label
2195  107  34  32    26.774637  66.413269  6.780064  177.774507  coffee
2196   99  15  27    27.417112  56.636362  6.086922  127.924610  coffee
2197  118  33  30    24.131797  67.225123  6.362608  173.322839  coffee
2198  117  32  34    26.272418  52.127394  6.758793  127.175293  coffee
2199  104  18  30    23.603016  60.396475  6.779833  140.937041  coffee

Informações sobre o DataFrame:
<class 'pand

<Figure size 1500x1500 with 0 Axes>

# Análise Descritiva dos Dados Agrícolas

## Introdução

A análise descritiva a seguir apresenta os principais padrões identificados no
conjunto de dados de culturas agrícolas, com foco nas relações entre nutrientes
do solo, condições climáticas e os tipos específicos de culturas cultivadas.
Através de visualizações detalhadas, buscamos expor características relevantes
que influenciam o cultivo de diferentes espécies vegetais.

## Distribuição das Culturas por Grupos

> Imagem output/distribuicao_grupos_culturas.png

O conjunto de dados apresenta uma distribuição balanceada entre os principais
grupos de culturas, organizados em categorias funcionais. As culturas foram
agrupadas em:

- **Frutas**: Representam 45,5% do dataset, incluindo culturas como pomegranate,
banana, mango, grapes, watermelon, muskmelon, apple, orange, papaya e coconut.
- **Leguminosas**: Constituem 31,8% dos registros, abrangendo chickpea,
kidneybeans, pigeonpeas, mothbeans, mungbean, blackgram e lentil.
- **Cultivos Industriais**: Correspondem a 13,6% das amostras, incluindo cotton,
jute e coffee.
- **Cereais**: Compreendem 9,1% do conjunto de dados, com rice e maize.

Esta categorização permite analisar padrões de cultivo específicos para cada
grupo funcional de plantas, considerando suas necessidades nutricionais e
preferências ambientais distintas.

## Correlações entre Nutrientes e Fatores Ambientais

> Imagem: output/correlacao_nutrientes_ambiente.png

A análise de correlação revela padrões importantes entre os nutrientes do solo e
os fatores ambientais:

- **Correlação P-K (0,74)**: Existe uma forte correlação positiva entre os
níveis de fósforo e potássio no solo, sugerindo que estes nutrientes tendem a
ocorrer conjuntamente em proporções similares.

- **Correlação Temperatura-Umidade (0,21)**: Há uma correlação positiva fraca
entre temperatura e umidade, indicando uma tendência de ambientes mais quentes
apresentarem maior umidade relativa.

- **Correlações Negativas**: Observa-se correlação negativa entre pH e potássio
(-0,17), sugerindo que solos mais ácidos tendem a apresentar maiores
concentrações de potássio disponível.

- **Independência de Variáveis**: Muitas variáveis apresentam correlações fracas
entre si, indicando relativa independência. Isso sugere que múltiplos fatores
interagem de maneira complexa na determinação da adequação do ambiente para
diferentes culturas.

A baixa correlação entre alguns nutrientes e fatores ambientais ressalta a
complexidade dos sistemas agrícolas, onde múltiplas variáveis influenciam o
desenvolvimento das plantas de forma não-linear.

## Relação entre Macronutrientes (N, P, K) e Culturas

> output/dispersao_NPK_culturas.png

A análise da distribuição dos macronutrientes (Nitrogênio, Fósforo e Potássio)
revela padrões distintos para diferentes grupos de culturas:

- **Cereais**: Apresentam necessidade elevada de nitrogênio, com concentrações
médias a altas de fósforo e potássio, refletindo sua natureza de alto
rendimento energético e rápido crescimento.

- **Leguminosas**: Demonstram menor dependência de nitrogênio devido à sua
capacidade de fixação biológica de N2 atmosférico, através da simbiose com
bactérias rizobiais. Entretanto, requerem níveis adequados de fósforo e
potássio.

- **Frutas Tropicais**: Exigem um balanço equilibrado dos três macronutrientes,
com algumas espécies mostrando preferência por níveis mais elevados de potássio,
essencial para a formação e qualidade dos frutos.

- **Frutas Temperadas**: Apresentam agrupamento distinto, com necessidades
moderadas de nitrogênio e fósforo, mas requerimentos variáveis de potássio.

- **Cultivos Industriais**: Revelam grande variabilidade nas necessidades
nutricionais, refletindo a diversidade de espécies e produtos finais nesta
categoria.

A visualização adicional de Fósforo vs. Potássio (P-K) reforça a forte
correlação positiva entre estes nutrientes e demonstra como diferentes culturas
ocupam nichos específicos neste espaço nutricional.

## Relação entre pH do Solo e Precipitação

![Relação pH-Rainfall](/fiap/cap14/figures/relacao_ph_rainfall.png)

A análise da relação entre pH do solo e precipitação revela insights
importantes:

- **Cereais**: Prosperam em solos com pH neutro a ligeiramente alcalino
(média ~7,0) e precipitação moderada a alta (média ~200mm), refletindo sua
adaptação evolutiva a planícies aluviais férteis.

- **Leguminosas**: Preferem solos com pH neutro (média ~6,5) e precipitação
moderada (média ~160mm), condições que favorecem tanto o crescimento da planta
quanto a atividade das bactérias fixadoras de nitrogênio em suas raízes.

- **Frutas**: Apresentam maior variabilidade nas preferências de pH
(faixa de 5,8 a 7,2) e precipitação (faixa de 80 a 220mm), refletindo a
diversidade evolutiva deste grupo e sua adaptação a diferentes biomas.

- **Cultivos Industriais**: Tendem a ser cultivados em condições específicas,
com café preferindo solos levemente ácidos e algodão adaptando-se a solos mais
alcalinos.

Os boxplots complementares mostram a distribuição de valores de pH e
precipitação para cada grupo, destacando tanto as tendências centrais quanto a
variabilidade dentro de cada categoria. Nota-se que culturas como café e jute
apresentam exigências mais restritas, enquanto leguminosas demonstram maior
plasticidade adaptativa.

## Relação entre Temperatura e Umidade

> output/temperatura_umidade_culturas.png

A análise da relação entre temperatura e umidade revela padrões distintos de
adaptação climática:

- **Culturas Tropicais**: Concentram-se em regiões de alta temperatura
(média ~28°C) e alta umidade (média ~82%), refletindo sua origem evolutiva em
florestas tropicais e savanas úmidas. Culturas como banana, manga e arroz
exemplificam esta categoria.

- **Culturas Temperadas**: Ocupam zonas de temperatura moderada (média ~22°C) e
umidade intermediária (média ~65%), adaptadas a ambientes com sazonalidade
climática mais pronunciada. Maçã, uva e laranja são representantes típicos.

- **Leguminosas**: Demonstram notável adaptabilidade a diferentes regimes
climáticos, com preferência para condições de umidade controlada. Sua
distribuição no gráfico de dispersão evidencia esta plasticidade ecológica.

- **Culturas de Estação Quente**: Requerem temperaturas elevadas
(média ~25-30°C) mas variam significativamente quanto à necessidade de umidade,
refletindo adaptações a ambientes sazonalmente secos. Milho, algodão e melancia
representam este grupo.

- **Culturas de Baixa Umidade**: Adaptadas a ambientes com menor disponibilidade
de água (umidade média ~55%), ocupando um nicho ecológico distinto. Café e
romã são exemplos característicos.

O heatmap complementar identifica as combinações de temperatura-umidade com maior
concentração de culturas, revelando "hotspots" agroclimáticos preferenciais.
Observa-se maior densidade de culturas na faixa de 20-26°C combinada com umidade
de 70-85%, representando condições ótimas para diversas espécies cultivadas.

## Conclusões Principais

A análise descritiva realizada permite identificar as seguintes conclusões
fundamentais:

1. **Especificidade Nutricional**: Cada grupo de culturas apresenta requisitos
nutricionais específicos, com relações distintivas entre N, P e K que refletem
suas estratégias metabólicas e evolutivas.

2. **Adaptações Edafoclimáticas**: As culturas demonstram padrões claros de
adaptação a condições específicas de pH do solo e precipitação, formando nichos
ecológicos que correspondem a suas origens evolutivas.

3. **Perfis Termohigrométricos**: A relação entre temperatura e umidade define
zonas de cultivo preferenciais para diferentes grupos de plantas, com culturas
tropicais, temperadas e de clima seco ocupando regiões distintas neste espaço
bioclimático.

4. **Correlações Nutricionais**: A forte correlação entre fósforo e potássio
sugere processos pedológicos comuns que regulam a disponibilidade destes
nutrientes, com implicações importantes para manejo da fertilidade do solo.

5. **Plasticidade Adaptativa**: Alguns grupos, como leguminosas, apresentam
maior plasticidade adaptativa, enquanto outros, como culturas tropicais,
demonstram requisitos mais específicos, refletindo diferentes estratégias
evolutivas.

Estas observações fornecem base robusta para o desenvolvimento de modelos
preditivos que possam orientar decisões agrícolas e estratégias de manejo
específicas para diferentes culturas e condições ambientais.

In [None]:
#!/usr/bin/env python3
# -*- coding: utf-8 -*-
"""
Script para análise descritiva de dados agrícolas com visualizações
"""

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path
import matplotlib.gridspec as gridspec
from matplotlib.colors import LinearSegmentedColormap

# Configurações de visualização
plt.style.use('seaborn-v0_8-whitegrid')
sns.set(font_scale=1.1)
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['axes.labelsize'] = 12
plt.rcParams['axes.titlesize'] = 14
plt.rcParams['xtick.labelsize'] = 10
plt.rcParams['ytick.labelsize'] = 10

# Definir caminho para o dataset
DATA_DIR = Path('datasets')
DATASET_PATH = DATA_DIR / 'Atividade_Cap_14_produtos_agricolas.csv'
OUTPUT_DIR = Path('output')
OUTPUT_DIR.mkdir(exist_ok=True)

# Cores personalizadas para visualizações
CUSTOM_COLORS = [
    "#4E79A7", "#F28E2B", "#E15759", "#76B7B2", "#59A14F",
    "#EDC948", "#B07AA1", "#FF9DA7", "#9C755F", "#BAB0AC"
]

def carregar_dados():
    """
    Carrega o dataset e retorna um DataFrame
    """
    try:
        df = pd.read_csv(DATASET_PATH)
        print(f"Dataset carregado com sucesso: {df.shape[0]} linhas e {df.shape[1]} colunas")
        return df
    except Exception as e:
        print(f"Erro ao carregar o dataset: {e}")
        return None

def grafico_distribuicao_culturas(df):
    """
    Gera um gráfico de barras horizontais para mostrar a distribuição das culturas
    Agrupadas por tipo (cereais, leguminosas, frutas, etc.)
    """
    print("\nGerando gráfico de distribuição das culturas...")

    # Definir grupos de culturas
    grupos_culturas = {
        'Cereais': ['rice', 'maize'],
        'Leguminosas': ['chickpea', 'kidneybeans', 'pigeonpeas', 'mothbeans',
                       'mungbean', 'blackgram', 'lentil'],
        'Frutas': ['pomegranate', 'banana', 'mango', 'grapes', 'watermelon',
                  'muskmelon', 'apple', 'orange', 'papaya', 'coconut'],
        'Cultivos Industriais': ['cotton', 'jute', 'coffee']
    }

    # Criar DataFrame para o gráfico
    count_por_grupo = {}
    for grupo, culturas in grupos_culturas.items():
        count_por_grupo[grupo] = df[df['label'].isin(culturas)].shape[0]

    df_grupos = pd.DataFrame({
        'Grupo': list(count_por_grupo.keys()),
        'Contagem': list(count_por_grupo.values())
    })

    # Adicionar porcentagem
    df_grupos['Porcentagem'] = df_grupos['Contagem'] / df.shape[0] * 100
    df_grupos = df_grupos.sort_values('Contagem', ascending=False)

    # Criar gráfico
    fig, ax = plt.subplots(figsize=(10, 6))
    bars = ax.barh(df_grupos['Grupo'], df_grupos['Contagem'],
            color=sns.color_palette("viridis", len(df_grupos)))

    # Adicionar rótulos
    for i, bar in enumerate(bars):
        ax.text(bar.get_width() + 20,
               bar.get_y() + bar.get_height()/2,
               f"{df_grupos['Contagem'].iloc[i]} ({df_grupos['Porcentagem'].iloc[i]:.1f}%)",
               va='center')

    # Adicionar detalhes do gráfico
    ax.set_title('Distribuição dos Grupos de Culturas no Dataset')
    ax.set_xlabel('Número de Registros')
    ax.set_xlim(0, df.shape[0] + 100)

    # Adicionar subtexto explicativo
    grupos_info = []
    for grupo, culturas in grupos_culturas.items():
        grupos_info.append(f"{grupo}: {', '.join(culturas)}")

    plt.figtext(0.5, -0.05, '\n'.join(grupos_info),
                ha='center', fontsize=9, bbox={'facecolor': 'white',
                                              'alpha': 0.8, 'pad': 5})

    plt.tight_layout()
    plt.savefig(OUTPUT_DIR / 'distribuicao_grupos_culturas.png',
                bbox_inches='tight', dpi=300)
    plt.close()

    return df_grupos

def grafico_correlacoes_nutrientes(df):
    """
    Gera uma matriz de correlação com foco nos nutrientes do solo (N, P, K)
    e sua relação com os fatores ambientais (temperatura, umidade, pH, precipitação)
    """
    print("\nGerando gráfico de correlação entre nutrientes e fatores ambientais...")

    # Selecionar colunas relevantes
    colunas = ['N', 'P', 'K', 'temperature', 'humidity', 'ph', 'rainfall']

    # Calcular matriz de correlação
    corr_matrix = df[colunas].corr()

    # Configurar gráfico
    plt.figure(figsize=(12, 10))

    # Criar um mapa de cores personalizado
    cmap = sns.diverging_palette(220, 10, as_cmap=True)

    # Matriz de correlação
    mask = np.triu(np.ones_like(corr_matrix, dtype=bool))
    sns.heatmap(corr_matrix, mask=mask, cmap=cmap, vmax=1, vmin=-1, center=0,
                annot=True, fmt='.2f', square=True, linewidths=.5, cbar_kws={"shrink": .8})

    plt.title('Correlação entre Nutrientes do Solo e Fatores Ambientais',
              fontsize=16, pad=20)

    # Adicionar anotações explicativas
    correlacoes_fortes = []
    for i in range(len(corr_matrix.columns)):
        for j in range(i):
            if abs(corr_matrix.iloc[i, j]) > 0.3:
                var1 = corr_matrix.columns[i]
                var2 = corr_matrix.columns[j]
                coef = corr_matrix.iloc[i, j]
                tipo = "positiva" if coef > 0 else "negativa"
                correlacoes_fortes.append(
                    f"• {var1} e {var2}: correlação {tipo} ({coef:.2f})"
                )

    if correlacoes_fortes:
        correlacoes_texto = "Correlações mais relevantes:\n" + "\n".join(correlacoes_fortes)
        plt.figtext(0.5, -0.05, correlacoes_texto, ha="center",
                    fontsize=10, bbox={"facecolor": "white",
                                       "alpha": 0.8, "pad": 5})

    plt.tight_layout()
    plt.savefig(OUTPUT_DIR / 'correlacao_nutrientes_ambiente.png',
                bbox_inches='tight', dpi=300)
    plt.close()

    return corr_matrix

def grafico_dispersao_nutrientes_culturas(df):
    """
    Gera um gráfico de dispersão para mostrar como as diferentes
    culturas se distribuem no espaço N x P x K
    """
    print("\nGerando gráfico de dispersão N x P x K por cultura...")

    # Agrupar culturas para reduzir complexidade visual
    grupos_culturas = {
        'Cereais': ['rice', 'maize'],
        'Leguminosas': ['chickpea', 'kidneybeans', 'pigeonpeas', 'mothbeans',
                       'mungbean', 'blackgram', 'lentil'],
        'Frutas Tropicais': ['banana', 'mango', 'papaya', 'coconut', 'pomegranate'],
        'Frutas Temperadas': ['apple', 'grapes', 'orange'],
        'Frutas Melão': ['watermelon', 'muskmelon'],
        'Cultivos Industriais': ['cotton', 'jute', 'coffee']
    }

    # Criar coluna de grupo para cada cultura
    df['grupo_cultura'] = df['label'].apply(
        lambda x: next((k for k, v in grupos_culturas.items() if x in v), "Outros"))

    # Criar figura com dois subplots
    fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(18, 9))

    # Configurar paleta de cores
    palette = sns.color_palette("tab10", len(grupos_culturas))

    # Plot 1: N vs P
    sns.scatterplot(x='N', y='P', hue='grupo_cultura', data=df, s=100, alpha=0.7,
                   palette=palette, ax=ax1)
    ax1.set_title('Nitrogênio vs Fósforo por Grupo de Culturas', fontsize=14)
    ax1.set_xlabel('Nitrogênio (N)', fontsize=12)
    ax1.set_ylabel('Fósforo (P)', fontsize=12)

    # Plot 2: N vs K
    sns.scatterplot(x='N', y='K', hue='grupo_cultura', data=df, s=100, alpha=0.7,
                   palette=palette, ax=ax2)
    ax2.set_title('Nitrogênio vs Potássio por Grupo de Culturas', fontsize=14)
    ax2.set_xlabel('Nitrogênio (N)', fontsize=12)
    ax2.set_ylabel('Potássio (K)', fontsize=12)

    # Ajustar layout
    plt.tight_layout()

    # Adicionar legenda única embaixo dos gráficos
    handles, labels = ax2.get_legend_handles_labels()
    fig.legend(handles, labels, loc='lower center', ncol=3, bbox_to_anchor=(0.5, -0.12),
              fontsize=11, frameon=True)
    ax1.get_legend().remove()
    ax2.get_legend().remove()

    # Adicionar anotações sobre os padrões
    insights = """
    Insights sobre Nutrientes:
    • Cereais: Tendem a necessitar de alto Nitrogênio
    • Leguminosas: Geralmente requerem menos Nitrogênio (fixação biológica)
    • Frutas Tropicais: Preferem equilíbrio entre os macronutrientes
    • Cultivos Industriais: Variam significativamente nas necessidades nutricionais
    """

    plt.figtext(0.5, 0.01, insights, ha='center', fontsize=10,
                bbox={'facecolor': 'white', 'alpha': 0.8, 'pad': 5})

    plt.savefig(OUTPUT_DIR / 'dispersao_NPK_culturas.png',
                bbox_inches='tight', dpi=300)
    plt.close()

    # Gráfico adicional: P vs K
    plt.figure(figsize=(12, 10))
    sns.scatterplot(x='P', y='K', hue='grupo_cultura', data=df, s=100, alpha=0.7,
                   palette=palette)
    plt.title('Fósforo vs Potássio por Grupo de Culturas', fontsize=14)
    plt.xlabel('Fósforo (P)', fontsize=12)
    plt.ylabel('Potássio (K)', fontsize=12)

    plt.legend(title='Grupo de Cultura', loc='best', fontsize=10)
    plt.tight_layout()
    plt.savefig(OUTPUT_DIR / 'dispersao_PK_culturas.png', bbox_inches='tight', dpi=300)
    plt.close()

    return grupos_culturas

def grafico_relacao_pH_rainfall(df):
    """
    Gera visualizações para mostrar a relação entre pH do solo e precipitação
    para diferentes tipos de culturas
    """
    print("\nGerando gráfico de relação entre pH e precipitação por cultura...")

    # Agrupar culturas
    grupos_culturas = {
        'Cereais': ['rice', 'maize'],
        'Leguminosas': ['chickpea', 'kidneybeans', 'pigeonpeas', 'mothbeans',
                       'mungbean', 'blackgram', 'lentil'],
        'Frutas': ['pomegranate', 'banana', 'mango', 'grapes', 'watermelon',
                  'muskmelon', 'apple', 'orange', 'papaya', 'coconut'],
        'Cultivos Industriais': ['cotton', 'jute', 'coffee']
    }

    # Ajustar dados para grupos
    df['grupo_cultura'] = df['label'].apply(
        lambda x: next((k for k, v in grupos_culturas.items() if x in v), "Outros"))

    # Calcular médias por grupo
    medias_grupo = df.groupby('grupo_cultura')[['ph', 'rainfall']].mean().reset_index()
    medias_cultura = df.groupby('label')[['ph', 'rainfall']].mean().reset_index()

    # Configurar layout da figura
    fig = plt.figure(figsize=(18, 10))
    gs = gridspec.GridSpec(2, 2, height_ratios=[2, 1])

    # Gráfico de dispersão
    ax1 = plt.subplot(gs[0, :])
    scatter = sns.scatterplot(x='ph', y='rainfall', hue='grupo_cultura',
                            size='grupo_cultura', sizes=(100, 200),
                            data=df, alpha=0.6, palette='viridis', ax=ax1)

    # Adicionar médias dos grupos como pontos maiores
    for i, row in medias_grupo.iterrows():
        ax1.scatter(row['ph'], row['rainfall'], s=300,
                   color='red', marker='*',
                   label='_nolegend_' if i > 0 else 'Média do Grupo')
        ax1.annotate(row['grupo_cultura'],
                   (row['ph'], row['rainfall']),
                   xytext=(10, 5), textcoords='offset points',
                   fontsize=12, fontweight='bold')

    ax1.set_title('Relação entre pH do Solo e Precipitação por Grupo de Culturas',
                fontsize=16)
    ax1.set_xlabel('pH do Solo', fontsize=14)
    ax1.set_ylabel('Precipitação (mm)', fontsize=14)

    # Boxplots para pH
    ax2 = plt.subplot(gs[1, 0])
    sns.boxplot(data=df, x='grupo_cultura', y='ph', ax=ax2)
    ax2.set_title('Distribuição de pH por Grupo de Culturas', fontsize=14)
    ax2.set_xlabel('Grupo de Culturas', fontsize=12)
    ax2.set_ylabel('pH', fontsize=12)
    ax2.tick_params(axis='x', rotation=45)

    # Boxplots para rainfall
    ax3 = plt.subplot(gs[1, 1])
    sns.boxplot(data=df, x='grupo_cultura', y='rainfall', ax=ax3)
    ax3.set_title('Distribuição de Precipitação por Grupo de Culturas', fontsize=14)
    ax3.set_xlabel('Grupo de Culturas', fontsize=12)
    ax3.set_ylabel('Precipitação (mm)', fontsize=12)
    ax3.tick_params(axis='x', rotation=45)

    # Adicionar insights ao gráfico
    insights = """
    Insights sobre pH e Precipitação:
    • Cereais: Tendem a prosperar em solos com pH neutro a ligeiramente alcalino e precipitação moderada a alta
    • Leguminosas: Geralmente preferem solos com pH neutro e precipitação moderada
    • Frutas: Apresentam maior variabilidade nas preferências de pH e precipitação
    • Cultivos Industriais: Geralmente cultivados em condições específicas de pH e precipitação
    """

    plt.figtext(0.5, 0.01, insights, ha='center', fontsize=10,
                bbox={'facecolor': 'white', 'alpha': 0.8, 'pad': 5})

    plt.tight_layout()
    plt.savefig(OUTPUT_DIR / 'relacao_ph_rainfall.png',
                bbox_inches='tight', dpi=300)
    plt.close()

    return medias_grupo, medias_cultura

def grafico_temperatura_umidade(df):
    """
    Gera visualizações para mostrar a relação entre temperatura e umidade
    para diferentes tipos de culturas, além de análise por estações
    """
    print("\nGerando gráfico de relação entre temperatura e umidade por cultura...")

    # Agrupar culturas em categorias
    categoria_culturas = {
        'Culturas Tropicais': ['rice', 'banana', 'coconut', 'papaya', 'mango'],
        'Culturas Temperadas': ['apple', 'orange', 'grapes'],
        'Leguminosas': ['chickpea', 'kidneybeans', 'pigeonpeas', 'mothbeans',
                      'mungbean', 'blackgram', 'lentil'],
        'Culturas de Estação Quente': ['cotton', 'maize', 'watermelon', 'muskmelon'],
        'Culturas de Baixa Umidade': ['coffee', 'jute', 'pomegranate']
    }

    # Criar coluna de categoria
    df['categoria'] = df['label'].apply(
        lambda x: next((k for k, v in categoria_culturas.items() if x in v), "Outras"))

    # Calcular médias por categoria
    medias_categoria = df.groupby('categoria')[['temperature', 'humidity']].mean().reset_index()

    # Criar figura
    fig, axes = plt.subplots(2, 1, figsize=(14, 16), gridspec_kw={'height_ratios': [2, 1]})

    # Gráfico principal: Dispersão temperatura x umidade
    scatter = sns.scatterplot(
        x='temperature', y='humidity',
        hue='categoria', size='categoria',
        sizes=(100, 200), alpha=0.7,
        data=df, ax=axes[0], palette='tab10'
    )

    # Adicionar médias das categorias
    for i, row in medias_categoria.iterrows():
        axes[0].scatter(
            row['temperature'], row['humidity'],
            s=300, color='black', edgecolor='white',
            marker='*', linewidth=1.5,
            label='_nolegend_' if i > 0 else 'Média da Categoria'
        )
        axes[0].annotate(
            row['categoria'],
            (row['temperature'], row['humidity']),
            xytext=(7, 7), textcoords='offset points',
            fontsize=11, fontweight='bold'
        )

    axes[0].set_title('Relação entre Temperatura e Umidade por Categoria de Cultura',
                      fontsize=16)
    axes[0].set_xlabel('Temperatura (°C)', fontsize=14)
    axes[0].set_ylabel('Umidade (%)', fontsize=14)

    # Ajustar legenda
    axes[0].legend(title='Categoria de Cultura', fontsize=10,
                  title_fontsize=12, loc='best')

    # Subgráfico: Heatmap de temperatura x umidade
    # Criar bins para temperatura e umidade
    temp_bins = pd.cut(df['temperature'], bins=10)
    humidity_bins = pd.cut(df['humidity'], bins=10)

    # Contagem de culturas em cada combinação de bins
    heatmap_data = pd.crosstab(temp_bins, humidity_bins)

    # Plotar heatmap
    sns.heatmap(
        heatmap_data,
        cmap='YlOrRd',
        ax=axes[1],
        annot=False,
        fmt='d',
        cbar_kws={'label': 'Número de Culturas'}
    )

    axes[1].set_title('Densidade de Culturas por Faixas de Temperatura e Umidade',
                      fontsize=14)
    axes[1].set_xlabel('Faixas de Umidade (%)', fontsize=12)
    axes[1].set_ylabel('Faixas de Temperatura (°C)', fontsize=12)

    # Adicionar insights
    insights = """
    Insights de Temperatura e Umidade:
    • Culturas Tropicais: Preferem altas temperaturas e alta umidade
    • Culturas Temperadas: Prosperam em temperaturas moderadas e umidade intermediária
    • Leguminosas: Adaptam-se a diferentes condições, com preferência para umidade controlada
    • Culturas de Estação Quente: Requerem altas temperaturas mas variam na necessidade de umidade
    • Culturas de Baixa Umidade: Adaptadas a ambientes com menor disponibilidade de água

    O heatmap mostra as regiões de combinação temperatura-umidade com maior concentração de culturas,
    revelando nichos ambientais preferidos para a agricultura.
    """

    plt.figtext(0.5, 0.01, insights, ha='center', fontsize=10,
                bbox={'facecolor': 'white', 'alpha': 0.8, 'pad': 5})

    plt.tight_layout()
    plt.savefig(OUTPUT_DIR / 'temperatura_umidade_culturas.png',
                bbox_inches='tight', dpi=300)
    plt.close()

    return medias_categoria

def main():
    """
    Função principal para executar a análise descritiva com visualizações
    """
    # Carregar os dados
    df = carregar_dados()
    if df is None:
        return

    # Gerar visualizações
    grafico_distribuicao_culturas(df)
    grafico_correlacoes_nutrientes(df)
    grafico_dispersao_nutrientes_culturas(df)
    grafico_relacao_pH_rainfall(df)
    grafico_temperatura_umidade(df)

    print("\n===== ANÁLISE DESCRITIVA CONCLUÍDA =====")
    print(f"Todos os gráficos foram salvos no diretório: {OUTPUT_DIR}")

if __name__ == "__main__":
    main()

Dataset carregado com sucesso: 2200 linhas e 8 colunas

Gerando gráfico de distribuição das culturas...

Gerando gráfico de correlação entre nutrientes e fatores ambientais...

Gerando gráfico de dispersão N x P x K por cultura...

Gerando gráfico de relação entre pH e precipitação por cultura...

Gerando gráfico de relação entre temperatura e umidade por cultura...

===== ANÁLISE DESCRITIVA CONCLUÍDA =====
Todos os gráficos foram salvos no diretório: output


# Análise do Perfil Ideal de Solo/Clima para Culturas Agrícolas

## Introdução

Esta análise identifica o perfil ideal de solo e clima para culturas agrícolas,
baseando-se na análise estatística do dataset fornecido. O objetivo é determinar
os parâmetros ótimos gerais e comparar culturas específicas (Maçã, Café e Arroz)
com este perfil ideal, destacando suas particularidades e necessidades
específicas.

## Metodologia

A análise utiliza abordagens estatísticas robustas para identificar o perfil
ideal:

1. **Definição do Perfil Ideal**: Calculado como a mediana global de cada
parâmetro considerando todas as culturas, representando o equilíbrio central dos
requisitos.

2. **Importância dos Parâmetros**: Determinada pela variância entre os perfis
das diferentes culturas, indicando quais parâmetros são mais discriminativos.

3. **Análise de Desvios**: Calculados os desvios percentuais e absolutos entre
cada cultura e o perfil ideal.

4. **Score de Similaridade**: Medida normalizada (0-100) que quantifica o quão
próxima cada cultura está do perfil ideal, considerando todos os parâmetros
simultaneamente.

## Perfil Ideal de Solo/Clima

O perfil ideal de solo e clima, baseado na análise estatística dos dados,
apresenta os seguintes valores:

| Parâmetro     | Valor    | Unidade |
|---------------|----------|---------|
| N (Nitrogênio)| 37.00    | kg/ha   |
| P (Fósforo)   | 51.00    | kg/ha   |
| K (Potássio)  | 32.00    | kg/ha   |
| Temperatura   | 25.60    | °C      |
| Umidade       | 80.47    | %       |
| pH            | 6.43     | pH      |
| Precipitação  | 94.87    | mm      |

Este perfil representa o ponto central de equilíbrio entre todas as culturas
analisadas, fornecendo uma referência para compreender os requisitos específicos
de cada cultura.

## Importância Relativa dos Parâmetros

A análise estatística revelou que nem todos os parâmetros têm a mesma importância
na diferenciação entre culturas:

> Perfil Radar: output/perfil_radar.png

Os parâmetros mais determinantes são:

1. **Potássio (K)**: 32.7% - Principal fator diferenciador entre culturas
2. **Precipitação**: 32.2% - Altamente significativo na adaptação das culturas
3. **Nitrogênio (N)**: 15.4% - Moderadamente importante
4. **Fósforo (P)**: 13.4% - Moderadamente importante
5. **Umidade**: 6.2% - Menor influência diferencial
6. **Temperatura**: 0.2% - Mínima variação entre culturas
7. **pH**: 0.0% - Praticamente constante entre diferentes culturas

Esta hierarquia de importância indica que estratégias de manejo agrícola devem
priorizar ajustes de potássio e irrigação (precipitação) para otimizar o
cultivo específico de diferentes espécies.

## Perfis Comparativos: Maçã, Café e Arroz

As três culturas selecionadas para análise detalhada representam grupos
distintos com necessidades contrastantes:

> Heatmap de Desvios: output/heatmap_desvios.png

### Maçã (Apple)

A maçã apresenta o maior desvio em relação ao perfil ideal, com score de
similaridade de apenas 1.1/100, classificando-se em último lugar (22º) entre
todas as culturas analisadas.

**Características distintivas:**
- **Potássio**: Requer 525.0% mais K do que o perfil ideal
- **Fósforo**: Necessita 167.6% mais P do que o perfil ideal
- **Nitrogênio**: Utiliza 35.1% menos N do que o perfil ideal
- **Temperatura**: Prefere ambientes 11.6% mais frios que o perfil ideal

A maçã se destaca por sua excepcional demanda de potássio e fósforo, muito acima
da média das demais culturas. Desenvolve-se melhor em climas temperados com
temperaturas mais amenas e apresenta menor dependência de nitrogênio.

### Café (Coffee)

O café apresenta um score de similaridade intermediário de 6.7/100, ocupando a
15ª posição no ranking geral de similaridade.

**Características distintivas:**
- **Nitrogênio**: Requer 178.4% mais N do que o perfil ideal
- **Precipitação**: Necessita 66.3% mais rainfall do que o perfil ideal
- **Fósforo**: Utiliza 43.1% menos P do que o perfil ideal
- **Umidade**: Prefere ambientes 28.4% menos úmidos que o perfil ideal

O café se caracteriza pela alta demanda de nitrogênio e precipitação, combinada
com necessidades reduzidas de fósforo. Notavelmente, apesar de requerer alta
precipitação, desenvolve-se melhor em ambientes com menor umidade relativa do ar,
indicando preferência por climas com chuvas sazonais intensas mas baixa umidade
atmosférica constante.

### Arroz (Rice)

O arroz apresenta um score de similaridade de 4.6/100, ocupando a 18ª posição no
ranking geral de similaridade.

**Características distintivas:**
- **Precipitação**: Requer 145.7% mais rainfall do que o perfil ideal
- **Nitrogênio**: Necessita 116.2% mais N do que o perfil ideal
- **Potássio**: Utiliza 25.0% mais K do que o perfil ideal
- **Temperatura**: Prefere ambientes 7.3% mais frios que o perfil ideal

O arroz se destaca pela excepcional demanda hídrica, com necessidade de
precipitação muito superior à média das culturas. Também requer altos níveis de
nitrogênio, característica típica de gramíneas de alto rendimento. Embora precise
de mais potássio que a média, sua exigência é significativamente menor que a da
maçã.

> Desvios do Perfil Ideal: output/desvios_perfil_ideal.png

## Análise Comparativa

O gráfico de desvios percentuais revela padrões interessantes:

1. **Complementaridade Nutricional**: As três culturas apresentam perfis quase
complementares em termos de macronutrientes. Enquanto a maçã demanda altos níveis
de P e K com baixo N, o café e o arroz seguem o padrão oposto.

2. **Exigências Hídricas**: Tanto o café quanto o arroz demandam precipitação
significativamente acima do perfil ideal, mas diferem quanto à umidade ambiente
preferencial.

3. **Preferências de pH**: As três culturas apresentam desvios relativamente
pequenos em relação ao pH ideal, confirmando a baixa importância deste parâmetro
como diferenciador entre culturas.

## Ranking Geral de Culturas

> Ranking de Culturas: output/ranking_culturas.png

A análise de similaridade com o perfil ideal gerou um ranking completo das
culturas, onde:

1. **Mungbean (Feijão Mungo)**: Com score de 23.5/100, é a cultura mais próxima
do perfil ideal, sugerindo requisitos mais equilibrados.

2. **Pomegranate (Romã)**: Score de 21.8/100, apresenta requisitos moderados em
relação à média.

3. **Maize (Milho)**: Score de 20.2/100, demonstra adaptabilidade a condições
próximas do perfil central.

As culturas analisadas em detalhe ocupam posições mais distantes, confirmando
seus perfis altamente específicos:
- Café: 15º lugar (6.7/100)
- Arroz: 18º lugar (4.6/100)
- Maçã: 22º lugar (1.1/100)

## Conclusões e Recomendações Agrícolas

A análise do perfil ideal e dos desvios específicos permite estabelecer algumas
diretrizes práticas:

1. **Maçã**: Requer manejo intensivo de potássio e fósforo, com aplicações
significativamente maiores que outras culturas. Desenvolve-se melhor em regiões
de clima temperado com alta umidade relativa. A estratégia de fertilização deve
enfatizar K e P, com aplicações moderadas de N.

2. **Café**: Demanda alta aplicação de nitrogênio e disponibilidade hídrica
adequada, porém em ambiente com umidade relativa controlada. O manejo ideal
envolve irrigação abundante em períodos específicos, combinada com boa drenagem
e circulação de ar para reduzir umidade ambiental. Fertilização nitrogenada deve
ser priorizada sobre fósforo.

3. **Arroz**: Exige disponibilidade hídrica excepcional, confirmando sua natureza
semi-aquática. A alta demanda por nitrogênio sugere fertilização intensa deste
nutriente para maximizar produtividade. Embora necessite de potássio acima da
média, este requerimento é moderado comparado à maçã.

Este estudo demonstra a importância da análise de perfis específicos para
otimização de práticas agrícolas, permitindo ajustes personalizados de
fertilização e manejo climático para cada cultura.

In [None]:
#!/usr/bin/env python3
# -*- coding: utf-8 -*-
"""
/fiap/cap14/perfil_ideal.py

Script para análise do perfil ideal de solo/clima para plantações e comparação
com culturas específicas
"""

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path
import matplotlib.gridspec as gridspec
from sklearn.preprocessing import StandardScaler
from scipy import stats
import matplotlib.patches as mpatches

# Configurações de visualização
plt.style.use('seaborn-v0_8-whitegrid')
sns.set(font_scale=1.1)
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['axes.labelsize'] = 12
plt.rcParams['axes.titlesize'] = 14
plt.rcParams['xtick.labelsize'] = 10
plt.rcParams['ytick.labelsize'] = 10

# Definir caminho para o dataset
DATA_DIR = Path('datasets')
DATASET_PATH = DATA_DIR / 'Atividade_Cap_14_produtos_agricolas.csv'
OUTPUT_DIR = Path('output')
OUTPUT_DIR.mkdir(exist_ok=True)

# Cores personalizadas para visualizações
CUSTOM_COLORS = [
    "#4E79A7", "#F28E2B", "#E15759", "#76B7B2", "#59A14F",
    "#EDC948", "#B07AA1", "#FF9DA7", "#9C755F", "#BAB0AC"
]

# Definir as três culturas para comparação detalhada
CULTURAS_FOCO = ['apple', 'coffee', 'rice']
CULTURAS_NOMES = {
    'apple': 'Maçã',
    'coffee': 'Café',
    'rice': 'Arroz'
}

def carregar_dados():
    """
    Carrega o dataset e retorna um DataFrame
    """
    try:
        df = pd.read_csv(DATASET_PATH)
        print(f"Dataset carregado com sucesso: {df.shape[0]} linhas e {df.shape[1]} colunas")
        return df
    except Exception as e:
        print(f"Erro ao carregar o dataset: {e}")
        return None

def calcular_perfil_ideal(df):
    """
    Calcula o perfil ideal de solo/clima para todas as culturas
    baseado em análise estatística das medianas de produtividade
    """
    print("\nCalculando perfil ideal de solo/clima para as plantações...")

    # Criar DataFrame para armazenar os perfis
    colunas_perfil = ['N', 'P', 'K', 'temperature', 'humidity', 'ph', 'rainfall']

    # Mediana global (perfil médio considerando todas as culturas)
    perfil_medio = df[colunas_perfil].median().to_dict()

    # Calcular perfil para cada cultura
    perfis_culturas = {}
    for cultura in df['label'].unique():
        subset = df[df['label'] == cultura]
        perfis_culturas[cultura] = subset[colunas_perfil].median().to_dict()

    # Calcular variância para cada parâmetro (para identificar importância)
    variancias = {}
    for param in colunas_perfil:
        valores_medianas = [perfil[param] for perfil in perfis_culturas.values()]
        variancias[param] = np.var(valores_medianas)

    # Normalizar variâncias para ter uma medida de importância
    total_var = sum(variancias.values())
    importancia = {k: v/total_var for k, v in variancias.items()}

    # Criar DataFrame com perfis das culturas para facilitar análises
    df_perfis = pd.DataFrame.from_dict(perfis_culturas, orient='index')

    return {
        'perfil_medio': perfil_medio,
        'perfis_culturas': perfis_culturas,
        'importancia': importancia,
        'df_perfis': df_perfis
    }

def analisar_desvios_do_ideal(df, perfis_info):
    """
    Analisa o quanto cada cultura se desvia do perfil ideal
    e calcula escores de similaridade
    """
    print("\nAnalisando desvios do perfil ideal para cada cultura...")

    # Parâmetros a considerar
    params = ['N', 'P', 'K', 'temperature', 'humidity', 'ph', 'rainfall']

    # Obter perfil ideal (médio)
    perfil_ideal = perfis_info['perfil_medio']

    # Calcular desvios para cada cultura
    desvios = {}
    for cultura, perfil in perfis_info['perfis_culturas'].items():
        desvios[cultura] = {}
        for param in params:
            # Desvio percentual
            if perfil_ideal[param] != 0:
                desvio_pct = ((perfil[param] - perfil_ideal[param]) /
                             perfil_ideal[param]) * 100
            else:
                desvio_pct = float('inf') if perfil[param] > 0 else 0

            desvios[cultura][param] = {
                'valor_cultura': perfil[param],
                'valor_ideal': perfil_ideal[param],
                'desvio_absoluto': perfil[param] - perfil_ideal[param],
                'desvio_percentual': desvio_pct
            }

    # Criar DataFrame de perfis normalizado para calcular distâncias
    scaler = StandardScaler()
    df_perfis_norm = pd.DataFrame(
        scaler.fit_transform(perfis_info['df_perfis']),
        columns=perfis_info['df_perfis'].columns,
        index=perfis_info['df_perfis'].index
    )

    # Calcular distância euclidiana entre cada cultura e o perfil ideal
    perfil_ideal_norm = scaler.transform(
        pd.DataFrame([perfil_ideal], columns=params)
    )[0]

    # Calcular score de similaridade (normalizado de 0 a 100, onde 100 é idêntico ao ideal)
    similaridade = {}
    for cultura in df_perfis_norm.index:
        perfil_cultura = df_perfis_norm.loc[cultura].values
        dist = np.linalg.norm(perfil_cultura - perfil_ideal_norm)
        # Converter distância em similaridade (quanto menor a distância, maior a similaridade)
        # Usar função exponencial para mapear distâncias para escala 0-100
        similaridade[cultura] = 100 * np.exp(-dist)

    # Ordenar culturas por similaridade
    culturas_ordenadas = sorted(
        similaridade.items(), key=lambda x: x[1], reverse=True
    )

    return {
        'desvios': desvios,
        'similaridade': similaridade,
        'culturas_ordenadas': culturas_ordenadas
    }

def visualizar_perfil_radar(perfis_info, desvios_info):
    """
    Cria um gráfico radar (spider) para comparar o perfil ideal
    com os perfis das culturas selecionadas
    """
    print("\nCriando visualização de radar para comparação de perfis...")

    # Parâmetros para o radar
    params = ['N', 'P', 'K', 'temperature', 'humidity', 'ph', 'rainfall']

    # Preparar dados para plotagem
    perfil_ideal = perfis_info['perfil_medio']

    # Normalizar os valores para escala 0-1 para melhor visualização
    # Encontrar min/max para cada parâmetro considerando todos os perfis
    min_vals = {}
    max_vals = {}
    for param in params:
        valores = [perfil[param] for perfil in perfis_info['perfis_culturas'].values()]
        valores.append(perfil_ideal[param])
        min_vals[param] = min(valores)
        max_vals[param] = max(valores)

    # Função para normalizar valores
    def normalizar(valor, param):
        if max_vals[param] == min_vals[param]:
            return 0.5  # Valor médio se não houver variação
        return (valor - min_vals[param]) / (max_vals[param] - min_vals[param])

    # Normalizar perfil ideal
    perfil_ideal_norm = [normalizar(perfil_ideal[param], param) for param in params]

    # Normalizar perfis das culturas selecionadas
    perfis_culturas_norm = {}
    for cultura in CULTURAS_FOCO:
        perfil = perfis_info['perfis_culturas'][cultura]
        perfis_culturas_norm[cultura] = [
            normalizar(perfil[param], param) for param in params
        ]

    # Criar gráfico radar
    n_params = len(params)
    angles = np.linspace(0, 2*np.pi, n_params, endpoint=False).tolist()
    angles += angles[:1]  # Fechar o círculo

    fig, ax = plt.subplots(figsize=(12, 10), subplot_kw=dict(polar=True))

    # Adicionar labels e ajustar layout
    ax.set_theta_offset(np.pi / 2)
    ax.set_theta_direction(-1)
    ax.set_thetagrids(np.degrees(angles[:-1]), params)

    # Plotar perfil ideal
    perfil_ideal_norm += perfil_ideal_norm[:1]  # Fechar o círculo
    ax.plot(angles, perfil_ideal_norm, 'o-', linewidth=2, color='black',
           label='Perfil Ideal')
    ax.fill(angles, perfil_ideal_norm, alpha=0.1, color='black')

    # Plotar perfis das culturas selecionadas
    colors = CUSTOM_COLORS[:len(CULTURAS_FOCO)]
    for i, cultura in enumerate(CULTURAS_FOCO):
        values = perfis_culturas_norm[cultura] + perfis_culturas_norm[cultura][:1]
        ax.plot(angles, values, 'o-', linewidth=2, color=colors[i],
               label=CULTURAS_NOMES.get(cultura, cultura))
        ax.fill(angles, values, alpha=0.1, color=colors[i])

    # Adicionar legenda e título
    plt.legend(loc='upper right', bbox_to_anchor=(0.1, 0.1))
    plt.title('Comparação entre Perfil Ideal e Culturas Selecionadas', fontsize=16)

    # Adicionar anotações sobre importância dos parâmetros
    importancia = perfis_info['importancia']
    for i, param in enumerate(params):
        angle = angles[i]
        imp = importancia[param] * 100
        ax.annotate(f"{imp:.1f}%",
                   xy=(angle, 1.15),
                   xytext=(angle, 1.4),
                   arrowprops=dict(arrowstyle='->', lw=1),
                   horizontalalignment='center',
                   verticalalignment='center',
                   fontweight='bold')

    # Adicionar texto explicativo
    plt.figtext(0.5, 0.01,
               "Percentuais indicam a importância relativa de cada parâmetro " +
               "para diferenciar culturas.\n" +
               "Valores normalizados: 0 = mínimo observado, 1 = máximo observado",
               ha='center', fontsize=12, bbox=dict(boxstyle="round,pad=0.5",
                                                 facecolor='white',
                                                 alpha=0.8))

    plt.tight_layout()
    plt.savefig(OUTPUT_DIR / 'perfil_radar.png', bbox_inches='tight', dpi=300)
    plt.close()

def visualizar_desvios_barras(perfis_info, desvios_info):
    """
    Cria gráficos de barras para visualizar os desvios percentuais
    das culturas selecionadas em relação ao perfil ideal
    """
    print("\nCriando visualização de barras para desvios do perfil ideal...")

    params = ['N', 'P', 'K', 'temperature', 'humidity', 'ph', 'rainfall']

    # Preparar dados para visualização
    dados_plot = []
    for cultura in CULTURAS_FOCO:
        for param in params:
            desvio = desvios_info['desvios'][cultura][param]['desvio_percentual']
            dados_plot.append({
                'Cultura': CULTURAS_NOMES.get(cultura, cultura),
                'Parâmetro': param,
                'Desvio (%)': desvio
            })

    df_plot = pd.DataFrame(dados_plot)

    # Criar gráfico
    plt.figure(figsize=(14, 10))

    # Definir cores para as barras baseadas no desvio
    # Positivo = azul, negativo = vermelho
    cores = ['#3498db' if x >= 0 else '#e74c3c' for x in df_plot['Desvio (%)']]

    bars = sns.barplot(data=df_plot, x='Parâmetro', y='Desvio (%)',
                      hue='Cultura', palette=CUSTOM_COLORS[:len(CULTURAS_FOCO)])

    # Adicionar linha para desvio zero
    plt.axhline(y=0, color='black', linestyle='-', alpha=0.3)

    # Adicionar rótulos e título
    plt.title('Desvio Percentual em Relação ao Perfil Ideal', fontsize=16)
    plt.xlabel('Parâmetro', fontsize=14)
    plt.ylabel('Desvio (%)', fontsize=14)

    # Ajustar layout
    plt.grid(axis='y', alpha=0.3)
    plt.tight_layout()

    # Adicionar anotações para facilitar interpretação
    patch_pos = mpatches.Patch(color='#3498db', label='Acima do Ideal')
    patch_neg = mpatches.Patch(color='#e74c3c', label='Abaixo do Ideal')
    plt.legend(title='Cultura')

    # Adicionar texto explicativo
    info_text = """
    Interpretação:
    • Valores positivos indicam que a cultura requer níveis mais altos do que o perfil ideal
    • Valores negativos indicam que a cultura requer níveis mais baixos do que o perfil ideal
    • Quanto maior o desvio (positivo ou negativo), mais específica é a exigência da cultura
    """

    plt.figtext(0.5, 0.01, info_text, ha='center', fontsize=12,
               bbox=dict(boxstyle="round,pad=0.5", facecolor='white', alpha=0.8))

    plt.savefig(OUTPUT_DIR / 'desvios_perfil_ideal.png',
               bbox_inches='tight', dpi=300)
    plt.close()

def visualizar_heatmap_desvios(perfis_info, desvios_info):
    """
    Cria um heatmap para visualizar os desvios das culturas selecionadas
    em relação ao perfil ideal
    """
    print("\nCriando heatmap para desvios do perfil ideal...")

    params = ['N', 'P', 'K', 'temperature', 'humidity', 'ph', 'rainfall']

    # Preparar dados para o heatmap
    heatmap_data = np.zeros((len(CULTURAS_FOCO), len(params)))

    for i, cultura in enumerate(CULTURAS_FOCO):
        for j, param in enumerate(params):
            heatmap_data[i, j] = desvios_info['desvios'][cultura][param]['desvio_percentual']

    # Criar heatmap
    plt.figure(figsize=(14, 8))

    # Usar colormap divergente para destacar desvios positivos e negativos
    cmap = sns.diverging_palette(240, 10, as_cmap=True)

    # Plotar heatmap
    ax = sns.heatmap(
        heatmap_data,
        cmap=cmap,
        center=0,
        linewidths=1,
        annot=True,
        fmt=".1f",
        xticklabels=params,
        yticklabels=[CULTURAS_NOMES.get(c, c) for c in CULTURAS_FOCO]
    )

    # Adicionar rótulos e título
    plt.title('Heatmap de Desvios Percentuais em Relação ao Perfil Ideal', fontsize=16)
    plt.xlabel('Parâmetros do Solo/Clima', fontsize=14)
    plt.ylabel('Culturas', fontsize=14)

    # Adicionar barra de cores com rótulos
    cbar = ax.collections[0].colorbar
    cbar.set_label('Desvio do Perfil Ideal (%)', fontsize=12)

    # Adicionar texto explicativo
    info_text = """
    Azul = Abaixo do Perfil Ideal
    Vermelho = Acima do Perfil Ideal
    Branco = Próximo ao Perfil Ideal

    Um desvio de +50% significa que a cultura requer 50% mais do parâmetro comparado ao perfil médio.
    Um desvio de -50% significa que a cultura requer 50% menos do parâmetro comparado ao perfil médio.
    """

    plt.figtext(0.5, 0.01, info_text, ha='center', fontsize=12,
               bbox=dict(boxstyle="round,pad=0.5", facecolor='white', alpha=0.8))

    plt.tight_layout()
    plt.savefig(OUTPUT_DIR / 'heatmap_desvios.png', bbox_inches='tight', dpi=300)
    plt.close()

def visualizar_ordenacao_culturas(desvios_info):
    """
    Visualiza a ordenação das culturas por similaridade com o perfil ideal
    """
    print("\nCriando visualização da ordenação de culturas por similaridade...")

    # Extrair dados
    culturas = [c for c, _ in desvios_info['culturas_ordenadas']]
    scores = [s for _, s in desvios_info['culturas_ordenadas']]

    # Criar DataFrame
    df_plot = pd.DataFrame({
        'Cultura': culturas,
        'Similaridade': scores
    })

    # Destacar as culturas de foco
    df_plot['Destaque'] = df_plot['Cultura'].apply(
        lambda x: 'Cultura em foco' if x in CULTURAS_FOCO else 'Outras culturas'
    )

    # Criar gráfico
    plt.figure(figsize=(12, 10))

    # Definir cores para as barras
    palette = {'Cultura em foco': '#e74c3c', 'Outras culturas': '#3498db'}

    # Plotar barras horizontais
    ax = sns.barplot(
        data=df_plot,
        y='Cultura',
        x='Similaridade',
        hue='Destaque',
        dodge=False,
        palette=palette
    )

    # Adicionar rótulos de valores
    for i, row in enumerate(df_plot.iterrows()):
        ax.text(
            row[1]['Similaridade'] + 1,
            i,
            f"{row[1]['Similaridade']:.1f}",
            va='center'
        )

    # Adicionar rótulos e título
    plt.title('Similaridade das Culturas com o Perfil Ideal', fontsize=16)
    plt.xlabel('Score de Similaridade (0-100)', fontsize=14)
    plt.ylabel('Cultura', fontsize=14)

    # Adicionar legenda
    plt.legend(title='', loc='lower right')

    # Adicionar texto explicativo
    info_text = """
    O score de similaridade mede o quão próxima cada cultura está do perfil ideal.
    100 = idêntico ao perfil ideal, 0 = completamente diferente.
    As culturas em vermelho são as selecionadas para análise detalhada.
    """

    plt.figtext(0.5, 0.01, info_text, ha='center', fontsize=12,
               bbox=dict(boxstyle="round,pad=0.5", facecolor='white', alpha=0.8))

    plt.tight_layout()
    plt.savefig(OUTPUT_DIR / 'ranking_culturas.png', bbox_inches='tight', dpi=300)
    plt.close()

def criar_tabela_comparativa(perfis_info, desvios_info):
    """
    Cria uma tabela comparativa com os valores ideais e de cada cultura
    """
    print("\nCriando tabela comparativa entre perfil ideal e culturas selecionadas...")

    params = ['N', 'P', 'K', 'temperature', 'humidity', 'ph', 'rainfall']

    # Preparar dados para a tabela
    perfil_ideal = perfis_info['perfil_medio']

    # Criar DataFrame para a tabela
    data = []
    for param in params:
        row = {
            'Parâmetro': param,
            'Unidade': get_unidade(param),
            'Perfil Ideal': f"{perfil_ideal[param]:.2f}"
        }

        # Adicionar valores para cada cultura
        for cultura in CULTURAS_FOCO:
            valor = perfis_info['perfis_culturas'][cultura][param]
            desvio = desvios_info['desvios'][cultura][param]['desvio_percentual']
            row[CULTURAS_NOMES.get(cultura, cultura)] = f"{valor:.2f} ({desvio:+.1f}%)"

        data.append(row)

    # Adicionar linha de importância
    importance_row = {
        'Parâmetro': 'Importância',
        'Unidade': '%',
        'Perfil Ideal': '--'
    }

    for cultura in CULTURAS_FOCO:
        importance_row[CULTURAS_NOMES.get(cultura, cultura)] = '--'

    for param in params:
        importance_row[param] = f"{perfis_info['importancia'][param]*100:.1f}%"

    # Criar DataFrame e exportar para CSV
    df_table = pd.DataFrame(data)

    # Adicionar linha de score de similaridade
    similarity_row = {
        'Parâmetro': 'Similaridade',
        'Unidade': '0-100',
        'Perfil Ideal': '100.0'
    }

    for cultura in CULTURAS_FOCO:
        score = desvios_info['similaridade'][cultura]
        similarity_row[CULTURAS_NOMES.get(cultura, cultura)] = f"{score:.1f}"

    data.append(similarity_row)

    # Salvar tabela como CSV
    df_table = pd.DataFrame(data)
    df_table.to_csv(OUTPUT_DIR / 'tabela_comparativa.csv', index=False)

    return df_table

def get_unidade(parametro):
    """
    Retorna a unidade de medida para cada parâmetro
    """
    unidades = {
        'N': 'kg/ha',
        'P': 'kg/ha',
        'K': 'kg/ha',
        'temperature': '°C',
        'humidity': '%',
        'ph': 'pH',
        'rainfall': 'mm'
    }
    return unidades.get(parametro, '')

def main():
    """
    Função principal para execução da análise
    """
    # Carregar dados
    df = carregar_dados()
    if df is None:
        return

    # Calcular perfil ideal
    perfis_info = calcular_perfil_ideal(df)

    # Analisar desvios do perfil ideal
    desvios_info = analisar_desvios_do_ideal(df, perfis_info)

    # Visualizar resultados
    visualizar_perfil_radar(perfis_info, desvios_info)
    visualizar_desvios_barras(perfis_info, desvios_info)
    visualizar_heatmap_desvios(perfis_info, desvios_info)
    visualizar_ordenacao_culturas(desvios_info)

    # Criar tabela comparativa
    tabela = criar_tabela_comparativa(perfis_info, desvios_info)

    # Imprimir resultados principais
    print("\n===== ANÁLISE DE PERFIL IDEAL CONCLUÍDA =====")
    print(f"Todas as visualizações foram salvas no diretório: {OUTPUT_DIR}")

    # Imprimir algumas estatísticas importantes
    print("\nPerfil Ideal de Solo/Clima (mediana global):")
    for param, valor in perfis_info['perfil_medio'].items():
        print(f"  {param}: {valor:.2f} {get_unidade(param)}")

    print("\nImportância relativa dos parâmetros:")
    for param, imp in sorted(perfis_info['importancia'].items(),
                           key=lambda x: x[1], reverse=True):
        print(f"  {param}: {imp*100:.1f}%")

    print("\nRanking de Similaridade com o Perfil Ideal (Top 5):")
    for i, (cultura, score) in enumerate(desvios_info['culturas_ordenadas'][:5], 1):
        print(f"  {i}. {cultura}: {score:.1f}")

    print("\nComparação das Culturas Selecionadas:")
    for cultura in CULTURAS_FOCO:
        score = desvios_info['similaridade'][cultura]
        rank = [i for i, (c, _) in enumerate(desvios_info['culturas_ordenadas'])
              if c == cultura][0] + 1
        print(f"  {CULTURAS_NOMES.get(cultura, cultura)}: " +
             f"Score de Similaridade = {score:.1f}, Ranking: {rank}/{len(df['label'].unique())}")

        print(f"    Características distintivas:")
        # Identificar os 2 parâmetros com maior desvio positivo e negativo
        desvios_cultura = {
            param: desvios_info['desvios'][cultura][param]['desvio_percentual']
            for param in perfis_info['perfil_medio'].keys()
        }

        # Top 2 positivos
        top_pos = sorted(desvios_cultura.items(), key=lambda x: x[1], reverse=True)[:2]
        for param, desvio in top_pos:
            if desvio > 0:
                print(f"    - Requer {desvio:.1f}% mais {param} do que o perfil ideal")

        # Top 2 negativos
        top_neg = sorted(desvios_cultura.items(), key=lambda x: x[1])[:2]
        for param, desvio in top_neg:
            if desvio < 0:
                print(f"    - Requer {abs(desvio):.1f}% menos {param} do que o perfil ideal")

if __name__ == "__main__":
    main()

Dataset carregado com sucesso: 2200 linhas e 8 colunas

Calculando perfil ideal de solo/clima para as plantações...

Analisando desvios do perfil ideal para cada cultura...

Criando visualização de radar para comparação de perfis...

Criando visualização de barras para desvios do perfil ideal...

Criando heatmap para desvios do perfil ideal...

Criando visualização da ordenação de culturas por similaridade...

Criando tabela comparativa entre perfil ideal e culturas selecionadas...

===== ANÁLISE DE PERFIL IDEAL CONCLUÍDA =====
Todas as visualizações foram salvas no diretório: output

Perfil Ideal de Solo/Clima (mediana global):
  N: 37.00 kg/ha
  P: 51.00 kg/ha
  K: 32.00 kg/ha
  temperature: 25.60 °C
  humidity: 80.47 %
  ph: 6.43 pH
  rainfall: 94.87 mm

Importância relativa dos parâmetros:
  K: 32.7%
  rainfall: 32.2%
  N: 15.4%
  P: 13.4%
  humidity: 6.2%
  temperature: 0.2%
  ph: 0.0%

Ranking de Similaridade com o Perfil Ideal (Top 5):
  1. mungbean: 23.5
  2. pomegranate: 21.8


# Desenvolvimento de Modelos Preditivos para Recomendação de Culturas Agrícolas

## Introdução

Este script implementa um pipeline completo de Machine Learning para desenvolver modelos preditivos de recomendação de culturas agrícolas com base em condições
edafoclimáticas. O sistema utiliza cinco algoritmos de classificação distintos para identificar a cultura ideal considerando parâmetros de solo e clima.

## Metodologia

O pipeline implementa uma abordagem sistemática dividida em 10 etapas:

1. **Carregamento e Exploração de Dados**: Análise da distribuição de classes e verificação de integridade dos dados
2. **Pré-processamento**: Normalização StandardScaler e divisão estratificada treino/teste (80/20)
3. **Treinamento de Modelos Base**: Implementação de cinco algoritmos fundamentais
4. **Otimização de Hiperparâmetros**: GridSearchCV com validação cruzada 5-fold
5. **Avaliação Comparativa**: Métricas abrangentes incluindo Matthews Correlation Coefficient
6. **Análise de Importância**: Identificação de features mais discriminativas
7. **Extração de Regras**: Interpretabilidade através de regras da Decision Tree
8. **Validação Prática**: Exemplos reais de previsão com medidas de confiança
9. **Visualização Comparativa**: Gráficos de performance e matrizes de confusão
10. **Deployment**: Aplicação CLI para inferência em produção

## Algoritmos Implementados

### Decision Tree Classifier
- Vantagens: Alta interpretabilidade, regras extraíveis
- Hiperparâmetros otimizados: criterion, max_depth, min_samples_split/leaf

### Random Forest Classifier
- Ensemble de árvores com agregação por votação majoritária
- Robusto a overfitting, fornece importância de features
- Parâmetros: n_estimators, max_depth, min_samples_split/leaf

### Support Vector Machine (SVM)
- Classificação através de hiperplanos de margem máxima
- Kernels: RBF e linear, otimização de C e gamma
- Adequado para datasets de alta dimensionalidade

### K-Nearest Neighbors (KNN)
- Classificação baseada em proximidade no espaço de features
- Parâmetros: n_neighbors, weights (uniform/distance), métricas de distância

### Gradient Boosting Classifier
- Ensemble sequencial com correção de erros iterativa
- Alto potencial preditivo com controle de overfitting
- Otimização: n_estimators, learning_rate, max_depth

## Métricas de Avaliação

O sistema emprega métricas robustas para avaliação abrangente:

- **Accuracy**: Proporção de previsões corretas
- **Balanced Accuracy**: Accuracy ajustada para classes desbalanceadas
- **Precision/Recall/F1-Score**: Métricas weighted para multiclasse
- **Matthews Correlation Coefficient**: Correlação entre previsões e realidade
- **Confusion Matrix**: Análise detalhada por classe
- **Inference Time**: Performance computacional para deployment

## Funcionalidades Avançadas

**Análise de Importância de Features**
- Ranking quantitativo da relevância de cada parâmetro edafoclimático
- Visualizações específicas para modelos tree-based
- Identificação de features críticas para decisão

**Extração de Regras Interpretáveis**
- Conversão da Decision Tree em regras textuais legíveis
- Limitação de profundidade para facilitar interpretação agronômica
- Export em formato texto para consulta técnica

**Aplicação de Produção**
- CLI interativo para previsões em tempo real
- Modo batch para processamento de múltiplas amostras
- Validação de entrada e tratamento de erros
- Exemplos com dados reais para demonstração

## Pipeline de GridSearchCV

A otimização de hiperparâmetros utiliza grids específicos para cada algoritmo:

- **Decision Tree**: 192 combinações (4×3×3×4)
- **Random Forest**: 144 combinações (3×4×3×3)
- **SVM**: 64 combinações (4×4×2×2)
- **KNN**: 30 combinações (5×2×3)
- **Gradient Boosting**: 90 combinações (3×3×3×2)

Total de 520 modelos avaliados com validação cruzada, garantindo robustez estatística na seleção de hiperparâmetros.

## Outputs e Persistência

**Modelos Serializados**
- Versões base e otimizadas salvas em formato pickle
- Carregamento rápido para inferência em produção
- Compatibilidade com scikit-learn ecosystem

**Visualizações Técnicas**
- Matrizes de confusão normalizadas por classe
- Gráficos comparativos de performance entre modelos
- Importância de features com ranking visual
- Distribuição de classes no dataset

**Relatórios Quantitativos**
- Tabela CSV com métricas comparativas completas
- Classification reports detalhados por modelo
- Regras da Decision Tree em formato texto
- Logs de tempo de treinamento e inferência

## Aplicação CLI

A aplicação gerada automaticamente oferece três modos operacionais:

1. **Modo Interativo**: Input guiado para usuários não-técnicos
2. **Modo Batch**: Processamento via argumentos de linha de comando
3. **Modo Demonstração**: Exemplos reais do dataset para validação

A aplicação inclui validação robusta de entrada, tratamento de erros e cálculo de confiança quando o modelo suporta probabilidades.

## Considerações Técnicas

**Reprodutibilidade**: Random state fixo (42) garante resultados consistentes
**Escalabilidade**: Normalização StandardScaler essencial para SVM/KNN
**Robustez**: Validação cruzada estratificada mantém proporção de classes
**Performance**: Paralelização (-1 cores) na otimização de hiperparâmetros

Este pipeline representa uma solução completa end-to-end para desenvolvimento de modelos preditivos em agricultura de precisão, desde o pré-processamento até o
deployment em produção.


In [2]:
#!/usr/bin/env python3
# -*- coding: utf-8 -*-
"""
/fiap/cap14/modelos_preditivos.py

Script para desenvolvimento de modelos preditivos para recomendação
de culturas agrícolas com base em condições de solo e clima
"""

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path
import time
import joblib

# Bibliotecas para ML
from sklearn.model_selection import train_test_split, GridSearchCV, cross_val_score
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.metrics import (accuracy_score, precision_score, recall_score,
                           f1_score, classification_report, confusion_matrix,
                           matthews_corrcoef, balanced_accuracy_score)
from sklearn.pipeline import Pipeline

# Algoritmos
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC

# Bibliotecas para visualização
import matplotlib.gridspec as gridspec
from matplotlib.colors import LinearSegmentedColormap
import matplotlib.patches as mpatches

# Configurações de visualização
plt.style.use('seaborn-v0_8-whitegrid')
sns.set(font_scale=1.1)
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['axes.labelsize'] = 12
plt.rcParams['axes.titlesize'] = 14
plt.rcParams['xtick.labelsize'] = 10
plt.rcParams['ytick.labelsize'] = 10

# Definir caminhos
DATA_DIR = Path('datasets')
DATASET_PATH = DATA_DIR / 'Atividade_Cap_14_produtos_agricolas.csv'

OUTPUT_DIR = Path('output/modelos_preditivos/modelos')
OUTPUT_DIR.mkdir(exist_ok=True)

FIGURES_DIR = Path('output/modelos_preditivos/figuras')
FIGURES_DIR.mkdir(exist_ok=True)

# Cores personalizadas para visualizações
CUSTOM_COLORS = [
    "#4E79A7", "#F28E2B", "#E15759", "#76B7B2", "#59A14F",
    "#EDC948", "#B07AA1", "#FF9DA7", "#9C755F", "#BAB0AC"
]

# Configurar seed para reprodutibilidade
RANDOM_STATE = 42
np.random.seed(RANDOM_STATE)

# Definir modelos a serem testados
MODELOS = {
    'Decision Tree': DecisionTreeClassifier(random_state=RANDOM_STATE),
    'Random Forest': RandomForestClassifier(random_state=RANDOM_STATE),
    'SVM': SVC(random_state=RANDOM_STATE, probability=True),
    'KNN': KNeighborsClassifier(),
    'Gradient Boosting': GradientBoostingClassifier(random_state=RANDOM_STATE)
}

class AgricultureMLPipeline:
    """
    Pipeline para desenvolvimento e avaliação de modelos de ML
    para recomendação de culturas agrícolas
    """

    def __init__(self):
        """
        Inicializa o pipeline de ML
        """
        self.df = None
        self.X_train = None
        self.X_test = None
        self.y_train = None
        self.y_test = None
        self.feature_names = None
        self.target_encoder = None
        self.models = {}
        self.results = {}
        self.best_model = None
        self.best_model_name = None

    def carregar_dados(self):
        """
        Carrega os dados do dataset
        """
        try:
            self.df = pd.read_csv(DATASET_PATH)
            print(f"Dataset carregado com sucesso: {self.df.shape[0]} linhas e {self.df.shape[1]} colunas")
            return True
        except Exception as e:
            print(f"Erro ao carregar o dataset: {e}")
            return False

    def explorar_dados(self):
        """
        Realiza exploração básica dos dados
        """
        print("\n===== Exploração dos Dados =====")

        # Informações básicas
        print("\nInformações do dataset:")
        print(self.df.info())

        print("\nEstatísticas descritivas:")
        print(self.df.describe())

        # Verificar valores ausentes
        missing_values = self.df.isnull().sum()
        if missing_values.sum() > 0:
            print("\nValores ausentes:")
            print(missing_values[missing_values > 0])
        else:
            print("\nNão foram encontrados valores ausentes no dataset.")

        # Distribuição da variável alvo
        print("\nDistribuição da variável alvo (culturas):")
        target_counts = self.df['label'].value_counts()
        print(target_counts)

        # Verificar balanceamento das classes
        print(f"\nNúmero total de classes: {len(target_counts)}")
        print(f"Classe mais frequente: {target_counts.index[0]} ({target_counts.iloc[0]} ocorrências)")
        print(f"Classe menos frequente: {target_counts.index[-1]} ({target_counts.iloc[-1]} ocorrências)")

        # Plotar distribuição das classes
        plt.figure(figsize=(10, 6))
        ax = sns.countplot(y='label', data=self.df, order=target_counts.index)
        plt.title('Distribuição das Culturas no Dataset', fontsize=14)
        plt.xlabel('Contagem', fontsize=12)
        plt.ylabel('Cultura', fontsize=12)
        # Adicionar rótulos de contagem
        for i, count in enumerate(target_counts):
            ax.text(count + 1, i, f"{count}", va='center')
        plt.tight_layout()
        plt.savefig(FIGURES_DIR / 'distribuicao_culturas.png', dpi=300)
        plt.close()

        return target_counts

    def preprocessar_dados(self, test_size=0.2, scale_features=True):
        """
        Realiza o pré-processamento dos dados e divisão em treino/teste
        """
        print("\n===== Pré-processamento dos Dados =====")

        # Separar features e target
        X = self.df.drop('label', axis=1)
        y = self.df['label']

        # Salvar nomes das features
        self.feature_names = X.columns.tolist()

        # Codificar a variável alvo
        self.target_encoder = LabelEncoder()
        y_encoded = self.target_encoder.fit_transform(y)

        # Mapear classes para facilitar a interpretação
        self.target_mapping = dict(zip(self.target_encoder.transform(self.target_encoder.classes_),
                                    self.target_encoder.classes_))

        # Dividir em conjuntos de treino e teste
        self.X_train, self.X_test, self.y_train, self.y_test = train_test_split(
            X, y_encoded, test_size=test_size, random_state=RANDOM_STATE, stratify=y_encoded
        )

        print(f"Dados divididos em {self.X_train.shape[0]} amostras de treino e {self.X_test.shape[0]} amostras de teste")

        # Escalar as features se solicitado
        if scale_features:
            scaler = StandardScaler()
            self.X_train = scaler.fit_transform(self.X_train)
            self.X_test = scaler.transform(self.X_test)
            print("Features normalizadas utilizando StandardScaler")

        # Verificar balanceamento nos conjuntos de treino e teste
        train_counts = np.bincount(self.y_train)
        test_counts = np.bincount(self.y_test)

        print(f"Distribuição de classes no conjunto de treino: Min={min(train_counts)}, Max={max(train_counts)}")
        print(f"Distribuição de classes no conjunto de teste: Min={min(test_counts)}, Max={max(test_counts)}")

        return True

    def treinar_modelos(self):
        """
        Treina os cinco modelos diferentes
        """
        print("\n===== Treinamento dos Modelos =====")

        self.models = {}
        self.training_times = {}

        for nome, modelo in MODELOS.items():
            print(f"\nTreinando modelo: {nome}")
            inicio = time.time()

            # Treinar o modelo
            modelo.fit(self.X_train, self.y_train)

            # Salvar modelo e tempo de treinamento
            self.models[nome] = modelo
            tempo_treino = time.time() - inicio
            self.training_times[nome] = tempo_treino

            print(f"Modelo {nome} treinado em {tempo_treino:.2f} segundos")

            # Salvar modelo em disco
            joblib.dump(modelo, OUTPUT_DIR / f"{nome.replace(' ', '_').lower()}_model.pkl")

        return self.models

    def otimizar_hiperparametros(self):
        """
        Otimiza os hiperparâmetros dos modelos utilizando GridSearchCV
        """
        print("\n===== Otimização de Hiperparâmetros =====")

        # Definir parâmetros para busca (grids)
        param_grids = {
            'Decision Tree': {
                'criterion': ['gini', 'entropy'],
                'max_depth': [None, 10, 20, 30],
                'min_samples_split': [2, 5, 10],
                'min_samples_leaf': [1, 2, 4]
            },
            'Random Forest': {
                'n_estimators': [50, 100, 200],
                'max_depth': [None, 10, 20, 30],
                'min_samples_split': [2, 5, 10],
                'min_samples_leaf': [1, 2, 4]
            },
            'SVM': {
                'C': [0.1, 1, 10, 100],
                'gamma': ['scale', 'auto', 0.1, 0.01],
                'kernel': ['rbf', 'linear']
            },
            'KNN': {
                'n_neighbors': [3, 5, 7, 9, 11],
                'weights': ['uniform', 'distance'],
                'p': [1, 2]  # 1 para distância Manhattan e 2 para Euclidiana
            },
            'Gradient Boosting': {
                'n_estimators': [50, 100, 200],
                'learning_rate': [0.01, 0.1, 0.2],
                'max_depth': [3, 5, 7],
                'min_samples_split': [2, 5]
            }
        }

        self.best_models = {}

        for nome, modelo in MODELOS.items():
            print(f"\nOtimizando hiperparâmetros para: {nome}")

            # Criar GridSearchCV
            grid_search = GridSearchCV(
                estimator=modelo,
                param_grid=param_grids[nome],
                cv=5,  # 5-fold cross-validation
                scoring='accuracy',
                n_jobs=-1,  # Usar todos os núcleos disponíveis
                verbose=1
            )

            # Executar busca
            inicio = time.time()
            grid_search.fit(self.X_train, self.y_train)
            tempo = time.time() - inicio

            # Salvar melhor modelo
            self.best_models[nome] = grid_search.best_estimator_

            print(f"Melhores parâmetros para {nome}: {grid_search.best_params_}")
            print(f"Melhor score de validação cruzada: {grid_search.best_score_:.4f}")
            print(f"Tempo de otimização: {tempo:.2f} segundos")

            # Salvar melhor modelo em disco
            joblib.dump(grid_search.best_estimator_,
                      OUTPUT_DIR / f"{nome.replace(' ', '_').lower()}_best_model.pkl")

        return self.best_models

    def avaliar_modelos(self, use_best_models=True):
        """
        Avalia o desempenho dos modelos no conjunto de teste
        """
        print("\n===== Avaliação dos Modelos =====")

        self.results = {}

        # Escolher quais modelos avaliar (básicos ou otimizados)
        modelos_avaliar = self.best_models if use_best_models else self.models

        for nome, modelo in modelos_avaliar.items():
            print(f"\nAvaliando modelo: {nome}")

            # Fazer previsões
            inicio = time.time()
            y_pred = modelo.predict(self.X_test)
            tempo_inferencia = time.time() - inicio

            # Calcular métricas
            acc = accuracy_score(self.y_test, y_pred)
            balanced_acc = balanced_accuracy_score(self.y_test, y_pred)
            precision = precision_score(self.y_test, y_pred, average='weighted')
            recall = recall_score(self.y_test, y_pred, average='weighted')
            f1 = f1_score(self.y_test, y_pred, average='weighted')
            mcc = matthews_corrcoef(self.y_test, y_pred)

            # Armazenar resultados
            self.results[nome] = {
                'accuracy': acc,
                'balanced_accuracy': balanced_acc,
                'precision': precision,
                'recall': recall,
                'f1_score': f1,
                'matthews_corrcoef': mcc,
                'inference_time': tempo_inferencia
            }

            # Imprimir resultados principais
            print(f"Acurácia: {acc:.4f}")
            print(f"Acurácia Balanceada: {balanced_acc:.4f}")
            print(f"Precisão: {precision:.4f}")
            print(f"Recall: {recall:.4f}")
            print(f"F1-Score: {f1:.4f}")
            print(f"Coeficiente de Matthews: {mcc:.4f}")
            print(f"Tempo de inferência: {tempo_inferencia:.6f} segundos")

            # Gerar relatório de classificação detalhado
            print("\nRelatório de classificação detalhado:")
            class_report = classification_report(
                self.y_test,
                y_pred,
                target_names=self.target_encoder.classes_
            )
            print(class_report)

            # Gerar e salvar matriz de confusão
            self._gerar_matriz_confusao(
                self.y_test,
                y_pred,
                nome,
                self.target_encoder.classes_
            )

        # Identificar o melhor modelo
        self._identificar_melhor_modelo()

        return self.results

    def _identificar_melhor_modelo(self):
        """
        Identifica o melhor modelo com base no F1-Score
        """
        # Ordenar modelos por F1-Score
        modelos_ordenados = sorted(
            self.results.items(),
            key=lambda x: x[1]['f1_score'],
            reverse=True
        )

        self.best_model_name = modelos_ordenados[0][0]
        self.best_model = self.best_models[self.best_model_name]

        print(f"\nMelhor modelo: {self.best_model_name}")
        print(f"F1-Score: {self.results[self.best_model_name]['f1_score']:.4f}")

        return self.best_model_name

    def _gerar_matriz_confusao(self, y_true, y_pred, model_name, class_names):
        """
        Gera e salva a matriz de confusão para um modelo
        """
        # Calcular matriz de confusão
        cm = confusion_matrix(y_true, y_pred)

        # Normalizar matriz (opcional para melhor visualização)
        cm_norm = cm.astype('float') / cm.sum(axis=1)[:, np.newaxis]

        # Criar figura
        plt.figure(figsize=(12, 10))

        # Plotar matriz de confusão
        sns.heatmap(
            cm_norm,
            annot=True,
            fmt=".2f",
            cmap="Blues",
            xticklabels=class_names,
            yticklabels=class_names
        )

        plt.title(f'Matriz de Confusão Normalizada - {model_name}', fontsize=16)
        plt.ylabel('Classe Real', fontsize=14)
        plt.xlabel('Classe Prevista', fontsize=14)
        plt.tight_layout()

        # Salvar figura
        plt.savefig(
            FIGURES_DIR / f'confusion_matrix_{model_name.replace(" ", "_").lower()}.png',
            dpi=300
        )
        plt.close()

    def comparar_modelos(self):
        """
        Compara o desempenho dos modelos visualmente
        """
        print("\n===== Comparação de Modelos =====")

        # Preparar dados para visualização
        modelos = list(self.results.keys())
        metricas = ['accuracy', 'balanced_accuracy', 'precision',
                   'recall', 'f1_score', 'matthews_corrcoef']

        # Criar DataFrame com resultados
        resultados_df = pd.DataFrame({
            'Modelo': [],
            'Métrica': [],
            'Valor': []
        })

        for modelo in modelos:
            for metrica in metricas:
                resultados_df = pd.concat([resultados_df, pd.DataFrame({
                    'Modelo': [modelo],
                    'Métrica': [metrica],
                    'Valor': [self.results[modelo][metrica]]
                })], ignore_index=True)

        # Criar gráfico de barras para comparação
        plt.figure(figsize=(14, 10))
        sns.barplot(
            data=resultados_df,
            x='Métrica',
            y='Valor',
            hue='Modelo',
            palette=CUSTOM_COLORS[:len(modelos)]
        )

        plt.title('Comparação de Performance entre Modelos', fontsize=16)
        plt.xlabel('Métrica', fontsize=14)
        plt.ylabel('Valor', fontsize=14)
        plt.ylim(0, 1)
        plt.xticks(rotation=45)
        plt.legend(title='Modelo', loc='lower right')
        plt.grid(axis='y', alpha=0.3)
        plt.tight_layout()

        plt.savefig(FIGURES_DIR / 'comparacao_modelos.png', dpi=300)
        plt.close()

        # Criar tabela de resultados
        tabela_resultados = pd.DataFrame()

        for modelo in modelos:
            tabela_resultados[modelo] = pd.Series({
                'Acurácia': self.results[modelo]['accuracy'],
                'Acurácia Balanceada': self.results[modelo]['balanced_accuracy'],
                'Precisão': self.results[modelo]['precision'],
                'Recall': self.results[modelo]['recall'],
                'F1-Score': self.results[modelo]['f1_score'],
                'Coef. Matthews': self.results[modelo]['matthews_corrcoef'],
                'Tempo Inferência (s)': self.results[modelo]['inference_time']
            })

        # Salvar tabela
        tabela_resultados.to_csv(OUTPUT_DIR / 'comparacao_modelos.csv')

        print("\nTabela comparativa de modelos:")
        print(tabela_resultados)

        return tabela_resultados

    def analisar_importancia_features(self):
        """
        Analisa a importância das features para os modelos que suportam
        essa funcionalidade (Decision Tree, Random Forest, Gradient Boosting)
        """
        print("\n===== Análise de Importância de Features =====")

        # Modelos que suportam importância de features
        modelos_suportados = [
            'Decision Tree',
            'Random Forest',
            'Gradient Boosting'
        ]

        importancias = {}

        # Coletar importância de features dos modelos
        for nome in modelos_suportados:
            if nome in self.best_models:
                modelo = self.best_models[nome]

                # Extrair importância de features
                if hasattr(modelo, 'feature_importances_'):
                    importancias[nome] = dict(zip(
                        self.feature_names,
                        modelo.feature_importances_
                    ))

                    # Ordenar features por importância
                    importancias[nome] = dict(sorted(
                        importancias[nome].items(),
                        key=lambda x: x[1],
                        reverse=True
                    ))

                    print(f"\nImportância de features para {nome}:")
                    for feature, imp in importancias[nome].items():
                        print(f"  {feature}: {imp:.4f}")

        # Visualizar importância de features
        if importancias:
            self._visualizar_importancia_features(importancias)

        return importancias

    def _visualizar_importancia_features(self, importancias):
        """
        Cria visualizações para importância de features
        """
        for nome, imp in importancias.items():
            # Converter para DataFrame e ordenar
            df_imp = pd.DataFrame({
                'Feature': list(imp.keys()),
                'Importância': list(imp.values())
            }).sort_values('Importância', ascending=False)

            # Plotar gráfico de barras horizontais
            plt.figure(figsize=(10, 8))
            sns.barplot(
                data=df_imp,
                y='Feature',
                x='Importância',
                palette='viridis'
            )

            plt.title(f'Importância de Features - {nome}', fontsize=14)
            plt.xlabel('Importância', fontsize=12)
            plt.ylabel('Feature', fontsize=12)
            plt.tight_layout()

            plt.savefig(
                FIGURES_DIR / f'feature_importance_{nome.replace(" ", "_").lower()}.png',
                dpi=300
            )
            plt.close()

    def extrair_regras_decision_tree(self):
        """
        Extrai regras interpretáveis da Decision Tree
        """
        if 'Decision Tree' not in self.best_models:
            print("Modelo Decision Tree não disponível para extração de regras.")
            return None

        print("\n===== Extração de Regras da Decision Tree =====")

        tree_model = self.best_models['Decision Tree']

        # Extrair regras da árvore usando o método auxiliar
        from sklearn.tree import export_text

        regras = export_text(
            tree_model,
            feature_names=self.feature_names,
            max_depth=3,  # Limitar profundidade para facilitar interpretação
            decimals=2
        )

        print("\nRegras extraídas da Decision Tree (limitadas à profundidade 3):")
        print(regras)

        # Salvar regras em um arquivo
        with open(OUTPUT_DIR / 'decision_tree_rules.txt', 'w') as f:
            f.write(regras)

        return regras

    def gerar_exemplos_praticos(self):
        """
        Gera exemplos práticos de previsões usando o melhor modelo
        """
        print("\n===== Exemplos Práticos de Previsões =====")

        if not self.best_model:
            print("Nenhum modelo identificado como o melhor.")
            return

        # Selecionar alguns exemplos reais do conjunto de teste
        indices = np.random.choice(len(self.X_test), 5, replace=False)
        X_exemplos = self.X_test[indices]
        y_real = self.y_test[indices]

        # Fazer previsões com o melhor modelo
        y_pred = self.best_model.predict(X_exemplos)

        # Se o modelo suporta probabilidades, extrair também
        if hasattr(self.best_model, 'predict_proba'):
            y_proba = self.best_model.predict_proba(X_exemplos)
            probabilidades = np.max(y_proba, axis=1)
        else:
            probabilidades = [None] * len(y_pred)

        # Converter índices previstos para nomes de culturas
        culturas_reais = [self.target_mapping[y] for y in y_real]
        culturas_previstas = [self.target_mapping[y] for y in y_pred]

        # Mostrar resultados
        print(f"\nExemplos de previsões utilizando o modelo {self.best_model_name}:")

        for i in range(len(X_exemplos)):
            print(f"\nExemplo {i+1}:")

            # Converter vetor de features para dicionário com nomes
            if isinstance(X_exemplos[i], np.ndarray):
                features = dict(zip(self.feature_names, X_exemplos[i]))
            else:
                features = X_exemplos[i]

            for feat, val in features.items():
                print(f"  {feat}: {val:.2f}")

            print(f"  Cultura real: {culturas_reais[i]}")
            print(f"  Cultura prevista: {culturas_previstas[i]}")

            if probabilidades[i] is not None:
                print(f"  Confiança da previsão: {probabilidades[i]:.2f}")

            # Indicar se a previsão está correta
            print(f"  Previsão correta: {'Sim' if culturas_reais[i] == culturas_previstas[i] else 'Não'}")

        return {'X_exemplos': X_exemplos, 'y_real': culturas_reais,
               'y_pred': culturas_previstas, 'proba': probabilidades}

    def executar_pipeline_completo(self):
        """
        Executa o pipeline completo de ML
        """
        print("\n===== Iniciando Pipeline Completo de ML =====")

        # Etapa 1: Carregar dados
        if not self.carregar_dados():
            return "Falha ao carregar os dados. Pipeline interrompido."

        # Etapa 2: Explorar dados
        self.explorar_dados()

        # Etapa 3: Pré-processar dados
        self.preprocessar_dados()

        # Etapa 4: Treinar modelos básicos
        self.treinar_modelos()

        # Etapa 5: Otimizar hiperparâmetros
        self.otimizar_hiperparametros()

        # Etapa 6: Avaliar modelos otimizados
        self.avaliar_modelos(use_best_models=True)

        # Etapa 7: Comparar modelos
        self.comparar_modelos()

        # Etapa 8: Analisar importância de features
        self.analisar_importancia_features()

        # Etapa 9: Extrair regras da Decision Tree
        self.extrair_regras_decision_tree()

        # Etapa 10: Gerar exemplos práticos
        self.gerar_exemplos_praticos()

        print("\n===== Pipeline Completo Finalizado =====")
        print(f"Todos os modelos e resultados foram salvos no diretório: {OUTPUT_DIR}")
        print(f"Todas as visualizações foram salvas no diretório: {FIGURES_DIR}")

        # Retornar informações sobre o melhor modelo
        return {
            'best_model_name': self.best_model_name,
            'best_model_performance': self.results[self.best_model_name],
            'feature_names': self.feature_names,
            'target_mapping': self.target_mapping
        }

def criar_app_predicao(pipeline):
    """
    Cria um aplicativo simples para previsão interativa
    """
    print("\n===== Criando Aplicativo de Previsão =====")

    # Extrair informações necessárias
    if not pipeline.best_model:
        print("Nenhum modelo treinado disponível.")
        return

    # Verificar se pipeline possui informações necessárias
    if not hasattr(pipeline, 'feature_names') or not hasattr(pipeline, 'target_mapping'):
        print("Informações necessárias não encontradas no pipeline.")
        return

    # Criar arquivo Python com aplicativo de previsão
    app_code = f"""#!/usr/bin/env python3
# -*- coding: utf-8 -*-
'''
/fiap/cap14/app_predicao.py

Aplicativo simples para prever a cultura ideal com base em condições de solo e clima
'''

import joblib
import numpy as np
import argparse
import sys
from pathlib import Path

# Carregar modelo
MODEL_PATH = Path('{OUTPUT_DIR}/{pipeline.best_model_name.replace(" ", "_").lower()}_best_model.pkl')
modelo = joblib.load(MODEL_PATH)

# Definir nomes das features e mapeamento de classes
feature_names = {pipeline.feature_names}
target_mapping = {pipeline.target_mapping}

def prever_cultura(valores):
    '''
    Prevê a cultura ideal com base nos valores informados

    Parâmetros:
    valores (list): Lista com os valores na ordem: {', '.join([str(f) for f in pipeline.feature_names])}

    Retorna:
    dict: Dicionário com a cultura prevista e confiança (se disponível)
    '''
    # Converter entrada para array numpy
    X = np.array(valores).reshape(1, -1)

    # Fazer previsão
    y_pred = modelo.predict(X)[0]
    cultura = target_mapping.get(y_pred, "Desconhecida")

    # Tentar obter probabilidades (se o modelo suportar)
    confianca = None
    try:
        if hasattr(modelo, 'predict_proba'):
            proba = modelo.predict_proba(X)
            confianca = float(np.max(proba))
    except:
        pass

    return {{
        'cultura': cultura,
        'confianca': confianca
    }}

def exemplo_interativo():
    '''
    Executa um exemplo interativo de previsão
    '''
    print("\\n===== Sistema de Previsão de Cultura Ideal =====")
    print(f"Utilizando o modelo: {{MODEL_PATH.name}}")
    print("\\nDigite os valores para as seguintes condições:")

    valores = []

    for feature in feature_names:
        while True:
            try:
                valor = float(input(f"{{feature}}: "))
                valores.append(valor)
                break
            except ValueError:
                print("Por favor, digite um valor numérico válido.")

    resultado = prever_cultura(valores)

    print("\\n----- Resultado -----")
    print(f"Cultura ideal prevista: {{resultado['cultura']}}")

    if resultado['confianca']:
        print(f"Confiança da previsão: {{resultado['confianca']:.2f}}")

    print("\\nObservação: Este é um modelo experimental e os resultados devem ser")
    print("validados por especialistas em agricultura antes de aplicação prática.")

def modo_nao_interativo(valores):
    '''
    Executa o modelo em modo não-interativo

    Parâmetros:
    valores (list): Lista com os valores na ordem: {', '.join([str(f) for f in pipeline.feature_names])}
    '''
    if len(valores) != len(feature_names):
        print(f"Erro: Número incorreto de valores. Esperado {{len(feature_names)}} valores.")
        print(f"Ordem dos valores: {{', '.join(feature_names)}}")
        sys.exit(1)

    try:
        # Converter para float
        valores_float = [float(v) for v in valores]

        # Fazer previsão
        resultado = prever_cultura(valores_float)

        print("\\n----- Resultado -----")
        print(f"Cultura ideal prevista: {{resultado['cultura']}}")

        if resultado['confianca']:
            print(f"Confiança da previsão: {{resultado['confianca']:.2f}}")

        return resultado
    except ValueError as e:
        print(f"Erro ao converter valores: {{e}}")
        sys.exit(1)

def usar_exemplo_real():
    '''
    Usa um exemplo real do conjunto de dados para demonstração
    '''
    # Carregar dataset original
    try:
        import pandas as pd
        DATA_DIR = Path('datasets/')
        DATASET_PATH = DATA_DIR / 'Atividade_Cap_14_produtos_agricolas.csv'
        df = pd.read_csv(DATASET_PATH)

        # Selecionar uma amostra aleatória
        amostra = df.sample(n=1, random_state=42)

        # Extrair valores das features
        valores = amostra.drop('label', axis=1).values[0].tolist()
        cultura_real = amostra['label'].values[0]

        # Fazer previsão
        resultado = prever_cultura(valores)

        print("\\n===== Exemplo com Dados Reais =====")
        print("\\nValores das características:")
        for i, feat in enumerate(feature_names):
            print(f"  {{feat}}: {{valores[i]:.2f}}")

        print("\\n----- Resultado -----")
        print(f"Cultura real: {{cultura_real}}")
        print(f"Cultura prevista: {{resultado['cultura']}}")

        if resultado['confianca']:
            print(f"Confiança da previsão: {{resultado['confianca']:.2f}}")

        print(f"Previsão correta: {{cultura_real == resultado['cultura']}}")

        return resultado
    except Exception as e:
        print(f"Erro ao usar exemplo real: {{e}}")
        return None


if __name__ == "__main__":
    parser = argparse.ArgumentParser(description='Previsão de cultura agrícola ideal')
    parser.add_argument('--valores', nargs='+', help=f"Valores das características na ordem: {{', '.join(feature_names)}}")
    parser.add_argument('--exemplo-real', action='store_true', help='Usar um exemplo real do conjunto de dados')

    args = parser.parse_args()

    if args.exemplo_real:
        # Usar exemplo real do dataset
        usar_exemplo_real()
    elif args.valores:
        # Modo não-interativo com valores fornecidos
        modo_nao_interativo(args.valores)
    else:
        # Modo interativo
        exemplo_interativo()
"""

    # Salvar o aplicativo
    app_path = (Path(DATA_DIR) / 'output' / 'modelos_preditivos' / 'utils' / 'app_predicao.py').resolve()
    app_path.parent.mkdir(parents=True, exist_ok=True)
    with open(app_path, 'w') as f:
        f.write(app_code)

    print(f"Aplicativo de previsão criado em: {app_path}")
    print("Para usar o aplicativo, execute para obter informações: python app_predicao.py -h")

    return app_path

def main():
    """
    Função principal para execução do pipeline ML
    """
    print("===== Iniciando Desenvolvimento de Modelos Preditivos =====")

    # Criar e executar pipeline
    pipeline = AgricultureMLPipeline()
    resultados = pipeline.executar_pipeline_completo()

    # Criar aplicativo de previsão
    criar_app_predicao(pipeline)

    return resultados

if __name__ == "__main__":
    main()


FileNotFoundError: [Errno 2] No such file or directory: 'output/modelos_preditivos/modelos'

In [None]:
from google.colab import drive
drive.mount('/content/drive')