# 🐍 **Python para Engenharia: Análise de Dados Agrícolas do Brasil**

---

### 👨‍🏫 **Instrutor: Gabriel Teixeira**

**Sobre mim:**
- 🎓 **26 anos** - Engenheiro da Computação
- 🧠 **Pós-graduado** em Inteligência Artificial
- 🚜 **Engenheiro de Software** na John Deere (desde 2021)
  - 📱 **Expert em Mobile** - Apps para retail operations
  - 📦 **Desenvolvimento de APIs** - Conectando sistemas agrícolas
  - ☁️ **Cloud (AWS)** - Infraestrutura e escalabilidade
- 💻 **Experiência anterior:** Desenvolvedor Delphi e Web

---

### 🎯 **Objetivo do Curso**

**"Descobrir o poder do Python para resolver problemas reais em Engenharia e Ciências Aplicadas"**

**Hoje vocês vão:**
- ✅ Analisar dados **REAIS** de produção agrícola brasileira
- ✅ Criar visualizações **impactantes**
- ✅ Extrair **insights** valiosos
- ✅ Ver o potencial do **Machine Learning**

---

### 📊 **Um gostinho do que vamos descobrir...**

*Em poucos minutos vocês saberão qual estado brasileiro produz mais soja, como a produção evoluiu nos últimos anos e ainda conseguirão prever tendências futuras!*

In [None]:
# ✨ DEMONSTRAÇÃO RÁPIDA - O PODER DO PYTHON ✨
# (Este código vai fazer sentido total no final da aula!)

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Carregando dados reais de produção agrícola brasileira
url = "https://raw.githubusercontent.com/MilaGabs/unicamp-python-agricultural-analysis/refs/heads/main/dataset_colheita_cultura.csv"
dados = pd.read_csv(url)

# 🚀 EM 3 LINHAS DE CÓDIGO: Top 5 estados produtores de soja em 2023
top_soja_2023 = dados[(dados['cultura'] == 'soja') & (dados['ano'] == 2023) & (dados['estados_brasileiros'] != 'Brasil')] \
                     .nlargest(5, 'producao_toneladas')

# 📊 Gráfico profissional em poucas linhas!
plt.figure(figsize=(10, 6))
plt.bar(top_soja_2023['estados_brasileiros'], top_soja_2023['producao_toneladas']/1000000)
plt.title('🏆 TOP 5 Estados Produtores de Soja - 2023', fontsize=16, fontweight='bold')
plt.ylabel('Produção (Milhões de Toneladas)')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

for x in top_soja_2023['producao_toneladas']:
  print(x)

print("🎯 MISSÃO: Ao final desta aula, vocês entenderão cada linha deste código!")
print("💡 E muito mais: análises complexas, previsões e machine learning!")

---

## 🌾 **Seção 1: Introdução ao Problema - Produção Agrícola Brasileira**

### **Por que estudar a agricultura brasileira?**

O **Brasil** é uma das maiores potências agrícolas mundiais:

- 🥇 **1º lugar mundial** em produção de soja
- 🥇 **1º lugar mundial** em cana-de-açúcar
- 🥉 **3º lugar mundial** em milho
- 🌾 **Responsável por alimentar 1 bilhão de pessoas** no mundo

### 📊 **Nosso Dataset**

**Fonte:** Dados oficiais do IBGE (Instituto Brasileiro de Geografia e Estatística)

**O que temos:**
- 📅 **Período:** 2010 a 2023 (14 anos)
- 🗺️ **Cobertura:** Todos os 26 estados + DF + Brasil total
- 🌱 **Culturas:** arroz, cana-de-açúcar, soja, milho, feijão, trigo, cevada
- 📏 **Unidade:** Produção em toneladas

### 🔍 **Perguntas que vamos responder:**

1. **Qual estado produz mais soja? E milho?**
2. **Como a produção evoluiu nos últimos 14 anos?**
3. **Quais culturas crescem mais? Quais declinam?**
4. **É possível prever a produção de 2024?**
5. **Como agrupar estados por perfil produtivo?**

---

## 🐍 **Por que Python? Dados e Fatos**

### 📈 **Python no Mercado Mundial**

**🏆 Rankings e Popularidade:**
- 🥇 **#2 linguagem mais popular** (Stack Overflow Survey 2024)
- 📊 **#2 linguagem mais usada** mundialmente (GitHub, RedMonk)

### 🔧 **Por que Python é PERFEITO para Engenharia?**

#### ✅ **Simplicidade de Sintaxe**
```python
# Comparação: calcular média
# Em C++: 15+ linhas
# Em Python: 1 linha
media = sum([10, 20, 30]) / len([10, 20, 30])
```

#### 🚀 **Velocidade de Desenvolvimento**
- ⚡ **10x mais rápido** que linguagens tradicionais
- 🔄 **Prototipagem rápida** - teste ideias em minutos
- 📚 **Bibliotecas prontas** para basicamente tudo

#### 🌐 **Versatilidade Total**
- 📊 **Data Science & AI** - pandas, numpy, scikit-learn
- 🌐 **Web Development** - Django, Flask, FastAPI
- 🤖 **Automação** - scripts, IoT, controle de máquinas
- ☁️ **Cloud Computing** - AWS, Azure, Google Cloud

---

## ⚙️ **Seção 2: Configuração do Ambiente**

### 🌐 **Google Colab - Nosso Laboratório Virtual**

**Vantagens do Colab:**
- ✅ **Gratuito** e **online**
- ✅ **Zero configuração** - já vem com Python e bibliotecas
- ✅ **Colaborativo** - como o Google Docs
- ✅ **GPU gratuita** para projetos maiores

### 📚 **Bibliotecas que vamos usar**

Vamos importar nossas ferramentas de trabalho:

In [21]:
# 📚 IMPORTANDO NOSSAS FERRAMENTAS DE TRABALHO

# 🐼 Pandas - Para manipular dados (como Excel turbinado!)
import pandas as pd

# 📊 Matplotlib - Para criar gráficos básicos
import matplotlib.pyplot as plt

# 🎨 Seaborn - Para gráficos bonitos e estatísticos
import seaborn as sns

# 🔢 NumPy - Para operações matemáticas avançadas
import numpy as np

# ⚠️ Warnings - Para deixar a saída mais limpa
import warnings
warnings.filterwarnings('ignore')

# 🎨 Configurações visuais
plt.style.use('default')
sns.set_palette("husl")

print("✅ Bibliotecas importadas com sucesso!")
print("🚀 Estamos prontos para analisar dados!")

✅ Bibliotecas importadas com sucesso!
🚀 Estamos prontos para analisar dados!


---

## 🐍 **Seção 3: Fundamentos Python para Análise de Dados**

### 📝 **Variáveis e Tipos de Dados**

**Python é como matemática, mas mais intuitivo!**

In [None]:
# Variaveis

# int (número inteiro)
# Uso: contagem de anos, número de registros, identificadores



In [None]:
#FLOAT (número decimal)
# Uso: produção em toneladas, percentuais, valores monetários

In [None]:
# str ou string (Texto)
# Uso: nomes, descricoes, categorias, qualquer outra informacao textual

In [None]:
# LISTAS - Como uma planilha em coluna

# Características:
# - Mantém ordem dos elementos
# - Permite duplicatas
# - Acesso por índice: lista[0] = primeiro item
# - Pode misturar tipos de dados

In [None]:
# DICIONÁRIOS - Como uma planilha completa
# Dados organizados em pares CHAVE:VALOR

# Características:
# - Acesso por nome da chave: dicionario["chave"]
# - Ideal para dados estruturados
# - Como uma linha de planilha com colunas nomeadas

In [None]:
# OPERAÇÕES
# Python faz cálculos automáticos e converte tipos quando necessário

# SOMA

# MULTIPLICAÇÂO

# DIVISÃO

In [None]:
# 🔸 FUNÇÕES ÚTEIS para análise de dados
total_producao = sum(producoes)    # sum() soma todos os elementos de uma lista
media_producao = total_producao / len(producoes)  # len() conta elementos da lista

---

## 📁 **Seção 4: Carregamento e Exploração dos Dados**

### 🌐 **Carregando nosso Dataset Real**

Agora vamos trabalhar com dados reais de produção agrícola brasileira!

In [None]:
# 📊 CARREGANDO OS DADOS REAIS

# Aqui você pode carregar de diferentes formas:
# 1️⃣ De um arquivo local (se baixou o CSV)
# dados = pd.read_csv('dataset_colheita_cultura.csv')

# 2️⃣ Diretamente do GitHub (vamos usar esta para o curso)
url = "https://raw.githubusercontent.com/MilaGabs/unicamp-python-agricultural-analysis/refs/heads/main/dataset_colheita_cultura.csv"



In [None]:
# 🔍 PRIMEIRA EXPLORAÇÃO - Conhecendo nossos dados
print("👀 PRIMEIRAS 5 LINHAS (como espiar uma planilha):")


In [None]:
print("📊 INFORMAÇÕES GERAIS:")


In [None]:
print("📈 ESTATÍSTICAS DESCRITIVAS:")


In [None]:
print("🗂️ ESTRUTURA DOS DADOS:")
print(f"   📏 Formato: {dados.shape[0]} linhas x {dados.shape[1]} colunas")
print(f"   📅 Anos disponíveis: {dados['ano'].min()} até {dados['ano'].max()}")
print(f"   🌱 Culturas: {dados['cultura'].unique()}")
print(f"   🗺️ Regiões: {dados['estados_brasileiros'].nunique()} estados/regiões")

---

## 🧹 **Seção 5: Limpeza e Preparação dos Dados**

### 🔍 **Investigando a Qualidade dos Dados**

Antes de analisar, precisamos garantir que nossos dados estão limpos!

In [None]:
# 🧹 VERIFICAÇÃO DE QUALIDADE DOS DADOS

print("🔍 VERIFICANDO PROBLEMAS COMUNS:")
print("❓ Valores ausentes por coluna:")


In [None]:
# 2️⃣ Dados duplicados



In [None]:
# 4️⃣ Verificar se existem valores negativos (não faz sentido para produção)


---

## 📊 **Seção 6: Análise Exploratória com Visualizações**

### 🎨 **Transformando Números em Insights Visuais**

**"Uma imagem vale mais que mil números!"** - Vamos criar gráficos que contam histórias!

In [None]:
# 📈 GRÁFICO 1: Evolução da Produção Total Brasileira

# Filtrar apenas dados do Brasil (total nacional)
brasil_total = dados[dados['estados_brasileiros'] == 'Brasil']

# Agrupar por ano e somar toda a produção
producao_anual = brasil_total.groupby('ano')['producao_toneladas'].sum()

# Criar o gráfico
plt.figure(figsize=(12, 6))
plt.plot(producao_anual.index, producao_anual.values / 1_000_000,
         marker='o', linewidth=3, markersize=8, color='darkgreen')

plt.title('🇧🇷 Evolução da Produção Agrícola Total do Brasil (2010-2023)',
          fontsize=16, fontweight='bold', pad=20)
plt.xlabel('Ano', fontsize=12)
plt.ylabel('Produção Total (Milhões de Toneladas)', fontsize=12)
plt.grid(True, alpha=0.3)
plt.xticks(range(2010, 2024, 2))  # Mostrar anos de 2 em 2

# Adicionar valores no gráfico
for x, y in zip(producao_anual.index, producao_anual.values / 1_000_000):
    if x % 3 == 0:  # Mostrar apenas alguns valores para não poluir
        plt.annotate(f'{y:.0f}M', (x, y), textcoords="offset points",
                    xytext=(0,10), ha='center', fontsize=10)

plt.tight_layout()
plt.show()

# Calcular estatísticas interessantes
crescimento_total = ((producao_anual.iloc[-1] - producao_anual.iloc[0]) / producao_anual.iloc[0]) * 100
media_anual = producao_anual.mean() / 1_000_000

print(f"📊 INSIGHTS:")
print(f"   🚀 Crescimento total (2010-2023): {crescimento_total:.1f}%")
print(f"   📊 Produção média anual: {media_anual:.1f} milhões de toneladas")
print(f"   🏆 Maior produção: {producao_anual.max()/1_000_000:.1f}M ton em {producao_anual.idxmax()}")
print(f"   📉 Menor produção: {producao_anual.min()/1_000_000:.1f}M ton em {producao_anual.idxmin()}")

In [None]:
# 🏆 GRÁFICO 2: TOP 10 Estados Produtores em 2023

# Filtrar dados de 2023 e excluir o total do Brasil
dados_2023 = dados[(dados['ano'] == 2023) & (dados['estados_brasileiros'] != 'Brasil')]

# Agrupar por estado e somar todas as culturas
ranking_estados = dados_2023.groupby('estados_brasileiros')['producao_toneladas'].sum() \
                           .sort_values(ascending=False).head(10)

# Criar gráfico de barras horizontal (fica mais legível)
plt.figure(figsize=(12, 8))
bars = plt.barh(range(len(ranking_estados)), ranking_estados.values / 1_000_000)

# Colorir as barras com gradiente
colors = plt.cm.viridis(np.linspace(0, 1, len(ranking_estados)))
for bar, color in zip(bars, colors):
    bar.set_color(color)

plt.title('🏆 TOP 10 Estados Produtores de Alimentos - 2023',
          fontsize=16, fontweight='bold', pad=20)
plt.xlabel('Produção Total (Milhões de Toneladas)', fontsize=12)
plt.ylabel('Estados', fontsize=12)

# Configurar labels do eixo Y
plt.yticks(range(len(ranking_estados)), ranking_estados.index)

# Adicionar valores nas barras
for i, (estado, valor) in enumerate(ranking_estados.items()):
    plt.text(valor / 1_000_000 + 1, i, f'{valor/1_000_000:.1f}M',
             va='center', fontsize=10, fontweight='bold')

plt.grid(axis='x', alpha=0.3)
plt.tight_layout()
plt.show()

print(f"🥇 CAMPEÃO: {ranking_estados.index[0]} com {ranking_estados.iloc[0]/1_000_000:.1f} milhões de toneladas")
print(f"🥈 VICE: {ranking_estados.index[1]} com {ranking_estados.iloc[1]/1_000_000:.1f} milhões de toneladas")
print(f"🥉 3º LUGAR: {ranking_estados.index[2]} com {ranking_estados.iloc[2]/1_000_000:.1f} milhões de toneladas")

# Calcular participação do top 3
top3_total = ranking_estados.head(3).sum()
brasil_2023 = dados[(dados['ano'] == 2023) & (dados['estados_brasileiros'] == 'Brasil')]['producao_toneladas'].sum()
participacao_top3 = (top3_total / brasil_2023) * 100

print(f"\n📊 Os TOP 3 representam {participacao_top3:.1f}% da produção nacional!")

In [None]:
# 🌱 GRÁFICO 3: Evolução das Principais Culturas no Brasil

# Pegar dados do Brasil por cultura
brasil_culturas = dados[dados['estados_brasileiros'] == 'Brasil']

# Selecionar as 4 principais culturas
principais_culturas = ['soja', 'milho', 'cana_de_acucar', 'arroz']

# Criar subplots (4 gráficos em uma única imagem)
fig, axes = plt.subplots(2, 2, figsize=(15, 10))
fig.suptitle('📈 Evolução das Principais Culturas Brasileiras (2010-2023)',
             fontsize=16, fontweight='bold')

cores = ['#2E8B57', '#FFD700', '#FF6347', '#4169E1']

for i, cultura in enumerate(principais_culturas):
    row = i // 2
    col = i % 2

    # Filtrar dados da cultura
    dados_cultura = brasil_culturas[brasil_culturas['cultura'] == cultura]

    # Plotar
    axes[row, col].plot(dados_cultura['ano'], dados_cultura['producao_toneladas'] / 1_000_000,
                       marker='o', linewidth=3, markersize=6, color=cores[i])

    axes[row, col].set_title(f'{cultura.replace("_", " ").title()}', fontweight='bold')
    axes[row, col].set_xlabel('Ano')
    axes[row, col].set_ylabel('Produção (Milhões de Toneladas)')
    axes[row, col].grid(True, alpha=0.3)
    axes[row, col].set_xticks(range(2010, 2024, 3))

plt.tight_layout()
plt.show()

# Calcular crescimento de cada cultura
print("📊 CRESCIMENTO POR CULTURA (2010-2023):")
for cultura in principais_culturas:
    dados_cultura = brasil_culturas[brasil_culturas['cultura'] == cultura]
    if len(dados_cultura) > 0:
        inicio = dados_cultura[dados_cultura['ano'] == 2010]['producao_toneladas'].iloc[0]
        fim = dados_cultura[dados_cultura['ano'] == 2023]['producao_toneladas'].iloc[0]
        crescimento = ((fim - inicio) / inicio) * 100
        print(f"   🌱 {cultura.replace('_', ' ').title()}: {crescimento:+.1f}%")

---

## 🔍 **Seção 7: Análises Específicas por Cultura e Estado**

### 🏆 **Deep Dive: Quem domina cada cultura?**

Vamos descobrir os campeões de cada tipo de plantação!

In [None]:
# 🥇 DESCOBRINDO OS CAMPEÕES DE CADA CULTURA

# Filtrar apenas 2023 e excluir Brasil total
dados_estados_2023 = dados[(dados['ano'] == 2023) & (dados['estados_brasileiros'] != 'Brasil')]

print("🏆 CAMPEÕES POR CULTURA EM 2023:\n")

culturas_principais = ['soja', 'milho', 'cana_de_acucar', 'arroz', 'feijao']

resultados_campeoes = {}

for cultura in culturas_principais:
    dados_cultura = dados_estados_2023[dados_estados_2023['cultura'] == cultura]
    if len(dados_cultura) > 0:
        campeao = dados_cultura.loc[dados_cultura['producao_toneladas'].idxmax()]

        print(f"🌱 {cultura.replace('_', ' ').upper()}:")
        print(f"   🥇 Campeão: {campeao['estados_brasileiros']}")
        print(f"   📊 Produção: {campeao['producao_toneladas']:,.0f} toneladas")
        print(f"   💰 Equivale a: {campeao['producao_toneladas']/1_000_000:.1f} milhões de toneladas")
        print()

        resultados_campeoes[cultura] = {
            'estado': campeao['estados_brasileiros'],
            'producao': campeao['producao_toneladas']
        }

# Criar um resumo visual dos campeões
print("📊 RESUMO VISUAL - ESPECIALIZAÇÃO DOS ESTADOS:")
print("="*60)

# Contar quantas vezes cada estado aparece como campeão
estados_campeoes = {}
for cultura, info in resultados_campeoes.items():
    estado = info['estado']
    if estado in estados_campeoes:
        estados_campeoes[estado] += 1
    else:
        estados_campeoes[estado] = 1

for estado, vitorias in estados_campeoes.items():
    if vitorias > 1:
        print(f"🏆 {estado}: CAMPEÃO em {vitorias} culturas - ESTADO POLIVALENTE!")
    else:
        print(f"🥇 {estado}: Especialista em uma cultura")

print("\n💡 INSIGHT: Alguns estados são especialistas, outros são polivalentes!")

In [None]:
# 🔥 HEATMAP: Mapa de Calor da Produção por Estado e Cultura

# Pegar dados de 2023 e criar uma matriz
dados_matrix = dados_estados_2023.pivot_table(
    index='estados_brasileiros',
    columns='cultura',
    values='producao_toneladas',
    fill_value=0
)

# Selecionar apenas TOP 15 estados para visualização mais limpa
top_15_estados = dados_estados_2023.groupby('estados_brasileiros')['producao_toneladas'].sum() \
                                  .nlargest(15).index

dados_matrix_top = dados_matrix.loc[top_15_estados]

# Converter para milhões para melhor visualização
dados_matrix_top = dados_matrix_top / 1_000_000

# Criar o heatmap
plt.figure(figsize=(14, 10))
sns.heatmap(dados_matrix_top,
            annot=True,
            fmt='.1f',
            cmap='YlOrRd',
            cbar_kws={'label': 'Produção (Milhões de Toneladas)'},
            linewidths=0.5)

plt.title('🔥 Mapa de Calor: Produção por Estado e Cultura (2023)\nTOP 15 Estados Produtores',
          fontsize=16, fontweight='bold', pad=20)
plt.xlabel('Culturas', fontsize=12)
plt.ylabel('Estados', fontsize=12)
plt.xticks(rotation=45)
plt.yticks(rotation=0)
plt.tight_layout()
plt.show()

print("🎯 COMO INTERPRETAR O HEATMAP:")
print("   🔴 Cores mais quentes (vermelho) = Maior produção")
print("   🟡 Cores mais frias (amarelo) = Menor produção")
print("   ⚪ Branco = Produção muito baixa ou zero")
print("\n💡 INSIGHTS:")
print("   🌱 Soja: Concentrada no Centro-Oeste e Sul")
print("   🌾 Cana-de-açúcar: Dominante em SP, GO, MG")
print("   🌽 Milho: Bem distribuído, mas forte no Centro-Oeste")

In [None]:
# 🔥 HEATMAP 2: Sem Cana-de-açúcar - Visualização Melhorada das Outras Culturas

print("\n" + "="*80)
print("🔍 SEGUNDO HEATMAP: EXCLUINDO CANA-DE-AÇÚCAR PARA MELHOR VISUALIZAÇÃO")
print("="*80)

# Criar segunda matriz excluindo cana-de-açúcar
dados_matrix_sem_cana = dados_matrix.drop('cana_de_acucar', axis=1, errors='ignore')

# Pegar TOP 15 estados novamente (pode mudar sem cana-de-açúcar)
dados_sem_cana = dados_estados_2023[dados_estados_2023['cultura'] != 'cana_de_acucar']
top_15_estados_sem_cana = dados_sem_cana.groupby('estados_brasileiros')['producao_toneladas'].sum() \
                                        .nlargest(15).index

dados_matrix_sem_cana_top = dados_matrix_sem_cana.loc[top_15_estados_sem_cana]

# Converter para milhões
dados_matrix_sem_cana_top = dados_matrix_sem_cana_top / 1_000_000

# Criar o segundo heatmap
plt.figure(figsize=(12, 10))
sns.heatmap(dados_matrix_sem_cana_top,
            annot=True,
            fmt='.1f',
            cmap='RdYlBu_r',  # Paleta diferente para distinguir
            cbar_kws={'label': 'Produção (Milhões de Toneladas)'},
            linewidths=0.5)

plt.title('🌱 Mapa de Calor: Produção por Estado e Cultura (2023)\nSEM Cana-de-açúcar - Foco nas Outras Culturas',
          fontsize=16, fontweight='bold', pad=20)
plt.xlabel('Culturas', fontsize=12)
plt.ylabel('Estados', fontsize=12)
plt.xticks(rotation=45)
plt.yticks(rotation=0)
plt.tight_layout()
plt.show()

print("🎯 VANTAGENS DESTE SEGUNDO HEATMAP:")
print("   ✅ Melhor escala visual para soja, milho, arroz e feijão")
print("   ✅ Cana-de-açúcar tem valores muito altos que 'mascaravam' outras culturas")
print("   ✅ Agora vemos melhor os padrões regionais das culturas menores")
print("\n💡 NOVOS INSIGHTS VISÍVEIS:")
print("   🌱 Soja: Mato Grosso DOMINA completamente")
print("   🌽 Milho: Mais equilibrado entre Centro-Oeste e Sul")
print("   🍚 Arroz: Rio Grande do Sul é ABSOLUTO")
print("   🫘 Feijão: Mais distribuído regionalmente")
print("\n📊 COMPARAÇÃO: Veja como remover a cana-de-açúcar revelou detalhes!")



---

## 🤖 **Seção 8: Demonstração Avançada - Machine Learning**

### 🚀 **O Poder do Python: Predição e Inteligência Artificial**

**Agora vamos mostrar algo REALMENTE impressionante!**

In [None]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score, mean_absolute_error, mean_squared_error
from sklearn.model_selection import train_test_split
import numpy as np

# Preparar dados da soja brasileira
soja_brasil = dados[(dados['estados_brasileiros'] == 'Brasil') &
                    (dados['cultura'] == 'soja')].sort_values('ano')

print("🎯 OBJETIVO: Prever produção de soja com validação científica!")
print(f"📊 Dados disponíveis: {len(soja_brasil)} anos ({soja_brasil['ano'].min()}-{soja_brasil['ano'].max()})")

# Preparar dados para o algoritmo
X = soja_brasil['ano'].values.reshape(-1, 1)  # Anos (variável independente)
y = soja_brasil['producao_toneladas'].values   # Produção (variável dependente)

# 🆕 DIVIDIR DADOS: 80% treino, 20% teste
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, shuffle=False  # shuffle=False mantém ordem temporal
)

print(f"📚 Dados de treino: {len(X_train)} anos")
print(f"🧪 Dados de teste: {len(X_test)} anos")

# Criar e treinar o modelo APENAS com dados de treino
modelo = LinearRegression()
modelo.fit(X_train, y_train)

# Avaliar no conjunto de teste
y_pred_test = modelo.predict(X_test)
r2_test = r2_score(y_test, y_pred_test)
mae_test = mean_absolute_error(y_test, y_pred_test)
rmse_test = np.sqrt(mean_squared_error(y_test, y_pred_test))

# Comparar com treino (para detectar overfitting)
y_pred_train = modelo.predict(X_train)
r2_train = r2_score(y_train, y_pred_train)

# Fazer predições para visualização e 2024
anos_previsao = np.array(range(2010, 2025)).reshape(-1, 1)
producao_prevista = modelo.predict(anos_previsao)

# Visualizar resultado com divisão treino/teste
plt.figure(figsize=(14, 8))

# Dados de treino
plt.scatter(X_train.flatten(), y_train/1_000_000,
           color='darkgreen', s=100, label='Dados Treino', zorder=5, alpha=0.8)

# Dados de teste
plt.scatter(X_test.flatten(), y_test/1_000_000,
           color='orange', s=100, label='Dados Teste', zorder=5, marker='s')

# Predições nos dados de teste
plt.scatter(X_test.flatten(), y_pred_test/1_000_000,
           color='red', s=80, label='Predições Teste', zorder=5, marker='^', alpha=0.7)

# Linha de tendência
plt.plot(anos_previsao.flatten(), producao_prevista/1_000_000,
         color='blue', linewidth=3, label='Tendência IA', alpha=0.8)

# Destacar a previsão para 2024
previsao_2024 = modelo.predict([[2024]])[0]
plt.scatter([2024], [previsao_2024/1_000_000],
           color='gold', s=200, marker='*', label='Previsão 2024', zorder=10)

plt.title('🤖 Previsão de Soja com Validação Científica\n(Treino vs Teste)',
          fontsize=16, fontweight='bold', pad=20)
plt.xlabel('Ano', fontsize=12)
plt.ylabel('Produção de Soja (Milhões de Toneladas)', fontsize=12)
plt.legend(fontsize=11)
plt.grid(True, alpha=0.3)
plt.xticks(range(2010, 2026, 2))

# Adicionar linha vertical separando treino/teste
if len(X_test) > 0:
    plt.axvline(x=X_test.min()-0.5, color='red', linestyle='--', alpha=0.5,
                label='Divisão Treino/Teste')

plt.tight_layout()
plt.show()

# 📊 Relatório completo de performance
print(f"🤖 ANÁLISE CIENTÍFICA DO MODELO:")
print(f"   📚 R² no TREINO: {r2_train:.3f} ({r2_train:.1%})")
print(f"   🧪 R² no TESTE: {r2_test:.3f} ({r2_test:.1%})")

# Detectar overfitting
diferenca_r2 = r2_train - r2_test
if diferenca_r2 > 0.1:
    print(f"   ⚠️ POSSÍVEL OVERFITTING: Diferença R² = {diferenca_r2:.3f}")
else:
    print(f"   ✅ MODELO ESTÁVEL: Diferença R² = {diferenca_r2:.3f}")

print(f"\n📊 MÉTRICAS DETALHADAS (no teste):")
print(f"   🎯 Erro Médio Absoluto: {mae_test/1_000_000:.2f} milhões de toneladas")
print(f"   📐 Erro Quadrático Médio: {rmse_test/1_000_000:.2f} milhões de toneladas")

print(f"\n🔮 PREVISÃO 2024:")
print(f"   📈 Previsão: {previsao_2024/1_000_000:.1f} milhões de toneladas")
print(f"   📊 Tendência anual: {'+' if modelo.coef_[0] > 0 else ''}{modelo.coef_[0]/1_000_000:.2f}M ton/ano")

# Avaliar confiabilidade
if r2_test > 0.8:
    print("   ✅ ALTA CONFIABILIDADE")
elif r2_test > 0.6:
    print("   🟡 CONFIABILIDADE MODERADA")
else:
    print("   🔴 BAIXA CONFIABILIDADE - Considere modelos mais complexos")

In [None]:
# 🧩 MACHINE LEARNING 2: Agrupando Estados por Perfil Produtivo COM VALIDAÇÃO

from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import silhouette_score, calinski_harabasz_score
from sklearn.model_selection import train_test_split

print("🎯 OBJETIVO: Descobrir grupos de estados com perfis similares COM VALIDAÇÃO!")

# Preparar dados: pegar produção por estado e cultura em 2023
dados_perfil = dados[(dados['ano'] == 2023) & (dados['estados_brasileiros'] != 'Brasil')]

# Criar tabela com estado vs cultura
tabela_perfil = dados_perfil.pivot_table(
    index='estados_brasileiros',
    columns='cultura',
    values='producao_toneladas',
    fill_value=0
)

# Selecionar apenas as principais culturas
culturas_principais = ['soja', 'milho', 'cana_de_acucar', 'arroz']
tabela_perfil = tabela_perfil[culturas_principais]

print(f"📊 Dados para clustering: {len(tabela_perfil)} estados, {len(culturas_principais)} culturas")

# 🆕 NORMALIZAR DADOS (ESSENCIAL para clustering)
scaler = StandardScaler()
dados_normalizados = scaler.fit_transform(tabela_perfil[culturas_principais])

# 🆕 DIVIDIR DADOS: 70% treino, 30% validação (aumentar teste para ter mais dados)
# Para clustering, usamos validação para testar estabilidade dos grupos
X_train, X_test, estados_train, estados_test = train_test_split(
    dados_normalizados,
    tabela_perfil.index,
    test_size=0.3,
    random_state=42
)

print(f"📚 Estados para treino: {len(X_train)}")
print(f"🧪 Estados para validação: {len(X_test)}")

# 🚀 USANDO K=4 CLUSTERS (VALOR OTIMIZADO)
# Baseado em análises anteriores, 4 grupos fornecem boa separação
k_clusters = 4
print(f"\n🎯 USANDO {k_clusters} CLUSTERS (valor otimizado para velocidade)")

# 🆕 TREINAR MODELO com K=4
kmeans_final = KMeans(n_clusters=k_clusters, random_state=42, n_init=10)
grupos_treino = kmeans_final.fit_predict(X_train)

# 🆕 VALIDAR ESTABILIDADE: aplicar modelo treinado nos dados de teste
grupos_teste = kmeans_final.predict(X_test)

# Calcular métricas de validação com tratamento de erro
silhouette_treino = silhouette_score(X_train, grupos_treino)

print(f"\n📊 VALIDAÇÃO DO CLUSTERING:")
print(f"   📚 Silhouette Treino: {silhouette_treino:.3f}")

# Verificar se o conjunto de teste tem clusters suficientes para Silhouette Score
clusters_unicos_teste = len(np.unique(grupos_teste))
if clusters_unicos_teste >= 2 and len(X_test) >= 2:
    silhouette_teste = silhouette_score(X_test, grupos_teste)
    print(f"   🧪 Silhouette Teste: {silhouette_teste:.3f}")
    diferenca = abs(silhouette_treino - silhouette_teste)
    print(f"   📊 Diferença: {diferenca:.3f}")

    if diferenca < 0.1:
        print("   ✅ CLUSTERING ESTÁVEL - Boa generalização!")
    else:
        print("   ⚠️ CLUSTERING INSTÁVEL - Considere ajustar parâmetros")
else:
    print(f"   🧪 Silhouette Teste: N/A (apenas {clusters_unicos_teste} cluster(s) no teste)")
    print("   📊 Diferença: N/A")
    print("   ℹ️ VALIDAÇÃO LIMITADA - Conjunto de teste muito pequeno")

# Aplicar clustering em TODOS os dados para visualização
grupos_todos = kmeans_final.fit_predict(dados_normalizados)
tabela_perfil['Grupo'] = grupos_todos

# Visualizar resultado
plt.figure(figsize=(15, 8))

# Plotar usando as duas culturas principais (soja e milho)
cores = ['red', 'blue', 'green', 'orange', 'purple', 'brown'][:k_clusters]

for grupo in range(k_clusters):
    mask = tabela_perfil['Grupo'] == grupo
    plt.scatter(tabela_perfil.loc[mask, 'soja']/1_000_000,
               tabela_perfil.loc[mask, 'milho']/1_000_000,
               c=cores[grupo], label=f'Grupo {grupo+1}', s=100, alpha=0.7)

# Destacar estados de treino vs teste
estados_treino_mask = tabela_perfil.index.isin(estados_train)
estados_teste_mask = tabela_perfil.index.isin(estados_test)

# Adicionar borda aos estados de teste
plt.scatter(tabela_perfil.loc[estados_teste_mask, 'soja']/1_000_000,
           tabela_perfil.loc[estados_teste_mask, 'milho']/1_000_000,
           s=150, facecolors='none', edgecolors='black', linewidth=2,
           label='Estados Validação', alpha=0.8)

plt.title(f'🤖 Agrupamento Científico por Perfil Produtivo\n(K={k_clusters} clusters com validação)',
          fontsize=16, fontweight='bold', pad=20)
plt.xlabel('Produção de Soja (Milhões de Toneladas)', fontsize=12)
plt.ylabel('Produção de Milho (Milhões de Toneladas)', fontsize=12)
plt.legend(bbox_to_anchor=(1.05, 1), loc='upper left')
plt.grid(True, alpha=0.3)

# Adicionar nomes dos estados mais importantes
for estado in ['Mato Grosso', 'Parana', 'Rio Grande do Sul', 'Sao Paulo', 'Goias']:
    if estado in tabela_perfil.index:
        x = tabela_perfil.loc[estado, 'soja']/1_000_000
        y = tabela_perfil.loc[estado, 'milho']/1_000_000
        plt.annotate(estado.replace('_', ' '), (x, y), xytext=(5, 5),
                    textcoords='offset points', fontsize=9, alpha=0.8)

plt.tight_layout()
plt.show()

# Analisar cada grupo
print("🧩 ANÁLISE DOS GRUPOS DESCOBERTOS PELA IA:\n")

for grupo in range(k_clusters):
    estados_grupo = tabela_perfil[tabela_perfil['Grupo'] == grupo].index.tolist()
    print(f"📊 GRUPO {grupo+1}: {len(estados_grupo)} estados")
    print(f"   Estados: {', '.join(estados_grupo[:5])}")  # Mostrar apenas os primeiros 5

    # Calcular produção média do grupo
    media_soja = tabela_perfil[tabela_perfil['Grupo'] == grupo]['soja'].mean()/1_000_000
    media_milho = tabela_perfil[tabela_perfil['Grupo'] == grupo]['milho'].mean()/1_000_000
    media_cana = tabela_perfil[tabela_perfil['Grupo'] == grupo]['cana_de_acucar'].mean()/1_000_000

    print(f"   🌱 Soja média: {media_soja:.1f}M ton")
    print(f"   🌽 Milho médio: {media_milho:.1f}M ton")
    print(f"   🌾 Cana média: {media_cana:.1f}M ton")

    # Definir perfil do grupo com base em múltiplas culturas
    if media_soja > 10 or media_cana > 30:
        perfil = "🏆 GRANDES PRODUTORES"
    elif media_soja > 2 or media_milho > 5:
        perfil = "📊 PRODUTORES MÉDIOS"
    else:
        perfil = "🌱 PRODUTORES REGIONAIS"

    print(f"   📋 Perfil: {perfil}")

    # Verificar se tem estados de validação neste grupo
    estados_teste_grupo = [e for e in estados_grupo if e in estados_test]
    if estados_teste_grupo:
        print(f"   🧪 Estados de validação neste grupo: {', '.join(estados_teste_grupo)}")

    print()

print("💡 VANTAGENS DA VERSÃO OTIMIZADA:")
print("   ⚡ Execução mais rápida (sem busca de K ideal)")
print("   🎯 K=4 oferece boa separação dos perfis produtivos")
print("   🔬 Mantém validação científica para confiabilidade")
print("   ✅ Ideal para demonstrações e análises rápidas")
print("   🛡️ Tratamento robusto de erros de validação")

# 🆕 ANÁLISE DE QUALIDADE FINAL
print(f"\n🔍 ANÁLISE DE QUALIDADE (K={k_clusters}):")
print(f"   📊 Silhouette Score geral: {silhouette_score(dados_normalizados, grupos_todos):.3f}")
print(f"   📈 Calinski-Harabasz Score: {calinski_harabasz_score(dados_normalizados, grupos_todos):.1f}")

if silhouette_score(dados_normalizados, grupos_todos) > 0.5:
    print("   🏆 EXCELENTE qualidade de clustering!")
elif silhouette_score(dados_normalizados, grupos_todos) > 0.3:
    print("   ✅ BOA qualidade de clustering")
else:
    print("   ⚠️ Clustering pode ser melhorado")

print(f"\n📋 RESUMO DA DISTRIBUIÇÃO DOS GRUPOS:")
grupos_count = np.bincount(grupos_todos)
for i, count in enumerate(grupos_count):
    print(f"   🏷️ Grupo {i+1}: {count} estados")

### 🤔 **Clustering vs Regressão: Diferenças na Validação**

#### 🔍 **Por que validar clustering é diferente?**

**🔴 REGRESSÃO (Supervisionado):**
- ✅ Tem "resposta certa" (valores reais)
- ✅ Pode medir erro diretamente (MAE, RMSE, R²)
- ✅ Divisão treino/teste é obrigatória

**🔵 CLUSTERING (Não-supervisionado):**
- ❓ **Não tem "resposta certa"** - os grupos são descobertos
- 🎯 **Não há variável target** para comparar
- 📊 **Validação mede qualidade estrutural** dos grupos

#### 🛠️ **Como validamos clustering então?**

**1️⃣ MÉTRICAS DE QUALIDADE INTERNA:**
- 🎯 **Silhouette Score**: Quão bem separados estão os grupos?
- ⚡ **Calinski-Harabasz**: Quão compactos e distintos são os clusters?
- 📊 **Inércia**: Quão próximos estão os pontos dos centros dos clusters?

**2️⃣ ESTABILIDADE E GENERALIZAÇÃO:**
- 🔬 **Treinar em subset** e **testar em outro subset**
- 📊 **Comparar métricas** entre treino e teste
- ✅ **Grupos similares** = clustering estável

**3️⃣ ESCOLHA DO NÚMERO IDEAL DE CLUSTERS:**
- 📈 **Método do Cotovelo**: Onde a melhoria para de ser significativa?
- 🎯 **Silhouette Analysis**: Qual K maximiza a separação?
- 🔍 **Múltiplas métricas**: Consenso entre diferentes indicadores

#### 💡 **INSIGHTS IMPORTANTES:**

**✅ VANTAGENS da validação em clustering:**
- 🔬 **Processo mais científico** e confiável
- 📊 **Escolha objetiva** do número de grupos
- 🎯 **Maior confiança** para decisões de negócio
- 🛡️ **Detecção de overfitting** nos agrupamentos

**⚠️ CUIDADOS especiais:**
- 🎲 **Random state** para reprodutibilidade
- 🔄 **Múltiplas execuções** (K-means pode variar)
- 📊 **Interpretação** dos grupos deve fazer sentido no contexto
- 🌍 **Validação cruzada** pode ser aplicada também

**🎯 RESULTADO:** Clustering mais robusto e confiável para tomada de decisão!

---

## 🎯 **Seção 9: Conclusões**

### 🚀 **O que descobrimos hoje?**

#### 📊 **Analisamos dados REAIS**
- ✅ 2.070 registros de produção agrícola
- ✅ 7 culturas diferentes
- ✅ 14 anos de dados (2010-2023)
- ✅ Todos os estados brasileiros

#### 🏆 **Descobrimos insights valiosos**
- 🥇 **Mato Grosso** é o maior produtor nacional
- 📈 **Soja** teve crescimento expressivo
- 🌾 **Cana-de-açúcar** domina em volume
- 🗺️ **Centro-Oeste** é o celeiro do país

#### 🤖 **Aplicamos Inteligência Artificial**
- 🔮 **Previmos** produção futura com regressão
- 🧩 **Agrupamos** estados por perfil
- 📊 **Automatizamos** análises complexas

---

### 🔥 **O Poder do Python que vocês viram hoje:**

```python
# Em poucas linhas de código:
dados = pd.read_csv('arquivo.csv')          # Carregar dados
dados.groupby('estado').sum()              # Agrupar e somar  
plt.plot(dados['ano'], dados['producao'])  # Criar gráfico
modelo.fit(X, y)                           # Treinar IA
```

**🎯 Resultado: Análises que levariam DIAS no Excel, feitas em MINUTOS!**

### 📚 **Como continuar sua jornada Python?**

#### 🆓 **Recursos Gratuitos para Iniciar**

**📖 Cursos Online:**
- 🔥 [Python.org Tutorial](https://docs.python.org/3/tutorial/) - Oficial e gratuito
- 🎓 [Coursera - Python for Everybody](https://www.coursera.org/specializations/python) - Universidade de Michigan
- 📊 [Kaggle Learn](https://www.kaggle.com/learn) - Focado em Data Science

**📊 Dados para Praticar:**
- 🏛️ [IBGE](https://sidra.ibge.gov.br/) - Dados brasileiros oficiais
- 🌍 [Kaggle Datasets](https://www.kaggle.com/datasets) - Milhares de datasets
- 🏛️ [Portal Brasileiro de Dados Abertos](https://dados.gov.br/)
- 📊 [Our World in Data](https://ourworldindata.org/) - Dados globais

#### 📖 **Livros Recomendados**

**🐍 Python Básico:**
- "Automate the Boring Stuff with Python" - Al Sweigart
- "Python Crash Course" - Eric Matthes

**📊 Data Science:**
- "Python for Data Analysis" - Wes McKinney (criador do Pandas!)
- "Hands-On Machine Learning" - Aurélien Géron

#### 🛠️ **Ferramentas para Instalar**

```bash
# No seu computador:
pip install pandas matplotlib seaborn jupyter scikit-learn
```

**🔧 IDEs Recomendadas:**
- 📝 **VS Code** (gratuito, poderoso)
- 🐍 **PyCharm Community** (gratuito para Python)
- 📊 **Jupyter Lab** (para análise de dados)

---

### 💌 **Contato e Agradecimentos**

**👨‍🏫 Gabriel Teixeira**
- 💼 LinkedIn: linkedin.com/in/teixeira-gabriel-m

**🙏 Obrigado pela oportunidade, atenção e participação!**

### **Dúvidas e Perguntas?**

---

**📊 Este notebook estará disponível para download!**