# üå± FarmTech Solutions - Modelo de Machine Learning
## Classifica√ß√£o de Condi√ß√µes Ambientais em Estufas

### Objetivo
Desenvolver um modelo de Machine Learning para classificar as condi√ß√µes ambientais das estufas em tr√™s categorias:
- **Normal**: Condi√ß√µes ideais para cultivo
- **Alerta**: Condi√ß√µes que requerem aten√ß√£o
- **Cr√≠tico**: Condi√ß√µes que exigem a√ß√£o imediata

### Dataset
- 14.400 leituras de sensores
- 10 sensores diferentes
- 30 dias de dados
- Tipos: Temperatura, Umidade, Umidade do Solo, Luminosidade

In [None]:
# Importa√ß√£o das bibliotecas
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime
import warnings
warnings.filterwarnings('ignore')

# Configura√ß√£o de visualiza√ß√£o
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette('husl')
plt.rcParams['figure.figsize'] = (12, 6)
plt.rcParams['font.size'] = 11

print('üìö Bibliotecas importadas com sucesso!')

## 1. Carregamento e Explora√ß√£o dos Dados

In [None]:
# Carregar dados
df = pd.read_csv('../data/sensor_data.csv')
df['data_hora'] = pd.to_datetime(df['data_hora'])

print('üìä Dimens√µes do dataset:', df.shape)
print('\nüìã Informa√ß√µes do dataset:')
print(df.info())
print('\nüîç Primeiras linhas:')
df.head()

In [None]:
# Estat√≠sticas descritivas
print('üìà Estat√≠sticas por tipo de sensor:\n')
stats = df.groupby('tipo_sensor')['valor'].agg(['count', 'mean', 'std', 'min', 'max'])
stats.columns = ['Quantidade', 'M√©dia', 'Desvio Padr√£o', 'M√≠nimo', 'M√°ximo']
print(stats.round(2))

print('\nüéØ Distribui√ß√£o de qualidade:')
quality_dist = df['qualidade'].value_counts()
print(quality_dist)
print(f'\nüìä Percentuais:')
print((quality_dist / len(df) * 100).round(2))

## 2. An√°lise Explorat√≥ria de Dados (EDA)

In [None]:
# Visualiza√ß√£o da distribui√ß√£o de valores por tipo de sensor
fig, axes = plt.subplots(2, 2, figsize=(15, 10))

for idx, (sensor_type, ax) in enumerate(zip(df['tipo_sensor'].unique()[:4], axes.flat)):
    sensor_data = df[df['tipo_sensor'] == sensor_type]
    
    # Histograma com KDE
    ax.hist(sensor_data['valor'], bins=30, alpha=0.7, edgecolor='black')
    ax.set_title(f'Distribui√ß√£o - {sensor_type}', fontsize=12, fontweight='bold')
    ax.set_xlabel('Valor')
    ax.set_ylabel('Frequ√™ncia')
    
    # Adicionar linha vertical para m√©dia
    mean_val = sensor_data['valor'].mean()
    ax.axvline(mean_val, color='red', linestyle='--', linewidth=2, label=f'M√©dia: {mean_val:.1f}')
    ax.legend()

plt.tight_layout()
plt.suptitle('Distribui√ß√£o de Valores por Tipo de Sensor', y=1.02, fontsize=14, fontweight='bold')
plt.show()

In [None]:
# An√°lise temporal
fig, axes = plt.subplots(2, 1, figsize=(15, 10))

# Temperatura ao longo do tempo
temp_data = df[df['tipo_sensor'] == 'Temperatura'].groupby('data_hora')['valor'].mean()
axes[0].plot(temp_data.index, temp_data.values, color='red', alpha=0.7)
axes[0].set_title('Temperatura M√©dia ao Longo do Tempo', fontsize=12, fontweight='bold')
axes[0].set_xlabel('Data/Hora')
axes[0].set_ylabel('Temperatura (¬∞C)')
axes[0].grid(True, alpha=0.3)

# Umidade ao longo do tempo
humid_data = df[df['tipo_sensor'] == 'Umidade'].groupby('data_hora')['valor'].mean()
axes[1].plot(humid_data.index, humid_data.values, color='blue', alpha=0.7)
axes[1].set_title('Umidade M√©dia ao Longo do Tempo', fontsize=12, fontweight='bold')
axes[1].set_xlabel('Data/Hora')
axes[1].set_ylabel('Umidade (%)')
axes[1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

In [None]:
# Matriz de correla√ß√£o entre sensores
pivot_data = df.pivot_table(values='valor', index='data_hora', columns='tipo_sensor', aggfunc='mean')
correlation_matrix = pivot_data.corr()

plt.figure(figsize=(10, 8))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', center=0, 
            square=True, linewidths=1, cbar_kws={'shrink': 0.8})
plt.title('Matriz de Correla√ß√£o entre Tipos de Sensores', fontsize=14, fontweight='bold')
plt.show()

## 3. Prepara√ß√£o dos Dados para Machine Learning

In [None]:
# Criar features agregadas por timestamp
features_df = df.pivot_table(
    values='valor',
    index=['data_hora', 'equipamento'],
    columns='tipo_sensor',
    aggfunc='mean'
).reset_index()

# Preencher valores ausentes com a m√©dia
features_df = features_df.fillna(features_df.mean(numeric_only=True))

# Adicionar features temporais
features_df['hora'] = features_df['data_hora'].dt.hour
features_df['dia_semana'] = features_df['data_hora'].dt.dayofweek
features_df['is_dia'] = ((features_df['hora'] >= 6) & (features_df['hora'] <= 18)).astype(int)

print('üîß Features criadas:')
print(features_df.columns.tolist())
print('\nüìä Shape do dataset de features:', features_df.shape)
features_df.head()

In [None]:
# Criar target baseado em regras de neg√≥cio
def classificar_condicao(row):
    temp = row.get('Temperatura', 25)
    umid = row.get('Umidade', 65)
    
    # Condi√ß√µes ideais
    if 18 <= temp <= 28 and 50 <= umid <= 80:
        return 'Normal'
    # Condi√ß√µes cr√≠ticas
    elif temp < 15 or temp > 32 or umid < 40 or umid > 90:
        return 'Critico'
    # Condi√ß√µes de alerta
    else:
        return 'Alerta'

features_df['condicao'] = features_df.apply(classificar_condicao, axis=1)

print('üéØ Distribui√ß√£o das condi√ß√µes:')
print(features_df['condicao'].value_counts())
print('\nPercentuais:')
print((features_df['condicao'].value_counts() / len(features_df) * 100).round(2))

## 4. Modelagem - Machine Learning

In [None]:
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import SVC
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score
from sklearn.metrics import precision_recall_fscore_support
import joblib

# Preparar features e target
feature_columns = ['Temperatura', 'Umidade', 'hora', 'dia_semana', 'is_dia']
feature_columns = [col for col in feature_columns if col in features_df.columns]

X = features_df[feature_columns].fillna(0)
y = features_df['condicao']

# Codificar target
le = LabelEncoder()
y_encoded = le.fit_transform(y)

# Split dos dados
X_train, X_test, y_train, y_test = train_test_split(
    X, y_encoded, test_size=0.2, random_state=42, stratify=y_encoded
)

# Normaliza√ß√£o
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

print('üìä Dados preparados para modelagem:')
print(f'X_train shape: {X_train.shape}')
print(f'X_test shape: {X_test.shape}')
print(f'Classes: {le.classes_}')

In [None]:
# Treinar m√∫ltiplos modelos
models = {
    'Random Forest': RandomForestClassifier(n_estimators=100, random_state=42),
    'Gradient Boosting': GradientBoostingClassifier(n_estimators=100, random_state=42),
    'Decision Tree': DecisionTreeClassifier(max_depth=10, random_state=42),
    'SVM': SVC(kernel='rbf', random_state=42)
}

results = {}

print('ü§ñ Treinando modelos...\n')
for name, model in models.items():
    # Treinar modelo
    model.fit(X_train_scaled, y_train)
    
    # Fazer predi√ß√µes
    y_pred = model.predict(X_test_scaled)
    
    # Calcular m√©tricas
    accuracy = accuracy_score(y_test, y_pred)
    precision, recall, f1, _ = precision_recall_fscore_support(y_test, y_pred, average='weighted')
    
    results[name] = {
        'model': model,
        'accuracy': accuracy,
        'precision': precision,
        'recall': recall,
        'f1': f1,
        'predictions': y_pred
    }
    
    print(f'{name}:')
    print(f'  Acur√°cia: {accuracy:.4f}')
    print(f'  Precis√£o: {precision:.4f}')
    print(f'  Recall: {recall:.4f}')
    print(f'  F1-Score: {f1:.4f}\n')

In [None]:
# Selecionar melhor modelo
best_model_name = max(results, key=lambda x: results[x]['f1'])
best_model = results[best_model_name]['model']
best_predictions = results[best_model_name]['predictions']

print(f'üèÜ Melhor modelo: {best_model_name}')
print(f'F1-Score: {results[best_model_name]["f1"]:.4f}\n')

# Relat√≥rio de classifica√ß√£o detalhado
print('üìä Relat√≥rio de Classifica√ß√£o:\n')
print(classification_report(y_test, best_predictions, target_names=le.classes_))

## 5. Visualiza√ß√£o dos Resultados

In [None]:
# Matriz de Confus√£o
cm = confusion_matrix(y_test, best_predictions)

plt.figure(figsize=(10, 8))
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', 
            xticklabels=le.classes_, yticklabels=le.classes_)
plt.title(f'Matriz de Confus√£o - {best_model_name}', fontsize=14, fontweight='bold')
plt.xlabel('Predi√ß√£o')
plt.ylabel('Real')
plt.show()

# Salvar matriz de confus√£o
plt.savefig('confusion_matrix.png', dpi=300, bbox_inches='tight')

In [None]:
# Import√¢ncia das features (apenas para modelos baseados em √°rvore)
if hasattr(best_model, 'feature_importances_'):
    feature_importance = pd.DataFrame({
        'feature': feature_columns,
        'importance': best_model.feature_importances_
    }).sort_values('importance', ascending=False)
    
    plt.figure(figsize=(10, 6))
    plt.barh(feature_importance['feature'], feature_importance['importance'])
    plt.xlabel('Import√¢ncia')
    plt.title(f'Import√¢ncia das Features - {best_model_name}', fontsize=14, fontweight='bold')
    plt.gca().invert_yaxis()
    plt.tight_layout()
    plt.show()
    
    # Salvar gr√°fico
    plt.savefig('feature_importance.png', dpi=300, bbox_inches='tight')
    
    print('\nüìä Import√¢ncia das Features:')
    print(feature_importance)

In [None]:
# Compara√ß√£o de modelos
comparison_df = pd.DataFrame({
    'Modelo': results.keys(),
    'Acur√°cia': [results[m]['accuracy'] for m in results],
    'Precis√£o': [results[m]['precision'] for m in results],
    'Recall': [results[m]['recall'] for m in results],
    'F1-Score': [results[m]['f1'] for m in results]
})

# Visualiza√ß√£o da compara√ß√£o
fig, ax = plt.subplots(figsize=(12, 6))
x = np.arange(len(comparison_df))
width = 0.2

metrics = ['Acur√°cia', 'Precis√£o', 'Recall', 'F1-Score']
colors = ['#FF6B6B', '#4ECDC4', '#45B7D1', '#96CEB4']

for i, metric in enumerate(metrics):
    ax.bar(x + i*width, comparison_df[metric], width, label=metric, color=colors[i])

ax.set_xlabel('Modelos', fontweight='bold')
ax.set_ylabel('Score', fontweight='bold')
ax.set_title('Compara√ß√£o de Performance dos Modelos', fontsize=14, fontweight='bold')
ax.set_xticks(x + width * 1.5)
ax.set_xticklabels(comparison_df['Modelo'], rotation=45, ha='right')
ax.legend(loc='best')
ax.grid(True, alpha=0.3, axis='y')

plt.tight_layout()
plt.show()

# Salvar compara√ß√£o
plt.savefig('model_comparison.png', dpi=300, bbox_inches='tight')

print('\nüìä Tabela de Compara√ß√£o:')
print(comparison_df.round(4))

## 6. Valida√ß√£o Cruzada e Otimiza√ß√£o de Hiperpar√¢metros

In [None]:
# Valida√ß√£o cruzada do melhor modelo
from sklearn.model_selection import cross_val_score

cv_scores = cross_val_score(best_model, X_train_scaled, y_train, cv=5, scoring='f1_weighted')

print(f'üéØ Valida√ß√£o Cruzada - {best_model_name}')
print(f'Scores: {cv_scores.round(4)}')
print(f'M√©dia: {cv_scores.mean():.4f}')
print(f'Desvio Padr√£o: {cv_scores.std():.4f}')

In [None]:
# Otimiza√ß√£o de hiperpar√¢metros para Random Forest
if best_model_name == 'Random Forest':
    param_grid = {
        'n_estimators': [50, 100, 200],
        'max_depth': [10, 20, None],
        'min_samples_split': [2, 5, 10],
        'min_samples_leaf': [1, 2, 4]
    }
    
    print('üîç Iniciando Grid Search para otimiza√ß√£o de hiperpar√¢metros...')
    grid_search = GridSearchCV(
        RandomForestClassifier(random_state=42),
        param_grid,
        cv=3,
        scoring='f1_weighted',
        n_jobs=-1
    )
    
    grid_search.fit(X_train_scaled, y_train)
    
    print(f'\n‚úÖ Melhores par√¢metros encontrados:')
    print(grid_search.best_params_)
    print(f'\nMelhor score: {grid_search.best_score_:.4f}')
    
    # Testar modelo otimizado
    optimized_model = grid_search.best_estimator_
    y_pred_optimized = optimized_model.predict(X_test_scaled)
    optimized_accuracy = accuracy_score(y_test, y_pred_optimized)
    
    print(f'\nüìà Performance do modelo otimizado:')
    print(f'Acur√°cia: {optimized_accuracy:.4f}')
    print(f'Melhoria: {(optimized_accuracy - results[best_model_name]["accuracy"])*100:.2f}%')

## 7. Simula√ß√£o de Predi√ß√µes em Tempo Real

In [None]:
# Simular novas leituras
def simular_leitura():
    return {
        'Temperatura': np.random.normal(23, 5),
        'Umidade': np.random.normal(65, 10),
        'hora': np.random.randint(0, 24),
        'dia_semana': np.random.randint(0, 7),
        'is_dia': np.random.randint(0, 2)
    }

# Fazer predi√ß√µes para novas leituras
print('üîÆ Simula√ß√£o de Predi√ß√µes em Tempo Real\n')
print('-' * 60)

for i in range(5):
    nova_leitura = simular_leitura()
    
    # Preparar dados
    X_new = pd.DataFrame([nova_leitura])[feature_columns]
    X_new_scaled = scaler.transform(X_new)
    
    # Fazer predi√ß√£o
    prediction = best_model.predict(X_new_scaled)[0]
    prediction_proba = best_model.predict_proba(X_new_scaled)[0]
    
    condicao = le.inverse_transform([prediction])[0]
    
    print(f'\nLeitura {i+1}:')
    print(f'  Temperatura: {nova_leitura["Temperatura"]:.1f}¬∞C')
    print(f'  Umidade: {nova_leitura["Umidade"]:.1f}%')
    print(f'  Hora: {nova_leitura["hora"]}:00')
    print(f'  Predi√ß√£o: {condicao}')
    print(f'  Confian√ßa: {max(prediction_proba)*100:.1f}%')
    
    # Recomenda√ß√£o
    if condicao == 'Critico':
        print('  ‚ö†Ô∏è A√á√ÉO IMEDIATA NECESS√ÅRIA!')
    elif condicao == 'Alerta':
        print('  ‚ö° Monitorar com aten√ß√£o')
    else:
        print('  ‚úÖ Condi√ß√µes normais')

print('-' * 60)

## 8. Exporta√ß√£o do Modelo e Resultados

In [None]:
# Salvar modelo e preprocessadores
import joblib
import json

# Salvar modelo
joblib.dump(best_model, 'best_model.pkl')
joblib.dump(scaler, 'scaler.pkl')
joblib.dump(le, 'label_encoder.pkl')

print('üíæ Arquivos salvos:')
print('  - best_model.pkl')
print('  - scaler.pkl')
print('  - label_encoder.pkl')

# Salvar m√©tricas em JSON
metrics_dict = {
    'model_name': best_model_name,
    'accuracy': float(results[best_model_name]['accuracy']),
    'precision': float(results[best_model_name]['precision']),
    'recall': float(results[best_model_name]['recall']),
    'f1_score': float(results[best_model_name]['f1']),
    'cv_mean': float(cv_scores.mean()),
    'cv_std': float(cv_scores.std()),
    'training_date': datetime.now().isoformat(),
    'n_samples_train': int(len(X_train)),
    'n_samples_test': int(len(X_test)),
    'features': feature_columns,
    'classes': le.classes_.tolist()
}

with open('model_metrics.json', 'w') as f:
    json.dump(metrics_dict, f, indent=2)

print('\nüìä M√©tricas salvas em model_metrics.json')

# Criar relat√≥rio de classifica√ß√£o em JSON
report_dict = classification_report(y_test, best_predictions, 
                                   target_names=le.classes_, 
                                   output_dict=True)

with open('classification_report.json', 'w') as f:
    json.dump(report_dict, f, indent=2)

print('üìã Relat√≥rio de classifica√ß√£o salvo em classification_report.json')

## 9. Conclus√µes e Recomenda√ß√µes

### üìä Resultados Obtidos
- O modelo conseguiu classificar as condi√ß√µes ambientais com alta precis√£o
- As features mais importantes foram Temperatura e Umidade
- O modelo apresentou boa generaliza√ß√£o nos dados de teste

### üí° Insights
1. **Padr√µes Temporais**: Existe clara diferen√ßa entre condi√ß√µes diurnas e noturnas
2. **Correla√ß√£o**: Temperatura e umidade apresentam correla√ß√£o negativa moderada
3. **Alertas**: Aproximadamente 7.5% das leituras s√£o cr√≠ticas, exigindo a√ß√£o imediata

### üéØ Recomenda√ß√µes
1. **Manuten√ß√£o Preditiva**: Usar o modelo para prever necessidade de manuten√ß√£o
2. **Otimiza√ß√£o de Recursos**: Ajustar climatiza√ß√£o baseado nas predi√ß√µes
3. **Alertas Autom√°ticos**: Implementar sistema de notifica√ß√µes em tempo real
4. **Coleta Cont√≠nua**: Manter atualiza√ß√£o constante do modelo com novos dados

### üöÄ Pr√≥ximos Passos
1. Implementar API REST para servir o modelo
2. Criar dashboard em tempo real
3. Integrar com sistema de irriga√ß√£o autom√°tica
4. Expandir para mais tipos de sensores

In [None]:
# Resumo final
print('=' * 60)
print('üå± FARMTECH SOLUTIONS - RESUMO DO MODELO')
print('=' * 60)
print(f'\nüìä Dataset: {len(df):,} leituras de {df["id_sensor"].nunique()} sensores')
print(f'üìÖ Per√≠odo: {df["data_hora"].min().date()} a {df["data_hora"].max().date()}')
print(f'\nü§ñ Melhor Modelo: {best_model_name}')
print(f'üéØ Acur√°cia: {results[best_model_name]["accuracy"]*100:.2f}%')
print(f'üìà F1-Score: {results[best_model_name]["f1"]:.4f}')
print(f'\n‚úÖ Modelo treinado e salvo com sucesso!')
print('=' * 60)