# EDA - Análisis Exploratorio de Datos
## Kaggle Playground Series S5E6: Predicting Optimal Fertilizers

**Autor:** [Félix]  
**Fecha:** [2025-06-02]  
**Rama:** [experiment/felix]  

## 📚 Importación de Librerías

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder, StandardScaler
import warnings
warnings.filterwarnings('ignore')

# Configuración de visualización
plt.style.use('default')
sns.set_palette("husl")
%matplotlib inline

## 📊 Carga de Datos

In [None]:
# Cargar datasets
train_df = pd.read_csv('../data/train.csv')
test_df = pd.read_csv('../data/test.csv')
sample_submission = pd.read_csv('../data/sample_submission.csv')

print(f"Train shape: {train_df.shape}")
print(f"Test shape: {test_df.shape}")
print(f"Sample submission shape: {sample_submission.shape}")

## 🔍 Exploración Inicial

In [None]:
# Información básica del dataset
print("=== INFORMACIÓN DEL DATASET ===\n")
train_df.info()

print("\n=== PRIMERAS 5 FILAS ===\n")
display(train_df.head())

print("\n=== ESTADÍSTICAS DESCRIPTIVAS ===\n")
display(train_df.describe())

## 🎯 Análisis de la Variable Objetivo

In [None]:
# Distribución de fertilizantes
plt.figure(figsize=(12, 6))
fertilizer_counts = train_df['Fertilizer Name'].value_counts()
plt.subplot(1, 2, 1)
fertilizer_counts.plot(kind='bar')
plt.title('Distribución de Tipos de Fertilizantes')
plt.xlabel('Tipo de Fertilizante')
plt.ylabel('Frecuencia')
plt.xticks(rotation=45)

plt.subplot(1, 2, 2)
plt.pie(fertilizer_counts.values, labels=fertilizer_counts.index, autopct='%1.1f%%')
plt.title('Distribución Porcentual de Fertilizantes')

plt.tight_layout()
plt.show()

print(f"Número de tipos únicos de fertilizantes: {train_df['Fertilizer Name'].nunique()}")
print(f"\nTop 10 fertilizantes más comunes:")
print(fertilizer_counts.head(10))

## 🌡️ Análisis de Variables Numéricas

In [None]:
# Variables numéricas
numeric_cols = ['Temparature', 'Humidity', 'Moisture', 'Nitrogen', 'Potassium', 'Phosphorous']

# Distribuciones
fig, axes = plt.subplots(2, 3, figsize=(15, 10))
axes = axes.ravel()

for i, col in enumerate(numeric_cols):
    axes[i].hist(train_df[col], bins=30, alpha=0.7, edgecolor='black')
    axes[i].set_title(f'Distribución de {col}')
    axes[i].set_xlabel(col)
    axes[i].set_ylabel('Frecuencia')

plt.tight_layout()
plt.show()

## 🌾 Análisis de Variables Categóricas

In [None]:
# Variables categóricas
categorical_cols = ['Soil Type', 'Crop Type']

fig, axes = plt.subplots(1, 2, figsize=(15, 6))

for i, col in enumerate(categorical_cols):
    train_df[col].value_counts().plot(kind='density', ax=axes[i])
    axes[i].set_title(f'Distribución de {col}')
    axes[i].set_xlabel(col)
    axes[i].set_ylabel('Frecuencia')
    axes[i].tick_params(axis='x', rotation=45)

plt.tight_layout()
plt.show()

# Información detallada
for col in categorical_cols:
    print(f"\n{col}:")
    print(train_df[col].value_counts())
    print(f"Valores únicos: {train_df[col].nunique()}")

## 🔗 Matriz de Correlación

In [None]:
# Matriz de correlación para variables numéricas
plt.figure(figsize=(10, 8))
correlation_matrix = train_df[numeric_cols].corr()
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', center=0, 
            square=True, linewidths=0.5, vmin=-1, vmax=1)
plt.title('Matriz de Correlación - Variables Numéricas')
plt.tight_layout()
plt.show()

## 📋 Checklist de Próximos Pasos

- [x] Análisis de valores faltantes
- [ ] Detección de outliers
- [ ] Feature engineering
- [ ] EDA with LabelEncoder
- [ ] Análisis por segmentos (tipo de suelo/cultivo)
- [ ] Preparación de datos para modelado
- [ ] Baseline model

## 💡 Insights y Observaciones

*Agregar aquí tus observaciones principales del EDA*

## 🕳️ Análisis de valores faltantes

In [None]:
print("\n=== VALORES NULOS EN EL DATASET ===\n")
display(train_df.isnull().sum())

print("\n=== PORCENTAJE DE VALORES NULOS ===\n")
display(train_df.isnull().mean() * 100)

print("\n=== DESCRIPCIÓN con VARIBALES CATEGÓRICAS ===\n ")
display(train_df.describe(include='all'))

## 👽 Detección de Outliers

In [None]:
! TODO

## ⚙️ Feature Engineering

In [None]:
from sklearn.preprocessing import LabelEncoder

df_encoded = train_df.copy()
le_soil = LabelEncoder()
df_encoded['Soil Type'] = le_soil.fit_transform(df_encoded['Soil Type'])

le_crop = LabelEncoder()
df_encoded['Crop Type'] = le_crop.fit_transform(df_encoded['Crop Type'])

le_target = LabelEncoder()
df_encoded['Fertilizer Name'] = le_target.fit_transform(df_encoded['Fertilizer Name'])
