# Transformación de Datos: Del Pescado Crudo al Producto Final

## Introducción
Al igual que procesamos el pescado en la planta, necesitamos procesar nuestros datos.

## Objetivos
- Limpiar y estandarizar datos
- Detectar y corregir anomalías
- Enriquecer la información

## Contenido
1. Limpieza de datos de desembarques
2. Procesamiento de datos oceanográficos
3. Estandarización de datos de flota
4. Integración de fuentes

{
 "cells": [
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "# Transformación de Datos: Del Pescado Crudo al Producto Final\n",
    "\n",
    "## Introducción\n",
    "¡Bienvenidos a la fase de transformación de datos! Así como en una planta procesadora convertimos el pescado crudo en productos finales, aquí transformaremos nuestros datos brutos en información valiosa y lista para analizar.\n",
    "\n",
    "### ¿Por qué necesitamos transformar los datos?\n",
    "Imagina que acabas de desembarcar pescado de diferentes barcos:\n",
    "- Algunos reportan el peso en kilogramos, otros en toneladas\n",
    "- Los nombres de las especies están escritos de diferentes formas (ej: 'MERLUZA', 'Merluza', 'merluza')\n",
    "- Hay datos faltantes o erróneos\n",
    "\n",
    "Al igual que necesitamos estandarizar el procesamiento del pescado, debemos estandarizar nuestros datos.\n",
    "\n",
    "## Objetivos\n",
    "- Aprender a limpiar y estandarizar datos\n",
    "- Detectar y corregir anomalías\n",
    "- Enriquecer la información combinando diferentes fuentes\n",
    "\n",
    "## Preparando nuestras herramientas\n",
    "Primero, importemos las bibliotecas necesarias:"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "# Importamos las bibliotecas necesarias\n",
    "import pandas as pd\n",
    "import numpy as np\n",
    "import matplotlib.pyplot as plt\n",
    "import seaborn as sns\n",
    "from datetime import datetime\n",
    "\n",
    "# Configuración para visualizaciones\n",
    "plt.rcParams['figure.figsize'] = (12, 6)\n",
    "sns.set_theme(style=\"whitegrid\")\n",
    "sns.set_palette(\"deep\")\n",
    "%matplotlib inline\n",
    "\n",
    "# Para mostrar todas las columnas en pandas\n",
    "pd.set_option('display.max_columns', None)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 1. Cargando nuestros datos crudos\n",
    "\n",
    "Primero, cargaremos los datos que obtuvimos en el paso de extracción:"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "# Cargamos los datos de desembarques\n",
    "df_desembarques = pd.read_csv(\"../data/raw/desembarques_pesqueros.csv\")\n",
    "\n",
    "# Cargamos los datos oceanográficos\n",
    "df_oceano = pd.read_csv(\"../data/raw/datos_oceanograficos.csv\")\n",
    "\n",
    "# Cargamos los datos de la flota\n",
    "df_flota = pd.read_csv(\"../data/raw/flota_pesquera.csv\")\n",
    "\n",
    "# Veamos un resumen de nuestros datos\n",
    "print(\"\\n=== Datos de Desembarques ===\")\n",
    "print(df_desembarques.info())\n",
    "\n",
    "print(\"\\n=== Datos Oceanográficos ===\")\n",
    "print(df_oceano.info())\n",
    "\n",
    "print(\"\\n=== Datos de Flota ===\")\n",
    "print(df_flota.info())"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 2. Limpieza de datos de desembarques\n",
    "\n",
    "### 2.1 Identificando problemas comunes\n",
    "\n",
    "Antes de empezar a limpiar, veamos qué problemas tenemos en nuestros datos:"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "# Verificamos valores nulos\n",
    "print(\"Valores nulos en datos de desembarques:\")\n",
    "print(df_desembarques.isnull().sum())\n",
    "\n",
    "# Verificamos valores únicos en columnas categóricas\n",
    "print(\"\\nPuertos únicos:\")\n",
    "print(df_desembarques['puerto'].unique())\n",
    "\n",
    "print(\"\\nEspecies únicas:\")\n",
    "print(df_desembarques['especie'].unique())"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "### 2.2 Limpieza y estandarización\n",
    "\n",
    "Ahora vamos a:\n",
    "1. Convertir fechas al formato correcto\n",
    "2. Estandarizar nombres (todo en mayúsculas)\n",
    "3. Verificar y corregir valores extremos"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "# Convertimos la fecha a datetime\n",
    "df_desembarques['fecha'] = pd.to_datetime(df_desembarques['fecha'])\n",
    "\n",
    "# Extraemos año y mes para análisis posteriores\n",
    "df_desembarques['año'] = df_desembarques['fecha'].dt.year\n",
    "df_desembarques['mes'] = df_desembarques['fecha'].dt.month\n",
    "\n",
    "# Estandarizamos nombres a mayúsculas\n",
    "df_desembarques['puerto'] = df_desembarques['puerto'].str.upper()\n",
    "df_desembarques['especie'] = df_desembarques['especie'].str.upper()\n",
    "\n",
    "# Identificamos valores extremos en capturas\n",
    "plt.figure(figsize=(12, 6))\n",
    "sns.boxplot(x='especie', y='captura_ton', data=df_desembarques)\n",
    "plt.title('Distribución de Capturas por Especie')\n",
    "plt.xticks(rotation=45)\n",
    "plt.show()"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "### 2.3 Agregación temporal\n",
    "\n",
    "Vamos a crear resúmenes mensuales de capturas:"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "# Agrupamos por año, mes y especie\n",
    "df_mensual = df_desembarques.groupby(['año', 'mes', 'especie']).agg({\n",
    "    'captura_ton': 'sum',\n",
    "    'valor_total_usd': 'sum'\n",
    "}).reset_index()\n",
    "\n",
    "# Calculamos precio promedio por kg\n",
    "df_mensual['precio_promedio_kg'] = df_mensual['valor_total_usd'] / (df_mensual['captura_ton'] * 1000)\n",
    "\n",
    "print(\"Resumen mensual de capturas:\")\n",
    "print(df_mensual.head())"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 3. Procesamiento de datos oceanográficos\n",
    "\n",
    "### 3.1 Limpieza y estandarización"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "# Convertimos fecha a datetime\n",
    "df_oceano['fecha'] = pd.to_datetime(df_oceano['fecha'])\n",
    "\n",
    "# Estandarizamos nombres de zonas\n",
    "df_oceano['zona'] = df_oceano['zona'].str.upper()\n",
    "\n",
    "# Calculamos promedios mensuales por zona\n",
    "df_oceano_mensual = df_oceano.groupby(['zona', df_oceano['fecha'].dt.year, df_oceano['fecha'].dt.month]).agg({\n",
    "    'temperatura_c': 'mean',\n",
    "    'salinidad_psu': 'mean',\n",
    "    'oxigeno_ml_l': 'mean',\n",
    "    'clorofila_mg_m3': 'mean'\n",
    "}).reset_index()\n",
    "\n",
    "print(\"Resumen mensual de condiciones oceanográficas:\")\n",
    "print(df_oceano_mensual.head())"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 4. Estandarización de datos de flota\n",
    "\n",
    "### 4.1 Limpieza y categorización"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "# Estandarizamos puerto base\n",
    "df_flota['puerto_base'] = df_flota['puerto_base'].str.upper()\n",
    "\n",
    "# Calculamos antigüedad de las embarcaciones\n",
    "año_actual = datetime.now().year\n",
    "df_flota['antigüedad'] = año_actual - df_flota['año_construccion']\n",
    "\n",
    "# Categorizamos por tamaño\n",
    "df_flota['categoria_tamaño'] = pd.cut(\n",
    "    df_flota['eslora_m'],\n",
    "    bins=[0, 20, 35, 50, float('inf')],\n",
    "    labels=['Pequeño', 'Mediano', 'Grande', 'Muy Grande']\n",
    ")\n",
    "\n",
    "print(\"Resumen de la flota por categoría de tamaño:\")\n",
    "print(df_flota['categoria_tamaño'].value_counts())"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 5. Integración de fuentes\n",
    "\n",
    "Ahora combinaremos la información de las tres fuentes para obtener una visión más completa:"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "# Preparamos los datos oceanográficos para la unión\n",
    "df_oceano['año'] = df_oceano['fecha'].dt.year\n",
    "df_oceano['mes'] = df_oceano['fecha'].dt.month\n",
    "\n",
    "# Unimos desembarques con datos oceanográficos\n",
    "df_integrado = pd.merge(\n",
    "    df_mensual,\n",
    "    df_oceano_mensual,\n",
    "    on=['año', 'mes'],\n",
    "    how='left'\n",
    ")\n",
    "\n",
    "print(\"Muestra de datos integrados:\")\n",
    "print(df_integrado.head())"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 6. Guardando nuestros datos transformados\n",
    "\n",
    "Finalmente, guardamos nuestros datos procesados para su posterior análisis:"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "# Creamos directorio si no existe\n",
    "import os\n",
    "os.makedirs(\"../data/processed\", exist_ok=True)\n",
    "\n",
    "# Guardamos los datasets transformados\n",
    "df_desembarques.to_csv(\"../data/processed/desembarques_limpios.csv\", index=False)\n",
    "df_oceano_mensual.to_csv(\"../data/processed/oceanograficos_mensuales.csv\", index=False)\n",
    "df_flota.to_csv(\"../data/processed/flota_categorizada.csv\", index=False)\n",
    "df_integrado.to_csv(\"../data/processed/datos_integrados.csv\", index=False)\n",
    "\n",
    "print(\"¡Datos transformados guardados exitosamente!\")"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## Conclusiones\n",
    "\n",
    "¡Felicitaciones! Has completado exitosamente la fase de transformación de datos. En este proceso:\n",
    "\n",
    "1. Limpiamos y estandarizamos los datos de desembarques\n",
    "2. Procesamos los datos oceanográficos\n",
    "3. Categorizamos la información de la flota\n",
    "4. Integramos todas las fuentes\n",
    "\n",
    "Ahora tus datos están listos para ser analizados y visualizados en el siguiente notebook.\n",
    "\n",
    "### Próximos pasos\n",
    "- Dirígete al notebook '03_Carga_Exhibicion_Hallazgos.ipynb' para aprender a cargar y visualizar tus datos procesados\n",
    "- Explora patrones y tendencias en los datos integrados\n",
    "- Genera visualizaciones informativas"
   ]
  }
 ],
 "metadata": {
  "language_info": {
   "name": "python"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 2
}