In [2]:
{
 "cells": [
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "# Workshop 3: Problematic Internet Use Prediction\n",
    "\n",
    "Este notebook aborda el análisis y modelado del uso problemático de Internet en jóvenes, siguiendo la competencia de Kaggle y el diccionario de datos proporcionado."
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 1. Carga de librerías y configuración"
   ]
  },
  {
   "cell_type": "code",
   "metadata": {},
   "source": [
    "import pandas as pd\n",
    "import numpy as np\n",
    "import matplotlib.pyplot as plt\n",
    "import seaborn as sns\n",
    "import warnings\n",
    "warnings.filterwarnings('ignore')"
   ],
   "execution_count": None,
   "outputs": []
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 2. Carga de datos\n",
    "\n",
    "- **data_dictionary.csv**: Diccionario de variables\n",
    "- **train.csv / test.csv**: Datos reales de Kaggle (coloca los archivos en la misma carpeta que este notebook)"
   ]
  },
  {
   "cell_type": "code",
   "metadata": {},
   "source": [
    "# Cargar el diccionario de datos\n",
    "data_dict = pd.read_csv('data_dictionary.csv')\n",
    "data_dict.head()"
   ],
   "execution_count": None,
   "outputs": []
  },
  {
   "cell_type": "code",
   "metadata": {},
   "source": [
    "# Cargar los datos de Kaggle (ajusta el nombre si es necesario)\n",
    "train = pd.read_csv('train.csv')\n",
    "test = pd.read_csv('test.csv')\n",
    "print('Train shape:', train.shape)\n",
    "print('Test shape:', test.shape)\n",
    "train.head()"
   ],
   "execution_count": None,
   "outputs": []
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 3. Exploración inicial de los datos"
   ]
  },
  {
   "cell_type": "code",
   "metadata": {},
   "source": [
    "# Información general\n",
    "train.info()\n",
    "train.describe().T"
   ],
   "execution_count": None,
   "outputs": []
  },
  {
   "cell_type": "code",
   "metadata": {},
   "source": [
    "# Revisión de valores nulos\n",
    "train.isnull().sum().sort_values(ascending=False).head(20)"
   ],
   "execution_count": None,
   "outputs": []
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 4. Mapeo de variables según el diccionario\n",
    "\n",
    "Aquí puedes crear funciones para convertir variables categóricas y asegurar la consistencia de los datos."
   ]
  },
  {
   "cell_type": "code",
   "metadata": {},
   "source": [
    "# Ejemplo: convertir sexo a etiquetas\n",
    "if 'Basic_Demos-Sex' in train.columns:\n",
    "    train['Sex_Label'] = train['Basic_Demos-Sex'].map({0: 'Male', 1: 'Female'})\n",
    "    train[['Basic_Demos-Sex', 'Sex_Label']].head()"
   ],
   "execution_count": None,
   "outputs": []
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 5. Análisis exploratorio inicial\n",
    "\n",
    "Visualiza la distribución de la variable objetivo y algunas variables relevantes."
   ]
  },
  {
   "cell_type": "code",
   "metadata": {},
   "source": [
    "# Ejemplo: distribución de la variable objetivo (ajusta el nombre si es necesario)\n",
    "target_col = 'PCIAT-PCIAT_Total'  # Cambia si la variable objetivo tiene otro nombre\n",
    "if target_col in train.columns:\n",
    "    plt.figure(figsize=(8,4))\n",
    "    sns.histplot(train[target_col], kde=True)\n",
    "    plt.title('Distribución de la variable objetivo')\n",
    "    plt.show()"
   ],
   "execution_count": None,
   "outputs": []
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 6. Próximos pasos\n",
    "\n",
    "- Limpieza avanzada y tratamiento de valores faltantes\n",
    "- Ingeniería de características\n",
    "- Modelado predictivo\n",
    "- Evaluación y presentación de resultados"
   ]
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "name": "python",
   "version": ""
  }
 },
 "nbformat": 4,
 "nbformat_minor": 2
}

{'cells': [{'cell_type': 'markdown',
   'metadata': {},
   'source': ['# Workshop 3: Problematic Internet Use Prediction\n',
    '\n',
    'Este notebook aborda el análisis y modelado del uso problemático de Internet en jóvenes, siguiendo la competencia de Kaggle y el diccionario de datos proporcionado.']},
  {'cell_type': 'markdown',
   'metadata': {},
   'source': ['## 1. Carga de librerías y configuración']},
  {'cell_type': 'code',
   'metadata': {},
   'source': ['import pandas as pd\n',
    'import numpy as np\n',
    'import matplotlib.pyplot as plt\n',
    'import seaborn as sns\n',
   'execution_count': None,
   'outputs': []},
  {'cell_type': 'markdown',
   'metadata': {},
   'source': ['## 2. Carga de datos\n',
    '\n',
    '- **data_dictionary.csv**: Diccionario de variables\n',
    '- **train.csv / test.csv**: Datos reales de Kaggle (coloca los archivos en la misma carpeta que este notebook)']},
  {'cell_type': 'code',
   'metadata': {},
   'source': ['# Cargar el diccion