# Introducción a Machine Learning...

Aqui hay unas notas chéveres: https://www.ibm.com/think/topics/machine-learning

**Machine Learning (ML)** es una rama de la inteligencia artificial que se enfoca en construir modelos capaces de **aprender patrones a partir de datos** para hacer **predicciones** o **decisiones**, sin necesidad de programar reglas explícitas para cada caso. En lugar de decirle al computador “si pasa esto, entonces haz aquello”, en ML le damos ejemplos (datos) y un objetivo, y el algoritmo ajusta un modelo que generaliza ese aprendizaje a casos nuevos.

En un problema típico de ML trabajamos con una **variable objetivo** (por ejemplo, “precio”, “riesgo”, “aprobado/no aprobado”) y un conjunto de **variables explicativas** o *features* (por ejemplo, edad, ingresos, historial, señales, imágenes, texto). El proceso completo no es solo “entrenar un modelo”: incluye **entender el contexto**, **limpiar y transformar datos**, **definir métricas**, **validar correctamente** (evitando fugas de información o *data leakage*), y finalmente **interpretar resultados** para tomar decisiones de forma responsable.

ML se usa cuando necesitamos automatizar o mejorar tareas como: predecir valores continuos (**regresión**), clasificar categorías (**clasificación**), detectar comportamientos inusuales (**anomalías**), segmentar poblaciones (**clustering**), o recomendar contenidos (**recomendación**). En muchos contextos, el objetivo no es solo maximizar una métrica, sino lograr un modelo **estable**, **explicable**, y alineado con el costo real de errores (falsos positivos y falsos negativos).

A lo largo del curso construiremos un marco práctico y reproducible: partiremos de **baselines**, pasaremos por modelos clásicos (regresión lineal y logística, árboles y ensamblados), y cerraremos con técnicas de evaluación, ajuste, interpretación y buenas prácticas que permiten llevar un modelo del “notebook” a un resultado útil en el mundo real.

## Steps in Machine Learning

Un flujo típico de trabajo en Machine Learning puede resumirse en los siguientes pasos:

1. **Data collection**: recolectar y consolidar los datos relevantes para el problema.
2. **Data preparation**: limpiar, transformar y preparar los datos (valores faltantes, codificación, escalamiento, particiones train/test, etc.).
3. **Choose a ML model**: seleccionar una familia de modelos acorde al tipo de problema (regresión, clasificación, etc.).
4. **Train the model**: entrenar el modelo ajustando sus parámetros con datos de entrenamiento.
5. **Evaluate the model**: evaluar desempeño con métricas apropiadas y validación correcta (test/CV), verificando generalización.
6. **Parameter tuning**: ajustar hiperparámetros para mejorar desempeño y controlar sobreajuste.
7. **Make predictions**: usar el modelo final para predecir en datos nuevos y apoyar decisiones.

![ML steps](MLsteps.png)

---

## The goal of Machine Learning

Una forma clara de entender el propósito de Machine Learning es la siguiente:

> **“The goal of machine learning is to develop methods that can automatically detect patterns in data, and then to use the uncovered patterns to predict future data or other outcomes of interest.”**  
> — *Kevin P. Murphy*

## Datasets
Para el curso, estas fuentes permiten conseguir datasets confiables, bien documentados y fáciles de reutilizar para talleres (regresión, clasificación, desbalance, texto, imágenes) y también para proyectos finales. Recomendación práctica: mezcla 2–3 fuentes “académicas” (UCI/OpenML), 1 comunitaria (Kaggle/Hugging Face) y 1 de datos reales (gobierno/organismos internacionales) para que el estudiantado vea distintos niveles de limpieza y contexto.

- UCI Machine Learning Repository (clásicos de docencia): https://archive.ics.uci.edu/
- OpenML (datasets + tareas con metadatos y estandarización): https://www.openml.org/search?type=data
- Kaggle Datasets (gran variedad; revisar licencias y posibles “leaks”): https://www.kaggle.com/datasets
- Google Dataset Search (buscador de datasets públicos por tema): https://datasetsearch.research.google.com/
- scikit-learn datasets (datasets “toy” y utilidades para cargar/traer datasets): https://scikit-learn.org/stable/datasets.html
- Hugging Face Datasets (muy útil para NLP y también tabular/visión/audio): https://huggingface.co/datasets
- Data.gov (catálogo de datos abiertos de EE. UU.): https://catalog.data.gov/
- Datos Abiertos Colombia (datasets oficiales de Colombia): https://www.datos.gov.co/
- World Bank Open Data (indicadores globales socioeconómicos): https://data.worldbank.org/
- UNdata (datasets estadísticos de Naciones Unidas): https://data.un.org/
- OECD Data Explorer (estadísticas OCDE): https://data-explorer.oecd.org/
- NASA Earthdata (observación de la Tierra; algunos flujos requieren login): https://www.earthdata.nasa.gov/
- NOAA NCEI (clima/océano/geo; buscador de datasets): https://www.ncei.noaa.gov/access/search/dataset-search
- Registry of Open Data on AWS (datasets grandes listos para análisis en nube): https://registry.opendata.aws/
- BigQuery Public Datasets (datasets públicos consultables con SQL): https://docs.cloud.google.com/bigquery/public-data
