# **Identificación de Fuentes de Datos Relevantes**

En esta sesión exploraremos diferentes fuentes de datos que pueden ser utilizadas para la toma de decisiones basada en evidencia. Veremos fuentes públicas, abiertas y privadas, y aprenderemos a evaluar su relevancia con base en criterios como cobertura, calidad, frecuencia de actualización y confiabilidad.

In [13]:
#Importar librerías
import pandas as pd
from IPython.display import display, Markdown

## 🔍 **1. Tipos de fuentes de datos**
<br> La elección de una fuente de datos adecuada depende del problema de análisis, el tipo de decisión que se desea respaldar (operativa, táctica o estratégica) y la disponibilidad de la información. A continuación se describen las principales categorías:

### 1.1. Fuentes de datos abiertos (Open Data)
Proporcionadas generalmente por gobiernos, organismos multilaterales, instituciones académicas o iniciativas cívicas. Son gratuitas, accesibles públicamente y suelen estar en formatos estructurados como CSV, JSON o Excel.

**Características:**
- Acceso libre sin registro o con registro básico.
- Frecuencia de actualización variable.
- Datos anonimizados y con licencias abiertas.

### 1.2. APIs públicas y privadas
Permiten acceder a datos en tiempo real o histórico mediante programación, utilizando protocolos como REST o GraphQL. Son ideales para aplicaciones interactivas, automatización y análisis de grandes volúmenes de datos.

**Características:**
- Requiere conocimientos técnicos y manejo de librerías (e.g., requests, json en Python).
- Algunas requieren autenticación mediante token.
- Pueden tener límites de uso por día.

### 1.3. Bases de datos estructuradas
Conjuntos de datos almacenados en sistemas relacionales (SQL) o no relacionales (NoSQL), utilizados internamente por empresas o compartidos como parte de alianzas institucionales.

**Características:**
- Altamente estructuradas (tablas, campos, relaciones).
- Requieren acceso autorizado.
- Pueden estar en la nube o en servidores locales.

### 1.4. Repositorios académicos y científicos
Alojan datos generados por investigaciones. Son útiles para validar hipótesis, crear modelos y realizar análisis comparativos.

**Características:**
- Acceso libre o bajo condiciones académicas.
- Documentación técnica completa (metadatos, metodología, DOI).
- Licencias de uso definidas (Creative Commons, etc.).

### 1.5. Plataformas colaborativas de ciencia de datos
Son comunidades donde los usuarios comparten datasets curados para fines educativos o experimentales.

**Características:**
- Enfocadas en proyectos de machine learning y visualización.
- Datasets clasificados por complejidad y uso.
- Posibilidad de ejecución de notebooks en línea (e.g., Kaggle Kernels).

### 1.6. Datos no estructurados (texto, imágenes, audio, video)
Información que no sigue un formato tabular. Su procesamiento requiere técnicas de minería de texto, procesamiento de lenguaje natural (NLP), visión computacional, etc.

**Características:**
- No organizados en filas y columnas.
- Difíciles de almacenar y analizar sin preprocesamiento.
- Útiles para análisis cualitativo o detección de patrones complejos.

## 🌐 **2. Ejemplos de fuentes abiertas de datos**

🌐 [Google Dataset Search](https://datasetsearch.research.google.com/)
<br>Buscador de datasets disponible en la web. Puedes buscar por tema, formato, autor, etc. Muy útil para encontrar fuentes académicas, gubernamentales y de investigación.

<br> 🏛️ Datos Abiertos del Gobierno
- **Colombia:** [datos.gov.co](https://www.datos.gov.co/). Portal oficial de datos abiertos del gobierno colombiano. Contiene conjuntos de datos de salud, transporte, educación, medio ambiente y más, con opciones de descarga directa en varios formatos.
- **Chile:** [datos.gob.cl](https://datos.gob.cl/). Portal oficial de datos abiertos del gobierno de Chile. Ofrece acceso a conjuntos de datos en áreas como salud, educación, transporte, medio ambiente y economía, publicados por distintos organismos públicos. Los datos están disponibles en formatos abiertos como CSV, JSON y Excel, y muchos se pueden consultar mediante API.

<br> 📊 [Kaggle Datasets](https://www.kaggle.com/datasets)
<br> Repositorio con miles de datasets organizados por categoría. Ideal para proyectos de machine learning, ciencia de datos y visualización. Requiere cuenta gratuita.

<br> 🌎 [World Bank Open Data](https://data.worldbank.org/)
<br> Conjuntos de datos económicos, sociales y ambientales de casi todos los países del mundo. Útil para análisis comparativos y decisiones en políticas públicas.

<br> 🌐 [Our World in Data](https://ourworldindata.org/)
<br> Publica datos sobre salud, energía, medio ambiente, pobreza y más. Los datasets están disponibles para descarga en CSV y se actualizan frecuentemente.

<br> 🌡️ [OpenWeatherMap API](https://openweathermap.org/api)
<br> Ofrece datos meteorológicos actuales e históricos mediante API. Ideal para proyectos que analizan el impacto del clima en la toma de decisiones. Requiere registro gratuito.

<br> 🧬 [UCI Machine Learning Repository](https://archive.ics.uci.edu/)
<br> Base de datos clásica de conjuntos de datos para machine learning. Muy útil para prácticas de clasificación, regresión, clustering y reducción de dimensionalidad.

<br> 📚 [Harvard Dataverse](https://dataverse.harvard.edu/)
<br> Repositorio de datos académicos multidisciplinarios. Permite explorar datasets generados en investigaciones científicas, con citas y licencias claras.

<br> 🚦 [European Data Portal](https://data.europa.eu/en)
<br> Acceso a datasets públicos de los países miembros de la Unión Europea, en temas como movilidad, economía, salud, agricultura y más.

## **3. 📋 Evaluación de la relevancia de una fuente**

Criterios para evaluar si un conjunto de datos es útil:
- Cobertura temática: ¿Responde a la pregunta o necesidad del análisis?
- Actualización: ¿Cada cuánto se actualiza la fuente? ¿Está vigente?
- Calidad de los datos: ¿Tiene valores faltantes? ¿Formato consistente?
- Licencia de uso: ¿Se puede utilizar libremente con fines académicos o comerciales?
- Formato de acceso: ¿Está disponible en CSV, JSON, API, etc.?

### **3.1. Pertinencia**
Evalúa si el contenido del dataset está alineado con el problema o decisión que estás abordando.

*Preguntas guía:*
- ¿Los datos responden directamente a la pregunta de investigación o necesidad de análisis?
- ¿Incluyen las variables relevantes?
- ¿La cobertura geográfica, temporal o temática es la adecuada?

*Evaluación ejemplo:*
- Alta: Los datos están directamente relacionados con el problema.
- Media: La relación es parcial; faltan variables o el contexto es limitado.
- Baja: El dataset no aborda el problema planteado o es demasiado general.

### **3.2. Formato y usabilidad**
Evalúa si el formato facilita su integración con herramientas analíticas.

*Preguntas guía:*
- ¿Está en formato estructurado (CSV, JSON, Excel)?
- ¿Puedes cargarlo fácilmente en Python, R, Excel, etc.?
- ¿La estructura es clara (columnas, registros, metadatos)?

*Evaluación ejemplo:*
- Alta: CSV, JSON, o Excel bien estructurado y documentado.
- Media: Requiere preprocesamiento pero es usable.
- Baja: Formato complejo, no descargable, o difícil de leer.

### **3.3. Actualización**
Considera qué tan reciente y frecuente es la actualización de los datos.

*Preguntas guía:*
- ¿Cuándo fue la última vez que se actualizó?
- ¿Es suficiente para el tipo de análisis (tiempo real, anual, histórico)?
- ¿Se indica con claridad la fecha de los registros?

*Evaluación ejemplo:*
- Alta: Actualizado recientemente (mes o año vigente).
- Media: Actualizado en los últimos 1–3 años.
- Baja: Muy antiguo, sin indicios de mantenimiento o actualización.

### **3.4. Calidad de los datos**
Valora la completitud, consistencia, precisión y formato interno de los datos.

*Preguntas guía:*
- ¿Hay valores faltantes, duplicados o inconsistentes?
- ¿Las variables están claramente definidas y con unidades?
- ¿Los datos están bien estructurados y sin errores evidentes?

*Evaluación ejemplo:*
- Alta: Datos limpios, bien documentados, sin valores nulos o inconsistencias.
- Media: Algunos problemas menores (nulos, errores de codificación).
- Baja: Problemas severos de limpieza o estructura que dificultan su uso.


### **3.5. Licencia y acceso**
Examina si puedes usar los datos legalmente y con facilidad.

*Preguntas guía:*
- ¿La fuente indica licencia (CC-BY, Open Data, etc.)?
- ¿Se puede acceder sin registrarse o con una API gratuita?
- ¿Tiene restricciones de uso comercial o académico?

*Evaluación ejemplo:*
- Alta: Licencia abierta clara, acceso libre.
- Media: Licencia no especificada o acceso limitado (requiere registro).
- Baja: No tiene licencia clara o el uso es restringido.

## 📓 **4. Ejemplos: Evaluación de la Relevancia de Fuentes de Datos**

In [30]:
#Criterios
criterios = [
    "Pertinencia",
    "Actualización",
    "Calidad de los datos",
    "Licencia y acceso",
    "Formato y usabilidad"
]
# Función para mostrar criterios y registrar evaluaciones separadas
def evaluar_fuente(nombre_fuente, enlace, tema, evaluaciones):
    if len(evaluaciones) != len(criterios):
        raise ValueError("La cantidad de evaluaciones no coincide con los criterios.")
    
    niveles = []
    comentarios = []

    for e in evaluaciones:
        partes = e.split(". ", 1)  # Separar solo en el primer punto seguido de espacio
        nivel = partes[0]
        comentario = partes[1] if len(partes) > 1 else ""
        niveles.append(nivel)
        comentarios.append(comentario)

    df = pd.DataFrame({
        "Criterio": criterios,
        "Evaluación": niveles,
        "Comentario": comentarios
    })

    display(Markdown(f"### 🗂️ Evaluación: {nombre_fuente}"))
    display(Markdown(f"**Tema:** {tema}  \n**Enlace:** [{nombre_fuente}]({enlace})"))
    display(df)

In [29]:
### 🧪 Ejemplo 1: COVID-19 en Colombia
evaluar_fuente(
    nombre_fuente="Casos confirmados de COVID-19 en Colombia",
    enlace="https://www.datos.gov.co/Salud-y-Protecci-n-Social/Casos-positivos-de-COVID-19-en-Colombia/gt2j-8ykr",
    tema="Salud pública",
    evaluaciones=[
        "Alta. Información detallada por municipio, fecha y edad.",
        "Moderada. Última actualización disponible es de 2022.",
        "Buena. Datos limpios y categorizados.",
        "Libre. Licencia abierta y sin restricciones.",
        "CSV descargable. Fácil uso en Python o Excel."
    ]
)

### 🧪 Ejemplo 2: Viajes en Ecobici - CDMX
evaluar_fuente(
    nombre_fuente="Viajes realizados en Ecobici (CDMX)",
    enlace="https://datos.cdmx.gob.mx/dataset/ecobici-viajes-realizados",
    tema="Movilidad urbana",
    evaluaciones=[
        "Alta. Datos relevantes para analizar patrones de viaje.",
        "Alta. Información disponible hasta 2023.",
        "Buena. Incluye duración, fechas, estaciones.",
        "Pública. Acceso libre desde el gobierno de CDMX.",
        "CSV estructurado. Compatible con herramientas de análisis."
    ]
)

### 🧪 Ejemplo 3: Emisiones de CO₂ - Our World in Data
evaluar_fuente(
    nombre_fuente="CO₂ emissions dataset (Our World in Data)",
    enlace="https://github.com/owid/co2-data/blob/master/owid-co2-data.csv",
    tema="Cambio climático",
    evaluaciones=[
        "Alta. Datos por país, año y tipo de emisión.",
        "Alta. Última actualización en 2024.",
        "Muy buena. Incluye metadatos y fuentes documentadas.",
        "Creative Commons. Uso permitido con atribución.",
        "CSV disponible en GitHub. Fácil de importar."
    ]
)


### 🗂️ Evaluación: Casos confirmados de COVID-19 en Colombia

**Tema:** Salud pública  
**Enlace:** [Casos confirmados de COVID-19 en Colombia](https://www.datos.gov.co/Salud-y-Protecci-n-Social/Casos-positivos-de-COVID-19-en-Colombia/gt2j-8ykr)

Unnamed: 0,Criterio,Evaluación,Comentario
0,Pertinencia,Alta,"Información detallada por municipio, fecha y e..."
1,Actualización,Moderada,Última actualización disponible es de 2022.
2,Calidad de los datos,Buena,Datos limpios y categorizados.
3,Licencia y acceso,Libre,Licencia abierta y sin restricciones.
4,Formato y usabilidad,CSV descargable,Fácil uso en Python o Excel.


### 🗂️ Evaluación: Viajes realizados en Ecobici (CDMX)

**Tema:** Movilidad urbana  
**Enlace:** [Viajes realizados en Ecobici (CDMX)](https://datos.cdmx.gob.mx/dataset/ecobici-viajes-realizados)

Unnamed: 0,Criterio,Evaluación,Comentario
0,Pertinencia,Alta,Datos relevantes para analizar patrones de viaje.
1,Actualización,Alta,Información disponible hasta 2023.
2,Calidad de los datos,Buena,"Incluye duración, fechas, estaciones."
3,Licencia y acceso,Pública,Acceso libre desde el gobierno de CDMX.
4,Formato y usabilidad,CSV estructurado,Compatible con herramientas de análisis.


### 🗂️ Evaluación: CO₂ emissions dataset (Our World in Data)

**Tema:** Cambio climático  
**Enlace:** [CO₂ emissions dataset (Our World in Data)](https://github.com/owid/co2-data/blob/master/owid-co2-data.csv)

Unnamed: 0,Criterio,Evaluación,Comentario
0,Pertinencia,Alta,"Datos por país, año y tipo de emisión."
1,Actualización,Alta,Última actualización en 2024.
2,Calidad de los datos,Muy buena,Incluye metadatos y fuentes documentadas.
3,Licencia y acceso,Creative Commons,Uso permitido con atribución.
4,Formato y usabilidad,CSV disponible en GitHub,Fácil de importar.


## 📝 **5. Actividad guiada**

**Instrucciones:**

1. Elige uno de los siguientes temas:
   - Educación
   - Salud
   - Transporte
   - Cambio climático

2. Busca un conjunto de datos relevante en uno de estos portales:
   - [Kaggle](https://www.kaggle.com/datasets)
   - [datos.gob.cl](https://datos.gob.cl/)
   - [Google Dataset Search](https://datasetsearch.research.google.com/)

3. Evalúa brevemente la fuente de datos usando los criterios proporcionados en 3.

4. Comparte el enlace del dataset y justifica si lo usarías en un proyecto de toma de decisiones.