# **Identificaci√≥n de Fuentes de Datos Relevantes**

En esta sesi√≥n exploraremos diferentes fuentes de datos que pueden ser utilizadas para la toma de decisiones basada en evidencia. Veremos fuentes p√∫blicas, abiertas y privadas, y aprenderemos a evaluar su relevancia con base en criterios como cobertura, calidad, frecuencia de actualizaci√≥n y confiabilidad.

In [13]:
#Importar librer√≠as
import pandas as pd
from IPython.display import display, Markdown

## üîç **1. Tipos de fuentes de datos**
<br> La elecci√≥n de una fuente de datos adecuada depende del problema de an√°lisis, el tipo de decisi√≥n que se desea respaldar (operativa, t√°ctica o estrat√©gica) y la disponibilidad de la informaci√≥n. A continuaci√≥n se describen las principales categor√≠as:

### 1.1. Fuentes de datos abiertos (Open Data)
Proporcionadas generalmente por gobiernos, organismos multilaterales, instituciones acad√©micas o iniciativas c√≠vicas. Son gratuitas, accesibles p√∫blicamente y suelen estar en formatos estructurados como CSV, JSON o Excel.

**Caracter√≠sticas:**
- Acceso libre sin registro o con registro b√°sico.
- Frecuencia de actualizaci√≥n variable.
- Datos anonimizados y con licencias abiertas.

### 1.2. APIs p√∫blicas y privadas
Permiten acceder a datos en tiempo real o hist√≥rico mediante programaci√≥n, utilizando protocolos como REST o GraphQL. Son ideales para aplicaciones interactivas, automatizaci√≥n y an√°lisis de grandes vol√∫menes de datos.

**Caracter√≠sticas:**
- Requiere conocimientos t√©cnicos y manejo de librer√≠as (e.g., requests, json en Python).
- Algunas requieren autenticaci√≥n mediante token.
- Pueden tener l√≠mites de uso por d√≠a.

### 1.3. Bases de datos estructuradas
Conjuntos de datos almacenados en sistemas relacionales (SQL) o no relacionales (NoSQL), utilizados internamente por empresas o compartidos como parte de alianzas institucionales.

**Caracter√≠sticas:**
- Altamente estructuradas (tablas, campos, relaciones).
- Requieren acceso autorizado.
- Pueden estar en la nube o en servidores locales.

### 1.4. Repositorios acad√©micos y cient√≠ficos
Alojan datos generados por investigaciones. Son √∫tiles para validar hip√≥tesis, crear modelos y realizar an√°lisis comparativos.

**Caracter√≠sticas:**
- Acceso libre o bajo condiciones acad√©micas.
- Documentaci√≥n t√©cnica completa (metadatos, metodolog√≠a, DOI).
- Licencias de uso definidas (Creative Commons, etc.).

### 1.5. Plataformas colaborativas de ciencia de datos
Son comunidades donde los usuarios comparten datasets curados para fines educativos o experimentales.

**Caracter√≠sticas:**
- Enfocadas en proyectos de machine learning y visualizaci√≥n.
- Datasets clasificados por complejidad y uso.
- Posibilidad de ejecuci√≥n de notebooks en l√≠nea (e.g., Kaggle Kernels).

### 1.6. Datos no estructurados (texto, im√°genes, audio, video)
Informaci√≥n que no sigue un formato tabular. Su procesamiento requiere t√©cnicas de miner√≠a de texto, procesamiento de lenguaje natural (NLP), visi√≥n computacional, etc.

**Caracter√≠sticas:**
- No organizados en filas y columnas.
- Dif√≠ciles de almacenar y analizar sin preprocesamiento.
- √ötiles para an√°lisis cualitativo o detecci√≥n de patrones complejos.

## üåê **2. Ejemplos de fuentes abiertas de datos**

üåê [Google Dataset Search](https://datasetsearch.research.google.com/)
<br>Buscador de datasets disponible en la web. Puedes buscar por tema, formato, autor, etc. Muy √∫til para encontrar fuentes acad√©micas, gubernamentales y de investigaci√≥n.

<br> üèõÔ∏è Datos Abiertos del Gobierno
- **Colombia:** [datos.gov.co](https://www.datos.gov.co/). Portal oficial de datos abiertos del gobierno colombiano. Contiene conjuntos de datos de salud, transporte, educaci√≥n, medio ambiente y m√°s, con opciones de descarga directa en varios formatos.
- **Chile:** [datos.gob.cl](https://datos.gob.cl/). Portal oficial de datos abiertos del gobierno de Chile. Ofrece acceso a conjuntos de datos en √°reas como salud, educaci√≥n, transporte, medio ambiente y econom√≠a, publicados por distintos organismos p√∫blicos. Los datos est√°n disponibles en formatos abiertos como CSV, JSON y Excel, y muchos se pueden consultar mediante API.

<br> üìä [Kaggle Datasets](https://www.kaggle.com/datasets)
<br> Repositorio con miles de datasets organizados por categor√≠a. Ideal para proyectos de machine learning, ciencia de datos y visualizaci√≥n. Requiere cuenta gratuita.

<br> üåé [World Bank Open Data](https://data.worldbank.org/)
<br> Conjuntos de datos econ√≥micos, sociales y ambientales de casi todos los pa√≠ses del mundo. √ötil para an√°lisis comparativos y decisiones en pol√≠ticas p√∫blicas.

<br> üåê [Our World in Data](https://ourworldindata.org/)
<br> Publica datos sobre salud, energ√≠a, medio ambiente, pobreza y m√°s. Los datasets est√°n disponibles para descarga en CSV y se actualizan frecuentemente.

<br> üå°Ô∏è [OpenWeatherMap API](https://openweathermap.org/api)
<br> Ofrece datos meteorol√≥gicos actuales e hist√≥ricos mediante API. Ideal para proyectos que analizan el impacto del clima en la toma de decisiones. Requiere registro gratuito.

<br> üß¨ [UCI Machine Learning Repository](https://archive.ics.uci.edu/)
<br> Base de datos cl√°sica de conjuntos de datos para machine learning. Muy √∫til para pr√°cticas de clasificaci√≥n, regresi√≥n, clustering y reducci√≥n de dimensionalidad.

<br> üìö [Harvard Dataverse](https://dataverse.harvard.edu/)
<br> Repositorio de datos acad√©micos multidisciplinarios. Permite explorar datasets generados en investigaciones cient√≠ficas, con citas y licencias claras.

<br> üö¶ [European Data Portal](https://data.europa.eu/en)
<br> Acceso a datasets p√∫blicos de los pa√≠ses miembros de la Uni√≥n Europea, en temas como movilidad, econom√≠a, salud, agricultura y m√°s.

## **3. üìã Evaluaci√≥n de la relevancia de una fuente**

Criterios para evaluar si un conjunto de datos es √∫til:
- Cobertura tem√°tica: ¬øResponde a la pregunta o necesidad del an√°lisis?
- Actualizaci√≥n: ¬øCada cu√°nto se actualiza la fuente? ¬øEst√° vigente?
- Calidad de los datos: ¬øTiene valores faltantes? ¬øFormato consistente?
- Licencia de uso: ¬øSe puede utilizar libremente con fines acad√©micos o comerciales?
- Formato de acceso: ¬øEst√° disponible en CSV, JSON, API, etc.?

### **3.1. Pertinencia**
Eval√∫a si el contenido del dataset est√° alineado con el problema o decisi√≥n que est√°s abordando.

*Preguntas gu√≠a:*
- ¬øLos datos responden directamente a la pregunta de investigaci√≥n o necesidad de an√°lisis?
- ¬øIncluyen las variables relevantes?
- ¬øLa cobertura geogr√°fica, temporal o tem√°tica es la adecuada?

*Evaluaci√≥n ejemplo:*
- Alta: Los datos est√°n directamente relacionados con el problema.
- Media: La relaci√≥n es parcial; faltan variables o el contexto es limitado.
- Baja: El dataset no aborda el problema planteado o es demasiado general.

### **3.2. Formato y usabilidad**
Eval√∫a si el formato facilita su integraci√≥n con herramientas anal√≠ticas.

*Preguntas gu√≠a:*
- ¬øEst√° en formato estructurado (CSV, JSON, Excel)?
- ¬øPuedes cargarlo f√°cilmente en Python, R, Excel, etc.?
- ¬øLa estructura es clara (columnas, registros, metadatos)?

*Evaluaci√≥n ejemplo:*
- Alta: CSV, JSON, o Excel bien estructurado y documentado.
- Media: Requiere preprocesamiento pero es usable.
- Baja: Formato complejo, no descargable, o dif√≠cil de leer.

### **3.3. Actualizaci√≥n**
Considera qu√© tan reciente y frecuente es la actualizaci√≥n de los datos.

*Preguntas gu√≠a:*
- ¬øCu√°ndo fue la √∫ltima vez que se actualiz√≥?
- ¬øEs suficiente para el tipo de an√°lisis (tiempo real, anual, hist√≥rico)?
- ¬øSe indica con claridad la fecha de los registros?

*Evaluaci√≥n ejemplo:*
- Alta: Actualizado recientemente (mes o a√±o vigente).
- Media: Actualizado en los √∫ltimos 1‚Äì3 a√±os.
- Baja: Muy antiguo, sin indicios de mantenimiento o actualizaci√≥n.

### **3.4. Calidad de los datos**
Valora la completitud, consistencia, precisi√≥n y formato interno de los datos.

*Preguntas gu√≠a:*
- ¬øHay valores faltantes, duplicados o inconsistentes?
- ¬øLas variables est√°n claramente definidas y con unidades?
- ¬øLos datos est√°n bien estructurados y sin errores evidentes?

*Evaluaci√≥n ejemplo:*
- Alta: Datos limpios, bien documentados, sin valores nulos o inconsistencias.
- Media: Algunos problemas menores (nulos, errores de codificaci√≥n).
- Baja: Problemas severos de limpieza o estructura que dificultan su uso.


### **3.5. Licencia y acceso**
Examina si puedes usar los datos legalmente y con facilidad.

*Preguntas gu√≠a:*
- ¬øLa fuente indica licencia (CC-BY, Open Data, etc.)?
- ¬øSe puede acceder sin registrarse o con una API gratuita?
- ¬øTiene restricciones de uso comercial o acad√©mico?

*Evaluaci√≥n ejemplo:*
- Alta: Licencia abierta clara, acceso libre.
- Media: Licencia no especificada o acceso limitado (requiere registro).
- Baja: No tiene licencia clara o el uso es restringido.

## üìì **4. Ejemplos: Evaluaci√≥n de la Relevancia de Fuentes de Datos**

In [30]:
#Criterios
criterios = [
    "Pertinencia",
    "Actualizaci√≥n",
    "Calidad de los datos",
    "Licencia y acceso",
    "Formato y usabilidad"
]
# Funci√≥n para mostrar criterios y registrar evaluaciones separadas
def evaluar_fuente(nombre_fuente, enlace, tema, evaluaciones):
    if len(evaluaciones) != len(criterios):
        raise ValueError("La cantidad de evaluaciones no coincide con los criterios.")
    
    niveles = []
    comentarios = []

    for e in evaluaciones:
        partes = e.split(". ", 1)  # Separar solo en el primer punto seguido de espacio
        nivel = partes[0]
        comentario = partes[1] if len(partes) > 1 else ""
        niveles.append(nivel)
        comentarios.append(comentario)

    df = pd.DataFrame({
        "Criterio": criterios,
        "Evaluaci√≥n": niveles,
        "Comentario": comentarios
    })

    display(Markdown(f"### üóÇÔ∏è Evaluaci√≥n: {nombre_fuente}"))
    display(Markdown(f"**Tema:** {tema}  \n**Enlace:** [{nombre_fuente}]({enlace})"))
    display(df)

In [29]:
### üß™ Ejemplo 1: COVID-19 en Colombia
evaluar_fuente(
    nombre_fuente="Casos confirmados de COVID-19 en Colombia",
    enlace="https://www.datos.gov.co/Salud-y-Protecci-n-Social/Casos-positivos-de-COVID-19-en-Colombia/gt2j-8ykr",
    tema="Salud p√∫blica",
    evaluaciones=[
        "Alta. Informaci√≥n detallada por municipio, fecha y edad.",
        "Moderada. √öltima actualizaci√≥n disponible es de 2022.",
        "Buena. Datos limpios y categorizados.",
        "Libre. Licencia abierta y sin restricciones.",
        "CSV descargable. F√°cil uso en Python o Excel."
    ]
)

### üß™ Ejemplo 2: Viajes en Ecobici - CDMX
evaluar_fuente(
    nombre_fuente="Viajes realizados en Ecobici (CDMX)",
    enlace="https://datos.cdmx.gob.mx/dataset/ecobici-viajes-realizados",
    tema="Movilidad urbana",
    evaluaciones=[
        "Alta. Datos relevantes para analizar patrones de viaje.",
        "Alta. Informaci√≥n disponible hasta 2023.",
        "Buena. Incluye duraci√≥n, fechas, estaciones.",
        "P√∫blica. Acceso libre desde el gobierno de CDMX.",
        "CSV estructurado. Compatible con herramientas de an√°lisis."
    ]
)

### üß™ Ejemplo 3: Emisiones de CO‚ÇÇ - Our World in Data
evaluar_fuente(
    nombre_fuente="CO‚ÇÇ emissions dataset (Our World in Data)",
    enlace="https://github.com/owid/co2-data/blob/master/owid-co2-data.csv",
    tema="Cambio clim√°tico",
    evaluaciones=[
        "Alta. Datos por pa√≠s, a√±o y tipo de emisi√≥n.",
        "Alta. √öltima actualizaci√≥n en 2024.",
        "Muy buena. Incluye metadatos y fuentes documentadas.",
        "Creative Commons. Uso permitido con atribuci√≥n.",
        "CSV disponible en GitHub. F√°cil de importar."
    ]
)


### üóÇÔ∏è Evaluaci√≥n: Casos confirmados de COVID-19 en Colombia

**Tema:** Salud p√∫blica  
**Enlace:** [Casos confirmados de COVID-19 en Colombia](https://www.datos.gov.co/Salud-y-Protecci-n-Social/Casos-positivos-de-COVID-19-en-Colombia/gt2j-8ykr)

Unnamed: 0,Criterio,Evaluaci√≥n,Comentario
0,Pertinencia,Alta,"Informaci√≥n detallada por municipio, fecha y e..."
1,Actualizaci√≥n,Moderada,√öltima actualizaci√≥n disponible es de 2022.
2,Calidad de los datos,Buena,Datos limpios y categorizados.
3,Licencia y acceso,Libre,Licencia abierta y sin restricciones.
4,Formato y usabilidad,CSV descargable,F√°cil uso en Python o Excel.


### üóÇÔ∏è Evaluaci√≥n: Viajes realizados en Ecobici (CDMX)

**Tema:** Movilidad urbana  
**Enlace:** [Viajes realizados en Ecobici (CDMX)](https://datos.cdmx.gob.mx/dataset/ecobici-viajes-realizados)

Unnamed: 0,Criterio,Evaluaci√≥n,Comentario
0,Pertinencia,Alta,Datos relevantes para analizar patrones de viaje.
1,Actualizaci√≥n,Alta,Informaci√≥n disponible hasta 2023.
2,Calidad de los datos,Buena,"Incluye duraci√≥n, fechas, estaciones."
3,Licencia y acceso,P√∫blica,Acceso libre desde el gobierno de CDMX.
4,Formato y usabilidad,CSV estructurado,Compatible con herramientas de an√°lisis.


### üóÇÔ∏è Evaluaci√≥n: CO‚ÇÇ emissions dataset (Our World in Data)

**Tema:** Cambio clim√°tico  
**Enlace:** [CO‚ÇÇ emissions dataset (Our World in Data)](https://github.com/owid/co2-data/blob/master/owid-co2-data.csv)

Unnamed: 0,Criterio,Evaluaci√≥n,Comentario
0,Pertinencia,Alta,"Datos por pa√≠s, a√±o y tipo de emisi√≥n."
1,Actualizaci√≥n,Alta,√öltima actualizaci√≥n en 2024.
2,Calidad de los datos,Muy buena,Incluye metadatos y fuentes documentadas.
3,Licencia y acceso,Creative Commons,Uso permitido con atribuci√≥n.
4,Formato y usabilidad,CSV disponible en GitHub,F√°cil de importar.


## üìù **5. Actividad guiada**

**Instrucciones:**

1. Elige uno de los siguientes temas:
   - Educaci√≥n
   - Salud
   - Transporte
   - Cambio clim√°tico

2. Busca un conjunto de datos relevante en uno de estos portales:
   - [Kaggle](https://www.kaggle.com/datasets)
   - [datos.gob.cl](https://datos.gob.cl/)
   - [Google Dataset Search](https://datasetsearch.research.google.com/)

3. Eval√∫a brevemente la fuente de datos usando los criterios proporcionados en 3.

4. Comparte el enlace del dataset y justifica si lo usar√≠as en un proyecto de toma de decisiones.