# Introducción a Fuentes de Datos

En el ámbito de la ciencia de datos y la analítica avanzada, el consumo y la preparación de datos representan etapas fundamentales en cualquier proyecto. Metodologías reconocidas como CRISP-DM, TDSP y KDD enfatizan que la fase inicial de cualquier proyecto de datos comienza con una comprensión clara del problema y el contexto, seguida de una recolección y exploración sistemática de la información disponible. Estas metodologías proporcionan un marco estructurado que asegura que cada paso en el proceso analítico se alinee con los objetivos del negocio o la investigación.

Por ejemplo, CRISP-DM (Cross Industry Standard Process for Data Mining) establece una primera etapa de comprensión del negocio, que da paso a la exploración y preparación de los datos como un "paso obligatorio" antes de cualquier modelado. De manera similar, TDSP (Team Data Science Process) y KDD (Knowledge Discovery in Databases) destacan la importancia de transformar los datos en formatos limpios y estructurados para maximizar su utilidad y reducir errores en etapas posteriores.

```{figure} https://learn.microsoft.com/es-es/azure/architecture/data-science-process/media/lifecycle/tdsp-lifecycle2.png
:name: tdsp-lifecycle
TDSP: Ciclo de vida del proceso de ciencia de datos.
```

```{figure} https://www.ibm.com/docs/es/SS3RA7_sub/modeler_crispdm_ddita/clementine/images/crisp_process.jpg
:name: crisp-dm-lifecycle
CRISP-DM: Ciclo de vida del proceso de minería de datos.
```
```{figure} https://saludelectronica.com/wp-content/uploads/2021/06/KDD-Salud-Electronica-1024x428.png
:name: kdd-process
KDD: Proceso de descubrimiento de conocimiento en bases de datos.
```

En este capítulo, nos enfocaremos en entender las diferentes fuentes de datos y aprenderemos a consumir y preparar información utilizando herramientas modernas como Python. Exploraremos desde la extracción de datos de APIs y bases de datos SQL hasta la manipulación de archivos planos, alineando estas técnicas con las mejores prácticas promovidas por estas metodologías.



# Tipos de Fuentes de Datos

Trabajar con datos requiere entender, conocer y estudiar las distintas fuentes de información y cómo adaptarlas a las necesidades de un proyecto. A continuación, exploramos las principales fuentes de datos utilizadas en ciencia de datos, comenzando desde las más simples hasta las más complejas: archivos planos, bases de datos SQL y APIs. Además, discutimos cómo pandas se posiciona como la herramienta central para manipular y transformar datos en Python.

```{admonition} Importancia de las fuentes de datos
Independientemente del tipo de datos, comprender su origen y estructura es importantísimo para garantizar su correcta preparación y análisis.
```

## **1. Archivos Planos**

Los archivos planos son la forma más básica y accesible de almacenar y compartir datos. Incluyen formatos como:
- **CSV (Comma-Separated Values):** Datos tabulares donde cada fila representa un registro y cada columna está separada por comas.
- **JSON (JavaScript Object Notation):** Formato estructurado basado en texto para almacenar datos jerárquicos.
- **Excel:** Hojas de cálculo ampliamente utilizadas en el ámbito empresarial.

### **Ventajas de los archivos planos**
- **Simplicidad:** Fácil de crear, compartir y visualizar.
- **Compatibilidad:** La mayoría de las herramientas de análisis soportan estos formatos.
- **Rapidez inicial:** Ideal para proyectos pequeños o prototipos.

### **Limitaciones**
- **Falta de robustez:** Dificultad para manejar grandes volúmenes de datos.
- **Estructura limitada:** No permite relaciones complejas entre datos.
- **Propenso a errores:** Formatos como CSV pueden generar problemas de codificación o separadores incorrectos.

### **Ejemplo práctico con pandas**
Pandas permite leer, transformar y analizar archivos planos de manera sencilla:


In [1]:
import pandas as pd

# Definir la ruta base
ruta_base = "../Datos/"

# Leer el archivo CSV
df_csv = pd.read_csv(f"{ruta_base}ejemplo.csv")

# Leer el archivo JSON fácil de leer
df_json_facil = pd.read_json(f"{ruta_base}ejemplo_facil.json")

# Leer el archivo JSON semiestructurado
df_json_complejo = pd.read_json(f"{ruta_base}ejemplo_complejo.json")

# Leer la hoja de Excel
df_excel = pd.read_excel(f"{ruta_base}ejemplo.xlsx")

In [2]:
print("Archivo CSV")
df_csv

Archivo CSV


Unnamed: 0,ID,Nombre,Edad,Ciudad
0,1,Juan,28,Bogotá
1,2,María,34,Medellín
2,3,Carlos,29,Cali


In [3]:
print("Archivo JSON fácil de leer")
df_json_facil

Archivo JSON fácil de leer


Unnamed: 0,ID,Nombre,Edad,Ciudad
0,1,Juan,28,Bogotá
1,2,María,34,Medellín
2,3,Carlos,29,Cali


In [4]:
print("Archivo JSON semiestructurado")
df_json_complejo

Archivo JSON semiestructurado


Unnamed: 0,Personas
0,"{'ID': 1, 'Detalles': {'Nombre': 'Juan', 'Edad..."
1,"{'ID': 2, 'Detalles': {'Nombre': 'María', 'Eda..."
2,"{'ID': 3, 'Detalles': {'Nombre': 'Carlos', 'Ed..."


In [5]:
print("Archivo Excel")
df_excel

Archivo Excel


Unnamed: 0,Producto,Cantidad,Precio
0,Manzanas,50,1.2
1,Peras,30,0.8
2,Bananas,20,0.5


## **2. Bases de Datos SQL**

Las bases de datos relacionales son ideales para almacenar grandes volúmenes de datos estructurados. Estas utilizan SQL (Structured Query Language) para definir, manipular y consultar datos. Ejemplos comunes incluyen MySQL, PostgreSQL, SQLite y Microsoft SQL Server.

### **Ventajas de las bases de datos SQL**
- **Eficiencia:** Capacidad para realizar consultas rápidas y optimizadas.
- **Estructura robusta:** Permite establecer relaciones entre tablas (normalización).
- **Escalabilidad:** Soporte para grandes volúmenes de datos.

### **Limitaciones**
- **Configuración inicial:** Requiere mayor esfuerzo para instalar y diseñar la base de datos.
- **Curva de aprendizaje:** Necesidad de aprender SQL para consultas avanzadas.
- **Dependencia del sistema:** Las bases de datos locales pueden no ser portables sin copias de respaldo.

### **Ejemplo práctico con pandas**
Pandas facilita la integración con bases de datos utilizando librerías como `sqlite3` o `SQLAlchemy`:


In [6]:
import sqlite3

# Conexión a una base de datos SQLite
conn = sqlite3.connect('../Datos/ejemplo.db')

# Ejecutar una consulta SQL y cargar los datos en un DataFrame
query = "SELECT * FROM PERSONAS"
df_sql = pd.read_sql_query(query, conn)

df_sql.head()

Unnamed: 0,ID,Nombre,Edad,Ciudad
0,1,Juan,28,Bogotá
1,2,María,34,Medellín
2,3,Carlos,29,Cali


## Algunas queries útiles en SQL
### **1. Listar todas las tablas disponibles**
Esto te permitirá conocer las tablas presentes en la base de datos:



In [7]:
import sqlite3

# Conectar a la base de datos
conn = sqlite3.connect("../Datos/ejemplo.db")
cursor = conn.cursor()

# Consultar las tablas disponibles
cursor.execute("SELECT name FROM sqlite_master WHERE type='table';")
tablas = cursor.fetchall()

print("Tablas disponibles:")
for tabla in tablas:
    print(tabla[0])

conn.close()

Tablas disponibles:
Personas
Productos
Ventas
Clientes


### **2. Obtener el esquema de una tabla**
Si deseas revisar las columnas y sus tipos de datos en una tabla específica:


In [8]:
# Conectar a la base de datos
conn = sqlite3.connect("../Datos/ejemplo.db")
cursor = conn.cursor()

# Esquema de la tabla "Personas"
cursor.execute("PRAGMA table_info('Personas');")
esquema = cursor.fetchall()

print("Esquema de la tabla 'Personas':")
for columna in esquema:
    print(f"Columna: {columna[1]}, Tipo: {columna[2]}, Permite NULL: {columna[3]}")

conn.close()

Esquema de la tabla 'Personas':
Columna: ID, Tipo: INTEGER, Permite NULL: 0
Columna: Nombre, Tipo: TEXT, Permite NULL: 1
Columna: Edad, Tipo: INTEGER, Permite NULL: 1
Columna: Ciudad, Tipo: TEXT, Permite NULL: 1


### **3. Contar registros en una tabla**
Esto es útil para ver cuántos datos hay en cada tabla:

In [9]:
# Conectar a la base de datos
conn = sqlite3.connect("../Datos/ejemplo.db")
cursor = conn.cursor()

# Contar registros en la tabla "Personas"
cursor.execute("SELECT COUNT(*) FROM Personas;")
conteo = cursor.fetchone()[0]

print(f"Registros en la tabla 'Personas': {conteo}")

conn.close()

Registros en la tabla 'Personas': 3


### **4. Mostrar las primeras filas de una tabla**
Revisar una muestra rápida de los datos en una tabla:

In [10]:
# Conectar a la base de datos
conn = sqlite3.connect("../Datos/ejemplo.db")
cursor = conn.cursor()

# Consultar las primeras 5 filas de la tabla "Personas"
cursor.execute("SELECT * FROM Personas LIMIT 5;")
filas = cursor.fetchall()

print("Primeras 5 filas de la tabla 'Personas':")
for fila in filas:
    print(fila)

conn.close()

Primeras 5 filas de la tabla 'Personas':
(1, 'Juan', 28, 'Bogotá')
(2, 'María', 34, 'Medellín')
(3, 'Carlos', 29, 'Cali')


### **5. Ver claves foráneas en una tabla**
Para inspeccionar las relaciones de una tabla con otras tablas mediante claves foráneas:

In [11]:
conn = sqlite3.connect("../Datos/ejemplo.db")
cursor = conn.cursor()

# Ver las claves foráneas de la tabla "Ventas"
cursor.execute("PRAGMA foreign_key_list('Ventas');")
foreign_keys = cursor.fetchall()

print("Claves foráneas de la tabla 'Ventas':")
for fk in foreign_keys:
    print(f"Desde {fk[3]} hacia {fk[2]}.{fk[4]}")

conn.close()

Claves foráneas de la tabla 'Ventas':
Desde ProductoID hacia Productos.ProductoID


### **6. Buscar tablas que contienen una columna específica**
Para identificar tablas que tienen una columna particular:

In [12]:
# Conectar a la base de datos
conn = sqlite3.connect("../Datos/ejemplo.db")
cursor = conn.cursor()

# Buscar tablas que tienen una columna llamada "Nombre"
cursor.execute("SELECT name, sql FROM sqlite_master WHERE sql LIKE '%Nombre%';")
resultados = cursor.fetchall()

print("Tablas que contienen la columna 'Nombre':")
for tabla, sql in resultados:
    print(f"Tabla: {tabla}\nDefinición: {sql}\n")

conn.close()

Tablas que contienen la columna 'Nombre':
Tabla: Personas
Definición: CREATE TABLE Personas (
    ID INTEGER PRIMARY KEY,
    Nombre TEXT NOT NULL,
    Edad INTEGER NOT NULL,
    Ciudad TEXT NOT NULL
)

Tabla: Productos
Definición: CREATE TABLE Productos (
    ProductoID INTEGER PRIMARY KEY,
    Nombre TEXT NOT NULL,
    Categoria TEXT NOT NULL,
    Precio REAL NOT NULL
)

Tabla: Clientes
Definición: CREATE TABLE Clientes (
    ClienteID INTEGER PRIMARY KEY,
    Nombre TEXT NOT NULL,
    Ciudad TEXT NOT NULL,
    Telefono TEXT
)



### **7. Activar claves foráneas (si no están activas)**
En SQLite, las claves foráneas no están activas por defecto. Puedes activarlas con este comando:

In [13]:
# Conectar a la base de datos
conn = sqlite3.connect("../Datos/ejemplo.db")
cursor = conn.cursor()

# Activar claves foráneas
cursor.execute("PRAGMA foreign_keys = ON;")

# Verificar si están activas
cursor.execute("PRAGMA foreign_keys;")
estado = cursor.fetchone()[0]
print(f"Claves foráneas activas: {bool(estado)}")

conn.close()

Claves foráneas activas: True




## **3. APIs**

Las APIs (Application Programming Interfaces) permiten acceder a datos en tiempo real desde servicios web o sistemas externos. Son la opción más compleja pero también la más versátil, ya que facilitan la integración entre diferentes plataformas.

### **Características principales**
- **Formatos de datos comunes:** JSON y XML.
- **Interacción mediante métodos HTTP:** `GET`, `POST`, `PUT`, `DELETE`.
- **Autenticación:** Muchas APIs requieren claves de acceso o tokens para garantizar la seguridad.

### **Ventajas de las APIs**
- **Acceso a datos dinámicos:** Información actualizada constantemente.
- **Interoperabilidad:** Conexión entre sistemas heterogéneos.
- **Escalabilidad:** Ideal para aplicaciones que necesitan consumir grandes volúmenes de datos en tiempo real.

### **Limitaciones**
- **Dependencia de la red:** Requiere conexión a Internet.
- **Complejidad adicional:** Necesidad de manejar autenticaciones, errores de red y límites de consulta.
- **Velocidad:** Puede ser más lento que trabajar con datos locales.

### **¿Cómo funciona `GET`?**
Como se comentó, una API  permite que diferentes aplicaciones se comuniquen entre sí mediante solicitudes y respuestas. Un método común es `GET`, que se utiliza para recuperar datos del servidor.

Con `GET`:
- Enviamos una solicitud a una URL.
- El servidor devuelve los datos solicitados (generalmente en formato JSON).
### **Ejemplo práctico con pandas**
Pandas puede procesar datos obtenidos de una API tras realizar la consulta con `requests`:

**API: [JSON Placeholder](https://jsonplaceholder.typicode.com/)**
Esta API gratuita proporciona datos ficticios para practicar.

In [14]:
import requests

# URL de la API
url = "https://jsonplaceholder.typicode.com/posts/1"

# Realizar la solicitud GET
response = requests.get(url)

# Verificar el estado de la respuesta
if response.status_code == 200:
    print("Datos recibidos:")
    print(response.json())
else:
    print(f"Error al realizar la solicitud: {response.status_code}")

Datos recibidos:
{'userId': 1, 'id': 1, 'title': 'sunt aut facere repellat provident occaecati excepturi optio reprehenderit', 'body': 'quia et suscipit\nsuscipit recusandae consequuntur expedita et cum\nreprehenderit molestiae ut ut quas totam\nnostrum rerum est autem sunt rem eveniet architecto'}


El API envia datos en formato JSON, que pandas puede leer y transformar en un DataFrame. A continuación, se muestra un ejemplo de cómo consumir datos de la API de JSON Placeholder:


In [15]:
### JSONPlaceholder convirtiendo contenido a DataFrame

DF=pd.DataFrame(response.json(),index=[0])
DF


Unnamed: 0,userId,id,title,body
0,1,1,sunt aut facere repellat provident occaecati e...,quia et suscipit\nsuscipit recusandae consequu...


### API: [OpenWeatherMap](https://openweathermap.org/api)
Esta API proporciona datos climáticos en tiempo real. Necesitarás una **clave API gratuita** para usarla.

In [16]:
import requests

# Configurar la URL y los parámetros
api_key = "TU_CLAVE_API_AQUI"  # Reemplaza con tu clave API
ciudad = "Bogotá"
url = f"http://api.openweathermap.org/data/2.5/weather?q={ciudad}&appid={api_key}&units=metric"

# Realizar la solicitud GET
response = requests.get(url)

# Procesar la respuesta
if response.status_code == 200:
    datos = response.json()
    print(f"Clima en {ciudad}:")
    print(f"Temperatura: {datos['main']['temp']}°C")
    print(f"Descripción: {datos['weather'][0]['description']}")
else:
    print(f"Error al obtener datos: {response.status_code}")

Error al obtener datos: 401


La respuesta 401 se da cuando la clave API no es válida. Por lo tanto hay que solicitar una clave API en la página de OpenWeatherMap y reemplazarla en el código.

```{admonition} Clave API
:class: tip
La clave API es un identificador único que te permite acceder a los servicios de una API. Es importante mantenerla segura y no compartirla públicamente.
```

### **Ejemplo Avanzado: Parámetros en la URL**

Algunas APIs requieren que enviemos parámetros en la solicitud. Aquí usamos la API de JSON Placeholder para filtrar datos.

En este caso, se envía una solicitud a la URL `https://jsonplaceholder.typicode.com/posts?userId=1` para obtener publicaciones del usuario con ID 1.

```{admonition} Parámetros en la URL
:class: tip
Los parámetros en la URL permiten filtrar, ordenar o limitar los datos devueltos por la API.
```

In [17]:
import requests

# URL de la API con parámetros
url = "https://jsonplaceholder.typicode.com/posts"
params = {"userId": 1}

# Realizar la solicitud GET con parámetros
response = requests.get(url, params=params)

# Procesar la respuesta
if response.status_code == 200:
    datos = response.json()
    print("Posts del usuario 1:")
    for post in datos:
        print(f"- {post['title']}")
else:
    print(f"Error al realizar la solicitud: {response.status_code}")

Posts del usuario 1:
- sunt aut facere repellat provident occaecati excepturi optio reprehenderit
- qui est esse
- ea molestias quasi exercitationem repellat qui ipsa sit aut
- eum et est occaecati
- nesciunt quas odio
- dolorem eum magni eos aperiam quia
- magnam facilis autem
- dolorem dolore est ipsam
- nesciunt iure omnis dolorem tempora et accusantium
- optio molestias id quia eum



### **Manejo de Errores**

Siempre debemos manejar errores para evitar que nuestro programa falle en caso de problemas con la API.

```{admonition} Códigos de Estado HTTP
:class: tip
Los códigos de estado HTTP indican si una solicitud fue exitosa o si ocurrió un error. Por ejemplo, 200 significa "OK", mientras que 404 indica "No encontrado". En general, los códigos 2xx indican éxito, 4xx errores del cliente y 5xx errores del servidor.

Una tabla completa de códigos de estado HTTP:

| Código | Descripción |
|--------|-------------|
| 200    | OK          |
| 201    | Creado      |
| 204    | Sin contenido |
| 400    | Solicitud incorrecta |
| 401    | No autorizado |
| 403    | Prohibido |
| 404    | No encontrado |
| 405    | Método no permitido |
| 429    | Demasiadas solicitudes |
| 500    | Error interno del servidor |
| 502    | Puerta de enlace incorrecta |
| 503    | Servicio no disponible |
| 504    | Tiempo de espera agotado |

Más información sobre códigos de estado HTTP [aquí](https://developer.mozilla.org/es/docs/Web/HTTP/Status).
```

In [18]:
import requests

# URL incorrecta (simulando un error)
url = "https://jsonplaceholder.typicode.com/incorrect_endpoint"

try:
    response = requests.get(url)
    response.raise_for_status()  # Genera una excepción si el estado no es 200
    print("Datos recibidos:", response.json())
except requests.exceptions.HTTPError as err:
    print(f"HTTPError: {err}")
except requests.exceptions.RequestException as err:
    print(f"Error en la solicitud: {err}")

HTTPError: 404 Client Error: Not Found for url: https://jsonplaceholder.typicode.com/incorrect_endpoint


## Ejercicio Práctico

Vamos a hacer un ejemplo práctico utilizando la plataforma **Socrata** para consumir datos abiertos de **datosabiertos.gov.co**.

---

## **Objetivo**
Usar la API de Socrata para consultar datos públicos de **datosabiertos.gov.co**, como por ejemplo el registro de accidentes de tránsito, y analizar los resultados con Python.

---

## **Requisitos Previos**
1. **Librerías necesarias:**
   - `requests`: Para realizar las solicitudes HTTP.
   - `pandas`: Para manipular los datos.
2. **App Token (opcional):** Aunque la API de Socrata permite consultas sin autenticación, es mejor registrarse y obtener un token para evitar limitaciones de uso.

   Puedes registrarte y obtener un token en [datosabiertos.gov.co](https://www.datos.gov.co).

---

## **Código Paso a Paso**

### **1. Configuración Inicial**
Definimos los detalles básicos de la API y el App Token.

In [19]:
import requests
import pandas as pd

# URL base de Socrata (dataset de lesiones personales y accidentes de tránsito en Colombia)
url = "https://www.datos.gov.co/resource/72sg-cybi.json"

# Tu App Token (opcional)
app_token = None  # Reemplazar token o dejar como None

# Configurar encabezados para la solicitud
headers = {
    "X-App-Token": app_token
} if app_token else {}

---

### **2. Solicitar Datos**
Consultamos los datos de la API usando un filtro opcional para obtener, por ejemplo, solo los accidentes registrados en el año 2022.

In [20]:
# Parámetros para filtrar los datos
params = {
    "$limit": 5000,  # Limitar a 5000 resultados (cambiar según necesidades)
    "$where": "municipio = 'BOGOTÁ D.C. (CT)'"  # Filtrar por el año 2022
}

# Realizar la solicitud GET
response = requests.get(url, headers=headers, params=params)

# Verificar el estado de la respuesta
if response.status_code == 200:
    datos = response.json()
    print("Datos recibidos exitosamente.")
else:
    print(f"Error al acceder a la API: {response.status_code}")
    datos = []

Datos recibidos exitosamente.


---
### **3. Convertir los Datos a un DataFrame**
Una vez obtenidos los datos, los transformamos en un `DataFrame` de pandas para facilitar su análisis.

In [21]:
# Convertir los datos a un DataFrame
if datos:
    df = pd.DataFrame(datos)
    print("Primeras filas del DataFrame:")
    display(df.head())
else:
    print("No se recibieron datos.")

Primeras filas del DataFrame:


Unnamed: 0,departamento,municipio,codigo_dane,armas_medios,fecha_hecho,genero,grupo_etario,descripci_n_conducta,cantidad
0,CUNDINAMARCA,BOGOTÁ D.C. (CT),11001000,ARMA BLANCA / CORTOPUNZANTE,1/01/2010,FEMENINO,ADOLESCENTES,LESIONES PERSONALES,2
1,CUNDINAMARCA,BOGOTÁ D.C. (CT),11001000,ARMA BLANCA / CORTOPUNZANTE,1/01/2010,FEMENINO,ADULTOS,LESIONES PERSONALES,4
2,CUNDINAMARCA,BOGOTÁ D.C. (CT),11001000,ARMA BLANCA / CORTOPUNZANTE,1/01/2010,MASCULINO,ADOLESCENTES,LESIONES PERSONALES,2
3,CUNDINAMARCA,BOGOTÁ D.C. (CT),11001000,ARMA BLANCA / CORTOPUNZANTE,1/01/2010,MASCULINO,ADULTOS,LESIONES PERSONALES,29
4,CUNDINAMARCA,BOGOTÁ D.C. (CT),11001000,ARMA DE FUEGO,1/01/2010,MASCULINO,ADULTOS,LESIONES PERSONALES,3


---
### **4. Ejemplo de Análisis**
Podemos realizar algunas operaciones básicas, como contar los registros por tipo de accidente o por departamento.

In [22]:
if not df.empty:
    # Verificar columnas disponibles
    print("\nColumnas disponibles:")
    display(df.columns)

    # Contar registros por tipo de accidente
    if "armas_medios" in df.columns:
        print("\nCantidad de accidentes por tipo:")
        display(df["armas_medios"].value_counts())

    # Contar registros por departamento
    if "departamento" in df.columns:
        print("\nCantidad de accidentes por departamento:")
        display(df["departamento"].value_counts())


Columnas disponibles:


Index(['departamento', 'municipio', 'codigo_dane', 'armas_medios',
       'fecha_hecho', 'genero', 'grupo_etario', 'descripci_n_conducta',
       'cantidad'],
      dtype='object')


Cantidad de accidentes por tipo:


armas_medios
CONTUNDENTES                   1769
VEHICULO                       1096
ARMA BLANCA / CORTOPUNZANTE     907
ARMA DE FUEGO                   499
MOTO                            438
PUNZANTES                       121
PERRO                            60
BICICLETA                        38
ESCOPOLAMINA                     17
GRANADA DE MANO                  11
SIN EMPLEO DE ARMAS               8
QUIMICOS                          7
GASES                             5
NO REPORTA                        4
COMBUSTIBLE                       3
VENENO                            3
AGUA CALIENTE                     3
JERINGA                           2
SUSTANCIAS TOXICAS                2
MEDICAMENTOS                      2
CARRO BOMBA                       2
PAPA EXPLOSIVA                    2
LICOR ADULTERADO                  1
Name: count, dtype: int64


Cantidad de accidentes por departamento:


departamento
CUNDINAMARCA    5000
Name: count, dtype: int64

### **Conclusión**

Trabajar con fuentes de datos diversas es una habilidad esencial en cualquier proyecto de ciencia de datos o programación avanzada. En este capítulo, hemos explorado tres tipos principales de fuentes de datos: **archivos planos**, **bases de datos SQL**, y **APIs**, destacando sus características, ventajas y cómo interactuar con ellas utilizando herramientas modernas como Python y pandas.

---

### **Lo que hemos aprendido**
1. **Archivos Planos:**
   - Son la forma más simple de almacenar y compartir datos.
   - Con pandas, es fácil leer y transformar formatos como CSV, JSON y Excel para un análisis rápido.
   - Aunque son útiles para prototipos, no son ideales para manejar grandes volúmenes de datos.

2. **Bases de Datos SQL:**
   - Ofrecen una estructura robusta para almacenar y consultar datos a gran escala.
   - Usar SQLite como ejemplo demostró cómo integrar datos relacionales con pandas para realizar análisis avanzados.
   - Las bases de datos son fundamentales para proyectos donde los datos evolucionan constantemente.

3. **APIs:**
   - Permiten acceder a datos dinámicos y en tiempo real desde servicios externos.
   - Aprendimos a realizar solicitudes `GET`, manejar parámetros, y trabajar con APIs públicas como OpenWeatherMap y Socrata.
---

### **Pandas como herramienta central**
Pandas se destacó en cada sección como una herramienta clave para:
- **Integrar fuentes de datos**: Ya sea leyendo archivos locales, conectándose a bases de datos o procesando datos JSON de una API.
- **Preparar los datos**: Limpieza, transformación y organización son pasos obligatorios para garantizar la calidad de los análisis.
- **Análisis eficiente**: Proporcionando una interfaz sencilla para explorar y obtener insights rápidamente.

---

### **Reflexión**
El consumo y la preparación de datos no son solo pasos iniciales en cualquier proyecto de datos, sino que también determinan la calidad y el éxito del análisis posterior. Las metodologías como **CRISP-DM**, **TDSP** y **KDD** nos recuerdan que un flujo de trabajo bien estructurado comienza siempre con una sólida comprensión de las fuentes de datos y sus características.

---

### **Próximos Pasos**
1. **Automatización de Procesos:**
   - Crear pipelines de datos que integren múltiples fuentes.
   - Incorporar autenticación segura para APIs más avanzadas.
2. **Escalabilidad:**
   - Migrar de archivos planos a bases de datos más robustas como PostgreSQL o MySQL para proyectos más grandes.
3. **Visualización:**
   - Traducir los datos preparados en gráficos interactivos usando herramientas como Matplotlib, Seaborn o Streamlit.
4. **MLOps:**
   - Preparar los datos para flujos de machine learning aplicando las mejores prácticas en limpieza y estructuración.

---

Este capítulo ha sentado las bases para manejar datos de diversas fuentes, integrarlos de manera eficiente y prepararlos para análisis más complejos. Desde aquí, el camino se amplía hacia proyectos más desafiantes que requieran escalabilidad, interacción dinámica y aplicaciones prácticas. ¡Vamos a seguir construyendo soluciones basadas en datos! 🎯