# Uso de Pandas para Cargar Datos desde Diferentes Fuentes (con Comentarios)
Este notebook muestra cómo cargar datos desde CSV, Excel, JSON y SQLite usando `pandas`, e incluye comentarios explicativos línea por línea.

In [1]:
# Importamos las bibliotecas necesarias
import pandas as pd  # Librería principal para manipular datos en forma de tablas
import sqlite3  # Para trabajar con bases de datos SQLite desde Python
from io import StringIO  # Para simular archivos en memoria usando cadenas de texto

## Cargar datos desde un archivo CSV (simulado)

In [2]:
# Creamos una cadena de texto que simula el contenido de un archivo CSV
csv_data = '''nombre,edad,ciudad
Ana,23,Loja
Luis,35,Quito
Carla,29,Guayaquil'''

# Usamos StringIO para que pandas pueda leer esta cadena como si fuera un archivo
df_csv = pd.read_csv(StringIO(csv_data))  # Cargamos el contenido CSV en un DataFrame
df_csv  # Mostramos el DataFrame cargado

Unnamed: 0,nombre,edad,ciudad
0,Ana,23,Loja
1,Luis,35,Quito
2,Carla,29,Guayaquil


## Cargar datos desde un archivo Excel (.xls)

In [3]:
# Guardamos el DataFrame anterior en un archivo Excel llamado 'datos_ejemplo.xls'
#df_csv.to_excel("datos_ejemplo.xls", index=False)

# Leemos ese archivo Excel desde el disco usando pandas
#df_xls = pd.read_excel("datos_ejemplo.xls")  # Cargamos los datos en un nuevo DataFrame
#df_xls

ValueError: No engine for filetype: 'xls'

## Cargar datos desde un archivo JSON (simulado)

In [4]:
# Creamos una cadena de texto con formato JSON que contiene información de personas
json_data = '''[
  {"nombre": "Mario", "edad": 40, "ciudad": "Cuenca"},
  {"nombre": "Lucía", "edad": 28, "ciudad": "Ambato"}
]'''

# Leemos el JSON como si fuera un archivo utilizando StringIO
df_json = pd.read_json(StringIO(json_data))  # Convertimos los datos JSON en un DataFrame
df_json

Unnamed: 0,nombre,edad,ciudad
0,Mario,40,Cuenca
1,Lucía,28,Ambato


## Cargar datos desde una base de datos SQLite (en memoria)

In [5]:
# Creamos una conexión a una base de datos SQLite en memoria (no crea un archivo físico)
conn = sqlite3.connect(":memory:")

# Guardamos el DataFrame df_csv en una tabla llamada 'clientes' dentro de esta base de datos
df_csv.to_sql("clientes", conn, index=False, if_exists="replace")

# Usamos SQL para leer los datos desde la tabla
df_sql = pd.read_sql("SELECT * FROM clientes", conn)  # Ejecutamos una consulta SQL y almacenamos el resultado en un DataFrame
df_sql

Unnamed: 0,nombre,edad,ciudad
0,Ana,23,Loja
1,Luis,35,Quito
2,Carla,29,Guayaquil


## Operaciones con los datos cargados

In [6]:
# Unimos todos los DataFrames anteriores en uno solo
df_todos = pd.concat([df_csv, df_json, df_sql], ignore_index=True)

# Mostramos las primeras filas del DataFrame combinado
df_todos.head()

Unnamed: 0,nombre,edad,ciudad
0,Ana,23,Loja
1,Luis,35,Quito
2,Carla,29,Guayaquil
3,Mario,40,Cuenca
4,Lucía,28,Ambato


In [7]:
# Agrupamos los datos por la columna 'ciudad' y calculamos la edad promedio para cada grupo
df_todos.groupby("ciudad")["edad"].mean()

ciudad
Ambato       28.0
Cuenca       40.0
Guayaquil    29.0
Loja         23.0
Quito        35.0
Name: edad, dtype: float64

In [8]:
# Filtramos el DataFrame para obtener solo las personas con edad mayor a 30 años
df_todos[df_todos["edad"] > 30]

Unnamed: 0,nombre,edad,ciudad
1,Luis,35,Quito
3,Mario,40,Cuenca
6,Luis,35,Quito


In [9]:
df_todos


Unnamed: 0,nombre,edad,ciudad
0,Ana,23,Loja
1,Luis,35,Quito
2,Carla,29,Guayaquil
3,Mario,40,Cuenca
4,Lucía,28,Ambato
5,Ana,23,Loja
6,Luis,35,Quito
7,Carla,29,Guayaquil
