# Entrada, Salida y Manejo de Archivos

**Curso:** Fundamentos de Programación y Analítica de Datos con Python  
**Duración estimada del bloque:** 2 horas

## Objetivos específicos
- Implementar programas que capturen y validen entradas desde consola utilizando `input` y presenten resultados claros con `print`.
- Persistir información en el sistema de archivos mediante `open`, modos de apertura y context managers (`with`).
- Leer, escribir y procesar contenidos de archivos de texto de forma segura y eficiente.
- Aplicar manejo de errores con `try`/`except`/`finally` para prevenir fallos y mejorar la robustez del programa.

## Prerrequisitos
- Sintaxis básica de Python (variables, tipos primitivos, operadores, control de flujo).
- Ejecución de scripts en VSCode o terminal.


## Tema 1: Entrada/Salida estándar (input, print)

### Definición
La entrada/salida estándar en Python se realiza principalmente con `input()` para capturar datos desde el teclado y `print()` para mostrar información al usuario. `input()` siempre devuelve una cadena; por lo tanto, cuando se requieren números u otros tipos, se debe convertir explícitamente (por ejemplo, con `int()`, `float()` o `bool()` mediante lógica apropiada).

### Importancia en programación y analítica de datos
- Permite construir herramientas interactivas para recopilar parámetros (rutas de archivo, umbrales, nombres de columnas, etc.).
- Facilita la depuración y trazabilidad al informar al usuario qué hace el programa y con qué datos opera.
- En entornos de analítica, la capacidad de **validar** entradas y **formatear** salidas mejora la reproducibilidad y minimiza errores humanos.


### Buenas prácticas profesionales y errores comunes
- **Validar** y **sanitizar** entradas: convertir tipos y verificar rangos/formatos antes de usarlos.
- Usar mensajes de `input()` **informativos** y `print()` **claros** (evitar ambigüedad).
- Evitar depender en exceso de `input()` en scripts que luego se orquestarán automáticamente; preferir argumentos de línea de comandos cuando corra en pipelines.
- **Errores comunes**: no convertir el tipo de `input()` (ej. sumar cadenas en lugar de números), no manejar entradas vacías o valores fuera de rango.


In [12]:

# TODO: Ejemplo captura, validación y formateo de salida

def solicitar_numero(mensaje: str) -> int:
  """Solicita un entrada numérica al usuario, validando la entrada."""
  while True:
    dato: str = input(mensaje).strip()
    if dato == "":
      print("No se ha introducido ningún valor. Inténtelo de nuevo.")
      continue

    if not dato.isdigit():
      raise ValueError(f"'{dato}' no es un número entero válido. Inténtelo de nuevo.")

    return int(dato)

try:
  edad = solicitar_numero("Por favor, introduzca su edad: ")
  print(f"Usted tiene {edad} años.")
except ValueError as e:
  print("Error: ",e)



Error:  'a' no es un número entero válido. Inténtelo de nuevo.


## Tema 2: Manejo de archivos

### Definición
El manejo de archivos en Python se realiza con la función `open(ruta, modo, encoding)`. Los modos más comunes son:
- `"r"`: leer (falla si el archivo no existe).
- `"w"`: escribir (crea o **sobrescribe** el archivo).
- `"a"`: anexar al final.
- `"r+"`: leer y escribir.
Se recomienda abrir archivos con **context managers** (`with`) para asegurar el cierre automático, incluso ante excepciones. Para texto, especifique `encoding="utf-8"` para evitar problemas de codificación.
 
### Importancia en programación y analítica de datos
- Permite **persistir** resultados, logs y configuraciones.
- Es fundamental para ingestión y preprocesamiento de datasets (CSV, JSON, TXT).
- Asegura reproducibilidad mediante el registro de parámetros y salidas intermedias de un pipeline.


### Buenas prácticas profesionales y errores comunes
- Utilizar `with open(..., encoding="utf-8") as f:` para cierre automático y codificación explícita.
- Diferenciar lectura completa (`read()`), por líneas (`readline()`, `readlines()`), o iterando el archivo línea a línea (eficiente para archivos grandes).
- Manejar rutas con `pathlib.Path` en lugar de concatenar cadenas.
- **Errores comunes**: olvidar el `encoding`, usar `"w"` y sobrescribir accidentalmente datos, no cerrar archivos, leer archivos completos en memoria cuando son muy grandes.


In [31]:

# TODO: Ejemplo escritura, lectura y procesamiento línea a línea

from pathlib import Path

ruta = Path("archivo.txt")

# Escritura de un archivo ( Si existe, se sobreescribe )
with ruta.open(mode="w", encoding="utf-8") as archivo:
  archivo.write("Autor: DIAN.\n")
  archivo.write("Python facilita la escritura de archivos.\n")
  archivo.write("Cada línea termina con un salto de línea\n")
  archivo.write("Deberían usar encoding=utf-8 para caracteres especiales: áéíóú ñ.\n")
  archivo.write("¡Y también emojis! 😎🚀\n")

# Lectura Completa
with ruta.open(mode="r", encoding="utf-8") as archivo:
  contenido = archivo.read()

print("-- Contenido completo del archivo:")
print(contenido)
print("-- Final del Archivo\n")

# Lectura Línea a Línea ( Improve the Memory Performance)
print("\n-- Contenido línea a línea:")
with ruta.open(mode="r", encoding="utf-8") as archivo:
  for i, linea in enumerate(archivo, start=1):
    print(f"Línea {i}: {linea.strip()}")

# Anexa con contenido al final del archivo
with ruta.open(mode="a", encoding="utf-8") as archivo:
  archivo.write("Esta línea se añadirá al final del archivo.\n")
print("\n\n-- Verificación de la línea añadida: ")
print(ruta.read_text(encoding="utf-8"))

-- Contenido completo del archivo:
Autor: DIAN.
Python facilita la escritura de archivos.
Cada línea termina con un salto de línea
Deberían usar encoding=utf-8 para caracteres especiales: áéíóú ñ.
¡Y también emojis! 😎🚀

-- Final del Archivo


-- Contenido línea a línea:
Línea 1: Autor: DIAN.
Línea 2: Python facilita la escritura de archivos.
Línea 3: Cada línea termina con un salto de línea
Línea 4: Deberían usar encoding=utf-8 para caracteres especiales: áéíóú ñ.
Línea 5: ¡Y también emojis! 😎🚀


-- Verificación de la línea añadida: 
Autor: DIAN.
Python facilita la escritura de archivos.
Cada línea termina con un salto de línea
Deberían usar encoding=utf-8 para caracteres especiales: áéíóú ñ.
¡Y también emojis! 😎🚀
Esta línea se añadirá al final del archivo.



# Tema 2.1: Lectura/Escritura y **Metadatos** de Archivos

## Objetivos
- Leer y escribir archivos de texto y binarios de forma segura.
- Consultar y modificar metadatos básicos (tamaño, fechas, permisos) con `pathlib` y `os`.
- Manipular **metadatos de contenido** específicos (p. ej., EXIF en imágenes) con librerías de alto nivel.

## Importancia
El manejo de metadatos permite auditar datos (cuándo y quién los creó/modificó), implementar políticas de retención, controlar accesos y automatizar pipelines que reaccionan ante cambios en archivos.

### Buenas Prácticas y Errores Comunes
- Abrir archivos con **encoding explícito** (`'utf-8'`) y manejar `newline` si procede.
- Usar `pathlib.Path` por legibilidad y testabilidad.
- Evitar asumir que `st_ctime` es siempre "creación" (en UNIX puede ser "status change").
- No confiar en EXIF para auditoría de seguridad: puede faltar o ser manipulado.
- Documentar convenciones de permisos y propietarios en despliegues (Linux vs Windows).

### Mini‑Reto
1. Crear un script que liste recursivamente un directorio, imprima tamaño total, archivos por extensión y los 5 archivos más recientes.
2. Generar un CSV con el inventario (ruta, tamaño, mtime) para auditar cambios.

In [42]:

# TODO: Ejemplo con Metadatos
from pathlib import Path
import os, stat, time
from datetime import datetime

ruta = Path("archivo.txt")

# Escritura de un archivo ( Si existe, se sobreescribe )
# with ruta.open(mode="w", encoding="utf-8") as archivo:
#   archivo.write("Autor: DIAN.\n")
#   archivo.write("Python facilita la escritura de archivos.\n")
#   archivo.write("Cada línea termina con un salto de línea\n")
#   archivo.write("Deberían usar encoding=utf-8 para caracteres especiales: áéíóú ñ.\n")
#   archivo.write("¡Y también emojis! 😎🚀\n")

stats = ruta.stat()
print("\nMetadatos del archivo 'archivo.txt':")
print(f" Tamaño: {stats.st_size} bytes")
print(f" Última modificación: {datetime.fromtimestamp(stats.st_mtime)}")
print(f" Último acceso: {datetime.fromtimestamp(stats.st_atime)}")
print(f" Creación: {datetime.fromtimestamp(stats.st_ctime)}")
print(f" Propietario: {os.getuid()}")
print(f" Grupo: {os.getgid()}")

# Permisos
permisos = stat.filemode(stats.st_mode)
print(f" Permisos: {permisos}")

archivo_bin = Path("archivo.bin")
datos = bytes(range(0, 16))
archivo_bin.write_bytes(datos)
print(f"\nArchivo binario '{archivo_bin}' creado con {len(datos)} bytes.")




Metadatos del archivo 'archivo.txt':
 Tamaño: 230 bytes
 Última modificación: 2025-09-25 08:35:59.249024
 Último acceso: 2025-09-25 08:36:00.757415
 Creación: 2025-09-25 08:35:59.249024
 Propietario: 502
 Grupo: 20
 Permisos: -rw-r--r--

Archivo binario 'archivo.bin' creado con 16 bytes.


# Tema: Lectura/Escritura y **Manejo de CSVs**

## Objetivos
- Leer y escribir CSVs con el módulo estándar `csv` y con `pandas`.
- Controlar **encoding**, **delimitadores**, **quoting**, **líneas en blanco** y **saltos de línea**.
- Cargar datasets grandes de forma incremental (chunks) y validar esquemas básicos.

## ¿Cuándo usar cada enfoque?
- **`csv` (módulo estándar):** archivos pequeños/medianos, control fino del formato, dependencia mínima.
- **`pandas`:** análisis tabular, conversión de tipos, fechas, filtros, agregaciones y exportación rápida.

### Validación básica de esquema
- Verificar columnas esperadas y tipos mínimos (`dtype`).
- Detectar valores faltantes obligatorios y duplicados de llave.

### Manejo de problemas comunes
- **Encoding:** si hay caracteres extraños, probar `encoding='utf-8'` o `'latin-1'`/`'cp1252'`.
- **Delimitador:** usar `sep=';'` si viene con punto y coma.
- **Celdas con comas o comillas:** controlar con `quotechar='"'` y `quoting` adecuado.
- **Fechas:** `parse_dates`, o `pd.to_datetime` con `format` específico.
- **Nulos:** pasar `na_values=['NA','N/A','-']` y `keep_default_na=True`.
- **Rendimiento:** especificar `dtype`, usar `usecols`, y `chunksize`.

In [43]:

# TODO: Ejemplo con CSV
import csv
from pathlib import Path

csv_path = Path("datos.csv")

rows = [
  {"fecha": "2025-08-01", "producto": "Manzana", "precio": 0.5, "cantidad": 10},
  {"fecha": "2025-08-02", "producto": "Banano", "precio": 0.3, "cantidad": 5},
  {"fecha": "2025-08-03", "producto": "Naranja", "precio": 0.7, "cantidad": 8}
]

# Escritura CSV
with csv_path.open(mode="w", encoding="utf-8", newline='') as csvfile:
  fieldnames = ["fecha", "producto", "precio", "cantidad"]
  writer = csv.DictWriter(csvfile, fieldnames=fieldnames)

  writer.writeheader()
  for row in rows:
    writer.writerow(row)

# Lectura CSV
print("\nContenido del archivo CSV:")
with csv_path.open(mode="r", encoding="utf-8") as csvfile:
  reader = csv.DictReader(csvfile)
  for row in reader:
    print(row)



Contenido del archivo CSV:
{'fecha': '2025-08-01', 'producto': 'Manzana', 'precio': '0.5', 'cantidad': '10'}
{'fecha': '2025-08-02', 'producto': 'Banano', 'precio': '0.3', 'cantidad': '5'}
{'fecha': '2025-08-03', 'producto': 'Naranja', 'precio': '0.7', 'cantidad': '8'}


## Tema 3: Manejo de errores con excepciones (aplicado a E/S)

### Definición
El manejo de excepciones utiliza `try`/`except`/`else`/`finally` para capturar y gestionar condiciones anómalas en tiempo de ejecución sin finalizar abruptamente el programa. `except` puede capturar excepciones específicas (p. ej., `FileNotFoundError`, `PermissionError`) o genéricas (no recomendado en producción).

### Importancia en programación y analítica de datos
- Incrementa la **robustez** de scripts que interactúan con archivos y usuarios.
- Permite **degradación controlada** (ej., crear un archivo si no existe, pedir reintentos, registrar el error y continuar).
- En pipelines de datos, evita que un error puntual inutilice todo el proceso y facilita el **logging** significativo.


### Buenas prácticas profesionales y errores comunes
- Capturar **excepciones específicas** primero y proporcionar mensajes de diagnóstico claros.
- Usar `else` para el flujo cuando no hay excepción y `finally` para liberar recursos.
- Registrar errores (`logging`) en lugar de solo imprimirlos, especialmente en scripts de producción.
- **Errores comunes**: capturar todo con `except Exception:` sin diferenciar casos, silenciar errores sin informar, no reintentar cuando es razonable hacerlo.


In [45]:

# TODO: Ejemplo lectura robusta con manejo de errores y valores por defecto
from pathlib import Path

def leer_o_crear(ruta: Path, contenido_por_defecto: str = "Contenido por defecto") -> str:
  """Lee el contenido de un archivo, o lo crea con un contenido por defecto si no existe."""
  try:
    return ruta.read_text(encoding='utf-8')
  except FileNotFoundError:
    # Si no existe, se crea con el contenido por defecto.
    print(f"El archivo {ruta} no existe. Por lo que, será creado con contenido por defecto.")
    ruta.write_text(contenido_por_defecto, encoding='utf-8')
    return contenido_por_defecto
  except PermissionError:
    print(f"No se tienen permisos para leer el archivo: {ruta}.")
    return ""
  except OSError as e:
    print(f"Error de E/S al acceder al recurso: {ruta}: {e}")
    return ""
  finally:
    # Aquí podríamos cerrar recursos si fuera necesario.
    pass

texto = leer_o_crear(Path("posibles_datos.txt"))
print("\nContenido del archivo (o creado):", texto)


Contenido del archivo (o creado): Curso de Python para la DIAN



# Ejercicios integradores

A continuación se presentan ejercicios que integran **entrada/salida estándar**, **manejo de archivos** y **manejo de excepciones**. Cada ejercicio incluye contexto, datos/entradas, requerimientos, criterios de aceptación y pistas. Se incluye una celda de **solución** por cada ejercicio.


## Ejercicio 1: Registro de usuarios simple

**Contexto técnico:** Eres responsable de un script que recolecta datos básicos de usuarios para un prototipo interno. El objetivo es persistir nombre y edad en un archivo para su posterior análisis. Se prioriza la validación de entradas para minimizar datos inválidos.

**Datos/entradas:** El usuario ingresará `nombre` (texto) y `edad` (entero). El archivo de destino será `usuarios.txt` en el directorio actual.

**Requerimientos:**
1. Solicita el `nombre` y la `edad` usando `input()` y valida que `edad` sea entero positivo.
2. Escribe una línea por usuario con el formato: `nombre,edad` en `usuarios.txt` (modo anexar).
3. Tras registrar, muestra en consola el **total** de usuarios registrados (contando las líneas del archivo).

**Criterios de aceptación:**
- Si `edad` no es entero o es ≤ 0, volver a solicitar el dato.
- El archivo `usuarios.txt` se crea si no existe.
- La salida final muestra el total de líneas registradas.

**Pistas:**
- Utiliza `with open(..., "a", encoding="utf-8")` para anexar.
- Para contar líneas, itera el archivo en modo lectura o usa `read().splitlines()`.


In [None]:

# TODO: Solución ejercicio 1

## Ejercicio 2: Promedios desde archivo con tolerancia a errores

**Contexto técnico:** Debes procesar un archivo `notas.txt` con calificaciones (una por línea). Algunas líneas pueden contener valores inválidos por errores de captura. Se espera un cálculo robusto del promedio.

**Datos/entradas:** Archivo `notas.txt` con valores numéricos (float) línea a línea. Puede contener líneas vacías o no numéricas.

**Requerimientos:**
1. Lee el archivo de forma segura. Si no existe, informa y crea uno de ejemplo con 5 valores.
2. Ignora líneas no numéricas o vacías, pero **registra cuántas** fueron descartadas.
3. Calcula y muestra el promedio con tres decimales y el conteo de válidos/descartados.

**Criterios de aceptación:**
- Si no hay valores válidos, informar claramente y no intentar dividir por cero.
- La creación del archivo de ejemplo debe usar `encoding="utf-8"`.
- Mensajes claros para el usuario.

**Pistas:**
- Usa `try/except` alrededor de la conversión a `float`.
- `Path.exists()` y `Path.write_text()` pueden ser útiles.


In [None]:

# TODO: Solución ejercicio 2

## Ejercicio 3: Reporte de conteo de palabras

**Contexto técnico:** Un equipo solicita una pequeña función utilitaria que, dado un archivo de texto, produzca un reporte con el conteo de palabras y de líneas, útil para análisis rápidos de logs o notas.

**Datos/entradas:** Ruta de un archivo de texto solicitada por `input()`.

**Requerimientos:**
1. Solicitar la ruta del archivo y validar su existencia.
2. Mostrar: número de líneas, número total de palabras, y las 5 palabras más frecuentes (ignorando mayúsculas/minúsculas y signos de puntuación simples).
3. Si el archivo no existe o no puede leerse, informar con un mensaje claro.

**Criterios de aceptación:**
- El reporte debe imprimirse con formato claro.
- En el top-5, mostrar también el conteo de cada palabra.
- No fallar ante archivos vacíos.

**Pistas:**
- Usa `collections.Counter` y normaliza con `lower()`.
- Para eliminar puntuación sencilla, reemplaza caracteres como `.,;:!?` por espacio o usa `str.translate`.


In [None]:

# TODO: Solución ejercicio 3

## Ejercicio 4: Copia segura con resumen

**Contexto técnico:** Debes implementar una copia sencilla de archivos de texto dentro de un proceso más grande. El equipo exige un pequeño resumen al finalizar para auditoría.

**Datos/entradas:** Solicitar `origen` y `destino` por `input()` (rutas).

**Requerimientos:**
1. Leer el archivo de `origen` y copiar su contenido a `destino` con `encoding="utf-8"`.
2. Si `destino` existe, preguntar si se debe sobrescribir (sí/no). Validar respuesta.
3. Mostrar un resumen: bytes escritos, líneas copiadas, y confirmación de éxito.

**Criterios de aceptación:**
- No sobrescribir sin confirmación explícita del usuario.
- Mensajes claros y manejo de excepciones (`FileNotFoundError`, `PermissionError`, `OSError`).

**Pistas:**
- Usa `Path.exists()` y `write_text`/`read_text` o lectura/escritura streaming.
- Considera `len(texto.encode('utf-8'))` para bytes.


In [None]:

# TODO: Solución ejercicio 4