# Entrada, Salida y Manejo de Archivos

**Curso:** Fundamentos de Programaci√≥n y Anal√≠tica de Datos con Python  
**Duraci√≥n estimada del bloque:** 2 horas

## Objetivos espec√≠ficos
- Implementar programas que capturen y validen entradas desde consola utilizando `input` y presenten resultados claros con `print`.
- Persistir informaci√≥n en el sistema de archivos mediante `open`, modos de apertura y context managers (`with`).
- Leer, escribir y procesar contenidos de archivos de texto de forma segura y eficiente.
- Aplicar manejo de errores con `try`/`except`/`finally` para prevenir fallos y mejorar la robustez del programa.

## Prerrequisitos
- Sintaxis b√°sica de Python (variables, tipos primitivos, operadores, control de flujo).
- Ejecuci√≥n de scripts en VSCode o terminal.


## Tema 1: Entrada/Salida est√°ndar (input, print)

### Definici√≥n
La entrada/salida est√°ndar en Python se realiza principalmente con `input()` para capturar datos desde el teclado y `print()` para mostrar informaci√≥n al usuario. `input()` siempre devuelve una cadena; por lo tanto, cuando se requieren n√∫meros u otros tipos, se debe convertir expl√≠citamente (por ejemplo, con `int()`, `float()` o `bool()` mediante l√≥gica apropiada).

### Importancia en programaci√≥n y anal√≠tica de datos
- Permite construir herramientas interactivas para recopilar par√°metros (rutas de archivo, umbrales, nombres de columnas, etc.).
- Facilita la depuraci√≥n y trazabilidad al informar al usuario qu√© hace el programa y con qu√© datos opera.
- En entornos de anal√≠tica, la capacidad de **validar** entradas y **formatear** salidas mejora la reproducibilidad y minimiza errores humanos.


### Buenas pr√°cticas profesionales y errores comunes
- **Validar** y **sanitizar** entradas: convertir tipos y verificar rangos/formatos antes de usarlos.
- Usar mensajes de `input()` **informativos** y `print()` **claros** (evitar ambig√ºedad).
- Evitar depender en exceso de `input()` en scripts que luego se orquestar√°n autom√°ticamente; preferir argumentos de l√≠nea de comandos cuando corra en pipelines.
- **Errores comunes**: no convertir el tipo de `input()` (ej. sumar cadenas en lugar de n√∫meros), no manejar entradas vac√≠as o valores fuera de rango.


In [12]:

# TODO: Ejemplo captura, validaci√≥n y formateo de salida

def solicitar_numero(mensaje: str) -> int:
  """Solicita un entrada num√©rica al usuario, validando la entrada."""
  while True:
    dato: str = input(mensaje).strip()
    if dato == "":
      print("No se ha introducido ning√∫n valor. Int√©ntelo de nuevo.")
      continue

    if not dato.isdigit():
      raise ValueError(f"'{dato}' no es un n√∫mero entero v√°lido. Int√©ntelo de nuevo.")

    return int(dato)

try:
  edad = solicitar_numero("Por favor, introduzca su edad: ")
  print(f"Usted tiene {edad} a√±os.")
except ValueError as e:
  print("Error: ",e)



Error:  'a' no es un n√∫mero entero v√°lido. Int√©ntelo de nuevo.


## Tema 2: Manejo de archivos

### Definici√≥n
El manejo de archivos en Python se realiza con la funci√≥n `open(ruta, modo, encoding)`. Los modos m√°s comunes son:
- `"r"`: leer (falla si el archivo no existe).
- `"w"`: escribir (crea o **sobrescribe** el archivo).
- `"a"`: anexar al final.
- `"r+"`: leer y escribir.
Se recomienda abrir archivos con **context managers** (`with`) para asegurar el cierre autom√°tico, incluso ante excepciones. Para texto, especifique `encoding="utf-8"` para evitar problemas de codificaci√≥n.
 
### Importancia en programaci√≥n y anal√≠tica de datos
- Permite **persistir** resultados, logs y configuraciones.
- Es fundamental para ingesti√≥n y preprocesamiento de datasets (CSV, JSON, TXT).
- Asegura reproducibilidad mediante el registro de par√°metros y salidas intermedias de un pipeline.


### Buenas pr√°cticas profesionales y errores comunes
- Utilizar `with open(..., encoding="utf-8") as f:` para cierre autom√°tico y codificaci√≥n expl√≠cita.
- Diferenciar lectura completa (`read()`), por l√≠neas (`readline()`, `readlines()`), o iterando el archivo l√≠nea a l√≠nea (eficiente para archivos grandes).
- Manejar rutas con `pathlib.Path` en lugar de concatenar cadenas.
- **Errores comunes**: olvidar el `encoding`, usar `"w"` y sobrescribir accidentalmente datos, no cerrar archivos, leer archivos completos en memoria cuando son muy grandes.


In [31]:

# TODO: Ejemplo escritura, lectura y procesamiento l√≠nea a l√≠nea

from pathlib import Path

ruta = Path("archivo.txt")

# Escritura de un archivo ( Si existe, se sobreescribe )
with ruta.open(mode="w", encoding="utf-8") as archivo:
  archivo.write("Autor: DIAN.\n")
  archivo.write("Python facilita la escritura de archivos.\n")
  archivo.write("Cada l√≠nea termina con un salto de l√≠nea\n")
  archivo.write("Deber√≠an usar encoding=utf-8 para caracteres especiales: √°√©√≠√≥√∫ √±.\n")
  archivo.write("¬°Y tambi√©n emojis! üòéüöÄ\n")

# Lectura Completa
with ruta.open(mode="r", encoding="utf-8") as archivo:
  contenido = archivo.read()

print("-- Contenido completo del archivo:")
print(contenido)
print("-- Final del Archivo\n")

# Lectura L√≠nea a L√≠nea ( Improve the Memory Performance)
print("\n-- Contenido l√≠nea a l√≠nea:")
with ruta.open(mode="r", encoding="utf-8") as archivo:
  for i, linea in enumerate(archivo, start=1):
    print(f"L√≠nea {i}: {linea.strip()}")

# Anexa con contenido al final del archivo
with ruta.open(mode="a", encoding="utf-8") as archivo:
  archivo.write("Esta l√≠nea se a√±adir√° al final del archivo.\n")
print("\n\n-- Verificaci√≥n de la l√≠nea a√±adida: ")
print(ruta.read_text(encoding="utf-8"))

-- Contenido completo del archivo:
Autor: DIAN.
Python facilita la escritura de archivos.
Cada l√≠nea termina con un salto de l√≠nea
Deber√≠an usar encoding=utf-8 para caracteres especiales: √°√©√≠√≥√∫ √±.
¬°Y tambi√©n emojis! üòéüöÄ

-- Final del Archivo


-- Contenido l√≠nea a l√≠nea:
L√≠nea 1: Autor: DIAN.
L√≠nea 2: Python facilita la escritura de archivos.
L√≠nea 3: Cada l√≠nea termina con un salto de l√≠nea
L√≠nea 4: Deber√≠an usar encoding=utf-8 para caracteres especiales: √°√©√≠√≥√∫ √±.
L√≠nea 5: ¬°Y tambi√©n emojis! üòéüöÄ


-- Verificaci√≥n de la l√≠nea a√±adida: 
Autor: DIAN.
Python facilita la escritura de archivos.
Cada l√≠nea termina con un salto de l√≠nea
Deber√≠an usar encoding=utf-8 para caracteres especiales: √°√©√≠√≥√∫ √±.
¬°Y tambi√©n emojis! üòéüöÄ
Esta l√≠nea se a√±adir√° al final del archivo.



# Tema 2.1: Lectura/Escritura y **Metadatos** de Archivos

## Objetivos
- Leer y escribir archivos de texto y binarios de forma segura.
- Consultar y modificar metadatos b√°sicos (tama√±o, fechas, permisos) con `pathlib` y `os`.
- Manipular **metadatos de contenido** espec√≠ficos (p. ej., EXIF en im√°genes) con librer√≠as de alto nivel.

## Importancia
El manejo de metadatos permite auditar datos (cu√°ndo y qui√©n los cre√≥/modific√≥), implementar pol√≠ticas de retenci√≥n, controlar accesos y automatizar pipelines que reaccionan ante cambios en archivos.

### Buenas Pr√°cticas y Errores Comunes
- Abrir archivos con **encoding expl√≠cito** (`'utf-8'`) y manejar `newline` si procede.
- Usar `pathlib.Path` por legibilidad y testabilidad.
- Evitar asumir que `st_ctime` es siempre "creaci√≥n" (en UNIX puede ser "status change").
- No confiar en EXIF para auditor√≠a de seguridad: puede faltar o ser manipulado.
- Documentar convenciones de permisos y propietarios en despliegues (Linux vs Windows).

### Mini‚ÄëReto
1. Crear un script que liste recursivamente un directorio, imprima tama√±o total, archivos por extensi√≥n y los 5 archivos m√°s recientes.
2. Generar un CSV con el inventario (ruta, tama√±o, mtime) para auditar cambios.

In [42]:

# TODO: Ejemplo con Metadatos
from pathlib import Path
import os, stat, time
from datetime import datetime

ruta = Path("archivo.txt")

# Escritura de un archivo ( Si existe, se sobreescribe )
# with ruta.open(mode="w", encoding="utf-8") as archivo:
#   archivo.write("Autor: DIAN.\n")
#   archivo.write("Python facilita la escritura de archivos.\n")
#   archivo.write("Cada l√≠nea termina con un salto de l√≠nea\n")
#   archivo.write("Deber√≠an usar encoding=utf-8 para caracteres especiales: √°√©√≠√≥√∫ √±.\n")
#   archivo.write("¬°Y tambi√©n emojis! üòéüöÄ\n")

stats = ruta.stat()
print("\nMetadatos del archivo 'archivo.txt':")
print(f" Tama√±o: {stats.st_size} bytes")
print(f" √öltima modificaci√≥n: {datetime.fromtimestamp(stats.st_mtime)}")
print(f" √öltimo acceso: {datetime.fromtimestamp(stats.st_atime)}")
print(f" Creaci√≥n: {datetime.fromtimestamp(stats.st_ctime)}")
print(f" Propietario: {os.getuid()}")
print(f" Grupo: {os.getgid()}")

# Permisos
permisos = stat.filemode(stats.st_mode)
print(f" Permisos: {permisos}")

archivo_bin = Path("archivo.bin")
datos = bytes(range(0, 16))
archivo_bin.write_bytes(datos)
print(f"\nArchivo binario '{archivo_bin}' creado con {len(datos)} bytes.")




Metadatos del archivo 'archivo.txt':
 Tama√±o: 230 bytes
 √öltima modificaci√≥n: 2025-09-25 08:35:59.249024
 √öltimo acceso: 2025-09-25 08:36:00.757415
 Creaci√≥n: 2025-09-25 08:35:59.249024
 Propietario: 502
 Grupo: 20
 Permisos: -rw-r--r--

Archivo binario 'archivo.bin' creado con 16 bytes.


# Tema: Lectura/Escritura y **Manejo de CSVs**

## Objetivos
- Leer y escribir CSVs con el m√≥dulo est√°ndar `csv` y con `pandas`.
- Controlar **encoding**, **delimitadores**, **quoting**, **l√≠neas en blanco** y **saltos de l√≠nea**.
- Cargar datasets grandes de forma incremental (chunks) y validar esquemas b√°sicos.

## ¬øCu√°ndo usar cada enfoque?
- **`csv` (m√≥dulo est√°ndar):** archivos peque√±os/medianos, control fino del formato, dependencia m√≠nima.
- **`pandas`:** an√°lisis tabular, conversi√≥n de tipos, fechas, filtros, agregaciones y exportaci√≥n r√°pida.

### Validaci√≥n b√°sica de esquema
- Verificar columnas esperadas y tipos m√≠nimos (`dtype`).
- Detectar valores faltantes obligatorios y duplicados de llave.

### Manejo de problemas comunes
- **Encoding:** si hay caracteres extra√±os, probar `encoding='utf-8'` o `'latin-1'`/`'cp1252'`.
- **Delimitador:** usar `sep=';'` si viene con punto y coma.
- **Celdas con comas o comillas:** controlar con `quotechar='"'` y `quoting` adecuado.
- **Fechas:** `parse_dates`, o `pd.to_datetime` con `format` espec√≠fico.
- **Nulos:** pasar `na_values=['NA','N/A','-']` y `keep_default_na=True`.
- **Rendimiento:** especificar `dtype`, usar `usecols`, y `chunksize`.

In [43]:

# TODO: Ejemplo con CSV
import csv
from pathlib import Path

csv_path = Path("datos.csv")

rows = [
  {"fecha": "2025-08-01", "producto": "Manzana", "precio": 0.5, "cantidad": 10},
  {"fecha": "2025-08-02", "producto": "Banano", "precio": 0.3, "cantidad": 5},
  {"fecha": "2025-08-03", "producto": "Naranja", "precio": 0.7, "cantidad": 8}
]

# Escritura CSV
with csv_path.open(mode="w", encoding="utf-8", newline='') as csvfile:
  fieldnames = ["fecha", "producto", "precio", "cantidad"]
  writer = csv.DictWriter(csvfile, fieldnames=fieldnames)

  writer.writeheader()
  for row in rows:
    writer.writerow(row)

# Lectura CSV
print("\nContenido del archivo CSV:")
with csv_path.open(mode="r", encoding="utf-8") as csvfile:
  reader = csv.DictReader(csvfile)
  for row in reader:
    print(row)



Contenido del archivo CSV:
{'fecha': '2025-08-01', 'producto': 'Manzana', 'precio': '0.5', 'cantidad': '10'}
{'fecha': '2025-08-02', 'producto': 'Banano', 'precio': '0.3', 'cantidad': '5'}
{'fecha': '2025-08-03', 'producto': 'Naranja', 'precio': '0.7', 'cantidad': '8'}


## Tema 3: Manejo de errores con excepciones (aplicado a E/S)

### Definici√≥n
El manejo de excepciones utiliza `try`/`except`/`else`/`finally` para capturar y gestionar condiciones an√≥malas en tiempo de ejecuci√≥n sin finalizar abruptamente el programa. `except` puede capturar excepciones espec√≠ficas (p. ej., `FileNotFoundError`, `PermissionError`) o gen√©ricas (no recomendado en producci√≥n).

### Importancia en programaci√≥n y anal√≠tica de datos
- Incrementa la **robustez** de scripts que interact√∫an con archivos y usuarios.
- Permite **degradaci√≥n controlada** (ej., crear un archivo si no existe, pedir reintentos, registrar el error y continuar).
- En pipelines de datos, evita que un error puntual inutilice todo el proceso y facilita el **logging** significativo.


### Buenas pr√°cticas profesionales y errores comunes
- Capturar **excepciones espec√≠ficas** primero y proporcionar mensajes de diagn√≥stico claros.
- Usar `else` para el flujo cuando no hay excepci√≥n y `finally` para liberar recursos.
- Registrar errores (`logging`) en lugar de solo imprimirlos, especialmente en scripts de producci√≥n.
- **Errores comunes**: capturar todo con `except Exception:` sin diferenciar casos, silenciar errores sin informar, no reintentar cuando es razonable hacerlo.


In [45]:

# TODO: Ejemplo lectura robusta con manejo de errores y valores por defecto
from pathlib import Path

def leer_o_crear(ruta: Path, contenido_por_defecto: str = "Contenido por defecto") -> str:
  """Lee el contenido de un archivo, o lo crea con un contenido por defecto si no existe."""
  try:
    return ruta.read_text(encoding='utf-8')
  except FileNotFoundError:
    # Si no existe, se crea con el contenido por defecto.
    print(f"El archivo {ruta} no existe. Por lo que, ser√° creado con contenido por defecto.")
    ruta.write_text(contenido_por_defecto, encoding='utf-8')
    return contenido_por_defecto
  except PermissionError:
    print(f"No se tienen permisos para leer el archivo: {ruta}.")
    return ""
  except OSError as e:
    print(f"Error de E/S al acceder al recurso: {ruta}: {e}")
    return ""
  finally:
    # Aqu√≠ podr√≠amos cerrar recursos si fuera necesario.
    pass

texto = leer_o_crear(Path("posibles_datos.txt"))
print("\nContenido del archivo (o creado):", texto)


Contenido del archivo (o creado): Curso de Python para la DIAN



# Ejercicios integradores

A continuaci√≥n se presentan ejercicios que integran **entrada/salida est√°ndar**, **manejo de archivos** y **manejo de excepciones**. Cada ejercicio incluye contexto, datos/entradas, requerimientos, criterios de aceptaci√≥n y pistas. Se incluye una celda de **soluci√≥n** por cada ejercicio.


## Ejercicio 1: Registro de usuarios simple

**Contexto t√©cnico:** Eres responsable de un script que recolecta datos b√°sicos de usuarios para un prototipo interno. El objetivo es persistir nombre y edad en un archivo para su posterior an√°lisis. Se prioriza la validaci√≥n de entradas para minimizar datos inv√°lidos.

**Datos/entradas:** El usuario ingresar√° `nombre` (texto) y `edad` (entero). El archivo de destino ser√° `usuarios.txt` en el directorio actual.

**Requerimientos:**
1. Solicita el `nombre` y la `edad` usando `input()` y valida que `edad` sea entero positivo.
2. Escribe una l√≠nea por usuario con el formato: `nombre,edad` en `usuarios.txt` (modo anexar).
3. Tras registrar, muestra en consola el **total** de usuarios registrados (contando las l√≠neas del archivo).

**Criterios de aceptaci√≥n:**
- Si `edad` no es entero o es ‚â§ 0, volver a solicitar el dato.
- El archivo `usuarios.txt` se crea si no existe.
- La salida final muestra el total de l√≠neas registradas.

**Pistas:**
- Utiliza `with open(..., "a", encoding="utf-8")` para anexar.
- Para contar l√≠neas, itera el archivo en modo lectura o usa `read().splitlines()`.


In [None]:

# TODO: Soluci√≥n ejercicio 1

## Ejercicio 2: Promedios desde archivo con tolerancia a errores

**Contexto t√©cnico:** Debes procesar un archivo `notas.txt` con calificaciones (una por l√≠nea). Algunas l√≠neas pueden contener valores inv√°lidos por errores de captura. Se espera un c√°lculo robusto del promedio.

**Datos/entradas:** Archivo `notas.txt` con valores num√©ricos (float) l√≠nea a l√≠nea. Puede contener l√≠neas vac√≠as o no num√©ricas.

**Requerimientos:**
1. Lee el archivo de forma segura. Si no existe, informa y crea uno de ejemplo con 5 valores.
2. Ignora l√≠neas no num√©ricas o vac√≠as, pero **registra cu√°ntas** fueron descartadas.
3. Calcula y muestra el promedio con tres decimales y el conteo de v√°lidos/descartados.

**Criterios de aceptaci√≥n:**
- Si no hay valores v√°lidos, informar claramente y no intentar dividir por cero.
- La creaci√≥n del archivo de ejemplo debe usar `encoding="utf-8"`.
- Mensajes claros para el usuario.

**Pistas:**
- Usa `try/except` alrededor de la conversi√≥n a `float`.
- `Path.exists()` y `Path.write_text()` pueden ser √∫tiles.


In [None]:

# TODO: Soluci√≥n ejercicio 2

## Ejercicio 3: Reporte de conteo de palabras

**Contexto t√©cnico:** Un equipo solicita una peque√±a funci√≥n utilitaria que, dado un archivo de texto, produzca un reporte con el conteo de palabras y de l√≠neas, √∫til para an√°lisis r√°pidos de logs o notas.

**Datos/entradas:** Ruta de un archivo de texto solicitada por `input()`.

**Requerimientos:**
1. Solicitar la ruta del archivo y validar su existencia.
2. Mostrar: n√∫mero de l√≠neas, n√∫mero total de palabras, y las 5 palabras m√°s frecuentes (ignorando may√∫sculas/min√∫sculas y signos de puntuaci√≥n simples).
3. Si el archivo no existe o no puede leerse, informar con un mensaje claro.

**Criterios de aceptaci√≥n:**
- El reporte debe imprimirse con formato claro.
- En el top-5, mostrar tambi√©n el conteo de cada palabra.
- No fallar ante archivos vac√≠os.

**Pistas:**
- Usa `collections.Counter` y normaliza con `lower()`.
- Para eliminar puntuaci√≥n sencilla, reemplaza caracteres como `.,;:!?` por espacio o usa `str.translate`.


In [None]:

# TODO: Soluci√≥n ejercicio 3

## Ejercicio 4: Copia segura con resumen

**Contexto t√©cnico:** Debes implementar una copia sencilla de archivos de texto dentro de un proceso m√°s grande. El equipo exige un peque√±o resumen al finalizar para auditor√≠a.

**Datos/entradas:** Solicitar `origen` y `destino` por `input()` (rutas).

**Requerimientos:**
1. Leer el archivo de `origen` y copiar su contenido a `destino` con `encoding="utf-8"`.
2. Si `destino` existe, preguntar si se debe sobrescribir (s√≠/no). Validar respuesta.
3. Mostrar un resumen: bytes escritos, l√≠neas copiadas, y confirmaci√≥n de √©xito.

**Criterios de aceptaci√≥n:**
- No sobrescribir sin confirmaci√≥n expl√≠cita del usuario.
- Mensajes claros y manejo de excepciones (`FileNotFoundError`, `PermissionError`, `OSError`).

**Pistas:**
- Usa `Path.exists()` y `write_text`/`read_text` o lectura/escritura streaming.
- Considera `len(texto.encode('utf-8'))` para bytes.


In [None]:

# TODO: Soluci√≥n ejercicio 4