# Objetivos de la clase:

- Conocer el concepto de la persistencia

- Procesar datos en .txt

- Elaborar archivos JSON

- Aprender a recuperar datos de fuentes reales (.csv)

In [1]:
# Colección 1
# Utilizando todo lo que sabes sobre cadenas, listas y sus métodos internos, transforma este texto:

#Gordon lanzó su curva&strawberry ha fallado por un pie!
#-gritó Joe CastiglioneRodos pies
#-le corrigió Troop&Rstrawberry menea la cabeza como disgustado…
#-agrega el comentarista

texto = "gordon lanzó su curva&strawberry ha fallado por un pie! -gritó Joe CastiglioneRodos pies le corrigió Troop&Rstrawberry menea la cabeza como disgustado… -agrega el comentarista"
print(texto)

# Transformar a:
# Gordon lanzó su curva…
# - Strawberry ha fallado por un pie! -gritó Joe Castiglione.
# - Dos pies le corrigió Troop.
# - Strawberry menea la cabeza como disgustado… -agrega el comentarista.

lineas = texto.split("&")
print(lineas) # Para probar cómo queda la lista cuando hicimos el split("&") ~~Recordar que split devuelve una lista desde una cadena
for i, linea in enumerate(lineas):
    lineas[i] = linea.capitalize() # i 3
    if i == 0:
        lineas[i] = lineas[i] + "..."
    else:
        lineas[i] = "- " + lineas[i] + "."

# Si imprimo lineas solamente me devuelve el ultimo item de la lista, entonces tengo que hacer un FOR
print(lineas)

# Mostramos el texto final
for linea in lineas:
    print(linea)


gordon lanzó su curva&strawberry ha fallado por un pie! -gritó Joe CastiglioneRodos pies le corrigió Troop&Rstrawberry menea la cabeza como disgustado… -agrega el comentarista
['gordon lanzó su curva', 'strawberry ha fallado por un pie! -gritó Joe CastiglioneRodos pies le corrigió Troop', 'Rstrawberry menea la cabeza como disgustado… -agrega el comentarista']
['Gordon lanzó su curva...', '- Strawberry ha fallado por un pie! -gritó joe castiglionerodos pies le corrigió troop.', '- Rstrawberry menea la cabeza como disgustado… -agrega el comentarista.']
Gordon lanzó su curva...
- Strawberry ha fallado por un pie! -gritó joe castiglionerodos pies le corrigió troop.
- Rstrawberry menea la cabeza como disgustado… -agrega el comentarista.


### Persistencia

Cuandouno piensa en la palabra persistencia, lo relaciona a la capacidad humana de "aguantar" , "perdurar" o "de no dejar de hacer una accion", en este curso no hablaremos de esas cosas obviamente, pero si de la persistencia de los datos.

Hasta ahora, todos los programas que escribimos necesitaban que generemos los datos cada vez.  
Listas, nombres, edades... todo se perdía de un día al otro.

La persistencia permite:
- Guardar datos generados por un programa (propio o ajeno)
- Recuperarlos después para reutilizarlos

## ¿Qué significa persistencia en programación?

La persistencia es la acción de preservar información de manera **permanente** (guardarla)
y también la capacidad de **recuperarla** (leerla).

Los datos normalmente tienen una duración efímera;  
cuando cambian de valor o termina el programa, desaparecen.

Con persistencia, los datos se guardan para usar más adelante.


# Tipos de persistencia

Existen dos grandes maneras de guardar datos:

1. **Bases de datos**
   - Complejas
   - Requieren software adicional
   - Las veremos en la clase 19

2. **Archivos**
   - Forma más antigua y simple de almacenar datos
   - Todavía se usa muchísimo


# Archivos

Un archivo es una **secuencia de bytes** almacenados en un dispositivo.
Tiene un nombre y una ubicación en una carpeta.

Son el equivalente digital de documentos, carpetas, libretas, etc.

Tipos principales:
- **Archivos binarios** → optimizados para la PC, difíciles de leer por humanos
- **Archivos de texto** → contienen texto legible, fáciles de manipular


## Tipos de archivos de texto más comunes

En este curso usaremos solo archivos de texto.

Extensiones frecuentes:
- .txt
- .doc, .docx
- .xml
- .csv
- .json


# Escritura de archivos

Para escribir archivos debemos:
- Especificar la ruta
- Abrir el archivo con permisos de escritura (“w”)
- Escribir contenido
- Cerrar o dejar que Python lo cierre automáticamente


In [2]:
# Ejemplo básico de escritura en un .txt

ruta = "archivo.txt"

with open(ruta, "w") as archivo:
    archivo.write("Hola, este es mi primer archivo escrito desde Python.")


## Guardar información con delimitadores

Muchas veces se guarda la información separando los valores con coma, guion, o cualquier delimitador.

Es muy útil cuando se desea procesar la información después.


# Lectura de archivos

Para recuperar datos desde un archivo, debemos
abrirlo con permisos de lectura (“r”).

Python permite tres formas:

1. read()      → lee todo como una sola cadena
2. readline()  → lee solo la primera línea
3. readlines() → devuelve una lista con cada línea como un ítem


In [None]:
# Read: lee todo el contenido

with open("paraLeer.txt", "r") as archivo:
    contenido = archivo.read()

print(contenido)


In [None]:
# Readline: solo la primera línea
with open("paraLeer.txt", "r") as archivo:
    primera_linea = archivo.readline()

print(primera_linea)


# Readlines: devuelve una lista
with open("paraLeer.txt", "r") as archivo:
    lineas = archivo.readlines()

print(lineas)


# Funcionalidad útil: SEEK

SEEK permite mover el “cursor de lectura” a una posición específica del archivo.

Sirve cuando:
- Queremos leer desde un punto concreto
- Necesitamos saltar caracteres
- Procesamos archivos muy grandes

SEEK funciona así:
- seek(0) → inicio
- seek(n) → comienza a leer desde el byte n


In [None]:
# Ejemplo de uso de seek()

with open("paraLeer.txt", "r") as archivo:
    archivo.seek(3)     # mueve el cursor a la posición 3
    contenido = archivo.read()

print(contenido)


# Archivo JSON

Además de .txt, existen formatos más útiles para trabajar datos estructurados.

Uno de los más usados es **JSON**:
- Ligero
- Fácil de leer
- Admite estructuras complejas
- Compatible con casi todos los lenguajes


## Escritura de archivos JSON

Para escribir JSON debemos:

1. Crear un diccionario o lista en Python  
2. Importar el módulo json  
3. Usar json.dump() para escribirlo en un archivo


In [None]:
import json

persona = {
    "nombre": "Arianna",
    "edad": 25,
    "ciudad": "Buenos Aires"
}

with open("primerJson.json", "w") as archivo:
    json.dump(persona, archivo, indent=4)


## Lectura de un archivo JSON

Para leer JSON:

1. Abrimos el archivo con "r"
2. Usamos json.load()
3. Python nos devuelve un diccionario


In [None]:
import json

with open("primerJson.json", "r") as archivo:
    datos = json.load(archivo)

print(datos)
print(type(datos))   # dict


# Trabajo con datos reales (CSV)

Los datos reales pueden venir en muchos formatos:
- txt
- json
- csv

Para este curso, trabajamos principalmente con CSV.

Un archivo CSV es básicamente un archivo de texto con datos separados por comas.


## ¿Qué es un CSV?

CSV significa “Comma Separated Values”.

Cada línea es un registro.
Cada campo está separado por coma.

Ejemplo:
nombre,edad,ciudad
Arianna,25,Buenos Aires


# Lectura de CSV

Python permite leer CSV usando:

- read()
- readline()
- readlines()

o, mucho mejor:

- **csv.reader** de la librería estándar


In [None]:
# Lectura básica de CSV sin módulo csv

with open("dataset.csv", "r") as archivo:
    lineas = archivo.readlines()

for linea in lineas:
    print(linea.strip())


In [None]:
import csv

with open("dataset.csv", "r") as archivo:
    lector = csv.reader(archivo)
    for fila in lector:
        print(fila)


# ¿Qué es un EDA?

EDA = Exploratory Data Analysis  
(Análisis Exploratorio de Datos)

Sirve para:
- Entender los datos
- Buscar errores
- Detectar valores faltantes
- Encontrar outliers
- Preparar información para análisis futuros


## Ejemplo de EDA básico

Imagina un dataset con miles de filas.
Con CSV podemos traerlo a Python y trabajar con él.

Podemos:
- Contar registros
- Buscar valores únicos
- Filtrar información


In [None]:
import csv

with open("dataset.csv", "r") as archivo:
    lector = csv.reader(archivo)
    datos = list(lector)

print("Total de filas:", len(datos))
print("Primer fila:", datos[0])
print("Última fila:", datos[-1])


# Trabajo con datos reales — CSV

Para esta clase se utilizaron datos abiertos de:
- Ciudad de Buenos Aires
- Nación (Argentina)

Los datasets se descargaron desde:
https://data.buenosaires.gob.ar/
https://datos.gob.ar/

Los archivos vienen en formato .csv
y contienen miles de registros reales.


## Lectura de un CSV real

Cuando tenemos un archivo CSV real, la lectura es igual
a cualquier otro archivo de texto: usamos open() + csv.reader.

Una vez que lo leemos, podemos recorrer los datos,
filtrarlos, agruparlos o analizarlos.


In [None]:
import csv

with open("dataset_turnos_detalle.csv", "r", encoding="utf-8") as archivo:
    lector = csv.reader(archivo)
    datos = list(lector)

print("Cantidad de filas:", len(datos))
print("Ejemplo de fila:", datos[1])


# ¿Por qué parece abrumador un CSV real?

Porque:

- Tiene MUCHAS filas
- Tiene MUCHAS columnas
- Contiene valores faltantes
- Trae errores reales de carga
- Hay columnas que no entendemos
- Puede pesar varios MB

Pero…
apenas hacemos la lectura,
ya está todo dentro de Python
y podemos trabajar como con cualquier lista.


# ¿Qué podemos hacer ahora que los datos están en Python?

Muchísimo.  
Con solo tener los datos en una lista, podemos:

- Contar filas
- Seleccionar columnas
- Buscar valores repetidos
- Hacer filtros
- Detectar errores
- Analizar cantidades
- Preparar datos para gráficos


In [None]:
# Supongamos que datos[0] es el encabezado:

encabezado = datos[0]
print("Columnas del archivo:")
print(encabezado)

# Mostrar solo una columna específica (ej. columna 3)
columna_3 = [fila[2] for fila in datos[1:]]
print("Ejemplo de columna 3:")
print(columna_3[:10])


# Búsqueda de valores únicos (muy útil en un CSV)

Podemos buscar:
- Cantidad de categorías
- Tipos de valores
- Errores de carga


In [None]:
columna = [fila[2] for fila in datos[1:]]

valores_unicos = set(columna)

print("Cantidad de valores únicos:", len(valores_unicos))
print("Algunos valores únicos:", list(valores_unicos)[:15])


# Filtrar datos

Una de las operaciones más frecuentes.

Ejemplo:
Filtrar solo filas donde una columna tenga cierto valor.


In [None]:
filtro = [fila for fila in datos[1:] if fila[2] == "Pediatría"]

print("Cantidad de filas filtradas:", len(filtro))
print("Primeros 5 elementos:")
for f in filtro[:5]:
    print(f)


# Conversión de valores (parseo)

Muchos CSV traen números como texto:
"120"
"34.5"
"0"

Para poder operar, hay que convertirlos a int o float.


In [None]:
# Convertir una columna a números

columna_numerica = []

for fila in datos[1:]:
    try:
        numero = float(fila[4])
        columna_numerica.append(numero)
    except:
        pass  # saltea valores vacíos o no numéricos

print("Ejemplo:", columna_numerica[:10])


# Contar valores (frecuencias)

Muy útil para EDA inicial.


In [None]:
from collections import Counter

columna = [fila[2] for fila in datos[1:]]
conteo = Counter(columna)

print(conteo)


# Detectar datos faltantes

CSV reales SIEMPRE tienen datos perdidos.


In [None]:
faltantes = sum(1 for fila in datos[1:] if "" in fila)

print("Filas con valores faltantes:", faltantes)


# Agrupar datos (operación básica de análisis)

En un CSV grande podemos agrupar, por ejemplo:
- Cantidad de turnos por hospital
- Cantidad de registros por fecha
- Cantidad por categoría


In [None]:
grupos = {}

for fila in datos[1:]:
    clave = fila[1]     # por ejemplo, hospital
    if clave not in grupos:
        grupos[clave] = 1
    else:
        grupos[clave] += 1

print("Cantidad por grupo:")
for k, v in list(grupos.items())[:15]:
    print(k, "→", v)


# Resumen de lo realizado en CSV

Ahora sabemos:

- Leer datos reales
- Explorar columnas
- Filtrar
- Convertir tipos
- Buscar valores únicos
- Contar frecuencias
- Agrupar datos

Esto es suficiente para trabajar con cualquier dataset de tamaño moderado desde Python.


# Conociendo Kaggle

Kaggle es una plataforma muy utilizada para:

- Descargar datasets reales
- Practicar análisis de datos
- Participar en competencias
- Subir notebooks interactivos
- Acceder a datasets en múltiples formatos (.csv, .json, .xlsx, etc.)

En esta clase se propone crear una cuenta gratuita
y descargar un dataset para practicar la lectura en Python.


# ¿Qué hacer con un dataset descargado?

Una vez cargado en Python, ya podés:

- Explorar columnas
- Buscar valores únicos
- Hacer conteos
- Detectar outliers
- Convertir tipos numéricos
- Graficar (si usás librerías adicionales)
- Preparar datos para un modelo
- Reutilizarlo en un proyecto final

El límite es tu creatividad.


# Sección: Ayudas

En la clase original aparecen varias diapositivas de “Ayuda”
correspondientes a consultas sobre:

- Lectura de archivos
- Lectura de JSON
- Lectura de CSV
- Dudas sobre rutas
- Corrección de errores comunes

Debido a que estas diapositivas no contienen texto técnico nuevo,
sino indicaciones visuales, aquí las resumimos:

Las ayudas cubren:
- Cómo abrir archivos en Colab
- Cómo montar Google Drive
- Cómo seleccionar la carpeta correcta
- Cómo interpretar errores de lectura/escritura
- Cómo validar la ruta absoluta de un archivo


# Consejos finales para manejo de archivos

1. Siempre verificar rutas antes de leer/escribir.
2. Usar `with open(...)` para evitar olvidarse de cerrar archivos.
3. Para texto simple, usar .txt
4. Para datos estructurados, preferir JSON o CSV.
5. Para análisis más avanzados, integrar pandas en el futuro.


# Actividad: Mis hobbies favoritos

Crea un programa que pida por teclado tus 3 hobbies favoritos
y los guarde en un archivo llamado: miHobbieFavorito.txt

Extra:
- Hacerlo con un for o while para evitar repetir código


In [None]:
# Solución sugerida

ruta = "miHobbieFavorito.txt"
hobbies = []

for i in range(3):
    hobbie = input(f"Ingresá tu hobbie #{i+1}: ")
    hobbies.append(hobbie)

with open(ruta, "w") as archivo:
    for hobbie in hobbies:
        archivo.write(hobbie + "\n")


## Actividad: Crear cuenta en Kaggle

Duración sugerida: 20 minutos.

Pasos:
1. Ingresar a https://www.kaggle.com/
2. Crear una cuenta (Google, email, o GitHub)
3. Descargar un dataset cualquiera en alguno de los formatos vistos
4. Subirlo a Colab o abrirlo localmente
5. Hacer su lectura utilizando read(), csv.reader o json.load

Tip:
La temática del dataset es completamente libre.


In [None]:
# Ejemplo de lectura de un CSV descargado de Kaggle

import csv

with open("mi_dataset_kaggle.csv", "r", encoding="utf-8") as archivo:
    lector = csv.reader(archivo)
    datos = list(lector)

print("Cantidad de registros:", len(datos))
print("Primeras filas:")
for fila in datos[:5]:
    print(fila)
