In [1]:
!wget --no-cache -O init.py -q https://raw.githubusercontent.com/UDEA-Esp-Analitica-y-Ciencia-de-Datos/EACD-01-FUNDAMENTOS/master/init.py
import init; init.init(force_download=False);

'wget' is not recognized as an internal or external command,
operable program or batch file.


# Lectura y escritura de archivos

Una de las tareas más comunes cuando se trabaja en ciencia de datos o Machine Learning es procesar archivos de datos o metadatos, los últimos se refieren a datos acerca de los datos.

Debemos estar en la capacidad de procesar muchos tipos de archivos, archivos de texto, csv, json, xml, yaml, imágenes y videos son los tipos más comunes. Eventualmente necesitaremos escribir archivos también, como parte de un largo proceso de tratamiento de datos o para exportar alguna configuración de nuestros modelos para luego ser leídos por otros componentes de un sistema más grande.

## Texto sin formato

Realmente estos archivos pueden venir con algun formato, simplemente que no encaja dentro de algún estándar. Empecemos considerando el archivo `files/abstract.txt`, el cual contiene el abstract de un famoso artículo.

In [2]:
f = open("local/files/abstract.txt", "r")
content = f.readlines()
f.close()
content

['Deeper neural networks are more difficult to train. We present a residual learning framework to ease the training of networks that are substantially deeper than those used previously. We explicitly reformulate the layers as learning residual functions with reference to the layer inputs, instead of learning unreferenced functions. We provide comprehensive empirical evidence showing that these residual networks are easier to optimize, and can gain accuracy from considerably increased depth. On the ImageNet dataset we evaluate residual nets with a depth of up to 152 layers---8x deeper than VGG nets but still having lower complexity. An ensemble of these residual nets achieves 3.57% error on the ImageNet test set. This result won the 1st place on the ILSVRC 2015 classification task. We also present analysis on CIFAR-10 with 100 and 1000 layers.\n',
 'The depth of representations is of central importance for many visual recognition tasks. Solely due to our extremely deep representations, 

**¿Qué pasó?** 

1. Usamos la función `open` para abrir un archivo (`"local/files/abstract.txt"`) en modo lectura (`"r"`).
2. Leimos todas las líneas del archivo.
3. Cerramos el archivo.

Observa que el archivo se lee línea a línea, y por eso el resultado en `content` es una lista de strings. Básicamente lo pudimos haber leido de la siguiente manera

In [3]:
f = open("local/files/abstract.txt", "r")
content = []
line = "some arbitrary string to enter the loop"
while line != "":
    line = f.readline()
    if line != "":
        content.append(line)
f.close()
content

['Deeper neural networks are more difficult to train. We present a residual learning framework to ease the training of networks that are substantially deeper than those used previously. We explicitly reformulate the layers as learning residual functions with reference to the layer inputs, instead of learning unreferenced functions. We provide comprehensive empirical evidence showing that these residual networks are easier to optimize, and can gain accuracy from considerably increased depth. On the ImageNet dataset we evaluate residual nets with a depth of up to 152 layers---8x deeper than VGG nets but still having lower complexity. An ensemble of these residual nets achieves 3.57% error on the ImageNet test set. This result won the 1st place on the ILSVRC 2015 classification task. We also present analysis on CIFAR-10 with 100 and 1000 layers.\n',
 'The depth of representations is of central importance for many visual recognition tasks. Solely due to our extremely deep representations, 

Leerlo línea a línea nos permite cargar en memoria solo una línea a la vez, lo cual es bastante importante si el contenido de nuestro archivo no cabe en la memoria del computador. También es posible leerlo completo como un string, sin separarlo línea por línea,

In [4]:
f = open("local/files/abstract.txt", "r")
content = f.read()
f.close()
content

'Deeper neural networks are more difficult to train. We present a residual learning framework to ease the training of networks that are substantially deeper than those used previously. We explicitly reformulate the layers as learning residual functions with reference to the layer inputs, instead of learning unreferenced functions. We provide comprehensive empirical evidence showing that these residual networks are easier to optimize, and can gain accuracy from considerably increased depth. On the ImageNet dataset we evaluate residual nets with a depth of up to 152 layers---8x deeper than VGG nets but still having lower complexity. An ensemble of these residual nets achieves 3.57% error on the ImageNet test set. This result won the 1st place on the ILSVRC 2015 classification task. We also present analysis on CIFAR-10 with 100 and 1000 layers.\nThe depth of representations is of central importance for many visual recognition tasks. Solely due to our extremely deep representations, we obt

Observa que para convertir esto en una lista de líneas, solo debemos partir la lista cada vez que se encuentre un caracter que significa final de línea (`"\n"`)

In [5]:
content.split("\n")

['Deeper neural networks are more difficult to train. We present a residual learning framework to ease the training of networks that are substantially deeper than those used previously. We explicitly reformulate the layers as learning residual functions with reference to the layer inputs, instead of learning unreferenced functions. We provide comprehensive empirical evidence showing that these residual networks are easier to optimize, and can gain accuracy from considerably increased depth. On the ImageNet dataset we evaluate residual nets with a depth of up to 152 layers---8x deeper than VGG nets but still having lower complexity. An ensemble of these residual nets achieves 3.57% error on the ImageNet test set. This result won the 1st place on the ILSVRC 2015 classification task. We also present analysis on CIFAR-10 with 100 and 1000 layers.',
 'The depth of representations is of central importance for many visual recognition tasks. Solely due to our extremely deep representations, we

Otra forma de leer los archivos es utilizando algo llamado [context manager](https://www.geeksforgeeks.org/context-manager-in-python/):

In [57]:
with open("local/files/abstract.txt", "r") as f:
    content = f.readlines()
content

['Deeper neural networks are more difficult to train. We present a residual learning framework to ease the training of networks that are substantially deeper than those used previously. We explicitly reformulate the layers as learning residual functions with reference to the layer inputs, instead of learning unreferenced functions. We provide comprehensive empirical evidence showing that these residual networks are easier to optimize, and can gain accuracy from considerably increased depth. On the ImageNet dataset we evaluate residual nets with a depth of up to 152 layers---8x deeper than VGG nets but still having lower complexity. An ensemble of these residual nets achieves 3.57% error on the ImageNet test set. This result won the 1st place on the ILSVRC 2015 classification task. We also present analysis on CIFAR-10 with 100 and 1000 layers.\n',
 'The depth of representations is of central importance for many visual recognition tasks. Solely due to our extremely deep representations, 

Lo anterior no es simplemente una forma más bonita de hacer lo mismo, nos proporciona la seguridad de que siempre nos estamos refiriendo al mismo archivo y lo cierra para que otros procesos lo utilicen de ser necesario.

La función `open` admite más parámetros, que puedes leer en la [documentación oficial](https://docs.python.org/3/library/functions.html#open). Sin embargo, si mostraremos un par de formas más de abrir archivos.

**Modo escritura**

In [6]:
with open("temp_file_8-23", "w") as f:
    for i in range(10):
        f.write(f"writing line with number {i}\n")

**Modo lectura y esritura de archivos binarios**

Este último es especialmente importante, porque ciertos formatos solo permiten leer y escribir en formato binario.

In [11]:
with open("11 - Concurrencia.ipynb", "r") as f:
    content = f.read()
content

'{\n "cells": [\n  {\n   "cell_type": "code",\n   "execution_count": 1,\n   "metadata": {},\n   "outputs": [\n    {\n     "name": "stderr",\n     "output_type": "stream",\n     "text": [\n      "\'wget\' is not recognized as an internal or external command,\\n",\n      "operable program or batch file.\\n"\n     ]\n    }\n   ],\n   "source": [\n    "!wget --no-cache -O init.py -q https://raw.githubusercontent.com/UDEA-Esp-Analitica-y-Ciencia-de-Datos/EACD-01-FUNDAMENTOS/master/init.py\\n",\n    "import init; init.init(force_download=False); \\n",\n    "from IPython.display import Image"\n   ]\n  },\n  {\n   "cell_type": "markdown",\n   "metadata": {},\n   "source": [\n    "# Concurrencia\\n",\n    "\\n",\n    "**Advertencia**: este notebook es prÃ¡cticamente un resumen de [Speed Up Your Python Program With Concurrency](https://realpython.com/python-concurrency/). Se recomienda bastante leer la fuente original.\\n",\n    "\\n",\n    "\\n",\n    "**Â¿QuÃ© es concurrencia?**\\n",\n    "\\n

In [14]:
with open("local/imgs/udea-datascience.png", "rb") as f:
    content = f.read()
content

b'\x89PNG\r\n\x1a\n\x00\x00\x00\rIHDR\x00\x00\x01/\x00\x00\x00\xea\x08\x06\x00\x00\x00\xf3\x8c\xc3k\x00\x00\x00\x04sBIT\x08\x08\x08\x08|\x08d\x88\x00\x00\x00\x19tEXtSoftware\x00gnome-screenshot\xef\x03\xbf>\x00\x00\x00*tEXtCreation Time\x00Tue 09 Jun 2020 06:38:38 -05Ng\xdc\x83\x00\x00 \x00IDATx\x9c\xed\xbd\x7fTSW\xba\xff\xff\x0e\x049Q\xd4\xa0X\x93\x8aJ\xfcI\xa8\xb6\x84\xd1\xb6\xa1\xda\x19cmk\x1c\xef\x8c\xe1\xda{\x85q:\x9a\xda[\x1b\xda\xfbi\xb13\xb7\xc5vu\xf9\xa5\x9du[\xe8\xcc\xb5`\xef\xa7\x85\xf6~\xda\x01;\xb5\xe0\x8c\x96\xd8\xea\x10\xdbj\x83\xb7Zb\x8b%\xfe$\xa8hRA\x13\x05\xcc\x01\x02\xfb\xfbG\xc2/\x05r\x0e$\x84\x03\xfb\xe5\xcaZ\x08\xfb\xec\xf3d\x9fs\xdeg\xefg?\xfb\xd9"B\x08\x01\x85B\xa1\x08\x8c\xb0P\x1b@\xa1P(\x03\x81\x8a\x17\x85B\x11$T\xbc(\x14\x8a \xa1\xe2E\xa1P\x04\t\x15/\n\x85"H\xa8xQ(\x14AB\xc5\x8bB\xa1\x08\x12*^\x14\nE\x90P\xf1\xa2P(\x82\x84\x8a\x17\x85B\x11$T\xbc(\x14\x8a \xa1\xe2E\xa1P\x04\t\x15/\n\x85"H\xa8xQ(\x14AB\xc5\x8bB\xa1\x08\x12*^\x14\nE\x90P\xf1\xa2P(\x82\x84\x8a\x1

In [16]:
with open("temp_file", "w") as f:
    f.write(content)

TypeError: write() argument must be str, not bytes

In [17]:
with open("temp_file", "wb") as f:
    f.write(content)

## CSV

Usualmente, estos se pueden leer muy fácilmente utilizando la librería [Pandas](https://pandas.pydata.org/), que es especialmente útil para hacer análisis de datos. Sin embargo, acá mostraremos un ejemplo utilizando el módulo `csv`

```
col1,col2,col3,col4,col5
57,20,65,2,20
72,34,8,44,65
60,35,98,49,7
0,49,25,27,70
```

In [18]:
import csv

In [19]:
with open("local/data/demodata.csv", "r") as f:
    reader = csv.DictReader(f)
    for row in reader:
        print(row)

{'col1': '57', 'col2': '20', 'col3': '65', 'col4': '2', 'col5': '20'}
{'col1': '72', 'col2': '34', 'col3': '8', 'col4': '44', 'col5': '65'}
{'col1': '60', 'col2': '35', 'col3': '98', 'col4': '49', 'col5': '7'}
{'col1': '0', 'col2': '49', 'col3': '25', 'col4': '27', 'col5': '70'}
{'col1': '32', 'col2': '5', 'col3': '49', 'col4': '68', 'col5': '84'}
{'col1': '18', 'col2': '78', 'col3': '60', 'col4': '50', 'col5': '95'}
{'col1': '26', 'col2': '59', 'col3': '20', 'col4': '70', 'col5': '96'}
{'col1': '30', 'col2': '18', 'col3': '33', 'col4': '98', 'col5': '97'}
{'col1': '89', 'col2': '65', 'col3': '53', 'col4': '43', 'col5': '22'}
{'col1': '46', 'col2': '6', 'col3': '65', 'col4': '66', 'col5': '91'}


Podemos ver que cada fila del archivo csv se representa con un objeto de la clase `OrderedDict`, que es como un diccionario que preserva el orden en que se agregan los elementos. Cada llave de ese diccionario corresponde a los nombres de las columnas del csv.

In [21]:
data = [
    {"name": "julanito", "grade": 3.7},
    {"name": "peranito", "grade": 3.3}
]
with open("temp.csv", mode="w") as f:
    writer = csv.DictWriter(f, fieldnames=["name", "grade"])
    writer.writeheader()
    for row in data:
        writer.writerow(row)

Puedes leer más en [Reading and Writing CSV Files in Python](https://realpython.com/python-csv/)

## JSON

Un archivo en formato JSON es muy similar a un diccionario de Python o una lista de diccionarios, por lo que es muy normal escribirlos a partir de diccionarios y leerlos como diccionarios. 

```json
[
    {
        "name": "julanito",
        "grade": 3.7
    },
    {
        "name": "peranito",
        "grade": 3.3
    }
]
```

In [22]:
import json

In [23]:
with open("local/files/coco_example.json", "r") as f:
    data = json.load(f)
data

{'images': [{'height': 600, 'width': 800, 'id': 1, 'file_name': '1.jpg'}],
 'categories': [{'supercategory': 'date', 'id': 1, 'name': 'date'},
  {'supercategory': 'fig', 'id': 2, 'name': 'fig'},
  {'supercategory': 'hazelnut', 'id': 3, 'name': 'hazelnut'}],
 'annotations': [{'segmentation': [[307.37888198757764,
     99.62111801242236,
     345.2670807453416,
     75.3975155279503,
     348.3726708074534,
     47.4472049689441,
     352.7204968944099,
     35.64596273291925,
     340.91925465838506,
     31.298136645962728,
     330.9813664596273,
     20.11801242236025,
     311.1055900621118,
     13.906832298136646,
     277.5652173913043,
     32.54037267080745,
     266.3850931677018,
     57.38509316770186,
     267.0062111801242,
     77.88198757763975,
     282.53416149068323,
     93.40993788819875]],
   'iscrowd': 0,
   'area': 5186.528297519399,
   'image_id': 1,
   'bbox': [266.0, 13.0, 86.0, 86.0],
   'category_id': 3,
   'id': 13},
  {'segmentation': [[620.4223602484471,


In [25]:
data = [
    {"name": "julanito", "grade": 3.7},
    {"name": "peranito", "grade": 3.3}
]
with open("temp.json", "w") as f:
    data = json.dump(data, f)

Esto es lo más importante a recordar cuando trabajas con archivos JSON. Si quieres saber más te sugiero leer [Working With JSON Data in Python](https://realpython.com/python-json/)

## XML

Otra estructura, un poco más compleja en mi opinión...

```xml
<annotation>
	<folder>GeneratedData_Train</folder>
	<filename>000001.png</filename>
	<path>/my/path/GeneratedData_Train/000001.png</path>
	<source>
		<database>Unknown</database>
	</source>
	<size>
		<width>224</width>
		<height>224</height>
		<depth>3</depth>
	</size>
	<segmented>0</segmented>
	<object>
		<name>21</name>
		<pose>Frontal</pose>
		<truncated>0</truncated>
		<difficult>0</difficult>
		<occluded>0</occluded>
		<bndbox>
			<xmin>82</xmin>
			<xmax>172</xmax>
			<ymin>88</ymin>
			<ymax>146</ymax>
		</bndbox>
	</object>
</annotation>
```

In [26]:
import xml.etree.ElementTree as ET

In [27]:
tree = ET.parse('local/files/pascalvoc_example.xml')
tree

<xml.etree.ElementTree.ElementTree at 0x2183153fcd0>

Este formato se puede representar como un árbol y podemos acceder recursivamente a cada uno de los elementos del árbol. Cada elemento del árbol tiene un `tag` y un `attrib` (atributo)

In [28]:
root = tree.getroot()

In [29]:
[(c.tag, c.attrib) for c in root]

[('folder', {}),
 ('filename', {}),
 ('path', {}),
 ('source', {}),
 ('size', {}),
 ('segmented', {}),
 ('object', {})]

In [70]:
root.find("object").find("bndbox").find("xmin").text

'82'

otra opción es usar [xmltodict](https://pypi.org/project/xmltodict/)

In [31]:
import xmltodict

In [39]:
xmltodict.parse(open("local/files/pascalvoc_example.xml", "r").read())

{'annotation': {'folder': 'GeneratedData_Train',
  'filename': '000001.png',
  'path': '/my/path/GeneratedData_Train/000001.png',
  'source': {'database': 'Unknown'},
  'size': {'width': '224', 'height': '224', 'depth': '3'},
  'segmented': '0',
  'object': {'name': '21',
   'pose': 'Frontal',
   'truncated': '0',
   'difficult': '0',
   'occluded': '0',
   'bndbox': {'xmin': '82', 'xmax': '172', 'ymin': '88', 'ymax': '146'}}}}

## YAML

Este formato es bastante parecido a JSON, pero un poco más legible

```yaml
name: Tests on PRs

on:
  pull_request:

jobs:
  test:
    runs-on: ubuntu-latest
    strategy:
      matrix:
        python-version: [3.7, 3.8]
    steps:
    - uses: actions/checkout@v2
    - name: Set up Python ${{ matrix.python-version }}
      uses: actions/setup-python@v2
      with:
        python-version: ${{ matrix.python-version }}
    - name: Install dependencies
      run: python -m pip install ".[dev]"
    - name: Test with pytest
      run: pytest --cov=lac --cov-report=term-missing
```

In [33]:
import yaml

In [34]:
with open("local/files/config_example.yml") as f:
    data = yaml.safe_load(f)

In [35]:
data

{'name': 'Tests on PRs',
 True: {'pull_request': None},
 'jobs': {'test': {'runs-on': 'ubuntu-latest',
   'strategy': {'matrix': {'python-version': [3.7, 3.8]}},
   'steps': [{'uses': 'actions/checkout@v2'},
    {'name': 'Set up Python ${{ matrix.python-version }}',
     'uses': 'actions/setup-python@v2',
     'with': {'python-version': '${{ matrix.python-version }}'}},
    {'name': 'Install dependencies', 'run': 'python -m pip install ".[dev]"'},
    {'name': 'Test with pytest',
     'run': 'pytest --cov=lac --cov-report=term-missing'}]}}}

In [37]:
data = [
    {"name": "julanito", "grade": 3.7},
    {"name": "peranito", "grade": 3.3}
]
with open("temp.yml", "w") as f:
    data = yaml.dump(data, f)

### Resumen de cuando usar cada uno!

In [77]:
# Archivos de texto
with open("documento.txt", "r") as f:
    texto = f.read()

# CSV
with open("datos.csv", "r") as f:
    contenido = f.read()

# JSON
with open("config.json", "r") as f:
    data = json.load(f)

# Imágenes
with open("foto.jpg", "rb") as f:
    imagen_bytes = f.read()

# Videos
with open("video.mp4", "rb") as f:
    video_data = f.read()

# Archivos ZIP
with open("archivo.zip", "rb") as f:
    zip_data = f.read()

FileNotFoundError: [Errno 2] No such file or directory: 'documento.txt'

## Usando blob
- ¿Qué es un Blob?
BLOB significa Binary Large Object (Objeto Binario Grande). Es una forma de manejar datos binarios como una secuencia de bytes.

- Conceptos Clave:
  - Todo archivo es bytes: Internamente, todos los archivos (texto, imagen, video) son secuencias de bytes
  - Sin interpretación: Un blob no interpreta los datos, solo los almacena como bytes
  - Flexibilidad: Puedes procesar cualquier tipo de archivo de forma uniforme

In [41]:
import io
from pathlib import Path

def read_file_as_blob(filepath):
    """Lee un archivo y lo retorna como blob (bytes)"""
    with open(filepath, "rb") as f:
        blob_data = f.read()
    return blob_data

# Ejemplo con imagen
image_blob = read_file_as_blob("local/imgs/udea-datascience.png")
print(f"Tamaño del blob de imagen: {len(image_blob)} bytes")
print(f"Primeros 20 bytes: {image_blob[:20]}")

# Ejemplo con archivo de texto como blob
text_blob = read_file_as_blob("local/files/abstract.txt")
print(f"Tamaño del blob de texto: {len(text_blob)} bytes")
print(f"filename: abstract.txt")
print(f"Contenido como string: {text_blob.decode('utf-8')[:100]}...")

Tamaño del blob de imagen: 15622 bytes
Primeros 20 bytes: b'\x89PNG\r\n\x1a\n\x00\x00\x00\rIHDR\x00\x00\x01/'
Tamaño del blob de texto: 1288 bytes
filename: abstract.txt
Contenido como string: Deeper neural networks are more difficult to train. We present a residual learning framework to ease...


In [42]:
import io
import json

def create_json_blob(data):
    """Crea un blob JSON en memoria"""
    # Convertir datos a JSON string
    json_string = json.dumps(data, indent=2)
    
    # Convertir a bytes
    json_bytes = json_string.encode('utf-8')
    
    # Crear blob en memoria
    blob = io.BytesIO(json_bytes)
    return blob

# Ejemplo de uso
data = [
    {"name": "Ana", "grade": 4.5, "course": "Data Science"},
    {"name": "Carlos", "grade": 3.8, "course": "Machine Learning"},
    {"name": "María", "grade": 4.2, "course": "Statistics"}
]

json_blob = create_json_blob(data)

# Leer desde el blob
json_blob.seek(0)  # Volver al inicio
content = json_blob.read()
print(f"Blob JSON size: {len(content)} bytes")

# Convertir de vuelta a datos
json_blob.seek(0)
loaded_data = json.loads(json_blob.read().decode('utf-8'))
print("Datos cargados desde blob:")
for item in loaded_data:
    print(f"  {item['name']}: {item['grade']}")

Blob JSON size: 239 bytes
Datos cargados desde blob:
  Ana: 4.5
  Carlos: 3.8
  María: 4.2


In [44]:
import os
from pathlib import Path
import mimetypes

class BlobManager:
    def __init__(self):
        self.blobs = {}
    
    def load_file_as_blob(self, filepath):
        """Carga un archivo como blob y guarda metadatos"""
        path = Path(filepath)
        
        if not path.exists():
            raise FileNotFoundError(f"Archivo no encontrado: {filepath}")
        
        # Leer archivo como blob
        with open(filepath, "rb") as f:
            blob_data = f.read()
        
        # Detectar tipo MIME
        mime_type, _ = mimetypes.guess_type(filepath)
        
        # Guardar blob con metadatos
        blob_info = {
            'data': blob_data,
            'size': len(blob_data),
            'mime_type': mime_type or 'application/octet-stream',
            'filename': path.name,
            'extension': path.suffix
        }
        
        self.blobs[path.name] = blob_info
        return blob_info
    
    def get_blob_info(self, filename):
        """Obtiene información de un blob"""
        return self.blobs.get(filename)
    
    def save_blob_to_file(self, filename, output_path):
        """Guarda un blob a un archivo"""
        if filename not in self.blobs:
            raise KeyError(f"Blob no encontrado: {filename}")
        
        blob_info = self.blobs[filename]
        with open(output_path, "wb") as f:
            f.write(blob_info['data'])
        
        print(f"Blob guardado en: {output_path}")

# Ejemplo de uso
blob_manager = BlobManager()

# Cargar diferentes tipos de archivos
files_to_load = [
    "local/imgs/udea-datascience.png",
    "local/files/abstract.txt",
    "local/data/demodata.csv",
    "local/files/coco_example.json"
]

for filepath in files_to_load:
    try:
        blob_info = blob_manager.load_file_as_blob(filepath)
        print(f"✅ Cargado: {blob_info['filename']}")
        print(f"   Tamaño: {blob_info['size']:,} bytes")
        print(f"   Tipo: {blob_info['mime_type']}")
        print(f"   Extensión: {blob_info['extension']}")
        print()
    except FileNotFoundError as e:
        print(f"❌ {e}")

✅ Cargado: udea-datascience.png
   Tamaño: 15,622 bytes
   Tipo: image/png
   Extensión: .png

✅ Cargado: abstract.txt
   Tamaño: 1,288 bytes
   Tipo: text/plain
   Extensión: .txt

✅ Cargado: demodata.csv
   Tamaño: 180 bytes
   Tipo: application/vnd.ms-excel
   Extensión: .csv

✅ Cargado: coco_example.json
   Tamaño: 12,348 bytes
   Tipo: application/json
   Extensión: .json



In [45]:
def read_large_file_as_blob_chunks(filepath, chunk_size=8192):
    """Lee archivos grandes en chunks como blobs"""
    chunks = []
    total_size = 0
    
    with open(filepath, "rb") as f:
        while True:
            chunk = f.read(chunk_size)
            if not chunk:
                break
            chunks.append(chunk)
            total_size += len(chunk)
            print(f"Leído chunk de {len(chunk)} bytes (Total: {total_size})")
    
    # Combinar todos los chunks en un solo blob
    complete_blob = b''.join(chunks)
    return complete_blob

def process_blob_in_memory(blob_data, file_type="unknown"):
    """Procesa un blob según su tipo"""
    if file_type == "text":
        # Procesar como texto
        text_content = blob_data.decode('utf-8')
        return {
            'type': 'text',
            'lines': len(text_content.splitlines()),
            'characters': len(text_content),
            'preview': text_content[:100] + "..." if len(text_content) > 100 else text_content
        }
    
    elif file_type == "image":
        # Información básica de imagen (sin librerías especiales)
        return {
            'type': 'image',
            'size_bytes': len(blob_data),
            'header': blob_data[:16].hex(),  # Primeros 16 bytes como hex
        }
    
    else:
        return {
            'type': 'binary',
            'size_bytes': len(blob_data),
            'header': blob_data[:16].hex() if len(blob_data) >= 16 else blob_data.hex()
        }

# Ejemplo de uso
try:
    # Leer archivo de texto como blob
    text_blob = read_large_file_as_blob_chunks("local/files/abstract.txt", chunk_size=100)
    text_info = process_blob_in_memory(text_blob, "text")
    print("Información del blob de texto:")
    print(f"  Líneas: {text_info['lines']}")
    print(f"  Caracteres: {text_info['characters']}")
    print(f"  Preview: {text_info['preview']}")
    
except FileNotFoundError:
    print("Archivo de ejemplo no encontrado")

Leído chunk de 100 bytes (Total: 100)
Leído chunk de 100 bytes (Total: 200)
Leído chunk de 100 bytes (Total: 300)
Leído chunk de 100 bytes (Total: 400)
Leído chunk de 100 bytes (Total: 500)
Leído chunk de 100 bytes (Total: 600)
Leído chunk de 100 bytes (Total: 700)
Leído chunk de 100 bytes (Total: 800)
Leído chunk de 100 bytes (Total: 900)
Leído chunk de 100 bytes (Total: 1000)
Leído chunk de 100 bytes (Total: 1100)
Leído chunk de 100 bytes (Total: 1200)
Leído chunk de 88 bytes (Total: 1288)
Información del blob de texto:
  Líneas: 2
  Caracteres: 1288
  Preview: Deeper neural networks are more difficult to train. We present a residual learning framework to ease...


In [46]:
import time
import sys

def compare_reading_methods(filepath):
    """Compara diferentes métodos de lectura de archivos"""
    if not Path(filepath).exists():
        print(f"Archivo no encontrado: {filepath}")
        return
    
    print(f"Comparando métodos de lectura para: {filepath}")
    print("=" * 50)
    
    # Método 1: Lectura completa como blob
    start_time = time.time()
    with open(filepath, "rb") as f:
        blob_data = f.read()
    blob_time = time.time() - start_time
    
    print(f"1. Lectura completa como blob:")
    print(f"   Tiempo: {blob_time:.4f} segundos")
    print(f"   Tamaño en memoria: {sys.getsizeof(blob_data)} bytes")
    
    # Método 2: Lectura por chunks
    start_time = time.time()
    chunks = []
    with open(filepath, "rb") as f:
        while True:
            chunk = f.read(1024)
            if not chunk:
                break
            chunks.append(chunk)
    chunks_time = time.time() - start_time
    
    print(f"2. Lectura por chunks:")
    print(f"   Tiempo: {chunks_time:.4f} segundos")
    print(f"   Número de chunks: {len(chunks)}")
    
    # Método 3: Con io.BytesIO
    start_time = time.time()
    with open(filepath, "rb") as f:
        bio = io.BytesIO(f.read())
    bio_time = time.time() - start_time
    
    print(f"3. Con io.BytesIO:")
    print(f"   Tiempo: {bio_time:.4f} segundos")
    print(f"   Posición actual: {bio.tell()}")
    
    bio.seek(0)
    sample = bio.read(50)
    print(f"   Muestra (50 bytes): {sample[:20]}...")

# Ejecutar comparación
try:
    compare_reading_methods("local/files/abstract.txt")
except Exception as e:
    print(f"Error: {e}")

Comparando métodos de lectura para: local/files/abstract.txt
1. Lectura completa como blob:
   Tiempo: 0.0000 segundos
   Tamaño en memoria: 1321 bytes
2. Lectura por chunks:
   Tiempo: 0.0000 segundos
   Número de chunks: 2
3. Con io.BytesIO:
   Tiempo: 0.0007 segundos
   Posición actual: 0
   Muestra (50 bytes): b'Deeper neural networ'...


In [47]:
folders = ["local/imgs", "local/photos"]  # Ejemplo de carpetas, ajusta según tus rutas

for folder in folders:
    for file in os.listdir(folder):
        if file.endswith(('.png', '.jpg', '.jpeg', '.gif')):
            filepath = os.path.join(folder, file)
            try:
                blob_info = blob_manager.load_file_as_blob(filepath)
                print(f"✅ Cargado: {blob_info['filename']} from {folder}")
                print(f"   Tamaño: {blob_info['size']:,} bytes")
                print(f"   Tipo: {blob_info['mime_type']}")
                print(f"   Extensión: {blob_info['extension']}")
                print()
            except Exception as e:
                print(f"❌ Error cargando {file} from {folder}: {e}")
    print(f"Processing folder: {folder}")

✅ Cargado: Asyncio.png from local/imgs
   Tamaño: 7,766 bytes
   Tipo: image/png
   Extensión: .png

✅ Cargado: colibri.jpg from local/imgs
   Tamaño: 147,325 bytes
   Tipo: image/jpeg
   Extensión: .jpg

✅ Cargado: ComputerBoard.png from local/imgs
   Tamaño: 10,786,182 bytes
   Tipo: image/png
   Extensión: .png

✅ Cargado: CPUBound.png from local/imgs
   Tamaño: 7,168 bytes
   Tipo: image/png
   Extensión: .png

✅ Cargado: CPUMP.png from local/imgs
   Tamaño: 19,894 bytes
   Tipo: image/png
   Extensión: .png

✅ Cargado: IOBound.png from local/imgs
   Tamaño: 7,276 bytes
   Tipo: image/png
   Extensión: .png

✅ Cargado: MProc.png from local/imgs
   Tamaño: 29,784 bytes
   Tipo: image/png
   Extensión: .png

✅ Cargado: Threading.png from local/imgs
   Tamaño: 10,752 bytes
   Tipo: image/png
   Extensión: .png

✅ Cargado: udea-datascience.png from local/imgs
   Tamaño: 15,622 bytes
   Tipo: image/png
   Extensión: .png

Processing folder: local/imgs


FileNotFoundError: [WinError 3] The system cannot find the path specified: 'local/photos'

### ¿Existe algun paquete que ya me permita abrir solo cierta extensión de un conjunto de carpetas?