<a href="https://colab.research.google.com/github/alfonsoayalapaloma/etl/blob/main/ETL_lab01_Mision_Hacker_Datos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 🕵️‍♂️ Misión Hacker: Identificación y Clasificación de Fuentes de Datos

Eres un poderoso hacker 🕶️ que se ha infiltrado en un sistema remoto y has encontrado **tres archivos misteriosos**:
- `data01.txt`
- `data02.txt`
- `data03.txt`

Tu misión es **identificarlos y clasificarlos**:
- ¿Son **CSV**? (valores separados por comas)
- ¿Son **JSON**? (estructura con llaves `{}` y listas `[]`)
- ¿O son **no estructurados**, texto caótico que requiere análisis manual?

## 🧪 Pasos Manuales
1. Usa el **explorador de Windows** para ver los archivos.
2. Abre cada archivo en un **editor de texto**.
3. Observa encabezados, líneas y delimitadores.

## 📊 Tabla Comparativa de Archivos

| Archivo     | Formato | Codificación | Tamaño (bytes) | Número de filas | Longitud promedio de fila | Delimitador (si aplica) | Estructura clara | Clasificación |
|-------------|---------|--------------|----------------|-----------------|---------------------------|--------------------------|------------------|---------------|
| data01.txt  |         |              |                |                 |                           |                          |                  |               |
| data02.txt  |         |              |                |                 |                           |                          |                  |               |
| data03.txt  |         |              |                |                 |                           |                          |                  |               |

## 🧩 Pasos para Análisis Automático con Python
Este script te ayudará a analizar los archivos de datos misteriosos.

- Determina el **tamaño del archivo** (bytes).
- Cuenta el **número de filas**.
- Calcula la **longitud promedio de cada fila**.
- Clasifica automáticamente el archivo en **JSON, CSV o No estructurado**.

In [None]:
import os
import json

def analyze_file(file_path):
    size_bytes = os.path.getsize(file_path)
    with open(file_path, 'r', encoding='utf-8', errors='ignore') as f:
        content = f.read()
    lines = content.splitlines()
    num_lines = len(lines)
    avg_line_length = sum(len(line) for line in lines) / num_lines if num_lines > 0 else 0

    file_type = "Unknown"
    try:
        json.loads(content)
        file_type = "JSON"
    except:
        if all(',' in line for line in lines if line.strip()):
            file_type = "CSV"
        elif any(line.strip() for line in lines):
            file_type = "Unstructured"

    return {
        "file": file_path,
        "size_bytes": size_bytes,
        "num_lines": num_lines,
        "avg_line_length": avg_line_length,
        "type": file_type
    }

files = ["data01.txt", "data02.txt", "data03.txt"]
for file in files:
    if os.path.exists(file):
        print(analyze_file(file))
    else:
        print({ "file": file, "error": "File not found" })

## 🧠 Tu Misión Final
¿Estás listo para **descifrar los secretos ocultos** en estos archivos y usarlos para el **BIEN**? 💻⚡