## Desafío N.1 - Datos Sintéticos

### Objetivo

Simular datos sintéticos de manera automática para simularan una organización, los datos generados incluyen:

- **Departamentos**: áreas funcionales como Finanzas, Marketing, IT, entre otras.  
- **Puestos de trabajo**: roles típicos como Analista, Gerente, Técnico, etc.  
- **Empleados**: personas con atributos como nombre, correo, teléfono, salario y fecha de contratación.


### Tecnologías utilizadas

| Herramienta | Propósito |
|-------------|-----------|
| `Faker`     | Generar datos sintéticos como nombres, correos, fechas y teléfonos |
| `pandas`    | Crear y manipular estructuras de datos tipo DataFrame |
| `random`    | Asignar valores aleatorios como salario, departamento y puesto |


### Estructura del código

El script se divide en tres bloques principales:

1. **Generación de departamentos**
   - Se define una lista fija de nombres de departamentos.
   - Se crea un ID secuencial para identificar cada departamento.
   - Se asigna un `department_id` secuencial y una ciudad generada aleatoriamente como ubicación (`location`) usando `Faker`.

```python
departments = ["Tecnología", "Finanzas", "Recursos Humanos", "Marketing", "Operaciones"]
departments_df = pd.DataFrame({
    "department_id": range(1, len(departments) + 1),
    "department_name": departments,
    "location": [fake.city() for _ in departments]
})

2. **Generación de puestos de trabajo**
    - Se fijan puestos de trabajo para los departamentos creados.
    - Se crea un ID secuencial (`job_id`) para identificar cada puesto.
    - Se asgina n salario mínimo (`min_salary`) generado aleatoriamente entre 2.000.000 y 5.000.000.
    - Se asigna un máximo (`max_salary`) generado aleatoriamente entre 5.000.001 y 10.000.000.
    
```python
puestos = ["Analista", "Gerente", "Asistente", "Director", "Técnico"]
df_puestos = pd.DataFrame({
    "job_id": range(1, len(puestos) + 1),
    "job_title": puestos,
    "min_salary": [random.randint(2_000_000, 5_000_000) for _ in puestos],
    "max_salary": [random.randint(5_000_001, 10_000_000) for _ in puestos]
})

3. **Empleados**

Se generan 50 empleados con atributos realistas utilizando la librería `Faker`. Cada empleado incluye:

- Un `employee_id` único.
- Nombre (`first_name`) y apellido (`last_name`).
- Correo electrónico generado a partir del nombre y apellido.
- Número de teléfono simulado.
- Fecha de contratación aleatoria entre hoy y hace 5 años.
- Salario aleatorio entre 2.000.000 y 10.000.000.
- Asociación aleatoria a un departamento (`department_id`) y a un puesto (`job_id`).

```python
dominios = ["gmail.com", "outlook.com", "yahoo.es", "empresa.com", "correo.com"]
empleados = []
for i in range(1, 1001): 
    first_name = fake.first_name()
    last_name = fake.last_name()
    email = f"{first_name.lower()}.{last_name.lower()}@{random.choice(dominios)}"
    job_id = random.randint(1, len(puestos))
    min_sal = df_puestos.loc[df_puestos["job_id"] == job_id, "min_salary"].values[0]
    max_sal = df_puestos.loc[df_puestos["job_id"] == job_id, "max_salary"].values[0]
    salary = round(random.uniform(min_sal, max_sal))
    empleados.append({
        "employee_id": i,
        "first_name": first_name,
        "last_name": last_name,
        "email": email,
        "phone_number": fake.phone_number(),
        "department_id": random.randint(1, len(departamentos)),
        "job_id": job_id,
        "salary": salary,
        "hire_date": fake.date_between(start_date="-5y", end_date="today")
    })

df_empleados = pd.DataFrame(empleados)

-----------------

## Desafío N.2 - Almacenamiento de datos

Los tres DataFrames generados fueron almacenados en formato **CSV** y **Parquet** dentro de la carpeta `data/`.

#### Formatos utilizados

| Formato  | Ventajas principales |
|----------|----------------------|
| CSV      | Simple, legible, ampliamente compatible con motores como excel, powerbi, pentaho |
| Parquet  | Eficiente en espacio, rápido para lectura/escritura, ideal para grandes volúmenes, perfecto para ser consumido por servicion en la nube como Azure Databricks |

#### Archivos generados

- `data/departments.csv`  
- `data/jobs.csv`  
- `data/employees.csv`  
- `data/departments.parquet`  
- `data/jobs.parquet`  
- `data/employees.parquet`

#### Justificación

Se eligió **Parquet** como formato complementario por las siguientes razones:

- Es altamente eficiente en almacenamiento y velocidad de lectura.
- Utiliza un formato **columnar**, lo que permite acceder rápidamente a columnas específicas sin cargar todo el archivo.
- Está optimizado para entornos de análisis en la nube como **Azure**, **AWS**, **Databricks** y **BigQuery**.
- Es ideal para **almacenamiento distribuido**, especialmente en arquitecturas orientadas a Big Data y Data Lakes.

Por estas ventajas, Parquet complementa al formato CSV, ofreciendo una solución más robusta para procesamiento escalable y análisis avanzado.
