# Parte 2: Linux

## 2.1 Scripting con bash

Contexto: Eres un ingeniero de datos que trabaja con grandes volúmenes de archivos CSV. Se te pide que automatices un proceso en Bash para analizar estos archivos, contar las líneas y calcular su tamaño total. Además, debes simular un sistema de archivos realista para un proyecto de Data Engineering y Big Data, con carpetas que representen las fases del flujo de datos.

Instrucciones:

1.Escribe un script en Bash que haga lo siguiente:

1. Crea un sistema de archivos para un proyecto de Data Engineering y Big Data, con directorios y archivos vacíos representativos.
2. En el directorio raw_data, crea 5 archivos CSV vacíos de referencia.
3. Recorre todos los archivos CSV en el directorio raw_data, cuenta el número de líneas en cada archivo y muestra el nombre del  archivo seguido por el número de líneas.
5. Calcula el tamaño total (en bytes) de todos los archivos CSV combinados.
6. Guarda el resultado de los archivos y sus líneas, así como el tamaño total en un archivo de log llamado data_summary.log.

El sistema de archivos debe ser asi:

In [None]:
/proyecto_data_engineering/
├── ingestión_datos/
│   ├── raw_data/
│       └── archivo1.csv
│       └── archivo2.csv
│       └── archivo3.csv
│       └── archivo4.csv
│       └── archivo5.csv
│   ├── scripts_ingestión/
│       └── script_ingest.sh  # Script de ingestión de datos
│   └── logs_ingestión/
├── procesamiento/
│   ├── scripts_procesamiento/
│       └── procesar_datos.py  # Script para procesar datos
│   ├── datos_procesados/
│   └── logs_procesamiento/
├── análisis/
│   ├── notebooks/
│       └── analisis_datos.ipynb  # Jupyter Notebook para análisis
│   ├── informes/
│       └── informe_final.pdf  # Archivo PDF simulado
│   └── gráficos/
└── almacenamiento/
    ├── backup/
    └── datos_historicos/


#### Preguntas adicionales. No van dentro del script

1. ¿Cómo podrías cambiar los permisos de todos los archivos en el directorio scripts_procesamiento para que sean ejecutables solo por el propietario?

2. ¿Cómo podrías mover todos los archivos .csv del directorio raw_data a datos_procesados?

3. ¿Cómo podrías eliminar todos los archivos .log del directorio logs_procesamiento y sus subdirectorios?

4. ¿Cómo podrías contar el número total de archivos y subdirectorios en el directorio procesamiento?

5. ¿Cómo podrías copiar recursivamente todo el contenido del directorio backup al directorio datos_historicos?

6. ¿Cómo podrías buscar en todos los archivos .py del directorio scripts_procesamiento una palabra clave, por ejemplo, "procesar"?

7. ¿Cómo podrías mostrar el contenido de todos los archivos .sh en el directorio scripts_ingestión?

### 2.2 Expresiones Regulares

Responder las preguntas a continuación partiendo del fichero datos.csv. 

#### Pregunta 1: Corregir Formatos de Fechas

Algunos de los registros en la columna `Fecha` tienen formatos incorrectos. Utiliza expresiones regulares para identificar y corregir los formatos erróneos y convertirlos al formato estándar **YYYY-MM-DD**. Los formatos que debes corregir incluyen:

- **10/11/2023** → **2023-10-11**
- **12-Oct-23** → **2023-10-12**
- **2023.10.12** → **2023-10-12**

### Hint:
Usa expresiones regulares para identificar diferentes patrones de fecha y corregirlos al formato estándar **YYYY-MM-DD**.

#### Pregunta 2: Verificar Correos Electrónicos

La columna `Correo` contiene algunos correos con dominios incorrectos. Utiliza expresiones regulares para identificar los correos que tienen dominios erróneos, como:

- **@gmail.con**
- **@outlook.ccom**
- **@protonmail.cm**

Corrige los errores en los dominios para convertirlos a sus formatos correctos:

- **@gmail.con** → **@gmail.com**
- **@outlook.ccom** → **@outlook.com**
- **@protonmail.cm** → **@protonmail.com**

### Hint:
Usa expresiones regulares para buscar y reemplazar patrones en las direcciones de correo.

#### Pregunta 3: Encontrar Clientes con IPs en un Rango Específico

Utiliza una expresión regular para encontrar todos los clientes cuya dirección IP comience con `192.168.`. Devuelve una lista de los nombres de estos clientes.

### Hint:
Usa una expresión regular que coincida con IPs en el formato `192.168.x.x`.


#### Pregunta 4: Extraer el Año de las Fechas

Usando expresiones regulares, extrae el año de las fechas en la columna `Fecha`. Devuelve una nueva columna que contenga únicamente el año de cada registro.

### Hint:
Utiliza una expresión regular para capturar los cuatro dígitos que representan el año.

#### Pregunta 5: Validar el Formato de las IDs de Cliente

En la columna `ID_Cliente`, cada ID debe seguir el formato de un UUID, que tiene el patrón **8-4-4-4-12** (ejemplo: `a412a2b4-dc63-4e79-9835-802d745836f5`). Usa una expresión regular para validar si todos los IDs de cliente siguen este formato.

### Hint:
Usa una expresión regular para validar el patrón de un UUID.