# Universidad Libre - Seccional Cali<br>Facultad de Ingeniería - Diplomado en Ciencia de Datos<br>(ↄ) Diego Fernando Marin, 2024

# 01_consolidar
Plantilla para el desarrollo del proyecto del diplomado de Ciencia de Datos, aplicando buenas prácticas.

---

Este cuaderno se enfoca en la integración de las distintas fuentes de datos en un formato cohesivo y estructurado. Aquí transformamos múltiples conjuntos de datos en una base unificada que servirá para los análisis posteriores.

**Propósito:** Crear una vista unificada y coherente de todos los datos recolectados, facilitando su posterior procesamiento y análisis.

**Tareas habituales:**
- Renombrar archivos
- Unión vertical de archivos complementarios (`union`)
- Combinar archivos (`joins`: inner, left, right, full outer)
- Estandarización inicial de formatos de columnas
- Verificación de consistencia en las uniones
- Validación de cardinalidad en las relaciones
- Gestión de duplicados producto de las uniones

In [1]:
import os
import pandas as pd

In [3]:
cwd = os.getcwd() # current working directory
raw_dir = cwd + '/../data/raw/'
landing_dir = cwd + '/../data/landing/'

1. Recorriendo los diferentes directorios y sacando los nombres de los archivos:

In [5]:
archivos = []
for ruta in os.listdir(raw_dir):
    if os.path.isdir(raw_dir + ruta):
        for archivo in os.listdir(raw_dir + ruta):
            # validar si es Excel?
            archivos.append(raw_dir + ruta + '/' + archivo)

In [7]:
archivos

['/Users/dfmarin/Public/Proyecto_Ciencia_de_Datos/src/../data/raw/2022/11_noviembre.xlsx',
 '/Users/dfmarin/Public/Proyecto_Ciencia_de_Datos/src/../data/raw/2022/12_diciembre.xlsx',
 '/Users/dfmarin/Public/Proyecto_Ciencia_de_Datos/src/../data/raw/2024/03_marzo.xlsx',
 '/Users/dfmarin/Public/Proyecto_Ciencia_de_Datos/src/../data/raw/2024/01_enero.xlsx',
 '/Users/dfmarin/Public/Proyecto_Ciencia_de_Datos/src/../data/raw/2024/02_febrero.xlsx',
 '/Users/dfmarin/Public/Proyecto_Ciencia_de_Datos/src/../data/raw/2023/03_marzo.xlsx',
 '/Users/dfmarin/Public/Proyecto_Ciencia_de_Datos/src/../data/raw/2023/11_noviembre.xlsx',
 '/Users/dfmarin/Public/Proyecto_Ciencia_de_Datos/src/../data/raw/2023/01_enero.xlsx',
 '/Users/dfmarin/Public/Proyecto_Ciencia_de_Datos/src/../data/raw/2023/07_julio.xlsx',
 '/Users/dfmarin/Public/Proyecto_Ciencia_de_Datos/src/../data/raw/2023/09_septiembre.xlsx',
 '/Users/dfmarin/Public/Proyecto_Ciencia_de_Datos/src/../data/raw/2023/04_abril.xlsx',
 '/Users/dfmarin/Public/

In [9]:
df = pd.DataFrame()

for archivo in sorted(archivos):
    df_temp = pd.read_excel(archivo)
    df = pd.concat([df, df_temp], ignore_index=True)

In [11]:
df

Unnamed: 0,fecha,codigo,venta
0,2022-11-01,1434,121672.710000
1,2022-11-02,1656,133636.640000
2,2022-11-03,1875,210932.180000
3,2022-11-04,1434,111660.390000
4,2022-11-05,1545,146417.560000
...,...,...,...
512,2024-03-27,1156,452331.135622
513,2024-03-28,1375,246045.083440
514,2024-03-29,934,425815.429745
515,2024-03-30,1156,320997.018300


2. Buscando todos los archivos con una condición, usando Glob:

In [13]:
import glob

In [15]:
archivos = glob.glob(raw_dir + '*/*.xlsx')

In [17]:
archivos

['/Users/dfmarin/Public/Proyecto_Ciencia_de_Datos/src/../data/raw/2022/11_noviembre.xlsx',
 '/Users/dfmarin/Public/Proyecto_Ciencia_de_Datos/src/../data/raw/2022/12_diciembre.xlsx',
 '/Users/dfmarin/Public/Proyecto_Ciencia_de_Datos/src/../data/raw/2024/03_marzo.xlsx',
 '/Users/dfmarin/Public/Proyecto_Ciencia_de_Datos/src/../data/raw/2024/01_enero.xlsx',
 '/Users/dfmarin/Public/Proyecto_Ciencia_de_Datos/src/../data/raw/2024/02_febrero.xlsx',
 '/Users/dfmarin/Public/Proyecto_Ciencia_de_Datos/src/../data/raw/2023/03_marzo.xlsx',
 '/Users/dfmarin/Public/Proyecto_Ciencia_de_Datos/src/../data/raw/2023/11_noviembre.xlsx',
 '/Users/dfmarin/Public/Proyecto_Ciencia_de_Datos/src/../data/raw/2023/01_enero.xlsx',
 '/Users/dfmarin/Public/Proyecto_Ciencia_de_Datos/src/../data/raw/2023/07_julio.xlsx',
 '/Users/dfmarin/Public/Proyecto_Ciencia_de_Datos/src/../data/raw/2023/09_septiembre.xlsx',
 '/Users/dfmarin/Public/Proyecto_Ciencia_de_Datos/src/../data/raw/2023/04_abril.xlsx',
 '/Users/dfmarin/Public/

In [19]:
datos = []
for archivo in sorted(archivos):
    datos.append(pd.read_excel(archivo))

df = pd.concat(datos, ignore_index=True)

In [21]:
df

Unnamed: 0,fecha,codigo,venta
0,2022-11-01,1434,121672.710000
1,2022-11-02,1656,133636.640000
2,2022-11-03,1875,210932.180000
3,2022-11-04,1434,111660.390000
4,2022-11-05,1545,146417.560000
...,...,...,...
512,2024-03-27,1156,452331.135622
513,2024-03-28,1375,246045.083440
514,2024-03-29,934,425815.429745
515,2024-03-30,1156,320997.018300


**Último paso**: Guardar los datos (union, joins) en un o más archivos, según sea necesario:

In [23]:
df.to_csv(landing_dir + 'datos_consolidados.csv', index=False)