# Proyecto RA1: Analisis de Proyectos de Arquitectura
## Flujo 1: Pandas - Exploracion, Limpieza y ETL

Este notebook implementa:
- **Fase 1**: Exploracion y limpieza de datos
- **Fase 3**: Proceso ETL con Pandas
- **Fase 5**: Modelo de Data Warehouse (modelo dimensional)

## 1. Configuracion Inicial

In [3]:
# Importacion de librerias
import pandas as pd
import numpy as np
import sqlite3
import os
from datetime import datetime
import warnings
warnings.filterwarnings('ignore')

# Configuracion de visualizacion
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)
pd.set_option('display.float_format', '{:.2f}'.format)

# Configurar rutas del proyecto
# Detectar si estamos en Docker o en local
if os.path.exists('/app/data'):
    # Estamos en Docker
    DATA_PATH = '/app/data/proyectos_arquitectura.csv'
    WAREHOUSE_PATH = '/app/warehouse/warehouse_pandas.db'
    CLEAN_DATA_PATH = '/app/data/proyectos_arquitectura_limpio.csv'
else:
    # Estamos en local
    DATA_PATH = '../data/proyectos_arquitectura.csv'
    WAREHOUSE_PATH = '../warehouse/warehouse_pandas.db'
    CLEAN_DATA_PATH = '../data/proyectos_arquitectura_limpio.csv'

print('Librerias cargadas correctamente')
print(f'Ruta de datos: {DATA_PATH}')
print(f'Ruta de warehouse: {WAREHOUSE_PATH}')

Librerias cargadas correctamente
Ruta de datos: ../data/proyectos_arquitectura.csv
Ruta de warehouse: ../warehouse/warehouse_pandas.db


---
## 2. EXTRACCION (E) - Carga del Dataset

In [4]:
# Cargar el dataset original
df_raw = pd.read_csv(DATA_PATH)

print(f'Dataset cargado: {df_raw.shape[0]} filas x {df_raw.shape[1]} columnas')
print(f'\nColumnas del dataset:')
for col in df_raw.columns:
    print(f'   - {col}')

Dataset cargado: 10000 filas x 10 columnas

Columnas del dataset:
   - id_proyecto
   - nombre_proyecto
   - colaborador
   - fase
   - fecha_inicio
   - total_base
   - iva_porcentaje
   - total_con_iva
   - estado
   - ciudad


In [5]:
# Vista previa de los datos
df_raw.head(10)

Unnamed: 0,id_proyecto,nombre_proyecto,colaborador,fase,fecha_inicio,total_base,iva_porcentaje,total_con_iva,estado,ciudad
0,1.0,Proyecto Edificio 539,Pedro Ortega,Presupuesto,04-26-2024,78035.32,0.21,93642.38,Finalizado,bcn
1,2.0,Proyecto Residencial 103,Marta López,Presupuesto,21/06/2023,190389.29,21%,230371.04,Pendiente,Valencia
2,3.0,Proyecto Reforma 4921,Pedro Ortega,Presupuesto,2022-12-27,147738.82,0.21,178763.97,En curso,Bilbao
3,4.0,Proyecto Reforma 2950,Carlos Ruiz,Presupuesto,2022-08-16,1217384,0.10,133912.24,Pendiente,madrid
4,5.0,Proyecto Edificio 1975,LUIS DELGADO,Planificación,2023-06-19,35423.63€,10%,38965.99,Cancelado,Bilbao
5,6.0,Proyecto Oficina 2332,José Pérez,Presupuesto,09-19-2022,3541893,0.21,42856.91,En curso,Barcelona
6,7.0,Proyecto Reforma 4937,Lucía Fernández,Diseño,03-29-2022,16326.3,21,19754.82,En curso,BCN
7,8.0,Proyecto Reforma 2257,Juan Gómez,Planificación,2023-11-18,173904.35€,10,191294.79,En curso,Madrid
8,9.0,Proyecto Residencial 3649,Luis Delgado,Planificación,04-15-2023,12221743,0.10,134439.17,Finalizado,Barcelona
9,10.0,Proyecto Edificio 4928,marta lópez,Presupuesto,18/02/2024,143074.15,0.10,157381.57,Pendiente,MAD


In [6]:
# Informacion general del dataset
df_raw.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 10 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   id_proyecto      9774 non-null   float64
 1   nombre_proyecto  10000 non-null  object 
 2   colaborador      10000 non-null  object 
 3   fase             10000 non-null  object 
 4   fecha_inicio     10000 non-null  object 
 5   total_base       10000 non-null  object 
 6   iva_porcentaje   10000 non-null  object 
 7   total_con_iva    9815 non-null   float64
 8   estado           10000 non-null  object 
 9   ciudad           10000 non-null  object 
dtypes: float64(2), object(8)
memory usage: 781.4+ KB


---
## 3. EXPLORACION Y ANALISIS DE CALIDAD DE DATOS

In [7]:
# Analisis de valores nulos
print('ANALISIS DE VALORES NULOS')
print('='*50)
nulos = df_raw.isnull().sum()
nulos_pct = (df_raw.isnull().sum() / len(df_raw) * 100).round(2)

resumen_nulos = pd.DataFrame({
    'Columna': nulos.index,
    'Nulos': nulos.values,
    'Porcentaje (%)': nulos_pct.values
})
print(resumen_nulos.to_string(index=False))

ANALISIS DE VALORES NULOS
        Columna  Nulos  Porcentaje (%)
    id_proyecto    226            2.26
nombre_proyecto      0            0.00
    colaborador      0            0.00
           fase      0            0.00
   fecha_inicio      0            0.00
     total_base      0            0.00
 iva_porcentaje      0            0.00
  total_con_iva    185            1.85
         estado      0            0.00
         ciudad      0            0.00


In [8]:
# Analisis de duplicados
print('\nANALISIS DE DUPLICADOS')
print('='*50)
duplicados = df_raw.duplicated().sum()
print(f'Filas duplicadas completas: {duplicados}')

# Duplicados por nombre de proyecto
dup_nombre = df_raw['nombre_proyecto'].duplicated().sum()
print(f'Nombres de proyecto duplicados: {dup_nombre}')


ANALISIS DE DUPLICADOS
Filas duplicadas completas: 0
Nombres de proyecto duplicados: 1726


In [9]:
# Analisis de tipos de datos y problemas detectados
print('\nPROBLEMAS DE CALIDAD DETECTADOS')
print('='*50)

# 1. Problema con id_proyecto (valores nulos)
print(f'\n1. IDs nulos: {df_raw["id_proyecto"].isnull().sum()}')

# 2. Problema con colaborador (diferentes formatos de nombre)
print(f'\n2. Valores unicos de colaborador: {df_raw["colaborador"].nunique()}')
print('   Ejemplos de inconsistencias:')
colaboradores_sample = df_raw['colaborador'].unique()[:15]
for c in colaboradores_sample:
    print(f'      - {c}')

# 3. Problema con fecha_inicio (multiples formatos)
print(f'\n3. Formatos de fecha detectados (muestras):')
fechas_sample = df_raw['fecha_inicio'].dropna().unique()[:10]
for f in fechas_sample:
    print(f'      - {f}')

# 4. Problema con total_base (diferentes formatos numericos)
print(f'\n4. Formatos de total_base (muestras):')
totales_sample = df_raw['total_base'].dropna().unique()[:10]
for t in totales_sample:
    print(f'      - {t}')

# 5. Problema con iva_porcentaje (diferentes formatos)
print(f'\n5. Valores unicos de iva_porcentaje:')
print(df_raw['iva_porcentaje'].unique())

# 6. Problema con ciudad (diferentes formatos/mayusculas)
print(f'\n6. Valores unicos de ciudad:')
print(df_raw['ciudad'].unique())


PROBLEMAS DE CALIDAD DETECTADOS

1. IDs nulos: 226

2. Valores unicos de colaborador: 40
   Ejemplos de inconsistencias:
      - Pedro Ortega
      - Marta López
      - Carlos Ruiz
      - LUIS DELGADO
      - José Pérez
      - Lucía Fernández
      - Juan Gómez
      - Luis Delgado
      - marta lópez
      - ELENA RIVAS
      - Elena Rivas
      - MARTA LÓPEZ
      - PEDRO ORTEGA
      - Ana Morales
      - JUAN GÓMEZ

3. Formatos de fecha detectados (muestras):
      - 04-26-2024
      - 21/06/2023
      - 2022-12-27
      - 2022-08-16
      - 2023-06-19
      - 09-19-2022
      - 03-29-2022
      - 2023-11-18
      - 04-15-2023
      - 18/02/2024

4. Formatos de total_base (muestras):
      - 78035.32
      - 190389.29
      - 147738.82
      - 121738,4
      - 35423.63€
      - 35418,93
      - 16326.3
      - 173904.35€
      - 122217,43
      - 143074.15

5. Valores unicos de iva_porcentaje:
['0.21' '21%' '0.10' '10%' '21' '10']

6. Valores unicos de ciudad:
['bcn' 'Valencia'

---
## 4. TRANSFORMACION (T) - Limpieza y Normalizacion

In [10]:
# Crear copia para limpieza
df = df_raw.copy()
print('Iniciando proceso de limpieza...')
print(f'   Registros iniciales: {len(df)}')

Iniciando proceso de limpieza...
   Registros iniciales: 10000


### 4.1 Limpieza de ID de Proyecto

In [11]:
# Generar IDs para registros sin ID
max_id = df['id_proyecto'].max()
print(f'ID maximo existente: {max_id}')

# Asignar IDs secuenciales a los registros nulos
nulos_id = df['id_proyecto'].isnull()
nuevos_ids = range(int(max_id) + 1, int(max_id) + 1 + nulos_id.sum())
df.loc[nulos_id, 'id_proyecto'] = list(nuevos_ids)

# Convertir a entero
df['id_proyecto'] = df['id_proyecto'].astype(int)

print(f'IDs asignados. Rango: {df["id_proyecto"].min()} - {df["id_proyecto"].max()}')

ID maximo existente: 10000.0
IDs asignados. Rango: 1 - 10226


### 4.2 Normalizacion de Nombres de Colaboradores

In [12]:
def normalizar_colaborador(nombre):
    """Normaliza el nombre del colaborador a formato Titulo"""
    if pd.isna(nombre):
        return None
    # Eliminar puntos entre nombre y apellido
    nombre = str(nombre).replace('.', ' ')
    # Convertir a titulo (primera letra mayuscula)
    nombre = nombre.strip().title()
    # Eliminar espacios multiples
    nombre = ' '.join(nombre.split())
    return nombre

df['colaborador'] = df['colaborador'].apply(normalizar_colaborador)

print('Colaboradores normalizados:')
print(f'   Valores unicos: {df["colaborador"].nunique()}')
print(f'   Lista: {sorted(df["colaborador"].unique())}')

Colaboradores normalizados:
   Valores unicos: 10
   Lista: ['Ana Morales', 'Carlos Ruiz', 'Elena Rivas', 'José Pérez', 'Juan Gómez', 'Lucía Fernández', 'Luis Delgado', 'Marta López', 'María García', 'Pedro Ortega']


### 4.3 Normalizacion de Fechas

In [13]:
def parsear_fecha(fecha):
    """Convierte diferentes formatos de fecha a datetime"""
    if pd.isna(fecha):
        return None
    
    fecha_str = str(fecha).strip()
    
    # Lista de formatos posibles
    formatos = [
        '%Y-%m-%d',      # 2022-08-16
        '%m-%d-%Y',      # 04-26-2024
        '%d/%m/%Y',      # 21/06/2023
        '%m/%d/%Y',      # 08/11/2023
    ]
    
    for fmt in formatos:
        try:
            return pd.to_datetime(fecha_str, format=fmt)
        except:
            continue
    
    # Intentar con parser automatico
    try:
        return pd.to_datetime(fecha_str, dayfirst=True)
    except:
        return None

df['fecha_inicio'] = df['fecha_inicio'].apply(parsear_fecha)

# Verificar resultados
fechas_nulas = df['fecha_inicio'].isnull().sum()
print(f'Fechas parseadas')
print(f'   Fechas validas: {len(df) - fechas_nulas}')
print(f'   Fechas nulas: {fechas_nulas}')
print(f'   Rango: {df["fecha_inicio"].min()} a {df["fecha_inicio"].max()}')

Fechas parseadas
   Fechas validas: 10000
   Fechas nulas: 0
   Rango: 2022-01-01 00:00:00 a 2024-06-19 00:00:00


### 4.4 Limpieza de Valores Monetarios (total_base)

In [14]:
def limpiar_valor_monetario(valor):
    """Limpia y convierte valores monetarios a float"""
    if pd.isna(valor):
        return None
    
    valor_str = str(valor).strip()
    
    # Eliminar simbolo de euro
    valor_str = valor_str.replace('EUR', '').replace('€', '').strip()
    
    # Detectar si usa coma como decimal
    if ',' in valor_str and '.' not in valor_str:
        # Formato europeo: 121738,4 -> 121738.4
        valor_str = valor_str.replace(',', '.')
    elif ',' in valor_str and '.' in valor_str:
        # Formato con miles: 1.234,56 -> 1234.56
        valor_str = valor_str.replace('.', '').replace(',', '.')
    
    try:
        return float(valor_str)
    except:
        return None

df['total_base'] = df['total_base'].apply(limpiar_valor_monetario)
df['total_con_iva'] = df['total_con_iva'].apply(limpiar_valor_monetario)

print('Valores monetarios limpiados')
print(f'   total_base - Rango: {df["total_base"].min():.2f} - {df["total_base"].max():.2f}')
print(f'   total_con_iva - Nulos: {df["total_con_iva"].isnull().sum()}')

Valores monetarios limpiados
   total_base - Rango: 5002.27 - 199944.95
   total_con_iva - Nulos: 185


### 4.5 Normalizacion de IVA

In [15]:
def normalizar_iva(iva):
    """Normaliza el porcentaje de IVA a decimal (0.10 o 0.21)"""
    if pd.isna(iva):
        return None
    
    iva_str = str(iva).strip().replace('%', '')
    
    try:
        valor = float(iva_str)
        # Si es mayor a 1, dividir por 100
        if valor > 1:
            valor = valor / 100
        return valor
    except:
        return None

df['iva_porcentaje'] = df['iva_porcentaje'].apply(normalizar_iva)

print('IVA normalizado')
print(f'   Valores unicos: {sorted(df["iva_porcentaje"].dropna().unique())}')

IVA normalizado
   Valores unicos: [0.1, 0.21]


### 4.6 Normalizacion de Ciudades

In [16]:
# Mapeo de ciudades
mapeo_ciudades = {
    'bcn': 'Barcelona',
    'BCN': 'Barcelona',
    'barcelona': 'Barcelona',
    'Barcelona': 'Barcelona',
    'madrid': 'Madrid',
    'Madrid': 'Madrid',
    'MAD': 'Madrid',
    'Valencia': 'Valencia',
    'VAL': 'Valencia',
    'Bilbao': 'Bilbao'
}

df['ciudad'] = df['ciudad'].map(mapeo_ciudades)

print('Ciudades normalizadas')
print(f'   Valores unicos: {df["ciudad"].unique()}')
print(f'\n   Distribucion:')
print(df['ciudad'].value_counts())

Ciudades normalizadas
   Valores unicos: ['Barcelona' 'Valencia' 'Bilbao' 'Madrid']

   Distribucion:
ciudad
Barcelona    4063
Madrid       3013
Valencia     1925
Bilbao        999
Name: count, dtype: int64


### 4.7 Recalculo de total_con_iva donde falte

In [17]:
# Recalcular total_con_iva donde sea nulo
mask_nulo = df['total_con_iva'].isnull()
df.loc[mask_nulo, 'total_con_iva'] = df.loc[mask_nulo, 'total_base'] * (1 + df.loc[mask_nulo, 'iva_porcentaje'])

print(f'Recalculados {mask_nulo.sum()} valores de total_con_iva')

Recalculados 185 valores de total_con_iva


### 4.8 Creacion de Columnas Derivadas

In [18]:
# Extraer tipo de proyecto del nombre
def extraer_tipo_proyecto(nombre):
    """Extrae el tipo de proyecto del nombre"""
    if pd.isna(nombre):
        return 'Desconocido'
    nombre = str(nombre).lower()
    tipos = ['edificio', 'residencial', 'reforma', 'oficina', 'local']
    for tipo in tipos:
        if tipo in nombre:
            return tipo.capitalize()
    return 'Otro'

df['tipo_proyecto'] = df['nombre_proyecto'].apply(extraer_tipo_proyecto)

# Extraer componentes de fecha
df['anio'] = df['fecha_inicio'].dt.year
df['mes'] = df['fecha_inicio'].dt.month
df['trimestre'] = df['fecha_inicio'].dt.quarter

# Calcular importe de IVA
df['importe_iva'] = df['total_con_iva'] - df['total_base']

# Categorizar por tamano de proyecto
def categorizar_tamano(total):
    if pd.isna(total):
        return 'Sin clasificar'
    if total < 50000:
        return 'Pequeno'
    elif total < 100000:
        return 'Mediano'
    elif total < 150000:
        return 'Grande'
    else:
        return 'Muy Grande'

df['tamano_proyecto'] = df['total_base'].apply(categorizar_tamano)

print('Columnas derivadas creadas:')
print(f'   - tipo_proyecto: {df["tipo_proyecto"].unique()}')
print(f'   - anio: {sorted(df["anio"].dropna().unique())}')
print(f'   - tamano_proyecto: {df["tamano_proyecto"].unique()}')

Columnas derivadas creadas:
   - tipo_proyecto: ['Edificio' 'Residencial' 'Reforma' 'Oficina' 'Local']
   - anio: [2022, 2023, 2024]
   - tamano_proyecto: ['Mediano' 'Muy Grande' 'Grande' 'Pequeno']


### 4.9 Resumen del Dataset Limpio

In [19]:
print('RESUMEN DEL DATASET LIMPIO')
print('='*50)
print(f'Filas: {len(df)}')
print(f'Columnas: {len(df.columns)}')
print(f'\nColumnas: {list(df.columns)}')
print(f'\nValores nulos por columna:')
print(df.isnull().sum())

RESUMEN DEL DATASET LIMPIO
Filas: 10000
Columnas: 16

Columnas: ['id_proyecto', 'nombre_proyecto', 'colaborador', 'fase', 'fecha_inicio', 'total_base', 'iva_porcentaje', 'total_con_iva', 'estado', 'ciudad', 'tipo_proyecto', 'anio', 'mes', 'trimestre', 'importe_iva', 'tamano_proyecto']

Valores nulos por columna:
id_proyecto        0
nombre_proyecto    0
colaborador        0
fase               0
fecha_inicio       0
total_base         0
iva_porcentaje     0
total_con_iva      0
estado             0
ciudad             0
tipo_proyecto      0
anio               0
mes                0
trimestre          0
importe_iva        0
tamano_proyecto    0
dtype: int64


In [20]:
# Vista previa del dataset limpio
df.head(10)

Unnamed: 0,id_proyecto,nombre_proyecto,colaborador,fase,fecha_inicio,total_base,iva_porcentaje,total_con_iva,estado,ciudad,tipo_proyecto,anio,mes,trimestre,importe_iva,tamano_proyecto
0,1,Proyecto Edificio 539,Pedro Ortega,Presupuesto,2024-04-26,78035.32,0.21,93642.38,Finalizado,Barcelona,Edificio,2024,4,2,15607.06,Mediano
1,2,Proyecto Residencial 103,Marta López,Presupuesto,2023-06-21,190389.29,0.21,230371.04,Pendiente,Valencia,Residencial,2023,6,2,39981.75,Muy Grande
2,3,Proyecto Reforma 4921,Pedro Ortega,Presupuesto,2022-12-27,147738.82,0.21,178763.97,En curso,Bilbao,Reforma,2022,12,4,31025.15,Grande
3,4,Proyecto Reforma 2950,Carlos Ruiz,Presupuesto,2022-08-16,121738.4,0.1,133912.24,Pendiente,Madrid,Reforma,2022,8,3,12173.84,Grande
4,5,Proyecto Edificio 1975,Luis Delgado,Planificación,2023-06-19,35423.63,0.1,38965.99,Cancelado,Bilbao,Edificio,2023,6,2,3542.36,Pequeno
5,6,Proyecto Oficina 2332,José Pérez,Presupuesto,2022-09-19,35418.93,0.21,42856.91,En curso,Barcelona,Oficina,2022,9,3,7437.98,Pequeno
6,7,Proyecto Reforma 4937,Lucía Fernández,Diseño,2022-03-29,16326.3,0.21,19754.82,En curso,Barcelona,Reforma,2022,3,1,3428.52,Pequeno
7,8,Proyecto Reforma 2257,Juan Gómez,Planificación,2023-11-18,173904.35,0.1,191294.79,En curso,Madrid,Reforma,2023,11,4,17390.44,Muy Grande
8,9,Proyecto Residencial 3649,Luis Delgado,Planificación,2023-04-15,122217.43,0.1,134439.17,Finalizado,Barcelona,Residencial,2023,4,2,12221.74,Grande
9,10,Proyecto Edificio 4928,Marta López,Presupuesto,2024-02-18,143074.15,0.1,157381.57,Pendiente,Madrid,Edificio,2024,2,1,14307.42,Grande


In [21]:
# Estadisticas descriptivas
df.describe()

Unnamed: 0,id_proyecto,fecha_inicio,total_base,iva_porcentaje,total_con_iva,anio,mes,trimestre,importe_iva
count,10000.0,10000,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0
mean,5109.3,2023-03-30 17:55:49.440000,101361.11,0.15,117134.15,2022.8,5.89,2.3,15773.04
min,1.0,2022-01-01 00:00:00,5002.27,0.1,5502.5,2022.0,1.0,1.0,-1861.39
25%,2547.75,2022-08-17 00:00:00,53034.13,0.1,60937.81,2022.0,3.0,1.0,7014.77
50%,5106.5,2023-03-28 00:00:00,101043.08,0.1,116408.48,2023.0,5.0,2.0,13686.43
75%,7668.25,2023-11-15 00:00:00,149301.23,0.21,171293.02,2023.0,9.0,3.0,21658.9
max,10226.0,2024-06-19 00:00:00,199944.95,0.21,263316.33,2024.0,12.0,4.0,65210.72
std,2954.92,,56087.87,0.05,65121.23,0.74,3.46,1.12,11012.83


---
## 5. CONSTRUCCION DEL MODELO DIMENSIONAL

Se implementa un modelo en estrella con:
- **Tabla de hechos**: `fact_proyectos`
- **Dimensiones**: `dim_colaborador`, `dim_ciudad`, `dim_fecha`, `dim_tipo_proyecto`, `dim_estado`, `dim_fase`

### 5.1 Dimension Colaborador

In [22]:
# Crear dimension colaborador
dim_colaborador = df[['colaborador']].drop_duplicates().reset_index(drop=True)
dim_colaborador['id_colaborador'] = dim_colaborador.index + 1
dim_colaborador = dim_colaborador[['id_colaborador', 'colaborador']]

print(f'dim_colaborador creada: {len(dim_colaborador)} registros')
dim_colaborador

dim_colaborador creada: 10 registros


Unnamed: 0,id_colaborador,colaborador
0,1,Pedro Ortega
1,2,Marta López
2,3,Carlos Ruiz
3,4,Luis Delgado
4,5,José Pérez
5,6,Lucía Fernández
6,7,Juan Gómez
7,8,Elena Rivas
8,9,Ana Morales
9,10,María García


### 5.2 Dimension Ciudad

In [23]:
# Crear dimension ciudad
dim_ciudad = df[['ciudad']].drop_duplicates().dropna().reset_index(drop=True)
dim_ciudad['id_ciudad'] = dim_ciudad.index + 1
dim_ciudad = dim_ciudad[['id_ciudad', 'ciudad']]

print(f'dim_ciudad creada: {len(dim_ciudad)} registros')
dim_ciudad

dim_ciudad creada: 4 registros


Unnamed: 0,id_ciudad,ciudad
0,1,Barcelona
1,2,Valencia
2,3,Bilbao
3,4,Madrid


### 5.3 Dimension Tipo Proyecto

In [24]:
# Crear dimension tipo proyecto
dim_tipo_proyecto = df[['tipo_proyecto']].drop_duplicates().reset_index(drop=True)
dim_tipo_proyecto['id_tipo_proyecto'] = dim_tipo_proyecto.index + 1
dim_tipo_proyecto = dim_tipo_proyecto[['id_tipo_proyecto', 'tipo_proyecto']]

print(f'dim_tipo_proyecto creada: {len(dim_tipo_proyecto)} registros')
dim_tipo_proyecto

dim_tipo_proyecto creada: 5 registros


Unnamed: 0,id_tipo_proyecto,tipo_proyecto
0,1,Edificio
1,2,Residencial
2,3,Reforma
3,4,Oficina
4,5,Local


### 5.4 Dimension Fecha

In [25]:
# Crear dimension fecha
fechas_unicas = df['fecha_inicio'].dropna().drop_duplicates().sort_values()

dim_fecha = pd.DataFrame({
    'fecha': fechas_unicas
}).reset_index(drop=True)

dim_fecha['id_fecha'] = dim_fecha.index + 1
dim_fecha['anio'] = dim_fecha['fecha'].dt.year
dim_fecha['mes'] = dim_fecha['fecha'].dt.month
dim_fecha['dia'] = dim_fecha['fecha'].dt.day
dim_fecha['trimestre'] = dim_fecha['fecha'].dt.quarter
dim_fecha['nombre_mes'] = dim_fecha['fecha'].dt.month_name()
dim_fecha['dia_semana'] = dim_fecha['fecha'].dt.day_name()

dim_fecha = dim_fecha[['id_fecha', 'fecha', 'anio', 'mes', 'dia', 'trimestre', 'nombre_mes', 'dia_semana']]

print(f'dim_fecha creada: {len(dim_fecha)} registros')
dim_fecha.head(10)

dim_fecha creada: 901 registros


Unnamed: 0,id_fecha,fecha,anio,mes,dia,trimestre,nombre_mes,dia_semana
0,1,2022-01-01,2022,1,1,1,January,Saturday
1,2,2022-01-02,2022,1,2,1,January,Sunday
2,3,2022-01-03,2022,1,3,1,January,Monday
3,4,2022-01-04,2022,1,4,1,January,Tuesday
4,5,2022-01-05,2022,1,5,1,January,Wednesday
5,6,2022-01-06,2022,1,6,1,January,Thursday
6,7,2022-01-07,2022,1,7,1,January,Friday
7,8,2022-01-08,2022,1,8,1,January,Saturday
8,9,2022-01-09,2022,1,9,1,January,Sunday
9,10,2022-01-10,2022,1,10,1,January,Monday


### 5.5 Dimension Estado

In [26]:
# Crear dimension estado
dim_estado = df[['estado']].drop_duplicates().reset_index(drop=True)
dim_estado['id_estado'] = dim_estado.index + 1
dim_estado = dim_estado[['id_estado', 'estado']]

print(f'dim_estado creada: {len(dim_estado)} registros')
dim_estado

dim_estado creada: 4 registros


Unnamed: 0,id_estado,estado
0,1,Finalizado
1,2,Pendiente
2,3,En curso
3,4,Cancelado


### 5.6 Dimension Fase

In [27]:
# Crear dimension fase
dim_fase = df[['fase']].drop_duplicates().reset_index(drop=True)
dim_fase['id_fase'] = dim_fase.index + 1
dim_fase = dim_fase[['id_fase', 'fase']]

print(f'dim_fase creada: {len(dim_fase)} registros')
dim_fase

dim_fase creada: 4 registros


Unnamed: 0,id_fase,fase
0,1,Presupuesto
1,2,Planificación
2,3,Diseño
3,4,Obra


### 5.7 Tabla de Hechos

In [28]:
# Crear tabla de hechos con claves foraneas
fact_proyectos = df.copy()

# Merge con dimensiones para obtener IDs
fact_proyectos = fact_proyectos.merge(dim_colaborador, on='colaborador', how='left')
fact_proyectos = fact_proyectos.merge(dim_ciudad, on='ciudad', how='left')
fact_proyectos = fact_proyectos.merge(dim_tipo_proyecto, on='tipo_proyecto', how='left')
fact_proyectos = fact_proyectos.merge(dim_estado, on='estado', how='left')
fact_proyectos = fact_proyectos.merge(dim_fase, on='fase', how='left')
fact_proyectos = fact_proyectos.merge(dim_fecha[['id_fecha', 'fecha']], left_on='fecha_inicio', right_on='fecha', how='left')

# Seleccionar columnas para la tabla de hechos
fact_proyectos = fact_proyectos[[
    'id_proyecto',
    'nombre_proyecto',
    'id_colaborador',
    'id_ciudad',
    'id_tipo_proyecto',
    'id_estado',
    'id_fase',
    'id_fecha',
    'total_base',
    'iva_porcentaje',
    'total_con_iva',
    'importe_iva',
    'tamano_proyecto'
]]

print(f'fact_proyectos creada: {len(fact_proyectos)} registros')
print(f'   Columnas: {list(fact_proyectos.columns)}')
fact_proyectos.head(10)

fact_proyectos creada: 10000 registros
   Columnas: ['id_proyecto', 'nombre_proyecto', 'id_colaborador', 'id_ciudad', 'id_tipo_proyecto', 'id_estado', 'id_fase', 'id_fecha', 'total_base', 'iva_porcentaje', 'total_con_iva', 'importe_iva', 'tamano_proyecto']


Unnamed: 0,id_proyecto,nombre_proyecto,id_colaborador,id_ciudad,id_tipo_proyecto,id_estado,id_fase,id_fecha,total_base,iva_porcentaje,total_con_iva,importe_iva,tamano_proyecto
0,1,Proyecto Edificio 539,1,1,1,1,1,847,78035.32,0.21,93642.38,15607.06,Mediano
1,2,Proyecto Residencial 103,2,2,2,2,1,537,190389.29,0.21,230371.04,39981.75,Muy Grande
2,3,Proyecto Reforma 4921,1,3,3,3,1,361,147738.82,0.21,178763.97,31025.15,Grande
3,4,Proyecto Reforma 2950,3,4,3,2,1,228,121738.4,0.1,133912.24,12173.84,Grande
4,5,Proyecto Edificio 1975,4,3,1,4,2,535,35423.63,0.1,38965.99,3542.36,Pequeno
5,6,Proyecto Oficina 2332,5,1,4,3,1,262,35418.93,0.21,42856.91,7437.98,Pequeno
6,7,Proyecto Reforma 4937,6,1,3,3,3,88,16326.3,0.21,19754.82,3428.52,Pequeno
7,8,Proyecto Reforma 2257,7,4,3,3,2,687,173904.35,0.1,191294.79,17390.44,Muy Grande
8,9,Proyecto Residencial 3649,4,1,2,1,2,470,122217.43,0.1,134439.17,12221.74,Grande
9,10,Proyecto Edificio 4928,2,4,1,2,1,779,143074.15,0.1,157381.57,14307.42,Grande


---
## 6. CARGA (L) - Exportacion a SQLite

In [29]:
# Asegurar que existe el directorio warehouse
warehouse_dir = os.path.dirname(WAREHOUSE_PATH)
if not os.path.exists(warehouse_dir):
    os.makedirs(warehouse_dir)
    print(f'Directorio creado: {warehouse_dir}')

# Eliminar base de datos anterior si existe
if os.path.exists(WAREHOUSE_PATH):
    os.remove(WAREHOUSE_PATH)
    print(f'Base de datos anterior eliminada')

# Conexion a SQLite
conn = sqlite3.connect(WAREHOUSE_PATH)
print(f'Conexion establecida: {WAREHOUSE_PATH}')

Conexion establecida: ../warehouse/warehouse_pandas.db


In [30]:
# Cargar dimensiones
dim_colaborador.to_sql('dim_colaborador', conn, if_exists='replace', index=False)
print(f'dim_colaborador cargada: {len(dim_colaborador)} registros')

dim_ciudad.to_sql('dim_ciudad', conn, if_exists='replace', index=False)
print(f'dim_ciudad cargada: {len(dim_ciudad)} registros')

dim_tipo_proyecto.to_sql('dim_tipo_proyecto', conn, if_exists='replace', index=False)
print(f'dim_tipo_proyecto cargada: {len(dim_tipo_proyecto)} registros')

dim_estado.to_sql('dim_estado', conn, if_exists='replace', index=False)
print(f'dim_estado cargada: {len(dim_estado)} registros')

dim_fase.to_sql('dim_fase', conn, if_exists='replace', index=False)
print(f'dim_fase cargada: {len(dim_fase)} registros')

dim_fecha.to_sql('dim_fecha', conn, if_exists='replace', index=False)
print(f'dim_fecha cargada: {len(dim_fecha)} registros')

dim_colaborador cargada: 10 registros
dim_ciudad cargada: 4 registros
dim_tipo_proyecto cargada: 5 registros
dim_estado cargada: 4 registros
dim_fase cargada: 4 registros
dim_fecha cargada: 901 registros


In [31]:
# Cargar tabla de hechos
fact_proyectos.to_sql('fact_proyectos', conn, if_exists='replace', index=False)
print(f'fact_proyectos cargada: {len(fact_proyectos)} registros')

fact_proyectos cargada: 10000 registros


In [32]:
# Verificar carga
print('\nVERIFICACION DE CARGA EN SQLite')
print('='*50)

tablas = pd.read_sql("SELECT name FROM sqlite_master WHERE type='table'", conn)
print(f'Tablas creadas: {list(tablas["name"])}')

for tabla in tablas['name']:
    count = pd.read_sql(f'SELECT COUNT(*) as n FROM {tabla}', conn)['n'][0]
    print(f'   {tabla}: {count} registros')


VERIFICACION DE CARGA EN SQLite
Tablas creadas: ['dim_colaborador', 'dim_ciudad', 'dim_tipo_proyecto', 'dim_estado', 'dim_fase', 'dim_fecha', 'fact_proyectos']
   dim_colaborador: 10 registros
   dim_ciudad: 4 registros
   dim_tipo_proyecto: 5 registros
   dim_estado: 4 registros
   dim_fase: 4 registros
   dim_fecha: 901 registros
   fact_proyectos: 10000 registros


---
## 6.1 GENERACION DEL ARCHIVO DDL

Generamos el archivo SQL con la definicion del modelo dimensional.

In [None]:
# ============================================================
# GENERACION DEL ARCHIVO DDL (modelo_datawarehouse_pandas.sql)
# ============================================================

# Definir la ruta del archivo SQL
if os.path.exists('/app/warehouse'):
    SQL_PATH = '/app/warehouse/modelo_datawarehouse_pandas.sql'
else:
    SQL_PATH = '../warehouse/modelo_datawarehouse_pandas.sql'

# DDL completo del modelo dimensional
ddl_content = '''
-- ============================================================
-- MODELO DATAWAREHOUSE PANDAS
-- Proyecto RA1: Analisis de Proyectos de Arquitectura
-- Base de datos: warehouse_pandas.db
-- Generado automaticamente por 01_pandas.ipynb
-- ============================================================

-- ============================================================
-- TABLAS DE DIMENSIONES
-- ============================================================

-- Dimension: Colaboradores
CREATE TABLE IF NOT EXISTS dim_colaborador (
    id_colaborador INTEGER PRIMARY KEY,
    colaborador TEXT NOT NULL
);

-- Dimension: Ciudades
CREATE TABLE IF NOT EXISTS dim_ciudad (
    id_ciudad INTEGER PRIMARY KEY,
    ciudad TEXT NOT NULL
);

-- Dimension: Tipo de Proyecto
CREATE TABLE IF NOT EXISTS dim_tipo_proyecto (
    id_tipo_proyecto INTEGER PRIMARY KEY,
    tipo_proyecto TEXT NOT NULL
);

-- Dimension: Estado
CREATE TABLE IF NOT EXISTS dim_estado (
    id_estado INTEGER PRIMARY KEY,
    estado TEXT NOT NULL
);

-- Dimension: Fase
CREATE TABLE IF NOT EXISTS dim_fase (
    id_fase INTEGER PRIMARY KEY,
    fase TEXT NOT NULL
);

-- Dimension: Fecha
CREATE TABLE IF NOT EXISTS dim_fecha (
    id_fecha INTEGER PRIMARY KEY,
    fecha DATE NOT NULL,
    anio INTEGER,
    mes INTEGER,
    dia INTEGER,
    trimestre INTEGER,
    nombre_mes TEXT,
    dia_semana TEXT
);

-- ============================================================
-- TABLA DE HECHOS
-- ============================================================

CREATE TABLE IF NOT EXISTS fact_proyectos (
    id_proyecto INTEGER PRIMARY KEY,
    nombre_proyecto TEXT,
    id_colaborador INTEGER,
    id_ciudad INTEGER,
    id_tipo_proyecto INTEGER,
    id_estado INTEGER,
    id_fase INTEGER,
    id_fecha INTEGER,
    total_base REAL,
    iva_porcentaje REAL,
    total_con_iva REAL,
    importe_iva REAL,
    tamano_proyecto TEXT,
    FOREIGN KEY (id_colaborador) REFERENCES dim_colaborador(id_colaborador),
    FOREIGN KEY (id_ciudad) REFERENCES dim_ciudad(id_ciudad),
    FOREIGN KEY (id_tipo_proyecto) REFERENCES dim_tipo_proyecto(id_tipo_proyecto),
    FOREIGN KEY (id_estado) REFERENCES dim_estado(id_estado),
    FOREIGN KEY (id_fase) REFERENCES dim_fase(id_fase),
    FOREIGN KEY (id_fecha) REFERENCES dim_fecha(id_fecha)
);

-- ============================================================
-- INDICES PARA OPTIMIZACION
-- ============================================================

CREATE INDEX IF NOT EXISTS idx_fact_colaborador ON fact_proyectos(id_colaborador);
CREATE INDEX IF NOT EXISTS idx_fact_ciudad ON fact_proyectos(id_ciudad);
CREATE INDEX IF NOT EXISTS idx_fact_tipo ON fact_proyectos(id_tipo_proyecto);
CREATE INDEX IF NOT EXISTS idx_fact_estado ON fact_proyectos(id_estado);
CREATE INDEX IF NOT EXISTS idx_fact_fase ON fact_proyectos(id_fase);
CREATE INDEX IF NOT EXISTS idx_fact_fecha ON fact_proyectos(id_fecha);
'''

# Escribir el archivo SQL
with open(SQL_PATH, 'w') as f:
    f.write(ddl_content.strip())

print(f'Archivo DDL generado: {SQL_PATH}')
print(f'Tamano: {os.path.getsize(SQL_PATH)} bytes')

---
## 7. CONSULTAS DE EJEMPLO

In [33]:
# Consulta 1: Total facturado por ciudad
query1 = """
SELECT 
    c.ciudad,
    COUNT(*) as num_proyectos,
    ROUND(SUM(f.total_base), 2) as total_base,
    ROUND(SUM(f.total_con_iva), 2) as total_con_iva,
    ROUND(AVG(f.total_base), 2) as promedio_proyecto
FROM fact_proyectos f
JOIN dim_ciudad c ON f.id_ciudad = c.id_ciudad
GROUP BY c.ciudad
ORDER BY total_base DESC
"""
print('Total facturado por ciudad:')
pd.read_sql(query1, conn)

Total facturado por ciudad:


Unnamed: 0,ciudad,num_proyectos,total_base,total_con_iva,promedio_proyecto
0,Barcelona,4063,408179267.77,471996565.11,100462.53
1,Madrid,3013,307235074.68,354874430.39,101969.82
2,Valencia,1925,198195057.73,229044437.95,102958.47
3,Bilbao,999,100001737.35,115426073.53,100101.84


In [34]:
# Consulta 2: Proyectos por colaborador y estado
query2 = """
SELECT 
    col.colaborador,
    e.estado,
    COUNT(*) as num_proyectos,
    ROUND(SUM(f.total_base), 2) as total_facturado
FROM fact_proyectos f
JOIN dim_colaborador col ON f.id_colaborador = col.id_colaborador
JOIN dim_estado e ON f.id_estado = e.id_estado
GROUP BY col.colaborador, e.estado
ORDER BY col.colaborador, num_proyectos DESC
"""
print('Proyectos por colaborador y estado:')
pd.read_sql(query2, conn)

Proyectos por colaborador y estado:


Unnamed: 0,colaborador,estado,num_proyectos,total_facturado
0,Ana Morales,Pendiente,268,29748412.13
1,Ana Morales,En curso,266,24817498.05
2,Ana Morales,Finalizado,245,25930500.62
3,Ana Morales,Cancelado,245,24599481.59
4,Carlos Ruiz,En curso,265,26878560.68
5,Carlos Ruiz,Pendiente,250,26907105.24
6,Carlos Ruiz,Cancelado,248,24526456.61
7,Carlos Ruiz,Finalizado,232,21909334.93
8,Elena Rivas,Pendiente,260,25623364.05
9,Elena Rivas,Finalizado,254,26103406.12


In [35]:
# Consulta 3: Evolucion mensual por anio
query3 = """
SELECT 
    d.anio,
    d.mes,
    COUNT(*) as num_proyectos,
    ROUND(SUM(f.total_base), 2) as total_facturado
FROM fact_proyectos f
JOIN dim_fecha d ON f.id_fecha = d.id_fecha
GROUP BY d.anio, d.mes
ORDER BY d.anio, d.mes
"""
print('Evolucion mensual:')
pd.read_sql(query3, conn)

Evolucion mensual:


Unnamed: 0,anio,mes,num_proyectos,total_facturado
0,2022,1,318,33027967.31
1,2022,2,317,31401576.89
2,2022,3,343,35305455.14
3,2022,4,338,32275171.8
4,2022,5,313,33962780.78
5,2022,6,357,36915166.03
6,2022,7,348,35145260.94
7,2022,8,338,32085283.6
8,2022,9,309,31853383.03
9,2022,10,327,33436671.14


In [36]:
# Consulta 4: Top 10 proyectos mas grandes
query4 = """
SELECT 
    f.nombre_proyecto,
    col.colaborador,
    c.ciudad,
    tp.tipo_proyecto,
    ROUND(f.total_base, 2) as total_base,
    f.tamano_proyecto
FROM fact_proyectos f
JOIN dim_colaborador col ON f.id_colaborador = col.id_colaborador
JOIN dim_ciudad c ON f.id_ciudad = c.id_ciudad
JOIN dim_tipo_proyecto tp ON f.id_tipo_proyecto = tp.id_tipo_proyecto
ORDER BY f.total_base DESC
LIMIT 10
"""
print('Top 10 proyectos mas grandes:')
pd.read_sql(query4, conn)

Top 10 proyectos mas grandes:


Unnamed: 0,nombre_proyecto,colaborador,ciudad,tipo_proyecto,total_base,tamano_proyecto
0,Proyecto Local 4722,Elena Rivas,Barcelona,Local,199944.95,Muy Grande
1,Proyecto Local 2284,Lucía Fernández,Barcelona,Local,199913.75,Muy Grande
2,Proyecto Residencial 4438,María García,Barcelona,Residencial,199903.51,Muy Grande
3,Proyecto Oficina 449,Juan Gómez,Madrid,Oficina,199894.83,Muy Grande
4,Proyecto Local 2376,Pedro Ortega,Barcelona,Local,199885.68,Muy Grande
5,Proyecto Local 4008,Elena Rivas,Valencia,Local,199873.31,Muy Grande
6,Proyecto Edificio 1059,Carlos Ruiz,Barcelona,Edificio,199845.42,Muy Grande
7,Proyecto Residencial 3034,Pedro Ortega,Barcelona,Residencial,199786.42,Muy Grande
8,Proyecto Residencial 1404,Juan Gómez,Bilbao,Residencial,199784.06,Muy Grande
9,Proyecto Oficina 1612,Elena Rivas,Valencia,Oficina,199764.62,Muy Grande


In [37]:
# Cerrar conexion
conn.close()
print(f'\nConexion cerrada.')
print(f'Base de datos guardada en: {WAREHOUSE_PATH}')


Conexion cerrada.
Base de datos guardada en: ../warehouse/warehouse_pandas.db


---
## 8. EXPORTAR DATASET LIMPIO

In [38]:
# Guardar dataset limpio para uso en PySpark
df.to_csv(CLEAN_DATA_PATH, index=False)
print(f'Dataset limpio guardado en: {CLEAN_DATA_PATH}')

Dataset limpio guardado en: ../data/proyectos_arquitectura_limpio.csv


---
## 9. VERIFICACION FINAL

In [39]:
# Verificar que los archivos se crearon correctamente
print('VERIFICACION DE ARCHIVOS CREADOS')
print('='*50)

if os.path.exists(WAREHOUSE_PATH):
    size = os.path.getsize(WAREHOUSE_PATH) / 1024  # KB
    print(f'warehouse_pandas.db: {size:.2f} KB')
else:
    print('ERROR: warehouse_pandas.db no se creo!')

if os.path.exists(CLEAN_DATA_PATH):
    size = os.path.getsize(CLEAN_DATA_PATH) / 1024  # KB
    print(f'proyectos_arquitectura_limpio.csv: {size:.2f} KB')
else:
    print('ERROR: proyectos_arquitectura_limpio.csv no se creo!')

print('\nProceso ETL con Pandas COMPLETADO!')

VERIFICACION DE ARCHIVOS CREADOS
warehouse_pandas.db: 948.00 KB
proyectos_arquitectura_limpio.csv: 1455.48 KB

Proceso ETL con Pandas COMPLETADO!


---
## RESUMEN DEL PROCESO ETL CON PANDAS

### Extraccion (E)
- Lectura del archivo CSV con 10,000 registros de proyectos de arquitectura

### Transformacion (T)
- Limpieza de IDs nulos (asignacion automatica)
- Normalizacion de nombres de colaboradores (formato titulo)
- Parseo de fechas en multiples formatos
- Limpieza de valores monetarios (EUR, comas, puntos)
- Normalizacion de IVA (porcentaje a decimal)
- Estandarizacion de ciudades
- Recalculo de total_con_iva donde faltaba
- Creacion de columnas derivadas (tipo_proyecto, anio, mes, trimestre, tamano)

### Carga (L)
- Modelo dimensional en estrella
- 6 tablas de dimensiones + 1 tabla de hechos
- Base de datos SQLite: warehouse_pandas.db