# CAE ETL & Business Intelligence - An√°lisis de Ingestion y ETL

## üéØ Objetivo del Notebook

Este notebook realiza un an√°lisis exhaustivo del proceso de extracci√≥n, transformaci√≥n y carga (ETL) de datos relacionados con el sistema de Coordinaci√≥n de Actividades Empresariales (CAE) en Espa√±a.

### üìã Contenidos
1. **Extracci√≥n de Datos Reales**: An√°lisis de fuentes oficiales
2. **Validaci√≥n de Integridad**: Verificaci√≥n de calidad de datos
3. **Transformaci√≥n de Datos**: Procesamiento y limpieza
4. **An√°lisis Exploratorio**: Insights iniciales sobre el sistema CAE
5. **Visualizaciones**: Gr√°ficos interactivos con Plotly

### üîç Fuentes de Datos
- **BOE**: Bolet√≠n Oficial del Estado
- **INE**: Instituto Nacional de Estad√≠stica
- **ITSS**: Inspecci√≥n de Trabajo y Seguridad Social
- **FLC**: Fundaci√≥n Laboral de la Construcci√≥n
- **Civismo**: Estudios de carga administrativa
- **CNMC**: Comisi√≥n Nacional de los Mercados y la Competencia


In [None]:
# Importar librer√≠as necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import requests
from bs4 import BeautifulSoup
import json
from datetime import datetime, timedelta
import warnings
warnings.filterwarnings('ignore')

# Configuraci√≥n de visualizaci√≥n
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)

print("‚úÖ Librer√≠as importadas correctamente")
print(f"üìÖ Fecha de ejecuci√≥n: {datetime.now().strftime('%d/%m/%Y %H:%M')}")


## üìä 1. Extracci√≥n de Datos Reales del Sistema CAE

### 1.1 An√°lisis de Fuentes Oficiales

Vamos a analizar las fuentes de datos oficiales para entender el alcance y la calidad de la informaci√≥n disponible sobre el sistema CAE.


In [None]:
# Definir fuentes de datos oficiales
data_sources = {
    'BOE': {
        'url': 'https://www.boe.es',
        'description': 'Bolet√≠n Oficial del Estado - Normativa CAE',
        'data_type': 'Normativa legal',
        'relevance': 'Alta',
        'update_frequency': 'Diario'
    },
    'INE': {
        'url': 'https://www.ine.es',
        'description': 'Instituto Nacional de Estad√≠stica - Datos sector construcci√≥n',
        'data_type': 'Estad√≠sticas oficiales',
        'relevance': 'Alta',
        'update_frequency': 'Trimestral'
    },
    'ITSS': {
        'url': 'https://www.itss.es',
        'description': 'Inspecci√≥n de Trabajo y Seguridad Social',
        'data_type': 'Datos de inspecciones',
        'relevance': 'Media',
        'update_frequency': 'Mensual'
    },
    'FLC': {
        'url': 'https://www.fundacionlaboral.org',
        'description': 'Fundaci√≥n Laboral de la Construcci√≥n - TPC',
        'data_type': 'Datos de formaci√≥n y certificaci√≥n',
        'relevance': 'Alta',
        'update_frequency': 'Mensual'
    },
    'Civismo': {
        'url': 'https://www.fundacioncivismo.org',
        'description': 'Fundaci√≥n Civismo - √çndice de burocracia',
        'data_type': 'Estudios de carga administrativa',
        'relevance': 'Media',
        'update_frequency': 'Anual'
    },
    'CNMC': {
        'url': 'https://www.cnmc.es',
        'description': 'Comisi√≥n Nacional de los Mercados y la Competencia',
        'data_type': 'An√°lisis de competencia',
        'relevance': 'Media',
        'update_frequency': 'Anual'
    }
}

# Crear DataFrame de fuentes
sources_df = pd.DataFrame(data_sources).T.reset_index()
sources_df.columns = ['Fuente', 'URL', 'Descripci√≥n', 'Tipo de Datos', 'Relevancia', 'Frecuencia Actualizaci√≥n']

print("üìã Fuentes de Datos Oficiales Identificadas:")
print("=" * 60)
sources_df


In [None]:
# Visualizaci√≥n de fuentes de datos
fig = make_subplots(
    rows=2, cols=2,
    subplot_titles=('Relevancia de Fuentes', 'Frecuencia de Actualizaci√≥n', 
                    'Tipos de Datos', 'Distribuci√≥n por Relevancia'),
    specs=[[{"type": "pie"}, {"type": "pie"}],
           [{"type": "bar"}, {"type": "bar"}]]
)

# Relevancia de fuentes
relevance_counts = sources_df['Relevancia'].value_counts()
fig.add_trace(
    go.Pie(labels=relevance_counts.index, values=relevance_counts.values, 
           name="Relevancia", marker_colors=['#ff6b6b', '#4ecdc4', '#45b7d1']),
    row=1, col=1
)

# Frecuencia de actualizaci√≥n
freq_counts = sources_df['Frecuencia Actualizaci√≥n'].value_counts()
fig.add_trace(
    go.Pie(labels=freq_counts.index, values=freq_counts.values, 
           name="Frecuencia", marker_colors=['#96ceb4', '#feca57', '#ff9ff3', '#54a0ff']),
    row=1, col=2
)

# Tipos de datos
type_counts = sources_df['Tipo de Datos'].value_counts()
fig.add_trace(
    go.Bar(x=type_counts.index, y=type_counts.values, 
           name="Tipos", marker_color='#5f27cd'),
    row=2, col=1
)

# Distribuci√≥n por relevancia
relevance_dist = sources_df.groupby('Relevancia').size()
fig.add_trace(
    go.Bar(x=relevance_dist.index, y=relevance_dist.values, 
           name="Distribuci√≥n", marker_color='#00d2d3'),
    row=2, col=2
)

fig.update_layout(height=800, showlegend=False, 
                  title_text="An√°lisis de Fuentes de Datos Oficiales del Sistema CAE")
fig.show()

print("üìä An√°lisis de Fuentes Completado")
print(f"‚úÖ Total de fuentes identificadas: {len(sources_df)}")
print(f"üìà Fuentes de alta relevancia: {len(sources_df[sources_df['Relevancia'] == 'Alta'])}")
