# Elección del modelo Estrella

La decisión de utilizar un modelo estrella para el modelado de datos en este proyecto de Big Data se basa en varias ventajas y características específicas de este enfoque que lo hacen especialmente adecuado para nuestras necesidades analíticas. A continuación se detallan las razones clave para esta elección:

1.	Simplicidad y Claridad\
El modelo estrella es conocido por su estructura simple y clara, que facilita la comprensión y navegación de los datos tanto para los analistas como para los usuarios finales. Su diseño, con una tabla de hechos central rodeada por tablas de dimensiones, permite una fácil identificación de las relaciones entre los diferentes elementos del conjunto de datos.

2.	Eficiencia en Consultas\
Las consultas en un modelo estrella suelen ser más rápidas y eficientes debido a la menor cantidad de joins necesarios entre las tablas. Esta característica es especialmente importante en entornos de Big Data.

3.	Facilidad de Mantenimiento\
La simplicidad estructural del modelo estrella permite un mantenimiento más sencillo de la base de datos. Las actualizaciones y modificaciones en las tablas de dimensiones o la tabla de hechos pueden realizarse de manera más ágil, reduciendo el tiempo y el esfuerzo necesarios para mantener la integridad del modelo de datos.


# Modelado del proyecto en Hive

Por razones de seguridad de los datos originales, se opta por crear tablas externas que no estén directamente asociadas a estos. A continuación se presenta una descripción general de cómo se modelará el esquema estrella.

In [None]:
#Tabla de Hechos
CREATE TABLE Fact_Data (
    fact_id INT,
    code STRING,
    transport STRING,
    bus_stop STRING,
    age STRING,
    number INT,
    nationality STRING,
    demand_occupation STRING,
    station STRING,
    generated TIMESTAMP,
    order_id INT,
    name STRING,
    frequency INT,
    immigrants INT,
    emigrants INT,
    seccio_censal STRING,
    import_renda_bruta DOUBLE,
    ubication_id INT,
    time_id INT,
    air_quality_id INT,
    accident_id INT,
    demographic_id INT,
    PRIMARY KEY (fact_id),
    FOREIGN KEY (ubication_id) REFERENCES Dim_Ubication(ubication_id),
    FOREIGN KEY (time_id) REFERENCES Dim_Time(time_id),
    FOREIGN KEY (air_quality_id) REFERENCES Dim_AirQuality(air_quality_id),
    FOREIGN KEY (accident_id) REFERENCES Dim_Accident(accident_id),
    FOREIGN KEY (demographic_id) REFERENCES Dim_Demographic(demographic_id)
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS TEXTFILE;


In [None]:
#Tabla de Tiempo
CREATE TABLE Dim_Time (
    time_id INT,
    year INT,
    month INT,
    day INT,
    hour INT,
    part_of_the_day STRING,
    weekday STRING,
    PRIMARY KEY (time_id)
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS TEXTFILE;

In [None]:
#Tabla de Ubicaciones
CREATE TABLE Dim_Ubication (
    ubication_id INT,
    neighborhood_code INT,
    neighborhood_name STRING,
    district_code INT,
    district_name STRING,
    latitude DOUBLE,
    longitude DOUBLE,
    PRIMARY KEY (ubication_id)
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS TEXTFILE;

In [None]:
#Tabla de Calidad del Aire
CREATE TABLE Dim_AirQuality (
    air_quality_id INT,
    air_quality STRING,
    o3_hour INT,
    o3_quality STRING,
    o3_value DOUBLE,
    no2_hour INT,
    no2_quality STRING,
    no2_value DOUBLE,
    pm10_hour INT,
    pm10_quality STRING,
    pm10_value DOUBLE,
    PRIMARY KEY (air_quality_id)
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS TEXTFILE;

In [None]:
#Tabla de Accidentes
CREATE TABLE Dim_Accident (
    accident_id INT,
    mild_injuries INT,
    serious_injuries INT,
    victims INT,
    vehicles_involved INT,
    PRIMARY KEY (accident_id)
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS TEXTFILE;

In [None]:
#Tabla Demográfica
CREATE TABLE Dim_Demographic (
    demographic_id INT,
    gender STRING,
    age_group STRING,
    PRIMARY KEY (demographic_id)
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS TEXTFILE;