**Unidad 1. Evidencia de Aprendizaje 1 - Creación de una base de datos analítica**

**Presentado por Diego Barros Ballestas**

**Planteamenienro del problema**

La tienda Az computers S.A desea optimizar su catálogo: Saber qué laptops tienen mayor margen, qué especificaciones permiten mayor precio, cuándo bajar el precio para rotar el stock, etc, lo cual requieren una base de datos que integrege toda la información necesaria para toma de decisiones.
Ante la problematica abordada, se implementará una base de datos estructurada donde se permita migrar la información necesaria de manera organizada y centralozada que permita entender qué especificaciones técnicas impactan más en el precio de venta de una laptop,cual es la segmentaciín del mercado: ¿quiénes compran laptops de gama alta vs gama de entrada?, cuáles modelos mantener, a qué precio ofertar, cómo ajustar precios en función de especificaciones, entre otros.

**Seleccion del dataset**

Se selecciona el dataset Laptop Sales Price Prediction 2024 Dataset

Link de enlace: https://www.kaggle.com/datasets/siddiquifaiznaeem/laptop-sales-price-prediction-dataset-2024?select=laptop_cleaned2.csv

Se escoge este dataset porque representa un problema real del comercio de computadoras: la necesidad de entender, predecir y optimizar los precios y ventas de laptops según sus características técnicas y comportamiento del mercado, lo cual dicho dataset contiene la nformación de laptops, especificaciones técnicas, precios de venta, etc.

**Variables mas relevantes y su utilidad**


| **Variable**     | **Descripción**                                                    | **Utilidad principal en el comercio de computadoras**                                                                                                                              |
| ---------------- | ------------------------------------------------------------------ | ---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
| **Brand**        | Marca del fabricante de la laptop (HP, Dell, Lenovo, Apple, etc.). | Permite identificar **preferencias de marca**, analizar **posicionamiento en el mercado** y determinar **qué fabricantes ofrecen mejor relación calidad-precio**.                  |
| **Processor**    | Tipo de procesador (por ejemplo, Intel i5, Ryzen 7).               | Es uno de los **principales factores que determinan el rendimiento y el precio** del equipo; ayuda a establecer estrategias de precios y segmentar productos por potencia.         |
| **RAM (GB)**     | Capacidad de memoria RAM instalada.                                | Afecta directamente el desempeño del equipo; su análisis permite **determinar el impacto de la RAM sobre el precio y la categoría de producto** (básico, medio, alto rendimiento). |
| **Storage_Type** | Tipo de almacenamiento (SSD o HDD).                                | Permite identificar **tendencias tecnológicas** y su efecto sobre el precio y la satisfacción del cliente.                                                                         |
| **GPU**          | Tipo de tarjeta gráfica (integrada o dedicada).                    | Es clave para segmentar el mercado (por ejemplo, laptops gamer o de diseño gráfico). También influye de forma significativa en el precio.                                          |
| **Screen_Size**  | Tamaño de la pantalla en pulgadas.                                 | Influye en la **preferencia del consumidor y el rango de precio**: pantallas grandes se asocian a laptops profesionales o de entretenimiento.                                      |
| **Price**        | Precio de venta de la laptop.                                      | Es la **variable objetivo** del análisis; permite construir modelos predictivos, evaluar estrategias de precios y estimar márgenes de rentabilidad.                                |


**Diseño del modelo entidad–relación (ERD)**



## [Modelo ER](https://github.com/DiegoBarros1103/Actividad_1/blob/main/Modelo%20ER.png)

Este modelo de datos representa el negocio de venta de laptops: la entidad LaptopModel captura las especificaciones técnicas de cada modelo que comercializa la tienda. La tabla Sale registra cada transacción, con fecha, precio, segmento de cliente y ubicación. La tabla Inventory lleva el control de stock por ubicación/tienda en tiempo determinado. La tabla Promotion documenta las promociones aplicadas a modelos específicos en rangos de fecha.

**CREACION DE BD Y CARGA DE DATOS**

In [0]:
!pip install kagglehub[pandas-datasets]>=0.3.8

Collecting kagglehub>=0.3.8 (from kagglehub[pandas-datasets]>=0.3.8)
  Downloading kagglehub-0.3.13-py3-none-any.whl.metadata (38 kB)
Collecting tqdm (from kagglehub>=0.3.8->kagglehub[pandas-datasets]>=0.3.8)
  Downloading tqdm-4.67.1-py3-none-any.whl.metadata (57 kB)
Downloading kagglehub-0.3.13-py3-none-any.whl (68 kB)
Downloading tqdm-4.67.1-py3-none-any.whl (78 kB)
Installing collected packages: tqdm, kagglehub
Successfully installed kagglehub-0.3.13 tqdm-4.67.1
[43mNote: you may need to restart the kernel using %restart_python or dbutils.library.restartPython() to use updated packages.[0m


_Importamos las librerias necesarias_

In [0]:

import os
import zipfile
import kagglehub
import pandas as pd 

_Extracción de datos_

In [0]:
def download_dataset_zip(url = ""):
        print("Descargando dataset desde Kaggle...")
        dataset_path = kagglehub.dataset_download(url)
        print("Ruta al dataset:", dataset_path)
        return dataset_path
    
def extract_zip_files(dataset_path):
        zip_files = [f for f in os.listdir(dataset_path) if f.endswith('.zip')]
        if zip_files:
            zip_file = os.path.join(dataset_path, zip_files[0])
            extract_dir = os.path.join(dataset_path, "extracted")
            os.makedirs(extract_dir, exist_ok=True)
            print(f"Extrayendo {zip_file} en {extract_dir}...")
            with zipfile.ZipFile(zip_file, "r") as z:
                z.extractall(extract_dir)
            return extract_dir
        else:
            # Si no se encuentra un ZIP, se verifica si existen archivos CSV en la ruta
            csv_files = [f for f in os.listdir(dataset_path) if f.endswith('.csv')]
            if csv_files:
                print("No se encontró archivo ZIP pero se detectaron archivos CSV; se asume que el dataset ya se encuentra extraído.")
                return dataset_path
            else:
                raise FileNotFoundError("No se encontró ningún archivo .zip ni archivos .csv en la ruta del dataset")

def create_csv(csv_dir, csv_name=None):
    if csv_name:
        file_path = os.path.join(csv_dir, csv_name)
        print(f"Leyendo {file_path}...")
        df = pd.read_csv(file_path, encoding="latin1")
        print("CSV creado correctamente")
        return df
    else:
        csv_files = [f for f in os.listdir(csv_dir) if f.endswith('.csv')]
        if not csv_files:
            raise FileNotFoundError("No se encontraron archivos CSV en el directorio extraído")
        for file in csv_files:
            file_path = os.path.join(csv_dir, file)
            print(f"Leyendo {file_path}...")
            df = pd.read_csv(file_path, encoding="latin1")
        print("CSV creado correctamente")
        return df

In [0]:
df = pd.DataFrame()
dataset_path = download_dataset_zip("siddiquifaiznaeem/laptop-sales-price-prediction-dataset-2024") 
csv_dir = extract_zip_files(dataset_path)
df = create_csv(csv_dir, csv_name="laptop_cleaned2.csv")

Descargando dataset desde Kaggle...
Ruta al dataset: /home/spark-6127eb43-7485-4e43-b21b-32/.cache/kagglehub/datasets/siddiquifaiznaeem/laptop-sales-price-prediction-dataset-2024/versions/1
No se encontró archivo ZIP pero se detectaron archivos CSV; se asume que el dataset ya se encuentra extraído.
Leyendo /home/spark-6127eb43-7485-4e43-b21b-32/.cache/kagglehub/datasets/siddiquifaiznaeem/laptop-sales-price-prediction-dataset-2024/versions/1/laptop_cleaned2.csv...
CSV creado correctamente


In [0]:
df.head(6)

Unnamed: 0.1,Unnamed: 0,Name,Brand,Price,Rating,Processor_brand,Processor_name,Processor_variant,Processor_gen,Core_per_processor,Total_processor,Execution_units,Low_Power_Cores,Energy_Efficient_Units,Threads,RAM_GB,RAM_type,Storage_capacity_GB,Storage_type,Graphics_name,Graphics_brand,Graphics_GB,Graphics_integreted,Display_size_inches,Horizontal_pixel,Vertical_pixel,ppi,Touch_screen,Operating_system
0,0,HP Victus 15-fb0157AX Gaming Laptop (AMD Ryzen...,HP,50399,4.3,AMD,AMD Ryzen 5,5600H,5.0,6.0,,,0.0,0,12.0,8,DDR4,512,SSD,AMD Radeon RX 6500M,AMD,4.0,False,15.6,1920,1080,141.21,True,Windows 11 OS
1,1,Lenovo V15 G4 â82YU00W7IN Laptop (AMD Ryzen ...,Lenovo,26690,4.45,AMD,AMD Ryzen 3,7320U,7.0,4.0,,,0.0,0,8.0,8,LPDDR5,512,SSD,AMD Radeon Graphics,AMD,,False,15.6,1920,1080,141.21,False,Windows 11 OS
2,2,HP 15s-fq5007TU Laptop (12th Gen Core i3/ 8GB/...,HP,37012,4.65,Intel,Intel Core i3,1215U,12.0,6.0,2.0,4.0,0.0,0,8.0,8,DDR4,512,SSD,Intel UHD Graphics,Intel,,False,15.6,1920,1080,141.21,False,Windows 11 OS
3,3,Samsung Galaxy Book2 Pro 13 Laptop (12th Gen C...,Samsung,69990,4.75,Intel,Intel Core i5,1240P,12.0,12.0,4.0,8.0,0.0,0,16.0,16,LPDDR5,512,SSD,Intel Iris Xe Graphics,Intel,,False,13.3,1080,1920,165.63,False,Windows 11 OS
4,4,Tecno Megabook T1 Laptop (11th Gen Core i3/ 8G...,Tecno,23990,4.25,Intel,Intel Core i3,1115G4,11.0,2.0,,,0.0,0,4.0,8,LPDDR4,512,SSD,Intel UHD Graphics,Intel,,False,15.6,1920,1080,141.21,False,Windows 11 OS
5,5,Samsung Galaxy Book2 NP550XED-KA1IN 15 Laptop ...,Samsung,42990,4.35,Intel,Intel Core i5,1235U,12.0,10.0,2.0,8.0,0.0,0,12.0,8,LPDDR4,512,SSD,Intel Integrated UHD,Intel,,True,15.6,1920,1080,141.21,False,Windows 11 OS


_Conversion de Dataframe a Pandas_

In [0]:

spark_df = spark.createDataFrame(df)

**Creacion de tabla e insercion de datos**

In [0]:
spark_df = spark_df.write.mode("overwrite").saveAsTable("tbl_venta_laptop")

**Verificacion de carga**

In [0]:
%sql
SELECT * 
FROM tbl_venta_laptop
LIMIT 5;

Unnamed_0,Name,Brand,Price,Rating,Processor_brand,Processor_name,Processor_variant,Processor_gen,Core_per_processor,Total_processor,Execution_units,Low_Power_Cores,Energy_Efficient_Units,Threads,RAM_GB,RAM_type,Storage_capacity_GB,Storage_type,Graphics_name,Graphics_brand,Graphics_GB,Graphics_integreted,Display_size_inches,Horizontal_pixel,Vertical_pixel,ppi,Touch_screen,Operating_system
0,HP Victus 15-fb0157AX Gaming Laptop (AMD Ryzen 5 5600H/ 8GB/ 512GB SSD/ Win11/ 4GB Graph),HP,50399,4.3,AMD,AMD Ryzen 5,5600H,5.0,6.0,,,0.0,0,12.0,8,DDR4,512,SSD,AMD Radeon RX 6500M,AMD,4.0,False,15.6,1920,1080,141.21,True,Windows 11 OS
1,Lenovo V15 G4 â82YU00W7IN Laptop (AMD Ryzen 3 7320U/ 8GB/ 512GB SSD/ Win11 Home),Lenovo,26690,4.45,AMD,AMD Ryzen 3,7320U,7.0,4.0,,,0.0,0,8.0,8,LPDDR5,512,SSD,AMD Radeon Graphics,AMD,,False,15.6,1920,1080,141.21,False,Windows 11 OS
2,HP 15s-fq5007TU Laptop (12th Gen Core i3/ 8GB/ 512GB SSD/ Win11 Home),HP,37012,4.65,Intel,Intel Core i3,1215U,12.0,6.0,2.0,4.0,0.0,0,8.0,8,DDR4,512,SSD,Intel UHD Graphics,Intel,,False,15.6,1920,1080,141.21,False,Windows 11 OS
3,Samsung Galaxy Book2 Pro 13 Laptop (12th Gen Core i5/ 16GB/ 512GB SSD/ Win11),Samsung,69990,4.75,Intel,Intel Core i5,1240P,12.0,12.0,4.0,8.0,0.0,0,16.0,16,LPDDR5,512,SSD,Intel Iris Xe Graphics,Intel,,False,13.3,1080,1920,165.63,False,Windows 11 OS
4,Tecno Megabook T1 Laptop (11th Gen Core i3/ 8GB/ 512GB SSD/ Win11 Home),Tecno,23990,4.25,Intel,Intel Core i3,1115G4,11.0,2.0,,,0.0,0,4.0,8,LPDDR4,512,SSD,Intel UHD Graphics,Intel,,False,15.6,1920,1080,141.21,False,Windows 11 OS


**_EVIDENCIAS CON CONSULTAS SQL_**


**Conteo de Registros**

In [0]:
%sql
SELECT COUNT(*) FROM tbl_venta_laptop;

COUNT(*)
1020


En la tabla venta_laptop existen 1020 registros lo cual representa los datos de cada una de las ventas de laptos con sus caracteristicas de forma individual

**Nombres y tipos de columnas**

In [0]:
%sql
DESCRIBE TABLE tbl_venta_laptop;

col_name,data_type,comment
Unnamed_0,bigint,
Name,string,
Brand,string,
Price,bigint,
Rating,double,
Processor_brand,string,
Processor_name,string,
Processor_variant,string,
Processor_gen,double,
Core_per_processor,double,


Para esta consulta nos permite ver la descripción de como se encuentra estructurada la tabla venta_laptop con el mobre de cada columna y su tipo de dato y comentarios respectivos.

**Consulta con filtro**

In [0]:
%sql
SELECT *
FROM tbl_venta_laptop
WHERE Processor_name = 'Intel Core 5'
LIMIT 30;

Unnamed_0,Name,Brand,Price,Rating,Processor_brand,Processor_name,Processor_variant,Processor_gen,Core_per_processor,Total_processor,Execution_units,Low_Power_Cores,Energy_Efficient_Units,Threads,RAM_GB,RAM_type,Storage_capacity_GB,Storage_type,Graphics_name,Graphics_brand,Graphics_GB,Graphics_integreted,Display_size_inches,Horizontal_pixel,Vertical_pixel,ppi,Touch_screen,Operating_system
24,Samsung Galaxy Book 4 NP750XGK-KS2IN Laptop (Intel Core 5 Processor 120U/ 16GB/ 512GB SSD/ Win11),Samsung,75990,4.45,Intel,Intel Core 5,120U,,10.0,2.0,8.0,0.0,0,12.0,16,LPDDR4X,512,SSD,Intel Graphics,Intel,,False,15.6,1920,1080,141.21,False,Windows 11 OS
101,Samsung Galaxy Book 4 NP750XGK-KS1IN Laptop (Intel Core 5 Processor 120U/ 8GB/ 512GB SSD/ Win11),Samsung,70990,4.65,Intel,Intel Core 5,120U,,10.0,2.0,8.0,0.0,0,12.0,8,LPDDR4X,512,SSD,Intel Graphics,Intel,,False,15.6,1920,1080,141.21,False,Windows 11 OS
143,Asus Vivobook 15 2024 X1504VAP-NJ542WS Laptop (Intel Core 5 Processor 120U/ 16GB/ 512GB SSD/ Win11),Asus,67990,4.55,Intel,Intel Core 5,120U,,10.0,2.0,8.0,0.0,0,12.0,16,DDR4,512,SSD,Integrated Intel Graphics,Intel,,True,15.6,1920,1080,141.21,False,Windows 11 OS
208,Samsung Galaxy Book 4 360 NP750QGK-KG1IN Laptop (Intel Core 5 Processor 120U/ 16GB/ 512GB SSD/ Win11),Samsung,114990,4.6,Intel,Intel Core 5,120U,,10.0,2.0,8.0,0.0,0,12.0,16,LPDDR5,512,SSD,Intel Graphics,Intel,,False,15.6,1920,1080,141.21,True,Windows 11 OS


Para esta consulta con filtro hcimos la consulta de cuantas laptos tienen procesador Intel Core I5, el cual nos permite segmentar el tipo de marca de laptop que mas lo lo utiliza y sel sistema operativo requerido. Para esta consulta arrojó 4 registros.