# Nombre: Actividad 1 -  An√°lisis de Datos con Python y Databricks
# estudiantes: Oscar Javier Garcia 
#             Rober Andres Castillo Gaviria
# Profesor :  Andres Felipe Callejas

# 1 Proyecto de Anal√≠tica ‚Äî Venta de Autos

## **Problema**
En el mercado automotriz actual, los precios de los veh√≠culos var√≠an ampliamente seg√∫n sus caracter√≠sticas.  
Muchas personas no saben si el valor de un autom√≥vil publicado en una venta es razonable o est√° sobrevalorado.  
Por lo tanto, se busca **analizar los datos de ventas de autos para entender qu√© variables influyen m√°s en el precio final** y detectar posibles patrones de mercado.

## ¬øPara qui√©n?
Para compradores, vendedores y concesionarios que necesitan una gu√≠a basada en datos para establecer precios competitivos.

## ¬øPor qu√© requiere anal√≠tica?
El precio de un veh√≠culo depende de muchos factores: marca, modelo, a√±o, kilometraje, tipo de combustible, entre otros.  
El an√°lisis de datos permite descubrir las variables m√°s determinantes y construir modelos predictivos de precios m√°s precisos.

##  Dataset seleccionado

**Nombre:** Venta de Autos  
**Fuente:** [Kaggle - Venta de Autos](https://www.kaggle.com/datasets/ejmontes/venta-de-autos)  
**Autor:** Ejmontes  
**Grupo:** (tu grupo aqu√≠)

### **Descripci√≥n**
El dataset contiene informaci√≥n sobre veh√≠culos puestos en venta, incluyendo variables como:

- `Marca` ‚Äî Marca del veh√≠culo.  
- `Modelo` ‚Äî Modelo espec√≠fico.  
- `A√±o` ‚Äî A√±o de fabricaci√≥n.  
- `Precio` ‚Äî Valor del veh√≠culo.  
- `Kilometraje` ‚Äî Distancia recorrida.  
- `Tipo de combustible` ‚Äî Gasolina, di√©sel, etc.  
- `Transmisi√≥n` ‚Äî Manual o autom√°tica.  
- `Ciudad` ‚Äî Lugar donde se vende el auto.  

Estas variables permiten **analizar los factores que influyen en el precio de venta de los autos** y predecir valores de mercado.


In [0]:
# Instalamos kagglehub (si no est√° instalado)
%pip install kagglehub

# Importamos la librer√≠a
import kagglehub

# Descargamos el dataset de Kaggle
path = kagglehub.dataset_download("ejmontes/venta-de-autos")

# Mostramos la ruta local
print("Ruta local del dataset descargado:", path)


El c√≥digo instala la librer√≠a kagglehub, la importa y descarga el dataset "ejmontes/venta-de-autos" desde Kaggle. La variable path contiene la ruta local donde se guard√≥ el archivo descargado. El print muestra esa ruta para que puedas localizar el dataset en el entorno de Databricks.

Aqu√≠ tienes una descripci√≥n detallada de cada paso:

Instala kagglehub usando %pip install kagglehub, lo que permite acceder a datasets de Kaggle directamente desde Python.
Importa la librer√≠a kagglehub para usar sus funciones.
Descarga el dataset especificado ("ejmontes/venta-de-autos") y guarda la ruta local en la variable path.
Muestra la ruta local del archivo descargado para que puedas cargarlo posteriormente en un DataFrame y analizarlo.

In [0]:
import pandas as pd
import os

# visualizar y cargar el dataset

# Buscamos el archivo CSV dentro de la ruta descargada
for file in os.listdir(path):
    if file.endswith(".csv"):
        csv_path = os.path.join(path, file)
        break

# Cargamos el dataset
df = pd.read_csv(csv_path, encoding='latin1')

# Mostramos las primeras filas
display(df.head())

# Informaci√≥n general
df.info()


Este bloque de c√≥digo realiza la carga y visualizaci√≥n inicial del dataset descargado desde Kaggle. Aqu√≠ tienes una descripci√≥n completa de cada paso:

Importaci√≥n de librer√≠as: Se importan pandas para manipulaci√≥n de datos y os para operaciones con archivos.
B√∫squeda del archivo CSV: Se recorre la carpeta donde se descarg√≥ el dataset (path) para localizar el archivo con extensi√≥n .csv.
Carga del dataset: Se lee el archivo CSV encontrado y se almacena en un DataFrame de pandas (df). Se utiliza la codificaci√≥n 'latin1' para evitar problemas con caracteres especiales.
Visualizaci√≥n de las primeras filas: Se muestran las primeras filas del DataFrame con display(df.head()), lo que permite observar la estructura y algunos valores iniciales del dataset.
Informaci√≥n general del DataFrame: Se utiliza df.info() para mostrar un resumen del DataFrame, incluyendo el n√∫mero de filas y columnas, nombres de columnas, tipos de datos y cantidad de valores no nulos.
Este proceso te permite verificar que el archivo se ha cargado correctamente y conocer la estructura b√°sica de los datos antes de realizar an√°lisis m√°s avanzados.

In [0]:
%sql
-- Crear la base de datos
CREATE DATABASE IF NOT EXISTS VentasAutos;
USE VentasAutos;

-- Eliminar tablas previas si existen
DROP TABLE IF EXISTS Ventas;
DROP TABLE IF EXISTS Vehiculos;
DROP TABLE IF EXISTS Clientes;

-- Crear tabla Clientes
CREATE TABLE Clientes (
  id_cliente BIGINT GENERATED ALWAYS AS IDENTITY (START WITH 1 INCREMENT BY 1),
  nombre STRING,
  pais STRING
)
USING DELTA;

-- Crear tabla Vehiculos
CREATE TABLE Vehiculos (
  id_vehiculo BIGINT GENERATED ALWAYS AS IDENTITY (START WITH 1 INCREMENT BY 1),
  marca STRING,
  modelo STRING,
  anio INT,
  precio DOUBLE
)
USING DELTA;

-- Crear tabla Ventas
CREATE TABLE Ventas (
  id_venta BIGINT GENERATED ALWAYS AS IDENTITY (START WITH 1 INCREMENT BY 1),
  fecha DATE,
  id_cliente BIGINT,
  id_vehiculo BIGINT,
  monto DOUBLE
)
USING DELTA;


Este bloque de c√≥digo SQL crea la base de datos y las tablas principales para gestionar informaci√≥n de ventas de autos en Databricks utilizando Delta Lake como formato de almacenamiento. Aqu√≠ tienes una descripci√≥n completa de cada paso:

Creaci√≥n de la base de datos:
Se crea la base de datos VentasAutos si no existe, y se selecciona para trabajar en ella.

Eliminaci√≥n de tablas previas:
Se eliminan las tablas Ventas, Vehiculos y Clientes si ya existen, para evitar conflictos o duplicados.

Creaci√≥n de la tabla Clientes:

Almacena informaci√≥n de los clientes.
Columnas:
id_cliente: Identificador √∫nico autoincremental.
nombre: Nombre del cliente.
pais: Pa√≠s de residencia.
Se utiliza el formato Delta Lake para almacenamiento eficiente y transaccional.
Creaci√≥n de la tabla Vehiculos:

Almacena informaci√≥n de los veh√≠culos disponibles para la venta.
Columnas:
id_vehiculo: Identificador √∫nico autoincremental.
marca: Marca del veh√≠culo.
modelo: Modelo del veh√≠culo.
anio: A√±o de fabricaci√≥n.
precio: Precio del veh√≠culo.
Tambi√©n usa Delta Lake.
Creaci√≥n de la tabla Ventas:

Registra las transacciones de venta.
Columnas:
id_venta: Identificador √∫nico autoincremental.
fecha: Fecha de la venta.
id_cliente: Referencia al cliente que realiz√≥ la compra.
id_vehiculo: Referencia al veh√≠culo vendido.
monto: Monto total de la venta.
Utiliza Delta Lake para garantizar integridad y rendimiento.
Estas tablas est√°n dise√±adas para ser f√°cilmente integradas y consultadas, permitiendo an√°lisis de ventas, clientes y veh√≠culos. El uso de Delta Lake proporciona ventajas como transacciones ACID, manejo eficiente de grandes vol√∫menes de datos y compatibilidad con el ecosistema Spark.

In [0]:
%sql
-- Insertar clientes
INSERT INTO Clientes (nombre, pais) VALUES
('Juan P√©rez', 'M√©xico'),
('Ana G√≥mez', 'Chile'),
('Luis Mart√≠nez', 'Colombia');

-- Insertar veh√≠culos
INSERT INTO Vehiculos (marca, modelo, anio, precio) VALUES
('Toyota', 'Corolla', 2020, 18000),
('Honda', 'Civic', 2021, 20000),
('Ford', 'Focus', 2019, 15000);

-- Insertar ventas
INSERT INTO Ventas (fecha, id_cliente, id_vehiculo, monto) VALUES
('2025-01-10', 1, 1, 18500),
('2025-02-15', 2, 2, 20500),
('2025-03-05', 3, 3, 15200),
('2025-04-12', 1, 2, 21000);


Este bloque de c√≥digo SQL inserta datos de ejemplo en las tablas principales del esquema de ventas de autos. Aqu√≠ tienes una descripci√≥n completa de cada paso:

Insertar clientes:
Se agregan tres registros a la tabla Clientes, cada uno con nombre y pa√≠s. Los identificadores (id_cliente) se generan autom√°ticamente.

Insertar veh√≠culos:
Se insertan tres veh√≠culos en la tabla Vehiculos, especificando marca, modelo, a√±o y precio. El identificador (id_vehiculo) tambi√©n es autoincremental.

Insertar ventas:
Se registran cuatro ventas en la tabla Ventas, indicando la fecha, el cliente (por su id_cliente), el veh√≠culo vendido (por su id_vehiculo) y el monto de la transacci√≥n. El identificador de venta (id_venta) se asigna autom√°ticamente.

Este proceso inicializa las tablas con datos representativos, permitiendo realizar consultas, an√°lisis y pruebas sobre el modelo de datos. Los valores insertados respetan la estructura y las relaciones entre las tablas, facilitando la exploraci√≥n y el desarrollo de an√°lisis posteriores

In [0]:
%sql
-- Ver todas las tablas creadas
SHOW TABLES IN VentasAutos;


El comando SHOW TABLES IN VentasAutos; muestra todas las tablas existentes en la base de datos VentasAutos. El resultado incluye el nombre de la base de datos, el nombre de cada tabla y si la tabla es temporal o no. Esto te permite verificar r√°pidamente qu√© tablas est√°n disponibles para consultas y an√°lisis en tu esquema actual

In [0]:
%sql
SELECT COUNT(*) AS total_clientes FROM Clientes;
SELECT COUNT(*) AS total_vehiculos FROM Vehiculos;
SELECT COUNT(*) AS total_ventas FROM Ventas;


Este bloque ejecuta tres consultas SQL para contar el n√∫mero total de registros en cada una de las tablas principales del esquema de ventas de autos:

SELECT COUNT(*) AS total_clientes FROM Clientes; cuenta el total de clientes registrados en la tabla Clientes.
SELECT COUNT(*) AS total_vehiculos FROM Vehiculos; cuenta el total de veh√≠culos registrados en la tabla Vehiculos.
SELECT COUNT(*) AS total_ventas FROM Ventas; cuenta el total de ventas registradas en la tabla Ventas.
Estas consultas permiten obtener r√°pidamente una visi√≥n general del volumen de datos en cada entidad principal del sistema.



In [0]:
%sql
-- Consulta con JOIN
SELECT v.id_venta, c.nombre AS cliente, vh.marca, vh.modelo, v.fecha, v.monto
FROM Ventas v
JOIN Clientes c ON v.id_cliente = c.id_cliente
JOIN Vehiculos vh ON v.id_vehiculo = vh.id_vehiculo;


Esta consulta SQL realiza un INNER JOIN entre las tablas Ventas, Clientes y Vehiculos. El objetivo es mostrar informaci√≥n detallada de cada venta, incluyendo el identificador de la venta, el nombre del cliente, la marca y modelo del veh√≠culo, la fecha y el monto de la transacci√≥n.

Se unen las tablas Ventas y Clientes usando la columna id_cliente.
Se unen las tablas Ventas y Vehiculos usando la columna id_vehiculo.
Solo se muestran las filas donde existen coincidencias en todas las tablas (ventas con cliente y veh√≠culo asociados).
El resultado es una vista enriquecida de las ventas, √∫til para an√°lisis y reportes

In [0]:
%sql
SELECT * FROM Clientes LIMIT 5;
SELECT * FROM Vehiculos LIMIT 5;
SELECT * FROM Ventas LIMIT 5;


Estas tres consultas SQL muestran los primeros cinco registros de cada una de las tablas principales del esquema de ventas de autos:

SELECT * FROM Clientes LIMIT 5; recupera hasta cinco filas de la tabla Clientes, mostrando todas sus columnas.
SELECT * FROM Vehiculos LIMIT 5; recupera hasta cinco filas de la tabla Vehiculos, mostrando todas sus columnas.
SELECT * FROM Ventas LIMIT 5; recupera hasta cinco filas de la tabla Ventas, mostrando todas sus columnas.
Esto permite visualizar r√°pidamente una muestra representativa de los datos almacenados en cada tabla, facilitando la revisi√≥n de la estructura y el contenido inicial de la base de datos

```mermaid
erDiagram
    CLIENTES {
        BIGINT id_cliente PK
        STRING nombre
        STRING pais
    }

    VEHICULOS {
        BIGINT id_vehiculo PK
        STRING marca
        STRING modelo
        INT anio
        DOUBLE precio
    }

    VENTAS {
        BIGINT id_venta PK
        DATE fecha
        BIGINT id_cliente FK
        BIGINT id_vehiculo FK
        DOUBLE monto
    }

    CLIENTES ||--o{ VENTAS : "realiza"
    VEHICULOS ||--o{ VENTAS : "se vende en"


Este diagrama entidad-relaci√≥n (ERD) representa la estructura y las relaciones entre las tablas principales del modelo de ventas de autos:

CLIENTES: Tabla que almacena informaci√≥n de los clientes, con un identificador √∫nico (id_cliente), nombre y pa√≠s.
VEHICULOS: Tabla que almacena informaci√≥n de los veh√≠culos, con un identificador √∫nico (id_vehiculo), marca, modelo, a√±o y precio.
VENTAS: Tabla que registra las transacciones de venta, con un identificador √∫nico (id_venta), fecha de la venta, referencias al cliente (id_cliente) y al veh√≠culo (id_vehiculo), y el monto de la venta.
Relaciones:

Un cliente puede realizar muchas ventas (CLIENTES ||--o{ VENTAS).
Un veh√≠culo puede ser vendido en muchas ventas (VEHICULOS ||--o{ VENTAS).
El diagrama muestra claramente las claves primarias (PK) y las claves for√°neas (FK), facilitando la comprensi√≥n de c√≥mo se conectan las entidades y c√≥mo se pueden realizar consultas entre ellas. Puedes visualizar este tipo de diagrama en Databricks Catalog Explorer para explorar las relaciones entre tus tablas de manera gr√°fica

In [0]:
displayHTML("<img src='https://i.imgur.com/UX0QAsd.png' width='900'>")

La funci√≥n displayHTML permite mostrar contenido HTML directamente en una celda de un notebook de Databricks. En este caso, se utiliza para incrustar y visualizar una imagen alojada en la web, especificando su ancho en p√≠xeles. Es √∫til para agregar gr√°ficos, diagramas o cualquier elemento visual que ayude a la interpretaci√≥n de los datos o resultados en el notebook. Por favor, aseg√∫rate de que el dominio databricksusercontent.com est√© accesible desde tu navegador para que la visualizaci√≥n funcione correctamente

### üìä Modelo Entidad‚ÄìRelaci√≥n (ERD)
El siguiente diagrama representa el modelo de datos dise√±ado para el an√°lisis de ventas de autos.

**Descripci√≥n:**
- **CLIENTES:** contiene la informaci√≥n b√°sica de los compradores (nombre y pa√≠s).
- **VEHICULOS:** almacena los datos de los autos, como marca, modelo, a√±o y precio.
- **VENTAS:** relaciona los clientes con los veh√≠culos vendidos, registrando la fecha y el monto.

**Relaciones:**
- Un cliente puede tener **muchas ventas** ‚Üí relaci√≥n 1:N entre *CLIENTES* y *VENTAS*.
- Un veh√≠culo puede estar involucrado en **m√∫ltiples ventas** ‚Üí relaci√≥n 1:N entre *VEHICULOS* y *VENTAS*.
