# Scope

El proyecto se compone de datos obtenidos de las transacciones de instalaciones de dispositivos de la empresa Detektor, estas instalaciones son equivalentes a las ventas. Esta información que es la principal, es la que se cargará a RDS. 

Además de esta información, en S3 se cargarán 2 archivos, un tarifario de precios de renovación y una base con valores de mercado de los vehículos, con el fin de obtener un monto total de lo que la empresa asegura y demostrar a clientes potenciales como aseguradoras, el beneficio de la instalación de cualquiera de los productos.

Se construirá un modelo de estrella en un Data Warehouse montado en Redshift.  

Todos los datos de precios, costos y valores aquí utilizados son ficticios.

## Link video: https://youtu.be/rF9fmjL-WaI

# Exploración de Datos

### Inicialización de Librerías

In [1]:
import pandas as pd
import numpy as np
import os
import io
from pathlib import Path
import boto3
import configparser

### Conexión a Base RDS

In [2]:
DB_ENDPOINT = 'ventas.cnyzxxljvw5b.us-east-1.rds.amazonaws.com' 
DB = 'ventas' 
DB_USER = 'admin'
DB_PASSWORD = 'baseaws1'
DB_PORT = '3306'

In [3]:
mysql_conn = 'mysql+pymysql://{}:{}@{}/{}'.format(DB_USER, DB_PASSWORD, DB_ENDPOINT, DB)
print(mysql_conn)

mysql+pymysql://admin:baseaws1@ventas.cnyzxxljvw5b.us-east-1.rds.amazonaws.com/ventas


In [4]:
%load_ext sql

In [5]:
%sql $mysql_conn

'Connected: admin@ventas'

In [6]:
sql_query = 'SELECT * FROM ventasgp;'
df = pd.read_sql(sql_query, mysql_conn)

In [None]:
%%sql
SELECT * FROM ventasgp;

### Conexión a S3

In [8]:
enlace ="https://444049155220.signin.aws.amazon.com/console"
secreta = "Zk7aAAg8u0rwGa3xOrwvAleT9c9f4J/HtW1zhlqS"
acceso = "AKIAWOY3EMSKKNEOTNVC"

In [9]:
s3 = boto3.resource(
    service_name = 's3',
    region_name = 'us-east-1',
    aws_access_key_id = acceso,
    aws_secret_access_key = secreta
)

In [10]:
for bucket in s3.buckets.all():
    print(bucket.name)

datacyr


In [11]:
S3_BUCKET_NAME = 'datacyr'

In [12]:
fileList = os.listdir('DataProyectoPy/S3/') 
#fileList

In [13]:
for file in fileList:
    if(file != '.ipynb_checkpoints'):
        path = './DataProyectoPy/S3/' + file
        print(path)
        s3.Bucket(S3_BUCKET_NAME).upload_file(Filename=path, Key='datacomp/' + file)

./DataProyectoPy/S3/costos.csv
./DataProyectoPy/S3/precios.csv


### Consumo de Datos S3

In [14]:
remoteFileList = []
for objt in s3.Bucket(S3_BUCKET_NAME).objects.all():
     remoteFileList.append(objt.key)
print(remoteFileList)

['datacomp/', 'datacomp/costos.csv', 'datacomp/precios.csv']


In [15]:
dfcos = pd.DataFrame()
dfren = pd.DataFrame()

for remoteFile in remoteFileList:
    if('costos.csv' in remoteFile):
        print(remoteFile)
        file = s3.Bucket(S3_BUCKET_NAME).Object(remoteFile).get()
        body = file["Body"].read()
        dfcos = pd.read_csv(io.BytesIO(body), sep=";", encoding = 'unicode_escape')
    elif("precios.csv" in remoteFile):
        file = s3.Bucket(S3_BUCKET_NAME).Object(remoteFile).get()
        body = file["Body"].read()
        dfren = pd.read_csv(io.BytesIO(body), sep=";", encoding = 'unicode_escape')#, skiprows=8)

datacomp/costos.csv


## Exploración de la data Transacciones de Ventas

##### La data tiene una dimensionalidad de 2 por lo que es una matriz

In [16]:
df.ndim

2

##### La data se compone de 582 registros y de 42 columnas

In [17]:
df.shape

(582, 42)

##### En total hay 24,444 celdas que continen la información

In [18]:
df.size

24444

##### El dataframe contiene información de la transacción de la venta, datos del cliente, condiciones comerciales, características de vehiculos y el producto adquirido

In [19]:
#Para listar las columnas del dataframe tenemos:
for column in df:
 print(column)

Id
Pais
Movimiento_Ventas
Transaccion_Ventas
Fecha_Emision
Sub_Contrato
Dias
Cliente
Nombre
Grupo
Familia
Tipo_Contrato
Tipo_Periodo
Frecuencia
Moneda
Tipo_Cambio
Articulo
Descripcion_Producto
Equipo
Cantidad
Precio_Total
Descuento_Lineal
Importe
Impuestos
Usuario
Agente
Vehiculo
Serial
Placas
Modelo
Chasis
Motor
Lineas
Fabricante
Tracker_Clase
Trackertipo
Color
Direccion
NIT
Telefonos
Contacto1
Email1


##### La data contiene información de la mayoría de los países de Centroamérica excepto Nicaragua

In [20]:
df["Pais"].unique()

array(['GT', 'PA', 'SV', 'HN', 'CR'], dtype=object)

##### Las transacciones capturadas en la data, indican que son instalaciones de los dispositivos rastraedores

In [21]:
df["Movimiento_Ventas"].unique()

array(['Instalacion Renta', 'Instalacion'], dtype=object)

##### En General se observa que los nombres de los planes tienen una estructura definida pero es extensa la cantidad de planes

In [22]:
df["Descripcion_Producto"].unique()

array(['Plan Alquiler Anual GPS Serie V1000',
       'Plan Alquiler Mensual GPS Serie V1000',
       'Plan Alquiler Anual Radiofrecuencia EL CAZADOR PLUS Serie V1000i',
       'Plan Alquiler Anual Radiofrecuencia EL CAZADOR PLUS Serie V1000a',
       'Plan Alquiler Mensual Radiofrecuencia EL CAZADOR Serie 2000',
       'Plan Alquiler Anual Radiofrecuencia EL CAZADOR PLUS Serie M2000',
       'Plan Alquiler Anual Radiofrecuencia EL CAZADOR Serie 3000',
       'Plan Alquiler Anual LBS Cazacarga',
       'Plan Alquiler Mensual GPS Serie V1000 3G',
       'PLAN ANUAL DETEKTOR GPS XS', 'PLAN ANUAL DETEKTOR PLUS XS',
       'Plan Alquiler Mensual Radiofrecuencia EL CAZADOR PLUS Serie V1000a',
       'Plan Anual  GPS Serie V1000',
       'Plan Alquiler Semestral PLUS Serie V4000 SLDA',
       'Plan Alquiler Anual Radiofrecuencia EL CAZADOR Serie 2000',
       'Plan Alquiler Mensual GPS Serie V7000',
       'PLAN MENSUAL DETEKTOR GPS XS', 'Plan Anual Detektor GPS V1000 3G',
       'Plan Anual 

##### Los equipos rastraedores que incluyen los planes son 4 tecnologías principales, se observa uniformidad de la información

In [23]:
df["Equipo"].unique()

array(['GPS', 'PLUS', 'Cazacarga', 'RF'], dtype=object)

##### Se observa que en todos los paieses se utiliza dólares para el registro de transacciones de instalaciones (ventas)

In [24]:
df["Moneda"].unique()

array(['Dolares'], dtype=object)

##### Se observa que hay dos países cuya moneda están igual al dólar, el que menor variación tiene es GT

In [25]:
df.groupby("Pais") ["Tipo_Cambio"].unique()

Pais
CR    [645.97, 644.79, 643.08, 637.95, 635.67, 635.5...
GT                                          [7.76, 7.8]
HN    [24.65, 24.6, 24.63, 24.61, 24.59, 24.47, 24.5...
PA                                                [1.0]
SV                                                [1.0]
Name: Tipo_Cambio, dtype: object

##### Las marcas de vehiculos que instalan están ingresados algunos con minúsculas y otros con mayusculas, se ven duplicados ya sea por errores de escritura o por las mayusculas y minúsculas


In [26]:
df["Fabricante"].unique()

array(['Hino', 'Chevrolet', 'FUSO', 'KIA', 'Hyundai', 'International',
       'Isuzu', 'Toyota', 'THEURER', 'Yamaha', 'Honda', 'Komatsu',
       'Nissan', 'FreightLiner', 'Land Rover', 'Gmc', 'TOYOTA', 'HYUNDAI',
       'CHEVROLET', 'SPRESSO GL MT', 'FREIGHTLINER', 'Case',
       'BACKHOE LOADER', 'Mitsubishi', 'NISSAN', 'MITSUBISHI', 'Mazda',
       'HONDA', 'John Deere', 'Caterpillar', 'Peterbilt', 'Kia', 'Suzuki',
       'Sterling', 'MITSUBISHI FUSO', 'Mahindra', 'Byd', 'Freightliner',
       'SERVI METAL', 'JAC', 'TRAILMOBILE', 'BMW', 'FREIGHTLIN', 'GL300',
       'Subaru', 'BROWN', 'Pontiac', 'KTM', 'FRUEHAUF', 'Porsche', 'TVS',
       'TRAILMASTER TANK', 'HEIL', 'SUZUKI', 'Volvo', 'Ford', 'Jmc',
       'Jeep', 'Husqvarna', 'INTERNATIONAL', 'BAJAJ', 'Mack',
       'Great Dane', 'QINGLING', 'Genesis', 'ZMOTO', 'Mercedes Benz',
       'Audi', 'Kenworth', 'Volkswagen', 'Utility'], dtype=object)

##### AL igual que el fabricante se observa que hay inconsistencia en el ingreso de este dato

In [27]:
df["Tracker_Clase"].unique()

array(['CAMION', 'PANEL', 'CAMIONETA', 'CABEZAL', 'PORTA CONTENEDOR',
       'MOTOCICLETA', 'MAQUINARIA AMARILLA', 'PICK UP', 'MICROBUS',
       'AUTOMOVIL', 'MULA', 'CAMION PESADO', 'BUS', 'TURISMO',
       'Automovil', 'Camion', 'SEMI REMOLQUE', 'CAMION CISTERNA',
       'FURGON', 'CELULAR', 'PLATAFORMA', 'Camioneta', 'MOTO', 'Cabezal',
       'Motocicleta', 'REMOLCADOR', 'Maquinaria Amarilla',
       'MAQUINARIA PESADA', 'AUTOBUS', 'Autobus'], dtype=object)

##### Contacto hace referencia al nombre de una persona, tambien se observan datos en mayusculas y minusculas

In [28]:
df['Contacto1']

0                                      DANIEL CARRANZA
1                                  JACKELINE VILLATORO
2                                  JACKELINE VILLATORO
3      LOGISTICAS Y TRANSPORTES NESS, SOCIEDAD ANONIMA
4                                  JACKELINE VILLATORO
                            ...                       
577                                      CARLOS ALFARO
578                                   ADELINA MARTINEZ
579                    WALTER DIAZ / CRISTIAN GONZALEZ
580                                     ROSY HERNANDEZ
581                                       Jorge Cortez
Name: Contacto1, Length: 582, dtype: object

##### Se explora la cantidad de registros que contienen correos de la empresa, equivalentes a que no se obtuvo uno del cliente

In [29]:
df[df['Email1'].str.contains("detektor")].count()

Id                      62
Pais                    62
Movimiento_Ventas       62
Transaccion_Ventas      62
Fecha_Emision           62
Sub_Contrato            62
Dias                    62
Cliente                 62
Nombre                  62
Grupo                   62
Familia                 62
Tipo_Contrato           62
Tipo_Periodo            62
Frecuencia              62
Moneda                  62
Tipo_Cambio             62
Articulo                62
Descripcion_Producto    62
Equipo                  62
Cantidad                62
Precio_Total            62
Descuento_Lineal        62
Importe                 62
Impuestos               62
Usuario                 62
Agente                  62
Vehiculo                62
Serial                  62
Placas                  62
Modelo                  62
Chasis                  62
Motor                   62
Lineas                  62
Fabricante              62
Tracker_Clase           62
Trackertipo             62
Color                   62
D

##### Se utilizará la siguiente funcion para eliminar las filas con nulos, pero al mantenerse la misma cantidad quiere decir que todas las filas tienen su correspondiente dato

In [30]:
df.dropna()

Unnamed: 0,Id,Pais,Movimiento_Ventas,Transaccion_Ventas,Fecha_Emision,Sub_Contrato,Dias,Cliente,Nombre,Grupo,...,Lineas,Fabricante,Tracker_Clase,Trackertipo,Color,Direccion,NIT,Telefonos,Contacto1,Email1
0,1,GT,Instalacion Renta,EUR26012,2022-02-28,EUR21291-1,338,GTC-000700,"FLUSHING, S.A.",Particulares,...,XZU650L-WKMMJ3,Hino,CAMION,CAMION,BLANCO LS GRISES,12 CALLE 2-25 ZONA 10 EDIFICIO AVIA NIVEL 7 OF...,233115,53088092,DANIEL CARRANZA,daniel.carranza@flushingcosmetics.com
1,2,GT,Instalacion Renta,EUR26022,2022-02-28,EUR21292-3,338,GTC-087200,BOOM SOCIEDAD ANONIMA,Comisionistas,...,XZU650L-WKMMJ3,Hino,CAMION,CAMION,Blanco,SECTOR 4 CAMBOTE ZONA 11,227661,30324469,JACKELINE VILLATORO,boomsa.central@gmail.com
2,3,GT,Instalacion Renta,EUR26024,2022-02-28,EUR21292-10,338,GTC-087200,BOOM SOCIEDAD ANONIMA,Comisionistas,...,CMV,Chevrolet,PANEL,Panel,Blanco,SECTOR 4 CAMBOTE ZONA 11,203832,30324469,JACKELINE VILLATORO,boomsa.central@gmail.com
3,4,GT,Instalacion Renta,EUR26016,2022-02-28,VLL5731-6,338,GTC-087044,"LOGISTICAS Y TRANSPORTES NESS, SOCIEDAD ANONIMA",Financieras,...,CANTER FE85,FUSO,CAMION,CAMION,Blanco,"50 CALLE ""A"" COLONIA LA COLINA, 16-72 ZONA 12 ...",217547,30082679,"LOGISTICAS Y TRANSPORTES NESS, SOCIEDAD ANONIMA",daquino@elroble.com.gt
4,5,GT,Instalacion Renta,EUR26026,2022-02-28,EUR21292-9,338,GTC-087200,BOOM SOCIEDAD ANONIMA,Comisionistas,...,K2700 L,KIA,CAMION,CAMION,Blanco,SECTOR 4 CAMBOTE ZONA 11,146708,30324469,JACKELINE VILLATORO,boomsa.central@gmail.com
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
577,652,SV,Instalacion,CO11448,2021-12-02,CF13484-1,250,SVC-010736,MILTON HERIBERTO ALFARO VASQUEZ,Particulares,...,EXPLORER SPORT,Ford,AUTOMOVIL,CAMIONETA,Rojo,COL EL SAUCE 1 CL PPAL POL B #14,151158,77408695,CARLOS ALFARO,milton.heribertoav@gmail.com
578,653,SV,Instalacion,CF11450,2021-12-02,CF13485-1,251,SVC-011321,ADELINA DEL CARMEN MARTINEZ CRUZ,Concesionarios,...,COROLLA CROSS,Toyota,CAMIONETA,SUV,Gris Oscuro,HEAD DR DIAMOND 4629,126306,75478795,ADELINA MARTINEZ,adelina.martinez@yahoo.es
579,654,SV,Instalacion Renta,CF11948,2021-12-02,CF13486-1,254,SVC-009539,"EXPECOVE, LIMITADA DE CAPITAL VARIABLE",Financieras,...,CIVIC,Honda,AUTOMOVIL,SEDAN,Cafe,LOCAL 123P CENTRO COMERCIAL METROCENTRO 7A ETA...,199498,25355914,WALTER DIAZ / CRISTIAN GONZALEZ,mavis.milla@expecove.com.sv
580,655,SV,Instalacion,CF11447,2021-12-01,CF13478-1,250,SVC-010849,ROSA ANGELICA HERNANDEZ ALTUVE,Particulares,...,ALMERA SG,Nissan,AUTOMOVIL,AUTOMOVIL,Ocre,"CALLE A SAN ANTONIO, CTGUO A COMERCIAL MYLADI",139028,79628683,ROSY HERNANDEZ,rahaltuve@yahoo.es


##### Cambio a mayusculas de campos del vehículo para evitar inconvenientes al momento de unir las tablas

In [31]:
df["Lineas"].str.upper()
df["Fabricante"].str.upper()
df["Trackertipo"].str.upper()

0         CAMION
1         CAMION
2          PANEL
3         CAMION
4         CAMION
         ...    
577    CAMIONETA
578          SUV
579        SEDAN
580    AUTOMOVIL
581      PICK UP
Name: Trackertipo, Length: 582, dtype: object

# Creación del Modelo

## Dimensiones

In [32]:
sql_query = 'SELECT * FROM ventasgp;'
df = pd.read_sql(sql_query, mysql_conn)

### Dim_Vendedor

In [33]:
df_Vendedor = pd.DataFrame({"Vendedor" : df["Agente"].unique()})
Dim_Vendedor = pd.DataFrame({"ID_Vendedor" : np.arange(1, len(df_Vendedor)+1, 1) ,"Vendedor" : df["Agente"].unique()})
Dim_Vendedor

Unnamed: 0,ID_Vendedor,Vendedor
0,1,BYUMAN
1,2,ECOMERCIAL
2,3,WPEREZ
3,4,RMENDEZ
4,5,OGONZALEZ
...,...,...
57,58,AMARTINEZ
58,59,OCORDON
59,60,DSANTOS
60,61,GCARDENAS


### Dim_Vehiculo

In [34]:
dfVehiculo = pd.DataFrame({"Codigo_Vehiculo":df["Vehiculo"] ,"Placa" : df["Placas"], "Chasis" : df["Chasis"], "Fabricante" : df["Fabricante"], "Línea" : df["Lineas"].str.upper(), "Tipo" : df["Trackertipo"], "Color" : df["Color"] })
Dim_Vehiculo = pd.DataFrame({"ID_Vehiculo" : np.arange(1, len(dfVehiculo)+1,1), "Codigo_Vehiculo":df["Vehiculo"], "Placa" : df["Placas"], "Chasis" : df["Chasis"], "Fabricante" : df["Fabricante"], "Linea" : df["Lineas"], "Tipo" : df["Trackertipo"], "Color" : df["Color"] })
Dim_Vehiculo = Dim_Vehiculo.drop_duplicates(["Placa"])
Dim_Vehiculo

Unnamed: 0,ID_Vehiculo,Codigo_Vehiculo,Placa,Chasis,Fabricante,Linea,Tipo,Color
0,1,GTV-181376,C265BVW,JHHCCJ3FXNK006407,Hino,XZU650L-WKMMJ3,CAMION,BLANCO LS GRISES
1,2,GTV-181402,C665BTR,JHHCCJ3F3NK005227,Hino,XZU650L-WKMMJ3,CAMION,Blanco
2,3,GTV-181409,P420FCW,KL16B0A57BC141560,Chevrolet,CMV,Panel,Blanco
3,4,GTV-181413,SKU50092,JLBFE85PENKU50092,FUSO,CANTER FE85,CAMION,Blanco
4,5,GTV-181408,C543BPJ,KNCSHX71CG7950787,KIA,K2700 L,CAMION,Blanco
...,...,...,...,...,...,...,...,...
577,578,SVV-043452,P4F4D,1FM5K8GT0FGA40587,Ford,EXPLORER SPORT,CAMIONETA,Rojo
578,579,SVV-043454,S016228,9BRK4AAGX00016228,Toyota,COROLLA CROSS,SUV,Gris Oscuro
579,580,SVV-043447,P804991,2HGFA1F50AH536784,Honda,CIVIC,SEDAN,Cafe
580,581,SVV-043446,P195601,JN1CFAN16Z0082305,Nissan,ALMERA SG,AUTOMOVIL,Ocre


### Dim_Pais

In [35]:
df_Pais = pd.DataFrame({"Pais" : df["Pais"].unique()})
Dim_Pais = pd.DataFrame({"ID_Pais": np.arange(1, len(df_Pais)+1,1),"Pais" : df["Pais"].unique()})
Dim_Pais

Unnamed: 0,ID_Pais,Pais
0,1,GT
1,2,PA
2,3,SV
3,4,HN
4,5,CR


### Dim_Contrato

In [36]:
dfContrato = pd.DataFrame({"Subcontrato" : df["Sub_Contrato"], "Grupo" : df["Grupo"], "Familia" : df["Familia"], "Modalidad" : df["Tipo_Contrato"], "Duracion" : df["Tipo_Periodo"], "Plan" : df['Descripcion_Producto'] })
Dim_Contrato = pd.DataFrame({"ID_Contrato" : np.arange(1, len(dfContrato)+1,1), "Subcontrato" : df["Sub_Contrato"], "Grupo" : df["Grupo"], "Familia" : df["Familia"], "Modalidad" : df["Tipo_Contrato"], "Duracion" : df["Tipo_Periodo"], "Plan" : df['Descripcion_Producto'] })
Dim_Contrato = Dim_Contrato.drop_duplicates()
Dim_Contrato

Unnamed: 0,ID_Contrato,Subcontrato,Grupo,Familia,Modalidad,Duracion,Plan
0,1,EUR21291-1,Particulares,PARTICULARES VSR,Renta,RENTA 12 MESES,Plan Alquiler Anual GPS Serie V1000
1,2,EUR21292-3,Comisionistas,PARTICULARES VSR,Renta,RENTA 12 MESES,Plan Alquiler Mensual GPS Serie V1000
2,3,EUR21292-10,Comisionistas,PARTICULARES VSR,Renta,RENTA 12 MESES,Plan Alquiler Mensual GPS Serie V1000
3,4,VLL5731-6,Financieras,COMODATO VSR-AF,Renta,RENTA 12 MESES,Plan Alquiler Anual Radiofrecuencia EL CAZADOR...
4,5,EUR21292-9,Comisionistas,PARTICULARES VSR,Renta,RENTA 12 MESES,Plan Alquiler Mensual GPS Serie V1000
...,...,...,...,...,...,...,...
577,578,CF13484-1,Particulares,PARTICULAR VSR,Venta,ANUAL,PLAN ANUAL DETEKTOR PLUS XS
578,579,CF13485-1,Concesionarios,PARTICULAR VSR,Venta,ANUAL,Plan Anual PLUS Serie V1000a
579,580,CF13486-1,Financieras,PARTICULAR VSR,Renta,RENTA 12 MESES,Plan Alquiler Mensual GPS Serie V2000
580,581,CF13478-1,Particulares,PARTICULAR VSR,Venta,ANUAL,Plan Anual PLUS Serie V1000a


### Dim_Dispositivo

In [37]:
dfDispositivo = pd.DataFrame({"Equipo" : df["Equipo"], "No_Serie" : df["Serial"]})
Dim_Dispositivo = pd.DataFrame({"ID_Dispositivo" : np.arange(1, len(dfDispositivo)+1,1), "Equipo" : df["Equipo"], "No_Serie" : df["Serial"]})
Dim_Dispositivo = Dim_Dispositivo.drop_duplicates(["No_Serie"])
Dim_Dispositivo

Unnamed: 0,ID_Dispositivo,Equipo,No_Serie
0,1,GPS,651323372
1,2,GPS,462996775
2,3,GPS,820309169
3,4,PLUS,432572305
4,5,GPS,738064080
...,...,...,...
577,578,PLUS,526958468
578,579,PLUS,459299932
579,580,GPS,367273978
580,581,PLUS,633747357


### Dim_Cliente

In [38]:
dfCliente = pd.DataFrame({"Nombre" : df["Nombre"], "Codigo_Cliente" : df["Cliente"], "NIT" : df["NIT"], "Telefono" : df["Telefonos"], "Correo_Electronico": df["Email1"], "Direccion" : df["Direccion"]})
Dim_Cliente = pd.DataFrame({"ID_Cliente" : np.arange(1, len(dfCliente)+1,1),"Nombre" : df["Nombre"], "Codigo_Cliente" : df["Cliente"], "NIT" : df["NIT"], "Telefono" : df["Telefonos"], "Correo_Electronico": df["Email1"], "Direccion" : df["Direccion"]})
Dim_Cliente = Dim_Cliente.drop_duplicates(["Codigo_Cliente"])
Dim_Cliente

Unnamed: 0,ID_Cliente,Nombre,Codigo_Cliente,NIT,Telefono,Correo_Electronico,Direccion
0,1,"FLUSHING, S.A.",GTC-000700,233115,53088092,daniel.carranza@flushingcosmetics.com,12 CALLE 2-25 ZONA 10 EDIFICIO AVIA NIVEL 7 OF...
1,2,BOOM SOCIEDAD ANONIMA,GTC-087200,227661,30324469,boomsa.central@gmail.com,SECTOR 4 CAMBOTE ZONA 11
3,4,"LOGISTICAS Y TRANSPORTES NESS, SOCIEDAD ANONIMA",GTC-087044,217547,30082679,daquino@elroble.com.gt,"50 CALLE ""A"" COLONIA LA COLINA, 16-72 ZONA 12 ..."
5,6,"AGROFORTRESS, SOCIEDAD ANONIMA",GTC-070941,198063,23291919,hcarvajal@foragro.com,KILOMETRO 156 CARRETERA AL SEMILLERO BODEGA C ...
6,7,GUSTAVO ARTURO CAMPOS REYNA,GTC-087206,182521,59538597,camposgustavo1990@gmail.com,"8 AV 1-06 ZONA 4, CIUDAD DEL SOL"
...,...,...,...,...,...,...,...
555,556,MARIO OBDULIO ROMERO RODRIGUEZ,SVC-011327,142536,8882709,mariobrotherspaintig49@hotmail.com,EL CENTRO BO . CHIRILAGUA SAN MIGUE
559,560,JESUS DAGOBERTO GUTIERREZ FAJARDO,HNC-006558,234428,95708568,jb.gutierrez80@hotmail.com,"Entrada Principal, Arada, Santa Barbara"
577,578,MILTON HERIBERTO ALFARO VASQUEZ,SVC-010736,151158,77408695,milton.heribertoav@gmail.com,COL EL SAUCE 1 CL PPAL POL B #14
578,579,ADELINA DEL CARMEN MARTINEZ CRUZ,SVC-011321,126306,75478795,adelina.martinez@yahoo.es,HEAD DR DIAMOND 4629


### Dim_Usuario

In [39]:
df_Usuario = pd.DataFrame({"Usuario" : df["Usuario"].unique()})
Dim_Usuario = pd.DataFrame({"ID_Usuario" : np.arange(1, len(df_Usuario) +1, 1) ,"Usuario" : df["Usuario"].unique()})
Dim_Usuario

Unnamed: 0,ID_Usuario,Usuario
0,1,APAR
1,2,GCANALES
2,3,WPEREZ
3,4,AMORAJ
4,5,ACHAVES
5,6,YGUADAMUZ
6,7,MSOLANO
7,8,YROSALES
8,9,SIZAGUIRRE
9,10,CALEMAN


### Dim_PreciosRenovacion

In [40]:
preno = pd.DataFrame({"Familia": dfren["Familia"] ,"Precio_Renovacion" : dfren["Precio_Renovacion"] })
Dim_Prenovacion = pd.DataFrame({"ID_Precio" : np.arange(1, len(preno)+1,1), "Familia":dfren["Familia"] ,"Precio_Renovacion" : dfren["Precio_Renovacion"]})
Dim_Prenovacion = Dim_Prenovacion.drop_duplicates(["Familia"])
Dim_Prenovacion

Unnamed: 0,ID_Precio,Familia,Precio_Renovacion
0,1,PARTICULARES VSR,212
1,2,COMODATO VSR-AF,207
2,3,PARTICULAR VSR,214
3,4,CANAL DIGITAL,230
4,5,PARTICULAR-UPGRADE,246
5,6,COMODATO VSR-UNI,244
6,7,PARTICULAR CO FLORES,250
7,8,PARTICULAR,238
8,9,FINANCIERA OCCIDENTE,202
9,10,FINANCIERA BETTA,241


### Dim_Costos

In [41]:
tcosto = pd.DataFrame({"Marca" : dfcos["Marca"], "Modelo":dfcos["Modelo"] ,"Valor_FOB" : dfcos["Valor_FOB"]})
Dim_Costo = pd.DataFrame({"ID_Costo" : np.arange(1, len(tcosto)+1,1), "Marca" : dfcos["Marca"], "Modelo":dfcos["Modelo"] ,"Valor_FOB" : dfcos["Valor_FOB"]})
Dim_Costo = Dim_Costo.drop_duplicates(["Modelo"])
Dim_Costo

Unnamed: 0,ID_Costo,Marca,Modelo,Valor_FOB
0,1,Audi,5,12300.0
1,2,Peterbilt,335,10832.0
2,3,Hino,338,7191.0
3,4,Peterbilt,587,12605.0
4,5,International,4300,5204.0
...,...,...,...,...
281,282,Hino,XZU71L0L-HKFT,10624.0
282,283,Hino,XZU720L-FT,12333.0
283,284,TOYOTA,YARIS,9834.0
284,285,Yamaha,YBR125,6205.0


### Dim Fecha

In [42]:
df_Fecha = pd.DataFrame({"Fecha_Emision" : df["Fecha_Emision"].unique()})
#dim_Fecha = pd.DataFrame({"ID Fecha" : np.arange( 1, (len(df_Pais) + 1), 1)  ,"País" : df["País"].unique()})
df_Fecha

Unnamed: 0,Fecha_Emision
0,2022-02-28
1,2022-02-27
2,2022-02-26
3,2022-02-23
4,2022-02-22
...,...
57,2021-12-06
58,2021-12-04
59,2021-12-03
60,2021-12-02


In [43]:
df_Fecha['year'] = pd.DatetimeIndex(df_Fecha['Fecha_Emision']).year
df_Fecha['month'] = pd.DatetimeIndex(df_Fecha['Fecha_Emision']).month
df_Fecha['quarter'] = pd.DatetimeIndex(df_Fecha['Fecha_Emision']).quarter
df_Fecha['day'] = pd.DatetimeIndex(df_Fecha['Fecha_Emision']).day
df_Fecha['week'] = pd.DatetimeIndex(df_Fecha['Fecha_Emision']).week
df_Fecha['dayofweek'] = pd.DatetimeIndex(df_Fecha['Fecha_Emision']).dayofweek
df_Fecha.head()

  df_Fecha['week'] = pd.DatetimeIndex(df_Fecha['Fecha_Emision']).week


Unnamed: 0,Fecha_Emision,year,month,quarter,day,week,dayofweek
0,2022-02-28,2022,2,1,28,9,0
1,2022-02-27,2022,2,1,27,8,6
2,2022-02-26,2022,2,1,26,8,5
3,2022-02-23,2022,2,1,23,8,2
4,2022-02-22,2022,2,1,22,8,1


In [44]:
df_Fecha['is_weekend'] = df_Fecha['dayofweek'].apply(lambda x: 1 if x > 5 else 0)
df_Fecha.head()

Unnamed: 0,Fecha_Emision,year,month,quarter,day,week,dayofweek,is_weekend
0,2022-02-28,2022,2,1,28,9,0,0
1,2022-02-27,2022,2,1,27,8,6,1
2,2022-02-26,2022,2,1,26,8,5,0
3,2022-02-23,2022,2,1,23,8,2,0
4,2022-02-22,2022,2,1,22,8,1,0


In [45]:
df_Fecha['Fecha_Emision'] = pd.to_datetime(df_Fecha.Fecha_Emision, format='%Y-%M-%d')
df_Fecha['ID_Fecha'] = df_Fecha['Fecha_Emision'].dt.strftime('%Y%M%d')
Dim_Fecha = df_Fecha
Dim_Fecha

Unnamed: 0,Fecha_Emision,year,month,quarter,day,week,dayofweek,is_weekend,ID_Fecha
0,2022-01-28 00:02:00,2022,2,1,28,9,0,0,20220228
1,2022-01-27 00:02:00,2022,2,1,27,8,6,1,20220227
2,2022-01-26 00:02:00,2022,2,1,26,8,5,0,20220226
3,2022-01-23 00:02:00,2022,2,1,23,8,2,0,20220223
4,2022-01-22 00:02:00,2022,2,1,22,8,1,0,20220222
...,...,...,...,...,...,...,...,...,...
57,2021-01-06 00:12:00,2021,12,4,6,49,0,0,20211206
58,2021-01-04 00:12:00,2021,12,4,4,48,5,0,20211204
59,2021-01-03 00:12:00,2021,12,4,3,48,4,0,20211203
60,2021-01-02 00:12:00,2021,12,4,2,48,3,0,20211202


In [46]:
df['Fecha_Emision'] = pd.to_datetime(df.Fecha_Emision  , format='%Y-%M-%d')
df['Fecha_Emision'] = df['Fecha_Emision'].dt.strftime('%Y%M%d')
#df

### Creación Fact Table

In [47]:
dfV1 = df.merge(Dim_Pais, left_on='Pais', right_on='Pais')
dfV2 = dfV1.merge(Dim_Usuario, left_on ="Usuario", right_on= "Usuario")
dfV3 = dfV2.merge(Dim_Vendedor, left_on="Agente", right_on="Vendedor")
dfV4 = dfV3.merge(Dim_Contrato, left_on="Sub_Contrato", right_on="Subcontrato")
dfV5 = dfV4.merge(Dim_Dispositivo, left_on="Serial", right_on="No_Serie")
dfV6 = dfV5.merge(Dim_Vehiculo, left_on="Vehiculo", right_on="Codigo_Vehiculo")
dfV7 = dfV6.merge(Dim_Prenovacion, left_on='Familia_x', right_on='Familia')
dfV8 = dfV7.merge(Dim_Costo, left_on='Lineas', right_on='Modelo')
dfV9 = dfV8.merge(Dim_Cliente, left_on="Cliente", right_on="Codigo_Cliente")
fact_ventas = dfV9.merge (Dim_Fecha, left_on='Fecha_Emision', right_on='ID_Fecha')
fact_ventas['ID'] = range(1, len(fact_ventas)+1)
fact_ventas.rename(columns={'Familia_x': 'Familia', 'Pais_x': 'Pais','Fecha_Emision_x': 'Fecha_Emision', 'Nombre_x': 'Nombre', 'Grupo_x': 'Grupo'}, inplace=True)
fact_ventas.head()

Unnamed: 0,Id,Pais,Movimiento_Ventas,Transaccion_Ventas,Fecha_Emision,Sub_Contrato,Dias,Cliente,Nombre,Grupo,...,Fecha_Emision_y,year,month,quarter,day,week,dayofweek,is_weekend,ID_Fecha,ID
0,1,GT,Instalacion Renta,EUR26012,20220228,EUR21291-1,338,GTC-000700,"FLUSHING, S.A.",Particulares,...,2022-01-28 00:02:00,2022,2,1,28,9,0,0,20220228,1
1,2,GT,Instalacion Renta,EUR26022,20220228,EUR21292-3,338,GTC-087200,BOOM SOCIEDAD ANONIMA,Comisionistas,...,2022-01-28 00:02:00,2022,2,1,28,9,0,0,20220228,2
2,5,GT,Instalacion Renta,EUR26026,20220228,EUR21292-9,338,GTC-087200,BOOM SOCIEDAD ANONIMA,Comisionistas,...,2022-01-28 00:02:00,2022,2,1,28,9,0,0,20220228,3
3,3,GT,Instalacion Renta,EUR26024,20220228,EUR21292-10,338,GTC-087200,BOOM SOCIEDAD ANONIMA,Comisionistas,...,2022-01-28 00:02:00,2022,2,1,28,9,0,0,20220228,4
4,8,GT,Instalacion Renta,EUR26048,20220228,EUR21309-1,397,GTC-087207,TRANSPORTES RABANALES,Particulares,...,2022-01-28 00:02:00,2022,2,1,28,9,0,0,20220228,5


### Fact_Table

In [48]:
Fact_Ventas = fact_ventas.loc[:,["ID","ID_Fecha","ID_Pais", "ID_Usuario","ID_Vendedor","ID_Contrato","ID_Dispositivo","ID_Vehiculo", "ID_Cliente", "ID_Costo", "ID_Precio","Cantidad", "Precio_Total", "Importe", "Descuento_Lineal", "Impuestos", "Valor_FOB"]]
Fact_Ventas

Unnamed: 0,ID,ID_Fecha,ID_Pais,ID_Usuario,ID_Vendedor,ID_Contrato,ID_Dispositivo,ID_Vehiculo,ID_Cliente,ID_Costo,ID_Precio,Cantidad,Precio_Total,Importe,Descuento_Lineal,Impuestos,Valor_FOB
0,1,20220228,1,1,1,1,1,1,1,279,1,1,299.0,168.75,98.21,20.25,6106.00
1,2,20220228,1,2,2,2,2,2,2,279,1,1,40.0,14.29,21.43,1.71,6106.00
2,3,20220228,1,2,2,5,5,5,2,170,1,1,40.0,14.29,21.43,1.71,11641.00
3,4,20220228,1,2,2,3,3,3,2,64,1,1,40.0,14.29,21.43,1.71,10612.00
4,5,20220228,1,1,5,8,8,8,8,212,1,1,350.0,267.86,44.64,32.14,6070.00
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
577,578,20211202,3,8,50,580,580,580,283,59,3,1,13.0,13.00,0.00,1.69,5446.00
578,579,20211202,3,8,17,578,578,578,578,103,3,1,270.4,199.00,71.40,25.87,7739.00
579,580,20220209,2,5,12,69,69,69,69,264,3,1,160.0,160.00,0.00,11.20,12778.19
580,581,20220116,4,11,23,230,230,230,229,249,8,1,35.0,34.00,1.00,5.10,7988.00


# Conexión Redshift

In [49]:
ENDPOINT= "redshift-cluster-1.czlp9ifsh6ms.us-east-1.redshift.amazonaws.com"
DB_NAME= "dev"
DB_USER= "awsuser"
DB_PASSWORD= "redSkey1"
DB_PORT= "5439"

In [50]:
redshift_conn_string = "postgresql://{}:{}@{}:{}/{}".format(DB_USER, DB_PASSWORD, ENDPOINT, DB_PORT, DB_NAME)
print(redshift_conn_string)

postgresql://awsuser:redSkey1@redshift-cluster-1.czlp9ifsh6ms.us-east-1.redshift.amazonaws.com:5439/dev


In [51]:
%sql $redshift_conn_string

'Connected: awsuser@dev'

In [52]:
from sqlalchemy import create_engine
conn = create_engine(redshift_conn_string)

# Envío de los datos

In [1]:
Dim_Fecha.to_sql('dim_fecha', conn, index=False, if_exists ='append', method = 'multi')

NameError: name 'Dim_Fecha' is not defined

In [54]:
Dim_Pais.to_sql('dim_pais', conn, index=False, if_exists ='append', method = 'multi')

In [55]:
Dim_Usuario.to_sql('dim_usuario', conn, index=False, if_exists ='append', method = 'multi')

In [56]:
Dim_Vendedor.to_sql('dim_vendedor', conn, index=False, if_exists ='append', method = 'multi')

In [57]:
Dim_Contrato.to_sql('dim_contrato', conn, index=False, if_exists ='append', method = 'multi')

In [58]:
Dim_Dispositivo.to_sql('dim_dispositivo', conn, index=False, if_exists ='append', method = 'multi')

In [59]:
Dim_Vehiculo.to_sql('dim_vehiculo', conn, index=False, if_exists ='append', method = 'multi')

In [60]:
Dim_Cliente.to_sql('dim_cliente', conn, index=False, if_exists ='append', method = 'multi')

In [61]:
Dim_Costo.to_sql('dim_costo', conn, index=False, if_exists ='append', method = 'multi')

In [62]:
Dim_Prenovacion.to_sql('dim_prenovacion', conn, index=False, if_exists ='append', method = 'multi')

In [63]:
Fact_Ventas.to_sql('fact_ventas', conn, index=False, if_exists ='append', method = 'multi')

## Códigos para la Creación de las Tablas en Redshift

DROP TABLE  IF EXISTS public.Dim_Fecha;
DROP TABLE  IF EXISTS public.Dim_Pais;
DROP TABLE  IF EXISTS public.Dim_Usuario;
DROP TABLE  IF EXISTS public.Dim_Vendedor;
DROP TABLE  IF EXISTS public.Dim_Contrato;
DROP TABLE  IF EXISTS public.Dim_Dispositivo;
DROP TABLE  IF EXISTS public.Dim_Vehiculo;
DROP TABLE  IF EXISTS public.Dim_Cliente;
DROP TABLE  IF EXISTS public.Dim_Costo;
DROP TABLE  IF EXISTS public.Dim_Prenovacion;
DROP TABLE  IF EXISTS public.Fact_Ventas;


CREATE TABLE IF NOT EXISTS public.dim_Fecha(
ID_Fecha  DATE NOT NULL,
Fecha_Emision	DATE NOT NULL,
Year  INTEGER NOT NULL,
month	INTEGER NOT NULL,
quarter INTEGER NOT NULL,
day INTEGER NOT NULL	,
week INTEGER NOT NULL,
dayofweek INTEGER NOT NULL,
is_weekend INTEGER NOT NULL
);


CREATE TABLE IF NOT EXISTS public.dim_Pais(
ID_Pais INTEGER PRIMARY KEY,
Pais VARCHAR(10) NOT NULL
);

CREATE TABLE IF NOT EXISTS public.Dim_Usuario(
ID_Usuario INTEGER PRIMARY KEY,
Usuario VARCHAR (30) NOT NULL
);

CREATE TABLE IF NOT EXISTS public.Dim_Vendedor(
ID_Vendedor INTEGER PRIMARY KEY,
Vendedor VARCHAR (30) NOT NULL
);

CREATE TABLE IF NOT EXISTS public.Dim_Contrato(
ID_Contrato INTEGER PRIMARY KEY,
Subcontrato VARCHAR (20) NOT NULL,
Grupo  VARCHAR (20) NOT NULL,
Familia VARCHAR (30) NOT NULL,
Modalidad VARCHAR (10) NOT NULL,
Duracion VARCHAR (20) NOT NULL,
Plan VARCHAR (80) NOT NULL
);


CREATE TABLE IF NOT EXISTS public.Dim_Dispositivo(
ID_Dispositivo INTEGER PRIMARY KEY,
Equipo VARCHAR (20) NOT NULL,
No_Serie INTEGER NOT NULL
);

CREATE TABLE IF NOT EXISTS public.Dim_Vehiculo(
ID_Vehiculo INTEGER PRIMARY KEY,
Codigo_Vehiculo VARCHAR (30) NOT NULL,
Placa  VARCHAR (20) NOT NULL,
Chasis VARCHAR (25) NOT NULL,
Fabricante VARCHAR (20) NOT NULL,
Linea VARCHAR (25) NOT NULL,
Tipo VARCHAR (35) NOT NULL,
Color VARCHAR (40) NOT NULL
);

CREATE TABLE IF NOT EXISTS public.Dim_Cliente(
ID_Cliente INTEGER PRIMARY KEY,
Nombre VARCHAR (100) NOT NULL,
Codigo_Cliente  VARCHAR (20) NOT NULL,
NIT INTEGER NOT NULL,
Telefono INTEGER NOT NULL,
Correo_Electronico VARCHAR (50) NOT NULL,
Direccion VARCHAR (200) NOT NULL
);

CREATE TABLE IF NOT EXISTS public. Dim_Costo(
ID_Costo INTEGER PRIMARY KEY,
Marca VARCHAR (30) NOT NULL,
Modelo VARCHAR (30) NOT NULL,
Valor_FOB NUMERIC NOT NULL
);

CREATE TABLE IF NOT EXISTS public. Dim_Prenovacion(
ID_Precio INTEGER PRIMARY KEY,
Familia VARCHAR (30) NOT NULL,
Precio_Renovacion NUMERIC NOT NULL
);


create table if not exists public.Fact_Ventas(
   ID INTEGER PRIMARY KEY  
  ,ID_Fecha date not null
  ,ID_Pais INTEGER not null
  ,ID_Usuario INTEGER not null
  ,ID_Vendedor INTEGER not null
  ,ID_Contrato INTEGER not null
  ,ID_Dispositivo INTEGER not null
  ,ID_Vehiculo INTEGER not null
  ,ID_Cliente INTEGER not null
  ,ID_Costo INTEGER not null
  ,ID_Precio INTEGER not null
  ,Cantidad INTEGER not null
  ,Precio_Total numeric not null
  ,Importe numeric not null
  ,Descuento_Lineal numeric not null
  ,Impuestos numeric not null
  ,Valor_FOB numeric not null);

,constraint ventas_pk primary key (ID, ID_Fecha, ID_Pais, ID_Usuario, ID_Vendedor, ID_Contrato, ID_Dispositivo, ID_Vehiculo, ID_Cliente, ID_Costo, ID_Precio)

  ,constraint ventas_Fecha_fk foreign key (ID_Fecha) references dim_Fecha (ID_Fecha)
  ,constraint ventas_Pais_fk foreign key (ID_Pais) references Dim_Pais(ID_Pais)
  ,constraint ventas_Usuario_fk foreign key (ID_Usuario) references Dim_Usuario (ID_Usuario)
  ,constraint ventas_Vendedor_fk foreign key (ID_Vendedor) references Dim_Vendedor (ID_Vendedor)
  ,constraint ventas_Contrato_fk foreign key (ID_Contrato) references Dim_Contrato (ID_Contrato)
  ,constraint ventas_Dispositivo_fk foreign key (ID_Dispositivo) references Dim_Dispositivo (ID_Dispositivo)
  ,constraint ventas_Vehiculo_fk foreign key (ID_Vehiculo) references Dim_Vehiculo (ID_Vehiculo)
  ,constraint ventas_Cliente_fk foreign key (ID_Cliente) references Dim_Cliente (ID_Cliente)
  ,constraint ventas_Costo_fk foreign key (ID_Costo) references Dim_Costo (ID_Costo) 
  ,constraint ventas_Precio_fk foreign key (ID_Precio) references Dim_Prenovacion (ID_Precio)
)

## Análisis de la Información del Modelo

#### Pregunta 1: ¿Qué marca de vehículo es la que más se instala en la region?

In [64]:
%%sql 
select distinct (Fabricante), sum(Importe) Importe  from fact_ventas as f
join dim_Vehiculo as v on f.ID_Vehiculo = v.ID_Vehiculo
group by Fabricante order by Importe desc limit 10

   mysql+pymysql://admin:***@ventas.cnyzxxljvw5b.us-east-1.rds.amazonaws.com/ventas
 * postgresql://awsuser:***@redshift-cluster-1.czlp9ifsh6ms.us-east-1.redshift.amazonaws.com:5439/dev
10 rows affected.


fabricante,importe
Toyota,121724.2
Hyundai,77855.52
Chevrolet,28801.16
Isuzu,20127.96
KIA,17074.56
Hino,10055.56
FreightLiner,9321.48
Mitsubishi,8536.00000000001
Nissan,7798.0
International,5967.92


#### Pregunta 2: ¿Qué país de la región es el que vende más?

In [65]:
%%sql
select distinct (Pais), sum(Importe) Importe  from fact_ventas as f
join dim_Pais as v on f.ID_Pais = v.ID_Pais
group by Pais order by Importe desc

   mysql+pymysql://admin:***@ventas.cnyzxxljvw5b.us-east-1.rds.amazonaws.com/ventas
 * postgresql://awsuser:***@redshift-cluster-1.czlp9ifsh6ms.us-east-1.redshift.amazonaws.com:5439/dev
5 rows affected.


pais,importe
HN,129182.6
CR,109600.24
GT,106549.76
PA,28729.0
SV,21735.36


#### Pregunta 3: ¿Cuál es plan más vendido?

In [66]:
%%sql
select distinct (Plan), sum(Importe) Importe  from fact_ventas as f
join dim_Contrato as c on f.ID_Contrato = c.ID_Contrato
group by Plan order by Importe desc limit 10

   mysql+pymysql://admin:***@ventas.cnyzxxljvw5b.us-east-1.rds.amazonaws.com/ventas
 * postgresql://awsuser:***@redshift-cluster-1.czlp9ifsh6ms.us-east-1.redshift.amazonaws.com:5439/dev
10 rows affected.


plan,importe
Plan Trianual Plus Serie V7000a,76428.0
Plan Anual Serie RF3000,74064.0
Plan Alquiler Anual Radiofrecuencia EL CAZADOR PLUS Serie V1000i,52972.2
Plan Anual Plus Serie V8000s,29574.4
Plan Trianual Plus Serie V7000i,23160.0
PLAN ANUAL DETEKTOR GPS XS,21968.92
Plan Alquiler Anual GPS Serie V1000,18610.64
Plan Alquiler Anual Radiofrecuencia EL CAZADOR PLUS Serie V1000a,16548.2
Plan Anual GPS Serie V8000,9588.0
PLAN ANUAL DETEKTOR PLUS XS,7592.0


#### Pregunta 4: ¿Cuál es la tecnología más vendida en la región?

In [67]:
%%sql
select distinct (Equipo), sum(Importe) Importe  from fact_ventas as f
join dim_Dispositivo as d on f.ID_Dispositivo = d.ID_Dispositivo 
group by Equipo order by Importe desc 

   mysql+pymysql://admin:***@ventas.cnyzxxljvw5b.us-east-1.rds.amazonaws.com/ventas
 * postgresql://awsuser:***@redshift-cluster-1.czlp9ifsh6ms.us-east-1.redshift.amazonaws.com:5439/dev
4 rows affected.


equipo,importe
PLUS,236388.2
GPS,81527.4800000003
RF,77523.96
Cazacarga,357.32


#### Pregunta 5: ¿Qué linea de vehículo tiene mayor potencial para ser asegurado según su valor de mercado?

In [72]:
%%sql
select distinct (Linea), count (Linea) Cantidad , Valor_FOB from fact_ventas as f
join dim_Vehiculo as v on f.ID_Vehiculo = v.ID_Vehiculo group by Linea, Valor_FOB 
order by Cantidad desc limit 6

   mysql+pymysql://admin:***@ventas.cnyzxxljvw5b.us-east-1.rds.amazonaws.com/ventas
 * postgresql://awsuser:***@redshift-cluster-1.czlp9ifsh6ms.us-east-1.redshift.amazonaws.com:5439/dev
6 rows affected.


linea,cantidad,valor_fob
HILUX,356,5879.0
COROLLA,40,12248.0
VERSA,36,12778.19
HIACE,32,12260.0
HIACE,32,19695.0
RAV 4,24,11799.0


#### Pregunta 6: ¿Qué tipo de vehículo representará mayor potencial de ingreso por renovación de contratos el siguiente periodo?

In [69]:
%%sql
select distinct (Tipo), count (Tipo) Cantidad , Precio_Renovacion from fact_ventas as f
join dim_Vehiculo as v on f.ID_Vehiculo = v.ID_Vehiculo
join dim_Prenovacion as p on f.ID_Precio = p.ID_Precio 
group by Tipo, Precio_Renovacion order by Cantidad desc limit 10

   mysql+pymysql://admin:***@ventas.cnyzxxljvw5b.us-east-1.rds.amazonaws.com/ventas
 * postgresql://awsuser:***@redshift-cluster-1.czlp9ifsh6ms.us-east-1.redshift.amazonaws.com:5439/dev
10 rows affected.


tipo,cantidad,precio_renovacion
Pick Up,352,250
CAMION,224,238
CAMION,200,212
PICK UP,176,212
AUTOMOVIL SEDAN,160,214
CABEZAL,152,212
CAMION,112,214
CAMIONETA,112,214
Automovil,104,224
AUTOMOVIL,104,224


#### Pregunta 7: ¿Cuál es la el promedio de ventas por categoría de cliente?

In [70]:
%%sql
select distinct (Grupo), avg(Importe) Importe  from fact_ventas as f
join dim_Contrato as c on f.ID_Contrato = c.ID_Contrato
group by Grupo order by Importe desc 

   mysql+pymysql://admin:***@ventas.cnyzxxljvw5b.us-east-1.rds.amazonaws.com/ventas
 * postgresql://awsuser:***@redshift-cluster-1.czlp9ifsh6ms.us-east-1.redshift.amazonaws.com:5439/dev
7 rows affected.


grupo,importe
Concesionarios,296.132083333333
Financieras,242.268571428571
Comisionistas,151.698157894737
Particulares,111.258036529681
Aseguradoras,103.936666666667
Digital,76.5
Corporativos,51.4439215686274
