# INIT 

#### >\_ LIBRERIAS Y CONFIG 

In [82]:
import pandas as pd
import numpy as np
import boto3
import psycopg2
import configparser
import io

In [124]:
config = configparser.ConfigParser()
config.read('proy.cfg')

['proy.cfg']

In [19]:
#RDS_HOST = 'cdp-proy-db.cmvrcaidz2tn.us-east-1.rds.amazonaws.com'
RDS_HOST=config.get('RDS', 'RDS_HOST')
#RDS_HOST
print(RDS_HOST)

cdp-proy-db.cmvrcaidz2tn.us-east-1.rds.amazonaws.com


In [14]:
# DRIVER DE POSTGRES
postgres_driver = f"""postgresql://{config.get('RDS', 'DB_USER')}:{config.get('RDS', 'DB_PASSWORD')}@{RDS_HOST}:{config.get('RDS', 'DB_PORT')}/{config.get('RDS', 'DB_NAME')}"""  

---

# SCOPE
### fuentes de inforamcion

### Fuente 1: AWS / RDS
#### Descripcion de la BBDD OLTP
+ **motor:** PostgreSQL
La base de datos sirve a un sistema de Call Center que brinda Asistencias para asegurados. Se tienen registros de las expedientes solicitando asistencia de distintas areas durante el año 2015. Las tablas se describen a continuacion:
+ **compania:** contiene los distintos clientes que contratan el servicio de Asistencias (no asegurados)  
+ **costo:**   tabla de hechos que contiene los servicios prestados, el proveedor y los costos generados
+ **departamento:**  catalogo de departamentos de Guatemala
+ **encargado:**   catalogo de agentes de call center que coordinan los servicios de asistencia
+ **expediente:**  tabla de hechos que contiene fecha, datos de asegurado, datos del servicio, y medidas de los servicios prestados.
+ **municipio:**  catalogo de municipios de Guatemala
+ **pais:**   catalogo de paises
+ **prestacion:**  catalogo de servicios disponibles para brindar asistencia

### Fuente 2: AWS / S3
#### Descripcion de los ficheros
+ **motor:** Archivos CSV
+ **container:** S3
Los ficheros son estructuras complementarias del la BBDD OLTP del Sistema de Asistencias, son ficheros que contienen estructura y datos que provienen de un segundo sistema OLTP, y se adicionan al DataWarehouse. Las tablas se describen a continuacion:
+ **area:** categorias de los servicios prestados en la tabla: expediente  
+ **proveedor:**  catalogo de proveedores concertados de los que se pueden disponer en los expedientes de asistencia.


---

# EXPLORACIÓN DE DATOS

### >> COMPANIA

In [200]:
sql_query = 'SELECT * FROM compania;'
df_compania = pd.read_sql(sql_query, postgres_driver)
df_compania.head()

Unnamed: 0,cod_com,nom_com,cod_pai,nom_pai,tip_com,est_com,cco_sap,clasifica
0,900,CONSULT MAPFRE ASISTENCIA (SPAIN) ...,300,OTHERS ...,I,A,,
1,100,IBERO ASISTENCIA ESPA-A ...,101,ANDORRA ...,I,A,,
2,102,EUROSOS ...,226,ALBANIA ...,I,A,,
3,103,FRANCE ASSIST ...,135,FRANCE ...,I,A,,
4,104,ANDIASISTENCIA ...,121,COLOMBIA ...,I,A,,


In [209]:
print(df_compania.shape)
print(df_compania['cod_com'].describe())
print(df_compania.columns)

(106, 8)
count     106
unique    106
top       900
freq        1
Name: cod_com, dtype: object
Index(['cod_com', 'nom_com', 'cod_pai', 'nom_pai', 'tip_com', 'est_com',
       'cco_sap', 'clasifica'],
      dtype='object')


### >_Preparar Dimension: dim_compania

In [170]:
df_compania.drop_duplicates(subset=['cod_com'], inplace=True)
dim_compania = df_compania.drop(['cod_pai', 'tip_com', 'est_com', 'clasifica'], axis=1)
#dim_compania = df_compania.reset_index().rename({'index' : 'sk_com'}, axis='columns')
#df_compania.head()
#.rename({'index' : 'sk_com'}, axis='columns')
#dim_compania = df_compania
dim_compania.head()

Unnamed: 0,cod_com,nom_com,nom_pai,cco_sap
0,900,CONSULT MAPFRE ASISTENCIA (SPAIN) ...,OTHERS ...,
1,100,IBERO ASISTENCIA ESPA-A ...,ANDORRA ...,
2,102,EUROSOS ...,ALBANIA ...,
3,103,FRANCE ASSIST ...,FRANCE ...,
4,104,ANDIASISTENCIA ...,COLOMBIA ...,


### >> PAIS

In [35]:
sql_query = 'SELECT * FROM pais;'
df_pais = pd.read_sql(sql_query, postgres_driver)
df_pais.head()

Unnamed: 0,cod_pai,nom_pai
0,100,GERMANY ...
1,101,ANDORRA ...
2,102,ANGOLA ...
3,103,SAUDI ARABIA ...
4,104,ALGERIA ...


In [210]:
print(df_pais.shape)
print(df_pais.describe())
print(df_pais.columns)

(215, 2)
       cod_pai                                            nom_pai
count      215                                                215
unique     215                                                215
top        100  GERMANY                                       ...
freq         1                                                  1
Index(['cod_pai', 'nom_pai'], dtype='object')


### >_Preparar Dimension: dim_pais

In [36]:
dim_pais = df_pais

### >> DEPARTAMENTO

In [33]:
sql_query = 'SELECT * FROM departamento;'
df_departamento = pd.read_sql(sql_query, postgres_driver)
df_departamento.head()

Unnamed: 0,cod_dep,nom_dep,cab_dep,cod_pai
0,7,ALTA VERAPAZ ...,COBAN ...,141
1,2,BAJA VERAPAZ ...,SALAMA ...,141
2,3,CHIMALTENANGO ...,CHIMALTENANGO ...,141
3,4,CHIQUIMULA ...,CHIQUIMULA ...,141
4,5,EL PROGRESO ...,GUASTATOYA ...,141


In [211]:
print(df_departamento.shape)
print(df_departamento.describe())
print(df_departamento.columns)

(24, 5)
       cod_dep                                            nom_dep  \
count       24                                                 24   
unique      24                                                 24   
top         07  ALTA VERAPAZ                                  ...   
freq         1                                                  1   

                                                  cab_dep cod_pai  \
count                                                  24      24   
unique                                                 24       1   
top     COBAN                                         ...     141   
freq                                                    1      24   

                                                  nom_pai  
count                                                  24  
unique                                                  1  
top     GUATEMALA                                     ...  
freq                                                   24  


### >_Preparar Dimension: dim_departamento

In [38]:
df_departamento = df_departamento.merge(dim_pais)
dim_departamento = df_departamento.drop(['cod_pai'], axis=1)
dim_departamento.head()

Unnamed: 0,cod_dep,nom_dep,cab_dep,nom_pai
0,7,ALTA VERAPAZ ...,COBAN ...,GUATEMALA ...
1,2,BAJA VERAPAZ ...,SALAMA ...,GUATEMALA ...
2,3,CHIMALTENANGO ...,CHIMALTENANGO ...,GUATEMALA ...
3,4,CHIQUIMULA ...,CHIQUIMULA ...,GUATEMALA ...
4,5,EL PROGRESO ...,GUASTATOYA ...,GUATEMALA ...


### >> MUNICIPIO

In [42]:
sql_query = 'SELECT * FROM municipio;'
df_municipio = pd.read_sql(sql_query, postgres_driver)
df_municipio.head()

Unnamed: 0,cod_dep,cod_mun,nom_mun
0,1,1,GUATEMALA
1,1,2,AMATITLAN
2,1,3,CHINAUTLA
3,1,4,CHUARRANCHO
4,1,5,FRAIJANES


In [212]:
print(df_municipio.shape)
print(df_municipio.describe())
print(df_municipio.columns)

(334, 3)
         cod_dep   cod_mun                       nom_mun
count        334       334                           334
unique        24        32                           328
top     08        1         SAN LORENZO                 
freq          31        23                             2
Index(['cod_dep', 'cod_mun', 'nom_mun'], dtype='object')


### >_Preparar Dimension: dim_municipio

In [43]:
dim_municipio = df_municipio.reset_index().rename({'index' : 'sk_mun'}, axis='columns')
dim_municipio.head()

Unnamed: 0,sk_mun,cod_dep,cod_mun,nom_mun
0,0,1,1,GUATEMALA
1,1,1,2,AMATITLAN
2,2,1,3,CHINAUTLA
3,3,1,4,CHUARRANCHO
4,4,1,5,FRAIJANES


### >> ENCARGADO

In [45]:
sql_query = 'SELECT * FROM encargado;'
df_encargado = pd.read_sql(sql_query, postgres_driver)
df_encargado.columns

Index(['cod_enc', 'nom_enc', 'tip_enc', 'cla_enc', 'flag', 'pathfoto',
       'emp_enc', 'foto', 'msgpriv', 'online', 'area', 'cargo', 'conexion',
       'dpi', 'direccion', 'telefono', 'movil', 'email', 'profesion', 'numa',
       'historial', 'metas', 'hobbie', 'comenta'],
      dtype='object')

In [213]:
print(df_encargado.shape)
print(df_encargado.describe())
print(df_encargado.columns)

(184, 24)
       msgpriv    conexion
count    184.0  176.000000
mean       0.0   21.329545
std        0.0   51.168120
min        0.0    0.000000
25%        0.0    0.000000
50%        0.0    0.000000
75%        0.0   25.000000
max        0.0  435.000000
Index(['cod_enc', 'nom_enc', 'tip_enc', 'cla_enc', 'flag', 'pathfoto',
       'emp_enc', 'foto', 'msgpriv', 'online', 'area', 'cargo', 'conexion',
       'dpi', 'direccion', 'telefono', 'movil', 'email', 'profesion', 'numa',
       'historial', 'metas', 'hobbie', 'comenta'],
      dtype='object')


### >_Preparar Dimension: dim_encargado

In [48]:
dim_encargado = df_encargado.drop(['cla_enc', 'flag', 'pathfoto',
       'emp_enc', 'foto', 'msgpriv', 'online', 'area', 'cargo', 'conexion',
       'dpi', 'direccion', 'telefono', 'movil', 'email', 'profesion', 'numa',
       'historial', 'metas', 'hobbie', 'comenta'], axis=1)
dim_encargado.head()
#dim_encargado[dim_encargado.duplicated('cod_enc')]

Unnamed: 0,cod_enc,nom_enc,tip_enc
0,WAY,WALTER AMADO YAX CAXAJ ...,SUPERVISOR
1,AGF,ALAN GIOVANNI FIGUEROA ...,SUPERVISOR
2,GLT,GILBERTO LEVI ...,SISTEMAS
3,MEM,MARLON EDUARDO MEJIA VASQUEZ ...,OPERADOR
4,GFS,GIOVANNI FRANCISCO SARAVIA RODRIGUEZ ...,OPERADOR


In [196]:
dim_encargado.shape

(184, 3)

### >> PRESTACION

In [70]:
sql_query = 'SELECT * FROM prestacion;'
df_prestacion = pd.read_sql(sql_query, postgres_driver)
df_prestacion.columns

Index(['cod_pre', 'des_pre', 'flag_prov', 'flag_srv2'], dtype='object')

In [214]:
print(df_prestacion.shape)
print(df_prestacion.describe())
print(df_prestacion.columns)

(116, 4)
       cod_pre                                            des_pre flag_prov  \
count      116                                                116       113   
unique     116                                                115        21   
top        019  TIEMPO DE ESPERA                              ...         G   
freq         1                                                  2        20   

       flag_srv2  
count          4  
unique         1  
top            *  
freq           4  
Index(['cod_pre', 'des_pre', 'flag_prov', 'flag_srv2'], dtype='object')


### >_Preparar Dimension: dim_prestacion

**>> ELIMINAR DUPLICADOS EN LA DIMENSION**

In [71]:
df_prestacion[df_prestacion.duplicated('cod_pre')]

Unnamed: 0,cod_pre,des_pre,flag_prov,flag_srv2
15,019,ENVIO DE COMBUSTIBLE LOCAL ...,B,
34,101,CERRAJERIA VEHICULAR ...,B,
84,305,VISITA DOMICILIAR HABIL (foranea) ...,A,
85,017,CAMBIO DE LLANTA LOCAL ...,G,
86,018,PASO DE CORRIENTE LOCAL ...,G,
...,...,...,...,...
182,098,EXCESO LIMITE DE COBERTURA ...,L,
188,349,VISITA DOMICILIAR LOCAL ...,B,
189,349,VISITA DOMICILIAR LOCAL ...,Y,
190,350,VISITA DOMICILIAR FORANEA ...,B,


In [72]:
df_prestacion.drop_duplicates(subset=['cod_pre'], inplace=True)
dim_prestacion = df_prestacion.drop(['flag_prov', 'flag_srv2'], axis=1)
#dim_prestacion.head()
dim_prestacion[dim_prestacion.duplicated('cod_pre')]

Unnamed: 0,cod_pre,des_pre


In [73]:
dim_prestacion.head()

Unnamed: 0,cod_pre,des_pre
0,19,ENVIO DE COMBUSTIBLE LOCAL ...
1,0,SERVICIO CANCELADO ...
2,1,INFORMACION ...
3,310,CREDITO HOSPITALARIO ...
4,2,ASESORIA LEGAL O DOCUMENTO PRIVADO ...


### FUENTE: S3 - OBTENERMOS TABLAS DESDE  S3

In [74]:
s3 = boto3.resource(
    service_name = 's3',
    region_name = 'us-east-1',
    aws_access_key_id = config.get('IAM', 'ACCESS_KEY'),
    aws_secret_access_key = config.get('IAM', 'SECRET_ACCESS_KEY')
)

In [75]:
for bucket in s3.buckets.all():
    S3_BUCKET_NAME = bucket.name
    print(bucket.name)

papd-cdp-mi-primer-bucket


In [78]:
S3_BUCKET_NAME = config.get('S3', 'BUCKET_NAME')

### >> PROVEEDOR

In [174]:
try:
    file = s3.Bucket(S3_BUCKET_NAME).Object('dim_proveedor.csv').get()
#    print(file)
    df_proveedor= pd.read_csv(file['Body'])
except Exception as ex:
    print("No es un archivo.")
    print(ex)

#df_proveedor.head()
df_proveedor.columns

Index(['cod_pro', 'nom_pro', 'cod_dep', 'cti_pro', 'te1_pro', 'te2_pro',
       'te3_pro', 'te4_pro', 'te5_pro', 'te6_pro', 'te7_pro', 'te8_pro',
       'est_pro', 'ind_imp', 'ind_ret', 'dir_pro', 'ser_pro', 'cpr_sap',
       'obs_pro', 'flag_prov', 'codigoe'],
      dtype='object')

In [215]:
print(df_proveedor.shape)
print(df_proveedor.describe())
print(df_proveedor.columns)

(1303, 21)
       te6_pro  te7_pro  te8_pro  ind_imp  ind_ret  ser_pro  cpr_sap  obs_pro  \
count    263.0    263.0    263.0      0.0      0.0      0.0      0.0   1123.0   
mean    1234.0   1234.0   1234.0      NaN      NaN      NaN      NaN      0.0   
std        0.0      0.0      0.0      NaN      NaN      NaN      NaN      0.0   
min     1234.0   1234.0   1234.0      NaN      NaN      NaN      NaN      0.0   
25%     1234.0   1234.0   1234.0      NaN      NaN      NaN      NaN      0.0   
50%     1234.0   1234.0   1234.0      NaN      NaN      NaN      NaN      0.0   
75%     1234.0   1234.0   1234.0      NaN      NaN      NaN      NaN      0.0   
max     1234.0   1234.0   1234.0      NaN      NaN      NaN      NaN      0.0   

       flag_prov    codigoe  
count  12.000000  44.000000  
mean    0.833333   2.159091  
std     0.389249   0.369989  
min     0.000000   2.000000  
25%     1.000000   2.000000  
50%     1.000000   2.000000  
75%     1.000000   2.000000  
max     1.000000   

### >_ Preparar Dimension: dim_proveedor
**VERIFICAMOS SI HAY DUPLICADOS Y LOS ELIMINAMOS**

In [175]:
len(df_proveedor[df_proveedor.duplicated('cod_pro')].index)

264

In [176]:
df_proveedor.drop_duplicates(subset=['cod_pro'], inplace=True)
df_proveedor = df_proveedor.dropna(subset=["cod_pro"])
dim_proveedor = df_proveedor.drop(['cod_dep', 'cti_pro', 'te1_pro', 'te2_pro',
       'te3_pro', 'te4_pro', 'te5_pro', 'te6_pro', 'te7_pro', 'te8_pro',
       'est_pro', 'ind_imp', 'ind_ret', 'dir_pro', 'ser_pro', 'cpr_sap',
       'obs_pro', 'flag_prov', 'codigoe'], axis=1)
#dim_prestacion.head()
dim_proveedor[dim_proveedor.duplicated('cod_pro')]

Unnamed: 0,cod_pro,nom_pro


In [177]:
dim_proveedor.head()

Unnamed: 0,cod_pro,nom_pro
0,50747,R - JOSE VALENCIA
1,30150,102 COMPA¾IA DE BOMBEROS VOLUNTARIOS
2,30151,36 COMPA¾IA DE BOMBEROS VOLUNTARIOS
3,30152,39 COMPA¾IA DE BOMBEROS VOLUNTARIOS
4,30153,52 COMPA¾IA DE BOMBEROS VOLUNTARIOS


### >> AREA

In [92]:
try:
    file = s3.Bucket(S3_BUCKET_NAME).Object('dim_tipoprov.csv').get()
#    print(file)
    df_area= pd.read_csv(file['Body'])
except Exception as ex:
    print("No es un archivo.")
    print(ex)
df_area.head()

Unnamed: 0,row_id,cti_pro,nti_pro,area
0,1,1,VEHICULO,VEHICULAR
1,2,2,HOGAR,VEHICULAR
2,3,3,PERSONA,MEDICO
3,4,4,LEGAL,VEHICULAR
4,5,5,GESTION,VEHICULAR


In [216]:
print(df_area.shape)
print(df_area.describe())
print(df_area.columns)


(6, 4)
         row_id   cti_pro
count  6.000000  6.000000
mean   3.500000  3.500000
std    1.870829  1.870829
min    1.000000  1.000000
25%    2.250000  2.250000
50%    3.500000  3.500000
75%    4.750000  4.750000
max    6.000000  6.000000
Index(['row_id', 'cti_pro', 'nti_pro', 'area'], dtype='object')


### >_Preparar Dimension: dim_area

In [128]:
dim_area = df_area.drop(['row_id'], axis=1)
dim_area.head()

Unnamed: 0,cti_pro,nti_pro,area
0,1,VEHICULO,VEHICULAR
1,2,HOGAR,VEHICULAR
2,3,PERSONA,MEDICO
3,4,LEGAL,VEHICULAR
4,5,GESTION,VEHICULAR


### >> TABLA DE HECHOS

In [132]:
sql_query = 'SELECT * FROM expediente;'
df_fact = pd.read_sql(sql_query, postgres_driver)
df_fact.columns
#df_expediente.head()

Index(['num_pol', 'cod_com', 'num_exp', 'locali', 'produc', 'cod_enc',
       'cti_pro', 'des_pro', 'cod_pai', 'cod_dep', 'cod_mun', 'cod_zon',
       'let_cat', 'let_tip', 'fec_ser', 'hor_ser', 'marca', 'ano', 'placa',
       'fec_ini', 'fecha_crea'],
      dtype='object')

In [219]:
print(df_fact.shape)
#print(df_fact.describe())
print(df_fact.columns)

(39869, 13)
Index(['num_pol', 'cod_com', 'num_exp', 'cti_pro', 'cod_pai', 'cod_dep',
       'cod_mun', 'cod_zon', 'hor_ser', 'marca', 'ano', 'placa', 'id_fecha'],
      dtype='object')


### >_Preparar Dimension: fact_expediente

In [133]:
df_fact['id_fecha'] = df_fact['fec_ser'].astype(str)
#factTable_transacciones = df_factTable.drop(['year', 'month', 'day', 'hour', 'minute', 'fecha_hora'], axis=1)
df_fact.drop(['locali', 'produc', 'cod_enc',
       'des_pro', 'let_cat', 'let_tip', 'fec_ser', 'fec_ini', 'fecha_crea'], axis=1, inplace=True)
#dim_prestacion.head()
df_fact.columns

Index(['num_pol', 'cod_com', 'num_exp', 'cti_pro', 'cod_pai', 'cod_dep',
       'cod_mun', 'cod_zon', 'hor_ser', 'marca', 'ano', 'placa', 'id_fecha'],
      dtype='object')

### >_ agregamos sk tiempo

In [134]:
df_fact.head()

Unnamed: 0,num_pol,cod_com,num_exp,cti_pro,cod_pai,cod_dep,cod_mun,cod_zon,hor_ser,marca,ano,placa,id_fecha
0,INTERNACIONAL,124,1245001283,1,129,PETEN,FLORES,ZONA 0,15:48:41,,2005,P-24947,2015-01-06
1,0066395,2,24000001,5,141,INTERNACIONAL,INTERNACIONAL,ZONA 0,00:09:17,MAHINDRA,2012,P-063FJH,2015-01-01
2,2503613,2,25000002,1,141,SUCHITEPEQUEZ,MAZATENANGO,ZONA 0,00:11:51,TOYOTA,2006,P-191FMV,2015-01-01
3,0026206,2,25000003,1,141,GUATEMALA,GUATEMALA,ZONA 10,00:51:55,VOLVO,2006,P-433DCD,2015-01-01
4,0063416,2,25000004,1,141,GUATEMALA,GUATEMALA,ZONA 7,01:21:14,MITSUBISHI,1999,P-505DBP,2015-01-01


### >> COSTO

In [130]:
sql_query = 'SELECT * FROM costo;'
df_costo = pd.read_sql(sql_query, postgres_driver)
df_costo.columns
#df_expediente.head()

Index(['num_exp', 'num_lin', 'cod_dep', 'cti_pro', 'cod_are', 'cod_pro',
       'let_cat', 'let_tip', 'cod_pre', 'fechor', 'cos_rea', 'tie_lle',
       'exced', 'klle', 'kvac', 'kter', 'cod_eco', 'cod_rec', 'cod_ese',
       'formuprove', 'reclamo', 'cod_enc', 'id', 'calculo'],
      dtype='object')

In [220]:
print(df_costo.shape)
#print(df_costo.describe())
print(df_costo.columns)

(102871, 5)
Index(['num_exp', 'cod_pro', 'cod_pre', 'cos_rea', 'cod_enc'], dtype='object')


### >_Preparar costo

In [131]:
df_costo.drop(['num_lin', 'cod_dep', 'cti_pro', 'cod_are', 'let_cat', 'let_tip',  
        'fechor', 'tie_lle', 'exced', 'klle', 'kvac', 'kter', 'cod_eco', 'cod_rec', 'cod_ese',
       'formuprove', 'reclamo', 'id', 'calculo'], axis=1, inplace=True)
#dim_prestacion.head()
df_costo.head()

Unnamed: 0,num_exp,cod_pro,cod_pre,cos_rea,cod_enc
0,24000001,48207,311,1232.0,SEG
1,25000002,10721,18,75.0,SEG
2,25000003,50550,150,0.0,SEG
3,25000004,22681,101,75.0,SEG
4,25000005,22681,101,75.0,SEG


In [135]:
#df_fact_dep = df_fact.merge(dim_departamento, how='left', left_on='cod_dep', right_on='nom_dep')
#df_fact_dep_mun = df_fact_dep.merge(dim_municipio, how='left', left_on='cod_mun', right_on='nom_mun')
df_fact_costo = df_fact.merge(df_costo, how='left', on='num_exp')
df_fact_costo.head()

Unnamed: 0,num_pol,cod_com,num_exp,cti_pro,cod_pai,cod_dep,cod_mun,cod_zon,hor_ser,marca,ano,placa,id_fecha,cod_pro,cod_pre,cos_rea,cod_enc
0,INTERNACIONAL,124,1245001283,1,129,PETEN,FLORES,ZONA 0,15:48:41,,2005,P-24947,2015-01-06,99999,1,0.0,JAL
1,0066395,2,24000001,5,141,INTERNACIONAL,INTERNACIONAL,ZONA 0,00:09:17,MAHINDRA,2012,P-063FJH,2015-01-01,48207,311,1232.0,SEG
2,0066395,2,24000001,5,141,INTERNACIONAL,INTERNACIONAL,ZONA 0,00:09:17,MAHINDRA,2012,P-063FJH,2015-01-01,48207,20,1000.0,SEG
3,2503613,2,25000002,1,141,SUCHITEPEQUEZ,MAZATENANGO,ZONA 0,00:11:51,TOYOTA,2006,P-191FMV,2015-01-01,10721,18,75.0,SEG
4,2503613,2,25000002,1,141,SUCHITEPEQUEZ,MAZATENANGO,ZONA 0,00:11:51,TOYOTA,2006,P-191FMV,2015-01-01,99999,1,0.0,ORC


#### >> VERIFICAMOS SI HAY DUPLICADOS

In [None]:
len(df_fact_costo[df_fact_costo.duplicated('num_exp')].index)

In [136]:
fact_expediente = df_fact_costo.reset_index().rename({'index' : 'sk_exp'}, axis='columns')

In [137]:
fact_expediente.columns

Index(['sk_exp', 'num_pol', 'cod_com', 'num_exp', 'cti_pro', 'cod_pai',
       'cod_dep', 'cod_mun', 'cod_zon', 'hor_ser', 'marca', 'ano', 'placa',
       'id_fecha', 'cod_pro', 'cod_pre', 'cos_rea', 'cod_enc'],
      dtype='object')

In [138]:
fact_expediente.head()

Unnamed: 0,sk_exp,num_pol,cod_com,num_exp,cti_pro,cod_pai,cod_dep,cod_mun,cod_zon,hor_ser,marca,ano,placa,id_fecha,cod_pro,cod_pre,cos_rea,cod_enc
0,0,INTERNACIONAL,124,1245001283,1,129,PETEN,FLORES,ZONA 0,15:48:41,,2005,P-24947,2015-01-06,99999,1,0.0,JAL
1,1,0066395,2,24000001,5,141,INTERNACIONAL,INTERNACIONAL,ZONA 0,00:09:17,MAHINDRA,2012,P-063FJH,2015-01-01,48207,311,1232.0,SEG
2,2,0066395,2,24000001,5,141,INTERNACIONAL,INTERNACIONAL,ZONA 0,00:09:17,MAHINDRA,2012,P-063FJH,2015-01-01,48207,20,1000.0,SEG
3,3,2503613,2,25000002,1,141,SUCHITEPEQUEZ,MAZATENANGO,ZONA 0,00:11:51,TOYOTA,2006,P-191FMV,2015-01-01,10721,18,75.0,SEG
4,4,2503613,2,25000002,1,141,SUCHITEPEQUEZ,MAZATENANGO,ZONA 0,00:11:51,TOYOTA,2006,P-191FMV,2015-01-01,99999,1,0.0,ORC


### >_Preparar Dimension de TIEMPO: dim_fecha

In [112]:
sql_query = 'SELECT fec_ser FROM expediente;'
df_fecha = pd.read_sql(sql_query, postgres_driver)
df_fecha.head()

Unnamed: 0,fec_ser
0,2015-01-06
1,2015-01-01
2,2015-01-01
3,2015-01-01
4,2015-01-01


In [113]:
df_fecha['year'] = pd.DatetimeIndex(df_fecha['fec_ser']).year
df_fecha['month'] = pd.DatetimeIndex(df_fecha['fec_ser']).month
df_fecha['quarter'] = pd.DatetimeIndex(df_fecha['fec_ser']).quarter
df_fecha['day'] = pd.DatetimeIndex(df_fecha['fec_ser']).day
df_fecha['week'] = pd.DatetimeIndex(df_fecha['fec_ser']).week
df_fecha['dayofweek'] = pd.DatetimeIndex(df_fecha['fec_ser']).dayofweek
df_fecha['is_weekend'] = df_fecha['dayofweek'].apply(lambda x: 1 if x > 5 else 0)
df_fecha.head()

  df_fecha['week'] = pd.DatetimeIndex(df_fecha['fec_ser']).week


Unnamed: 0,fec_ser,year,month,quarter,day,week,dayofweek,is_weekend
0,2015-01-06,2015,1,1,6,2,1,0
1,2015-01-01,2015,1,1,1,1,3,0
2,2015-01-01,2015,1,1,1,1,3,0
3,2015-01-01,2015,1,1,1,1,3,0
4,2015-01-01,2015,1,1,1,1,3,0


In [186]:
df_fecha['id_fecha'] = df_fecha['fec_ser'].astype(str)
df_fecha.rename({'fec_ser': 'fecha'}, axis=1, inplace=True)
dim_fecha = df_fecha.drop_duplicates()
dim_fecha.head()

Unnamed: 0,fecha,year,month,quarter,day,week,dayofweek,is_weekend,id_fecha
0,2015-01-06,2015,1,1,6,2,1,0,2015-01-06
1,2015-01-01,2015,1,1,1,1,3,0,2015-01-01
110,2015-01-02,2015,1,1,2,1,4,0,2015-01-02
363,2015-01-03,2015,1,1,3,1,5,0,2015-01-03
561,2015-01-04,2015,1,1,4,1,6,1,2015-01-04


---

# MODELO DE DATOS

### Definir el modelo del DW
#### Descripcion del modelo BBDD OLAP
+ **motor:** PostgreSQL
+ **host:** AWS / RDS
La Base de Datos se diseña con el Modelo Dimensional tipo Estrella. Se define como Tabla de Hechos "dim_expediente" que contiene variables medibles y llaves de las dimensiones que describen cada observacion. Las tablas se describen a continuacion:
+ **fact_expediente:**  tabla de hechos que contiene la fecha, datos llaves descriptivas del servicio, costos del servicio, tipo de servicio y proveedor que atiende el servicio.
+ **dim_compania:** descripcion de distintos clientes que contratan el servicio de Asistencias (no asegurados).
+ **dim_departamento:**  descripcion de departamentos de Guatemala.
+ **dim_encargado:**   descripcion de los agentes de call center que coordinan los servicios.
+ **dim_municipio:**  descripcion de los municipios de Guatemala
+ **dim_pais:**   descripcion de paises
+ **dim_prestacion:**  descripcion de los servicios disponibles.
+ **dim_area:** descripcion de las categorias de los servicios en expedientes.  
+ **dim_proveedor:**  descripcion de los proveedores concertados en los expedientes de asistencia.
+ **dim_fecha:**  descripcion de cada fecha con distintos caracteristicas.

![](lib/dwh-public.png)

---

---

# PROCESAMIENTO

In [118]:
aws_conn = boto3.client('rds', aws_access_key_id=config.get('IAM', 'ACCESS_KEY'),
                    aws_secret_access_key=config.get('IAM', 'SECRET_ACCESS_KEY'),
                    region_name='us-east-1')
print(aws_conn)

<botocore.client.RDS object at 0x0000024ECB883670>


In [139]:
rdsInstanceIds = []

response = aws_conn.describe_db_instances()
for resp in response['DBInstances']:
    rdsInstanceIds.append(resp['DBInstanceIdentifier'])
    db_instance_status = resp['DBInstanceStatus']

print(f"DBInstanceIds {rdsInstanceIds}")

DBInstanceIds ['cdp-proy-db', 'cdp-proy-dw']


### Crear la Instancia de BBDD para en DW en AWS / RDS

**- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -**  
<< ESTE CODIGO SE EJECUTA UNA SOLA VEZ >>

In [140]:
rdsIdentifier = 'cdp-proy-dw' #nombre de la instancia

In [143]:
try:
    response = aws_conn.create_db_instance(
            AllocatedStorage=10,
            DBName=config.get('DW', 'DB_NAME'),
            DBInstanceIdentifier=rdsIdentifier,
            DBInstanceClass="db.t3.micro",
            Engine="postgres",
            MasterUsername=config.get('DW', 'DB_USER'),
            MasterUserPassword=config.get('DW', 'DB_PASSWORD'),
            Port=int(config.get('DW', 'DB_PORT')),
            VpcSecurityGroupIds=[config.get('VPC', 'SECURITY_GROUP')],
            PubliclyAccessible=True
        )
    print(response)
except aws_conn.exceptions.DBInstanceAlreadyExistsFault as ex:
    print("La Instancia de Base de Datos ya Existe.")

La Instancia de Base de Datos ya Existe.


<< ESTE CODIGO SE EJECUTA UNA SOLA VEZ >>  
### - - - - - - - -  fin de creacion de Instancia AWS / RDS - - - - - - - - - - - - - - - - - - 

##### Antes de conectarnos recordemos esperar el tiempo suficiente para agregar la nueva instancia y agregar el puerto 3306 al grupo de seguridad.

In [144]:
try:
     instances = aws_conn.describe_db_instances(DBInstanceIdentifier=rdsIdentifier)
     RDS_DW_HOST = instances.get('DBInstances')[0].get('Endpoint').get('Address')
     print(RDS_DW_HOST)
except Exception as ex:
     print("La instancia de base de datos no existe o aun no se ha terminado de crear.")
     print(ex)

cdp-proy-dw.cmvrcaidz2tn.us-east-1.rds.amazonaws.com


### >>  CONEXION A LA BBDD - DW

In [156]:
import sql_create_tables

try:
    db_conn = psycopg2.connect(
        database=config.get('DW', 'DB_NAME'), 
        user=config.get('DW', 'DB_USER'),
        password=config.get('DW', 'DB_PASSWORD'), 
        host=RDS_DW_HOST,
        port=config.get('DW', 'DB_PORT')
    )

    cursor = db_conn.cursor()
    cursor.execute(sql_create_tables.CREATE_DW)
    db_conn.commit()
    print("Base de Datos Creada Exitosamente")
except Exception as ex:
    print("ERROR: Error al crear la base de datos.")
    print(ex)

Base de Datos Creada Exitosamente


### >> POBLAMOS LAS DIMENSIONES DEL DW CON LOS DATAFRAMES PREPARADOS

>_ funcion para insertar datos en AWS/RDS

In [162]:
def df_to_dw(table_name, df_data):
     postgres_driver = f"""postgresql://{config.get('DW', 'DB_USER')}:{config.get('DW', 'DB_PASSWORD')}@{RDS_DW_HOST}:{config.get('DW', 'DB_PORT')}/{config.get('DW', 'DB_NAME')}"""    
     try:
          response = df_data.to_sql(table_name, postgres_driver, index=False, if_exists='append')
          print(f'Se han insertado {response} nuevos registros.' )
     except Exception as ex:
          print(ex)

#### >> Insert data en Dimension: _-- dim_area --_

In [163]:
df_to_dw('dim_area', dim_area)

Se han insertado 6 nuevos registros.


#### >> Insert data en Dimension: _-- dim_compania --_

In [171]:
df_to_dw('dim_compania', dim_compania)

Se han insertado 106 nuevos registros.


#### >> Insert data en Dimension: _-- dim_encargado --_

In [172]:
df_to_dw('dim_encargado', dim_encargado)

Se han insertado 184 nuevos registros.


#### >> Insert data en Dimension: _-- dim_proveedor --_

In [178]:
df_to_dw('dim_proveedor', dim_proveedor)

Se han insertado 303 nuevos registros.


#### >> Insert data en Dimension: _-- dim_prestacion --_

In [179]:
df_to_dw('dim_prestacion', dim_prestacion)

Se han insertado 116 nuevos registros.


#### >> Insert data en Dimension: _-- dim_pais --_

In [180]:
df_to_dw('dim_pais', dim_pais)

Se han insertado 215 nuevos registros.


#### >> Insert data en Dimension: _-- dim_departamento --_

In [181]:
df_to_dw('dim_departamento', dim_departamento)

Se han insertado 24 nuevos registros.


#### >> Insert data en Dimension: _-- dim_municipio --_

In [182]:
df_to_dw('dim_municipio', dim_municipio)

Se han insertado 334 nuevos registros.


#### >> Insert data en Dimension: _-- dim_fecha --_

In [188]:
df_to_dw('dim_fecha', dim_fecha)

Se han insertado 128 nuevos registros.


#### >> Insert data en Tabla de Hechos: _-- fact_expediente --_

In [195]:
df_to_dw('fact_expediente', fact_expediente)

Se han insertado 295 nuevos registros.


---

---

# ANALITICA
### Planteamiento para el analisis de datos con el DW definido

#### Teniendo en cuenta el modelo de Datawarehouse definido, se plantean las siguientes preguntas: 

+ **¿Qué dia(s) de la semana y del mes es en donde se reporta la mayor siniestralidad?**   
+ Ya que se tienen los datos del vehiculo **¿Se puede predecir como será la siniestralidad de un asegurado al terminar el año, para asignar el costo de la siguiente renovación de la prima del seguro?**   
+ El gerente cada cierto periodo de tiempo recibe quejas de los clietnes porque es muy alto el tiempo de espera en call center, entonces decide contratar mas personal, pero despues debe recortar personal porque baja la demanda y se reducen los TMO. **¿Se pueden conocer las estacionalidades en comportamiento de la demanda de servicios. Para saber con anticipacion cuando necesitara personal extra y por cuanto tiempo?**   
+ **Se desean acomodar los horarios de Call Center para reducir los TMO altos que existen en algunas horas del día en ciertos dias, pero sin afectar los tiempos de los demas horarios. Y así poder saber si se puede mejorar el nivel de servicio optimizando con los recursos que ya se cuentan, o si es necesario contratar mas personal**
+ **El gerente financiero, para asignar los niveles de precio de las primas de seguro, y quiere saber si se puede predecir la siniestralidad que tendrá cierto vehiculo en el futuro. Desea saber si existe relacion alguna entre el riesgo de siniestralidad de una futura poliza con los datos del solicitante: marca, modelo y linea del vehiculo, edad y datos personales del solicitante; pide analizar si existe relación alguna y si es posible establecer precio de la prima basados en este analisis.**   





---

# RECURSOS
### Diccionario de recursos utilizados en el proyecto:

+ **lib/ :**  Directorio de recursos utilizados
    - **dim_proveedor.csv :** tabla proveedor cargada a AWS/S3
    - **dim_tipoprov.csv :** tabla area de proveedor cargada a AWS/S3
    - **dwh-public.png :**  Diagrama del Modelo DW implementado en AWS/RDS
+ **aws-oltp.ipynb :** Notebook utilziado para la creacion de la Instancia OLTP utilizado en el proyecto como Scope: Fuente 1 AWS/RDS
+ **sql_queries.py :** DDL utilziado para la creacion de la Instancia OLTP utilizado en el proyecto como Scope: Fuente 1 AWS/RDS
+ **dw.ipynb :** Reporte del proyecto (este fichero)
+ **proy.cfg :** Fichero con variables de configuración del proyecto
+ **sql_create_tables.py :** Fichero con sentencias DDL utilizado en la creacion del Modelo del Datawarehouse en AWS/RDS
+ **dw-create.py :** Batch con el Script para crear la Instancia y Modelo del Datawarehouse en AWS/RDS
+ **dw-etl.py :** Batch con el Script ETL para alimentar el Datawarehouse en AWS/RDS 
+ **link_video.txt :** Fichero con el link del Video del proyecto

---