## Dependencias 

In [1]:
import numpy as np 
import pandas as pd
from functools import reduce
import json 
from sqlalchemy.engine import create_engine
from sqlalchemy.types import INT, VARCHAR, FLOAT, BOOLEAN, CHAR

pd.set_option('display.max_columns', None)

## Lectura de datos

In [2]:
df = pd.read_csv('data/sme_survey_mx_clean.csv')
df.shape

(885, 22)

In [3]:
df.head(2)

Unnamed: 0,id,edadEmprendedor,sexoEmprendedor,escolaridadEmprendedor,dependientesEconomicos,estadoCivil,familiaAyuda,antiguedadNegocio,horaApertura,horaCierre,giroNegocio,numEmpleados,ventasPromedioDiarias,deseoNegocio,registroVentas,registroContabilidad,altaSAT,usaCredito,tiempoCreditoProveedores,promocionNegocio,latitud,longitud
0,E00000000,54,H,universidad trunca,3,casado,False,35.0,9,18,"servicios para el hogar (cerrajería, plomería,...",3,3500.0,eficacia,en un cuaderno,en un sistema especial,s,False,no me dan crédito,publicidad exterior|redes sociales (sin pagar)...,19.453446,-99.168899
1,E00000001,56,M,universidad terminado,2,viudo,False,37.0,8,15,comercio minorista de materias primas,3,4500.0,bodega,en excel,en excel,s,False,no me dan crédito,publicidad exterior|redes sociales (sin pagar),19.486575,-99.204668


## Dimensiones 

In [4]:
df.columns

Index(['id', 'edadEmprendedor', 'sexoEmprendedor', 'escolaridadEmprendedor',
       'dependientesEconomicos', 'estadoCivil', 'familiaAyuda',
       'antiguedadNegocio', 'horaApertura', 'horaCierre', 'giroNegocio',
       'numEmpleados', 'ventasPromedioDiarias', 'deseoNegocio',
       'registroVentas', 'registroContabilidad', 'altaSAT', 'usaCredito',
       'tiempoCreditoProveedores', 'promocionNegocio', 'latitud', 'longitud'],
      dtype='object')

In [5]:
dims = ['edadEmprendedor', 'sexoEmprendedor', 'escolaridadEmprendedor',
       'dependientesEconomicos', 'estadoCivil', 'familiaAyuda',
       'antiguedadNegocio', 'horaApertura', 'horaCierre', 'giroNegocio',
       'numEmpleados','registroVentas', 'registroContabilidad', 'altaSAT', 'usaCredito',
       'tiempoCreditoProveedores']

### Edad 

In [6]:
df['edadEmprendedor']
df['dim_edad'] = pd.cut(df['edadEmprendedor'],bins=[-99,30,45,60,99],include_lowest=True).astype(str)
df['dim_edad'].value_counts()

(45.0, 60.0]       336
(30.0, 45.0]       298
(60.0, 99.0]       131
(-99.001, 30.0]    120
Name: dim_edad, dtype: int64

### Sexo

In [7]:
df['dim_sexo'] = df['sexoEmprendedor']

### Escolaridad

In [8]:
mapaEscolaridad = {
        'universidad trunca':'bachillerato', 
        'universidad terminado':'universidad', 
        'secundaria':'básica',
        'bachillerato terminado':'bachillerato', 
        'primaria':'básica', 
        'bachillerato trunco':'básica',
       'posgrado':'universidad'}
df['dim_escolaridad'] = df['escolaridadEmprendedor'].replace(mapaEscolaridad)
df['dim_escolaridad'].value_counts(1)    

básica          0.509605
bachillerato    0.331073
universidad     0.159322
Name: dim_escolaridad, dtype: float64

### Dependientes económicos

In [9]:
df['dim_dependientes'] = df['dependientesEconomicos'].map(lambda x: '5+' if x>=5 else str(x))
df['dim_dependientes'].value_counts(1).sort_index()

0     0.140113
1     0.180791
2     0.277966
3     0.193220
4     0.109605
5+    0.098305
Name: dim_dependientes, dtype: float64

### Estado civil 

In [10]:
df['dim_estado_civil'] = df['estadoCivil']

### Ayuda de la familia

In [11]:
df['dim_familia_ayuda'] = df['familiaAyuda']

### Antigüedad del negocio

In [12]:
df['dim_antiguedad'] = pd.cut(df['antiguedadNegocio'],bins=[-99,2,5,10,99],include_lowest=True).astype(str)
df['dim_antiguedad'].value_counts(1).sort_index()

(-99.001, 2.0]    0.186441
(10.0, 99.0]      0.409040
(2.0, 5.0]        0.177401
(5.0, 10.0]       0.227119
Name: dim_antiguedad, dtype: float64

### Horas de apertura y cierre

In [13]:
df['dim_hora_apertura'] = df['horaApertura'].map(lambda x: '<=7' if x<=7 else '11+' if x>=11 else str(x))
df['dim_hora_apertura'].value_counts(1).sort_index()

10     0.161582
11+    0.215819
8      0.228249
9      0.236158
<=7    0.158192
Name: dim_hora_apertura, dtype: float64

In [14]:
df['dim_hora_cierre'] = df['horaCierre'].map(lambda x: '<=17' if x<=17 else '22+' if x>=22 else str(x))
df['dim_hora_cierre'].value_counts(1).sort_index()

18      0.168362
19      0.138983
20      0.162712
21      0.105085
22+     0.153672
<=17    0.271186
Name: dim_hora_cierre, dtype: float64

### Giro del negocio

In [15]:
df['dim_giro'] = df['giroNegocio'].replace(
  {
    'servicios para el hogar (cerrajería, plomería, jardinería, etc)': 'Servicios para el hogar',
    'comercio minorista de materias primas': 'Comercio minorista',
    'servicios  personales(estéticas, spa, uñas, barberías, etc)': 'Servicios personales',
    'comercio minorista de productos terminados': 'Comercio minorista',
    'fonda o restaurante/alimentos': 'Alimentos y bebidas',
    'reparación de celulares.': 'Servicios para el hogar',
    'estampados y publicidad.': 'Servicios comerciales',
    'consultorios médicos, dentales, veterinarios': 'Servicios de salud',
    'farmacia ': 'Salud y belleza',
    'planchaduría ': 'Servicios personales',
    'lonas y reparación ': 'Servicios comerciales',
    'planchaduría': 'Servicios personales',
    'librería ': 'Comercio minorista',
    'papelería ': 'Comercio minorista',
    'cafe internet': 'Servicios de telecomunicaciones',
    'frenos': 'Servicios para el hogar',
    'escuela de manejo': 'Educación',
    'vulcanizadora': 'Servicios para el hogar',
    'negocio mercantil con giro comercial en venta de tortillas': 'Comercio minorista',
    'pasteleria': 'Alimentos y bebidas',
    'costurero': 'Servicios personales',
    'cafe internet ': 'Servicios de telecomunicaciones',
    'mecánico ': 'Servicios para el hogar',
    'sastrería ': 'Servicios personales',
    'publicidad ': 'Servicios comerciales',
    'café internet ': 'Servicios de telecomunicaciones',
    'purificadora de agua.': 'Servicios para el hogar',
    'brujería': 'Otros',
    'reparaciones electrónicas.': 'Servicios para el hogar',
    'taller de motocicletas': 'Servicios para el hogar',
    'jarceria, productos de limpieza': 'Comercio minorista',
    'café internet': 'Servicios de telecomunicaciones',
    'manufacturera ': 'Comercio minorista',
    'internet': 'Servicios de telecomunicaciones',
    'productos de limpieza ': 'Comercio minorista',
    'artículos de limpieza ': 'Comercio minorista',
    'semillas ': 'Comercio minorista',
    'calzado ': 'Comercio minorista',
    'sandalias': 'Comercio minorista',
    'tlapaleria  ': 'Comercio minorista',
    'accesorios para mascotas ': 'Comercio minorista',
    'rea pa uno de zapatos ': 'Servicios personales',
    'repostería ': 'Alimentos y bebidas',
    'accesorios telefónicos ': 'Comercio minorista',
    'tienda': 'Comercio minorista',
    'regalos': 'Comercio minorista',
    'pintura': 'Comercio minorista',
    'verdulería ': 'Comercio minorista',
    'productos decorativos ': 'Comercio minorista',
    'cremeria ': 'Alimentos y bebidas',
    'banquetes': 'Alimentos y bebidas',
    'suspensiones y ruedas de méxico': 'Servicios para el hogar',
    'accesorios para mascota': 'Comercio minorista',
    'farmacia': 'Salud y belleza',
    'cibercafé': 'Servicios de telecomunicaciones',
    'pictórica': 'Otros',
    'jarcería': 'Comercio minorista',
    'telecomunicaciones ': 'Servicios de telecomunicaciones',
    'zapatería ': 'Comercio minorista',
    'bazar': 'Comercio minorista',
    'abarrotes ': 'Comercio minorista',
    'recaudería': 'Comercio minorista',
    'recaudería ': 'Comercio minorista',
    'reparadora de calzado ': 'Servicios para el hogar',
    'internet ': 'Servicios de telecomunicaciones',
    'estética ': 'Servicios personales',
    'carnicería ': 'Alimentos y bebidas',
    'pollería ': 'Alimentos y bebidas',
    'reparadora de electrodomésticos ': 'Servicios para el hogar',
    'pastelería ': 'Alimentos y bebidas',
    'herrajes y tlapalería': 'Comercio minorista',
    'tortillería ': 'Comercio minorista',
    'rosticeria ': 'Alimentos y bebidas',
    'servicios de reparación': 'Servicios para el hogar',
    'automotriz': 'Servicios para el hogar',
    'tintoreria y limpieza': 'Servicios personales',
    'academia de danza': 'Educación',
    'tlapaleria ': 'Comercio minorista',
    'salud y belleza': 'Salud y belleza',
    'frutas y verduras ': 'Comercio minorista',
    'ropa': 'Comercio minorista',
    'de temporada': 'Comercio minorista',
    'veterinaria': 'Servicios de salud',
    'despacho jurídico ': 'Servicios profesionales',
    'despacho contable': 'Servicios profesionales',
    'tortillería': 'Comercio minorista',
    'panadería': 'Alimentos y bebidas',
    'reparaciones celulares': 'Servicios para el hogar',
    'estetica': 'Servicios personales'
}
)
df['dim_giro'].value_counts(1).sort_index()

Alimentos y bebidas                0.179661
Comercio minorista                 0.575141
Educación                          0.002260
Otros                              0.002260
Salud y belleza                    0.010169
Servicios comerciales              0.003390
Servicios de salud                 0.048588
Servicios de telecomunicaciones    0.010169
Servicios para el hogar            0.068927
Servicios personales               0.097175
Servicios profesionales            0.002260
Name: dim_giro, dtype: float64


### Empleados

In [16]:
df['dim_empleados'] = df['numEmpleados'].map(lambda x: '3+' if x>=3 else str(x))
df['dim_empleados'].value_counts(1).sort_index()

0     0.275706
1     0.258757
2     0.245198
3+    0.220339
Name: dim_empleados, dtype: float64

### Registro de ventas y contabilidad 

In [17]:
for x in ['Ventas','Contabilidad']:
    df[f'dim_{x.lower()}'] = df[f'registro{x}']
    display(df[f'dim_{x.lower()}'].value_counts(1).sort_index())

en excel                  0.110734
en un cuaderno            0.517514
en un sistema especial    0.091525
no registro               0.280226
Name: dim_ventas, dtype: float64

en excel                  0.160452
en un cuaderno            0.436158
en un sistema especial    0.131073
no registro               0.272316
Name: dim_contabilidad, dtype: float64

### SAT

In [18]:
df['dim_sat'] = df['altaSAT']

### Crédito

In [19]:
df['dim_credito'] = df['usaCredito']

### Tiempo de crédito

In [20]:
df['dim_credito_proveedor'] = df['tiempoCreditoProveedores']

## Creación de cubo 

In [29]:
dims = ['dim_edad', 'dim_sexo', 'dim_escolaridad', 'dim_dependientes',
       'dim_estado_civil', 'dim_familia_ayuda', 'dim_antiguedad',
       'dim_hora_apertura', 'dim_hora_cierre', 'dim_giro', 'dim_empleados',
       'dim_ventas', 'dim_contabilidad', 'dim_sat', 'dim_credito',
       'dim_credito_proveedor']
geo = ['latitud','longitud']
hechos = ['ventasPromedioDiarias','edadEmprendedor']
um = ['id']

In [30]:
cubo = df[um+dims+geo+hechos].copy()

In [32]:
cubo.to_parquet('data/cubo_sme.parquet')