## Transformación Sucursal

A continuación se realizará el tratamiento de la data contenida en el archivo sucursal.csv

In [13]:
# Importando
import pandas as pd
import unidecode
import numpy as np

In [14]:
# Cargamos el archivo sucursal.csv
df_sucursal = pd.read_csv('sucursal.csv')
df_sucursal.head()

Unnamed: 0,id,comercioId,banderaId,banderaDescripcion,comercioRazonSocial,provincia,localidad,direccion,lat,lng,sucursalNombre,sucursalTipo
0,1-1-7,1,1,Super MAMI,Dinosaurio S.A.,AR-X,SALSIPUEDES,E53 1011 None,-31.126667,-64.29525,Super Mami 4,Hipermercado
1,10-1-1,10,1,Hipermercado Carrefour,INC S.A.,AR-B,San Isidro,Bernardo De Irigoyen 2647,-34.491345,-58.589025,San Isidro,Hipermercado
2,10-1-10,10,1,Hipermercado Carrefour,INC S.A.,AR-B,Hurlingham,Av. Vergara 1910,-34.62061,-58.633769,Villa Tesei,Hipermercado
3,10-1-11,10,1,Hipermercado Carrefour,INC S.A.,AR-B,Malvinas Argentinas,Av. Arturo Illia 3770,-34.528883,-58.701631,Malvinas Argentinas,Hipermercado
4,10-1-112,10,1,Hipermercado Carrefour,INC S.A.,AR-A,Salta,20 De Febrero 37,-24.789072,-65.413699,Salta,Hipermercado


Se crearán nuevas tablas que faciliten el manejo de los datos. Se creará una tabla para las sucursales, provincia y localidad, comercio y bandera. A cada tabla se le asignará un identificador según se considere necesario.

A continuación, crearemos una tabla para las sucursales.

#### Tabla para sucursales

In [15]:
# Creamos tabla de sucursales.
df_sucursal_tipo = df_sucursal['sucursalTipo'].copy()
# La variable df_sucursal_tipo es una serie!
# Descartamos los valores duplicados.
df_sucursal_tipo.drop_duplicates(inplace=True)
# Convertimos la variable df_sucursal_tipo en un dataframe.
df_sucursal_tipo = df_sucursal_tipo.to_frame()
# Creamos la variable identificadora 
# sucursalTipoId 
df_sucursal_tipo.insert(0, 'sucursalTipoId', range(1, 1 +  len(df_sucursal_tipo)))
# Reestablecemos los índices.
df_sucursal_tipo.reset_index(inplace=True, drop=True)
df_sucursal_tipo

Unnamed: 0,sucursalTipoId,sucursalTipo
0,1,Hipermercado
1,2,Supermercado
2,3,Autoservicio
3,4,Minorista


In [16]:
# A continuación, realizamos un mapeo de los id a las sucursales.
df_sucursal = pd.merge(df_sucursal, df_sucursal_tipo, on = ['sucursalTipo'])
# Vamos a usar sólo los id para la tabla de sucursal
df_sucursal.drop(['sucursalTipo'], axis = 1, inplace = True)
df_sucursal.head()

Unnamed: 0,id,comercioId,banderaId,banderaDescripcion,comercioRazonSocial,provincia,localidad,direccion,lat,lng,sucursalNombre,sucursalTipoId
0,1-1-7,1,1,Super MAMI,Dinosaurio S.A.,AR-X,SALSIPUEDES,E53 1011 None,-31.126667,-64.29525,Super Mami 4,1
1,10-1-1,10,1,Hipermercado Carrefour,INC S.A.,AR-B,San Isidro,Bernardo De Irigoyen 2647,-34.491345,-58.589025,San Isidro,1
2,10-1-10,10,1,Hipermercado Carrefour,INC S.A.,AR-B,Hurlingham,Av. Vergara 1910,-34.62061,-58.633769,Villa Tesei,1
3,10-1-11,10,1,Hipermercado Carrefour,INC S.A.,AR-B,Malvinas Argentinas,Av. Arturo Illia 3770,-34.528883,-58.701631,Malvinas Argentinas,1
4,10-1-112,10,1,Hipermercado Carrefour,INC S.A.,AR-A,Salta,20 De Febrero 37,-24.789072,-65.413699,Salta,1


A continuación, trabajaremos las columnas provincia y localidad.

#### Tabla de provincia y localidad.

In [17]:
# Creando una tabla para las provincias.
df_provincia = df_sucursal['provincia'].copy()
# Descartamos duplicados 
df_provincia.drop_duplicates(inplace=True)
# Convertimos la variabe en un dataframe.
df_provincia = df_provincia.to_frame()
# Creamos la variable identificadora
# provinciaId
df_provincia.insert(0, 'provinciaId', range(1, 1 + len(df_provincia)))
# Reestablecemos los índices.
df_provincia.reset_index(drop=True, inplace=True)
df_provincia.head()

Unnamed: 0,provinciaId,provincia
0,1,AR-X
1,2,AR-B
2,3,AR-A
3,4,AR-U
4,5,AR-L


In [18]:
# Creando una tabla para las localidades.
df_localidad = df_sucursal[['provincia', 'localidad']].copy()
# Descartamos duplicados.
df_localidad.drop_duplicates(subset=['provincia','localidad'], inplace=True)
# Realizamos un mapeo de los id de provincia. Esto se hace para que
# la tabla de localidad sólo contenga la variable
# provinciaId
# La unión se hace a través de la columna 'provincia'
df_localidad = pd.merge(df_localidad, df_provincia, on=['provincia'], how='left')
# Descartamos la columna provincia ya que podemos trabajar con los id.
df_localidad.drop(['provincia'], axis=1, inplace=True)
# Descartamos duplicados.
df_localidad.drop_duplicates(subset=['localidad', 'provinciaId'], inplace=True)
# Creamos un indice para las localidades.
df_localidad.insert(0, 'localidadId', range(1, 1 + len(df_localidad)))
# Reiniciamos los índices.
df_localidad.reset_index(drop=True, inplace=True)
df_localidad.head()

Unnamed: 0,localidadId,localidad,provinciaId
0,1,SALSIPUEDES,1
1,2,San Isidro,2
2,3,Hurlingham,2
3,4,Malvinas Argentinas,2
4,5,Salta,3


In [39]:
# Vamos a formatear las localidades.
df_localidad.localidad = df_localidad.localidad.str.strip().str.capitalize()
df_localidad.head()

Unnamed: 0,localidadId,localidad,provinciaId
0,1,Salsipuedes,1
1,2,San isidro,2
2,3,Hurlingham,2
3,4,Malvinas argentinas,2
4,5,Salta,3


### Tabla de comercio-bandera

In [19]:
# Creando el dataframe bandera
df_bandera = df_sucursal[['banderaId', 'comercioId', 'banderaDescripcion', 'comercioRazonSocial']].copy()
# Descartamos duplicados.
df_bandera.drop_duplicates(inplace=True)
# Reiniciamos los índices.
df_bandera.reset_index(inplace=True, drop=True)
# Creamos un identificador para la dupla comercioId-banderaId
df_bandera.insert(0, 'comercioBanderaId', range(1, 1 + len(df_bandera)))
df_bandera.head()

Unnamed: 0,comercioBanderaId,banderaId,comercioId,banderaDescripcion,comercioRazonSocial
0,1,1,1,Super MAMI,Dinosaurio S.A.
1,2,1,10,Hipermercado Carrefour,INC S.A.
2,3,2,10,Market,INC S.A.
3,4,2,11,Changomas,Wal Mart Argentina S.R.L.
4,5,5,11,Walmart SuperCenter,Wal Mart Argentina S.R.L.


In [22]:
# Realizamos un mapeo de la id comercioBandera a la tabla de sucursales.
df_sucursal = pd.merge(df_sucursal, df_bandera, on=['banderaId', 'comercioId', 'banderaDescripcion', 'comercioRazonSocial'], how='left')
# Descartamos las columnas banderaId, comercioId, banderaDescripcion y comercioRazonSocial
df_sucursal.drop(['banderaId', 'comercioId', 'banderaDescripcion', 'comercioRazonSocial'], axis=1, inplace=True)
df_sucursal.head()

Unnamed: 0,id,provincia,localidad,direccion,lat,lng,sucursalNombre,sucursalTipoId,comercioBanderaId
0,1-1-7,AR-X,SALSIPUEDES,E53 1011 None,-31.126667,-64.29525,Super Mami 4,1,1
1,10-1-1,AR-B,San Isidro,Bernardo De Irigoyen 2647,-34.491345,-58.589025,San Isidro,1,2
2,10-1-10,AR-B,Hurlingham,Av. Vergara 1910,-34.62061,-58.633769,Villa Tesei,1,2
3,10-1-11,AR-B,Malvinas Argentinas,Av. Arturo Illia 3770,-34.528883,-58.701631,Malvinas Argentinas,1,2
4,10-1-112,AR-A,Salta,20 De Febrero 37,-24.789072,-65.413699,Salta,1,2


### Tabla final

A continuación realizaremos un mapeo de las localidades y provincias dentro de la tabla sucursal.

In [23]:
# Creando una tabla auxiliar con las localidades y provincias.
df_localidad_provincia_aux = pd.merge(df_localidad, df_provincia, on=['provinciaId'], how='left')
df_localidad_provincia_aux.head()

Unnamed: 0,localidadId,localidad,provinciaId,provincia
0,1,SALSIPUEDES,1,AR-X
1,2,San Isidro,2,AR-B
2,3,Hurlingham,2,AR-B
3,4,Malvinas Argentinas,2,AR-B
4,5,Salta,3,AR-A


In [24]:
# Unimos con la tabla df_sucusal
df_sucursal = pd.merge(df_sucursal, df_localidad_provincia_aux, on=['provincia', 'localidad'], how='left', validate='m:1')
df_sucursal.head()

Unnamed: 0,id,provincia,localidad,direccion,lat,lng,sucursalNombre,sucursalTipoId,comercioBanderaId,localidadId,provinciaId
0,1-1-7,AR-X,SALSIPUEDES,E53 1011 None,-31.126667,-64.29525,Super Mami 4,1,1,1,1
1,10-1-1,AR-B,San Isidro,Bernardo De Irigoyen 2647,-34.491345,-58.589025,San Isidro,1,2,2,2
2,10-1-10,AR-B,Hurlingham,Av. Vergara 1910,-34.62061,-58.633769,Villa Tesei,1,2,3,2
3,10-1-11,AR-B,Malvinas Argentinas,Av. Arturo Illia 3770,-34.528883,-58.701631,Malvinas Argentinas,1,2,4,2
4,10-1-112,AR-A,Salta,20 De Febrero 37,-24.789072,-65.413699,Salta,1,2,5,3


In [35]:
# Descartamos las columnas provincia, localidad y provinciaId
df_sucursal.drop(['provincia', 'localidad', 'provinciaId'], axis=', inplace=True)
# Reordenamos las columnas
df_sucursal = df_sucursal[['id', 'sucursalNombre', 'comercioBanderaId', 'sucursalTipoId', 'localidadId', 'direccion', 'lat', 'lng']]
df_sucursal.head()

Unnamed: 0,id,sucursalNombre,comercioBanderaId,sucursalTipoId,localidadId,direccion,lat,lng
0,1-1-7,Super Mami 4,1,1,1,E53 1011 None,-31.126667,-64.29525
1,10-1-1,San Isidro,2,1,2,Bernardo De Irigoyen 2647,-34.491345,-58.589025
2,10-1-10,Villa Tesei,2,1,3,Av. Vergara 1910,-34.62061,-58.633769
3,10-1-11,Malvinas Argentinas,2,1,4,Av. Arturo Illia 3770,-34.528883,-58.701631
4,10-1-112,Salta,2,1,5,20 De Febrero 37,-24.789072,-65.413699


In [37]:
# Le damos formato a las columnas sucursalNombre y direccion y renombramos las columnas id, lat y lng.
df_sucursal.sucursalNombre = df_sucursal.sucursalNombre.str.strip().str.capitalize()
df_sucursal.direccion = df_sucursal.direccion.str.strip().str.capitalize()
df_sucursal.rename(columns={'id' : 'sucursalId', 'lat': 'latitud', 'lng': 'longitud'}, inplace= True)
# Reiniciamos los indices.
df_sucursal.reset_index(drop=True, inplace=True)
df_sucursal.head()

Unnamed: 0,sucursalId,sucursalNombre,comercioBanderaId,sucursalTipoId,localidadId,direccion,latitud,longitud
0,1-1-7,Super mami 4,1,1,1,E53 1011 none,-31.126667,-64.29525
1,10-1-1,San isidro,2,1,2,Bernardo de irigoyen 2647,-34.491345,-58.589025
2,10-1-10,Villa tesei,2,1,3,Av. vergara 1910,-34.62061,-58.633769
3,10-1-11,Malvinas argentinas,2,1,4,Av. arturo illia 3770,-34.528883,-58.701631
4,10-1-112,Salta,2,1,5,20 de febrero 37,-24.789072,-65.413699


In [38]:
# Revisamos finalmente nuestra tabla
df_sucursal.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2333 entries, 0 to 2332
Data columns (total 8 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sucursalId         2333 non-null   object 
 1   sucursalNombre     2333 non-null   object 
 2   comercioBanderaId  2333 non-null   int64  
 3   sucursalTipoId     2333 non-null   int64  
 4   localidadId        2333 non-null   int64  
 5   direccion          2333 non-null   object 
 6   latitud            2333 non-null   float64
 7   longitud           2333 non-null   float64
dtypes: float64(2), int64(3), object(3)
memory usage: 145.9+ KB


In [40]:
# Exportamos los archivos.
tablas_final = [df_sucursal, df_localidad, df_provincia, df_bandera, df_sucursal_tipo]
nombres = ['tabla_sucursal', 'sucursal_localidad', 'sucursal_provincia', 'sucursal_bandera', 'sucursal_tipo']
for df, nombre in zip(tablas_final, nombres):
    df.to_csv('{}.csv'.format(nombre), index=False)