# Transformaciones sucursal
En este notebook se harán las transformaciones que se discuten en el notebook de exploración de datasets respecto a `sucursal.csv`.

In [1]:
import pandas as pd
import unidecode
import numpy as np

## sucursal.csv

In [2]:
suc = pd.read_csv('../datasets/sucursal.csv')
suc.head()

Unnamed: 0,id,comercioId,banderaId,banderaDescripcion,comercioRazonSocial,provincia,localidad,direccion,lat,lng,sucursalNombre,sucursalTipo
0,1-1-7,1,1,Super MAMI,Dinosaurio S.A.,AR-X,SALSIPUEDES,E53 1011 None,-31.126667,-64.29525,Super Mami 4,Hipermercado
1,10-1-1,10,1,Hipermercado Carrefour,INC S.A.,AR-B,San Isidro,Bernardo De Irigoyen 2647,-34.491345,-58.589025,San Isidro,Hipermercado
2,10-1-10,10,1,Hipermercado Carrefour,INC S.A.,AR-B,Hurlingham,Av. Vergara 1910,-34.62061,-58.633769,Villa Tesei,Hipermercado
3,10-1-11,10,1,Hipermercado Carrefour,INC S.A.,AR-B,Malvinas Argentinas,Av. Arturo Illia 3770,-34.528883,-58.701631,Malvinas Argentinas,Hipermercado
4,10-1-112,10,1,Hipermercado Carrefour,INC S.A.,AR-A,Salta,20 De Febrero 37,-24.789072,-65.413699,Salta,Hipermercado


In [3]:
# Tabla de comercio-bandera
df_bandera = suc[['banderaId','comercioId', 'banderaDescripcion', 'comercioRazonSocial']].copy()
df_bandera.drop_duplicates(inplace=True)
df_bandera.reset_index(inplace=True, drop=True)
# agrego un id
df_bandera.insert(0, 'comecioBanderaId', range(1, 1 + len(df_bandera)))
df_bandera.head()

Unnamed: 0,comecioBanderaId,banderaId,comercioId,banderaDescripcion,comercioRazonSocial
0,1,1,1,Super MAMI,Dinosaurio S.A.
1,2,1,10,Hipermercado Carrefour,INC S.A.
2,3,2,10,Market,INC S.A.
3,4,3,10,Express,INC S.A.
4,5,2,11,Changomas,Wal Mart Argentina S.R.L.


In [4]:
# Mapeamos el id a sucursal
suc = pd.merge(suc, df_bandera, on = ['banderaId','comercioId', 'banderaDescripcion','comercioRazonSocial'], how='left')
suc.drop(['banderaId','comercioId', 'banderaDescripcion', 'comercioRazonSocial'], axis='columns', inplace=True)
suc.head()

Unnamed: 0,id,provincia,localidad,direccion,lat,lng,sucursalNombre,sucursalTipo,comecioBanderaId
0,1-1-7,AR-X,SALSIPUEDES,E53 1011 None,-31.126667,-64.29525,Super Mami 4,Hipermercado,1
1,10-1-1,AR-B,San Isidro,Bernardo De Irigoyen 2647,-34.491345,-58.589025,San Isidro,Hipermercado,2
2,10-1-10,AR-B,Hurlingham,Av. Vergara 1910,-34.62061,-58.633769,Villa Tesei,Hipermercado,2
3,10-1-11,AR-B,Malvinas Argentinas,Av. Arturo Illia 3770,-34.528883,-58.701631,Malvinas Argentinas,Hipermercado,2
4,10-1-112,AR-A,Salta,20 De Febrero 37,-24.789072,-65.413699,Salta,Hipermercado,2


In [5]:
# Tabla tipo de sucursal
df_tipo_suc = suc['sucursalTipo'].copy()
df_tipo_suc.drop_duplicates(inplace=True)
df_tipo_suc = df_tipo_suc.to_frame()
df_tipo_suc.insert(0, 'tipoSucursalId', range(1, 1 + len(df_tipo_suc)))
df_tipo_suc.reset_index(inplace=True, drop=True)
df_tipo_suc

Unnamed: 0,tipoSucursalId,sucursalTipo
0,1,Hipermercado
1,2,Supermercado
2,3,Autoservicio
3,4,Minorista


In [6]:
# Mapeamos el id a sucursal
suc = pd.merge(suc, df_tipo_suc, on = ['sucursalTipo'])
suc.drop(['sucursalTipo'], axis='columns', inplace=True)
suc.head()

Unnamed: 0,id,provincia,localidad,direccion,lat,lng,sucursalNombre,comecioBanderaId,tipoSucursalId
0,1-1-7,AR-X,SALSIPUEDES,E53 1011 None,-31.126667,-64.29525,Super Mami 4,1,1
1,10-1-1,AR-B,San Isidro,Bernardo De Irigoyen 2647,-34.491345,-58.589025,San Isidro,2,1
2,10-1-10,AR-B,Hurlingham,Av. Vergara 1910,-34.62061,-58.633769,Villa Tesei,2,1
3,10-1-11,AR-B,Malvinas Argentinas,Av. Arturo Illia 3770,-34.528883,-58.701631,Malvinas Argentinas,2,1
4,10-1-112,AR-A,Salta,20 De Febrero 37,-24.789072,-65.413699,Salta,2,1


In [7]:
# tabla de provincia y localidad
df_provincia = suc['provincia'].copy().to_frame()
df_provincia.drop_duplicates(inplace=True)
df_provincia.insert(0, 'provinciaId', range(1, 1 + len(df_provincia)))
df_provincia.reset_index(drop=True,inplace=True)

df_provincia

Unnamed: 0,provinciaId,provincia
0,1,AR-X
1,2,AR-B
2,3,AR-A
3,4,AR-U
4,5,AR-L
5,6,AR-R
6,7,AR-Q
7,8,AR-W
8,9,AR-V
9,10,AR-M


In [8]:
# tabla de localidad
df_localidad = suc[['provincia','localidad']].copy()
df_localidad.drop_duplicates(subset=['provincia','localidad'], inplace=True)
# arreglamos strings
df_localidad.localidad = df_localidad.localidad.str.strip().str.capitalize()
# Mapeamos los id de provincia
df_localidad = pd.merge(df_localidad, df_provincia, on = ['provincia'], how='left')
df_localidad.drop(['provincia'], axis='columns', inplace=True)
df_localidad.drop_duplicates(subset=['localidad','provinciaId'], inplace=True)
# insetamos un index
df_localidad.insert(0, 'localidadId', range(1, 1 + len(df_localidad)))
df_localidad.reset_index(drop=True,inplace=True)

df_localidad

Unnamed: 0,localidadId,localidad,provinciaId
0,1,Salsipuedes,1
1,2,San isidro,2
2,3,Hurlingham,2
3,4,Malvinas argentinas,2
4,5,Salta,3
...,...,...,...
554,555,Capitán sarmiento,2
555,556,General alvear,2
556,557,Tapalque,2
557,558,Stroeder,2


In [9]:
df_localidad_map = pd.merge(df_localidad, df_provincia, on = ['provinciaId'], how='left')
df_localidad_map

Unnamed: 0,localidadId,localidad,provinciaId,provincia
0,1,Salsipuedes,1,AR-X
1,2,San isidro,2,AR-B
2,3,Hurlingham,2,AR-B
3,4,Malvinas argentinas,2,AR-B
4,5,Salta,3,AR-A
...,...,...,...,...
554,555,Capitán sarmiento,2,AR-B
555,556,General alvear,2,AR-B
556,557,Tapalque,2,AR-B
557,558,Stroeder,2,AR-B


In [10]:

pd.merge(suc, df_localidad_map, on = ['provincia','localidad'], how='left')

Unnamed: 0,id,provincia,localidad,direccion,lat,lng,sucursalNombre,comecioBanderaId,tipoSucursalId,localidadId,provinciaId
0,1-1-7,AR-X,SALSIPUEDES,E53 1011 None,-31.126667,-64.295250,Super Mami 4,1,1,,
1,10-1-1,AR-B,San Isidro,Bernardo De Irigoyen 2647,-34.491345,-58.589025,San Isidro,2,1,,
2,10-1-10,AR-B,Hurlingham,Av. Vergara 1910,-34.620610,-58.633769,Villa Tesei,2,1,3.0,2.0
3,10-1-11,AR-B,Malvinas Argentinas,Av. Arturo Illia 3770,-34.528883,-58.701631,Malvinas Argentinas,2,1,,
4,10-1-112,AR-A,Salta,20 De Febrero 37,-24.789072,-65.413699,Salta,2,1,5.0,3.0
...,...,...,...,...,...,...,...,...,...,...,...
2328,6-1-17,AR-Y,San Salvador de Jujuy,Dorrego Esq. Avda. El Exodo None,-24.192925,-65.302280,Comodin 17,40,3,,
2329,6-1-22,AR-Y,San Salvador de Jujuy,Avda. Exodo 863,-24.193146,-65.301073,Comodin 22,40,3,,
2330,65-1-328,AR-B,S.F.Solano,Calle 897 - 2400 0,-34.779475,-58.315580,Calle 897 4322 (S.F.Solano),42,4,,
2331,65-1-337,AR-C,CABA,Av. Boedo 452 0,-34.578254,-58.460340,Boedo 452 (CAP),42,4,,


In [11]:
# Mapeamos localidad a sucursal
df_localidad_map = pd.merge(df_localidad, df_provincia, on = ['provinciaId'], how='left')
# arreglamos string antes de merge
suc.localidad = suc.localidad.str.strip().str.capitalize()
#juntamos
suc = pd.merge(suc, df_localidad_map, on = ['provincia','localidad'], how='left', validate = 'm:1')
suc.drop(['provincia','localidad','provinciaId'], axis='columns', inplace=True)
suc 

Unnamed: 0,id,direccion,lat,lng,sucursalNombre,comecioBanderaId,tipoSucursalId,localidadId
0,1-1-7,E53 1011 None,-31.126667,-64.295250,Super Mami 4,1,1,1
1,10-1-1,Bernardo De Irigoyen 2647,-34.491345,-58.589025,San Isidro,2,1,2
2,10-1-10,Av. Vergara 1910,-34.620610,-58.633769,Villa Tesei,2,1,3
3,10-1-11,Av. Arturo Illia 3770,-34.528883,-58.701631,Malvinas Argentinas,2,1,4
4,10-1-112,20 De Febrero 37,-24.789072,-65.413699,Salta,2,1,5
...,...,...,...,...,...,...,...,...
2328,6-1-17,Dorrego Esq. Avda. El Exodo None,-24.192925,-65.302280,Comodin 17,40,3,75
2329,6-1-22,Avda. Exodo 863,-24.193146,-65.301073,Comodin 22,40,3,75
2330,65-1-328,Calle 897 - 2400 0,-34.779475,-58.315580,Calle 897 4322 (S.F.Solano),42,4,559
2331,65-1-337,Av. Boedo 452 0,-34.578254,-58.460340,Boedo 452 (CAP),42,4,134


In [12]:
# reordenamos
suc = suc[['id','sucursalNombre','comecioBanderaId','tipoSucursalId','localidadId', 'direccion','lat','lng']]
suc.head()

Unnamed: 0,id,sucursalNombre,comecioBanderaId,tipoSucursalId,localidadId,direccion,lat,lng
0,1-1-7,Super Mami 4,1,1,1,E53 1011 None,-31.126667,-64.29525
1,10-1-1,San Isidro,2,1,2,Bernardo De Irigoyen 2647,-34.491345,-58.589025
2,10-1-10,Villa Tesei,2,1,3,Av. Vergara 1910,-34.62061,-58.633769
3,10-1-11,Malvinas Argentinas,2,1,4,Av. Arturo Illia 3770,-34.528883,-58.701631
4,10-1-112,Salta,2,1,5,20 De Febrero 37,-24.789072,-65.413699


In [13]:
# strings de nombre y direccion
suc.sucursalNombre = suc.sucursalNombre.str.strip().str.capitalize()
suc.direccion = suc.direccion.str.strip().str.capitalize()

In [14]:
# renombramos columnas
suc.rename(columns={'id': "sucursalId", 'lat': 'latitud', 'lng': 'longitud'}, inplace=True)
suc.reset_index(drop=True, inplace=True)
suc

Unnamed: 0,sucursalId,sucursalNombre,comecioBanderaId,tipoSucursalId,localidadId,direccion,latitud,longitud
0,1-1-7,Super mami 4,1,1,1,E53 1011 none,-31.126667,-64.295250
1,10-1-1,San isidro,2,1,2,Bernardo de irigoyen 2647,-34.491345,-58.589025
2,10-1-10,Villa tesei,2,1,3,Av. vergara 1910,-34.620610,-58.633769
3,10-1-11,Malvinas argentinas,2,1,4,Av. arturo illia 3770,-34.528883,-58.701631
4,10-1-112,Salta,2,1,5,20 de febrero 37,-24.789072,-65.413699
...,...,...,...,...,...,...,...,...
2328,6-1-17,Comodin 17,40,3,75,Dorrego esq. avda. el exodo none,-24.192925,-65.302280
2329,6-1-22,Comodin 22,40,3,75,Avda. exodo 863,-24.193146,-65.301073
2330,65-1-328,Calle 897 4322 (s.f.solano),42,4,559,Calle 897 - 2400 0,-34.779475,-58.315580
2331,65-1-337,Boedo 452 (cap),42,4,134,Av. boedo 452 0,-34.578254,-58.460340


In [15]:
suc.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2333 entries, 0 to 2332
Data columns (total 8 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   sucursalId        2333 non-null   object 
 1   sucursalNombre    2333 non-null   object 
 2   comecioBanderaId  2333 non-null   int64  
 3   tipoSucursalId    2333 non-null   int64  
 4   localidadId       2333 non-null   int64  
 5   direccion         2333 non-null   object 
 6   latitud           2333 non-null   float64
 7   longitud          2333 non-null   float64
dtypes: float64(2), int64(3), object(3)
memory usage: 145.9+ KB


In [16]:
# guardamos los archivos producto de la transformacion
dfs = [suc, df_localidad, df_provincia, df_bandera, df_tipo_suc]
nombres = ['sucursal_nuevo', 'sucursal_localidad', 'sucursal_provincia', 'sucursal_bandera', 'sucursal_tipo']
for df, nombre in zip(dfs, nombres):
    df.to_csv('../datasets/{}.csv'.format(nombre), index=False)