# Procedimiento de automatizacion CSV

### Importamos las librerias

In [1]:
import pandas as pd
import pymysql
from sqlalchemy import create_engine

print('Importado !')

Importado !


### Creamos el DataFrame

In [2]:
# Extraemos los datos del CSV: sucursal.csv, utf-8
data = pd.read_csv('Datasets\sucursal.csv')
data.head()

Unnamed: 0,id,comercioId,banderaId,banderaDescripcion,comercioRazonSocial,provincia,localidad,direccion,lat,lng,sucursalNombre,sucursalTipo
0,1-1-7,1,1,Super MAMI,Dinosaurio S.A.,AR-X,SALSIPUEDES,E53 1011 None,-31.126667,-64.29525,Super Mami 4,Hipermercado
1,10-1-1,10,1,Hipermercado Carrefour,INC S.A.,AR-B,San Isidro,Bernardo De Irigoyen 2647,-34.491345,-58.589025,San Isidro,Hipermercado
2,10-1-10,10,1,Hipermercado Carrefour,INC S.A.,AR-B,Hurlingham,Av. Vergara 1910,-34.62061,-58.633769,Villa Tesei,Hipermercado
3,10-1-11,10,1,Hipermercado Carrefour,INC S.A.,AR-B,Malvinas Argentinas,Av. Arturo Illia 3770,-34.528883,-58.701631,Malvinas Argentinas,Hipermercado
4,10-1-112,10,1,Hipermercado Carrefour,INC S.A.,AR-A,Salta,20 De Febrero 37,-24.789072,-65.413699,Salta,Hipermercado


In [3]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2333 entries, 0 to 2332
Data columns (total 12 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   id                   2333 non-null   object 
 1   comercioId           2333 non-null   int64  
 2   banderaId            2333 non-null   int64  
 3   banderaDescripcion   2333 non-null   object 
 4   comercioRazonSocial  2333 non-null   object 
 5   provincia            2333 non-null   object 
 6   localidad            2333 non-null   object 
 7   direccion            2333 non-null   object 
 8   lat                  2333 non-null   float64
 9   lng                  2333 non-null   float64
 10  sucursalNombre       2333 non-null   object 
 11  sucursalTipo         2333 non-null   object 
dtypes: float64(2), int64(2), object(8)
memory usage: 218.8+ KB


In [4]:
data.shape

(2333, 12)

### Quitamos valores nulos

In [5]:
# Porcentaje del número de valores nulos en las columnas :
total = data.shape[0]
list_porcent = list(map(lambda x: round(x * 100/ total,4), data.isnull().sum().tolist()))
total_por = sum(list_porcent)
print(f'Porcentaje total de valores nulos: {total_por}%')

Porcentaje total de valores nulos: 0.0%


Como la cantidad de valores nulos es menor al 5%, se borrarán del dataset

In [6]:
# Eliminamos valores nulos
data.dropna(axis = 0, inplace=True)
data.shape

(2333, 12)

### Quitamos Duplicados

In [7]:
# Quitamos duplicados
data.drop_duplicates(inplace=True)
data.shape

(2333, 12)

### Cargamos los datos a la DB en MySQL

In [8]:
# Creamos la cadena para conectarnos nuestra base de datos: ETL_BD
cadena_conexion = 'mysql+pymysql://root:123456789@localhost:3306/ETL_BD'
# Hacemos la conexion:
conexion = create_engine(cadena_conexion)
# Creamos la tabla en MySQL
data.to_sql(name = 'sucursal', con = conexion, if_exists = 'replace', index = False, index_label = 'id')
print('Tabla: "sucursales" creada en la base de datos "ETL_BD" de MySQL.')

Tabla: "sucursales" creada en la base de datos "ETL_BD" de MySQL.


# Funcion automatizada

In [9]:
import pandas as pd
import pymysql
from sqlalchemy import create_engine

print('Importado !')

Importado !


In [10]:
def Ingesta_CSV(File, Encoding = 'utf-8'):
    # Extraemos los datos:
    print('Cargando el archivo ...\n')
    dcsv = pd.read_csv(File, encoding = Encoding)
    # Porcentaje total de valores nulos en las columnas:
    print('Limpiando el archivo ...\n')
    total = dcsv.shape[0]
    list_porcent = list(map(lambda x: round(x * 100/ total,4), dcsv.isnull().sum().tolist()))
    total_por = sum(list_porcent)
    if total_por < 5:
        # Eliminamos valores nulos
        dcsv.dropna(axis = 0, inplace=True)
        # Quitamos duplicados
        dcsv.drop_duplicates(inplace=True)
        # Pasar a sql
    else:
        pass
    # Cargamos en la base de datos
    print('Cargando a la base de datos ...\n')
    cadena_conexion = 'mysql+pymysql://root:123456789@localhost:3306/ETL_BD'
    conexion = create_engine(cadena_conexion)
    dcsv.to_sql(name = 'sucursal', con = conexion, if_exists = 'replace', index = False, index_label = 'id')
    print('DataFrame ingestado en la base de datos !!!\n')
    print(f'El DataFrame tiene {dcsv.shape[1]} columnas y {dcsv.shape[0]} filas.')
    return dcsv

In [13]:
File = 'Datasets\sucursal.csv'
df = Ingesta_CSV(File)

Cargando el archivo ...

Limpiando el archivo ...

Cargando a la base de datos ...

DataFrame ingestado en la base de datos !!!

El DataFrame tiene 12 columnas y 2333 filas.


In [12]:
df.head()

Unnamed: 0,id,comercioId,banderaId,banderaDescripcion,comercioRazonSocial,provincia,localidad,direccion,lat,lng,sucursalNombre,sucursalTipo
0,1-1-7,1,1,Super MAMI,Dinosaurio S.A.,AR-X,SALSIPUEDES,E53 1011 None,-31.126667,-64.29525,Super Mami 4,Hipermercado
1,10-1-1,10,1,Hipermercado Carrefour,INC S.A.,AR-B,San Isidro,Bernardo De Irigoyen 2647,-34.491345,-58.589025,San Isidro,Hipermercado
2,10-1-10,10,1,Hipermercado Carrefour,INC S.A.,AR-B,Hurlingham,Av. Vergara 1910,-34.62061,-58.633769,Villa Tesei,Hipermercado
3,10-1-11,10,1,Hipermercado Carrefour,INC S.A.,AR-B,Malvinas Argentinas,Av. Arturo Illia 3770,-34.528883,-58.701631,Malvinas Argentinas,Hipermercado
4,10-1-112,10,1,Hipermercado Carrefour,INC S.A.,AR-A,Salta,20 De Febrero 37,-24.789072,-65.413699,Salta,Hipermercado
