In [2]:
## Importación al bucket iedatalakeLanding de entidades de Microsoft Dynamics AX
## ------------------------------------------------------------------------------
##
## Las entidades necesarias se extraerán de la base de datos PRO2 de AX. 

import sqlalchemy
import csv
import string
import pandas as pd
import os
import shutil
import datetime
import uuid


In [80]:
## Proceso, versíón y fecha de ingesta para identificar la ejecución

ingestionProcess = 'Ingesta de Entidades AX desde analytics01 en python'
ingestionVersion = str(uuid.uuid1())
ingestionInitialDate = str(datetime.datetime.now())

## Motor SQLAlchemy para la base de datos SQL Server de AX

axEngine = sqlalchemy.create_engine('mssql+pyodbc://jupyter:IEDataLake1@AXSQLCORP.ie.es\AXSQL:52040/PRO2?driver=ODBC+Driver+13+for+SQL+Server')

## Carpeta auxiliar para depositar los CSVs generados antes de subir

if not os.path.exists("data"):
    os.makedirs("data")


In [38]:
csvIndex = ['a1','b2','c3','d4']
", ".join(csvIndex)
type(csvIndex)


list

In [39]:
csvIndex = 'identificador'
", ".join(csvIndex)
type(csvIndex)



str

In [42]:
csvIndex = ['a1','b2','c3','d4']
csvIndex= 'identificador'
if (type(csvIndex) == 'list'):
    orderBy = ", ".csvIndex
else: 
    orderBy = csvIndex

orderBy 

    

'identificador'

In [34]:
 ", ".join("LEDGERTRANSID" )

'L, E, D, G, E, R, T, R, A, N, S, I, D'

In [73]:
csvIndex = 'DATAAREAID, DIMENSIONCODE, NUM'
csvIndex = csvIndex.replace(' ', '').split(',')    
csvIndex

['DATAAREAID', 'DIMENSIONCODE', 'NUM']

In [74]:
## Procedimiento de importación de una entidad de AX a un fichero CSV local

def ImportAXEntity(entityName, csvIndex, **optionalParameters): 
    
    # Ruta del fichero CSV, asumida en una subcarpeta "data" en la carpeta donde se ejecuta
    # y extensión .csv.gz porque se generará comprimido en formato GZIP
    
    csvFile = optionalParameters.get('csvFile', 'data/' + entityName + '.csv.gz')
        
    # Parámetro opcional con el número de registros del bloque a recuperar de forma iterativa
    
    chunkSize = optionalParameters.get('chunkSize', None)
    if (chunkSize == None):
        # Si no viene de entrada ningún número de registros, no se limita, poniendo como alcance
        # el número total de filas de la tabla de la entidad original
        axConnection = axEngine.connect()
        df = pd.io.sql.read_sql("SELECT COUNT(*) as recuento FROM " + entityName, crmConnection)
        chunkSize = int(df["recuento"]) + 1
        axConnection.close()
    else: 
        chunkSize = int(chunkSize)

    # Convertimos csvIndex a lista, pues  llega como una cadena en el parámetro 
    # con valores separados por coma de la forma 'DATAAREAID, DIMENSIONCODE, NUM' 
    # dejando el valor orifinal en orderBy para la ordenación en la consulta fraccionada
    orderBy = csvIndex    
    csvIndex = csvIndex.replace(' ', '').split(',')    
    axConnection = axEngine.connect()
    rowsPending = True
    offset = 0
    while rowsPending:
        sqlSentence = "WITH Results_SQL AS (SELECT "\
        + "ROW_NUMBER() OVER " \
        + "(ORDER BY " + orderBy + ") as RowNum, * " \
        + "FROM " + entityName + ") " \
        + "SELECT * FROM Results_SQL WHERE  RowNum > " + str(offset) + " AND RowNum <=  " \
        + str(offset + chunkSize)        
        chunk = pd.io.sql.read_sql(sqlSentence, axConnection)

        print (str(offset)  + " < RowNum <= " + str(offset + chunkSize))

        # Borramos columna auxiliar RowNum usada para ordenar por el índice
        del chunk["RowNum"]
        chunk.set_index(csvIndex, inplace = True)        
        if (offset == 0):
            chunk.to_csv(csvFile, sep = ';', compression = 'gzip', quotechar='|', quoting=csv.QUOTE_MINIMAL, 
                     encoding = 'utf8')
        else:            
            chunk.to_csv(csvFile, sep = ';', compression = 'gzip', quotechar='|', quoting=csv.QUOTE_MINIMAL, 
                     encoding = 'utf8', mode= 'a', header = False)               
        offset += chunkSize
        if (len(chunk) < chunkSize):
            rowsPending = False            
        del chunk

    axConnection.close()  
    
        

In [82]:
ImportAXEntity(entityName = 'LEDGERTABLE', csvIndex = 'DATAAREAID, ACCOUNTNUM', chunkSize = 25000)

0 < RowNum <= 25000
offset = 0


In [81]:
ImportAXEntity(entityName = 'DIMENSIONS', csvIndex = 'DATAAREAID, DIMENSIONCODE, NUM', chunkSize = 25000)

0 < RowNum <= 25000
offset = 0
25000 < RowNum <= 50000
offset <> 0
50000 < RowNum <= 75000
offset <> 0
75000 < RowNum <= 100000
offset <> 0
100000 < RowNum <= 125000
offset <> 0
125000 < RowNum <= 150000
offset <> 0
150000 < RowNum <= 175000
offset <> 0
175000 < RowNum <= 200000
offset <> 0


In [None]:
ImportAXEntity(entityName = 'LEDGERTRANS', csvIndex = 'DATAAREAID, RECID', chunkSize = 250000)

In [7]:
axConnection = axEngine.connect()
df = pd.io.sql.read_sql("SELECT COUNT(*) as recuento FROM LEDGERTRANS", axConnection)
axConnection.close()

In [10]:
df

Unnamed: 0,recuento
0,8494792


In [11]:
# Intento de carga en un solo paso de un DataFrame para LEDGERTRANS

# Lo tuve que detener porque iba acaparando toda la memoria. Se necesita hacer iterativo

axConnection = axEngine.connect()
df = pd.io.sql.read_sql("SELECT * FROM LEDGERTRANS", axConnection)
axConnection.close()


KeyboardInterrupt: 

In [None]:
# Intento de carga iterativa
# Funcionó, pero empleo casi 5 horas (desde las 14:04 a las 18:49) 

axConnection = axEngine.connect()
rowsPending = True
offset = 0
chunkSize = 25000
csvFile = 'data/LEDGERTRANS.csv.gz'
csvIndex = 'LEDGERTRANSID'
while rowsPending:
    sqlSentence = "WITH Results_SQL AS (SELECT "\
    + "RTRIM(LTRIM(DATAAREAID)) + '-' + CONVERT(VARCHAR(50), RECID) as LEDGERTRANSID, " \
    + "ROW_NUMBER() OVER " \
    + "(ORDER BY RTRIM(LTRIM(DATAAREAID)) + '-' + CONVERT(VARCHAR(50), RECID)) as RowNum, * " \
    + "FROM LEDGERTRANS) " \
    + "SELECT * FROM Results_SQL WHERE  RowNum > " + str(offset) + " AND RowNum <=  " \
    + str(offset + chunkSize)        
    chunk = pd.io.sql.read_sql(sqlSentence, axConnection)
    
    print (str(offset)  + " < RowNum <= " + str(offset + chunkSize))
    
    # Borramos columna auxiliar RowNum usada para ordenar por el índice
    del chunk["RowNum"]
    chunk.set_index(csvIndex, inplace = True)        
    if (offset == 0):
        print ("offset = 0")
        chunk.to_csv(csvFile, sep = ';', compression = 'gzip', quotechar='|', quoting=csv.QUOTE_MINIMAL, 
                 encoding = 'utf8')
    else:            
        print ("offset <> 0")
        chunk.to_csv(csvFile, sep = ';', compression = 'gzip', quotechar='|', quoting=csv.QUOTE_MINIMAL, 
                 encoding = 'utf8', mode= 'a', header = False)               
    offset += chunkSize
    if (len(chunk) < chunkSize):
        rowsPending = False            
    del chunk
        
axConnection.close()

0 < RowNum <= 25000
offset = 0
25000 < RowNum <= 50000
offset <> 0
50000 < RowNum <= 75000
offset <> 0
75000 < RowNum <= 100000
offset <> 0
100000 < RowNum <= 125000
offset <> 0
125000 < RowNum <= 150000
offset <> 0
150000 < RowNum <= 175000
offset <> 0
175000 < RowNum <= 200000
offset <> 0
200000 < RowNum <= 225000
offset <> 0
225000 < RowNum <= 250000
offset <> 0
250000 < RowNum <= 275000
offset <> 0
275000 < RowNum <= 300000
offset <> 0
300000 < RowNum <= 325000
offset <> 0
325000 < RowNum <= 350000
offset <> 0
350000 < RowNum <= 375000
offset <> 0
375000 < RowNum <= 400000
offset <> 0
400000 < RowNum <= 425000
offset <> 0
425000 < RowNum <= 450000
offset <> 0
450000 < RowNum <= 475000
offset <> 0
475000 < RowNum <= 500000
offset <> 0
500000 < RowNum <= 525000
offset <> 0
525000 < RowNum <= 550000
offset <> 0
550000 < RowNum <= 575000
offset <> 0
575000 < RowNum <= 600000
offset <> 0
600000 < RowNum <= 625000
offset <> 0
625000 < RowNum <= 650000
offset <> 0
650000 < RowNum <= 67500

In [20]:
# Intento de carga de dimensiones de AX

axConnection = axEngine.connect()
rowsPending = True
offset = 0
chunkSize = 25000
csvFile = 'data/DIMENSIONS.csv.gz'
csvIndex = ['DATAAREAID', 'DIMENSIONCODE', 'NUM']
#'DIMENSIONID'
while rowsPending:
#    sqlSentence = "WITH Results_SQL AS (SELECT "\
#    + "UPPER([DATAAREAID] + '#' + CONVERT(VARCHAR(50), [DIMENSIONCODE]) + '#' +NUM) " \
#    + "AS DIMENSIONID, " \
#    + "ROW_NUMBER() OVER " \
#    + "(ORDER BY UPPER([DATAAREAID] + '#' + CONVERT(VARCHAR(50), [DIMENSIONCODE]) + '#' +NUM)) as RowNum, * " \
#    + "FROM PRO2.dbo.DIMENSIONS) " \
#    + "SELECT * FROM Results_SQL WHERE  RowNum > " + str(offset) + " AND RowNum <=  " \
#    + str(offset + chunkSize)        
    sqlSentence = "WITH Results_SQL AS (SELECT "\
    + "ROW_NUMBER() OVER " \
    + "(ORDER BY DATAAREAID, DIMENSIONCODE, NUM) as RowNum, * " \
    + "FROM PRO2.dbo.DIMENSIONS) " \
    + "SELECT * FROM Results_SQL WHERE  RowNum > " + str(offset) + " AND RowNum <=  " \
    + str(offset + chunkSize)        

    #print (sqlSentence)
    chunk = pd.io.sql.read_sql(sqlSentence, axConnection)    

    print (str(offset)  + " < RowNum <= " + str(offset + chunkSize))
    
    # Borramos columna auxiliar RowNum usada para ordenar por el índice
    del chunk["RowNum"]
    chunk.set_index(csvIndex, inplace = True)        
    if (offset == 0):
        print ("offset = 0")
        chunk.to_csv(csvFile, sep = ';', compression = 'gzip', quotechar='|', quoting=csv.QUOTE_MINIMAL, 
                 encoding = 'utf8')
    else:            
        print ("offset <> 0")
        chunk.to_csv(csvFile, sep = ';', compression = 'gzip', quotechar='|', quoting=csv.QUOTE_MINIMAL, 
                 encoding = 'utf8', mode= 'a', header = False)               
    offset += chunkSize
    if (len(chunk) < chunkSize):
        rowsPending = False            
    del chunk
        
axConnection.close()

0 < RowNum <= 25000
offset = 0
25000 < RowNum <= 50000
offset <> 0
50000 < RowNum <= 75000
offset <> 0
75000 < RowNum <= 100000
offset <> 0
100000 < RowNum <= 125000
offset <> 0
125000 < RowNum <= 150000
offset <> 0
150000 < RowNum <= 175000
offset <> 0
175000 < RowNum <= 200000
offset <> 0


In [30]:
# Intento de carga de LEDGERTABLE

axConnection = axEngine.connect()
rowsPending = True
offset = 0
chunkSize = 25000
csvFile = 'data/LEDGERTABLE.csv.gz'
csvIndex = ['DATAAREAID', 'ACCOUNTNUM']
while rowsPending:
    sqlSentence = "WITH Results_SQL AS (SELECT "\
    + "ROW_NUMBER() OVER " \
    + "(ORDER BY DATAAREAID, ACCOUNTNUM) as RowNum, * " \
    + "FROM PRO2.dbo.LEDGERTABLE) " \
    + "SELECT * FROM Results_SQL WHERE  RowNum > " + str(offset) + " AND RowNum <=  " \
    + str(offset + chunkSize)        

    #print (sqlSentence)
    chunk = pd.io.sql.read_sql(sqlSentence, axConnection)    

    print (str(offset)  + " < RowNum <= " + str(offset + chunkSize))
    
    # Borramos columna auxiliar RowNum usada para ordenar por el índice
    del chunk["RowNum"]
    chunk.set_index(csvIndex, inplace = True)        
    if (offset == 0):
        print ("offset = 0")
        chunk.to_csv(csvFile, sep = ';', compression = 'gzip', quotechar='|', quoting=csv.QUOTE_MINIMAL, 
                 encoding = 'utf8')
    else:            
        print ("offset <> 0")
        chunk.to_csv(csvFile, sep = ';', compression = 'gzip', quotechar='|', quoting=csv.QUOTE_MINIMAL, 
                 encoding = 'utf8', mode= 'a', header = False)               
    offset += chunkSize
    if (len(chunk) < chunkSize):
        rowsPending = False            
    del chunk
        
axConnection.close()

0 < RowNum <= 25000
offset = 0


In [27]:
chunk.columns

Index(['ACCOUNTNUM', 'ACCOUNTNAME', 'ACCOUNTPLTYPE', 'OFFSETACCOUNT',
       'LEDGERCLOSING', 'BLOCKEDINJOURNAL', 'DEBCREDPROPOSAL', 'DIMENSION',
       'DIMENSION2_', 'DIMENSION3_', 'OPENINGACCOUNT', 'DIMSPEC',
       'MANDATORYTAXCODE', 'CURRENCYCODE', 'MANDATORYCURRENCY', 'POSTING',
       'MANDATORYPOSTING', 'USER_', 'MANDATORYUSER', 'DEBCREDCHECK',
       'REVERSESIGN', 'MANDATORYDIMENSION', 'MANDATORYDIMENSION2_',
       'MANDATORYDIMENSION3_', 'COLUMN_', 'LINESUB', 'LINEEXCEED',
       'UNDERLINENUMERALS', 'UNDERLINETXT', 'ITALIC', 'BOLDTYPEFACE',
       'EXCHADJUSTED', 'ACCOUNTNAMEALIAS', 'CLOSED', 'DEBCREDBALANCEDEMAND',
       'ACCOUNTCATEGORYREF', 'DATAAREAID', 'RECVERSION', 'RECID',
       'DIMENSION4_', 'DIMENSION5_', 'DIMENSION6_', 'MANDATORYDIMENSION4_',
       'MANDATORYDIMENSION5_', 'MANDATORYDIMENSION6_', 'BIACOMISIONCONTROL',
       'MODIFIEDDATETIME', 'MODIFIEDBY', 'CREATEDDATETIME', 'CREATEDBY',
       'TAXGROUP', 'CONVERSIONPRINCIPLE', 'COMPANYGROUPACCOUNT', 'TAXC

In [31]:
## Sincronización de carpeta local "data" con carpeta "crm" del bucket S3 iedatalakelanding
## Hace uso de AWSCLI (previamente instalado mediante la instrucción: sudo apt install awscli)

ingestionFinalDate = str(datetime.datetime.now())
os.system('aws s3 sync data s3://iedatalakelanding/ax --metadata ingestionprocess="' + ingestionProcess  
          + '",ingestionversion="' + ingestionVersion + '",ingestioninitialdate="' + ingestionInitialDate 
          + '",ingestionfinaldate="' + ingestionFinalDate + '",code="Ingest-AX-Entities"');


In [2]:
# Test de conectividad con servidor de AX (visto que por SQLAlchemy da TimeOut al comenzar)
import pyodbc

#conn = pyodbc.connect('DRIVER={ODBC Driver 13 for SQL Server};SERVER=AXSQLCORP\AXSQL;DATABASE=PRO2;UID=posa;PWD=posa=kk')
#conn = pyodbc.connect('DRIVER={ODBC Driver 13 for SQL Server};SERVER=10.5.1.189\AXSQL;DATABASE=PRO2;UID=posa;PWD=posa=kk')
conn = pyodbc.connect('DRIVER={ODBC Driver 13 for SQL Server};SERVER=AXSQLCORP.ie.es\AXSQL;DATABASE=PRO2;UID=jupyter;PWD=IEDataLake1')

cursor = conn.cursor()     

cursor.execute('SELECT TOP 10 * FROM LEDGERTRANS')


<pyodbc.Cursor at 0x1f0a34cf1b0>

In [4]:
for row in cursor:
    print (row)

('1010001', datetime.datetime(2011, 12, 31, 0, 0), 'APERTURA000001', 'Apertura Balance 2012', Decimal('-221454.290000000000'), Decimal('-221454.290000000000'), 'EUR', 0, '+', '+', '+', Decimal('0E-12'), datetime.datetime(2011, 12, 31, 0, 0), 'D000008', 0, 14, 0, 1, '', '', 1, 0, '', '', '', 0, '', '', 0, datetime.datetime(2012, 3, 22, 9, 29, 18), 'BDM', datetime.datetime(2012, 3, 22, 9, 29, 18), 37758, 'BDM', 5639570362, 'AAA', 1, 5637832385, '+', '+', '', 0, '', Decimal('0E-12'), 0, 0, 5637512139, 212, '', '', 0, 'APERTURA', '')
('1290001', datetime.datetime(2011, 12, 31, 0, 0), 'APERTURA000001', 'Apertura Balance 2012', Decimal('-37391.190000000000'), Decimal('-37391.190000000000'), 'EUR', 0, '+', '+', '+', Decimal('0E-12'), datetime.datetime(2011, 12, 31, 0, 0), 'D000008', 0, 14, 0, 1, '', '', 1, 0, '', '', '', 0, '', '', 0, datetime.datetime(2012, 3, 22, 9, 29, 18), 'BDM', datetime.datetime(2012, 3, 22, 9, 29, 18), 37758, 'BDM', 5639570362, 'AAA', 1, 5637832386, '+', '+', '', 0, ''

In [5]:
axConnection = axEngine.connect()
df = pd.io.sql.read_sql("SELECT COUNT(*) as recuento FROM LEDGERTRANS", axConnection)
chunkSize = int(df["recuento"]) + 1
axConnection.close()

OperationalError: (pyodbc.OperationalError) ('HYT00', '[HYT00] [unixODBC][Microsoft][ODBC Driver 13 for SQL Server]Login timeout expired (0) (SQLDriverConnect)')

In [3]:
## Procedimiento de importación de una entidad de CRM a un fichero CSV local

def ImportAXEntity(entityName, **optionalParameters): 
    
    # Ruta del fichero CSV, asumida en una subcarpeta "data" en la carpeta donde se ejecuta
    # y extensión .csv.gz porque se generará comprimido en formato GZIP
    
    csvFile = optionalParameters.get('csvFile', 'data/' + entityName + '.csv.gz')
    
    # Parámetro opcional con filtro a aplicar para restringir a registros activos de la entidad.
    # Por defecto es 'statecode = 0' al ser la condición que aplica a más entidades
    
    activeFilter = optionalParameters.get('activeFilter', 'statecode = 0')    
       
    # Parámetro opcional con el índice a aplicar al fichero CSV
    
    csvIndex = optionalParameters.get('csvIndex', None)
    if (csvIndex == None):
        csvIndex = str.lower(entityName + 'id')        
    
    # Parámetro opcional con el número de registros del bloque a recuperar de forma iterativa
    
    chunkSize = optionalParameters.get('chunkSize', None)
    if (chunkSize == None):
        # Si no viene de entrada ningún número de registros, no se limita, poniendo como alcance
        # el número total de filas de la tabla de la entidad original
        crmConnection = crmEngine.connect()
        df = pd.io.sql.read_sql("SELECT COUNT(*) as recuento FROM " + entityName, crmConnection)
        chunkSize = int(df["recuento"]) + 1
        crmConnection.close()
    else: 
        chunkSize = int(chunkSize)
    
    # Recuperación por base de datos de los registros de la entidad filtrados conforme 
    # a la condición de activo (si aplica) y a un número máximo de filas (si aplica)
    # en un DataFrame que vuelca al fichero CSV destino para la entidad
    
    crmConnection = crmEngine.connect()
    rowsPending = True
    offset = 0
    while rowsPending:
        sqlSentence = "WITH Results_SQL AS (SELECT "        
        sqlSentence += "*, ROW_NUMBER() OVER (ORDER BY " + csvIndex + ") as RowNum FROM " + entityName
        if (activeFilter != None):
            sqlSentence += " WHERE " + activeFilter
        sqlSentence += ") SELECT * FROM Results_SQL WHERE RowNum > " + str(offset) + " AND RowNum <=  " \
            + str(offset + chunkSize)        
        chunk = pd.io.sql.read_sql(sqlSentence, crmConnection)
        # Borramos columna auxiliar RowNum usada para ordenar por el índice
        del chunk["RowNum"]
        chunk.set_index(csvIndex, inplace = True)        
        if (offset == 0):            
            chunk.to_csv(csvFile, sep = ';', compression = 'gzip', quotechar='|', quoting=csv.QUOTE_MINIMAL, 
                 encoding = 'utf8', line_terminator = '\n\r')
        else:            
            chunk.to_csv(csvFile, sep = ';', compression = 'gzip', quotechar='|', quoting=csv.QUOTE_MINIMAL, 
                 encoding = 'utf8', mode= 'a', header = 'false', line_terminator = '\n\r')               
        offset += chunkSize
        if (len(chunk) < chunkSize):
            rowsPending = False            
        del chunk
    crmConnection.close()
        

In [4]:
## Procesamiento de la entidad BusinessUnit (Unidad de Negocio)

ImportCRMEntity('BusinessUnit', activeFilter = 'isdisabled = 0')

In [5]:
## Procesamiento de la entidad Contact (Persona)

ImportCRMEntity('Contact') #, chunkSize = '5000' )

In [6]:
## Procesamiento de la entidad IE_Admission (Solicitud de Admisión)

ImportCRMEntity('IE_Admission')

In [7]:
## Procesamiento de la entidad IE_Agrupation (Agrupaciones de Programas). 

## Aunque "Agrupation" no exista en inglés y debieran haber puesto otra traducción más oportuna como
## "Program Group", lo dejaramos así en Landing para preservar la nomenclatura original, pero en la 
## capa Process (o área de Staging) deberíamos normalizar esta denominación.

ImportCRMEntity('IE_Agrupation')

In [8]:
## Procesamiento de la entidad IE_ApplicationFAFellowship (Beca / Fellowship)

ImportCRMEntity('IE_ApplicationFAFellowship')

In [9]:
## Procesamiento de la entidad IE_Bonus (Bono)

ImportCRMEntity('IE_Bonus')

In [10]:
## Procesamiento de la entidad IE_Country (País)

ImportCRMEntity('IE_Country')

In [11]:
## Procesamiento de la entidad IE_DiscountsType (Tipo de Descuento)

## No se excluyen inactivos para darle carácter histórico y disponer de tipos de descuento que hayan
## sido aplicados en el pasado a becas o bonos, pero en la actualidad no se ofrezcan.

ImportCRMEntity('IE_DiscountsType', activeFilter = None)

In [12]:
## Procesamiento de la entidad IE_GeographicalArea (Área Geográfica)

ImportCRMEntity('IE_GeographicalArea')

In [13]:
## Procesamiento de la entidad IE_Grant (Solicitud de Ayuda Financiera / Scholarship)

ImportCRMEntity('IE_Grant')

In [14]:
## Procesamiento de la entidad IE_Loan (Préstamo)

ImportCRMEntity('IE_Loan')

In [15]:
## Procesamiento de la entidad relacional IE_IE_IESchool_IE_Program 
## (Asociación múltiple entre programas y escuelas)

## No se requiere filtro de activo pues no tiene campo de estado.

ImportCRMEntity('IE_IE_IESchool_IE_Program', activeFilter = None)


In [16]:
## Procesamiento de la entidad IE_IESchool (Escuela IE)

ImportCRMEntity('IE_IESchool')

In [17]:
## Procesamiento de la entidad IE_Nationality (Nacionalidad)

ImportCRMEntity('IE_Nationality')

In [18]:
## Procesamiento de la entidad relacional IE_NationalityPerson 
## (Asociación múltiple entre personas y nacionalidades, anexando cuando se puede un documento identificativo)

ImportCRMEntity('IE_NationalityPerson')

In [19]:
## Procesamiento de la entidad IE_Program (Programa)

## No se filtran programas activos pues en general necesitamos los programas con carácter histórico a fin
## de poder hacer análisis evolutivos o comparativos a lo largo del tiempo.
## Si en la capa de Process algún caso de uso requiriese limitar a activos, o comercializables, o atendiendo
## a otros criterios, se aplicarían en la transformación que los obtenga en esa otra capa para esa finalidad.

ImportCRMEntity('IE_Program', activeFilter = None)

In [20]:
## Procedamiento de la entidad IE_ProgramToProgramCore (equivalencia para el antiguo Sistema Plus)

ImportCRMEntity('IE_ProgramToProgramCore')

In [21]:
## Procesamiento de la entidad IE_ProgramType (Tipo de Programa)

## No se filtran tipos de programas activos para poder disponer de ellos con carácter histórico

ImportCRMEntity('IE_ProgramType', activeFilter = None)

In [22]:
## Procesamiento de la entidad Opportunity (Oportunidad / Interés en Programa)

## Limitado a 10000 registros hasta que se cambie el tipo de instancia y se pueda cargar todo en memoria.
## No se filtran registros activos pues el campo de estado no tiene un valor "Activo" para esta entidad
## sino que tiene tres posibles estados y ninguno de ellos lo podemos descartar en esta carga.

ImportCRMEntity('Opportunity', activeFilter = None) #, chunkSize = '5000')

In [23]:
## Procesamiento de la entidad Product (Producto o Convocatoria de un Programa)

## No se filtran productos activos pues en general necesitamos las convocatorias con carácter histórico.

ImportCRMEntity('Product', activeFilter = None)

In [24]:
## Procesamiento de StringMap (Catálogo de listas de valores y sus textos asociados)

## No se requiere filtro de activo pues no tiene campo de estado. 

ImportCRMEntity('StringMap', activeFilter = None)

In [25]:
## Procesamiento de la entidad Team (Equipo de Ventas)

## No se requiere filtro de activo pues no tiene campo de estado.

ImportCRMEntity('Team', activeFilter = None)

In [26]:
## Celda auxiliar de comprobación para cargar CSV y visualizar como DataFrame de pandas

##pd.read_csv('data/Team.csv.gz', sep = ';', compression = 'gzip', quotechar='|', quoting=csv.QUOTE_MINIMAL)

In [27]:
## Sincronización de carpeta local "data" con carpeta "crm" del bucket S3 iedatalakelanding
## Hace uso de AWSCLI (previamente instalado mediante la instrucción: sudo apt install awscli)

ingestionFinalDate = str(datetime.datetime.now())
os.system('aws s3 sync data s3://iedatalakelanding/crm --metadata ingestionprocess="' + ingestionProcess  
          + '",ingestionversion="' + ingestionVersion + '",ingestioninitialdate="' + ingestionInitialDate 
          + '",ingestionfinaldate="' + ingestionFinalDate + '",code="Ingest-CRM-Entities"');


In [28]:
## Borrado de la carpeta auxiliar "data" y todos los ficheros generados en ella
# shutil.rmtree('data')