# Tutorial: Integración de fuentes

## 1. Introducción
    ¿Qué aprenderá?
        En  este tutorial  aprenderá la  importancia  de  integrar  fuentes de datos,  además  de distintas estrategias de integración y problemas comunes que surgen al intentar hacerlo.

    ¿Para qué?
        En proyectos de analítica es común tener que buscar e integrar fuentes de datos externas para cumplir con los objetivos analíticos y enriquecer los análisis. 
     
     ¿Qué necesita?
        1. Python 3 con pip instalado
        2. Jupyter notebook
        3. Paquetes: Pyspark (3.0.1)
        4. Controlador MariaDB JDBC 2.5.3
        5. Archivos CSV "Customers.csv" y "CustomersTransactions.csv" 

## 2.Búsqueda de nuevas fuentes de datos

El proceso de integración y búsqueda de fuentes está intrínsecamente ligado con el correcto entendimiento de los procesos de negocio relacionados, pues no solo es necesario entender el negocio para proponer análisis útiles que puedan beneficiarse de fuentes externas, sino que también es por medio del correcto entendimiento de los procesos de negocios, las partes y los actores relacionados al mismo, que podrá identificar posibles entidades u organizaciones que pueden tener información útil. De acuerdo con esto, hay varios lugares dentro de los cuales se puede realizar una búsqueda de fuentes, estos incluyen:

<ol>
<li>
<b>Portales gubernamentales de datos abiertos:</b> Muchos gobiernos, tanto nacionales como departamentales o estatales, ponen a disposición del  público datos de interés general, como es el caso del gobierno de los Estados Unidos con su página https://www.data.gov/ o del gobierno colombiano con https://datos.gov.co/
</li>
<li>
<b>Datos de indicadores poblacionales o económicos:</b> Es posible encontrar datos de indicadores poblacionales o económicos en varios países   generados por sus departamentos estadísticos. En Colombia, por ejemplo, el DANE(https://www.dane.gov.co/) publica datos de censos e indicadores económicos.
</li>
<li>
<b>Datos de  entes  reguladores:</b> De acuerdo con el país y la regulación que aplique al proyecto, es posible que exista un ente regulador relacionado con el sector económico en el que se desempeña la organización y que, en muchos casos, tiene información pública del  sector. En Colombia,  por  ejemplo, la Aerocivil regula la aviación civil  y,  por  lo  tanto, publica información sobre vuelos, destinos, entre otros: http://www.aerocivil.gov.co/atencion/estadisticas-de-las-actividades-aeronauticas/bases-de-datos.
</li>
<li>
<b>Datos   en   otras   dependencias   de   la   empresa: </b>Las formas como las distintas organizaciones administran su información varían drásticamente. Sin embargo, no es poco común encontrarse con organizaciones donde la información se encuentra compartimentada según líneas burocráticas o dependencias internas. Por lo tanto, vale la pena explorar qué datos, en posesión de distintas dependencias, podrían ser útiles para el proyecto.
</li>
</ol>

## 3. Estrategias  para  la  integración  de  fuentes  de datos

Una vez determinadas y conseguidas las fuentes de datos que podrían ser de utilidad para el proyecto, es importante ser capaz de integrarlas y, de este modo, poder enriquecer los análisis. La integración de fuentes, sin embargo, no siempre es tan sencilla, pues no es poco común contar con  información redundante, llaves  primarias  en  distintos  formatos,  entre otros. Deben, entonces, identificarse posibles causas de inconsistencias  y, asimismo, tomar acciones para solucionarlas y mitigarlas.

Antes de intentar realizar el cruce de  las  fuentes, es importante explorar los campos que se quieren utilizar para esta integración y determinar si es necesario realizar algún proceso previo de estandarización y corrección. Por lo tanto, se recomienda seguir los siguientes pasos:
<ol>
<li>
Revise que los valores faltantes tengan el mismo formato. Si es  necesario, estandarice los valores para que los faltantes sean iguales en todas  las fuentes. Por ejemplo, en alguna fuente podrían tener valores nulos, cadenas con el valor “NULL”, valores como cero, entre otros. 
</li>
<li>
Revise si tiene campos que podrían tener diferentes formatos en las dos fuentes y, si este es el caso, estandarícelos. <br>
Algunos ejemplos: 
    <ul>
    <li>
    Fechas  en  distintos  formatos, por  ejemplo,  encontrarse  fechas  en  formato <i>año-mes-día</i> en una fuente y </i>día/mes/año</i> en otra
    </li>
    <li>
    Números telefónicos o de documentos: según el país, los números telefónicos o números de documentos podrían tener puntos, guiones, espacios u otros separadores entre ellos. En Colombia, por ejemplo, es común que algunas fuentes escriban los números de cédulas de ciudadanía con puntos denotando los miles, por ejemplo 1.234.567.890.
    </li>
    <li>
    Si está lidiando con campos de texto, debe tener especial cuidado, pues las variaciones que se pueden presentar son múltiples. Revise la forma como los campos manejan las mayúsculas, las tildes y acentos, los espacios, los caracteres especiales y la puntuación. Podría también ser necesario utilizar métricas, como la distancia de Hamming, para determinar similitud entre dos cadenas de caracteres.
    </li>
    </ul>
</li>
<li>
Revise si existe  algún estándar  dado  por  terceros para  sus campos y,  si  es  el  caso, adóptelos. Comúnmente encontrará estos estándares dados por entes gubernamentales, entes reguladores y similares. Es importante tener una adecuada comprensión de los procesos de negocio involucrados en el proyecto para, así, poder identificar estos entes. Por ejemplo, para las direcciones en Colombia existe un estándar establecido por el Departamento Administrativo de Catastro Distrital. De manera semejante, existe, para los municipios del país, el código de identificación Divipola.
</li>
</ol>

Una vez realizada la estandarización y corrección de los datos, puede realizar la integración de las fuentes. Una vez integradas, debe revisar el resultado y, si lo determina necesario, repetir el proceso de corrección y estandarización con los nuevos problemas identificados

## 4. Ejemplo

Suponga que tiene dos tablas, <i>Customers</i> y <i>CustomerTransactions</i>, que quiere integrar. El código que se muestra a continuación ilustra el proceso requerido para la integración, el cual inicia con la carga de estas tablas a partir de los archivos ".csv". Estos archivos ya están cargados en ./data. Puedes verificar su existencia, haciendo clic en el logo de Jupyter ubicado en la esquina superior izquierda.

In [1]:
from pyspark.sql import SparkSession
from pyspark import SparkContext, SparkConf, SQLContext
from pyspark.sql import functions as f
import os 
path_jar_driver = 'C:\Program Files (x86)\MySQL\Connector J 8.0\mysql-connector-java-8.0.28.jar'

#Configuración de la sesión
conf=SparkConf() \
    .set('spark.driver.extraClassPath', path_jar_driver)

spark_context = SparkContext(conf=conf)
sql_context = SQLContext(spark_context)
spark = sql_context.sparkSession

df_customers = spark.read.options(header='True', inferSchema='True', delimiter=',').format('csv').load('./data/Customers.csv')
df_customer_transactions = spark.read.options(header='True', inferSchema='True', delimiter=',').format('csv').load('./data/CustomerTransactions.csv')

### 4.1 Campos de ID diferentes
Como podrá observar por las columnas, ambas tablas tienen el campo <i>CustomerID</i>

In [2]:
from pprint import pprint
pprint("Columnas Customers:" + str(df_customers.columns))
print('------------------------------------------------------------------------')
pprint("Columnas CustomerTransaction:" + str(df_customer_transactions.columns))

("Columnas Customers:['CustomerID', 'CustomerName', 'BillToCustomerID', "
 "'CustomerCategoryID', 'BuyingGroupID', 'PrimaryContactPersonID', "
 "'AlternateContactPersonID', 'DeliveryMethodID', 'DeliveryCityID', "
 "'PostalCityID', 'CreditLimit', 'AccountOpenedDate', "
 "'StandardDiscountPercentage', 'IsStatementSent', 'IsOnCreditHold', "
 "'PaymentDays', 'PhoneNumber', 'FaxNumber', 'DeliveryRun', 'RunPosition', "
 "'WebsiteURL', 'DeliveryAddressLine1', 'DeliveryAddressLine2', "
 "'DeliveryPostalCode', 'DeliveryLocation', 'PostalAddressLine1', "
 "'PostalAddressLine2', 'PostalPostalCode', 'LastEditedBy', 'ValidFrom', "
 "'ValidTo']")
------------------------------------------------------------------------
("Columnas CustomerTransaction:['CustomerTransactionID', 'CustomerID', "
 "'TransactionTypeID', 'InvoiceID', 'PaymentMethodID', 'TransactionDate', "
 "'AmountExcludingTax', 'TaxAmount', 'TransactionAmount', "
 "'OutstandingBalance', 'IsFinalized']")


Sin embargo, si explora este campo en cada una de las tablas, notará que, en realidad, manejan formatos diferentes:

In [3]:
print("CustomerId en Customers:")
df_customers.select('CustomerID').show()
print("CustomerId en CustomerTransactions:")
df_customer_transactions.select('CustomerID').show()

CustomerId en Customers:
+----------+
|CustomerID|
+----------+
|         1|
|         2|
|         3|
|         4|
|         5|
|         6|
|         7|
|         8|
|         9|
|        10|
|        11|
|        12|
|        13|
|        14|
|        15|
|        16|
|        17|
|        18|
|        19|
|        20|
+----------+
only showing top 20 rows

CustomerId en CustomerTransactions:
+----------+
|CustomerID|
+----------+
|     832-3|
|     803-1|
|     6-Jan|
|     4-Jan|
|    905-10|
|     976-2|
|     401-5|
|     964-7|
|    10-Jan|
|    10-Jan|
|     401-7|
|     401-5|
|     401-1|
|     870-1|
|     991-4|
|     401-1|
|     910-9|
|     949-4|
|    973-10|
|     884-3|
+----------+
only showing top 20 rows



Como puede observar, en la tabla <i>Customer Transactions</i>, los ids parecen tener algún tipo de dígito de verificación al final, denotado por el guión. Aunque este es un ejemplo simple, encontrar inconsistencias en fuentes que guardan el dígito de verificación de un id y fuentes que no lo hacen, es muy común en el caso de los números de identicación tributaria (NIT) en Colombia.

Se debe, entonces, quitar el número de verificación, esto se realizará utilizando la función <i>split</i>, que permite dividir una cadena de caracteres. Adicionalmente, se convertirá el tipo de la columna resultante a entero.

In [4]:
df_customer_transactions = df_customer_transactions.withColumn('CustomerID', f.split(df_customer_transactions['CustomerID'], '-').getItem(0).cast('int'))

Ahora, los identificadores se encuentran corregidos:

In [5]:
print("CustomerId en CustomerTransactions:")
df_customer_transactions.select('CustomerID').show()

CustomerId en CustomerTransactions:
+----------+
|CustomerID|
+----------+
|       832|
|       803|
|         6|
|         4|
|       905|
|       976|
|       401|
|       964|
|        10|
|        10|
|       401|
|       401|
|       401|
|       870|
|       991|
|       401|
|       910|
|       949|
|       973|
|       884|
+----------+
only showing top 20 rows



### 4.2 Fechas con distintos formatos

Si explora más los datos a integrar, observará que las dos tablas manejan formatos de fechas diferentes:

In [6]:
print("Fechas en Customers:")
df_customers.select('ValidFrom').show()
print("Fechas en CustomerTransactions:")
df_customer_transactions.select('TransactionDate').show()

Fechas en Customers:
+--------------------+
|           ValidFrom|
+--------------------+
|2013-01-01 00:00:...|
|2013-01-01 00:00:...|
|2013-01-01 00:00:...|
|2013-01-01 00:00:...|
|2013-01-01 00:00:...|
|2013-01-01 00:00:...|
|2013-01-01 00:00:...|
|2013-01-01 00:00:...|
|2013-01-01 00:00:...|
|2013-01-01 00:00:...|
|2013-01-01 00:00:...|
|2013-01-01 00:00:...|
|2013-01-01 00:00:...|
|2013-01-01 00:00:...|
|2013-01-01 00:00:...|
|2013-01-01 00:00:...|
|2013-01-01 00:00:...|
|2013-01-01 00:00:...|
|2013-01-01 00:00:...|
|2013-01-01 00:00:...|
+--------------------+
only showing top 20 rows

Fechas en CustomerTransactions:
+---------------+
|TransactionDate|
+---------------+
|       1/1/2013|
|       1/1/2013|
|       1/1/2013|
|       1/1/2013|
|       1/1/2013|
|       1/1/2013|
|       1/1/2013|
|       1/1/2013|
|       1/1/2013|
|       1/1/2013|
|       1/1/2013|
|       1/1/2013|
|       1/1/2013|
|       1/1/2013|
|       1/1/2013|
|       1/1/2013|
|       1/1/2013|
|       1

Mientras que <i>Customers</i> maneja un formato <i>yyyy-MM-dd HH:mm:ss</i>, <i>Customer Transactions</i> tiene sus fechas en formato <i>d/M/yyyy</i>. Se debe, entonces, ajustar el formato de fechas de <i>CustomerTransactions</i>, para esto se utiliza la función <i>to_timestamp</i>

In [7]:
df_customer_transactions = df_customer_transactions.withColumn('TransactionDate', f.to_timestamp(df_customer_transactions['TransactionDate'], "d/M/yyyy"))

df_customer_transactions.show()

+---------------------+----------+-----------------+---------+---------------+-------------------+------------------+---------+-----------------+------------------+-----------+
|CustomerTransactionID|CustomerID|TransactionTypeID|InvoiceID|PaymentMethodID|    TransactionDate|AmountExcludingTax|TaxAmount|TransactionAmount|OutstandingBalance|IsFinalized|
+---------------------+----------+-----------------+---------+---------------+-------------------+------------------+---------+-----------------+------------------+-----------+
|                    2|       832|                1|        1|            N/A|2013-01-01 00:00:00|            2300.0|    345.0|           2645.0|               0.0|          1|
|                    5|       803|                1|        2|            N/A|2013-01-01 00:00:00|             405.0|    60.75|           465.75|               0.0|          1|
|                    7|         6|                1|        3|            N/A|2013-01-01 00:00:00|              90.

## 5. Ejercicio

Como puede ver en los datos de <i>CustomerTransactions</i>, la columna <i>PaymentMethodID</i>  contiene cadenas de caracteres "N/A" en lugar de valores nulos. Convierta los "N/A" a nulos, remueva los valores nulos e integre esta fuente con Customers. El DataFrame final deberá tener 17660331 registros en total.

## 6. Cierre 
Completado este tutorial, ya tiene una noción de cómo buscar fuentes de datos extra para enriquecer sus análisis, a qué tipos de problemas podría enfrentarse al hacer la integración y algunas estrategias que puede usar para realizarla.

In [8]:
spark.stop()