# **Maestría en Inteligencia Artificial Aplicada**

# Fundamentos de Bases de Datos

*Materia: Ciencia y Analítica de Datos*

*Profesor: Jobish Vallikavungal*

*A01273800 José Eduardo Arteaga Valdés*

*A01793499 Diego Fernando Guerra Burgos*

---

# **Parte 1: Fundamentos de Bases de Datos**

1. Fundamentos de bases de datos y para ciencia de datos.

En primer lugar, se debe definir lo que es una base de datos. La base de datos es un programa de computadora (o la nube) dentro del cual se almacenan datos de una manera estructurada (generalmente en filas y columnas para datos estructurados). Otra característica de la base de datos es que pueda ser accesible a través de un programa informático para se pueda realizar estudios y análisis sobre la misma 
Dentro de la ciencia de datos, la base de datos es la pieza fundamental e importante para cualquier proyecto, principalmente, porque aquí están los datos que se van a utilizar/transformar para el análisis del proyecto. Gran parte del trabajo del científico de datos está centrado en las bases de datos. El científico de datos debe acceder y conocer a profundidad la base de datos para saber qué tipo de datos están almacenados, cuáles son de utilidad para el proyecto y cómo resolver el problema de información que falta (NA values) dentro de la base. También porque el científico de datos puede identificar nuevas variables que puede transformar y crear nuevas bases de datos que serán utilizadas en otras partes del proyecto (en especial cuando existe un modelo, se crearon 3 tipos de bases de datos para examinar su desempeño).    

2. Fundamentos de almacenes de datos (Data Warehouse) para ciencia de datos.

Los Data Warehouses actúan como una gran base de datos que recaba información de diferentes canales. Es decir, es una herramienta de centralización de datos. Por ejemplo, una agencia de mercadotecnia podría recibir información de sus prospectos vía mail, un formulario web, datos de redes sociales o datos de Google ads. Por ello mismo, conlleva dos retos importantes: primero, el de normalizar todos los registros en un formato único y estándar, sin perder información; y segundo, el de contar con la fuerza computacional necesaria para la gran cantidad de datos. En relación al segundo reto, se cuenta con dos tipos de Warehouses (o de manera de procesar los datos en un Warehouse):

**ETL = Extract, Transform & Load**
> Primero, se extraen los datos de una fuente de información. Después se transforman (normalizan) al formato ideal y se terminan por cargar en el Data Warehouse.

> La desventaja: la etapa de Transform se realiza offline. Por lo que, a más datos, mayor tiempo y recursos necesarios para procesarse. Puede ser un proceso lento.

**ELT = Extract, Load & Transform**
> Primero, se extraen los datos de una fuente de información. Se cargan tal como están (raw) a un intermediario con el Data Warehouse. Y una vez cargados, se usa una herramienta como Hadoop(1) para transformarlos.

> La ventaja: Hadoop acelera el proceso de transformar los datos ya que no se realiza offline - se utiliza el poder del cloud computing. *“Once again, you first extract your raw data, but then we're going to load it into the data warehouse system itself as is. And, then use the power of the data warehouse, which might be built on Hadoop, to do that transformation as the third step.”* (Kane, 2017).

(1) *“Hadoop es una estructura de software de código abierto para almacenar datos y ejecutar aplicaciones en clústeres de hardware comercial. Proporciona almacenamiento masivo para cualquier tipo de datos, enorme poder de procesamiento y la capacidad de procesar tareas o trabajos concurrentes virtualmente ilimitados.”* (sas, 2022) 

 



# **Parte 2: Selección y limpieza de los Datos en Python**



In [None]:
# importamos las librerias necesarias para la limpieza
import pandas as pd
import numpy as np

Cargamos la base de datos que vamos a utilizar para el ejercicio (en este paso cambiar el path a donde se encuentre el archivo en la computadora de quien ejecute el código)

In [None]:
df = pd.read_csv('C:/Users/DIEGO/Desktop/Outsider Picks/Actividad/default of credit card clients.csv', index_col=0)

Creamos una lista que contiene los nombres de las columnas establecidas en la descripcion

In [None]:
column_names = ['credit_given', 'gender', 'education', 'marital_status', 'age', 'payment_status_sep_05', 'payment_status_aug_05',
                'payment_status_jul_05', 'payment_status_jun_05', 'payment_status_may_05', 'payment_status_apr_05', 'bill_statement_sep_05',
                'bill_statement_aug_05', 'bill_statement_jul_05', 'bill_statement_jun_05', 'bill_statement_may_05', 'bill_statement_apr_05',
                'previous_statement_sep_05', 'previous_statement_aug_05', 'previous_statement_jul_05', 'previous_statement_jun_05', 'previous_statement_may_05',
                'previous_statement_apr_05', 'default']

#procedemos a cambiar los nombres de las columnas en nuestro df con la lista que cree
df.columns = column_names

Buscamos si existen valores faltantes en la base

In [None]:
df.isna().values.any()

#Dado que nos regresa True, buscamos por columna
df.isna().any()

#Contamos todos los valores restantes por columna para saber cuantos datos podríamos perder si decidimos eliminar los NA
df.isna().sum()

Observando estos resultados, en las variables categóricas (gender, education, marital_status y default) se puede eliminar los NA dado que no se pueden determinar con otros métodos y son pocos datos en relación al total.
También se puede eliminar los NA de las variables de payment_status que representan el número de meses que no se ha generado pagos

In [None]:
payment_status_columns = [string for string in column_names if 'payment_status' in string]
clean_df = df.copy()
clean_df.dropna(subset = ['gender', 'education', 'marital_status', 'default'], inplace = True)
clean_df.dropna(subset= payment_status_columns, inplace = True)
print (df.shape[0] - clean_df.shape[0], 'filas han sido eliminadas por NA en variables categóricas')

Una vez que eliminamos los valores faltantes, nos aseguramos que cumplan con el formato establecido en la descripción por ejemplo, gender puede ser 1 o 2 (no puede tener decimales)

In [None]:
filas_iniciales = clean_df.shape[0]

clean_df = clean_df[(clean_df['gender'] == 1) | (clean_df['gender'] == 2)]

#education solamente puede tener valores de 1, 2, 3 y 4
clean_df = clean_df[(clean_df['education'] == 1) | (clean_df['education'] == 2)| (clean_df['education'] == 3) | (clean_df['education'] == 4)]

#marital_status solo puede tener valores de 1,2 y 3
clean_df = clean_df[(clean_df['marital_status'] == 1) | (clean_df['marital_status'] == 2) | (clean_df['marital_status'] == 3)]

#default solo puede tener valores binarios 1 y 0
clean_df = clean_df[(clean_df['default'] == 1) | (clean_df['default'] == 0)]

filas_finales = clean_df.shape[0]
print ('Se eliminó', filas_iniciales-filas_finales, 'registros que contenían formatos incorrectos de variables categóricas')

Ahora que tenemos una base de datos con todas las variables categóricas sin NA arreglemos los NA en edad utilizando la media de la edad de toda nuestra población.

In [None]:
clean_df['age'].fillna(value = clean_df.age.mean(), inplace = True)
#comprobamos que no existan NA después de nustro arreglo
if clean_df.age.isna().any() == False:
    print ('No hay valores NA en la columna age')
else:
    print ('fill NA con media de age no funcionó')

#ya que el promedio puede tener decimales y la edad no puede tener valores decimales, convertimos la columna a integer
clean_df = clean_df.astype({'age':'int'})

Solamente nos quedan las variables de información mensual de los pagos y estados de cuenta de cada cliente
Tenemos 18 columnas que representan 6 meses de información
Para esto utlizaremos el método Treshold
En primer lugar eliminaremos todas las filas que tengan info faltante en más de la mitad de estas 18 columnas

In [None]:
filas_iniciales = clean_df.shape[0]
clean_df.dropna(thresh=9, inplace = True)
filas_finales = clean_df.shape[0]
print ('Se eliminó', filas_iniciales-filas_finales, 'registros')



De esta manera obtenemos que existen pocos valores NA (máximo 6) en el resto de columnas, así que decidimos eliminar estas columnas de nuestra base
No utilizamos promedio o media porque cada statement es específico para cada cliente.

In [None]:
filas_iniciales = clean_df.shape[0]
clean_df.dropna(inplace = True)
filas_finales = clean_df.shape[0]
print ('Se eliminó', filas_iniciales-filas_finales, 'registros de NA en columnas de statement')

Comprobamos que no existen valores NA en mi base

In [None]:
clean_df.isna().values.any()

Imprimimos un reporte de los valores eliminados en el proceso de limpieza

In [None]:
print('Se eliminaron', df.shape[0] - clean_df.shape[0], 'registros en el proceso de limpieza de datos')

# **Parte 3: Preparación de los datos**

Con base en los resultados de tu libreta de Google Colab de la Parte 2 responde detalladamente las siguientes preguntas: 

1. **¿Qué datos considero más importantes? ¿Por qué?**

Los datos más importantes son las 18 columnas que reflejan información de los estados de cuenta de los 6 meses que estamos analizando en esta base al igual que el valor del crédito que se otorgó a cada cliente. Son los más importantes porque contienen la información del comportamiento de los pagos del consumidor y junto con la variable Default podemos determinar qué tipo de comportamientos pueden llevar a que un cliente no sea creíble (pueda caer en default).  

2. **¿Se eliminaron o reemplazaron datos nulos? ¿Qué se hizo y por qué?**

Se eliminaron y reemplazaron datos nulos. 

En primer lugar, eliminamos los datos nulos de las variables categóricas, por 2 razones, eran pocos valores en relación con el total de la base (5 en total) y al ser variables de categoría no existe forma de determinar sus valores con funciones matemáticas (media, mediana, moda, min, max, etc..). También eliminamos los datos de estas variables que reflejaban valores fuera de su descripción, por ejemplo, en la columna education existían filas que contenían valores 5 o 6 y la descripción de la base de datos establecía que esta variable solamente podía reflejar valores 1, 2, 3 y 4.  Esto se aplicó en 10 columnas (gender, education, marital_status, default y las 6 columnas de payment_status) 

En segundo lugar, reemplazamos datos nulos en la columna de edad con el promedio de la población y posteriormente se cambiaron los valores a enteros (integer). 

Tras este proceso de eliminación y reemplazo, se procedió a eliminar los restantes valores NA de la base por 2 razones:

* Representaban un valor muy bajo sobre la base (14 de 30000)
* No se podía reemplazar con otros valores como media o mediana porque cada valor era específico para cada cliente (un promedio resultaría atípico).

3. **¿Es necesario limpiar los datos para el análisis? Sí / No / ¿Por qué?**

Si es necesario limpiar los datos para el análisis porque los datos atípicos pueden generar ruido sobre el modelo de predicción. De igual manera, se debe asegurar que los datos se encuentren en el formato adecuado y sean datos de las categorías establecidas porque un dato fuera de categoría afectaría la predicción del modelo. 

4. **¿Existen problemas de formato que deban solucionar antes del proceso de modelado? Sí / No / Por qué.**

Si en la variable de education. En la descripción de la base de datos se establece que la variable education solamente puede tomar valores de 1, 2, 3, 4 y existen valores mayores a 4 que no pueden ser determinados. Estamos hablando de variables categóricas o binarias, si existe un valor que no corresponda a esas categorías, se genera ruido en los parámetros del modelo, lo que podría restar significancia estadística a una variable o una predicción incorrecta si estos datos se encuentran fuera del formato establecido. De igual manera, estas variables deben ser valores enteros (integer). 

5. **¿Qué ajustes se realizaron en el proceso de limpieza de datos (agregar, integrar, eliminar, modificar registros (filas), cambiar atributos (columnas)?**

* En primer lugar, cambiamos los nombres de las columnas. En la base de datos las columnas venían denominadas Xi (i representando el índice de la columna). Utilizamos la información de la descripción de la base para cambiar el nombre de las columnas a las etiquetas correctas para saber exactamente qué variable estamos observando para así poder determinar qué hacer para limpiar los datos de esa columna. 
* Se eliminaron registros de las variables categóricas que presentaban valores NA (detallado en la pregunta 2).
* Se eliminaron valores de variables categóricas que se encontraban fuera de la descripción de la base de datos (en 10 columnas). 
* Se reemplazó los datos nulos de la columna ‘age’ con el promedio de la edad de población.
* Se convirtió los valores de age a enteros (integer)
* Se eliminaron registros que tenían NA en más de la mitad de las columnas relacionadas a Statement.
* Se eliminaron el resto de los valores NA de la base (era un valor marginal en relación con la base de datos por lo cual su exclusión no tendría impacto sobre el modelo). 
 
---


# **Referencias**


* Kane, F. (2017). Hands-On Data Science and Python Machine Learning. Packt Publishing Recuperado el 2 de octubre de 2022, de: https://newoutlook.it/download/python/hands-on-data-science.pdf

*   Metwalli, S. (2020). Databases 101: Introduction to Databases for Data Scientists. Towards Data Science. https://towardsdatascience.com/databases-101-introduction-to-databases-for-data-scientists-ee18c9f0785d

* Sas. (2022). Hadoop ¿Qué es y por qué es importante?. Recuperado el 2 de octubre de 2022, de: https://www.sas.com/es_mx/insights/big-data/hadoop.html 