#### **Actividad 1 Semana 3 - Ciencia de Datos**

**Integrantes:**

- Rafael J. Mateo C: A01793054
- Matthias Sibrian: A01794249 

#### **1. Fundamentos de Base de Datos**

**1. Fundamentos de bases de datos y para ciencia de datos.** 

Conceptualmente, una base de datos es un repositorio estructurado de información que se utiliza para guardar datos en un formato definido y utilizable. Esta puede estar en un servidor o en la nube, que no es más que una colección de servidores accesibles a través del Internet. Para guardar información en ella, se debe elaborar procesos que conviertan la información en un formato utilizable, comúnmente a través de algún lenguaje definido, tal como SQL. 

Dependiendo de la manera en que estructuran la información, pueden ser relacionales (SQL) o no-relacionales (NoSQL). Para ambos escenarios, comúnmente se sigue el paradigma ETL (Extract, Transform, Load) para administrar la información en ellas. Por ejemplo, para las bases de datos operacionales, en donde algún proceso ingresa información a través de algún aplicativo, procesos ETL transforman la información desde y hacia el modelo de información propio de la base de datos.

Esta es la manera menos moderna de realizar analítica sobre bases de datos, pues descansa sobre el hecho que la data necesita ser transformada a exactitud para guardarse en muchos servidores locales dispersos. Además, comúnmente no se separan las bases de datos operativas de las utilizadas para analítica, lo cual tiene un costo operativo significativo. 

**2. Fundamentos de almacenes de datos (Data Warehouse) para ciencia de datos.**

Un ‘data warehouse’ es una solución más robusta para optimizar la accesibilidad y disponibilidad de datos almacenados en una organización. Un data warehouse es una serie de bases de datos en donde se guarda datos específicamente curados para llevar a cabo procesos analíticos. Para crearla, se combinan distintas bases de datos con una estructura de operación definida y optimizada. De manera similar, un ‘data lake’ es un repositorio para data estructurada y no estructurada. Tanto un data lake como un data warehouse puede estar compuesto de colecciones de bases de datos relacionales y no relacionales.

Adicionalmente, es importante entender que, en una solución donde se involucre un data lake o un data warehouse, comúnmente se emplea el paradigma ELT (Extract, Transform, Load). Esencialmente, en este esquema, se utiliza un clúster NoSQL de almacenamiento para realizar transformaciones de data necesarias, dependiendo del consumo que se le dará. Primero, se ingesta la data hacia una plataforma clusterizada, tal como Hive sobre Hadoop, en una forma muy poco procesada. Luego, se transforma de distintas maneras previo a su consumo en procesos analíticos, e incluso se puede volver a transformar y guardar en algún otro data warehouse o publicar en el mismo data lake.

**Fuentes consultadas:**

Kane, F. (2017). Hands-on data science and python machine learning. Packt Publishing Ltd. Consultado el 3 de octubre del 2022 en https://learning.oreilly.com/library/view/sql-for-data/9781119669364/c01.xhtml#head-2-15.

Metwalli, S. (2020). Databases 101: Introduction to Databases for Data Scientists. Towards Data Science. Consultado el 3 de octubre del 2022 en https://towardsdatascience.com/databases-101-introduction-to-databases-for-data-scientists-ee18c9f0785d.


#### **2. Selección y Limpieza de los Datos**

In [1]:
import pandas as pd
import numpy as np

Primero, comencemos cargando los datos del csv y revisando su estructura.

In [2]:
df = pd.read_csv("dataset.csv")
df.head()

Unnamed: 0,ID,X1,X2,X3,X4,X5,X6,X7,X8,X9,...,X15,X16,X17,X18,X19,X20,X21,X22,X23,Y
0,1,20000,2.0,2.0,1.0,24.0,2.0,2.0,-1.0,-1.0,...,0.0,0.0,0.0,0.0,689.0,0.0,0.0,0.0,0.0,1.0
1,2,120000,2.0,2.0,2.0,26.0,-1.0,2.0,0.0,0.0,...,3272.0,3455.0,3261.0,0.0,1000.0,1000.0,1000.0,0.0,2000.0,1.0
2,3,90000,2.0,2.0,2.0,34.0,0.0,0.0,0.0,0.0,...,14331.0,14948.0,15549.0,1518.0,1500.0,1000.0,1000.0,1000.0,5000.0,0.0
3,4,50000,2.0,2.0,1.0,37.0,0.0,0.0,0.0,0.0,...,28314.0,28959.0,29547.0,2000.0,2019.0,1200.0,1100.0,1069.0,1000.0,0.0
4,5,50000,1.0,2.0,1.0,57.0,-1.0,0.0,-1.0,0.0,...,20940.0,19146.0,19131.0,2000.0,36681.0,10000.0,9000.0,689.0,679.0,0.0


Ahora los tipos de datos con los cuales contamos, así como el total de filas y columnas.

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30000 entries, 0 to 29999
Data columns (total 25 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   ID      30000 non-null  int64  
 1   X1      30000 non-null  int64  
 2   X2      29999 non-null  float64
 3   X3      29998 non-null  float64
 4   X4      29998 non-null  float64
 5   X5      29995 non-null  float64
 6   X6      29997 non-null  float64
 7   X7      29995 non-null  float64
 8   X8      29993 non-null  float64
 9   X9      29991 non-null  float64
 10  X10     29984 non-null  float64
 11  X11     29986 non-null  float64
 12  X12     29989 non-null  float64
 13  X13     29989 non-null  float64
 14  X14     29987 non-null  float64
 15  X15     29985 non-null  float64
 16  X16     29983 non-null  float64
 17  X17     29990 non-null  float64
 18  X18     29992 non-null  float64
 19  X19     29991 non-null  float64
 20  X20     29992 non-null  float64
 21  X21     29989 non-null  float64
 22

A continuación revisamos la presencia de valores vacíos en el conjunto de datos

In [4]:
df.isna().values.any()

True

En el código siguiente revisamos cuáles de las columnas tiene datos vacíos. Como se observa, todas las columnas (a excepción de la columna X1) cuentan con valores vacíos.

In [5]:
df.isna().any()

ID     False
X1     False
X2      True
X3      True
X4      True
X5      True
X6      True
X7      True
X8      True
X9      True
X10     True
X11     True
X12     True
X13     True
X14     True
X15     True
X16     True
X17     True
X18     True
X19     True
X20     True
X21     True
X22     True
X23     True
Y       True
dtype: bool

Ahora nos interesa saber cuántas filas dentro del conjunto de datos no tienen todos los datos completos. Esta información es útil para saber si tendría un impacto muy alto eliminar esas filas.

In [7]:
df.shape[0] - df.dropna().shape[0]

42

En el resultado anterior podemos observar que solo 42 filas, de un total de 30,000, tienen datos vacíos. Esto significa apenas un 0.14% del total, por lo que eliminarlos no tendría un impacto muy alto.

Debido a lo anterior, ahora procedemos a eliminar las filas con valores vacíos.

In [8]:
df_copy = df.copy() #copiamos los datos para no manipular los originales
df_copy.dropna(inplace=True)

In [9]:
df_copy.shape

(29958, 25)

Ahora revisemos la consistencia de los datos, verificando que cada columna tenga los valores que le corresponde.

In [10]:
attrs = ["X2", "X3", "X4"]
attr_count = {}

for attr in attrs:
    attr_count[attr] = df_copy[[attr]].value_counts()
    

pd.DataFrame(attr_count)

Unnamed: 0,X2,X3,X4
0.0,,14,54.0
1.0,11863.0,10572,13643.0
2.0,18095.0,14009,15939.0
3.0,,4909,322.0
4.0,,123,
5.0,,280,
6.0,,51,


De la tabla anterior se puede observar lo siguiente:

* La variable X2 (Género) solo tiene valores 1 y 2, lo cual es de esperarse según la información de los metadatos.
* La variable X3 (Educación) tiene valores desde 0 hasta 6, cuando el rango esperado es de 1 a 4.
* La variable X4 (Estado marital) tiene valores que van del 0 al 3, cuando el rango debe ser de 1 a 3.

Ahora revisemos cuantos registros tienen tienen información incorrecta:

In [11]:
df_copy.shape[0] - df_copy.drop(df_copy[(df_copy.X3 > 4) | (df_copy.X3 == 0) | (df_copy.X4 == 0)].index).shape[0]

399

Como se observa en el paso anterior, un total de 399 registros tienen información incorrecta. Como apenas representa cerca de un 1% del total de los datos, se procederá a eliminarlos.

In [12]:
df_copy.drop(df_copy[(df_copy.X3 > 4) | (df_copy.X3 == 0) | (df_copy.X4 == 0)].index, inplace=True)
df_copy.shape

(29559, 25)

Luego de eliminados los datos, nos restan un total de 29,559 registros de los 30,000. Esto equivale al 98.53% de los datos.

A continuación revisaremos la columna de las edades para verificar si la información es correcta.

In [13]:
df_copy.X5.describe()

count    29559.000000
mean        35.461957
std          9.209596
min         21.000000
25%         28.000000
50%         34.000000
75%         41.000000
max         79.000000
Name: X5, dtype: float64

De la información anterior se observa que la columna de edad tiene valores esperados. Por ejemplo, el valor mínimo es de 21, lo cual hace sentido ya que para obtener una tarjeta de crédito debe ser mayor de edad. También se observa que el valor máximo es 79 años, lo cual está dentro del rango de vida esperado para una persona.

Ahora revisemos las variables X6 hasta X11, los cuales representan el histórico de pagos pasados. Según la información de los metadatos, la escala de posibles valores para este conjunto de datos debe ir desde -1 hasta 9, excluyendo el 0.

In [14]:
attrs = ["X6", "X7", "X8", "X9", "X10", "X11"]
attr_count = {}

for attr in attrs:
    attr_count[attr] = df_copy[[attr]].value_counts()
    

pd.DataFrame(attr_count)

Unnamed: 0,X6,X7,X8,X9,X10,X11
-2.0,2707,3718,4024,4282,4474.0,4801.0
-1.0,5627,5982,5855,5611,5474.0,5665.0
0.0,14479,15455,15496,16180,16662.0,16033.0
1.0,3652,28,4,2,,
2.0,2635,3895,3794,3137,2609.0,2750.0
3.0,320,326,237,179,177.0,182.0
4.0,76,97,76,69,84.0,49.0
5.0,24,25,21,35,17.0,13.0
6.0,11,12,23,5,4.0,18.0
7.0,9,20,27,57,57.0,46.0


De la información anterior se observa que hay muchos valores fuera de la escala permitida. Por ejemplo, todas las columnas tienen valores de -2 y 0, cuando la escala no permite estos valores. Debido a la cantidad de registros con información errónea (un pooco más de 50%), no se recomienda reemplazar o eliminar valores. 

La mejor estrategia a seguir en este caso es revisar el método de recolección de información, o bien, consultar con algún experto en el tema sobre la posibilidad de hacer sustituciones (por ejemplo, considerar -2 y 0 como -1).

Ahora revisemos las variables X12 a X17, las cuales representan el estado de cuenta por mes.

In [15]:
attrs = ["X12", "X13", "X14", "X15", "X16", "X17"]
stats_df = pd.DataFrame(columns = attrs)

for attr in attrs:
    stats_df[attr] = df_copy[[attr]].describe()
    
stats_df

Unnamed: 0,X12,X13,X14,X15,X16,X17
count,29559.0,29559.0,29559.0,29559.0,29559.0,29559.0
mean,50982.177814,48963.560743,46822.4,43138.962313,40253.258365,38876.84147
std,73409.715123,70961.804952,69160.09,64228.552285,60728.731274,59549.029384
min,-165580.0,-69777.0,-157264.0,-170000.0,-81334.0,-339603.0
25%,3528.0,2969.0,2652.0,2329.0,1778.5,1278.0
50%,22241.0,21044.0,20033.0,19000.0,18091.0,17112.0
75%,66671.5,63575.0,59844.5,54277.5,50090.5,49153.5
max,964511.0,983931.0,1664089.0,891586.0,927171.0,961664.0


De los datos anteriores se observan valores negativos. Esto podría indicar saldo a favor del cliente de la tarjeta. Sin embargo, es recomendable consultar con un experto en el tema sobre el significado de los valores negativos.

Ahora hagamos lo mismo para las variables X18 a X23, las cuales representan el monto pagado en el periodo anterior.

In [16]:
attrs = ["X18", "X19", "X20", "X21", "X22", "X23"]
stats_df = pd.DataFrame(columns = attrs)

for attr in attrs:
    stats_df[attr] = df_copy[[attr]].describe()
    
stats_df

Unnamed: 0,X18,X19,X20,X21,X22,X23
count,29559.0,29559.0,29559.0,29559.0,29559.0,29559.0
mean,5650.588315,5899.364,5201.162725,4832.510877,4797.148753,5186.553537
std,16573.889188,23104.55,17591.414381,15721.273274,15251.530482,17668.852466
min,0.0,0.0,0.0,0.0,0.0,0.0
25%,1000.0,827.0,390.0,298.5,259.0,138.0
50%,2100.0,2007.0,1800.0,1500.0,1500.0,1500.0
75%,5005.0,5000.0,4500.0,4016.0,4055.5,4000.0
max,873552.0,1684259.0,896040.0,621000.0,426529.0,528666.0


Para las variables anteriores no se observan valores anormales o que deban ser revisados.

#### **3. Preparación de los Datos** 

**1. ¿Qué datos considero mas importantes? ¿Por qué?**

Debido a que aún no existe información sobre la relación de las diferentes variables con la probabilidad de default, se consideraron todos los datos igual de importantes. Aún no sabemos cuál de estas variables es o no significativa para la predicción de la variable de respuesta.

Se podría considerar correr algunas pruebas estadísticas exploratorias para determinar que tan estrecha es la relación de cada atributo con la variable de respuesta, y en función de eso determinar si alguna vale o no la pena eliminar del conjunto de datos.

**2. ¿Se eliminaron o reemplazaron los datos nulos? ¿Qué se hizo y por qué?**

Los datos nulos fueron eliminados debido a que eran muy pocos (apenas 42 registros de 30,000). Eliminar esos registros no impactará considerablemente al momento de usar el dataset.

**3. ¿Es necesario ordenar los datos para el análisis? Sí / No / ¿Por qué?**

Si, es necesario limpiar los datos previo al análisis. Como dice el dicho "Basura entra, basura sale". 

Lo anterior significa que si tenemos datos que no han sido limpiados previamente, el modelo que obtengamos no será adecuado, y por tanto los resultados que obtengamos del análisis de estos datos no serán adecuados. Todo esto provocará que las decisiones que tomemos no sean confiables.

Con relación a contar con un orden específico de los datos, esto no es necesario para el análisis, puesto que el orden no afecta los resultados del análisis. El orden tiene un impacto solo para el cálculo de la mediana.

**4. ¿Existen problemas de formato que deban solucionar antes del proceso de modelado? Sí / No / Por qué.**

Si. Por ejemplo, las columnas X2 a X4 contienen valores erróneos. También pasa lo mismo con las columnas X6 a X11. Estos problemas deben solucionarse antes de crear el modelo, puesto que de no hacerse el algortimo estaría aprendiendo sobre datos erróneos.

En el caso de las columnas X2 a X4, la cantidad de filas afectadas no son muchas y pueden eliminarse. Pero para las columnas X6 a X11 la cantidad de filas es considerable, por lo que es necesario revisar estos datos con un experto de dominio para definir la mejor estrategia a seguir.

Otro aspecto a destacar es que existen columnas de variables categóricas que se están importando como variables continuas. Previo al modelado es importante convertir estas columnas a un tipo de dato categórico.

**5. ¿Qué ajustes se realizaron en el proceso de limpieza de datos (agregar, integrar, eliminar, modificar registros (filas), cambiar atributos (columnas)?**

Se realizaron las siguientes acciones:

* Se eliminaron las filas con datos erróneos para las columnas X2 a X4, por representar apenas un 1% del total del conjunto de datos.
* Se eliminaron las filas con valores vacíos, por solo representar apenas un 0.15% del total del conjunto de datos.
* Se recomienda consultar con expertos de dominio sobre los valores erróneos para las columnas X6 a X11 para determinar la mejor forma de proceder (por ejemplo, sustituir los datos, obtener nuevos datos, etc)
* Se recomienda consultar con expertos de dominios el significado de los valores negativos para las variables X12 a X17.