## Parte 1: Fundamentos de bases de datos

### Bases de datos y para ciencia de datos:

Las bases de datos son el medio a través del cual  se almacenan, y se disponibilizan para su consulta, conjuntos de datos estructurados.  Normalmente, cuentan con información relacionada de manera lógica y con una adminitración central y estandarizada de cada una de sus tablas, para poder conectarlas en un ambito de negocio. Las bases de datos son de gran importancia para la ciencia de datos, dado que suelen ser la fuente más usada de consulta de información en la mayoría de las organizaciones.

###  Data Warehouse para ciencia de datos:

Los Data Warehouse son grandes repositorios que consolidan e integran información de las diferentes fuentes y bases de datos de una compañía, con el objetivo particular de facilitar su extracción para procesos de Visualización y Ciencia de datos. Estos se enceuntran optimizados para hacer más eficientes los procesos de uso de la información y no solo su almacenamiento. Cobran relevancia para la Ciencia de datos, ya que es el tipo de infraestructura al cuál estan migrando las grandes empresas, al notar que las bases de datos tradicionales no son suficientes a medida que crecen los volúmenes y fuentes de información.


## Parte 2: Selección y limpieza de los Datos en Python

In [3]:
import pandas as pd
import numpy as np

In [4]:
data_inicial = pd.read_csv('https://raw.githubusercontent.com/PosgradoMNA/Actividades_Aprendizaje-/main/default%20of%20credit%20card%20clients.csv')

Revisemos primero que información contiene el data set

In [5]:
data_inicial.head()

Unnamed: 0,ID,X1,X2,X3,X4,X5,X6,X7,X8,X9,...,X15,X16,X17,X18,X19,X20,X21,X22,X23,Y
0,1,20000,2.0,2.0,1.0,24.0,2.0,2.0,-1.0,-1.0,...,0.0,0.0,0.0,0.0,689.0,0.0,0.0,0.0,0.0,1.0
1,2,120000,2.0,2.0,2.0,26.0,-1.0,2.0,0.0,0.0,...,3272.0,3455.0,3261.0,0.0,1000.0,1000.0,1000.0,0.0,2000.0,1.0
2,3,90000,2.0,2.0,2.0,34.0,0.0,0.0,0.0,0.0,...,14331.0,14948.0,15549.0,1518.0,1500.0,1000.0,1000.0,1000.0,5000.0,0.0
3,4,50000,2.0,2.0,1.0,37.0,0.0,0.0,0.0,0.0,...,28314.0,28959.0,29547.0,2000.0,2019.0,1200.0,1100.0,1069.0,1000.0,0.0
4,5,50000,1.0,2.0,1.0,57.0,-1.0,0.0,-1.0,0.0,...,20940.0,19146.0,19131.0,2000.0,36681.0,10000.0,9000.0,689.0,679.0,0.0


Vemos que las columnas no son muy informativas por lo cual será mejor cambiarles el nombre con base en el diccionario

In [17]:
## Generar los nombres de las columnas

def create_list(word,number):
    lista = []
    for i in range(1,number+1):
        lista.append(word +str(i))
    return lista

repayment_list = create_list('repayment',6)
bill_list = create_list('bill_amount',6)
payment_list = create_list('payment_amount',6)


column_names = ['id','credit_amount','gender','education','marital_status','age'] + repayment_list + bill_list +payment_list +['default']

## Hacer una copia del data frame para tener el original disponible
data_trans = data_inicial.copy()
data_trans.columns = column_names 
data_trans.head()

Unnamed: 0,id,credit_amount,gender,education,marital_status,age,repayment1,repayment2,repayment3,repayment4,...,bill_amount4,bill_amount5,bill_amount6,payment_amount1,payment_amount2,payment_amount3,payment_amount4,payment_amount5,payment_amount6,default
0,1,20000,2.0,2.0,1.0,24.0,2.0,2.0,-1.0,-1.0,...,0.0,0.0,0.0,0.0,689.0,0.0,0.0,0.0,0.0,1.0
1,2,120000,2.0,2.0,2.0,26.0,-1.0,2.0,0.0,0.0,...,3272.0,3455.0,3261.0,0.0,1000.0,1000.0,1000.0,0.0,2000.0,1.0
2,3,90000,2.0,2.0,2.0,34.0,0.0,0.0,0.0,0.0,...,14331.0,14948.0,15549.0,1518.0,1500.0,1000.0,1000.0,1000.0,5000.0,0.0
3,4,50000,2.0,2.0,1.0,37.0,0.0,0.0,0.0,0.0,...,28314.0,28959.0,29547.0,2000.0,2019.0,1200.0,1100.0,1069.0,1000.0,0.0
4,5,50000,1.0,2.0,1.0,57.0,-1.0,0.0,-1.0,0.0,...,20940.0,19146.0,19131.0,2000.0,36681.0,10000.0,9000.0,689.0,679.0,0.0


Ahora revisemos que tipo de datos tenemos

In [20]:
data_trans.dtypes

id                   int64
credit_amount        int64
gender             float64
education          float64
marital_status     float64
age                float64
repayment1         float64
repayment2         float64
repayment3         float64
repayment4         float64
repayment5         float64
repayment6         float64
bill_amount1       float64
bill_amount2       float64
bill_amount3       float64
bill_amount4       float64
bill_amount5       float64
bill_amount6       float64
payment_amount1    float64
payment_amount2    float64
payment_amount3    float64
payment_amount4    float64
payment_amount5    float64
payment_amount6    float64
default            float64
dtype: object

Todas las variables fueron cargadas como numéricas. Sin embargo al leer el diccionario vemos hay algunas de ellas que son realmente categoricas u ordinales, por lo cual tendremos que tener esto en cuenta al realizar procesos como imputación.
De igual manera las dejaremos como numericas, ya que la mayoría de los procesos de ML solo nos reciben variables numericas, no strings ni fechas.

Ahora veamos cuantos N/A tenemos por variable

In [23]:
data_trans.isna().sum()

id                  0
credit_amount       0
gender              1
education           2
marital_status      2
age                 5
repayment1          3
repayment2          5
repayment3          7
repayment4          9
repayment5         16
repayment6         14
bill_amount1       11
bill_amount2       11
bill_amount3       13
bill_amount4       15
bill_amount5       17
bill_amount6       10
payment_amount1     8
payment_amount2     9
payment_amount3     8
payment_amount4    11
payment_amount5    11
payment_amount6     5
default             3
dtype: int64

Vemos que los NA son muy pocos, pero revisemoslos a mayor profundidad para ver su estructura

In [34]:
data_trans[data_trans.isna().any(axis=1)]

Unnamed: 0,id,credit_amount,gender,education,marital_status,age,repayment1,repayment2,repayment3,repayment4,...,bill_amount4,bill_amount5,bill_amount6,payment_amount1,payment_amount2,payment_amount3,payment_amount4,payment_amount5,payment_amount6,default
18,19,360000,2.0,1.0,1.0,49.0,1.0,-2.0,-2.0,-2.0,...,,,,0.0,0.0,0.0,0.0,0.0,0.0,0.0
38,39,50000,1.0,1.0,2.0,25.0,1.0,-1.0,-1.0,-2.0,...,0.0,0.0,,780.0,0.0,0.0,0.0,0.0,0.0,1.0
49,50,20000,1.0,1.0,2.0,24.0,0.0,0.0,0.0,0.0,...,19865.0,20480.0,20063.0,1318.0,1315.0,704.0,928.0,912.0,1069.0,0.0
64,65,130000,2.0,2.0,1.0,51.0,-1.0,-1.0,-2.0,-2.0,...,0.0,2353.0,0.0,0.0,,0.0,2353.0,0.0,0.0,0.0
160,161,30000,1.0,1.0,2.0,41.0,2.0,2.0,2.0,,...,28168.0,27579.0,28321.0,3500.0,0.0,2200.0,,1200.0,1250.0,0.0
173,174,50000,2.0,1.0,2.0,24.0,1.0,-2.0,-2.0,-2.0,...,-2898.0,-3272.0,-3272.0,0.0,0.0,0.0,,0.0,0.0,1.0
175,176,130000,1.0,3.0,1.0,56.0,1.0,2.0,2.0,2.0,...,68557.0,,71345.0,3000.0,3000.0,3000.0,5500.0,0.0,0.0,1.0
182,183,500000,2.0,1.0,1.0,,0.0,0.0,0.0,0.0,...,122967.0,108834.0,70064.0,70010.0,30357.0,30000.0,20000.0,52183.0,20000.0,0.0
219,220,310000,2.0,1.0,2.0,,-1.0,-1.0,-1.0,-1.0,...,0.0,0.0,0.0,4542.0,126.0,0.0,0.0,0.0,0.0,0.0
233,234,190000,1.0,2.0,2.0,34.0,2.0,0.0,0.0,0.0,...,142323.0,140120.0,150052.0,5000.0,5000.0,10000.0,0.0,12118.0,2769.0,1.0


Vemos que hay algunos registros que solo tienen un NA, pero otros tienen varios. En estos ultimos no sería conveniente realizar una imputación, dado que estaríamos "inventando" gran parte de la información de ese registro. Por lo tanto vamos a eliminar las filas que tengan más de 2 NA.

In [45]:
data_trans = data_trans.dropna(thresh=(len(data_trans.columns)-2))

Ahora revisemos nuevamente con cuantos NA quedamos por variable

In [48]:
data_trans.isna().sum()

id                 0
credit_amount      0
gender             0
education          0
marital_status     0
age                3
repayment1         0
repayment2         0
repayment3         2
repayment4         4
repayment5         8
repayment6         6
bill_amount1       0
bill_amount2       0
bill_amount3       1
bill_amount4       3
bill_amount5       5
bill_amount6       1
payment_amount1    0
payment_amount2    1
payment_amount3    0
payment_amount4    3
payment_amount5    3
payment_amount6    2
default            0
dtype: int64

Como vemos, todos los na que tenemos corresponden a variables numericas, por lo cual los reemplazaremos por la mediana

In [50]:
mask_nas = data_trans.isna().any(axis=1)
data_trans[column_names ] = data_trans[column_names ].fillna(data_trans[column_names ].median())

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self[k1] = value[k2]


Para finalizar revisemos que si se haya reemplazado cada na por la mediana de su respectiva columna

In [51]:
data_trans[mask_nas]

Unnamed: 0,id,credit_amount,gender,education,marital_status,age,repayment1,repayment2,repayment3,repayment4,...,bill_amount4,bill_amount5,bill_amount6,payment_amount1,payment_amount2,payment_amount3,payment_amount4,payment_amount5,payment_amount6,default
38,39,50000,1.0,1.0,2.0,25.0,1.0,-1.0,-1.0,-2.0,...,0.0,0.0,17077.0,780.0,0.0,0.0,0.0,0.0,0.0,1.0
49,50,20000,1.0,1.0,2.0,24.0,0.0,0.0,0.0,0.0,...,19865.0,20480.0,20063.0,1318.0,1315.0,704.0,928.0,912.0,1069.0,0.0
64,65,130000,2.0,2.0,1.0,51.0,-1.0,-1.0,-2.0,-2.0,...,0.0,2353.0,0.0,0.0,2009.0,0.0,2353.0,0.0,0.0,0.0
160,161,30000,1.0,1.0,2.0,41.0,2.0,2.0,2.0,0.0,...,28168.0,27579.0,28321.0,3500.0,0.0,2200.0,1500.0,1200.0,1250.0,0.0
173,174,50000,2.0,1.0,2.0,24.0,1.0,-2.0,-2.0,-2.0,...,-2898.0,-3272.0,-3272.0,0.0,0.0,0.0,1500.0,0.0,0.0,1.0
175,176,130000,1.0,3.0,1.0,56.0,1.0,2.0,2.0,2.0,...,68557.0,18107.0,71345.0,3000.0,3000.0,3000.0,5500.0,0.0,0.0,1.0
182,183,500000,2.0,1.0,1.0,34.0,0.0,0.0,0.0,0.0,...,122967.0,108834.0,70064.0,70010.0,30357.0,30000.0,20000.0,52183.0,20000.0,0.0
219,220,310000,2.0,1.0,2.0,34.0,-1.0,-1.0,-1.0,-1.0,...,0.0,0.0,0.0,4542.0,126.0,0.0,0.0,0.0,0.0,0.0
233,234,190000,1.0,2.0,2.0,34.0,2.0,0.0,0.0,0.0,...,142323.0,140120.0,150052.0,5000.0,5000.0,10000.0,0.0,12118.0,2769.0,1.0
239,240,140000,2.0,2.0,3.0,34.0,0.0,0.0,0.0,0.0,...,19068.0,16409.0,16383.0,3000.0,2000.0,2198.0,1000.0,3000.0,2399.0,1.0


## Parte 3: Preparación de los datos

- ¿Se eliminaron o reemplazaron datos nulos? ¿Qué se hizo y por qué?
Consideré importante no mantener registros que tuvieran más de 2 NA, dado que al dejarlos e imputarlos tendrían una gran cantidad de información no real. Lo cuál sería sesgar la información según una manipulación particular y esto podría afectar los modelos posteriores.


- ¿Es necesario ordenar los datos para el análisis? Sí / No / ¿Por qué?
No, porque no se trata de una serie de tiempo. En este Data set, según lo que se entiende en la información brindada, los registros son independientes por lo cual ordenarlos no agregaría ningún tipo de valor.


- ¿Existen problemas de formato que deban solucionar antes del proceso de modelado? Sí / No / Por qué.
En general la data está bien, dado que todas las variables están en tipo numérico y este el tipo de formato que se requiere para realizar analisis estadisticos y entrenar modelos. Lo que habría que evaluar posteriormente, con base en el resultado de un analisis estadistico, es si algunas de las variables categoricas se deben pasar a dummies para poder entrenar los modelos o si se dejan como variables ordinales. Sin embargo, en este punto, es mejor mantenerlas como están para facilitar la manipulación en todo el proceso de analisis.


- ¿Qué ajustes se realizaron en el proceso de limpieza de datos (agregar, integrar, eliminar, modificar registros (filas), cambiar atributos (columnas)?
Se cambió el nombre de las columnas para facilitar su entendimiento. 
No se integraron porque no hay otra fuente con la que integrar hasta el momento.
No se agregaron datos porque no habría unas bases sobre las cuales hacerlo. 
Se eliminarón los registros que tuvieran más de 2 NA, dado que al dejarlos e imputarlos tendrían una gran cantidad de información no real.
Se modificaron los registros que tuvieran menos de 3 NA, reemplezandolos con la mediana de esa variable. DAdo que el % de NA es muy bajo esto no tendrá mucho impacto en los analisis posteriores.
No se alteraron las variables, ya que esto solo se puede hacer despues de un analisis estadistico profundo, no en una etapa de preparacion de datos.


- ¿Qué datos considero mas importantes? ¿Por qué?
Esta pregunta es improcedente en este punto, ya que para determinar que datos o variables son más importantes habría que realizar un analisis estadistico profundo y aun no llegamos a ese punto.