# Predicción de cuotas de Amortización de una casa

## Entendimiento del Negocio

### Panorama General del Negocio

### Objetivo del Negocio:
Encontrar predicciones acerca de las cuotas de amortización del hogar pagadas por un ciudadano colombiano, y extraer información acerca de los factores de importancia que afectan esta cuota.

### Preguntas del Negocio:
¿Cuánto paga un hogar colombiano promedio por cuotas de amortización de vivienda?

¿Qué variables socioeconómicas y demográficas influyen más en el valor de la cuota de amortización?

¿Podemos predecir la cuota mensual de amortización de vivienda de un hogar colombiano a partir de su información socioeconómica?

### Éxito del negocio
Los criterios de éxito serán el predecir con una métrica de error poco significativa la cuota de amortización del hogar pagada por tenientes de hogares colombianos.

### Riesgos del negocio
Un posible riesgo del negocio, es el mal uso de información por parte del DANE, el registro de información sensible de índole monetaria que podría ser falsa, y riesgos técnicos y de uso como el overfitting, o la mala utilización del modelo por terceros.

### Limitaciones del negocio.
Las limitaciones del negocio se deben a la falta de datos, ya que gran proporción del conjunto de datos cuenta con muchos vacíos. Se debe hacer un filtro a algunos vacíos, especialmente en la columna de amortización, ya que es la variable más importante del modelo. Otra limitación puede ser el hecho de no saber la ubicación de la casa donde se encuentra la propiedad. 

### Metas de la minería de datos

El propósito del dataset es de recopilar información acerca de la tenencia y financiación de las viviendas de la población colombiana, sin embargo al alinearlo con nuestro objetivo de negocio se extrajo la información relevante acerca de la cuota de amortización de la vivienda. 

Se extrajeron 25 columnas, sin embargo algunas de estas no se usarán para el modelo.

### Plan proyecto

In [1]:
import pandas as pd 
import numpy as np


In [2]:
df = pd.read_excel("Tenencia y financiación de la vivienda que ocupa el hogar.xlsx")
df

Unnamed: 0,DIRECTORIO,SECUENCIA_ENCUESTA,SECUENCIA_P,ORDEN,FEX_C,P5095,P5100,P3197,P5120,P8692,...,P5110,P5130,P5140,P3006,P5650,P5160,P5160S1,P5160S1A1,P5160S2,P5160S2A1
0,8219789,1,1,1,651.298866,1,,2.0,2.0,,...,120000000.0,750000.0,,,0,2,,,,
1,8219790,1,1,1,487.104165,3,,,,,...,,,750000.0,2.0,1000,2,,,,
2,8219791,1,1,1,496.652233,3,,,,,...,,,750000.0,2.0,0,2,,,,
3,8219792,1,1,1,419.823502,3,,,,,...,,,460000.0,1.0,0,2,,,,
4,8219793,1,1,1,518.428829,3,,,,,...,,,760000.0,2.0,0,2,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
85382,8369526,1,1,1,5.894914,6,,,,,...,,99.0,,,0,2,,,,
85383,8369527,1,1,1,7.368643,6,,,,,...,,99.0,,,0,2,,,,
85384,8369528,1,1,1,10.109078,6,,,,,...,,99.0,,,0,2,,,,
85385,8369529,1,1,1,6.239633,6,,,,,...,,99.0,,,99,2,,,,


In [3]:
df = df.replace("NaN", "")

In [4]:
df

Unnamed: 0,DIRECTORIO,SECUENCIA_ENCUESTA,SECUENCIA_P,ORDEN,FEX_C,P5095,P5100,P3197,P5120,P8692,...,P5110,P5130,P5140,P3006,P5650,P5160,P5160S1,P5160S1A1,P5160S2,P5160S2A1
0,8219789,1,1,1,651.298866,1,,2.0,2.0,,...,120000000.0,750000.0,,,0,2,,,,
1,8219790,1,1,1,487.104165,3,,,,,...,,,750000.0,2.0,1000,2,,,,
2,8219791,1,1,1,496.652233,3,,,,,...,,,750000.0,2.0,0,2,,,,
3,8219792,1,1,1,419.823502,3,,,,,...,,,460000.0,1.0,0,2,,,,
4,8219793,1,1,1,518.428829,3,,,,,...,,,760000.0,2.0,0,2,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
85382,8369526,1,1,1,5.894914,6,,,,,...,,99.0,,,0,2,,,,
85383,8369527,1,1,1,7.368643,6,,,,,...,,99.0,,,0,2,,,,
85384,8369528,1,1,1,10.109078,6,,,,,...,,99.0,,,0,2,,,,
85385,8369529,1,1,1,6.239633,6,,,,,...,,99.0,,,99,2,,,,


In [5]:
df.isnull().sum()

DIRECTORIO                0
SECUENCIA_ENCUESTA        0
SECUENCIA_P               0
ORDEN                     0
FEX_C                     0
P5095                     0
P5100                 83862
P3197                 50857
P5120                 50857
P8692                 64218
P8692S1A1             68533
P8692S2               82103
P5610                 50857
P5610S1               66144
P8693                 50857
P5110                 50857
P5130                 24577
P5140                 60810
P3006                 60810
P5650                     0
P5160                     0
P5160S1               84919
P5160S1A1             85041
P5160S2               84919
P5160S2A1             85208
dtype: int64

In [6]:
df = df.dropna(subset = ['P5100'])
df.shape

(1525, 25)

In [7]:
df.isnull().sum()

DIRECTORIO               0
SECUENCIA_ENCUESTA       0
SECUENCIA_P              0
ORDEN                    0
FEX_C                    0
P5095                    0
P5100                    0
P3197                    0
P5120                    0
P8692                  589
P8692S1A1              895
P8692S2               1265
P5610                    0
P5610S1                373
P8693                    0
P5110                    0
P5130                    0
P5140                 1525
P3006                 1525
P5650                    0
P5160                    0
P5160S1               1508
P5160S1A1             1512
P5160S2               1508
P5160S2A1             1520
dtype: int64

In [8]:
df.head()

Unnamed: 0,DIRECTORIO,SECUENCIA_ENCUESTA,SECUENCIA_P,ORDEN,FEX_C,P5095,P5100,P3197,P5120,P8692,...,P5110,P5130,P5140,P3006,P5650,P5160,P5160S1,P5160S1A1,P5160S2,P5160S2A1
6,8219795,1,1,1,433.688555,2,600000.0,1.0,1.0,1.0,...,95000000.0,700000.0,,,0,2,,,,
62,8219861,1,1,1,207.338276,2,1376000.0,1.0,1.0,2.0,...,440000000.0,2200000.0,,,271000,2,,,,
64,8219863,1,1,1,198.561165,2,2500000.0,1.0,2.0,,...,500000000.0,2500000.0,,,400000,2,,,,
65,8219864,1,1,1,207.338276,2,4000000.0,1.0,2.0,,...,500000000.0,2500000.0,,,274000,2,,,,
129,8219944,1,1,1,466.789516,2,270000.0,2.0,2.0,,...,180000000.0,750000.0,,,153000,2,,,,
