# Link: https://www.datos.gov.co/Vivienda-Ciudad-y-Territorio/Subsidios-De-Vivienda-Asignados/h2yr-zfb2/about_data

## Se importan las librerías a usar

In [1]:
import pandas as pd

## Se importa la data

In [2]:
ruta = r'ORIGINAL_Subsidios_De_Vivienda_Asignados_20240824.csv'

data = pd.read_csv(ruta)

data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 79035 entries, 0 to 79034
Data columns (total 9 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   Departamento                  79035 non-null  object 
 1   Código Divipola Departamento  79035 non-null  int64  
 2   Municipio                     79035 non-null  object 
 3   Código Divipola Municipio     79035 non-null  int64  
 4   Programa                      79035 non-null  object 
 5   Año de Asignación             79035 non-null  int64  
 6   Estado de Postulación         79035 non-null  object 
 7   Hogares                       79035 non-null  int64  
 8   Valor Asignado                79035 non-null  float64
dtypes: float64(1), int64(4), object(4)
memory usage: 5.4+ MB


In [3]:
data.shape

(79035, 9)

## Se renombran las columnas en caso de ser necesario

In [4]:
# Se establece una nueva data como copia para ir salvaguardando los cambios
data1 = data.copy()

In [5]:
data1.head()

Unnamed: 0,Departamento,Código Divipola Departamento,Municipio,Código Divipola Municipio,Programa,Año de Asignación,Estado de Postulación,Hogares,Valor Asignado
0,AMAZONAS,91,LETICIA,91001,Bolsa Desastres Naturales,2008,Apto con subsidio vencido,37,336984900.0
1,AMAZONAS,91,LETICIA,91001,Bolsa Desplazados,2009,Asignados,3,18633750.0
2,AMAZONAS,91,LETICIA,91001,Bolsa Ordinaria,2003,Apto con subsidio vencido,1,5280000.0
3,AMAZONAS,91,LETICIA,91001,Bolsa Ordinaria,2003,Asignados,2,12049000.0
4,AMAZONAS,91,LETICIA,91001,Habilitación de Titulos,2005,Asignados,215,22790000.0


In [6]:
data1.columns

Index(['Departamento', 'Código Divipola Departamento', 'Municipio',
       'Código Divipola Municipio', 'Programa', 'Año de Asignación',
       'Estado de Postulación', 'Hogares', 'Valor Asignado'],
      dtype='object')

In [7]:
data1 = data1.rename(columns={
    'Departamento':                 'Departamento',
    'Código Divipola Departamento': 'Código_Departamento',
    'Municipio':                    'Municipio',
    'Código Divipola Municipio':    'Código_Municipio',
    'Programa':                     'Programa',
    'Año de Asignación':            'Año_Asignación',
    'Estado de Postulación':        'Estado_Postulación',
    'Hogares':                      'Hogares',
    'Valor Asignado':               'Valor_Asignado'
}
                     )

data1.columns


Index(['Departamento', 'Código_Departamento', 'Municipio', 'Código_Municipio',
       'Programa', 'Año_Asignación', 'Estado_Postulación', 'Hogares',
       'Valor_Asignado'],
      dtype='object')

## **Verifico del tipo de dato de los atributos**

In [8]:
data1.dtypes

Departamento            object
Código_Departamento      int64
Municipio               object
Código_Municipio         int64
Programa                object
Año_Asignación           int64
Estado_Postulación      object
Hogares                  int64
Valor_Asignado         float64
dtype: object

In [9]:
frecuenciaMunicipio = pd.value_counts(data1['Municipio'])

frecuenciaMunicipio.shape

  frecuenciaMunicipio = pd.value_counts(data1['Municipio'])


(985,)

In [10]:
frecuenciaMunicipio

Municipio
BOGOTÁ, D.C.          1843
SOLEDAD               1449
BARRANQUILLA          1384
IBAGUÉ                1371
SAN JOSÉ DE CÚCUTA    1364
                      ... 
PUERTO NARIÑO            1
CHÍQUIZA                 1
BAHÍA SOLANO             1
GUAYATÁ                  1
TARAIRA                  1
Name: count, Length: 985, dtype: int64

In [11]:
frecuenciafecha = pd.Series(data1['Año_Asignación']).value_counts()

frecuenciafecha

Año_Asignación
2021    10117
2022    10087
2020     7107
2018     6349
2019     5926
2017     5397
2016     5263
2023     4579
2024     3143
2010     3037
2015     2406
2008     2398
2009     2192
2011     2045
2007     1985
2006     1531
2004     1393
2005     1393
2003      934
2014      754
2012      562
2013      437
Name: count, dtype: int64

In [12]:
frecuenciafecha.shape

(22,)

In [13]:
frecuenciaprograma = pd.Series(data1['Programa']).value_counts()

frecuenciaprograma

Programa
MI CASA YA                                   46819
Bolsa Desplazados                             9215
Semillero de Propietarios Arriendo            4492
VIPA                                          3304
Programa Vivienda Gratuita Fase I             2580
Bolsa Esfuerzo Territorial                    2018
Semillero de Propietarios Ahorro              1666
Bolsa Ordinaria                               1350
Ahorro Programado Contractual                 1231
Programa Vivienda Gratuita Fase II            1038
Bolsa Concejales                              1030
Casa Digna Vida Digna                          841
Bolsa Atentados terroristas                    746
Bolsa Desastres Naturales                      745
Bolsa Saludable                                728
Bolsa unica Nacional                           367
Fenómeno de la Niña                            194
Macroproyecto                                  194
Bolsa Recicladores                             135
Habilitación de Titulo

In [14]:
frecuenciaprograma.shape

(25,)

In [15]:
frecuenciaPostulacion = pd.Series(data1['Estado_Postulación']).value_counts()

frecuenciaPostulacion

Estado_Postulación
Asignados                                                                       63070
Apto con subsidio vencido                                                        5620
Renuncias al subsidio                                                            4785
Asignado con aplicación en Vivienda Gratuita                                     1421
Renuncia con restitucion de subsidio                                             1218
Perdida de ejecutoriedad de asignación de SFV                                     947
Restitución SFV por Vencimiento Vigencia                                          605
Subsidio Revocado                                                                 342
Restitución SFV por Indemnización                                                 335
Restitucion de subsidios no aplicados                                             283
Subsidio revocado mediante procedimiento Administrativo Sancionatorio             243
Restitución SFV Cobro Directo Fiduc

In [16]:
frecuenciaPostulacion.shape

(26,)

In [17]:
frecuenciaHogares = pd.Series(data1['Hogares']).value_counts()

frecuenciaHogares

Hogares
1      32742
2      10946
3       5971
4       4013
5       2928
       ...  
338        1
680        1
462        1
251        1
384        1
Name: count, Length: 525, dtype: int64

In [18]:
frecuenciaHogares.shape

(525,)

## **Se exporta el archivo fact_Subsidios**

Este archivo es para poder usarlo como datos principales, en donde están todos los datos recopilados, el cual, se usará para poder duplicarlo y realizar el modelado para que el software de visualización, PowerBi, este más 'Ligero' en los procesos gráficos.

In [19]:
#data1.to_csv('fact_Subsidios.csv', index=False)

# **Edición de un nuevo dataframe a partir del data1**

Esto se hace con el fin de establecer los atributos específicos para su posterior trabajo

In [20]:
data1.columns

Index(['Departamento', 'Código_Departamento', 'Municipio', 'Código_Municipio',
       'Programa', 'Año_Asignación', 'Estado_Postulación', 'Hogares',
       'Valor_Asignado'],
      dtype='object')

In [21]:
data2 = data1.copy()

Atributos_requeridos = ['Departamento', 'Código_Departamento', 'Programa', 'Año_Asignación', 'Hogares', 'Valor_Asignado']

data2 = data2[Atributos_requeridos]

data2.head()

Unnamed: 0,Departamento,Código_Departamento,Programa,Año_Asignación,Hogares,Valor_Asignado
0,AMAZONAS,91,Bolsa Desastres Naturales,2008,37,336984900.0
1,AMAZONAS,91,Bolsa Desplazados,2009,3,18633750.0
2,AMAZONAS,91,Bolsa Ordinaria,2003,1,5280000.0
3,AMAZONAS,91,Bolsa Ordinaria,2003,2,12049000.0
4,AMAZONAS,91,Habilitación de Titulos,2005,215,22790000.0


In [22]:
frecuencia2Programa = pd.Series(data2['Programa']).value_counts()

frecuencia2Programa

Programa
MI CASA YA                                   46819
Bolsa Desplazados                             9215
Semillero de Propietarios Arriendo            4492
VIPA                                          3304
Programa Vivienda Gratuita Fase I             2580
Bolsa Esfuerzo Territorial                    2018
Semillero de Propietarios Ahorro              1666
Bolsa Ordinaria                               1350
Ahorro Programado Contractual                 1231
Programa Vivienda Gratuita Fase II            1038
Bolsa Concejales                              1030
Casa Digna Vida Digna                          841
Bolsa Atentados terroristas                    746
Bolsa Desastres Naturales                      745
Bolsa Saludable                                728
Bolsa unica Nacional                           367
Fenómeno de la Niña                            194
Macroproyecto                                  194
Bolsa Recicladores                             135
Habilitación de Titulo

In [23]:
# Se establece los códigos para cada uno de los programas

Código_ProgramaNuevo = {
'MI CASA YA':                                161,
'Bolsa Desplazados':                         162,
'Semillero de Propietarios Arriendo':        163,
'VIPA':                                      164,
'Programa Vivienda Gratuita Fase I':         165,
'Bolsa Esfuerzo Territorial':                166,
'Semillero de Propietarios Ahorro':          167,
'Bolsa Ordinaria':                           168,
'Ahorro Programado Contractual':             169,
'Programa Vivienda Gratuita Fase II':        170,
'Bolsa Concejales':                          171,
'Casa Digna Vida Digna':                     172,
'Bolsa Atentados terroristas':               173,
'Bolsa Desastres Naturales':                 174,
'Bolsa Saludable':                           175,
'Bolsa unica Nacional':                      176,
'Fenómeno de la Niña':                       177,
'Macroproyecto':                             178,
'Bolsa Recicladores':                        179,
'Habilitación de Titulos':                   180,
'Concurso de Esfuerzo Territorial Nacional': 181,
'Bolsa Única Mejoramiento':                  182,
'Sin clasificación':                         183,
'Subsidios en Especie y complementarios':    184,
'TUTELAS':                                   185,
}

# Se establece un mapeo del diccionario hacia un nuevo atributo
data2['Código_Programa'] = data2['Programa'].map(Código_ProgramaNuevo)

data2.head()

Unnamed: 0,Departamento,Código_Departamento,Programa,Año_Asignación,Hogares,Valor_Asignado,Código_Programa
0,AMAZONAS,91,Bolsa Desastres Naturales,2008,37,336984900.0,174
1,AMAZONAS,91,Bolsa Desplazados,2009,3,18633750.0,162
2,AMAZONAS,91,Bolsa Ordinaria,2003,1,5280000.0,168
3,AMAZONAS,91,Bolsa Ordinaria,2003,2,12049000.0,168
4,AMAZONAS,91,Habilitación de Titulos,2005,215,22790000.0,180


In [24]:
Ordenamiento_Atributos = [
    'Departamento',        #Atributo1
    'Código_Departamento', #Atributo2
    'Programa',            #Atributo3
    'Código_Programa',     #Atributo4
    'Año_Asignación',      #Atributo5
    'Hogares',             #Atributo6
    'Valor_Asignado'       #Atributo7
]

data3 = data2.copy()

data3 = data3[Ordenamiento_Atributos]

data3.head()

Unnamed: 0,Departamento,Código_Departamento,Programa,Código_Programa,Año_Asignación,Hogares,Valor_Asignado
0,AMAZONAS,91,Bolsa Desastres Naturales,174,2008,37,336984900.0
1,AMAZONAS,91,Bolsa Desplazados,162,2009,3,18633750.0
2,AMAZONAS,91,Bolsa Ordinaria,168,2003,1,5280000.0
3,AMAZONAS,91,Bolsa Ordinaria,168,2003,2,12049000.0
4,AMAZONAS,91,Habilitación de Titulos,180,2005,215,22790000.0


In [25]:
data3.shape

(79035, 7)

# **Se exporta el archivo Inferencia**

Este archivo es para poder realizar las inferencias con los atributos previamente seleccionados

In [26]:
#data3.to_csv('Inferencia.csv', index=False)