# **DEEP LEARNING**

**UNIVERSIDAD MILITAR NUEVA GRANADA**

**Análisis del Dataset de Predios - Municipio de Boyacá**

Alejandro Mejia Rojas


## Importación de Librerías

In [1]:
import numpy as np
import pandas as pd

## Lectura del dataset

In [2]:
# Guardar la ruta del archivo.csv 
archivo_csv = 'attachments/data.csv'

# Cargar el dataset en un DataFrame
df = pd.read_csv(archivo_csv)

# Mostrar las primeras 5 filas del DataFrame
df.head()


Unnamed: 0,Codigo,Vereda,Dirección,Avaluo,Predial
0,10001000,1,SAN ISIDRO VDA HUERTAS CHICA,6810000,151040000000000000000000000000
1,10002000,1,LA ESPERANZA VDA HUERTA CHICA,9200000,151040000000000000000000000000
2,10003000,1,LA VEGA SANTA CATALINA VDA HUERTA,8011000,151040000000000000000000000000
3,10003000,1,LA VEGA SANTA CATALINA VDA HUERTA,8011000,151040000000000000000000000000
4,10003000,1,LA VEGA SANTA CATALINA VDA HUERTA,8011000,151040000000000000000000000000


## Limpieza del dataset

### Eliminar filas con valores nulos

In [3]:
df_limpio = df.dropna()

# Mostrar información del DataFrame limpio para verificar
df_limpio.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8631 entries, 0 to 8630
Data columns (total 5 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   Codigo     8631 non-null   int64 
 1   Vereda     8631 non-null   int64 
 2   Dirección  8631 non-null   object
 3   Avaluo     8631 non-null   int64 
 4   Predial    8631 non-null   object
dtypes: int64(3), object(2)
memory usage: 337.3+ KB


### Eliminacion o descarte de columnas irrelevantes

In [5]:
#Seleccionar las columnas a eliminar por nombre
columnas_irrelevantes = ['Dirección'] 
df_limpio = df_limpio.drop(columns=columnas_irrelevantes)

# Mostrar información del DataFrame limpio para verificar
df_limpio.info()

KeyError: "['Dirección'] not found in axis"

### Convertir el tipo de dato de una columna

In [6]:

# Convertir la columna de texto a numérico, manejando errores(si no es posible convertirlos les asigna un valor de NaN)
df_limpio['Predial'] = pd.to_numeric(df_limpio['Predial'], errors='coerce')

# Especificar el tipo de dato float para el calculo posterior del impuesto predial
df_limpio['Predial'] = df_limpio['Predial'].astype(float)

# Establecer los datos en 0
df_limpio['Predial'] = 0.0

# Mostrar información del DataFrame limpio para verificar
df_limpio.info()
df_limpio.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8631 entries, 0 to 8630
Data columns (total 4 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   Codigo   8631 non-null   int64  
 1   Vereda   8631 non-null   int64  
 2   Avaluo   8631 non-null   int64  
 3   Predial  8631 non-null   float64
dtypes: float64(1), int64(3)
memory usage: 269.8 KB


Unnamed: 0,Codigo,Vereda,Avaluo,Predial
0,10001000,1,6810000,0.0
1,10002000,1,9200000,0.0
2,10003000,1,8011000,0.0
3,10003000,1,8011000,0.0
4,10003000,1,8011000,0.0


### calcular el impuesto predial en la columna predial

In [11]:
df_limpio['Predial'] = df_limpio['Avaluo'] * 0.005

# Mostrar las primeras filas del DataFrame para verificar el cálculo
df_limpio.info()
df_limpio.head()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8631 entries, 0 to 8630
Data columns (total 4 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   Codigo   8631 non-null   int64  
 1   Vereda   8631 non-null   int64  
 2   Avaluo   8631 non-null   int64  
 3   Predial  8631 non-null   float64
dtypes: float64(1), int64(3)
memory usage: 269.8 KB


Unnamed: 0,Codigo,Vereda,Avaluo,Predial
0,10001000,1,6810000,34050.0
1,10002000,1,9200000,46000.0
2,10003000,1,8011000,40055.0
3,10003000,1,8011000,40055.0
4,10003000,1,8011000,40055.0


## Exportar dataframe procesado

In [8]:
# Definir la ruta de salida
archivo_salida = 'attachments/data_proccesed.csv'  

# Definir a que formato exportar el dataframe
df_limpio.to_csv(archivo_salida, index=False)