<a href="https://colab.research.google.com/github/LinaMariaCastro/curso-ia-para-economia/blob/main/clases/3_Analisis_y_visualizacion_datos/3_Preparacion_y_Limpieza_Datos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Inteligencia Artificial con Aplicaciones en Econom√≠a I**

- üë©‚Äçüè´ **Profesora:** [Lina Mar√≠a Castro](https://www.linkedin.com/in/lina-maria-castro)  
- üìß **Email:** [lmcastroco@gmail.com](mailto:lmcastroco@gmail.com)  
- üéì **Universidad:** Universidad Externado de Colombia - Facultad de Econom√≠a

# üßπ**M√©todos de preparaci√≥n y limpieza de datos**

üëâ Luego de cargar nuestro dataset, el primer paso es limpiar los datos, para que podamos confiar en ellos. Aunque puede llegar a ser un proceso tedioso, es una parte **cr√≠tica** para lograr hacer un correcto y adecuado an√°lisis de los datos.

‚úÖ Resultado: un dataset limpio, coherente y confiable.

**Objetivos de Aprendizaje**

Al finalizar este notebook, ser√°s capaz de:

1. **Identificar y manejar distintos tipos de problemas** en conjuntos de datos  como duplicados, valores faltantes, tipos de datos incorrectos e inconsistencias de formato.
2. **Aplicar t√©cnicas de limpieza para transformar datos crudos** en un formato listo para el an√°lisis, utilizando Pandas.
3. **Comprender las implicaciones econ√≥micas y los sesgos** que pueden surgir de una limpieza de datos deficiente o de decisiones de limpieza sesgadas.
4. **Aplicar buenas pr√°cticas** en proyectos de an√°lisis econ√≥mico y ciencia de datos.

Imagina que eres un economista del Banco de la Rep√∫blica encargado de analizar la inflaci√≥n en diferentes regiones del pa√≠s. Recibes un conjunto de datos con precios de productos, pero al revisarlos, notas que algunas entradas tienen precios en diferentes monedas, otras tienen s√≠mbolos de moneda ($) que impiden hacer c√°lculos, y algunas filas est√°n duplicadas o contienen errores evidentes.

Si intentaras calcular la inflaci√≥n con estos datos sucios, tu resultado ser√≠a incorrecto e in√∫til para la pol√≠tica monetaria. **La limpieza de datos es el proceso de convertir esta "materia prima" defectuosa en un insumo de calidad para que tus modelos econ√≥micos y de machine learning sean fiables.** Es similar a la inspecci√≥n de calidad que se realiza en una f√°brica: antes de usar cualquier componente, debes asegurarte de que est√° en perfectas condiciones.

**Datos crudos Vs Procesados**

![Datos crudos Vs Procesados](https://drive.google.com/uc?id=11i1KhvpeDKMjcxL9rUX7W4pVcjXzz04w)

**Actividad de discusi√≥n r√°pida:** ¬øQu√© problemas de datos han visto en Excel o en reportes de su carrera?

---

## Importar librer√≠as

In [None]:
import os
import numpy as np
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

## Mejorar visualizaci√≥n de los dataframes

In [None]:
# Que muestre todas las columnas
pd.options.display.max_columns = None
# En los dataframes, mostrar los float con dos decimales
pd.options.display.float_format = '{:,.2f}'.format

## Establecer la ruta de los datasets

In [9]:
from google.colab import drive, files
drive.mount('/content/drive')

MessageError: Error: credential propagation was unsuccessful

In [None]:
path = '/content/drive/MyDrive/2025_ii_curso_ia_economia/datasets'

In [None]:
# Para establecer el directorio de los archivos
os.chdir(path)

---

**NOTA:** CONTROL+K+C COMENTA Y DESCOMENTA CTRL+K+U

---

Como ejemplo, vamos a trabajar con un conjunto de datos de la UNCTAD, el cual trae informaci√≥n de los flujos de inversi√≥n extranjera directa en el mundo desde 1970 hasta 2021. Este set de datos ha sido modificado con fines educativos.

## Cargar el dataset

In [None]:
df = pd.read_excel('UNCTAD_2021-FDI.xlsx', skiprows=4)

## Exploraci√≥n inicial del dataset

In [None]:
df

In [None]:
df.shape

In [None]:
df.info()

## Eliminar la primera fila

In [None]:
df.drop(index=0, inplace=True)
df.head()

## Reiniciar √≠ndice para mantener el orden

In [None]:
df.reset_index(inplace=True,drop=True)
df.head()

## Ejercicio: Convertir el valor de la inversi√≥n de object a float

Se logr√≥ convertir los datos a n√∫meros! Ya se pueden realizar operaciones con estos.

In [None]:
df['2020'].mean()

In [None]:
df['2020'].describe()

In [None]:
df.describe()

## Redondear las cifras de inversi√≥n a un decimal

In [None]:
# Redondear el valor de una columna a 1 decimal
df['1970'] = df['1970'].round(1)
df.head()

In [None]:
# Redondear el valor de todas las columnas del dataframe a 1 decimal
df = df.round(1)
df.head(3)


## Eliminar columnas innecesarias

### Opci√≥n 1

In [None]:
# Vamos a dejar la informaci√≥n solo hasta 2020
df.drop(columns=['2021'], inplace=True)
df.head(3)

### Opci√≥n 2

In [None]:
# Vamos a dejar solo los a√±os de 1980 en adelante
borrar = ['1970', '1971', '1972', '1973', '1974', '1975', '1976', '1977',
       '1978', '1979']
df=df.drop(columns=borrar)
df.head(3)

### Opci√≥n 3

In [None]:
# En este caso voy a dejar los datos solo desde el a√±o 2000 en adelante
df = df[['YEAR', '2000', '2001', '2002', '2003', '2004', '2005',
       '2006', '2007', '2008', '2009', '2010', '2011', '2012', '2013', '2014',
       '2015', '2016', '2017', '2018', '2019', '2020', 'DIRECTION',
       'SUBMISSION_DATE', 'MEASURE', 'MODE']]
df.head(2)

## Cambiar el nombre de una columna

In [None]:
# Vamos a renombrar la columna YEAR
df.rename(columns={"YEAR": "COUNTRY"}, inplace=True)
#df = df.rename(columns={"YEAR": "COUNTRY"})
df.head(2)

## Reorganizar columnas

In [None]:
df.columns

In [None]:
# Colocar el nombre de las columnas en el orden que quiero que queden
df = df[['COUNTRY', 'DIRECTION', 'SUBMISSION_DATE',
       'MEASURE', 'MODE', '2000', '2001', '2002', '2003', '2004', '2005', '2006',
       '2007', '2008', '2009', '2010', '2011', '2012', '2013', '2014', '2015',
       '2016', '2017', '2018', '2019', '2020']]
df.head(2)

## Procesamiento de √çndices

In [None]:
# Volver una columna el √≠ndice del df
df = df.set_index('COUNTRY')
df.head()

In [None]:
# Convertir en columna el √≠ndice del df
df = df.reset_index()
df.head()

## Revisar y ajustar las variables categ√≥ricas

### Direction

In [None]:
df['DIRECTION'].unique()

In [None]:
# Para borrar los espacios en blanco al principio y al final del string
df['DIRECTION']=df['DIRECTION'].str.strip()
df['DIRECTION'].unique()

In [None]:
# Se quitan los ceros del principio del string
df['DIRECTION'] = df['DIRECTION'].str.lstrip('00000')
df['DIRECTION'].unique()

In [None]:
df['DIRECTION'] = df['DIRECTION'].str.upper()
df['DIRECTION'].unique()

### Measure

In [None]:
df['MEASURE'].unique()

In [None]:
df['MEASURE'] = df['MEASURE'].replace({"US dollars at current prices in milions": "US dollars at current prices in millions"})
df['MEASURE'].unique()

In [None]:
df['MEASURE'] = df['MEASURE'].str.upper()
df['MEASURE'].unique()

In [None]:
# Dividir en dos partes el string
df['CURRENCY'] = df['MEASURE'].str.split('AT',expand=True)[0]
df['MEASURE_2'] = df['MEASURE'].str.split('AT',expand=True)[1]
df.head(3)

In [None]:
df['PRICE_TYPE'] = df['MEASURE_2'].str.split('IN',expand=True)[0]
df['UNIT'] = df['MEASURE_2'].str.split('IN',expand=True)[1]
df.head(3)

In [None]:
df.columns

In [None]:
# Eliminar 'MEASURE' y 'MEASURE_2' y reorganizar columnas
df = df[['COUNTRY', 'MODE', 'DIRECTION', 'CURRENCY', 'UNIT', 'PRICE_TYPE', 'SUBMISSION_DATE', '2000',
       '2001', '2002', '2003', '2004', '2005', '2006', '2007', '2008', '2009',
       '2010', '2011', '2012', '2013', '2014', '2015', '2016', '2017', '2018',
       '2019', '2020']]
df.head(3)

### Mode

In [None]:
df['MODE'].unique()

In [None]:
# Se quitan las comillas del final del string
df['MODE'] = df['MODE'].str.rstrip("'''")
df['MODE'].unique()

In [None]:
df['MODE'] = df['MODE'].str.upper()
df['MODE'].unique()

In [None]:
# Contar el n√∫mero de caracteres
df["num_caracteres"] = df["MODE"].str.len()
df.head()

In [None]:
df["num_caracteres"].unique()

In [None]:
df.drop(columns=['num_caracteres'], inplace=True)

## Convertir a tipo category

Convertir variables categ√≥ricas a tipo category en pandas es una muy buena pr√°ctica en ciencia de datos, y tiene varias ventajas importantes:
- Una columna categ√≥rica se almacena como c√≥digos num√©ricos internos en lugar de cadenas de texto repetidas. Esto reduce much√≠simo el uso de memoria, sobre todo cuando tienes miles de filas con pocos valores distintos.
- Operaciones como groupby(), value_counts(), merge() son m√°s r√°pidas en columnas categ√≥ricas porque pandas trabaja con los c√≥digos internos (n√∫meros) en vez de cadenas de texto largas.
- Preparaci√≥n para Machine Learning: La mayor√≠a de algoritmos no trabajan directamente con strings. Usar category es el primer paso para luego aplicar OneHotEncoding o LabelEncoding f√°cilmente.
- Permite diferenciar variables que son realmente categ√≥ricas de las que son texto libre. Ejemplo: "Bogot√°", "Medell√≠n", "Cali" son categor√≠as (ciudades), no simples cadenas de texto. En un directorio de empresas, la columna de raz√≥n social no ser√≠a categ√≥rica porque cada fila tiene un valor diferente.

In [None]:
categorias = ['DIRECTION', 'MODE', 'CURRENCY', 'PRICE_TYPE', 'UNIT']
for categoria in categorias:
  df[categoria] = df[categoria].astype('category')
df.info()

## Revisar y ajustar las variables tipo fecha

Cambiar una columna de string, int o float a datetime tiene las siguientes ventajas:

1. Permite aplicar operaciones de calendario como:
- df["fecha"].dt.year      # a√±o
- df["fecha"].dt.month     # mes
- df["fecha"].dt.day       # d√≠a

2. Permite comparaciones y filtros m√°s f√°ciles. Ejemplo: seleccionar datos de 2023 en adelante.

  df[df["fecha"] >= "2023-01-01"]

  Si fueran strings, hacer este filtro ser√≠a muy complicado y propenso a errores.

3. Permite realizar operaciones matem√°ticas con fechas. Puedes calcular diferencias en d√≠as, semanas o meses:

  (df["fecha"].max() - df["fecha"].min()).days

4. Puedes ordenar la serie en orden cronol√≥gico.

In [None]:
# Pasar la columna a formato fecha
df['SUBMISSION_DATE'] = pd.to_datetime(df['SUBMISSION_DATE'], format="%d%m%Y")
df.info()

In [None]:
df.head()

In [None]:
# Crear una nueva columna que diga solamente el d√≠a de env√≠o de la informaci√≥n
df['DIA'] = df["SUBMISSION_DATE"].dt.day
df.sample(5)

In [None]:
df.drop(columns=['DIA'], inplace=True)

In [None]:
# Filtrar los registros que se enviaron despu√©s del 22 de julio de 2022
df[df["SUBMISSION_DATE"] > "2022-07-22"]

In [None]:
# Para saber el n√∫mero de d√≠as de env√≠o de informaci√≥n que cubre el dataset
(df["SUBMISSION_DATE"].max() - df["SUBMISSION_DATE"].min()).days

In [None]:
# Ver el dataset en orden cronol√≥gico
df.sort_values(by='SUBMISSION_DATE')

## Duplicados

Puede generar un sesgo por sobrevaloraci√≥n de una observaci√≥n.

### Detectar duplicados

In [None]:
# Encontrar filas con todos sus valores duplicados (ver s√≥lo el primer valor repetido)
df[df.duplicated()]

In [None]:
# Encontrar filas con todos sus valores duplicados (ver todos los valores repetidos)
df[df.duplicated(keep=False)]

In [None]:
# Encontrar duplicados en ciertas columnas, ver todos los valores repetidos
df[df.duplicated(subset='COUNTRY', keep=False)]

In [None]:
# Ver duplicados en varias columnas al tiempo
df[df.duplicated(subset=['COUNTRY','MODE', 'DIRECTION'], keep=False)]

### Ver la cantidad de duplicados que existen

In [None]:
# En general
df.duplicated().sum()

In [None]:
# En una columna espec√≠fica
df['COUNTRY'].duplicated().sum()

In [None]:
# En varias columnas
df.duplicated(subset=['COUNTRY','MODE', 'DIRECTION']).sum()

### Eliminar duplicados

In [None]:
# Eliminar filas con todos sus valores duplicados, conservando s√≥lo el primer registro
df.drop_duplicates(keep='first', inplace=True)

In [None]:
df.duplicated().sum()

In [None]:
# Eliminar filas con todos sus valores duplicados, conservando s√≥lo el √∫ltimo registro
# df.drop_duplicates(keep='last', inplace=True)

In [None]:
# Borrar duplicados revisando solo una columna y dejando el √∫ltimo dato que encuentre
# df = df.drop_duplicates(subset="COUNTRY", keep="last")

## Valores faltantes

Implica perdida de informaci√≥n que puede ser muy relevante para el an√°lisis.

### Detectar valores faltantes

In [None]:
len(df)

In [None]:
# Ver la cantidad de valores nulos en cada columna
df.isna().sum()

In [None]:
# Para filtrar los nulos de una columna
df[df['2000'].isna()]

In [None]:
# Para filtrar los nulos de varias columnas al tiempo
df[df['2000'].isna() & df['2001'].isna()]

In [None]:
df[df['2000'].isna() | df['2020'].isna()]

### Imputar valores faltantes

La elecci√≥n del m√©todo no es trivial y debe basarse en el conocimiento del problema. Imputar con la media podr√≠a subestimar la variabilidad de un mercado, mientras que eliminar datos podr√≠a generar un sesgo de selecci√≥n.

### Eliminar filas con valores faltantes

üëâ √ötil si los faltantes son muy pocos o irrelevantes.

In [None]:
len(df)

In [None]:
# Borrar la fila si hay nulos en ciertas columnas
df_2 = df.dropna(subset=['2020'], how='all')
len(df_2)

In [None]:
df_2.isna().sum()

In [None]:
# Borrar la fila si hay nulos en ciertas columnas
df_3 = df.dropna(subset=['2018', '2019', '2020'], how='all')
len(df_3)

In [None]:
df_3.isna().sum()

In [None]:
# Borrar todas las filas o registros que tienen datos faltantes en el dataset
df_4 = df.dropna()
len(df_4)

In [None]:
df_4.isna().sum()

#### Reemplazar todos los faltantes por un valor constante

üëâ Se usa cuando un valor por defecto tiene sentido (ej. "No aplica", 0 para exportaciones).

In [None]:
# Llenar los valores nulos con cero
df['2000'] = df['2000'].fillna(0)
df.tail()

In [None]:
# Llenar los valores nulos con un string
df['2001'] = df['2001'].fillna('No aplica')
df.tail()

#### Imputaci√≥n con estad√≠sticas de la columna

üëâ Muy usado en econom√≠a. Por ejemplo, la media/mediana para ingresos.

In [None]:
# Llenar los valores nulos con la media de la columna
df['2002'] = df['2002'].fillna(df['2002'].mean())
df.tail()

#### Imputaci√≥n con valores vecinos

üëâ Muy √∫til en series de tiempo (ejemplo: inflaci√≥n mensual, PIB trimestral).

##### Forward fill (ffill): usa el √∫ltimo valor v√°lido anterior

In [None]:
df["2003"].fillna(method="ffill", inplace=True)
df.tail()

##### Backward fill (bfill): usa el siguiente valor v√°lido

In [None]:
df["2004"].fillna(method="bfill", inplace=True)
df.tail()

#### Interpolaci√≥n

Calcula valores intermedios autom√°ticamente

üëâ √ötil en datos econ√≥micos continuos, como tasas de crecimiento. √ötil en series de tiempo.

In [None]:
df["2005"].interpolate(method="linear", inplace=True)
df.tail()

#### Modelos predictivos (Machine Learning)

Usa algoritmos para predecir los valores faltantes. Por ejemplo:

- KNN Imputer (usa vecinos m√°s cercanos).

- Regresi√≥n (predice usando otras variables).

##### üìå  KNNImputer (Imputaci√≥n con Vecinos M√°s Cercanos)

Busca observaciones parecidas (vecinos) usando las dem√°s variables del dataset.

Si una observaci√≥n tiene un dato faltante, se fija en los valores de esos vecinos m√°s cercanos.

Rellena el valor faltante con el promedio de los vecinos.

* Ejemplo:

Imagina que falta el valor de la inflaci√≥n de Colombia, pero s√≠ tenemos su PIB. El KNNImputer busca pa√≠ses con PIB similar (como Chile o Per√∫), y usa sus valores de inflaci√≥n para calcular un promedio y rellenar el dato faltante de Colombia.

üëâ Cosas a tener en cuenta:

- Solo funciona con variables num√©ricas.

- Conviene escalar o normalizar las variables antes, porque si una est√° en millones (PIB) y otra en %, dominar√° la distancia.

- El valor que se asigna es la media de los vecinos (aunque tambi√©n podr√≠as modificarlo para usar la mediana).

In [None]:
from sklearn.impute import KNNImputer
import numpy as np

In [None]:
imputer = KNNImputer(n_neighbors=3)
df[["2020"]] = imputer.fit_transform(df[["2020"]])
df.tail()