In [10]:
# =====================================================
# NOTEBOOK 02 - LIMPIEZA DE DATOS
# Proyecto: Análisis de precios de medicamentos en Colombia
# Fuente: Datos Abiertos Colombia
# =====================================================

# Importación de librerías
import pandas as pd
import numpy as np

# -----------------------------------------------------
# 1. Carga de datos desde JSON
# -----------------------------------------------------

url = "https://www.datos.gov.co/resource/3t73-n4q9.json"
df = pd.read_json(url)

print("Dimensiones iniciales del DataFrame:")
print(df.shape)

# -----------------------------------------------------
# 2. Normalización de nombres de columnas
# -----------------------------------------------------

df.columns = df.columns.str.lower().str.replace(" ", "_")

print("\nColumnas normalizadas:")
print(df.columns)

# -----------------------------------------------------
# 3. Conversión de la columna precio a formato numérico
# -----------------------------------------------------
# (Se ignoran errores y se convierten a NaN)

df['precio_por_tableta'] = pd.to_numeric(df['precio_por_tableta'], errors='coerce')

# -----------------------------------------------------
# 4. Manejo de valores nulos
# -----------------------------------------------------

print("\nValores nulos antes de limpieza:")
print(df.isnull().sum())

# Eliminación de registros sin precio
df = df.dropna(subset=['precio_por_tableta'])

print("\nValores nulos después de eliminar precios faltantes:")
print(df.isnull().sum())

# -----------------------------------------------------
# 5. Eliminación de valores atípicos (método IQR)
# -----------------------------------------------------

Q1 = df['precio_por_tableta'].quantile(0.25)
Q3 = df['precio_por_tableta'].quantile(0.75)
IQR = Q3 - Q1

limite_inferior = Q1 - 1.5 * IQR
limite_superior = Q3 + 1.5 * IQR

df = df[(df['precio_por_tableta'] >= limite_inferior) &
        (df['precio_por_tableta'] <= limite_superior)]

print("\nDimensiones después de eliminar outliers:")
print(df.shape)

# -----------------------------------------------------
# 6. Revisión final del DataFrame limpio
# -----------------------------------------------------

print("\nResumen estadístico final:")
display(df.describe())

print("\nPrimeras filas del DataFrame limpio:")
display(df.head())

# -----------------------------------------------------
# 7. Observaciones de limpieza
# -----------------------------------------------------

print("\nObservaciones:")
print("- Se normalizaron los nombres de las columnas.")
print("- Se convirtieron los precios a formato numérico.")
print("- Se eliminaron registros con precios nulos.")
print("- Se removieron valores atípicos usando el método IQR.")
print("- El DataFrame está listo para el análisis estadístico.")

Dimensiones iniciales del DataFrame:
(1000, 9)

Columnas normalizadas:
Index(['principio_activo', 'unidad_de_dispensacion', 'concentracion',
       'unidad_base', 'nombre_comercial', 'fabricante', 'precio_por_tableta',
       'factoresprecio', 'numerofactor'],
      dtype='object')

Valores nulos antes de limpieza:
principio_activo          0
unidad_de_dispensacion    0
concentracion             0
unidad_base               0
nombre_comercial          0
fabricante                0
precio_por_tableta        0
factoresprecio            0
numerofactor              0
dtype: int64

Valores nulos después de eliminar precios faltantes:
principio_activo          0
unidad_de_dispensacion    0
concentracion             0
unidad_base               0
nombre_comercial          0
fabricante                0
precio_por_tableta        0
factoresprecio            0
numerofactor              0
dtype: int64

Dimensiones después de eliminar outliers:
(835, 9)

Resumen estadístico final:


Unnamed: 0,precio_por_tableta,numerofactor
count,835.0,835.0
mean,4776.58574,2.049102
std,6668.447526,0.675884
min,0.415578,1.0
25%,533.78265,2.0
50%,1900.0,2.0
75%,6218.365943,3.0
max,32556.8,3.0



Primeras filas del DataFrame limpio:


Unnamed: 0,principio_activo,unidad_de_dispensacion,concentracion,unidad_base,nombre_comercial,fabricante,precio_por_tableta,factoresprecio,numerofactor
0,Midazolam,Ampolla,Midazolam 15 mg,ml,Dormicum,Siegfried,11199.8,Alto,3
1,Acido Valproico,Tableta,Divalproato Sodico 500 mg,mg,Valcote,Lafrancol,3752.866667,Medio,2
2,Acido Valproico,Tableta,Divalproato Sodico 500 mg,mg,Valcote,Lafrancol,1777.266522,Medio,2
3,Fluoxetina,Capsula,Fluoxetina 20 mg,mg,Fluoxetina,Genfar,329.295281,Medio,2
7,Alopurinol,Tableta,Alopurinol 300 mg,mg,Alopurinol,Memphis,365.399678,Bajo,1



Observaciones:
- Se normalizaron los nombres de las columnas.
- Se convirtieron los precios a formato numérico.
- Se eliminaron registros con precios nulos.
- Se removieron valores atípicos usando el método IQR.
- El DataFrame está listo para el análisis estadístico.
