In [3]:
!pip install pandas numpy requests matplotlib seaborn scikit-learn plotly



## 1. Importar Librerias

In [4]:
import pandas as pd
import numpy as np
import requests


## 2. Cargar Datos desde API SODA3 (JSON)

In [5]:
url = "https://www.datos.gov.co/resource/3t73-n4q9.json"

response = requests.get(url, params={'$limit': 15000})

if response.status_code == 200:
    data = response.json()
    df = pd.DataFrame(data)
    print(f"Datos cargados: {len(df)} registros")
else:
    print(f"Error: {response.status_code}")

Datos cargados: 12534 registros


## 3. Primeras Filas

In [6]:
df.head()

Unnamed: 0,principio_activo,unidad_de_dispensacion,concentracion,unidad_base,nombre_comercial,fabricante,precio_por_tableta,factoresprecio,numerofactor
0,Midazolam,Ampolla,Midazolam 15 mg,ml,Dormicum,Siegfried,11199.8,Alto,3
1,Acido Valproico,Tableta,Divalproato Sodico 500 mg,mg,Valcote,Lafrancol,3752.866667,Medio,2
2,Acido Valproico,Tableta,Divalproato Sodico 500 mg,mg,Valcote,Lafrancol,1777.266522,Medio,2
3,Fluoxetina,Capsula,Fluoxetina 20 mg,mg,Fluoxetina,Genfar,329.295281,Medio,2
4,Proximetacaina,Frasco,Proximetacaina 5 mg,ml,Alcaine,Alcon,64184.74576,Medio,2


In [7]:
df.tail()

Unnamed: 0,principio_activo,unidad_de_dispensacion,concentracion,unidad_base,nombre_comercial,fabricante,precio_por_tableta,factoresprecio,numerofactor
12529,Valaciclovir,Tableta,Valaciclovir 500 mg,mg,Valtrex,Glaxosmithkline,12630.64593,Alto,3
12530,Budesonida,Aerosol,Budesonida 50 mcg,dosis,B-Cort,Grunenthal,145251.4555,Medio,2
12531,Budesonida,Aerosol,Budesonida 50 mcg,dosis,B-Cort,Grunenthal,17483.53528,Medio,2
12532,Metocarbamol,Tableta,Metocarbamol 750 mg,mg,Metocarbamol,Memphis,473.1286377,Medio,2
12533,Hidroclorotiazida,Tableta,Hidroclorotiazida 25 mg,mg,Hidroclorotiazida,Memphis,108.1126941,Medio,2


## 4. Dimensiones

In [8]:
print(f"Filas: {df.shape[0]}")
print(f"Columnas: {df.shape[1]}")

Filas: 12534
Columnas: 9


## 5. Informacion General

In [9]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12534 entries, 0 to 12533
Data columns (total 9 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   principio_activo        12534 non-null  object
 1   unidad_de_dispensacion  12534 non-null  object
 2   concentracion           12534 non-null  object
 3   unidad_base             12534 non-null  object
 4   nombre_comercial        12534 non-null  object
 5   fabricante              12534 non-null  object
 6   precio_por_tableta      12534 non-null  object
 7   factoresprecio          12534 non-null  object
 8   numerofactor            12534 non-null  object
dtypes: object(9)
memory usage: 881.4+ KB


## 6. Estadisticas Descriptivas

In [10]:
df.describe()

Unnamed: 0,principio_activo,unidad_de_dispensacion,concentracion,unidad_base,nombre_comercial,fabricante,precio_por_tableta,factoresprecio,numerofactor
count,12534,12534,12534,12534,12534,12534,12534,12534,12534
unique,1753,33,3526,21,4787,454,11759,3,3
top,Acetaminofen,Tableta,Clotrimazol 1 g,mg,Betametasona,Tecnoquimicas,15000,Medio,2
freq,133,4984,52,6588,39,580,12,7086,7086


## 7. Valores Nulos

In [11]:
nulos = df.isnull().sum()
print(nulos[nulos > 0])

Series([], dtype: int64)


## 8. Valores Unicos

In [12]:
for col in df.columns:
    print(f"{col}: {df[col].nunique()} valores unicos")

principio_activo: 1753 valores unicos
unidad_de_dispensacion: 33 valores unicos
concentracion: 3526 valores unicos
unidad_base: 21 valores unicos
nombre_comercial: 4787 valores unicos
fabricante: 454 valores unicos
precio_por_tableta: 11759 valores unicos
factoresprecio: 3 valores unicos
numerofactor: 3 valores unicos


## 9. Top Principios Activos

In [13]:
if 'principio_activo' in df.columns:
    print(df['principio_activo'].value_counts().head(10))

principio_activo
Acetaminofen        133
Ibuprofeno          100
Rosuvastatina        95
Nitazoxanida         95
Diclofenaco          94
Clotrimazol          87
Atorvastatina        85
Betametasona         83
Cloruro De Sodio     79
Meloxicam            79
Name: count, dtype: int64


## 10. Top Fabricantes

In [14]:
if 'fabricante' in df.columns:
    print(df['fabricante'].value_counts().head(10))

    #Cantidad de fabricantes
    print(f"Cantidad de fabricantes: {df['fabricante'].nunique()}")

fabricante
Tecnoquimicas    580
Procaps          408
Mega Labs        348
Lafrancol        336
Genfar           296
Novamed          279
Siegfried        276
Pfizer           244
Bioquifar        219
La Sante         216
Name: count, dtype: int64
Cantidad de fabricantes: 454


## 11. Analisis de Precios

In [15]:
if 'precio_por_tableta' in df.columns:
    df['precio_por_tableta'] = pd.to_numeric(df['precio_por_tableta'], errors='coerce')
    
    print(f"Precio minimo: ${df['precio_por_tableta'].min():.2f}")
    print(f"Precio maximo: ${df['precio_por_tableta'].max():.2f}")
    print(f"Precio promedio: ${df['precio_por_tableta'].mean():.2f}")
    print(f"Precio mediano: ${df['precio_por_tableta'].median():.2f}")

Precio minimo: $0.09
Precio maximo: $257103178.00
Precio promedio: $155408.34
Precio mediano: $3891.22


## 12. Guardar Datos Crudos

In [16]:
df.to_csv('../data/raw/medicamentos_raw.csv', index=False, encoding='utf-8-sig')