# Proyecto Módulo 4 - Preparación de datos con Python

Flujo completo: NumPy + Pandas + obtención, limpieza, wrangling y agrupamiento.

### VERIFICAR O MODIFICAR RUTAS DE GUARDADO EN EL CODIGO

Celda 1 – Encabezado y librerías

In [2]:
import numpy as np
import pandas as pd


Celda 2 – Lección 1: NumPy

In [3]:
# LECCIÓN 1 - NumPy
# 1. Generar datos ficticios de clientes y transacciones usando NumPy

np.random.seed(10)

num_clientes = 10

ids = np.arange(1, num_clientes + 1)
edades = np.random.randint(18, 70, size=num_clientes)
ciudades = np.random.choice([
    "Buenos Aires", "Córdoba", "Rosario", "Mendoza", "La Plata",
    "Salta", "Tucumán", "Santa Fe", "Neuquén", "Bahía Blanca"
], size=num_clientes)

# Total compras entre 0 y 20
compras = np.random.randint(0, 21, size=num_clientes)
# Monto promedio de compra entre 100 y 800
monto_promedio = np.random.uniform(100, 800, size=num_clientes)
# Monto total aproximado
monto_total = compras * monto_promedio

# Crear array base
clientes_numpy = np.column_stack([ids, edades, compras, monto_total])

# Operaciones básicas
cantidad_clientes = clientes_numpy.shape[0]
edad_media = edades.mean()
compras_totales = compras.sum()

cantidad_clientes, edad_media, compras_totales


(10, np.float64(44.8), np.int64(113))

Celda 3 – Guardar datos NumPy

In [4]:
# Guardar datos en archivo .npy para la siguiente lección
np.save("D:/000_ANALISTA DATOS , TALENTO DIGITAL/002_A3/PROYECTO/clientes_numpy.npy", clientes_numpy)
"Archivo clientes_numpy.npy guardado."


'Archivo clientes_numpy.npy guardado.'

Celda 4 – Lección 2: cargar NumPy en Pandas

In [5]:
# LECCIÓN 2 - Pandas desde NumPy

# 1. Leer los datos preparados en NumPy y convertirlos en DataFrame
clientes_numpy_cargado = np.load("D:/000_ANALISTA DATOS , TALENTO DIGITAL/002_A3/PROYECTO/clientes_numpy.npy")

df_numpy = pd.DataFrame(
    clientes_numpy_cargado,
    columns=["ID", "Edad", "Total_Compras", "Monto_Total"]
)

df_numpy.head()


Unnamed: 0,ID,Edad,Total_Compras,Monto_Total
0,1.0,27.0,15.0,2880.3106
1,2.0,54.0,11.0,4285.238783
2,3.0,33.0,11.0,7096.211824
3,4.0,18.0,1.0,508.730956
4,5.0,67.0,8.0,1822.736043


Celda 5 – Exploración con Pandas

In [6]:
# Exploración inicial

display(df_numpy.head())
display(df_numpy.tail())
display(df_numpy.describe())

# Filtros de ejemplo
mayores_30 = df_numpy[df_numpy["Edad"] > 30]
con_mas_de_5_compras = df_numpy[df_numpy["Total_Compras"] > 5]

mayores_30.head(), con_mas_de_5_compras.head()


Unnamed: 0,ID,Edad,Total_Compras,Monto_Total
0,1.0,27.0,15.0,2880.3106
1,2.0,54.0,11.0,4285.238783
2,3.0,33.0,11.0,7096.211824
3,4.0,18.0,1.0,508.730956
4,5.0,67.0,8.0,1822.736043


Unnamed: 0,ID,Edad,Total_Compras,Monto_Total
5,6.0,46.0,4.0,2713.030294
6,7.0,43.0,14.0,2432.937968
7,8.0,47.0,17.0,5074.562475
8,9.0,66.0,19.0,2771.991443
9,10.0,47.0,13.0,1813.642106


Unnamed: 0,ID,Edad,Total_Compras,Monto_Total
count,10.0,10.0,10.0,10.0
mean,5.5,44.8,11.3,3139.939249
std,3.02765,15.690053,5.638164,1885.877659
min,1.0,18.0,1.0,508.730956
25%,3.25,35.5,8.75,1975.286525
50%,5.5,46.5,12.0,2742.510868
75%,7.75,52.25,14.75,3934.006737
max,10.0,67.0,19.0,7096.211824


(    ID  Edad  Total_Compras  Monto_Total
 1  2.0  54.0           11.0  4285.238783
 2  3.0  33.0           11.0  7096.211824
 4  5.0  67.0            8.0  1822.736043
 5  6.0  46.0            4.0  2713.030294
 6  7.0  43.0           14.0  2432.937968,
     ID  Edad  Total_Compras  Monto_Total
 0  1.0  27.0           15.0  2880.310600
 1  2.0  54.0           11.0  4285.238783
 2  3.0  33.0           11.0  7096.211824
 4  5.0  67.0            8.0  1822.736043
 6  7.0  43.0           14.0  2432.937968)

Celda 6 – Guardar CSV preliminar

In [7]:
# Guardar DataFrame preliminar para la Lección 3
df_numpy.to_csv("D:/000_ANALISTA DATOS , TALENTO DIGITAL/002_A3/PROYECTO/clientes_desde_numpy.csv", index=False)
"Archivo clientes_desde_numpy.csv guardado."


'Archivo clientes_desde_numpy.csv guardado.'

Celda 7 – Lección 3: obtención de datos (CSV, Excel, web)

In [8]:
# LECCIÓN 3 - Obtención de datos desde archivos

# 1. Cargar el CSV generado en la Lección 2
df_base = pd.read_csv("D:/000_ANALISTA DATOS , TALENTO DIGITAL/002_A3/PROYECTO/clientes_desde_numpy.csv")

# 2. Incorporar nuevas fuentes de datos: tus archivos de e-commerce
df_ecom_csv = pd.read_csv("D:/000_ANALISTA DATOS , TALENTO DIGITAL/002_A3/PROYECTO/clientes_ecommerce.csv")
df_ecom_xlsx = pd.read_excel("clientes_ecommerce.xlsx")

display(df_base.head())
display(df_ecom_csv.head())
display(df_ecom_xlsx.head())


Unnamed: 0,ID,Edad,Total_Compras,Monto_Total
0,1.0,27.0,15.0,2880.3106
1,2.0,54.0,11.0,4285.238783
2,3.0,33.0,11.0,7096.211824
3,4.0,18.0,1.0,508.730956
4,5.0,67.0,8.0,1822.736043


Unnamed: 0,ID,Nombre,Edad,Ciudad,Total_Compras,Monto_Total
0,1,Ana,25.0,Buenos Aires,5,2500
1,2,Luis,34.0,Córdoba,2,1200
2,3,Carlos,45.0,Rosario,0,0
3,4,Marta,29.0,Mendoza,3,1800
4,5,Jorge,31.0,La Plata,8,3200


Unnamed: 0,ID,Nombre,Edad,Ciudad,Total_Compras,Monto_Total
0,1,Ana,25.0,Buenos Aires,5,2500
1,2,Luis,34.0,Córdoba,2,1200
2,3,Carlos,45.0,Rosario,0,0
3,4,Marta,29.0,Mendoza,3,1800
4,5,Jorge,31.0,La Plata,8,3200


Celda 8 – Lectura opcional desde web

In [19]:
# 3. Opcional: leer una tabla desde la web (puedes omitir si no tienes conexión)
url = "https://es.wikipedia.org/wiki/Anexo:Ciudades_de_Argentina_por_poblaci%C3%B3n"
try:
    tablas_web = pd.read_html(url)
    tabla_ciudades = tablas_web[0]
    display(tabla_ciudades.head())

except Exception as e:
    tabla_ciudades = pd.DataFrame()
    print("No se pudo leer la tabla web:", e)


No se pudo leer la tabla web: HTTP Error 403: Forbidden


 LEER LA TABLA SIMULANDO UN NAVEGADOR

In [18]:
#si obtiene No se pudo leer la tabla web: HTTP Error 403: Forbidden

import requests
import pandas as pd

url = "https://es.wikipedia.org/wiki/Anexo:Ciudades_de_Argentina_por_poblaci%C3%B3n"

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) "
                  "AppleWebKit/537.36 (KHTML, like Gecko) "
                  "Chrome/120.0 Safari/537.36"
}

resp = requests.get(url, headers=headers)
resp.raise_for_status()  # lanza error si no es 200

tablas_web = pd.read_html(resp.text)
tabla_ciudades = tablas_web[0]
tabla_ciudades.head()


  tablas_web = pd.read_html(resp.text)


Unnamed: 0,0,1,2
0,1. Buenos Aires,1. Buenos Aires,1. Buenos Aires
1,2. Córdoba,2. Córdoba,2. Córdoba
2,3. Rosario,3. Rosario,3. Rosario
3,4. Mar del Plata,4. Mar del Plata,4. Mar del Plata
4,5. San Miguel de Tucumán,5. San Miguel de Tucumán,5. San Miguel de Tucumán


Celda 9 – Unificación de fuentes

In [20]:
# 4. Unificar fuentes de datos

df_ecom_csv["ID"] = df_ecom_csv["ID"].astype(int)
df_base["ID"] = df_base["ID"].astype(int)

df_unificado = pd.merge(
    df_base,
    df_ecom_csv[["ID", "Nombre", "Ciudad"]],
    on="ID",
    how="left"
)

display(df_unificado.head())
df_unificado.to_csv("D:/000_ANALISTA DATOS , TALENTO DIGITAL/002_A3/PROYECTO/dataset_consolidado.csv", index=False)
"Archivo dataset_consolidado.csv guardado."


Unnamed: 0,ID,Edad,Total_Compras,Monto_Total,Nombre,Ciudad
0,1,27.0,15.0,2880.3106,Ana,Buenos Aires
1,2,54.0,11.0,4285.238783,Luis,Córdoba
2,3,33.0,11.0,7096.211824,Carlos,Rosario
3,4,18.0,1.0,508.730956,Marta,Mendoza
4,5,67.0,8.0,1822.736043,Jorge,La Plata


'Archivo dataset_consolidado.csv guardado.'

Celda 10 – Lección 4: nulos y outliers

In [21]:
# LECCIÓN 4 - Manejo de valores perdidos y outliers

# 1. Identificar valores nulos
nulos_por_columna = df_unificado.isna().sum()
nulos_por_columna


ID               0
Edad             0
Total_Compras    0
Monto_Total      0
Nombre           0
Ciudad           0
dtype: int64

Celda 11 – Imputación y outliers

In [22]:
# 2. Imputar Edad faltante con la media
if "Edad" in df_unificado.columns:
    df_unificado["Edad"] = df_unificado["Edad"].fillna(df_unificado["Edad"].mean())

# 3. Detectar outliers en Monto_Total usando IQR
q1 = df_unificado["Monto_Total"].quantile(0.25)
q3 = df_unificado["Monto_Total"].quantile(0.75)
iqr = q3 - q1

limite_inferior = q1 - 1.5 * iqr
limite_superior = q3 + 1.5 * iqr

outliers = df_unificado[
    (df_unificado["Monto_Total"] < limite_inferior)
    | (df_unificado["Monto_Total"] > limite_superior)
]

outliers.head()


Unnamed: 0,ID,Edad,Total_Compras,Monto_Total,Nombre,Ciudad
2,3,33.0,11.0,7096.211824,Carlos,Rosario


Celda 12 – Tratamiento de outliers y guardado

In [23]:
# Recortar Monto_Total al rango permitido
df_unificado["Monto_Total"] = df_unificado["Monto_Total"].clip(
    lower=limite_inferior,
    upper=limite_superior
)

df_limpio = df_unificado.copy()
df_limpio.to_csv("D:/000_ANALISTA DATOS , TALENTO DIGITAL/002_A3/PROYECTO/dataset_limpio.csv", index=False)
"Archivo dataset_limpio.csv guardado."


'Archivo dataset_limpio.csv guardado.'

Celda 13 – Lección 5: Data Wrangling

In [24]:
# LECCIÓN 5 - Data Wrangling

# 1. Tomar DataFrame limpio y simular duplicados
df_wrangle = pd.concat([df_limpio, df_limpio.iloc[:3]], ignore_index=True)

# 2. Eliminar registros duplicados
df_wrangle = df_wrangle.drop_duplicates()

# 3. Transformar tipos de datos
if "Ciudad" in df_wrangle.columns:
    df_wrangle["Ciudad"] = df_wrangle["Ciudad"].astype("category")

df_wrangle.head()


Unnamed: 0,ID,Edad,Total_Compras,Monto_Total,Nombre,Ciudad
0,1,27.0,15.0,2880.3106,Ana,Buenos Aires
1,2,54.0,11.0,4285.238783,Luis,Córdoba
2,3,33.0,11.0,6872.087057,Carlos,Rosario
3,4,18.0,1.0,508.730956,Marta,Mendoza
4,5,67.0,8.0,1822.736043,Jorge,La Plata


Celda 14 – Nuevas columnas, segmentación y normalización

In [25]:
# 4. Crear nuevas columnas calculadas

# Ticket promedio
df_wrangle["Ticket_Promedio"] = df_wrangle.apply(
    lambda row: row["Monto_Total"] / row["Total_Compras"] if row["Total_Compras"] > 0 else 0,
    axis=1
)

# Segmento por monto total
bins = [0, 1000, 3000, 10000]
labels = ["Bajo", "Medio", "Alto"]
df_wrangle["Segmento_Monto"] = pd.cut(
    df_wrangle["Monto_Total"],
    bins=bins,
    labels=labels,
    include_lowest=True
)

# Normalización min-max de Monto_Total
min_monto = df_wrangle["Monto_Total"].min()
max_monto = df_wrangle["Monto_Total"].max()

if max_monto > min_monto:
    df_wrangle["Monto_Normalizado"] = (
        df_wrangle["Monto_Total"] - min_monto
    ) / (max_monto - min_monto)
else:
    df_wrangle["Monto_Normalizado"] = 0

display(df_wrangle.head())
df_wrangle.to_csv("D:/000_ANALISTA DATOS , TALENTO DIGITAL/002_A3/PROYECTO/dataset_wrangle.csv", index=False)
"Archivo dataset_wrangle.csv guardado."


Unnamed: 0,ID,Edad,Total_Compras,Monto_Total,Nombre,Ciudad,Ticket_Promedio,Segmento_Monto,Monto_Normalizado
0,1,27.0,15.0,2880.3106,Ana,Buenos Aires,192.020707,Medio,0.372693
1,2,54.0,11.0,4285.238783,Luis,Córdoba,389.567162,Alto,0.593477
2,3,33.0,11.0,6872.087057,Carlos,Rosario,624.735187,Alto,1.0
3,4,18.0,1.0,508.730956,Marta,Mendoza,508.730956,Bajo,0.0
4,5,67.0,8.0,1822.736043,Jorge,La Plata,227.842005,Medio,0.206496


'Archivo dataset_wrangle.csv guardado.'

Celda 15 – Lección 6: agrupamiento

In [26]:
# LECCIÓN 6 - Agrupamiento y pivoteo de datos

# 1. Agrupamiento por ciudad
# Observed True o False si quieres mantener 100% el comportamiento actual
if "Ciudad" in df_wrangle.columns:
    agrupado_ciudad = df_wrangle.groupby("Ciudad", observed=True).agg({
        "Total_Compras": "sum",
        "Monto_Total": ["sum", "mean"],
        "Ticket_Promedio": "mean"
    })
    display(agrupado_ciudad)
else:
    agrupado_ciudad = pd.DataFrame()
    agrupado_ciudad


Unnamed: 0_level_0,Total_Compras,Monto_Total,Monto_Total,Ticket_Promedio
Unnamed: 0_level_1,sum,sum,mean,mean
Ciudad,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Bahía Blanca,13.0,1813.642106,1813.642106,139.510931
Buenos Aires,15.0,2880.3106,2880.3106,192.020707
Córdoba,11.0,4285.238783,4285.238783,389.567162
La Plata,8.0,1822.736043,1822.736043,227.842005
Mendoza,1.0,508.730956,508.730956,508.730956
Neuquén,19.0,2771.991443,2771.991443,145.894286
Rosario,11.0,6872.087057,6872.087057,624.735187
Salta,4.0,2713.030294,2713.030294,678.257573
Santa Fe,17.0,5074.562475,5074.562475,298.503675
Tucumán,14.0,2432.937968,2432.937968,173.781283


Celda 16 – Pivot y melt

In [27]:
# 2. Pivot por Ciudad y Segmento_Monto
if "Ciudad" in df_wrangle.columns and "Segmento_Monto" in df_wrangle.columns:
    tabla_pivot = df_wrangle.pivot_table(
        index="Ciudad",
        columns="Segmento_Monto",
        values="Monto_Total",
        aggfunc="mean",
        observed=True
# Observed True o False si quieres mantener 100% el comportamiento actual
    )
    display(tabla_pivot)
else:
    tabla_pivot = pd.DataFrame()

# 3. Melt: volver a formato largo
if not tabla_pivot.empty:
    tabla_melt = tabla_pivot.reset_index().melt(
        id_vars="Ciudad",
        var_name="Segmento_Monto",
        value_name="Monto_Promedio"
    )
    display(tabla_melt.head())
else:
    tabla_melt = pd.DataFrame()


Segmento_Monto,Bajo,Medio,Alto
Ciudad,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Bahía Blanca,,1813.642106,
Buenos Aires,,2880.3106,
Córdoba,,,4285.238783
La Plata,,1822.736043,
Mendoza,508.730956,,
Neuquén,,2771.991443,
Rosario,,,6872.087057
Salta,,2713.030294,
Santa Fe,,,5074.562475
Tucumán,,2432.937968,


Unnamed: 0,Ciudad,Segmento_Monto,Monto_Promedio
0,Bahía Blanca,Bajo,
1,Buenos Aires,Bajo,
2,Córdoba,Bajo,
3,La Plata,Bajo,
4,Mendoza,Bajo,508.730956


Celda 17 – Exportar dataset final

In [29]:
# 4. Exportar dataset final listo para análisis

df_wrangle.to_csv("D:/000_ANALISTA DATOS , TALENTO DIGITAL/002_A3/PROYECTO/dataset_final.csv", index=False)
df_wrangle.to_excel("D:/000_ANALISTA DATOS , TALENTO DIGITAL/002_A3/PROYECTO/dataset_final.xlsx", index=False)

"dataset_final.csv y dataset_final.xlsx exportados correctamente."


'dataset_final.csv y dataset_final.xlsx exportados correctamente.'