In [10]:
import pandas as pd

url = "https://gist.githubusercontent.com/pravalliyaram/5c05f43d2351249927b8a3f3cc3e5ecf/raw/8bd6144a87988213693754baaa13fb204933282d/Mall_Customers.csv"

df = pd.read_csv(url)

# Mostrar el dataset original (primeras filas + información)
print("Dataset original (primeras filas)")
print(df.head())
print("\n=== Información / tipos ===")
print(df.info())

df_original = df.copy()

# Normalizar nombres de columnas para trabajar más cómodamente
print("\n--- Normalizando nombres de columnas ---")
df = df.rename(columns={
    "CustomerID": "CustomerID",
    "Gender": "Gender",
    "Age": "Age",
    "Annual Income (k$)": "AnnualIncome_k",
    "Spending Score (1-100)": "SpendingScore"
})
print("Columnas después de normalizar:", df.columns.tolist())

# (Celda 4) Añadir columnas derivadas y constantes

# Mostrar antes
print("\n--- Antes de añadir columnas ---")
print(df.head())

# a) Columna numérica derivada: AnnualIncome en dólares (k$ -> USD)
# Convertimos a numérico (por si está como string) y multiplicamos por 1000
df["AnnualIncome_k"] = pd.to_numeric(df["AnnualIncome_k"], errors="coerce")
df["AnnualIncome_USD"] = df["AnnualIncome_k"] * 1000

# b) Columna de valor constante (ejemplo)
df["CategoriaCliente"] = "Cliente"

# Mostrar después
print("\n--- Después de añadir 'AnnualIncome_USD' y 'CategoriaCliente' ---")
print(df[["AnnualIncome_k", "AnnualIncome_USD", "CategoriaCliente"]].head())

# Validación simple
assert "AnnualIncome_USD" in df.columns, "No se creó AnnualIncome_USD correctamente."

# (Celda 5) Eliminar columnas que no necesitemos
# Mostramos columnas antes de eliminar
print("\n--- Columnas antes de eliminar ---")
print(df.columns.tolist())

# Ejemplo: eliminar 'CustomerID' (si queremos trabajar sin identificadores)
if "CustomerID" in df.columns:
    df = df.drop("CustomerID", axis=1)
    print("\n'CustomerID' eliminado.")
else:
    print("\n'CustomerID' no existe; nada que eliminar.")

# Mostrar columnas después
print("\n--- Columnas después de eliminar ---")
print(df.columns.tolist())

# Validación: confirmar que CustomerID ya no está
assert "CustomerID" not in df.columns, "CustomerID sigue presente tras el drop."

# (Celda 6) Modificar columnas: renombrar y transformar valores

# a) Renombrar 'Gender' a 'Genero' (nombres en español)
print("\n--- Renombrando columna 'Gender' a 'Genero' ---")
print("Columnas antes:", df.columns.tolist())
df = df.rename(columns={"Gender": "Genero"})
print("Columnas después:", df.columns.tolist())
assert "Genero" in df.columns, "Renombrado fallido."

# b) Mapear valores de genero: 'Male'->'M', 'Female'->'F'
print("\n--- Transformando valores en 'Genero' (Male/Female -> M/F) ---")
print("Antes (valores únicos):", df["Genero"].unique())
df["Genero"] = df["Genero"].map({"Male": "M", "Female": "F"})
print("Después (valores únicos):", df["Genero"].unique())

# c) Asegurar tipo numérico para 'SpendingScore'
print("\n--- Tipos antes de conversión ---")
print(df[["SpendingScore"]].dtypes)
df["SpendingScore"] = pd.to_numeric(df["SpendingScore"], errors="coerce").astype("Int64")  # Int nullable
print("\n--- Tipos después de conversión ---")
print(df[["SpendingScore"]].dtypes)

# Comprobaciones
assert "Genero" in df.columns, "La columna 'Genero' debería existir."
assert pd.api.types.is_integer_dtype(df["SpendingScore"].dtype), "SpendingScore no es entero después de conversion."

# (Celda 7) Mostrar resumen final y validar cambios
print("=== Primeras filas del dataset final ===")
print(df.head())

print("\n Estructura final ")
print(df.info())

print("\n Columnas finales")
print(df.columns.tolist())

# Comparación con original (opcional): mostrar diferencias de columnas
cols_orig = set(df_original.columns)
cols_final = set(df.columns)
print("\n Columnas eliminadas:", cols_orig - cols_final)
print("Columnas añadidas:", cols_final - cols_orig)






Dataset original (primeras filas)
   CustomerID  Gender  Age  Annual Income (k$)  Spending Score (1-100)
0           1    Male   19                  15                      39
1           2    Male   21                  15                      81
2           3  Female   20                  16                       6
3           4  Female   23                  16                      77
4           5  Female   31                  17                      40

=== Información / tipos ===
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 200 entries, 0 to 199
Data columns (total 5 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   CustomerID              200 non-null    int64 
 1   Gender                  200 non-null    object
 2   Age                     200 non-null    int64 
 3   Annual Income (k$)      200 non-null    int64 
 4   Spending Score (1-100)  200 non-null    int64 
dtypes: int64(4), object(1)
memory usage: 7