# <div style="background-color: #b74ff8ff; padding:10px; border-radius:10px; color: #ffffffff; font-weight: bold"> üìù Ejercicio propuesto </div>
<div style="background-color: #abdbe3ff; padding:10px; border-radius:10px"> <p>Imagina que eres analista de datos en una empresa que recibe registros de clientes desde m√∫ltiples fuentes (formularios web, exportes legacy y hojas de c√°lculo). <em>Los datos llegan con errores t√≠picos: marcadores de faltantes inconsistentes ("N/A", "NULL", "?", cadena vac√≠a), s√≠mbolos en n√∫meros ($, ,), fechas en formatos mixtos y texto con espacios/uso de may√∫sculas irregular. Y debes organizar estos datos para presentarlos a los directivos. <strong>¬øC√≥mo lo har√≠as?</strong></em></p></div>

<div><p><strong>Para hacerlo te damos unas pistas üí°:</strong></p></div>
<div> 
    <ol style="list-style:none; padding-left:0;">
    <li style="margin:6px 0;">
        <span style="display:inline-block; width:30px; height:24px; line-height:24px; text-align:center; border-radius:6px; background:#ef4444; color:#fff; font-weight:700; margin-right:10px;">1</span>
        Detectar valores nulos como <code>N/A</code>, <code>NULL</code>, <code>?</code> y convertirlos a <code>NaN</code>.
    </li>
    <li style="margin:6px 0;">
        <span style="display:inline-block; width:30px; height:24px; line-height:24px; text-align:center; border-radius:6px; background:#f59e0b; color:#fff; font-weight:700; margin-right:10px;">2</span>
        Reemplazar marcadores faltantes por <code>NaN</code>.
    </li>
    <li style="margin:6px 0;">
        <span style="display:inline-block; width:30px; height:24px; line-height:24px; text-align:center; border-radius:6px; background:#10b981; color:#fff; font-weight:700; margin-right:10px;">3</span>
        Convertir tipos de datos: n√∫meros y fechas.
    </li>
    <li style="margin:6px 0;">
        <span style="display:inline-block; width:30px; height:24px; line-height:24px; text-align:center; border-radius:6px; background:#60a5fa; color:#fff; font-weight:700; margin-right:10px;">4</span>
        Limpiar texto como <em>Customer Name</em> y <em>Gender</em>.
    </li>
    </ol>
</div>

>üö®Recuerdaüö® <em>Para realizar este ejercicio puedes encontrar toda la informaci√≥n teorica necesaria en <code>Notebook_demo</code> </em>


## 1) Dataset crudo (de ejemplo)
Generamos un DataFrame con problemas comunes para demostrar los pasos de limpieza.


In [1]:

import pandas as pd
import numpy as np
import os
import sqlite3



# Dataset de ejemplo con datos crudos y problemas comunes
df = pd.DataFrame({
    "Customer Name": ["John Doe ",      # Espacio al final
                      "  JANE DOE",     # Espacios al inicio y may√∫sculas
                      "Alice smith",    # Inconsistente en min√∫sculas
                      "M√°rio   Santos", # M√∫ltiples espacios + acento
                      "",               # Cadena vac√≠a (faltante)
                      "NULL"],          # Texto "NULL" (faltante)
    "Income": ["$50,000",  # S√≠mbolo + separador miles
               "N/A",      # Marcador faltante
               "$2,500",   # S√≠mbolo + separador miles
               "10000",    # Num√©rico como texto
               "?",        # Marcador faltante
               "NULL"],    # Marcador faltante
    "Signup Date": ["12/05/2022",  # dd/mm/yyyy
                    "2021-07-30",  # yyyy-mm-dd
                    "15/07/2020",  # dd/mm/yyyy
                    "2020-01-05",  # yyyy-mm-dd
                    "N/A",         # faltante
                    "NULL"],       # faltante
    "Gender": ["M", "Female", "female", "F", "?", "NULL"]
})

print("Datos de ejemplo (crudos):")
df

# üíæ Guardar copia del dataset original para comparaci√≥n posterior
df_original = df.copy()


Datos de ejemplo (crudos):



## 2) Detecci√≥n de valores nulos
Antes de limpiar, verificamos cu√°ntos **nulos reales** detecta pandas (notar que a√∫n no convertimos marcadores como `N/A`, `NULL`, `?` a `NaN`).


In [63]:

print("Valores nulos antes de la limpieza:")
df.isna().sum()


Valores nulos antes de la limpieza:


Customer Name    0
Income           0
Signup Date      0
Gender           0
dtype: int64


## 3) Reemplazo de marcadores faltantes por `NaN`
Convertimos `""` (cadena vac√≠a), `"?"`, `"N/A"` y `"NULL"` a `NaN` para que pandas los trate como faltantes.


In [64]:

df = df.replace(["", "?", "N/A", "NULL"], np.nan)
print("Valores nulos despu√©s del reemplazo:")
df.isna().sum()


Valores nulos despu√©s del reemplazo:


Customer Name    2
Income           3
Signup Date      2
Gender           2
dtype: int64


## 4) Conversi√≥n de tipos (n√∫mero y fecha)
**Income:** remover s√≠mbolos (`$`, `,`) y convertir a num√©rico.  
**Signup Date:** convertir a `datetime`, tolerando formatos mixtos y errores.


In [65]:
# Income a num√©rico (con manejo seguro de NaN)
df['Income'] = df['Income'].astype(str).str.replace(r'[\$,]', '', regex=True)
df['Income'] = pd.to_numeric(df['Income'], errors='coerce')

# Signup Date a datetime (dd/mm/yyyy y yyyy-mm-dd)
df['Signup Date'] = pd.to_datetime(df['Signup Date'], dayfirst=True, errors='coerce')

print("‚úÖ Tipos de datos despu√©s de conversi√≥n:")
df.dtypes

‚úÖ Tipos de datos despu√©s de conversi√≥n:


Customer Name            object
Income                  float64
Signup Date      datetime64[ns]
Gender                   object
dtype: object


## 5) Limpieza de texto (Customer Name y Gender)
- `Customer Name`: quitar espacios extra y normalizar a *Title Case*.  
- `Gender`: normalizar a categor√≠as **Male/Female**.


In [66]:

# Customer Name: strip + espacios m√∫ltiples a uno + Title Case (manejo seguro)
df['Customer Name'] = df['Customer Name'].astype(str).str.strip()
df['Customer Name'] = df['Customer Name'].str.replace(r'\s+', ' ', regex=True)
df['Customer Name'] = df['Customer Name'].str.title()

# Gender: normalizar (manejo seguro de NaN)
df['Gender'] = df['Gender'].astype(str).str.strip().str.lower()
df['Gender'] = df['Gender'].replace({'m': 'male', 'male': 'male', 'f': 'female', 'female': 'female', 'nan': np.nan})
df['Gender'] = df['Gender'].str.capitalize()

print("‚úÖ Limpieza de texto completada:")
df[['Customer Name','Gender']]


‚úÖ Limpieza de texto completada:


Unnamed: 0,Customer Name,Gender
0,John Doe,Male
1,Jane Doe,Female
2,Alice Smith,Female
3,M√°rio Santos,Female
4,Nan,
5,Nan,



## 6) Reglas m√≠nimas y resumen final
- (Opcional) Remover filas sin informaci√≥n clave.  
- Resetear el √≠ndice.  
- Revisar el estado final del DataFrame.


In [67]:

# Ejemplo: eliminar filas sin nombre e ingreso
df_clean = df.dropna(subset=['Customer Name', 'Income'], how='any').reset_index(drop=True)

print("‚úÖ Filas v√°lidas despu√©s de limpieza:")
print(f"   üìä Antes: {len(df)} filas")
print(f"   üìä Despu√©s: {len(df_clean)} filas")
print(f"   üóëÔ∏è Eliminadas: {len(df) - len(df_clean)} filas")

print("\nüìã Tipos de datos finales:")
display(df_clean.dtypes)

print("\nüìÑ DataFrame final:")
df_clean


‚úÖ Filas v√°lidas despu√©s de limpieza:
   üìä Antes: 6 filas
   üìä Despu√©s: 3 filas
   üóëÔ∏è Eliminadas: 3 filas

üìã Tipos de datos finales:


Customer Name            object
Income                  float64
Signup Date      datetime64[ns]
Gender                   object
dtype: object


üìÑ DataFrame final:


Unnamed: 0,Customer Name,Income,Signup Date,Gender
0,John Doe,50000.0,2022-05-12,Male
1,Alice Smith,2500.0,2020-07-15,Female
2,M√°rio Santos,10000.0,NaT,Female



## 7) Comparaci√≥n **Antes vs. Despu√©s**
Para visualizar el impacto de la limpieza, mostramos una tabla comparativa con algunas filas del dataset original frente al dataset limpio.


In [68]:

print("üìä COMPARACI√ìN COMPLETA - ANTES VS DESPU√âS")
print("=" * 60)

print("\nüî¥ ANTES (datos crudos):")
print("-" * 30)
display(df_original)

print("\nüü¢ DESPU√âS (datos limpios):")
print("-" * 30)
display(df_clean)

# Resumen de la transformaci√≥n
print(f"\nüìä RESUMEN DE LA LIMPIEZA:")
print(f"   üìä Registros originales: {len(df_original)}")
print(f"   üìä Registros finales: {len(df_clean)}")
print(f"   üóëÔ∏è Registros eliminados: {len(df_original) - len(df_clean)}")
print(f"   üìà Tasa de conservaci√≥n: {(len(df_clean)/len(df_original)*100):.1f}%")

üìä COMPARACI√ìN COMPLETA - ANTES VS DESPU√âS

üî¥ ANTES (datos crudos):
------------------------------


Unnamed: 0,Customer Name,Income,Signup Date,Gender
0,John Doe,"$50,000",12/05/2022,M
1,JANE DOE,,2021-07-30,Female
2,Alice smith,"$2,500",15/07/2020,female
3,M√°rio Santos,10000,2020-01-05,F
4,,?,,?
5,,,,



üü¢ DESPU√âS (datos limpios):
------------------------------


Unnamed: 0,Customer Name,Income,Signup Date,Gender
0,John Doe,50000.0,2022-05-12,Male
1,Alice Smith,2500.0,2020-07-15,Female
2,M√°rio Santos,10000.0,NaT,Female



üìä RESUMEN DE LA LIMPIEZA:
   üìä Registros originales: 6
   üìä Registros finales: 3
   üóëÔ∏è Registros eliminados: 3
   üìà Tasa de conservaci√≥n: 50.0%


In [70]:
# Crear carpeta "export" si no existe
os.makedirs("export", exist_ok=True)

print("Exportando dataset de clientes limpios...")

# 1) CSV - formato m√°s universal para an√°lisis de datos
df_clean.to_csv("export/clientes_limpios.csv", index=False, encoding="utf-8")
print("CSV exportado: export/clientes_limpios.csv")

# 2) Excel - formato empresarial est√°ndar
df_clean.to_excel("export/clientes_limpios.xlsx", index=False)
print("Excel exportado: export/clientes_limpios.xlsx")

# 3) JSON - formato para APIs y aplicaciones web
df_clean.to_json("export/clientes_limpios.json", orient="records", indent=2, force_ascii=False)
print("JSON exportado: export/clientes_limpios.json")

# 4) SQL (SQLite) - base de datos para consultas complejas
con = sqlite3.connect("export/clientes_database.db")
df_clean.to_sql("clientes_limpios", con, if_exists="replace", index=False)
con.close()
print("Base de datos SQLite creada: export/clientes_database.db")



Exportando dataset de clientes limpios...
CSV exportado: export/clientes_limpios.csv
Excel exportado: export/clientes_limpios.xlsx
JSON exportado: export/clientes_limpios.json
Base de datos SQLite creada: export/clientes_database.db
