---
# ✅ Tarea (para entregar)
Crea un notebook llamado **`funciones_modulares.ipynb`** con un mini-proyecto:

- Define un conjunto de funciones para **limpiar datos** (eliminar duplicados, reemplazar valores nulos, convertir tipos).  
- Pruébalas con un **dataset pequeño** en CSV (puedes partir del que generamos aquí o crear uno propio).  
- Usa **docstrings** en todas tus funciones.  
- Muestra **estadísticas** (media, mediana, moda y rango) de al menos una columna numérica.

In [2]:
import csv, os

ruta_csv = "dataset_demo.csv"
filas = [
    {"id":"1", "name":"Ana",   "age":"25", "height_cm":"165", "score":"9.5"},
    {"id":"2", "name":"Luis",  "age":"",   "height_cm":"175", "score":"8.0"},
    {"id":"3", "name":"Marta", "age":"N/A","height_cm":"",    "score":"7.0"},
    {"id":"3", "name":"Marta", "age":"N/A","height_cm":"",    "score":"7.0"},  # duplicado por id
    {"id":"4", "name":"",      "age":"31", "height_cm":"172", "score":""},
    {"id":"5", "name":"Juan",  "age":"twenty", "height_cm":"180", "score":"8.7"},
    {"id":"6", "name":"Ana",   "age":None,  "height_cm":"160", "score":""},
    {"id":"7", "name":"Lucía", "age":"28", "height_cm":"167", "score":"9.0"},
    {"id":"8", "name":"Pablo", "age":"27", "height_cm":"169", "score":"N/A"},
    {"id":"9", "name":"",      "age":"",   "height_cm":"",    "score":""},
]

with open(ruta_csv, "w", newline="", encoding="utf-8") as f:
    w = csv.DictWriter(f, fieldnames=filas[0].keys())
    w.writeheader()
    w.writerows(filas)

ruta_csv

'dataset_demo.csv'

In [5]:
from limpiezafunc.limpieza import eliminar_duplicados, reemplazar_nulos, convertir_tipos
# 1) Cargar CSV a lista de dicts
with open("dataset_demo.csv", newline="", encoding="utf-8") as f:
    reader = csv.DictReader(f)
    data = list(reader)

print("Filas originales:", len(data))

# 2) Eliminar duplicados por 'id'
sin_dups = eliminar_duplicados(data, clave="id")
print("Tras eliminar duplicados:", len(sin_dups))

# 3) Reemplazar nulos/vacíos por valores por defecto
sustitutos = {"name":"Desconocido", "age":"0", "height_cm":"0", "score":"0"}
rellenos = reemplazar_nulos(sin_dups, sustitutos)

# 4) Convertir tipos
def to_int_safe(x):
    try:
        return int(x)
    except Exception:
        return None

def to_float_safe(x):
    try:
        return float(x)
    except Exception:
        return None

convertidos = convertir_tipos(rellenos, {
    "age": to_int_safe,
    "height_cm": to_int_safe,
    "score": to_float_safe
})

# Vista previa (primeras 5 filas)
for fila in convertidos[:5]:
    print(fila)
    

Filas originales: 10
Tras eliminar duplicados: 9
{'id': '1', 'name': 'Ana', 'age': 25, 'height_cm': 165, 'score': 9.5}
{'id': '2', 'name': 'Luis', 'age': 0, 'height_cm': 175, 'score': 8.0}
{'id': '3', 'name': 'Marta', 'age': 0, 'height_cm': 0, 'score': 7.0}
{'id': '4', 'name': 'Desconocido', 'age': 31, 'height_cm': 172, 'score': 0.0}
{'id': '5', 'name': 'Juan', 'age': None, 'height_cm': 180, 'score': 8.7}


In [18]:
from estadistica.estadistica import media, mediana, moda
conjunto_calif=[10,2,3,5,4,5,4,5,4,5,1,2,1,2,1,2,1,2,1,2,10,0,0,0,0,0,10000]
print(f"La media de las calificaciones es {round(media(conjunto_calif),2)}")
print(f"La moda de las calificaciones es {round(moda(conjunto_calif),2)}")
print(f"La mediana de las calificaciones es {round(mediana(conjunto_calif),2)}")

edades = [f["age"] for f in convertidos if f["age"] is not None]
alturas = [f["height_cm"] for f in convertidos if f["height_cm"] is not None]
scores = [f["score"] for f in convertidos if f["score"] is not None]

print(f"la columna edades{edades}")
print(f"La media de las edades es {round(media(edades),2)}")
print(f"La moda de las edades es {round(moda(edades),2)}")
print(f"La mediana de las edades es {round(mediana(edades),2)}")



La media de las calificaciones es 373.04
La moda de las calificaciones es 2
La mediana de las calificaciones es 2.0
la columna edades[25, 0, 0, 31, 0, 28, 27, 0]
La media de las edades es 13.88
La moda de las edades es 0
La mediana de las edades es 12.5
