# 🔢 Laboratorio de Tipos de Datos

En este laboratorio exploraremos a fondo los tipos de datos en Python, aprenderemos conversiones y técnicas avanzadas de manipulación que son esenciales para el análisis de datos.

## ✅ Objetivos
- Dominar la conversión entre tipos (casting)
- Manipular strings para limpieza de datos
- Validar y verificar tipos de datos
- Formatear datos para reportes profesionales

## 1. Conversión de Tipos (Type Casting)

En análisis de datos, frecuentemente necesitamos convertir entre tipos:

In [None]:
# Datos que vienen como strings (común en archivos CSV)
edad_str = "28"
salario_str = "45000.50"
activo_str = "True"

print("Datos originales (como strings):")
print(f"Edad: '{edad_str}' (tipo: {type(edad_str)})")
print(f"Salario: '{salario_str}' (tipo: {type(salario_str)})")
print(f"Activo: '{activo_str}' (tipo: {type(activo_str)})")

# Conversiones
edad = int(edad_str)           # String -> Integer
salario = float(salario_str)   # String -> Float
activo = bool(activo_str)      # String -> Boolean

print("\nDatos convertidos:")
print(f"Edad: {edad} (tipo: {type(edad)})")
print(f"Salario: {salario} (tipo: {type(salario)})")
print(f"Activo: {activo} (tipo: {type(activo)})")

# Ahora podemos hacer operaciones
print(f"\nOperaciones:")
print(f"Edad en 5 años: {edad + 5}")
print(f"Salario anual: ${salario * 12:,.2f}")
print(f"Estado: {'Empleado activo' if activo else 'Empleado inactivo'}")

### Conversiones Seguras vs. Peligrosas

In [None]:
# ✅ Conversiones seguras
print("Conversiones seguras:")
numero_entero = 42
numero_decimal = float(numero_entero)  # int -> float (siempre funciona)
print(f"{numero_entero} -> {numero_decimal}")

texto = str(numero_entero)  # cualquier tipo -> string (siempre funciona)
print(f"{numero_entero} -> '{texto}'")

# ⚠️ Conversiones que pueden fallar
print("\nConversiones que requieren cuidado:")

# Esto funciona
numero_texto = "123"
numero = int(numero_texto)
print(f"'{numero_texto}' -> {numero} ✅")

# Esto NO funciona (descomenta para ver el error)
try:
    texto_invalido = "abc123"
    numero_fallido = int(texto_invalido)  # ValueError!
except ValueError as e:
    print(f"'{texto_invalido}' -> Error: {e} ❌")

# Flotante a entero (pierde decimales)
pi = 3.14159
pi_entero = int(pi)  # Trunca, no redondea
print(f"{pi} -> {pi_entero} (se pierde información ⚠️)")

## 2. Validación de Tipos

Antes de convertir, es buena práctica validar:

In [None]:
def validar_y_convertir(valor, tipo_destino):
    """
    Valida y convierte un valor al tipo especificado de manera segura
    """
    if tipo_destino == int:
        if isinstance(valor, str) and valor.isdigit():
            return int(valor)
        elif isinstance(valor, (int, float)):
            return int(valor)
    
    elif tipo_destino == float:
        try:
            return float(valor)
        except ValueError:
            return None
    
    elif tipo_destino == bool:
        if isinstance(valor, str):
            return valor.lower() in ['true', '1', 'yes', 'sí', 'verdadero']
        return bool(valor)
    
    return None

# Pruebas de validación
valores_prueba = ["123", "45.67", "abc", "True", "0", ""]

print("Validación y conversión segura:")
for valor in valores_prueba:
    int_val = validar_y_convertir(valor, int)
    float_val = validar_y_convertir(valor, float)
    bool_val = validar_y_convertir(valor, bool)
    
    print(f"'{valor}': int={int_val}, float={float_val}, bool={bool_val}")

## 3. Manipulación Avanzada de Strings

Los strings son cruciales para limpieza de datos:

In [None]:
# Datos "sucios" típicos de archivos reales
nombre_sucio = "  MARÍA  JOSÉ GARCÍA-LÓPEZ  "
email_sucio = "  Maria.Garcia@EMPRESA.COM.mx  "
telefono_sucio = "  +52-(555)-123-4567  "
direccion_sucia = "  AV. REFORMA #1234, COL. CENTRO, CDMX  "

print("Datos originales (sucios):")
print(f"Nombre: '{nombre_sucio}'")
print(f"Email: '{email_sucio}'")
print(f"Teléfono: '{telefono_sucio}'")
print(f"Dirección: '{direccion_sucia}'")

# Limpieza de datos
nombre_limpio = nombre_sucio.strip().title()  # Quitar espacios y capitalizar
email_limpio = email_sucio.strip().lower()    # Quitar espacios y minúsculas
telefono_limpio = telefono_sucio.strip().replace("-", "").replace("(", "").replace(")", "")
direccion_limpia = direccion_sucia.strip().title()

print("\nDatos limpios:")
print(f"Nombre: '{nombre_limpio}'")
print(f"Email: '{email_limpio}'")
print(f"Teléfono: '{telefono_limpio}'")
print(f"Dirección: '{direccion_limpia}'")

### Métodos Útiles de Strings para Data Analytics

In [None]:
texto_ejemplo = "Análisis de Datos con Python 2024"

print(f"Texto original: '{texto_ejemplo}'")
print(f"Longitud: {len(texto_ejemplo)}")
print(f"Mayúsculas: {texto_ejemplo.upper()}")
print(f"Minúsculas: {texto_ejemplo.lower()}")
print(f"Capitalizado: {texto_ejemplo.capitalize()}")
print(f"Título: {texto_ejemplo.title()}")

# Verificaciones útiles
print(f"\nVerificaciones:")
print(f"¿Contiene 'Python'? {texto_ejemplo.find('Python') != -1}")
print(f"¿Empieza con 'Análisis'? {texto_ejemplo.startswith('Análisis')}")
print(f"¿Termina con '2024'? {texto_ejemplo.endswith('2024')}")

# Separar y unir
palabras = texto_ejemplo.split(' ')
print(f"\nPalabras: {palabras}")
print(f"Reunidas con '-': {'-'.join(palabras)}")

# Reemplazos
nuevo_texto = texto_ejemplo.replace('2024', '2025')
print(f"Reemplazado: {nuevo_texto}")

## 4. Formateo Profesional de Datos

Presentar datos de manera clara y profesional:

In [None]:
# Datos para formatear
empleado = "Ana Rodriguez"
salario = 52750.789
porcentaje_bono = 0.125
fecha = "2024-01-15"
numero_empleado = 123

print("=== REPORTE FINANCIERO ===")
print()

# Formateo con f-strings (recomendado)
print(f"Empleado: {empleado}")
print(f"ID: {numero_empleado:04d}")  # Rellenar con ceros
print(f"Salario: ${salario:,.2f}")     # Comas y 2 decimales
print(f"Bono: {porcentaje_bono:.1%}")  # Porcentaje con 1 decimal
print(f"Fecha: {fecha}")

# Cálculos con formato
bono_mensual = salario * porcentaje_bono
salario_total = salario + bono_mensual
salario_anual = salario_total * 12

print()
print("CÁLCULOS:")
print(f"Bono mensual: ${bono_mensual:>10,.2f}")      # Alineado a la derecha
print(f"Salario total: ${salario_total:>9,.2f}")
print(f"Ingreso anual: ${salario_anual:>9,.2f}")

# Formato de tabla
print("\n=== TABLA FORMATEADA ===")
print(f"{'Concepto':<15} {'Mensual':>12} {'Anual':>15}")
print("-" * 45)
print(f"{'Salario Base':<15} ${salario:>11,.2f} ${salario*12:>14,.2f}")
print(f"{'Bono':<15} ${bono_mensual:>11,.2f} ${bono_mensual*12:>14,.2f}")
print("-" * 45)
print(f"{'TOTAL':<15} ${salario_total:>11,.2f} ${salario_anual:>14,.2f}")

## 5. 🎯 Ejercicios Prácticos

### Ejercicio 1: Limpiador de Datos CSV

In [None]:
# TODO: Implementa un limpiador de datos CSV

# Datos simulando un archivo CSV "sucio"
datos_csv = [
    "  1  ,  JUAN PÉREZ  ,  25  ,  35000.50  ,  TRUE  ",
    "  2  ,  maría garcía-lópez  ,  30  ,  42750.00  ,  true  ",
    "  3  ,  CARLOS RODRÍGUEZ  ,  28  ,  38500.75  ,  FALSE  ",
    "  4  ,  ana torres-silva  ,  35  ,  51000.00  ,  1  ",
    "  5  ,  ROBERTO CHEN-WU  ,  29  ,  45250.25  ,  0  "
]

print("🧹 LIMPIADOR DE DATOS CSV")
print("=" * 50)
print("Datos originales:")
for fila in datos_csv:
    print(f"  {fila}")

print("\nDatos procesados:")
print(f"{'ID':<3} {'Nombre':<20} {'Edad':<5} {'Salario':<12} {'Activo':<7}")
print("-" * 50)

def limpiar_fila_csv(fila):
    # Separar por comas y limpiar espacios
    campos = [campo.strip() for campo in fila.split(',')]
    
    # Extraer y convertir cada campo
    id_emp = int(campos[0])
    nombre = campos[1].title()  # Formato de título
    edad = int(campos[2])
    salario = float(campos[3])
    
    # Convertir activo a boolean
    activo_str = campos[4].lower()
    activo = activo_str in ['true', '1', 'yes', 'sí']
    
    return id_emp, nombre, edad, salario, activo

# Procesar todos los registros
empleados_procesados = []
total_salarios = 0
empleados_activos = 0

for fila in datos_csv:
    id_emp, nombre, edad, salario, activo = limpiar_fila_csv(fila)
    empleados_procesados.append((id_emp, nombre, edad, salario, activo))
    
    # Estadísticas
    total_salarios += salario
    if activo:
        empleados_activos += 1
    
    # Mostrar fila limpia
    estado = "Sí" if activo else "No"
    print(f"{id_emp:<3} {nombre:<20} {edad:<5} ${salario:<11,.2f} {estado:<7}")

# Estadísticas finales
print("\n📊 ESTADÍSTICAS:")
print(f"Total empleados: {len(empleados_procesados)}")
print(f"Empleados activos: {empleados_activos}")
print(f"Salario promedio: ${total_salarios/len(empleados_procesados):,.2f}")
print(f"Nómina total: ${total_salarios:,.2f}")

### Ejercicio 2: Validador de Datos de Entrada

In [None]:
# TODO: Crea un validador robusto de datos

def validar_email(email):
    """Valida formato básico de email"""
    email = email.strip().lower()
    return '@' in email and '.' in email.split('@')[1]

def validar_telefono(telefono):
    """Valida y limpia número de teléfono"""
    # Limpiar caracteres no numéricos excepto +
    limpio = ''.join(c for c in telefono if c.isdigit() or c == '+')
    
    # Verificar longitud (10 dígitos para México sin código de país)
    if limpio.startswith('+52'):
        return len(limpio) == 13  # +52 + 10 dígitos
    return len(limpio) == 10

def validar_edad(edad_str):
    """Valida que la edad sea un número razonable"""
    try:
        edad = int(edad_str)
        return 18 <= edad <= 65  # Rango laboral típico
    except ValueError:
        return False

def validar_salario(salario_str):
    """Valida que el salario sea un número positivo"""
    try:
        salario = float(salario_str.replace(',', '').replace('$', ''))
        return salario > 0
    except ValueError:
        return False

# Datos de prueba (algunos válidos, otros no)
datos_prueba = [
    {
        "nombre": "María González",
        "email": "maria@empresa.com",
        "telefono": "555-123-4567",
        "edad": "28",
        "salario": "45,000.50"
    },
    {
        "nombre": "Juan Pérez",
        "email": "juan.empresa.com",  # Email inválido
        "telefono": "123",             # Teléfono inválido
        "edad": "17",                  # Edad inválida
        "salario": "-1000"             # Salario inválido
    },
    {
        "nombre": "Ana Torres",
        "email": "ana@correo.mx",
        "telefono": "+52-555-987-6543",
        "edad": "32",
        "salario": "$52,750.00"
    }
]

print("🔍 VALIDADOR DE DATOS")
print("=" * 40)

registros_validos = 0

for i, datos in enumerate(datos_prueba, 1):
    print(f"\nRegistro {i}: {datos['nombre']}")
    
    # Validar cada campo
    email_ok = validar_email(datos['email'])
    telefono_ok = validar_telefono(datos['telefono'])
    edad_ok = validar_edad(datos['edad'])
    salario_ok = validar_salario(datos['salario'])
    
    # Mostrar resultados
    print(f"  Email: {datos['email']} {'✅' if email_ok else '❌'}")
    print(f"  Teléfono: {datos['telefono']} {'✅' if telefono_ok else '❌'}")
    print(f"  Edad: {datos['edad']} {'✅' if edad_ok else '❌'}")
    print(f"  Salario: {datos['salario']} {'✅' if salario_ok else '❌'}")
    
    # Verificar si el registro es completamente válido
    registro_valido = all([email_ok, telefono_ok, edad_ok, salario_ok])
    
    if registro_valido:
        registros_validos += 1
        print(f"  Estado: ✅ VÁLIDO")
    else:
        print(f"  Estado: ❌ REQUIERE CORRECCIÓN")

print(f"\n📊 Resumen: {registros_validos}/{len(datos_prueba)} registros válidos")
print(f"Tasa de éxito: {registros_validos/len(datos_prueba)*100:.1f}%")

## 6. Trabajando con None y Valores Nulos

En análisis de datos, manejar valores faltantes es crucial:

In [None]:
# Datos con valores faltantes
empleados_incompletos = [
    {"nombre": "Carlos López", "edad": 30, "salario": 45000, "email": "carlos@empresa.com"},
    {"nombre": "Ana García", "edad": None, "salario": 52000, "email": None},
    {"nombre": "Luis Torres", "edad": 28, "salario": None, "email": "luis@empresa.com"},
    {"nombre": None, "edad": 35, "salario": 48000, "email": "empleado@empresa.com"}
]

print("📋 ANÁLISIS DE DATOS FALTANTES")
print("=" * 45)

def analizar_completitud(datos):
    total_registros = len(datos)
    campos_faltantes = {"nombre": 0, "edad": 0, "salario": 0, "email": 0}
    
    for registro in datos:
        for campo, valor in registro.items():
            if valor is None:
                campos_faltantes[campo] += 1
    
    print("Completitud de datos:")
    for campo, faltantes in campos_faltantes.items():
        completitud = ((total_registros - faltantes) / total_registros) * 100
        print(f"  {campo.capitalize()}: {completitud:.1f}% completo ({faltantes} faltantes)")
    
    return campos_faltantes

def limpiar_datos_faltantes(datos, estrategia="promedio"):
    """Limpia datos faltantes usando diferentes estrategias"""
    datos_limpios = []
    
    # Calcular valores de reemplazo
    edades = [emp["edad"] for emp in datos if emp["edad"] is not None]
    salarios = [emp["salario"] for emp in datos if emp["salario"] is not None]
    
    edad_promedio = sum(edades) / len(edades) if edades else 30
    salario_promedio = sum(salarios) / len(salarios) if salarios else 40000
    
    for i, empleado in enumerate(datos):
        empleado_limpio = empleado.copy()
        
        # Reemplazar valores faltantes
        if empleado_limpio["nombre"] is None:
            empleado_limpio["nombre"] = f"Empleado_{i+1:03d}"
        
        if empleado_limpio["edad"] is None:
            empleado_limpio["edad"] = int(edad_promedio)
        
        if empleado_limpio["salario"] is None:
            empleado_limpio["salario"] = salario_promedio
        
        if empleado_limpio["email"] is None:
            nombre_email = empleado_limpio["nombre"].lower().replace(" ", ".")
            empleado_limpio["email"] = f"{nombre_email}@empresa.com"
        
        datos_limpios.append(empleado_limpio)
    
    return datos_limpios

# Análisis inicial
analizar_completitud(empleados_incompletos)

# Limpiar datos
empleados_limpios = limpiar_datos_faltantes(empleados_incompletos)

print("\n🧹 DATOS DESPUÉS DE LA LIMPIEZA:")
for i, emp in enumerate(empleados_limpios, 1):
    print(f"{i}. {emp['nombre']} - {emp['edad']} años - ${emp['salario']:,.2f} - {emp['email']}")

print("\n✅ Todos los registros están ahora completos!")

## 🎯 Desafío Final: Procesador de Datos Empresariales

Integra todo lo aprendido en un sistema completo:

In [None]:
# TODO: Sistema completo de procesamiento de datos

import re
from datetime import datetime

class ProcesadorDatosEmpresariales:
    def __init__(self):
        self.SALARIO_MINIMO = 15000
        self.EDAD_MIN = 18
        self.EDAD_MAX = 65
        
    def limpiar_nombre(self, nombre):
        """Limpia y formatea nombres"""
        if not nombre or nombre.strip() == "":
            return None
        return nombre.strip().title()
    
    def validar_email(self, email):
        """Valida formato de email"""
        if not email:
            return False
        patron = r'^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$'
        return bool(re.match(patron, email.strip()))
    
    def normalizar_telefono(self, telefono):
        """Normaliza formato de teléfono"""
        if not telefono:
            return None
        # Extraer solo números
        numeros = re.sub(r'\D', '', telefono)
        
        if len(numeros) == 10:
            return f"{numeros[:3]}-{numeros[3:6]}-{numeros[6:]}"
        elif len(numeros) == 12 and numeros.startswith('52'):
            return f"+52-{numeros[2:5]}-{numeros[5:8]}-{numeros[8:]}"
        return None
    
    def procesar_registro(self, datos_crudos):
        """Procesa un registro completo"""
        resultado = {
            'valido': True,
            'errores': [],
            'datos_limpios': {}
        }
        
        # Procesar nombre
        nombre = self.limpiar_nombre(datos_crudos.get('nombre', ''))
        if not nombre:
            resultado['errores'].append('Nombre requerido')
            resultado['valido'] = False
        resultado['datos_limpios']['nombre'] = nombre
        
        # Procesar edad
        try:
            edad = int(datos_crudos.get('edad', 0))
            if not (self.EDAD_MIN <= edad <= self.EDAD_MAX):
                resultado['errores'].append(f'Edad debe estar entre {self.EDAD_MIN} y {self.EDAD_MAX}')
                resultado['valido'] = False
        except (ValueError, TypeError):
            edad = None
            resultado['errores'].append('Edad inválida')
            resultado['valido'] = False
        resultado['datos_limpios']['edad'] = edad
        
        # Procesar salario
        try:
            salario_str = str(datos_crudos.get('salario', '0')).replace('$', '').replace(',', '')
            salario = float(salario_str)
            if salario < self.SALARIO_MINIMO:
                resultado['errores'].append(f'Salario debe ser mínimo ${self.SALARIO_MINIMO:,}')
                resultado['valido'] = False
        except (ValueError, TypeError):
            salario = None
            resultado['errores'].append('Salario inválido')
            resultado['valido'] = False
        resultado['datos_limpios']['salario'] = salario
        
        # Procesar email
        email = datos_crudos.get('email', '').strip().lower()
        if not self.validar_email(email):
            resultado['errores'].append('Email inválido')
            resultado['valido'] = False
        resultado['datos_limpios']['email'] = email
        
        # Procesar teléfono
        telefono = self.normalizar_telefono(datos_crudos.get('telefono', ''))
        if not telefono:
            resultado['errores'].append('Teléfono inválido')
            resultado['valido'] = False
        resultado['datos_limpios']['telefono'] = telefono
        
        return resultado

# Datos de prueba del mundo real
datos_empresariales = [
    {"nombre": "  MARÍA JOSÉ GARCÍA  ", "edad": "28", "salario": "$45,000.50", 
     "email": "  MARIA.GARCIA@EMPRESA.COM  ", "telefono": "555-123-4567"},
    
    {"nombre": "carlos lópez", "edad": "35", "salario": "52750", 
     "email": "carlos@empresa.mx", "telefono": "+52-555-987-6543"},
    
    {"nombre": "", "edad": "17", "salario": "5000", 
     "email": "email_invalido", "telefono": "123"},
    
    {"nombre": "Ana Torres Silva", "edad": "32", "salario": "48,250.00", 
     "email": "ana.torres@correo.com", "telefono": "(555) 456-7890"}
]

# Procesamiento
procesador = ProcesadorDatosEmpresariales()

print("🏢 PROCESADOR DE DATOS EMPRESARIALES")
print("=" * 55)

registros_validos = []
registros_invalidos = []

for i, datos in enumerate(datos_empresariales, 1):
    print(f"\n📋 Procesando Registro #{i}")
    
    resultado = procesador.procesar_registro(datos)
    
    if resultado['valido']:
        registros_validos.append(resultado['datos_limpios'])
        datos_limpios = resultado['datos_limpios']
        print(f"✅ VÁLIDO: {datos_limpios['nombre']}")
        print(f"   Edad: {datos_limpios['edad']} años")
        print(f"   Salario: ${datos_limpios['salario']:,.2f}")
        print(f"   Email: {datos_limpios['email']}")
        print(f"   Teléfono: {datos_limpios['telefono']}")
    else:
        registros_invalidos.append((datos, resultado['errores']))
        print(f"❌ INVÁLIDO:")
        for error in resultado['errores']:
            print(f"   • {error}")

# Estadísticas finales
print(f"\n📊 ESTADÍSTICAS FINALES")
print("=" * 30)
print(f"Total registros procesados: {len(datos_empresariales)}")
print(f"Registros válidos: {len(registros_validos)}")
print(f"Registros inválidos: {len(registros_invalidos)}")
print(f"Tasa de éxito: {len(registros_validos)/len(datos_empresariales)*100:.1f}%")

if registros_validos:
    salario_promedio = sum(emp['salario'] for emp in registros_validos) / len(registros_validos)
    edad_promedio = sum(emp['edad'] for emp in registros_validos) / len(registros_validos)
    print(f"\nDatos de empleados válidos:")
    print(f"Salario promedio: ${salario_promedio:,.2f}")
    print(f"Edad promedio: {edad_promedio:.1f} años")

## 📝 Resumen de Conceptos Dominados

En este laboratorio hemos dominado:

✅ **Conversión de tipos**: Casting seguro y validación  
✅ **Manipulación de strings**: Limpieza y formateo de datos  
✅ **Validación robusta**: Verificar datos antes de procesar  
✅ **Formateo profesional**: Presentación clara de información  
✅ **Manejo de nulos**: Estrategias para datos faltantes  
✅ **Procesamiento completo**: Sistema integrado de limpieza  

## 🎯 Puntos Clave para el Data Analyst

1. **Siempre valida antes de convertir** - evita errores inesperados
2. **Los datos reales están sucios** - prepárate para limpiar
3. **El formateo importa** - presenta datos profesionalmente
4. **Documenta tus transformaciones** - otros necesitan entender tu trabajo
5. **Maneja valores nulos graciosamente** - son inevitables en datos reales

## 🚀 Siguiente Aventura

En la [Sesión 3: Estructuras de Control](../Sesion_03_Estructuras_Control/) aprenderemos a:
- Tomar decisiones con if/elif/else
- Crear lógica condicional compleja
- Validar datos con condiciones
- Construir flujos de trabajo inteligentes

---

**¡Felicidades por dominar los tipos de datos! 🎊**