# Guía de Python para Ingeniería de Datos 🐍
Esta guía busca detallar los temas mas importantes que necesitas aprender de Python para convertirte en un ingeniero de datos.

Es un lenguaje de programación sencillo de aprender, pero lo suficientemente poderoso para manejar tareas complejas: desde limpiar archivos enormes, automatizar procesos repetitivos, hasta construir modelos de machine learning e IA.

**¿Por qué deberías Aprender Python?**
- Acceso mayoritario a oportunidades: Segun algunas encuestas, si el ~74% de las vacantes en ingenieria de datos requiere Python, no saberlo te deja fuera de la mayoría de los puestos disponibles.

- Alta demanda y crecimiento sostenido: La ingeniería de datos es uno de los campos tecnológicos más dinámicos, con empleabilidad en alza y remuneración competitiva, donde Python es clave.

- Relevancia específica en el ecosistema: Si aspiras a trabajar en pipelines, ETL, infraestructuras, Airflow, PySpark, etc., Python es la herramienta número uno.


### Variables
Piensa en una caja con etiqueta donde guardas información. La etiqueta es el nombre de la variable y el contenido puede cambiar (números, texto, etc.). Dicho contenido tiene un tipo que puede ser uno de los siguientes:

- `int` : Enteros e.g. `edad = 30`
- `float` : Decimales e.g. `precio = 19.99 `
- `str` : Cadenas de texto e.g. `nombre = "Alejandro"`
- `bool`: Booleano e.g. `True or False`

In [2]:
# Esto es un comentario y no será ejecutado o procesado por Python
# ayuda a explicar el código y hacerlo más legible

# Creemos variables de diferentes tipos
numero = 5
decimal = 3.14
texto = "Hola, soy un texto"
booleano = True # También puede ser False

# Podemos imprimir el valor de la variable
print("Valor de la variable texto:", texto)

# Podemos averiguar incluso el tipo de dato de la variable
print("Tipo de dato de la variable numero:", type(numero))
print("Tipo de dato de la variable decimal:", type(decimal))


Valor de la variable texto: Hola, soy un texto
Tipo de dato de la variable numero: <class 'int'>
Tipo de dato de la variable decimal: <class 'float'>


### Operaciones
Son acciones que podemos ejecutar con diferentes tipos de datos. Segun el tipo de dato que tengamos podremos ejecutar una acción específica.

In [3]:
# Podemos ejecutar operaciones aritméticas
print( "Suma: ", numero + 3)  # Suma 3 al valor actual de la variable 
print( "Resta: ", numero - 2) # Resta 2 al valor actual de la variable
print( "Multiplicación: ", numero * 4) # Multiplica el valor actual de la variable por 4
print( "División: ", numero / 2) # Divide el valor actual de la variable por 2
print( "Exponente: ", numero ** 2) # Eleva el valor actual de la variable al cuadrado
print( "Módulo: ", numero % 2) # Devuelve el rest o restante de la división del valor actual de la variable entre 3

# Hasta ahora no hemos cambiado el valor de la variable
print("\nValor original de la variable numero:", numero)

# Podemos actualizar el valor de la variable con cualquiera de las operaciones anteriores
numero = numero + 10  # Suma 10 al valor actual de la variable y lo asigna de nuevo a la variable
print("Nuevo valor de la variable numero después de sumar: ", numero)

# También podemos usar una variable nueva para almacenar el resultado de una operación
nuevo_numero = numero * 2  # Multiplica el valor actual de la variable por 2 y lo asigna a una nueva variable
print("Valor de la nueva variable nuevo_numero: ", nuevo_numero)

# Finalmente podemos usar ambas variables en una operación
resultado_final = numero + nuevo_numero  # Suma los valores de ambas variables y lo asigna a una nueva variable
print("Resultado final de la suma de numero y nuevo_numero: ", resultado_final)

# O sobre-escribir la variable original con otro tipo de dato
numero = "Ahora soy un texto"
print("Valor de la variable numero después de cambiar su tipo de dato: ", numero)
print("Tipo de dato de la variable numero después de cambiar su tipo de dato:", type(numero))

Suma:  8
Resta:  3
Multiplicación:  20
División:  2.5
Exponente:  25
Módulo:  1

Valor original de la variable numero: 5
Nuevo valor de la variable numero después de sumar:  15
Valor de la nueva variable nuevo_numero:  30
Resultado final de la suma de numero y nuevo_numero:  45
Valor de la variable numero después de cambiar su tipo de dato:  Ahora soy un texto
Tipo de dato de la variable numero después de cambiar su tipo de dato: <class 'str'>


In [4]:
# Las operaciones con texto nos permiten manipular cadenas de caracteres
texto_1 = "ingeniería de datos"
texto_2 = "Daverse Academy"

print("\nConcatenación de texto:", texto_1 + " en " + texto_2)  # Une dos cadenas de texto

# minúsculas y mayúsculas
print("Texto en minúsculas:", texto_2.lower())  # Convierte el texto a minúsculas
print("Texto en mayúsculas:", texto_2.upper())  # Convierte el texto a mayúsculas

# dividir  y unir textos  
palabras = texto_2.split(" ") # Divide el texto por espacios y devuelve una lista de palabras
print("Dividir texto en palabras:", palabras)  
print("Unir palabras en un texto:", " - ".join(palabras))  # Une una lista de palabras en un texto separadas por " - "

# indexation y slicing
print("\nPrimer carácter del texto:", texto_2[0])  # Primer carácter del texto
print("Desde el segundo carácter hasta el final:", texto_2[1:])  # Desde el segundo carácter hasta el final
print("Primera palabra del texto:", texto_2[:7])  # Primera palabra del texto

# operaciones logicas con cadenas de texto
print("\nEl texto contiene 'Daverse'?", "Daverse" in texto_2)  # Devuelve True si 'Daverse' está en el texto, de lo contrario False
print("El texto contiene 'Academy'?", "Academy" in texto_1)  # Devuelve True si 'Academy' está en el texto, de lo contrario False
print("El text comienza con 'Daverse'?", texto_2.startswith("Daverse"))  # Devuelve True si el texto comienza con 'Daverse', de lo contrario False
print("El text termina con 'Academy'?", texto_1.endswith("Academy"))


Concatenación de texto: ingeniería de datos en Daverse Academy
Texto en minúsculas: daverse academy
Texto en mayúsculas: DAVERSE ACADEMY
Dividir texto en palabras: ['Daverse', 'Academy']
Unir palabras en un texto: Daverse - Academy

Primer carácter del texto: D
Desde el segundo carácter hasta el final: averse Academy
Primera palabra del texto: Daverse

El texto contiene 'Daverse'? True
El texto contiene 'Academy'? False
El text comienza con 'Daverse'? True
El text termina con 'Academy'? False


### Resultados de Operaciones Logicas con Booleanos

| A (bool) | B (bool) | A **and** B | A **or** B |
| -------- | -------- | ----------- | ---------- |
| True     | True     | True        | True       |
| True     | False    | False       | True       |
| False    | True     | False       | True       |
| False    | False    | False       | False      |


In [5]:
# Operaciones logicas con booleanos
a = True
b = False

print("A y B: ", a and b)  # False
print("A o B: ", a or b)   # True
print("Negación: ", not a)  # False
print("Negación: ", not b)  # True


# Operaciones que se transforman en booleanos
print("\n5 es mayor que 3?", 5 > 3)  # True
print("5 es menor que 3?", 5 < 3)  # False
print(texto_2.startswith("Daverse") and 5 > 3)  # True and True -> True


A y B:  False
A o B:  True
Negación:  False
Negación:  True

5 es mayor que 3? True
5 es menor que 3? False
True


### Colecciones de Datos

#### Listas
Una lista es una colección ordenada de objetos. Imagina una lista de casilleros ordenados donde cada casillero tiene un numero y el contenido de cada casillero puede variar.

In [6]:
# Crear una lista (fila de casilleros en un gimnasio)
casilleros = ["Toalla", 25, 72.5, True]

# Acceder a elementos
print(casilleros[0])   # "Toalla"
print(casilleros[2])   # 72.5

# Modificar elementos
casilleros[1] = "Zapatos deportivos"
print(casilleros)      
# ["Toalla", "Zapatos deportivos", 72.5, True]

# Agregar elementos
casilleros.append({"locker": 7, "dueño": "Ana"})
print(casilleros)      
# ["Toalla", "Zapatos deportivos", 72.5, True, {"locker": 7, "dueño": "Ana"}]

# Eliminar elementos
casilleros.remove(True)
print(casilleros)      
# ["Toalla", "Zapatos deportivos", 72.5, {"locker": 7, "dueño": "Ana"}]

# Recorrer una lista con un bucle
for item in casilleros:
    print("El casillero contiene:", item)

Toalla
72.5
['Toalla', 'Zapatos deportivos', 72.5, True]
['Toalla', 'Zapatos deportivos', 72.5, True, {'locker': 7, 'dueño': 'Ana'}]
['Toalla', 'Zapatos deportivos', 72.5, {'locker': 7, 'dueño': 'Ana'}]
El casillero contiene: Toalla
El casillero contiene: Zapatos deportivos
El casillero contiene: 72.5
El casillero contiene: {'locker': 7, 'dueño': 'Ana'}


#### Diccionarios
Colección ordenada de pares con una clave y valores asociados a esta. Imagina una libreta de contactos
- La clave es el nombre de la persona.
- El valor es el número de teléfono.

Cuando quieres buscar o modificar un dato, no usas la posición (como en una lista), sino la clave.

In [7]:
cliente = {
    "id": 101,
    "nombre": "Laura",
    "edad": 28,
    "activo": True,
    "compras": ["laptop", "mouse"]
}

# Acceder a valores
print(cliente["nombre"])   # "Laura"
print(cliente["edad"])     # 28

# Modificar un valor
cliente["edad"] = 29
print(cliente["edad"])     # 29

# Agregar un nuevo par clave-valor
cliente["ciudad"] = "Madrid"
print(cliente)

Laura
28
29
{'id': 101, 'nombre': 'Laura', 'edad': 29, 'activo': True, 'compras': ['laptop', 'mouse'], 'ciudad': 'Madrid'}


### Controladores de Flujo
Los controladores de flujo son las instrucciones que le dicen a tu programa qué camino tomar o qué repetir dependiendo de ciertas condiciones.
En otras palabras: son como los semáforos y señales de tráfico en una ciudad 🚦 guiando cómo se mueve tu código.

👉 En ingeniería de datos, los controladores de flujo son clave para:

- Filtrar datos dependiendo de condiciones.
- Repetir procesos en pipelines.
- Saltar errores o casos especiales durante el procesamiento.

**Condicionales (`if`, `elif`, `else`)**
Sirven para tomar decisiones.

In [8]:
# Tenemos controladores de flujo para tomar decisiones en nuestro código
edad = -1
if edad > 0 and edad <= 10:  
    print("Estás en la infancia")

elif edad > 10 and edad < 18:
    print("Eres un adolescente")

elif edad >= 18:
    print("Eres mayor de edad")

else:
    print("La edad no es válida")

La edad no es válida


**Bucles (`for`, `while`)**
Sirven para repetir instrucciones hasta que se cumpla una condición o un numero de veces determinado.

In [9]:
for i in range(3):
    print("Proceso número", i)

print("\n")

contador = 0
while contador < 3:
    print("Contador es:", contador)
    contador += 1  # Incrementa el contador en 1 es igual a contador = contador + 1

Proceso número 0
Proceso número 1
Proceso número 2


Contador es: 0
Contador es: 1
Contador es: 2


**Saltos de flujo (`break`, `continue`, `pass`)**

In [10]:
for num in range(5):
    if num == 3:
        break       # Detiene el bucle
    print(num)

0
1
2


### Funciones

Una función es un bloque de código reutilizable que realiza una tarea específica.
Piensa en ella como una receta de cocina 🍲: defines los pasos una vez, y cada vez que quieras el mismo platillo, solo llamas la receta en lugar de escribir todo otra vez.

🔹 ¿Por qué son importantes?

- Evitan repetir código.
- Hacen el programa más organizado y legible.
- Son la base para modularizar pipelines en ingeniería de datos.

In [11]:
def nombre_funcion(parametros):
    # Bloque de código
    resultado = parametros * 2  # Ejemplo de operación
    return resultado


`def` → palabra reservada para definir funciones.

`nombre_funcion` → el nombre que le das.

`parametros` → datos que recibe la función.

`return` → valor que devuelve la función (opcional).


**1. Función simple sin parametros (Constante)**

In [12]:
def saludar(nombre):
    print(f"Hola, {nombre}! bienvenid@ a la Ingeniería de Datos en Daverse Academy")

# Llamamos a la función
saludar("Alejandro")  # Reemplaza "Alejandro" con cualquier nombre que desees

Hola, Alejandro! bienvenid@ a la Ingeniería de Datos en Daverse Academy


**2. Función con parametros**

In [13]:
def suma(a, b):
    return a + b

print(suma(5, 3))   # 8

def concatenar(texto1, texto2):
    return texto1 + " " + texto2

print(concatenar("Hola", "Mundo"))  # "Hola Mundo"

8
Hola Mundo


**3. Función aplicada a datos (caso práctico DE)**

In [14]:
def limpiar_texto(texto):
    return texto.strip().capitalize()

nombre = "   aLeJaNDrO   " # Variable con espacios y mayúsculas
print(limpiar_texto(nombre))  # "alejandro"


Alejandro


### Programación Orientada a Objetos (OOP)

**Clase**
- Es como un molde que define de que tipo serán los objetos.
- Contiene atributos (datos) y métodos (acciones).

**Objeto**
- Es una instancia de una clase: el resultado de usar el molde.
- Ejemplo: si la clase es “Coche”, un objeto es “mi coche rojo”.

**Atributo**
- Son las características de la clase (variables dentro del objeto).
- Ejemplo: color, marca, velocidad.

**Método**
- Son las acciones o comportamientos que puede realizar un objeto (funciones dentro de la clase).
- Ejemplo: arrancar(), frenar(), acelerar().

En ingeniería de datos, OOP es útil para modelar entidades de negocio (usuarios, productos, transacciones), crear componentes reutilizables (conectores de bases de datos, transformadores de datos) y organizar proyectos de manera limpia.

In [15]:
# Definición de una clase
class Coche:
    # Constructor: define atributos al crear un objeto
    def __init__(self, marca, color):
        self.marca = marca       # Atributo
        self.color = color       # Atributo
        self.velocidad = 0       # Atributo con valor por defecto

    # Método: acelerar
    def acelerar(self, incremento):
        self.velocidad += incremento
        print(f"El {self.marca} ahora va a {self.velocidad} km/h")

    # Método: frenar
    def frenar(self):
        self.velocidad = 0
        print(f"El {self.marca} se ha detenido.")

# Crear un objeto (instancia de la clase Coche)
mi_coche = Coche("Toyota", "Rojo")

# Acceder a atributos
print(mi_coche.marca)    # Toyota
print(mi_coche.color)    # Rojo

# Usar métodos
mi_coche.acelerar(50)    # El Toyota ahora va a 50 km/h
mi_coche.frenar()        # El Toyota se ha detenido.

Toyota
Rojo
El Toyota ahora va a 50 km/h
El Toyota se ha detenido.
