<a id= "0"></a> <br>
## Introducción: Python para Ingeniería de Datos

Python se ha consolidado como uno de los lenguajes de programación más importantes y utilizados en el ámbito de la ingeniería de datos. Su simplicidad, versatilidad y amplio ecosistema lo convierten en una herramienta fundamental para la construcción, automatización y mantenimiento de pipelines de datos a gran escala.

### ¿Qué es Python?

Python es un lenguaje de programación de alto nivel, interpretado, de propósito general y con una sintaxis clara y legible. Fue creado con el objetivo de ser fácil de aprender y usar, lo que lo ha convertido en una elección preferida tanto por principiantes como por expertos en ciencia e ingeniería de datos.

### Características Clave de Python en Ingeniería de Datos
- Sintaxis simple y clara: facilita el desarrollo rápido y el mantenimiento del código.
- Gran ecosistema de librerías: herramientas como pandas, numpy, sqlalchemy, pyodbc, requests, airflow, y pyspark son ampliamente usadas en pipelines de datos.
- Alta integración con otras tecnologías: Python se conecta fácilmente con bases de datos, APIs, servicios cloud y sistemas distribuidos como Hadoop o Spark.
- Multiplataforma: funciona en Windows, macOS, Linux y entornos de nube como Azure, AWS y GCP.
- Comunidad activa y en crecimiento: lo que garantiza soporte continuo, nuevos paquetes y documentación abundante.

### Ventajas sobre Otros Lenguajes
- Facilidad de aprendizaje: más accesible que lenguajes como Java o Scala, sin sacrificar potencia.
- Modularidad: permite desarrollar desde scripts pequeños hasta soluciones complejas y escalables.
- Amplio soporte para análisis y ciencia de datos: ideal para trabajar en conjunto con analistas o científicos de datos.
- Compatibilidad con tecnologías modernas: frameworks de orquestación (Airflow), ETL (Luigi), APIs REST, y motores de big data como PySpark.

### Casos de Uso en Ingeniería de Datos
- Extracción de datos (ETL/ELT): conexión a múltiples fuentes como SQL, APIs REST, archivos planos, etc.
- Limpieza y transformación de datos: uso intensivo de pandas, numpy, re para preparar datos.
- Carga de datos: automatización de cargas hacia data warehouses, data lakes o bases de datos relacionales.
- Orquestación de flujos: gestión de pipelines complejos con herramientas como Apache Airflow.
- Procesamiento distribuido: integración con Apache Spark mediante PySpark para manejar grandes volúmenes de datos.
- Automatización de tareas: generación de reportes, envío de alertas, ejecución de scripts periódicos.

<a id= "1"></a> <br>
### Indentación
Python utiliza la indentación para delimitar la estructura permitiendo establecer bloques de código. No existen comandos para finalizar las líneas ni llaves con las que delimitar el código. Los únicos delimitadores existentes son los dos puntos ( : ) y la indentación del código.

In [None]:
v1 = 5

if v1 == '6':
    print('Es Verdadero')
else:
    print('Es falso')

print('¡FIN!')

In [None]:
# Incorrecto !
v1 = 5

if v1 == '6':
print('Es Verdadero')
else:
    print('Es falso')

print('¡FIN!')

<a id= "2"></a> <br>
### Comentarios
Los comentarios se pueden usar para explicar el codigo de python de manera mas legible


In [None]:

# Esto es un momentario

v1 = 5

if v1 == '6':
    print('Es Verdadero')
else:
    print('Es falso')

print('¡FIN!')

<a id= "3"></a> <br>
### Variables
En python una variable se crea en el momento en que le asigna un valor por primera vez.

In [None]:
a = 5 # Int
b = "HazloConDatos" # Str
print(a)
print(b)

In [None]:
a = str(4)    # '4'
b = int(5)    # 5
c = float(2)  # 2.0

In [None]:
print(type(a))
print(type(b))
print(type(c))

In [None]:
x, y, z = "Orange", "Banana", "Cherry"

<a id= "4"></a> <br>
## Tipos de datos

#### String Data Type
Las cadenas se identifican como un conjunto contiguo de caracteres representados entre comillas. Python permite pares de comillas simples o dobles. Las cadenas son un tipo de datos de secuencia inmutable, es decir, cada vez que se realiza un cambio en una cadena, se crea un objeto de cadena completamente nuevo.

In [None]:
a_str = 'Hello World'
print(a_str) #la salida sera. Hello World
print(a_str[0]) #la salida sera. H
print(a_str[0:5]) #la salida sera. Hello

#### Numbers Data Type

In [None]:
int_num = 10 # Valor entero
float_num = 10.2 # Valor flotante
complex_num = 3.14j # Valor Complejo

### Lists Data Type
Las listas de Python son uno de los tipos de datos más versátiles que nos permiten trabajar con múltiples elementos a la vez.

En Python, se crea una lista colocando elementos entre corchetes [ ], separados por comas.

In [None]:
# Lista de enteros
my_list = [3, 5, 2]

# Lista vacia
my_list = []

# Lista mixta
my_list = [3, "Hello", 44.4]

# Lista anidada
my_list = ["apple", [3, 7, 8], ['x']]

Podemos usar el operador de índice [ ] para acceder a un elemento en una lista. En Python, los índices comienzan en 0. Entonces, una lista que tiene 5 elementos tendrá un índice de 0 a 4.

In [None]:
my_list = ['x', 'l', 'm', 'a']

# Primer elemento
print(my_list[0])  

# Tercer elemento
print(my_list[2])  

# Lista anidada
n_list = ["Happy", [6, 2, 1, 8]]

# Indices anidados
print(n_list[0][1])

print(n_list[1][3])


In [None]:
# Incorrecto!
print(my_list[4.0])

In [None]:

# -1 ultimo elemento

print(my_list[-1])

print(my_list[-4])

In [None]:
# Acceso a un rango de elementos con el operador :

my_list = ['a','b','c','d','e','f','g','h','i']

# elementos desde el indice 2 al 4
print(my_list[2:5])

# elementos desde el indice 5 hasta el final
print(my_list[5:])

# elementos de inicio a fin
print(my_list[:])

In [None]:
# Correccion de valores de una lista
my_list = [2, 4, 6, 8]

# Cambiar Primer elemento  
my_list[0] = 1            

print(my_list)

# Cambiar rango elementos
my_list[1:4] = [3, 5, 7]  

print(my_list)  

In [None]:
# Usar append y extend
my_list = [1, 3, 5]

my_list.append(7)

print(my_list)

my_list.extend([9, 11, 13])

print(my_list)

In [None]:
# Iterar una lista
for fruit in ['apple','banana','mango']:
    print("I like",fruit)

#### Tuple Data Type
Una tupla en Python es similar a una lista. La diferencia entre los dos es que no podemos cambiar los elementos de una tupla una vez asignada, mientras que pen una lista si lo podemos hacer.

In [None]:
# Diferentes tipos de tuplas

# Tupla Vacia
my_tuple = ()
print(my_tuple)

# Tupla de enteros
my_tuple = (3, 2, 5)
print(my_tuple)

# Tupla mixta
my_tuple = (1, "Hello", 5.6)
print(my_tuple)

# Tupla anidada
my_tuple = ("apple", [2, 5, 7], (5, 8, 1))
print(my_tuple)

In [None]:
my_tuple = ("hello")
print(type(my_tuple))  # <class 'str'>

# Tupla con un elemento
my_tuple = ("hello",)
print(type(my_tuple))  # <class 'tuple'>

# Parentesis es opcional
my_tuple = "hello",
print(type(my_tuple))  # <class 'tuple'>

In [None]:
my_tuple = ('p','e','r','m','i','t')

print(my_tuple[0])   # 'p' 
print(my_tuple[5])   # 't'

In [None]:
n_tuple = ("mouse", [8, 4, 6], (1, 2, 3))

print(n_tuple[0][3])       # 's'
print(n_tuple[1][1])       # 4

In [None]:
print(my_tuple[1:4])

In [None]:
# Iteracion de una Tuple
for name in ('John', 'Kate'):
    print("Hello", name)

#### Dictionary Data Type
El diccionario de Python es una colección desordenada de elementos. Cada elemento de un diccionario tiene un par clave/valor.

Los diccionarios están optimizados para recuperar valores cuando se conoce la clave.

Crear un diccionario es tan simple como colocar elementos entre llaves { } separados por comas.

Un elemento tiene una clave y un valor correspondiente que se expresa como un par (clave: valor).

Si bien los valores pueden ser de cualquier tipo de datos y pueden repetirse, las claves deben ser de tipo inmutable (cadena, número o tupla con elementos inmutables) y deben ser únicas.


In [None]:
# Diccionario vacio
my_dict = {}

# Dictionario con keys enteros
my_dict = {1: 'apple', 2: 'ball'}

# Dicionario con keys mixtas
my_dict = {'name': 'John', 1: [2, 4, 3]}

# Uso de dict()
my_dict = dict({1:'apple', 2:'ball'})


In [None]:

my_dict = {'name': 'Jack', 'age': 26}

# Output: Jack
print(my_dict['name'])

# Output: 26
print(my_dict.get('age'))


In [None]:
print(my_dict.get('address'))

In [None]:

print(my_dict['address'])

In [None]:
# Cambiar y agregar elementos 
my_dict = {'name': 'Jack', 'age': 26}

# Actualizando elemento
my_dict['age'] = 27

#Output: {'age': 27, 'name': 'Jack'}
print(my_dict)

# agregando elementos
my_dict['address'] = 'Downtown'

# Output: {'address': 'Downtown', 'age': 27, 'name': 'Jack'}
print(my_dict)

In [None]:
# Iteracion de un diccionario

marks = {}.fromkeys(['Math', 'English', 'Science'], 0)

# Output: {'English': 0, 'Math': 0, 'Science': 0}
print(marks)

for item in marks.items():
    print(item)

# Output: ['English', 'Math', 'Science']
print(list(sorted(marks.keys())))

<a id= "5"></a> <br>
### Control de flujo



### IF
La instrucción if es una estructura de control condicional que permite ejecutar un bloque de código solo si una condición especificada es verdadera. Es una de las formas fundamentales de controlar el flujo de ejecución en un programa.


In [None]:
#if...else
num = 3
if num > 0:
    print(num, "is a positive number.")
print("This is always printed.")

num = -1
if num > 0:
    print(num, "is a positive number.")
print("This is also always printed.")

In [None]:
num = float(input("Enter a number: "))
if num >= 0:
    if num == 0:
        print("Zero")
    else:
        print("Positive number")
else:
    print("Negative number")

### For

La instrucción for en Python es una estructura de control de flujo que permite iterar de manera secuencial sobre los elementos de un objeto iterable (como una lista, tupla, diccionario, conjunto o cadena de texto), ejecutando un bloque de código por cada elemento.

##### Cuándo usar for:
- Para recorrer listas, nombres, objetos, números.
- Cuando ya sabes cuántas veces quieres repetir algo.
- Por ejemplo: revisar todos los elementos de una lista o repetir algo 10 veces.

In [None]:
# for
numbers = [6, 5, 3, 8, 4, 2, 5, 4, 11]

# variable sum
sum = 0

# iterate the list
for val in numbers:
    sum = sum+val

print("The sum is", sum)

### While
La instrucción while en Python es una estructura de control de flujo que permite ejecutar un bloque de código mientras una condición lógica sea verdadera. El bucle se repite indefinidamente hasta que la condición evaluada sea falsa.

#### Cuándo usar while:
- Cuando no sabes cuántas veces va a repetirse la acción.
- Cuando depende de una condición que puede cambiar.
- Por ejemplo: repetir hasta que un número llegue a cierto valor.

In [None]:
# While

n = 10

# inicializa el contador y la variable suma
sum = 0
i = 1

while i <= n:
    sum = sum + i
    i = i+1    # update counter

# print sum
print("The sum is", sum)

In [None]:
#break
for val in "string":
    if val == "i":
        break
    print(val)

print("The end")

In [None]:
# pass
sequence = {'p', 'a', 's', 's'}
for val in sequence:
    pass
    print(val)


<a id= "7"></a> <br>
### Funciones
Las funciones en Python proporcionan código organizado, reutilizable y modular para realizar un conjunto de acciones específicas. Las funciones simplifican el proceso de codificación, evitan la lógica redundante y facilitan el seguimiento del código.

In [None]:
def f(x):
    return 2*x
y = f(3)
print(y) # 6

In [None]:
def say_hello(name):
    print("Hello", name)
    
say_hello("Juan")

In [None]:
def greeting():
    return "Hello"

print(greeting())

In [None]:
greet_me = lambda: "Hello"
print(greet_me())

In [None]:
strip_and_upper_case = lambda s: s.strip().upper()
strip_and_upper_case(" Hello ")


In [None]:
import pandas as pd

# Crear un DataFrame
df = pd.DataFrame({
    'nombre': ['ana', 'Luis', 'CARLOS', 'maria']
})

# Aplicar transformación a mayúsculas
df['nombre_mayuscula'] = df['nombre'].apply(lambda x: x.upper())

print(df)

In [None]:
import pandas as pd

# Crear un DataFrame
df = pd.DataFrame({
    'precio_unitario': [10, 20, 5],
    'cantidad': [3, 2, 7]
})

# Usar apply por fila (axis=1)
df['total'] = df.apply(lambda row: row['precio_unitario'] * row['cantidad'], axis=1)

print(df)