# Funciones en Programación y Paquetes Esenciales para Ciencia de Datos

Este cuaderno explora dos pilares fundamentales en la programación y la ciencia de datos: las funciones y el uso de paquetes o librerías.

## Funciones en Programación

### Definición y Uso de Funciones

Una función es un bloque de código reutilizable diseñado para realizar una tarea específica. Las funciones ayudan a organizar el código, hacerlo más legible, modular y evitan la repetición (principio DRY: Don't Repeat Yourself).

La sintaxis básica para definir una función en Python es:

```python
def NOMBRE_FUNCION(argumento1, argumento2, ...):
    # Cuerpo de la función
    # Realiza operaciones
    return resultado # Opcional: devuelve un valor
```

*   `def`: Palabra clave para definir una función.
*   `NOMBRE_FUNCION`: Nombre identificador de la función (sin espacios, sin acentos, siguiendo convenciones de Python).
*   `argumento`: Valores de entrada que la función recibe para operar con ellos.
*   `return`: Opcional. Permite que la función devuelva un resultado. Si no se usa, la función devuelve `None` por defecto.
*   **Indentación**: Es crucial en Python. Define los bloques de código. Todo lo que esté dentro de la función debe estar indentado.
*   **Docstrings (`"""..."""`)**: Cadenas de documentación que explican el propósito de la función. Son una buena práctica para hacer tu código auto-documentado.


In [1]:
# Ejemplo de función simple
def saludar(nombre):
    """Esta función imprime un saludo personalizado."""
    print(f"¡Hola, {nombre}!")

# Llamada a la función
saludar("Mundo")
saludar("Ana")


¡Hola, Mundo!
¡Hola, Ana!


### Tipos de Funciones y Control de Flujo

Las funciones no solo organizan el código, sino que también interactúan con las estructuras de control de flujo, que son esenciales para la lógica y el comportamiento del programa.

*   **Funciones Iterativas**: Aquellas que no se llaman a sí mismas. Realizan tareas secuenciales o repetitivas mediante bucles.
*   **Funciones Recursivas**: Aquellas que se llaman a sí mismas para resolver problemas que pueden dividirse en subproblemas más pequeños. Son útiles para problemas con una estructura auto-similar (ej. cálculo de factoriales, recorrido de árboles).

**Estructuras de control de flujo** (imprescindibles dentro de las funciones y en el programa en general):

| Estructura | Uso Principal | Ejemplo |
| :--------- | :------------ | :------ |
| `if`       | Ejecutar un bloque si se cumple una condición | `if x > 0:` |
| `else`     | Alternativa al `if` cuando no se cumple | `else:` |
| `elif`     | Otra condición si la anterior no se cumple | `elif x == 0:` |
| `for`      | Iterar sobre una secuencia | `for i in lista:` |
| `while`    | Repetir mientras se cumpla una condición | `while x < 10:` |
| `break`    | Salir del bucle antes de que termine | `if x == 5: break` |
| `continue` | Saltar a la siguiente iteración del bucle | `if x == 3: continue` |


In [2]:
# Ejemplo de Función Recursiva: Factorial
def factorial(n):
    if n <= 1:
        return 1
    else:
        return n * factorial(n - 1)

print(f"Factorial de 5: {factorial(5)}")  # Salida: 120
print(f"Factorial de 0: {factorial(0)}")  # Salida: 1


Factorial de 5: 120
Factorial de 0: 1


In [3]:
# Ejemplo de Función con Control de Flujo (if-else)
def es_par(numero):
    """Verifica si un número es par o impar."""
    if numero % 2 == 0:
        print(f"{numero} es un número par.")
    else:
        print(f"{numero} es un número impar.")

es_par(4)
es_par(7)


4 es un número par.
7 es un número impar.


In [4]:
# Ejemplo de Función con Bucle (for)
def contar_hasta(limite):
    """Cuenta e imprime números desde 1 hasta el límite."""
    print(f"Contando hasta {limite}:")
    for i in range(1, limite + 1):
        print(i)

contar_hasta(5)


Contando hasta 5:
1
2
3
4
5


In [5]:
# Ejemplo de Función con Bucle (while) y break
def buscar_numero(lista, objetivo):
    """Busca un número en una lista y se detiene si lo encuentra."""
    i = 0
    while i < len(lista):
        if lista[i] == objetivo:
            print(f"¡Encontrado {objetivo} en la posición {i}!")
            break  # Sale del bucle
        i += 1
    else: # Se ejecuta si el bucle while termina sin break
        print(f"{objetivo} no se encontró en la lista.")

mis_numeros = [10, 20, 30, 40, 50]
buscar_numero(mis_numeros, 30)
buscar_numero(mis_numeros, 60)


¡Encontrado 30 en la posición 2!
60 no se encontró en la lista.


## Paquetes Esenciales en Python y R para Ciencia de Datos

### ¿Qué son los paquetes o librerías?

Un paquete o librería es un conjunto de módulos y funciones preescritas que extienden las capacidades de un lenguaje de programación. Son como 'superpoderes' que añades a tu lenguaje, permitiéndote realizar tareas complejas de manera más eficiente y con menos código.

### Paquetes clave en Python para Ciencia de Datos

| Paquete | ¿Para qué sirve? | Código de instalación (pip) |
| :------ | :--------------- | :------------------------- |
| `pandas` | Manipulación y análisis de datos (tablas, CSV, limpieza) | `pip install pandas` |
| `numpy` | Cálculos numéricos, arrays y operaciones matemáticas de alto rendimiento | `pip install numpy` |
| `matplotlib` | Creación de gráficos estáticos, interactivos y animados | `pip install matplotlib` |
| `seaborn` | Visualización de datos estadísticos atractivos y complejos (basado en matplotlib) | `pip install seaborn` |
| `scikit-learn` | Machine Learning (modelos predictivos, clasificación, regresión, clustering) | `pip install scikit-learn` |
| `statsmodels` | Análisis estadístico clásico (regresión lineal, series de tiempo, etc.) | `pip install statsmodels` |

**Ejemplo de uso de `pandas`:**


In [7]:
import pandas as pd

# Crear un DataFrame de ejemplo
data = {
    'Nombre': ['Ana', 'Luis', 'Marta', 'Pedro'],
    'Edad': [28, 34, 29, 42],
    'Ciudad': ['Madrid', 'Barcelona', 'Valencia', 'Sevilla']
}
df = pd.DataFrame(data)

print("DataFrame creado:")
print(df)

# Acceder a una columna
print("Columna 'Edad':")
print(df['Edad'])

# Filtrar datos
print("Personas mayores de 30:")
print(df[df['Edad'] > 30])


DataFrame creado:
  Nombre  Edad     Ciudad
0    Ana    28     Madrid
1   Luis    34  Barcelona
2  Marta    29   Valencia
3  Pedro    42    Sevilla
Columna 'Edad':
0    28
1    34
2    29
3    42
Name: Edad, dtype: int64
Personas mayores de 30:
  Nombre  Edad     Ciudad
1   Luis    34  Barcelona
3  Pedro    42    Sevilla


### Paquetes clave en R para Ciencia de Datos

Aunque este cuaderno se centra en Python, es importante conocer los equivalentes en R, un lenguaje muy popular en estadística.

| Paquete | ¿Para qué sirve? | Código de instalación (R) |
| :------ | :--------------- | :----------------------- |
| `tidyverse` | Colección de paquetes para manipulación, visualización y modelado de datos (incluye `dplyr`, `ggplot2`, `readr`) | `install.packages("tidyverse")` |
| `ggplot2` | Creación de gráficos estadísticos profesionales y altamente personalizables | Incluido en `tidyverse` |
| `dplyr` | Manipulación de datos de forma elegante y eficiente | Incluido en `tidyverse` |
| `readr` | Lectura rápida y robusta de archivos de datos (ej. .csv, .tsv) | Incluido en `tidyverse` |
| `caret` | Modelado predictivo, clasificación, regresión (interfaz unificada para muchos algoritmos) | `install.packages("caret")` |
| `lubridate` | Manejo y manipulación de fechas y tiempos | `install.packages("lubridate")` |

**Ejemplo conceptual de uso de `dplyr` en R:**
```R
library(dplyr)
data <- read.csv("archivo.csv")
data %>% filter(edad > 18) # Filtra filas donde la edad es mayor a 18
```


### Ruta de aplicación: ¿Cuándo usar cada paquete?

La elección del paquete depende de la etapa del ciclo de vida de los datos y del lenguaje que estés utilizando:

| Etapa del Ciclo de Datos | Python (Paquetes Comunes) | R (Paquetes Comunes) |
| :----------------------- | :------------------------ | :------------------ |
| 📥 Cargar/Limpiar datos | `pandas`, `numpy` | `readr`, `dplyr` |
| 📊 Visualizar datos | `matplotlib`, `seaborn` | `ggplot2` |
| 📈 Analizar y Modelar | `statsmodels`, `scikit-learn` | `stats`, `caret` |
| ⏱ Manejo de Fechas/Horas | `datetime` (módulo built-in), `pandas` | `lubridate` |
| 🔀 Preparar modelos | `scikit-learn` | `caret` |

**Actividad Interactiva (para el estudiante):**
1.  Elige una etapa del ciclo de vida de los datos (ej. limpieza, visualización, modelado).
2.  Asigna un paquete de Python y otro de R que usarías para esa etapa.
3.  Explica brevemente por qué elegirías esos paquetes y qué ventajas ofrecen en su respectivo lenguaje.

*Puedes escribir tus respuestas en una celda de texto o código aquí mismo.*


## ¡Consolida tus habilidades!

La práctica constante con la definición y el uso de funciones, así como el manejo de paquetes, te permitirá escribir código más eficiente, organizado y potente para el análisis de datos. Realiza los ejercicios y explora para afianzar tus conocimientos.

**¿Sabías qué...?**
Python fue diseñado con legibilidad en mente, mientras que R nació en la comunidad estadística. ¡Por eso, sus paquetes reflejan sus fortalezas!

*“Dominar un lenguaje es útil. Dominar sus paquetes… es poderoso.”*

A medida que avances en ciencia de datos, estos paquetes serán tus mejores aliados. Aprenderás no solo a usarlos, sino a combinarlos como un verdadero científico de datos.

¡Esperamos que este cuaderno te sea de gran utilidad!
