# Solución Prueba - Científico de Datos IA
### Andrés Calvete

## Contenido

* [A. Preguntas Teóricas.](#a)
    * [Explique el concepto de programación orientada a objetos y cómo se aplica en Python.](#a1)
    * [¿Qué es el overfitting en un modelo estadístico o de machine learning? ¿Cómo puede evitarse?](#a2)
    * [Defina qué es una API REST y mencione sus principales características.](#a3)
    * [Explique la diferencia entre series temporales estacionarias y no estacionarias.](#a4)
    * [¿Qué son las distribuciones de probabilidad y cuál es su importancia en estadística?](#a5)
    * [Describa el principio de inyección de dependencias en desarrollo de software.](#a6)
    * [¿Qué es el preprocesamiento de texto en NLP y por qué es importante?](#a7)
    * [Explique la diferencia entre un modelo supervisado y uno no supervisado en aprendizaje automático.](#a8)
    * [¿Qué es una consulta SQL JOIN y cuáles son sus tipos principales?](#a9)
    * [Explique la diferencia entre métodos síncronos y asíncronos en programación.](#a10)
* [B. Preguntas Prácticas.](#b)
    * [1. Programación en Python (nivel avanzado).](#b1)  
        * [Escriba una función en Python que reciba una lista de cadenas y devuelva un diccionario con la frecuencia de cada palabra ignorando mayúsculas y signos de puntuación.](#b1_1)  
        * [Implemente un decorador en Python que mida y muestre el tiempo de ejecución de una función.](#b1_2)
        * [Dado un dataframe de pandas con columnas 'fecha' y 'ventas', escriba código para calcular el promedio móvil de ventas en una ventana de 7 días.](#b1_3)        
    * [2. Protocolos de Comunicación (APIs).](#b2)  
        * [Explique cómo funciona el método HTTP POST y cuándo se utiliza en una API REST.](#b2_1)  
        * [En Python, ¿cómo se puede realizar una solicitud GET a una API y manejar una respuesta en formato JSON? Escriba un ejemplo básico.](#b2_2)
        * [Mencione y explique tres buenas prácticas de seguridad que se deben considerar al desarrollar o consumir APIs.](#b2_3)        
    * [3. Manipulación de Texto (NLP).](#b3)   
        * [Describa cómo funciona la tokenización en el procesamiento de lenguaje natural y mencione una librería en Python que la implemente.](#b3_1)  
        * [Explique qué es el "stemming" y cómo se diferencia del "lemmatization".](#b3_2)
        * [Escriba un fragmento de código en Python que elimine stopwords de un texto dado.](#b3_3)
        * [Explique cómo los modelos generativos (GenAI) como GPT pueden ser utilizados para tareas de NLP, y mencione uno o dos casos de uso prácticos en la industria.](#b3_4)
    * [4. Manipulación de Datos y Consultas SQL (nivel intermedio-avanzado).](#b4)   
        * [Escriba una consulta SQL que utilice una subconsulta correlacionada para obtener, de una tabla 'ventas', los productos cuyo monto de ventas sea superior al promedio mensual de ventas de todos los productos.](#b4_1)  
        * [Explique cómo funcionan los índices compuestos en bases de datos y cómo afectan el rendimiento de consultas con múltiples condiciones.](#b4_2)
        * [Escriba una consulta SQL que utilice funciones ventana (window functions) para calcular el ranking mensual de ventas por producto en una tabla 'ventas'.](#b4_3)

## A. Preguntas Teóricas. <a id="a"></a>

##### **- Explique el concepto de programación orientada a objetos y cómo se aplica en Python.** <a id='a1'></a> 

La programación orientada a objetos o POO es un paradigma que se utiliza para representar objetos con características, propiedades y comportamientos a través de código.

En la ciencia de datos con Python es común su uso para representar modelos de machine learning en donde cada tipo de modelo se puede definir como una **clase**, cada clase puede tener las características que la describen llamadas **atributos** y ejecutar comportamientos específicos llamados **métodos**. Otra característica importante de la POO es que nos permite crear diferentes instancias de una clase, pudiendo definir diferentes características para un mismo tipo de objeto en dos instancias distintas.

Por ejemplo, un objeto llamado `LinearRegression` (clase) puede definirse a través de los atributos `m` (pendiente) y `b` (intercepto), también puede ejecutar los métodos ‘predict’ (predice) y ‘describe’ (describe).

In [1]:
class LinearRegression:   
    def __init__(self, m: float, b: float):
        """
        Class to represent a linear regression model.
        Args:
            m (float): Slope of the line.
            b (float): Intercept of the line.        
        """
        self.m = m  # Slope
        self.b = b  # Intercept

    def predict(self, x: float):
        """
        Predicts the value of y for a given x.
        Args:
            x (float): The input value for prediction.
        Returns:
            float: The predicted output value.
        """
        return self.m * x + self.b

    def describe(self):
        """
        Returns a string description of the model.
        Returns:
            string: Description of the linear regression model.
        """
        return f"Model of linear regression: y = {self.m}x + {self.b}"

De esta manera es posible definir un objeto del tipo `LinearRegression` con pendiente `m=1` e intercepto `b=0` en una variable, y en otra instancia definir otro objeto de la misma clase con diferentes atributos (`m=4, b=3`).

In [2]:
# Example usage:
model_1 = LinearRegression(1, 0)  # m=1, b=0
model_2 = LinearRegression(4, 3)  # m=4, b=3
print(model_1.describe())  
print(model_2.describe())

Model of linear regression: y = 1x + 0
Model of linear regression: y = 4x + 3


#### **- ¿Qué es el overfitting en un modelo estadístico o de machine learning? ¿Cómo puede evitarse?** <a id='a2'></a> 

El sobreajuste (overfitting) es un problema en machine learning que ocurre cuando un modelo se ajusta demasiado a los datos usados en su entrenamiento y pierde la habilidad de generalizar a nuevos datos, es decir, se especifica demasiado a las particularidades del conjunto de entrenamiento que no logra predecir correctamente datos que no ha visto antes. Para identificar el sobreajuste, se puede observar la diferencia del rendimiento del modelo en los datos de entrenamiento y en un conjunto de validación a través de una métrica de evaluación, como el error cuadrático medio (MSE) o la precisión. Si el modelo tiene un rendimiento significativamente mejor en los datos de entrenamiento que en los de validación, es probable que esté sobreajustado.

Algunas metodologías para tratar o evitar el sobreajuste son:
- Usar regularización para penalizar la complejidad de los modelos: L1/Lasso, L2/Ridge.
- Reducir la complejidad del modelo, es decir, usar menos parámetros o modelos más simples (menos estimadores, menos capas, menos profundidad).
- Utilizar técnicas de validación cruzada y asegurar que el modelo generaliza bien en distintos subconjuntos de datos.
- Realizar una selección de características, lo que significa usar solo las variables más relevantes para reducir el ruido.

#### **- Defina qué es una API REST y mencione sus principales características.** <a id='a3'></a> 

Una API REST es un mecanismo de comunicación que permite que diferentes aplicaciones intercambien datos usando el protocolo HTTP. En el ambiente de ciencia de datos se suelen utilizar para consumir datos desde fuentes externas (por ejemplo, datos de criptomonedas, clima, redes sociales), exponer modelos de machine learning como servicios para que otras aplicaciones puedan hacer predicciones en tiempo real o para integrar pipelines de datos con dashboards. Algunas características que definen una API REST son:

- Está basada en HTTP, usando métodos estándar como GET, POST, PUT, DELETE.
- Ingiere y retorna datos generalmente en formato JSON.
- Es accesible mediante URLs (endpoints) en donde cada recurso tiene una dirección única.
- Es compatible con múltiples lenguajes. Se puede consumir desde Python, JavaScript, C#, etc.

#### **- Explique la diferencia entre series temporales estacionarias y no estacionarias.** <a id='a4'></a> 

Las series temporales son un conjunto de datos que se recopilan a lo largo del tiempo, en donde que cada observación está relacionada con un momento específico y estas se pueden organizar cronológicamente para determinar un comportamiento o tendencia temporal. Dependiendo de si sus propiedades estadísticas cambian o no con el tiempo, se pueden clasificar en estacionarias y no estacionarias.

**Serie temporal estacionaria**

Una serie es estacionaria si sus propiedades estadísticas no dependen del tiempo, es decir:

- Media constante: el promedio no cambia a lo largo del tiempo.

- Varianza constante: la dispersión de los valores no cambia.

- Autocorrelación estable: la relación entre valores pasados y futuros depende solo del desfase (lag), no del momento en que se mida.

**Serie temporal no estacionaria**

Una serie no es estacionaria si sus propiedades sí cambian con el tiempo. Esto ocurre, por ejemplo, cuando hay:

- Tendencia (creciente o decreciente en el tiempo).

- Estacionalidad (patrones que se repiten en ciertos periodos).

- Cambios en varianza (volatilidad variable).

En otras palabras, una serie estacionaria es fácilmente predecible, mientras que una no estacionaria es más volátil e inconstante. Sin embargo, existen métodos que permiten extraer la estacionalidad de series no estacionarias para analizar algunos patrones, como la descomposición de series temporales. Este es un ejemplo de descomposición en tendencia (serie no estacionaria) y estacionalidad (serie estacionaria) de una serie temporal que describe el número de pedidos de taxis realizados en una aplicación.

![image](images\seasonality.png)

#### **- ¿Qué son las distribuciones de probabilidad y cuál es su importancia en estadística?** <a id='a5'></a> 

Una distribución de probabilidad describe cómo se reparten los valores posibles de una variable aleatoria y qué probabilidad tiene cada valor (o rango de valores) de ocurrir. En ciencia de datos y estadística, las distribuciones son clave porque permiten:

- Modelar fenómenos y variables como precios, tiempos de espera, errores de medición, etc.
- Calcular la probabilidad de que ocurran eventos específicos.
- Estimar parámetros y hacer hipótesis sobre poblaciones, también llamado inferencia estadística.
- Generar datos artificiales para probar modelos.

Dentro de las variables discretas (valores puntuales y contables) podemos encontrar distribuciones como la binomial (probabilidad de éxitos en n intentos) y la de Poisson (número de eventos en un periodo fijo). En el caso de variables continuas (valores infinitos en un intervalo), las distribuciones más comunes son la normal (distribución simétrica con la media en el centro) y uniforme (todos los valores son igualmente probables).

#### **- Describa el principio de inyección de dependencias en desarrollo de software.** <a id='a6'></a> 

El principio de inyección de dependencias es un patrón de diseño que consiste en proporcionar a una clase sus dependencias en forma de parámetros desde el exterior en lugar de que la propia clase las cree internamente. En otras palabras: la clase no se encarga de construir lo que necesita, sino que recibe esos elementos ya listos, generalmente a través del constructor, métodos o propiedades.

Por ejemplo, podemos crear una nueva clase llamada `PedictionService` que recibe un modelo de machine learning como parámetro en su constructor. De esta manera, podemos inyectar diferentes modelos (como los modelos de regresión lineal generados previamente) sin que la clase `PredictionService` tenga que conocer los detalles de cómo se crean esos modelos.

In [3]:
# Example usage of dependency injection
class PredictionService:
    def __init__(self, model: LinearRegression):
        """
        Initializes the PredictionService with a model.
        Args:
            model (LinearRegression): An object LinearRegression implementing 'predict' and 'describe' methods.
        """
        self.model = model  # Dependency injection

    def make_prediction(self, x: float):
        """
        Makes a prediction using the injected model.
        Args:
            x (float): The input value for prediction.
        Returns:
            float: The predicted output value.
        """
        print(self.model.describe())
        return self.model.predict(x)

def run_predictive_service(service: PredictionService, entry_value: float):
    """
    Runs a service through a given entry_value.
    Args:
        service (PredictionService): The service used to make the prediction.
        entry_value (float): The input value to be predicted.
    Returns:
        result (float): The service's predicted value.
    """
    result = service.make_prediction(entry_value)
    print(f"Prediction for x={entry_value}: {result}")
    return result


# Injecting model_1 into PredictionService (main_service)
main_service = PredictionService(model=model_1)

# Running a prediction with model_1
prediction_1 = run_predictive_service(main_service, 10)

Model of linear regression: y = 1x + 0
Prediction for x=10: 10


In [4]:
# Updating the main_service to use model_2
main_service.model = model_2  # Change the injected model

# Running a prediction with model_2
prediction_2 = run_predictive_service(main_service, 10)

Model of linear regression: y = 4x + 3
Prediction for x=10: 43


#### **- ¿Qué es el preprocesamiento de texto en NLP y por qué es importante?** <a id='a7'></a> 

El preprocesamiento de texto en el ambito del procesamiento de lenguaje natural (NLP), es el conjunto de técnicas que se aplican para limpiar, transformar y normalizar el texto antes de usarlo en modelos de machine learning. El objetivo es convertir el texto crudo en una representación más consistente, básica y útil para que los algoritmos puedan trabajar de forma eficiente y precisa, también ayuda a reducir la dimensionalidad de las características de entrada para los los modelos y a capturar solo la información más relevante.

Es importante un buen preprocesamiento de textos ya que las entradas de texto del lenguaje humano pueden:
- Tener errores ortográficos, abreviaturas y múltiples formas de decir lo mismo.
- Incluir elementos irrelevantes para ciertos análisis (signos de puntuación, stopwords=palabras con poca significancia).
- Tener múltiples flexiones, variantes (correr, corriendo, corrí) o sinónimos.

Con técnicas de preprocesamiento como las presentadas a continuación es posible trabajar estos problemas y hacer la tarea de entrenamiento más efectiva.
- Tokenización: Dividir el texto en listas de palabras o frases.
- Lowercasing: Simplificar los texto al pasar todo a minúsculas.
- Eliminación de puntuación: Quitar signos que no aportan significado.
- Eliminación de stopwords: Retirar palabras muy frecuentes y poco informativas.
- Lematización: Reducir palabras a su forma base.
- Stemming: Recortar palabras a su raíz.
- Normalización de espacios: Eliminar espacios múltiples o saltos de línea.
- Eliminación de caracteres especiales: Limpiar símbolos no deseados.

#### **- Explique la diferencia entre un modelo supervisado y uno no supervisado en aprendizaje automático.** <a id='a8'></a> 

En machine learning, la diferencia entre un modelo supervisado y uno no supervisado está en sí el entrenamiento se realiza con etiquetas conocidas o sin ellas.

**Modelo supervisado**

Se entrena con un conjunto de datos que incluye variables de entrada (features) y una variable objetivo (label o target) conocida. Su objetivo es aprender la relación entre entradas y salidas para predecir la etiqueta de nuevos datos. Puede ser de dos tipos basándonos en el tipo de su variable objetivo:

- Modelos de clasificación: pretenden predecir una categoría o una variable discreta.

- Modelos de regresión: pretenden predecir una variable continua.

Algunos algoritmos de entrenamiento usados son:

- Regresión lineal.

- Árboles de decisión.

- Bosques aleatorios.

- Descenso del gradiente estocástico.

- Redes neuronales convolusionales.

**Modelo no supervisado**

Se entrena con datos que no tienen etiquetas, es decir, solo se conocen las variables de entrada. Su objetivo es encontrar patrones, estructuras o relaciones ocultas en los datos. El ejemplo más representativo de estos modelos es el clustering, el cual pretende agrupar datos similares en grupos basándose en diferentes algoritmos como K-Means y DBSCAN.

#### **- ¿Qué es una consulta SQL JOIN y cuáles son sus tipos principales?** <a id='a9'></a> 

Una consulta SQL JOIN se usa para combinar datos de dos o más tablas en una sola consulta, basándose en una columna relacionada entre ellas (generalmente una clave primaria y una clave foránea). Se emplea cuando los datos de interés están distribuidos en múltiples tablas y queremos verlos de forma integrada.

| Tipo de JOIN | Descripción |
|--------------|-------------|
| **INNER JOIN** | Devuelve solo las filas que tienen coincidencia en ambas tablas. |
| **LEFT JOIN** | Devuelve todas las filas de la tabla izquierda y las coincidentes de la derecha; si no hay coincidencia, rellena con NULL. |
| **RIGHT JOIN** | Devuelve todas las filas de la tabla derecha y las coincidentes de la izquierda; si no hay coincidencia, rellena con NULL. |
| **FULL JOIN** | Devuelve todas las filas cuando hay coincidencia en una u otra tabla; donde no haya coincidencia, rellena con NULL. |
| **CROSS JOIN** | Devuelve el producto cartesiano: todas las combinaciones posibles de filas entre las tablas. |


#### **- Explique la diferencia entre métodos síncronos y asíncronos en programación.** <a id='a10'></a> 

En programación, la diferencia entre métodos síncronos y asíncronos está en cómo y cuándo se ejecutan las tareas y si el programa espera su finalización antes de continuar.

**Métodos síncronos**

El código se ejecuta de forma secuencial. Cada instrucción debe completarse antes de pasar a la siguiente, es decir, que estos métodos bloquean la ejecución hasta que la tarea termina. Pueden provocar que un programa se vuelva lento si una tarea tarda mucho (por ejemplo, esperar respuesta de una API).

**Métodos asíncronos**

Permiten que el programa no se bloquee mientras una tarea está en ejecución, permitiendo que otras tareas puedan avanzar en paralelo. Se distinguen por el uso de las palabras claves `async` y `await` en Python. Mejoran el rendimiento en aplicaciones que pueden manejar muchas tareas simultáneas.

Podemos representar un ejemplo de tarea síncrona en la ejecución del código que ejemplificaba la inyección de dependencias y la programación orientada a objetos. La misma solución de manera asincrónica se vería de la siguiente manera:

In [5]:
import asyncio

# Example async model
class AsyncLinearModel:
    def __init__(self, m: float, b: float):
        """
        Class to represent a linear regression model with asynchronous prediction.
        Args:
            m (float): Slope of the line.
            b (float): Intercept of the line.    
        """
        self.m = m  
        self.b = b  
    
    async def predict(self, x: float):  # Define the asynchronous task
        """
        Asynchronous predict for the value of y for a given x.
        Args:
            x (float): The input value for prediction.
        Returns:
            float: The predicted output value.
        """
        await asyncio.sleep(3) # Simulate a long computation asynchronous
        return 2 * x + 1
    
    def describe(self):
        """
        Returns a string description of the model.
        Returns:
            string: Description of the linear regression model.
        """
        return f"Model of async linear regression: y = {self.m}x + {self.b}"


# Service using async dependency injection
class AsyncPredictionService:
    def __init__(self, model: AsyncLinearModel):
        """
        Initializes the PredictionService with an asynchronous model.
        Args:
            model (AsyncLinearModel): An object AsyncLinearModel implementing async 'predict' and 'describe'.
        """
        self.model = model

    async def make_prediction(self, x: float):
        """
        Makes an asynchronous prediction using the injected model.
        Args:
            x (float): The input value for prediction.
        Returns:
            float: The predicted output value.
        """
        return await self.model.predict(x)

async def run_predictive_service_async(service: AsyncPredictionService, entry_value: float):
    """
    Runs a predictive service asynchronously.
    Args:
        service (AsyncPredictionService): The service used to make the prediction.
        entry_value (float): The input value to be predicted.
    Returns:
        result (float): The service's predicted value.
    """
    result = await service.make_prediction(entry_value)
    print(f"Prediction for x={entry_value}: {result}")
    return result


# Define the new asynchronous model and service
async_model = AsyncLinearModel(m=5, b=-9)
async_service = AsyncPredictionService(model=async_model)

# Run multiple predictions in parallel
predictions_group = await asyncio.gather(
    run_predictive_service_async(async_service, 10),
    run_predictive_service_async(async_service, 20),
    run_predictive_service_async(async_service, 30)
)

Prediction for x=10: 21
Prediction for x=20: 41
Prediction for x=30: 61


## B. Preguntas Prácticas. <a id='b'></a> 


### 1. Programación en Python (nivel avanzado) <a id='b1'></a> 

#### **- Escriba una función en Python que reciba una lista de cadenas y devuelva un diccionario con la frecuencia de cada palabra ignorando mayúsculas y signos de puntuación.** <a id='b1_1'></a> 

Este es un proceso común utilizado en el preprocesamiento de textos para introducirlos a modelos de machine learning. Una forma práctica para realizar esta tarea es a través de la función `CountVectorizer` del módulo `feature_extraction.text` en la librería sklearn.

In [6]:
from sklearn.feature_extraction.text import CountVectorizer

def word_frequency_sklearn(text_list):
    """
    Calculates the frequency of each word from a list of strings 
    using scikit-learn's CountVectorizer.
    Ignores case and punctuation automatically.
    Args:
        text_list (list[str]): List of strings to analyze.
    Returns:
        dict: Dictionary where keys are words (in lowercase)
              and values are their frequency count.
    """
    # Initialize CountVectorizer: lowercase, ignore punctuation
    vectorizer = CountVectorizer(lowercase=True)
    
    # Fit and transform text
    X = vectorizer.fit_transform(text_list)

    # Get words and their counts
    words = vectorizer.get_feature_names_out()
    counts = X.toarray().sum(axis=0).ravel().tolist()
    
    return dict(zip(words, counts))

In [7]:
# Test 1
sentences_1 = [
    "Hello world!",
    "The world is beautiful.",
    "HELLO again, world."
]

result_1 = word_frequency_sklearn(sentences_1)
print(result_1)

{'again': 1, 'beautiful': 1, 'hello': 2, 'is': 1, 'the': 1, 'world': 3}


In [8]:
# Test 2
sentences_2 = [
    "La vida, tal como la conocemos, es un fenómeno asombroso y complejo, resultado de miles de millones de años de evolución.",
    "La física es la ciencia que estudia las leyes fundamentales del universo, desde las partículas más pequeñas hasta las galaxias más grandes.",
    "La química es la ciencia que estudia la materia y sus propiedades, así como las transformaciones que esta experimenta."
]

result_2 = word_frequency_sklearn(sentences_2)
print(result_2)

{'asombroso': 1, 'así': 1, 'años': 1, 'ciencia': 2, 'como': 2, 'complejo': 1, 'conocemos': 1, 'de': 4, 'del': 1, 'desde': 1, 'es': 3, 'esta': 1, 'estudia': 2, 'evolución': 1, 'experimenta': 1, 'fenómeno': 1, 'fundamentales': 1, 'física': 1, 'galaxias': 1, 'grandes': 1, 'hasta': 1, 'la': 7, 'las': 4, 'leyes': 1, 'materia': 1, 'miles': 1, 'millones': 1, 'más': 2, 'partículas': 1, 'pequeñas': 1, 'propiedades': 1, 'que': 3, 'química': 1, 'resultado': 1, 'sus': 1, 'tal': 1, 'transformaciones': 1, 'un': 1, 'universo': 1, 'vida': 1}


#### **- Implemente un decorador en Python que mida y muestre el tiempo de ejecución de una función.** <a id='b1_2'></a> 

In [9]:
import time

def count_seconds(func):
    """
    Decorator that counts the time taken for a function to execute.
    Args:
        func (function): The function to be decorated.
    Returns:
        function: The wrapped function with time counting.
    """
    def inner(*args, **kwargs):
        start = time.time()
        result = func(*args, **kwargs)
        end = time.time()
        print(f"Time taken for {func.__name__}: {end - start:.2f} seconds")
        return result
    return inner

In [10]:
#Test
@count_seconds
def run_predictive_service_time_count(service: PredictionService, entry_value: float):
    """
    Runs a predictive service and counts its execution time.
    """
    result = service.make_prediction(entry_value)
    time.sleep(3)
    print(f"Prediction for x={entry_value}: {result}")
    return result

predictions_3 = run_predictive_service_time_count(main_service, 40)

Model of linear regression: y = 4x + 3
Prediction for x=40: 163
Time taken for run_predictive_service_time_count: 3.00 seconds


#### **- Dado un dataframe de pandas con columnas 'fecha' y 'ventas', escriba código para calcular el promedio móvil de ventas en una ventana de 7 días.** <a id='b1_3'></a> 

In [11]:
import pandas as pd

def calculate_sma(time_series, *series, period):
    """
    Calculates the Simple Moving Average (SMA) for one or more series.
    
    Args:
        time_series (list | pd.Series): List or pandas Series of dates.
        *series (list | pd.Series): One or more value series to calculate SMA for.
        period (int): Window size for the moving average.

    Returns:
        pd.DataFrame: DataFrame containing the time series and SMA for each input series.
    """
    # Create a base DataFrame
    df = pd.DataFrame({'date': pd.to_datetime(time_series)})

    # Add each series to the DataFrame and calculate its SMA
    for idx, values in enumerate(series, start=1):
        col_name = f"serie_{idx}"
        sma_name = f"SMA_{period}_serie_{idx}"
        
        df[col_name] = values
        df[sma_name] = df[col_name].rolling(window=period).mean()

    return df

In [12]:
import numpy as np

# Test
fecha = pd.date_range(start='2025-07-01', periods=30, freq='D')
ventas = np.random.randint(10, 81, size=30)

results = calculate_sma(fecha, ventas, period=7)
results.columns = ['fecha', 'ventas', 'SMA_7_ventas']

results.tail(10)

Unnamed: 0,fecha,ventas,SMA_7_ventas
20,2025-07-21,27,35.571429
21,2025-07-22,66,41.285714
22,2025-07-23,47,37.714286
23,2025-07-24,10,34.714286
24,2025-07-25,76,42.571429
25,2025-07-26,60,42.285714
26,2025-07-27,31,45.285714
27,2025-07-28,74,52.0
28,2025-07-29,40,48.285714
29,2025-07-30,48,48.428571


### 2. Protocolos de Comunicación (APIs). <a id='b2'></a> 


#### **- Explique cómo funciona el método HTTP POST y cuándo se utiliza en una API REST.** <a id='b2_1'></a> 

El método HTTP POST es uno de los métodos más utilizados en APIs REST y se emplea principalmente para enviar datos al servidor con el objetivo de crear o procesar un recurso. El orden del proceso se puede explicar a través de los siguientes pasos:

1. El cliente envía una solicitud POST a la URL del recurso.

2. Los datos se incluyen en el cuerpo (body) de la solicitud, normalmente en formatos como JSON o XML.

3. El servidor recibe y procesa esos datos.

4. El servidor responde normalmente con un código que representa el resultado, por ejemplo, código 200 OK si se procesó correctamente.

A continuación se puede ver un ejemplo utilizando Flask y requests como librerías y herramientas para esta tarea.

In [None]:
# Server simulator for POST
from flask import Flask, jsonify, request
from datetime import datetime
from flask_cors import CORS

app = Flask(__name__)
CORS(app)  # Allow access from all origins, use it to control access and security

# Global variable to update through POST.
current_date = None

# Route to update the current date.
@app.route('/update-date', methods=['POST'])
def update_date():
    """
    Receives a JSON payload with a date string and returns a confirmation message.
    Request Body (JSON):
        {
            "date": "YYYY-MM-DD"
        }
    Responses:
        200: Date updated successfully.
        400: Missing or invalid date format.
    """
    global current_date
    data = request.get_json()   # Step 3

    if not data or "date" not in data:
        return jsonify({"error": "Missing 'date' field"}), 400

    try:
        datetime.strptime(data["date"], "%Y-%m-%d")
    except ValueError:
        return jsonify({"error": "Invalid date format, use YYYY-MM-DD"}), 400
    
    current_date = data["date"]   # Updating the value in the server
    
    return jsonify({"message": "Date updated successfully", "date": data["date"]}), 200   # Step 4

In [14]:
import requests

def send_update_date(current_date: str, server_url: str):
    """
    Sends a POST request to the Flask server with a date string.
    Args:
        current_date (str): Date in 'YYYY-MM-DD' format.
        server_url (str): Base URL of the Flask server.
    Returns:
        dict: JSON response from the server.
    """
    response = requests.post(f'{server_url}/update-date', json={"date": current_date})   # Step 2
    
    if response.ok:
        print("Success", response.json())
    else:
        print("Failed", response.status_code, response.text)

    return response.json()

Ahora para realizar ejecutar el método POST solo debemos llamar a las funciones que lo controlan con la información para el cuerpo de la solicitud, de esta manera:
```python
# Updating date.
server_url = 'http://127.0.0.1:5000'
send_update_date('2025-08-15', server_url)   # Step 1
```

#### **- En Python, ¿cómo se puede realizar una solicitud GET a una API y manejar una respuesta en formato JSON? Escriba un ejemplo básico.** <a id='b2_2'></a>

El método HTTP GET se emplea principalmente para recibir datos del servidor. El orden del proceso se puede explicar a través de los siguientes pasos:

1. El cliente envía una solicitud GET a la URL del recurso.

2. El servidor recibe la solicitud y empaqueta los datos en formato JSON como respuesta.

3. El servidor responde normalmente con un código y un paquete de datos si la solicitud se procesó correctamente.

4. Los datos pueden desempaquetarse y leerse como diccionarios.

A continuación se puede ver un ejemplo utilizando Flask y requests como librerías y herramientas para esta tarea.

In [15]:
# Append this code to server to simulate a GET method

# Route to get the current date.
@app.route('/get-date', methods=['GET'])
def get_date():
    """
    Returns the current date stored on the server.
    If no date is set, returns an error message.
    """
    global current_date
    if current_date is None:
        return jsonify({"error": "'date' not updated"}), 400
    return jsonify({"date": current_date}), 200  # Step 2 and 3

In [16]:
def fetch_date(server_url):
    """
    Performs a GET request to the Flask server to retrieve the current date.
    Args:
        server_url (str): Base URL of the Flask server.
    """
    try:
        response = requests.get(f"{server_url}/get-date")   # Step 1
        if response.status_code == 200:
            data = response.json()     # Step 4, Convert from JSON to dict
            print(f"Server date: {data['date']}")
            return data['date']
        else:
            print(f"Error {response.status_code}: {response.text}")
            return None
    except requests.exceptions.RequestException as e:
        print(f"Request failed: {e}")


Finalmente, es posible solicitar la fecha almacenada en el servidor ejecutando la función que emplea el método GET, solo se requiere especificar la url del servidor.
```python
# Getting date
current_date = fetch_date(server_url)
```

#### **- Mencione y explique tres buenas prácticas de seguridad que se deben considerar al desarrollar o consumir APIs.** <a id='b2_3'></a>

**1. Autenticación y autorización seguras.**

Implementar mecanismos para verificar que el usuario o sistema que hace la solicitud es quien dice ser (autenticación) y tiene permisos para realizar la acción solicitada (autorización).

- Utilizar CORS para la transferencia de datos autorizada.
- Usar tokens de acceso (por ejemplo, JWT o OAuth 2.0).
- Evitar enviar credenciales en texto plano.
- Implementar roles y permisos específicos.

**2. Uso de HTTPS para cifrado de datos.**

Asegurar que toda la comunicación entre cliente y servidor esté cifrada usando TLS/SSL. Esto impide que atacantes intercepten o modifiquen los datos enviados, protegiendo credenciales, tokens y datos sensibles.

- Configurar el servidor para aceptar solo https://.
- Redirigir automáticamente cualquier solicitud HTTP a HTTPS.

**3. Validación y saneamiento de datos de entrada.**

Comprobar que todos los datos recibidos por la API cumplen con el formato, tipo y rango esperado antes de procesarlos. Esto reduce el riesgo de inyección SQL, ejecución de código malicioso o fallos por datos corruptos.

- Validar tipos de datos (por ejemplo, fechas, enteros, strings).
- Limitar el tamaño máximo de los payloads.

### 3. Manipulación de Texto (NLP). <a id='b3'></a>

#### **- Describa cómo funciona la tokenización en el procesamiento de lenguaje natural y mencione una librería en Python que la implemente.** <a id='b3_1'></a>

La tokenización en procesamiento de lenguaje natural (NLP) es el proceso de dividir un texto en unidades más pequeñas llamadas tokens. Un token puede ser una palabra, un número, un signo de puntuación o incluso una subpalabra, dependiendo de cómo se defina la segmentación.

Para iniciar el proceso de tokenización la entrada de texto se recibe en una cadena de texto continua. Luego se aplica un conjunto de reglas o un modelo estadístico para identificar los límites entre tokens (por ejemplo, espacios, signos de puntuación o patrones lingüísticos). Finalmente, se genera una lista o secuencia de tokens que se usarán para análisis posteriores, como extracción de características o modelado. Aquí tenemos un ejemplo de tokenización usando la librería Natural Language Toolkit (NLTK).

In [None]:
import nltk
nltk.download('punkt')
nltk.download("punkt_tab")
from nltk.tokenize import word_tokenize

In [12]:
# Test 1
text_1 = "Hola, el mundo de NLP es fascinante."
tokens_1 = word_tokenize(text_1)
print(tokens_1)

['Hola', ',', 'el', 'mundo', 'de', 'NLP', 'es', 'fascinante', '.']


In [11]:
# Test 2
text_2 = "All models are wrong, but some are useful."
tokens_2 = word_tokenize(text_2)
print(tokens_2)

['All', 'models', 'are', 'wrong', ',', 'but', 'some', 'are', 'useful', '.']


#### **- Explique qué es el "stemming" y cómo se diferencia del "lemmatization".** <a id='b3_2'></a>

En el procesamiento de lenguaje natural (NLP), stemming y lematización son técnicas para reducir las palabras a una forma base, pero lo hacen de maneras distintas:

El Stemming corta los sufijos o prefijos de las palabras para obtener su “raíz” (stem), sin preocuparse por si la raíz resultante es una palabra real. Su ventaja es que es rápido y computacionalmente barato. Su principal desventaja radica en que puede generar “raíces” que no existen como palabras correctas en el idioma.

La lematización reduce las palabras a su lema (forma base válida en el diccionario) considerando el significado y la gramática. Usa diccionarios, análisis morfológico y, a veces, información del contexto (parte de la oración: sustantivo, verbo, adjetivo, etc.). Su ventaja es que produce palabras reales y correctas, pero, a cambio, es más lento y requiere más recursos.

In [None]:
from nltk.stem import PorterStemmer
from nltk.stem import WordNetLemmatizer
nltk.download('wordnet')
nltk.download('omw-1.4')

In [17]:
# Example using stemming
stemmer = PorterStemmer()

stem_tokens_2 = []
for word in tokens_2:
    stemmed = stemmer.stem(word)
    stem_tokens_2.append(stemmed)

print(stem_tokens_2)

['all', 'model', 'are', 'wrong', ',', 'but', 'some', 'are', 'use', '.']


In [18]:
# Example using lemmatization
lemmatizer = WordNetLemmatizer()

lemma_tokens_2 = []
for word in tokens_2:
    lemmatized = lemmatizer.lemmatize(word)
    lemma_tokens_2.append(lemmatized)

print(lemma_tokens_2)

['All', 'model', 'are', 'wrong', ',', 'but', 'some', 'are', 'useful', '.']


#### **- Escriba un fragmento de código en Python que elimine stopwords de un texto dado.** <a id='b3_3'></a>

In [None]:
from nltk.corpus import stopwords
nltk.download('stopwords')

In [20]:
# Stopwords list
stop_words = set(stopwords.words('english'))

# Filter stopwords
tokens_2_filted = [word for word in lemma_tokens_2 if word not in stop_words and word.isalpha()]

print("Original text:", text_2)
print("Tokens filtered:", tokens_2_filted)

Original text: All models are wrong, but some are useful.
Tokens filtered: ['All', 'model', 'wrong', 'useful']


#### **- Explique cómo los modelos generativos (GenAI) como GPT pueden ser utilizados para tareas de NLP, y mencione uno o dos casos de uso prácticos en la industria.** <a id='b3_4'></a>

Los modelos generativos como GPT (Generative Pre-trained Transformer) son redes neuronales entrenadas para predecir la siguiente palabra en una secuencia de texto, lo que les permite generar contenido coherente y contextual en lenguaje natural. Estos modelos se entrenan con enormes volúmenes de texto para aprender patrones lingüísticos, gramática, estilo y relaciones semánticas; una vez entrenados, pueden entender y producir lenguaje humano a partir de un prompt o instrucción. Algunos casos de uso práctico en la industria son:

**Atención al cliente automatizada:** chatbots avanzados que responden en tiempo real con contexto histórico del cliente.

**Asistentes de productividad y generación de contenido:** redacción automática de reportes, descripciones de productos, campañas de marketing o documentación técnica.

### 4. Manipulación de Datos y Consultas SQL (nivel intermedio-avanzado). <a id='b4'></a>

#### **- Escriba una consulta SQL que utilice una subconsulta correlacionada para obtener, de una tabla 'ventas', los productos cuyo monto de ventas sea superior al promedio mensual de ventas de todos los productos.** <a id='b4_1'></a>

Dada la tabla 'ventas' a continuación:

| producto_id | mes | monto_venta |
|--------------|-------------|-------------|
| 0000 | 1 | 20 |
| 0000 | 2 | 40 |
| 0001 | 1 | 50 |
| 0001 | 2 | 80 |


Es posible cumplir con la petición con el siguiente query:

```SQL
SELECT DISTINCT v.producto_id
FROM ventas v
WHERE v.monto_venta > (
    SELECT AVG(v2.monto_venta)
    FROM ventas v2
    WHERE v2.mes = v.mes
);
```


Primero en la subconsulta correlacionada calculamos el promedio de ventas del mes actual (v.mes) para todos los productos. Luego se comparan las ventas del producto (v.monto_venta) con el promedio de su mismo mes. Finalmente, DISTINCT evita repetir productos si hay varios registros que cumplen la condición.

#### **- Explique cómo funcionan los índices compuestos en bases de datos y cómo afectan el rendimiento de consultas con múltiples condiciones.** <a id='b4_2'></a>

Un índice compuesto es un índice que abarca dos o más columnas de una tabla en una base de datos relacional. En lugar de indexar cada columna por separado, el motor de base de datos crea una estructura de búsqueda que ordena los registros combinando los valores de las columnas en el orden en que se definió el índice.

Este es un ejemplo de como crear un índice compuesto sobre las columnas `producto_id` y `mes`.

```SQL
CREATE INDEX idx_producto_mes
ON ventas (producto_id, mes);
```

Esto significa que el índice está ordenado primero por producto_id y, dentro de cada producto, por mes. El motor puede usarlo de manera eficiente para consultas que filtran por:

- Ambas columnas en el orden del índice:

```SQL
SELECT * FROM ventas
WHERE producto_id = '0001' AND mes > 1;
```

- Solo la primera columna:

```SQL
SELECT * FROM ventas
WHERE producto_id = '0001';
```

Pero no será igual de eficiente si filtras solo por la segunda columna (mes) sin incluir la primera (producto_id), porque la organización del índice depende del orden definido.

Su principal ventajas recide en que acelera consultas con múltiples condiciones que siguen el orden de las columnas en el índice. Si la mayoría de las consultas usan varias columnas juntas en condiciones WHERE o ORDER BY, un índice compuesto puede ser muy beneficioso. Sin embargo, el orden de las columnas es crítico, por lo que poner primero la columna más selectiva es importante. También, un índice compuesto ocupa más espacio y requiere más tiempo para INSERT, UPDATE o DELETE.

#### **- Escriba una consulta SQL que utilice funciones ventana (window functions) para calcular el ranking mensual de ventas por producto en una tabla 'ventas'.** <a id='b4_3'></a>

Basandonos en la misma tabla, podríamos dar solución al problema con el siguiente query:

```SQL
SELECT
    producto_id,
    mes,
    monto_venta,
    RANK() OVER (
        PARTITION BY mes
        ORDER BY monto_venta DESC
    ) AS ranking_mensual
FROM ventas
ORDER BY mes, ranking_mensual;
```

Primero `PARTITION BY mes` reinicia el ranking para cada mes, luego `ORDER BY monto_venta DESC` organiza el producto con mayor venta en ese mes en la parte superior y va descendiendo. Finalmente `RANK()` asigna el numero del ranking por mes.