# Diplomado en ciencia de datos para toma de decisiones financieras

---
**Leonardo H. Talero-Sarmiento**

ltalero@unab.edu.co
---
**Módulo 1: Fundamentos de Python y Estadística Básica Total Horas: 20 horas (5 sesiones) (Abril 5 a abril 19)**
---
* **Introducción a Python para Finanzas**: Configuración del entorno, sintaxis básica, estructuras de datos. (4 horas)
* **Programación en Python**: Funciones, bucles, manejo de errores. (4 horas)
* **Estadística Básica en Python**: Medidas de tendencia central y dispersión, probabilidad. (4 horas)
* **Adquisición y Selección de Datos Financieros**: Importación de datos (APIs, CSV), selección de variables relevantes. (4 horas)
* **Limpieza y Preparación de Datos**: Manejo de valores faltantes, transformación de variables. (4 horas)


# Índice del Curso

1. **Introducción a la Limpieza de Datos**

- **Importancia de la Limpieza de Datos**: Explicación de cómo los datos sucios o mal gestionados pueden llevar a conclusiones erróneas en el análisis financiero.
- **Tipos de "Suciedad" en los Datos**: Identificación de problemas comunes como valores faltantes, datos atípicos, errores de entrada, y datos duplicados.

2. **Manejo de Valores Faltantes**

- **Identificación de Valores Faltantes**: Uso de Python para detectar la ausencia de datos en un conjunto de datos.
- **Técnicas de Manejo de Valores Faltantes**:
  - **Eliminación**: Cuando y cómo eliminar filas o columnas con valores faltantes.
  - **Imputación**: Técnicas para imputar datos faltantes utilizando la media, mediana, moda, o métodos más sofisticados como la imputación multivariante.
  - **Ejemplo práctico en Python**: Uso de `pandas` y `sklearn` para imputar valores faltantes.

3. **Transformación de Variables**

- **Escalar y Normalizar Datos**: Cómo y por qué normalizar y escalar datos en finanzas.
- **Transformación de Variables Categóricas**: Convertir variables categóricas en formatos útiles para modelización.
- **Reducción de Dimensionalidad**: Introducción a técnicas como PCA para reducir la cantidad de variables.
- **Ejercicio Práctico**: Los estudiantes deberán aplicar estas técnicas a un conjunto de datos financieros proporcionado, transformando todas las variables necesarias.

4. **Integración y Almacenamiento de Datos Limpios**
- **Construcción de Pipelines de Datos**: Automatización del proceso de limpieza y transformación de datos usando `Pipeline` en `scikit-learn`.
- **Almacenamiento de Datos Transformados**: Mejores prácticas para el almacenamiento de conjuntos de datos limpios y transformados.





# 1. Introducción a la Limpieza de Datos

En el mundo de las finanzas, la calidad de los datos puede ser tan crítica como las decisiones que de ellos derivan. Un análisis financiero preciso, ya sea para evaluación de inversiones, gestión de riesgos, o planificación estratégica, depende en gran medida de la calidad de los datos utilizados. Este documento explora la importancia de la limpieza de datos, los problemas comunes que se deben abordar, y proporciona un ejemplo introductorio de cómo identificar datos faltantes usando Python y pandas.

## 1. **Importancia de la Limpieza de Datos**

La limpieza de datos es el proceso de detectar y corregir (o eliminar) registros corruptos o inexactos de un conjunto de datos. En el contexto de las finanzas:

- **Decisiones informadas**: Los datos precisos y bien gestionados aseguran que las decisiones financieras se basen en la información más fiable y actualizada.
- **Eficiencia analítica**: Datos limpios reducen significativamente el riesgo de errores en el análisis y ayudan a mejorar la eficiencia operativa al automatizar procesos.
- **Cumplimiento y transparencia**: Mantener la integridad de los datos es crucial para cumplir con regulaciones financieras y mantener la transparencia ante los stakeholders.

## 2. **Problemas Comunes en los Datos**

Los conjuntos de datos, especialmente los grandes, a menudo presentan varios problemas que pueden distorsionar los resultados del análisis si no se manejan adecuadamente:

- **Valores faltantes**: Los registros incompletos pueden surgir por diversos motivos, desde errores en la entrada de datos hasta fallos en la transmisión o almacenamiento de datos.
- **Errores de entrada**: Equivocaciones o descuidos al ingresar datos, que pueden introducir errores significativos en los análisis financieros.
- **Datos duplicados**: La presencia de registros repetidos puede llevar a una interpretación errónea del volumen de actividad o de la magnitud de un parámetro financiero.
- **Datos atípicos (Outliers)**: Valores que se desvían significativamente del resto de datos y que pueden indicar un error o una condición de mercado anómala.

## 3. **Ejemplo Introductorio en Python**

Para empezar a abordar estos problemas, uno de los primeros pasos en la limpieza de datos es identificar valores faltantes. A continuación, se muestra cómo utilizar `pandas` para este propósito:

```python
import pandas as pd

# Supongamos que tenemos un DataFrame llamado 'data'
data = pd.DataFrame({
    'precio': [100, 101, 102, None, 104],
    'volumen': [200, None, 150, 140, 130]
})

# Mostrar datos faltantes
print(data.isnull())

# Resultado de los datos faltantes
print("\nDatos Faltantes por Columna:")
print(data.isnull().sum())
```

Este código inicialmente carga datos en un DataFrame y luego utiliza la función `isnull()` para identificar y sumar todos los valores faltantes por columna. Este es un primer paso esencial para entender el alcance de los problemas en el conjunto de datos y planificar los pasos siguientes para la limpieza.



In [None]:
import pandas as pd
# Supongamos que tenemos un DataFrame llamado 'data'
data = pd.DataFrame({
    'precio': [100, 101, 102, None, 104],
    'volumen': [200, None, 150, 140, 130]
})
# Mostrar datos faltantes
print(data.isnull())

# Resultado de los datos faltantes
print("\nDatos Faltantes por Columna:")
print(data.isnull().sum())

   precio  volumen
0   False    False
1   False     True
2   False    False
3    True    False
4   False    False

Datos Faltantes por Columna:
precio     1
volumen    1
dtype: int64


## 3. Haciendo uso de datos reales

Por favor descargue los datos de ejemplo de [kaggle](https://www.kaggle.com/datasets/yaminh/applicant-details-for-loan-approve/code)

| Variable Name (English) | Description (English) | Description (Spanish) |
|---|---|---|
| Applicant_ID | Unique identifier for each loan applicant. | Identificador único para cada solicitante de préstamo. |
| Annual_Income | Annual income of the loan applicant. | Ingreso anual del solicitante del préstamo. |
| Applicant_Age | Age of the loan applicant. | Edad del solicitante del préstamo. |
| Work_Experience | Number of years of work experience of the loan applicant. | Número de años de experiencia laboral del solicitante del préstamo. |
| Marital_Status | Marital status of the loan applicant. | Estado civil del solicitante del préstamo. |
| House_Ownership | Ownership status of the applicant's residence. | Estado de propiedad de la residencia del solicitante. |
| Vehicle_Ownership (car) | Ownership status of the applicant's vehicle. | Estado de propiedad del vehículo del solicitante (carro). |
| Occupation | Profession or occupation of the loan applicant. | Profesión u ocupación del solicitante del préstamo. |
| Residence_City | City where the loan applicant resides. | Ciudad donde reside el solicitante del préstamo. |
| Residence_State | State where the loan applicant resides. | Estado donde reside el solicitante del préstamo. |
| Years_in_Current_Employment | Number of years the applicant has been in their current job. | Número de años que el solicitante lleva en su trabajo actual. |
| Years_in_Current_Residence | Number of years the applicant has been residing in their current residence. | Número de años que el solicitante lleva residiendo en su domicilio actual. |
| Loan_Default_Risk | Indicator of loan default risk, with values indicating whether the loan applicant is at risk of defaulting on the loan. | Indicador de riesgo de impago del préstamo, con valores que indican si el solicitante del préstamo corre el riesgo de no pagar. |


In [None]:
import pandas as pd
import numpy as np

df = pd.read_csv("/content/Applicant-details.csv")

# Resultado de los datos faltantes
print("\nDatos Faltantes por Columna:")
print(df.isnull().sum())

# Generar máscara aleatoria por columna
porcentaje_perdido = 0.05  # Ajustar el porcentaje de valores perdidos deseado

def generar_mascara_columna(columna):
    # Generar máscara aleatoria con probabilidad especificada
    mascara_columna = np.random.choice([True, False], size=len(columna), p=[porcentaje_perdido, 1-porcentaje_perdido])
    # Convertir valores a NaN según la máscara
    columna.loc[mascara_columna] = np.nan
    return columna

# Aplicar la función a cada columna
df = df.apply(generar_mascara_columna, axis=0)


# Resultado de los datos faltantes
print("\nDatos Faltantes por Columna:")
print(df.isnull().sum())


Datos Faltantes por Columna:
Applicant_ID                   0
Annual_Income                  0
Applicant_Age                  0
Work_Experience                0
Marital_Status                 0
House_Ownership                0
Vehicle_Ownership(car)         0
Occupation                     0
Residence_City                 0
Residence_State                0
Years_in_Current_Employment    0
Years_in_Current_Residence     0
Loan_Default_Risk              0
dtype: int64

Datos Faltantes por Columna:
Applicant_ID                   4936
Annual_Income                  5096
Applicant_Age                  5077
Work_Experience                4897
Marital_Status                 4960
House_Ownership                5054
Vehicle_Ownership(car)         5056
Occupation                     5001
Residence_City                 4979
Residence_State                5018
Years_in_Current_Employment    4927
Years_in_Current_Residence     4980
Loan_Default_Risk              5138
dtype: int64


# 2. Manejo de Valores Faltantes

## Manejo de Valores Faltantes

El manejo adecuado de valores faltantes en conjuntos de datos es crucial para el análisis de datos financiero confiable y preciso. Los datos incompletos pueden llevar a conclusiones erróneas y afectar el rendimiento de los modelos de predicción. A continuación, exploraremos diversas técnicas para tratar con valores faltantes, proporcionaremos ejemplos prácticos en Python y propondremos un ejercicio para aplicar estos conocimientos.

### 1. **Técnicas para Manejar Valores Faltantes**

Los valores faltantes pueden ser abordados de varias maneras, dependiendo de la naturaleza del problema y la cantidad de datos faltantes. Algunas de las técnicas más comunes incluyen:

- **Eliminación**: Consiste en eliminar filas o columnas que contienen valores faltantes. Esta técnica es simple pero puede resultar en la pérdida de información importante si los datos faltantes son extensos.
- **Imputación**:
  - **Media/Mediana/Moda**: Sustituir los valores faltantes por la media, mediana o moda es efectivo para características numéricas o categóricas respectivamente.
  - **Interpolación**: Método útil especialmente en series temporales, donde los valores faltantes pueden ser estimados a partir de valores adyacentes.
  
### 2. **Ejemplo Práctico en Python**

Para ilustrar cómo manejar valores faltantes en un conjunto de datos financieros, utilizaremos Python con `pandas` para la eliminación y `SimpleImputer` de `sklearn` para la imputación.

#### Eliminación de Filas con Valores Faltantes:

```python
import pandas as pd

# Cargar un ejemplo de datos financieros
data = pd.DataFrame({
    'precio': [100, 101, None, 103, 104],
    'volumen': [200, None, 150, 140, 130]
})

# Eliminar filas con cualquier valor faltante
clean_data = data.dropna()
print(clean_data)
```



In [18]:
import pandas as pd

# Cargar un ejemplo de datos financieros
data = pd.DataFrame({
    'precio': [100, 101, None, 103, 104],
    'volumen': [200, None, 150, 140, 130]
})

# Eliminar filas con cualquier valor faltante
clean_data = data.dropna()
print(clean_data)

   precio  volumen
0   100.0    200.0
3   103.0    140.0
4   104.0    130.0


#### Imputación de Valores Faltantes:

```python
from sklearn.impute import SimpleImputer
import numpy as np

# Imputador para sustituir valores faltantes con la media de la columna
imputer = SimpleImputer(strategy='mean')

# Aplicar imputación
data['precio'] = imputer.fit_transform(data[['precio']])

# Comprobar el resultado
print(data)
```



In [19]:
from sklearn.impute import SimpleImputer
import numpy as np

# Imputador para sustituir valores faltantes con la media de la columna
imputer = SimpleImputer(strategy='mean')

# Aplicar imputación
data['precio'] = imputer.fit_transform(data[['precio']])

# Comprobar el resultado
print(data)

   precio  volumen
0   100.0    200.0
1   101.0      NaN
2   102.0    150.0
3   103.0    140.0
4   104.0    130.0


### 3. **Ejercicio Práctico**

**Objetivo del ejercicio**: Limpiar un conjunto de datos de mercado bursátil, enfocándose en el manejo de valores faltantes.

**Datos proporcionados**: Un archivo CSV que contiene precios diarios de acciones con algunas entradas faltantes en precios y volúmenes.

**Tareas**:
1. Cargar el conjunto de datos desde un archivo CSV.
2. Identificar y contar los valores faltantes en cada columna.
3. Aplicar imputación para rellenar los valores faltantes utilizando la mediana para los precios y la media para los volúmenes.
4. Guardar el conjunto de datos limpio en un nuevo archivo CSV.

#### Código de Ejercicio Sugerido:

```python
# Carga de datos
data = pd.read_csv('datos_mercado_bursatil.csv')

# Visualización de valores faltantes
print(data.isnull().sum())

# Configurar imputadores
precio_imputer = SimpleImputer(strategy='median')
volumen_imputer = SimpleImputer(strategy='mean')

# Aplicar imputación
data['precio'] = precio_imputer.fit_transform(data[['precio']])
data['volumen'] = volumen_imputer.fit_transform(data[['volumen']])

# Guardar los datos limpios
data.to_csv('datos_mercado_bursatil_limpio.csv', index=False)

# Mostrar los datos finales
print(data.head())
```


Para ampliar el ejemplo práctico de manejo de valores faltantes en un conjunto de datos financieros, podemos añadir una columna con variables de tipo `str` (cadena de caracteres). Esto nos permitirá demostrar cómo abordar los valores faltantes en datos categóricos.

### Modificación del Conjunto de Datos

Vamos a agregar una columna llamada `categoria`, que podría representar, por ejemplo, la clasificación de riesgo de las acciones o cualquier otro dato categórico relevante en el contexto financiero.

### Ejemplo Práctico en Python

A continuación, modificaremos el código para incluir esta nueva columna y aplicaremos técnicas de imputación tanto a los datos numéricos como a los categóricos:

```python
import pandas as pd
from sklearn.impute import SimpleImputer

# Crear un DataFrame con una nueva columna de tipo str
data = pd.DataFrame({
    'precio': [100, 101, None, 103, 104],
    'volumen': [200, None, 150, 140, 130],
    'categoria': ['Alto', 'Medio', None, 'Alto', 'Bajo']
})

# Mostrar datos originales
print("Datos originales:")
print(data)

# Imputación para datos numéricos
num_imputer = SimpleImputer(strategy='mean')
data['precio'] = num_imputer.fit_transform(data[['precio']])
data['volumen'] = num_imputer.fit_transform(data[['volumen']])

# Imputación para datos categóricos
cat_imputer = SimpleImputer(strategy='most_frequent')
data['categoria'] = cat_imputer.fit_transform(data[['categoria']])

# Mostrar datos después de la imputación
print("\nDatos después de la imputación:")
print(data)
```

### Explicación del Código

1. **Creación del DataFrame**: Se define un DataFrame de `pandas` con una nueva columna llamada `categoria`, que incluye valores categóricos, algunos de los cuales son `None` (similares a los valores faltantes en pandas).

2. **Imputación para Datos Numéricos**:
    - Se utiliza `SimpleImputer` con la estrategia `mean` para imputar los valores faltantes en las columnas numéricas (`precio` y `volumen`).

3. **Imputación para Datos Categóricos**:
    - Se emplea `SimpleImputer` con la estrategia `most_frequent` para rellenar los valores faltantes en la columna categórica (`categoria`). Esta estrategia reemplaza los valores faltantes por el valor más frecuente en la columna, lo cual es comúnmente utilizado para datos categóricos.



In [26]:
import pandas as pd
from sklearn.impute import SimpleImputer

# Crear un DataFrame con una nueva columna de tipo str
data = pd.DataFrame({
    'precio': [100, 101, None, 103, 104],
    'volumen': [200, None, 150, 140, 130],
    'categoria': ['Alto', 'Medio', None, 'Alto', 'Bajo']
})

# Mostrar datos originales
print("Datos originales:")
print(data)

# Imputación para datos numéricos
num_imputer = SimpleImputer(strategy='mean')
data['precio'] = num_imputer.fit_transform(data[['precio']])
data['volumen'] = num_imputer.fit_transform(data[['volumen']])

# Imputación para datos categóricos
mode_categoria = data['categoria'].mode().iloc[0]  # Find the most frequent category
data['categoria'].fillna(mode_categoria, inplace=True)


# Mostrar datos después de la imputación
print("\nDatos después de la imputación:")
print(data)

Datos originales:
   precio  volumen categoria
0   100.0    200.0      Alto
1   101.0      NaN     Medio
2     NaN    150.0      None
3   103.0    140.0      Alto
4   104.0    130.0      Bajo

Datos después de la imputación:
   precio  volumen categoria
0   100.0    200.0      Alto
1   101.0    155.0     Medio
2   102.0    150.0      Alto
3   103.0    140.0      Alto
4   104.0    130.0      Bajo


Cuando trabajamos con series de tiempo en finanzas, es común encontrar valores faltantes que pueden distorsionar los análisis si no se tratan adecuadamente. Una técnica útil para manejar valores faltantes en series de tiempo es la interpolación, que estima los valores faltantes basándose en otros valores conocidos de la serie temporal.

### Ejemplo Práctico en Python: Interpolación en Series de Tiempo

En este ejemplo, crearemos un conjunto de datos de serie temporal con algunos valores faltantes y utilizaremos interpolación para llenar esos huecos. Vamos a utilizar `pandas`, que ofrece varias opciones para interpolación.

#### Creación del Conjunto de Datos

Supongamos que tenemos datos diarios de precios de acciones, pero algunos días faltan debido a errores en la captura de datos o días no comerciales.

```python
import pandas as pd
import numpy as np

# Crear fechas de índice
idx = pd.date_range('2021-01-01', periods=10, freq='D')

# Crear datos con valores faltantes
data = pd.Series([100, 101, np.nan, 103, np.nan, 105, 106, np.nan, 108, 109], index=idx)

# Mostrar la serie con valores faltantes
print("Serie original con valores faltantes:")
print(data)
```

#### Aplicando Interpolación

Utilizaremos la función `interpolate()` de `pandas`, que por defecto utiliza una interpolación lineal para estimar los valores faltantes.

```python
# Aplicar interpolación
interpolated_data = data.interpolate()

# Mostrar la serie después de la interpolación
print("\nSerie después de la interpolación:")
print(interpolated_data)
```

### Código Completo

Aquí está el código completo con la creación de datos y la interpolación aplicada:

```python
import pandas as pd
import numpy as np

# Crear fechas de índice
idx = pd.date_range('2021-01-01', periods=10, freq='D')

# Crear datos con valores faltantes
data = pd.Series([100, 101, np.nan, 103, np.nan, 105, 106, np.nan, 108, 109], index=idx)

# Mostrar la serie con valores faltantes
print("Serie original con valores faltantes:")
print(data)

# Aplicar interpolación
interpolated_data = data.interpolate()

# Mostrar la serie después de la interpolación
print("\nSerie después de la interpolación:")
print(interpolated_data)
```

### Explicación del Método de Interpolación

- **Interpolación Lineal**: Este método estima los valores faltantes realizando una interpolación lineal, lo que significa que asume una tasa de cambio constante entre los puntos conocidos antes y después de los valores faltantes. Es especialmente útil en datos que cambian gradualmente y es común en el análisis financiero donde los precios de las acciones no suelen saltar abruptamente bajo condiciones normales de mercado.

Este enfoque no solo es eficaz para completar datos faltantes en series de tiempo sino que también mantiene la coherencia temporal de los datos, lo cual es crucial para cualquier análisis técnico o modelos predictivos en finanzas.

In [31]:
import pandas as pd
import numpy as np

# Crear fechas de índice
idx = pd.date_range('2021-01-01', periods=10, freq='D')

# Crear datos con valores faltantes
data = pd.Series([100, 101, np.nan, 103, np.nan, 105, 106, np.nan, 108, 109], index=idx)

# Mostrar la serie con valores faltantes
print("Serie original con valores faltantes:")
print(data)

# Aplicar interpolación
interpolated_data = data.interpolate()

# Mostrar la serie después de la interpolación
print("\nSerie después de la interpolación:")
print(interpolated_data)

Serie original con valores faltantes:
2021-01-01    100.0
2021-01-02    101.0
2021-01-03      NaN
2021-01-04    103.0
2021-01-05      NaN
2021-01-06    105.0
2021-01-07    106.0
2021-01-08      NaN
2021-01-09    108.0
2021-01-10    109.0
Freq: D, dtype: float64

Serie después de la interpolación:
2021-01-01    100.0
2021-01-02    101.0
2021-01-03    102.0
2021-01-04    103.0
2021-01-05    104.0
2021-01-06    105.0
2021-01-07    106.0
2021-01-08    107.0
2021-01-09    108.0
2021-01-10    109.0
Freq: D, dtype: float64


#3. Transformación de Variables

En el análisis financiero, preparar correctamente los datos es crucial para el desarrollo de modelos predictivos robustos y precisos. La transformación de variables es una etapa fundamental en la preparación de datos, que implica ajustar las características del conjunto de datos para mejorar la calidad y la eficacia del análisis.

## 1. **Escalar y Normalizar Datos**

La normalización y el escalado de datos son técnicas esenciales para estandarizar el rango de las variables independientes o características de los datos. En finanzas:

- **Importancia del Escalado**: Diferentes variables financieras pueden tener diferentes unidades de medida (como dólares, porcentajes, o puntos base). Escalar esos datos a un rango común es crucial para evitar que las variables con mayor magnitud dominen el modelo.
- **Impacto en Modelos Predictivos**: Muchos algoritmos de aprendizaje automático, como los basados en distancias (k-NN, SVM) o gradientes (regresión logística, redes neuronales), asumen que todas las características están en la misma escala, lo que hace que el escalado sea esencial para un rendimiento óptimo del modelo.

## 2. **Transformación de Variables Categóricas y Reducción de Dimensionalidad**

- **Manejo de Variables Categóricas**: Las variables categóricas deben ser transformadas en formatos que los modelos predictivos puedan entender. Una técnica común es el *one-hot encoding*, que convierte variables categóricas en una serie de variables binarias.
  
- **Reducción de Dimensionalidad**: Técnicas como el Análisis de Componentes Principales (PCA) son usadas para reducir el número de variables, manteniendo la mayor cantidad de información posible. Esto es útil en conjuntos de datos financieros grandes para simplificar los modelos y reducir el riesgo de sobreajuste.

## 3. **Ejemplo y Ejercicio Práctico en Python**

**Ejemplo Práctico**:
Aquí mostramos cómo utilizar `MinMaxScaler`, `PCA`, y `pd.get_dummies()` en Python para preparar un conjunto de datos para análisis predictivo.

```python
import pandas as pd
from sklearn.decomposition import PCA
from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import OneHotEncoder

# Ejemplo de datos
data = pd.DataFrame({
    'precio': [100, 200, 300, 400, 500],
    'categoria': ['A', 'B', 'A', 'B', 'C']
})

# Normalización de la columna 'precio'
scaler = MinMaxScaler()
data['precio_norm'] = scaler.fit_transform(data[['precio']])

# Transformación de variables categóricas
data_encoded = pd.get_dummies(data, columns=['categoria'])

# Aplicación de PCA
pca = PCA(n_components=1)
data_encoded['PCA1'] = pca.fit_transform(data_encoded.drop(['precio', 'precio_norm'], axis=1))

# Mostrar datos transformados
print(data_encoded)
```

**Ejercicio Práctico**:
- **Objetivo**: Aplicar técnicas de escalado, codificación y reducción de dimensionalidad a un conjunto de datos de bonos o acciones.
- **Datos**: Un archivo CSV que contiene precios, volumen y clasificaciones sectoriales de acciones.
- **Tareas**:
  1. Cargar el conjunto de datos.
  2. Escalar los precios y volumen usando `MinMaxScaler`.
  3. Aplicar one-hot encoding a las clasificaciones sectoriales.
  4. Reducir la dimensionalidad con PCA.
  5. Guardar el conjunto de datos transformado para análisis futuros.



# 4. Integración y Almacenamiento de Datos Limpios

## Integración y Almacenamiento de Datos Limpio

La gestión eficaz de los datos requiere no solo técnicas de limpieza y transformación adecuadas, sino también la capacidad de integrar estas tareas en un flujo de trabajo automatizado y almacenar los resultados de manera eficiente. Esto es crucial en el análisis financiero, donde la precisión y la accesibilidad de los datos son fundamentales.

### 1. **Construcción de Pipelines de Datos**

Los pipelines de datos son herramientas esenciales en `scikit-learn` que ayudan a automatizar y secuenciar procesos de transformación y limpieza de datos, asegurando que se apliquen de manera consistente y eficiente.

- **Automatización y Consistencia**: Los pipelines garantizan que las mismas operaciones de procesamiento de datos se apliquen en el mismo orden, reduciendo errores humanos y aumentando la eficiencia.
- **Facilidad de Pruebas**: Facilitan la experimentación con diferentes estrategias de procesamiento y parámetros.
- **Preparación para el Modelado**: Preparan los datos de manera que se puedan alimentar directamente a modelos de machine learning para entrenamiento y validación.

### 2. **Almacenamiento de Datos**

Una vez que los datos están limpios y transformados, es crucial almacenarlos de manera que sean fácilmente accesibles y seguros.

- **Formatos de Archivo**: Los datos pueden ser almacenados en formatos como CSV, JSON, o parquet. El formato CSV es ampliamente usado por su simplicidad, aunque parquet es preferido en entornos de big data por su eficiencia en espacio y velocidad de lectura.
- **Bases de Datos**: Las bases de datos relacionales (como PostgreSQL, MySQL) o no relacionales (como MongoDB) son opciones robustas para el almacenamiento de datos, especialmente cuando se manejan grandes volúmenes o se requiere acceso concurrente.
- **Mejores Prácticas**: Incluir prácticas como la copia de seguridad regular, la utilización de índices para acelerar las consultas y mantener la seguridad de los datos para proteger la información sensible.

### 3. **Ejemplo Práctico en Python**

Vamos a crear un pipeline en `scikit-learn` que incluya imputación, escalado y PCA, y luego almacenaremos el resultado en un formato CSV.

```python
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.datasets import load_iris
import pandas as pd

# Cargar ejemplo de datos
data = load_iris()
df = pd.DataFrame(data.data, columns=data.feature_names)

# Crear el pipeline
pipeline = Pipeline([
    ('imputer', SimpleImputer(strategy='mean')),  # Paso de imputación
    ('scaler', StandardScaler()),                # Paso de escalado
    ('pca', PCA(n_components=2))                 # Reducción de dimensionalidad
])

# Ejecutar el pipeline
transformed_data = pipeline.fit_transform(df)

# Convertir a DataFrame
transformed_df = pd.DataFrame(transformed_data, columns=['Component 1', 'Component 2'])

# Almacenar en CSV
transformed_df.to_csv('transformed_data.csv', index=False)

print("Datos transformados almacenados con éxito.")
```


In [33]:
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.datasets import load_iris
import pandas as pd

# Cargar ejemplo de datos
data = load_iris()
df = pd.DataFrame(data.data, columns=data.feature_names)
print(df.head())
# Crear el pipeline
pipeline = Pipeline([
    ('imputer', SimpleImputer(strategy='mean')),  # Paso de imputación
    ('scaler', StandardScaler()),                # Paso de escalado
    ('pca', PCA(n_components=2))                 # Reducción de dimensionalidad
])

# Ejecutar el pipeline
transformed_data = pipeline.fit_transform(df)

# Convertir a DataFrame
transformed_df = pd.DataFrame(transformed_data, columns=['Component 1', 'Component 2'])
print(transformed_df)
# Almacenar en CSV
transformed_df.to_csv('transformed_data.csv', index=False)

print("Datos transformados almacenados con éxito.")

   sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)
0                5.1               3.5                1.4               0.2
1                4.9               3.0                1.4               0.2
2                4.7               3.2                1.3               0.2
3                4.6               3.1                1.5               0.2
4                5.0               3.6                1.4               0.2
     Component 1  Component 2
0      -2.264703     0.480027
1      -2.080961    -0.674134
2      -2.364229    -0.341908
3      -2.299384    -0.597395
4      -2.389842     0.646835
..           ...          ...
145     1.870503     0.386966
146     1.564580    -0.896687
147     1.521170     0.269069
148     1.372788     1.011254
149     0.960656    -0.024332

[150 rows x 2 columns]
Datos transformados almacenados con éxito.
