# Introducción a la Adquisición de Datos

La adquisición de datos financieros es una piedra angular en el mundo de las finanzas modernas. Los analistas, traders y gestores de fondos dependen de datos precisos y oportunos para tomar decisiones informadas. Esta sección introduce los fundamentos de la adquisición de datos, los tipos de datos en finanzas y cómo acceder a ellos mediante programación en Python.

## Fundamentos Teóricos

**¿Por qué son cruciales los datos en las decisiones financieras?**
Los datos son esenciales en finanzas por varias razones:
- **Toma de decisiones basada en evidencia**: Los datos proporcionan una base objetiva para tomar decisiones de inversión, crédito y financiamiento.
- **Análisis de riesgo**: Ayudan a identificar, medir y monitorizar riesgos financieros.
- **Cumplimiento y reporte**: Son fundamentales para cumplir con regulaciones y preparar informes financieros.
- **Desarrollo de modelos**: Son la base para el desarrollo de modelos financieros y algoritmos de trading.

**Impacto de la calidad de los datos**:
La calidad de los datos afecta directamente la precisión de los análisis financieros. Datos incorrectos o desactualizados pueden llevar a malas decisiones y pérdidas financieras. Por lo tanto, es crucial asegurar que los datos sean precisos, completos y actualizados.

## Tipos de Datos Financieros

Los datos financieros pueden clasificarse en varias categorías, incluyendo:
- **Datos de mercado**: Incluyen precios de acciones, bonos, commodities, tipos de cambio, etc.
- **Datos económicos**: Comprenden indicadores como el PIB, tasas de desempleo, inflación y otros datos macroeconómicos.
- **Datos de transacciones**: Relacionados con el historial de transacciones de un activo o instrumento financiero.
- **Datos fundamentales**: Involucran información sobre la salud financiera de las empresas, como balances, estados de resultados y flujos de efectivo.

## Fuentes de Datos

Las fuentes de datos financieros varían desde bases de datos internas de una empresa hasta fuentes externas públicas y comerciales:
- **Yahoo Finance**: Ofrece datos de mercado amplios y gratuitos, accesibles mediante API.
- **Bloomberg y Reuters**: Proporcionan datos exhaustivos y en tiempo real, utilizados ampliamente por profesionales financieros.
- **APIs públicas**: Como Alpha Vantage o Quandl, que ofrecen diversas métricas financieras mediante interfaces de programación.
- **Datos gubernamentales**: Provenientes de bancos centrales y oficinas de estadísticas, útiles para análisis económicos.

## Ejemplo en Python

A continuación, se muestra un ejemplo simple de cómo acceder a datos de mercado en tiempo real utilizando Python con la API de Yahoo Finance:

```python
pip install yfinance
import yfinance as yf

# Definir el ticker del activo y el período de consulta
ticker = "AAPL"
data = yf.Ticker(ticker)

# Obtener datos históricos de precios
historical_data = data.history(period="1mo")

# Mostrar los últimos 5 registros
print(historical_data.tail())
```

Para ejecutar este ejemplo, necesitarás instalar el paquete `yfinance` usando `pip install yfinance`. Este script obtiene y muestra los datos históricos del precio de las acciones de Apple (AAPL) del último mes.



In [1]:
!pip install yfinance
import yfinance as yf

# Definir el ticker del activo y el período de consulta
ticker = "AAPL"
data = yf.Ticker(ticker)

# Obtener datos históricos de precios
historical_data = data.history(period="1mo")

# Mostrar los últimos 5 registros
print(historical_data.tail())





                                 Open        High         Low       Close  \
Date                                                                        
2024-05-24 00:00:00-04:00  188.820007  190.580002  188.039993  189.979996   
2024-05-28 00:00:00-04:00  191.509995  193.000000  189.100006  189.990005   
2024-05-29 00:00:00-04:00  189.610001  192.250000  189.509995  190.289993   
2024-05-30 00:00:00-04:00  190.759995  192.179993  190.630005  191.289993   
2024-05-31 00:00:00-04:00  191.440002  192.570007  189.910004  192.250000   

                             Volume  Dividends  Stock Splits  
Date                                                          
2024-05-24 00:00:00-04:00  36294600        0.0           0.0  
2024-05-28 00:00:00-04:00  52280100        0.0           0.0  
2024-05-29 00:00:00-04:00  53068000        0.0           0.0  
2024-05-30 00:00:00-04:00  49947900        0.0           0.0  
2024-05-31 00:00:00-04:00  74776921        0.0           0.0  


In [2]:
historical_data.head()

Unnamed: 0_level_0,Open,High,Low,Close,Volume,Dividends,Stock Splits
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2024-05-01 00:00:00-04:00,169.350298,172.476063,168.880934,169.070679,50383100,0.0,0.0
2024-05-02 00:00:00-04:00,172.276324,173.185095,170.658523,172.795624,94214900,0.0,0.0
2024-05-03 00:00:00-04:00,186.397167,186.746699,182.412581,183.131607,163224100,0.0,0.0
2024-05-06 00:00:00-04:00,182.103015,183.9505,180.175621,181.463882,78569700,0.0,0.0
2024-05-07 00:00:00-04:00,183.201504,184.649537,181.0744,182.152924,77305800,0.0,0.0


# Importación de Datos de APIs

## Importación de Datos de APIs

En el ámbito financiero, la capacidad de acceder y manipular datos en tiempo real es esencial para el análisis de mercados, la toma de decisiones y la evaluación de riesgos. Las APIs, o Interfaces de Programación de Aplicaciones, son herramientas fundamentales para facilitar este acceso.

### Teoría de APIs

Una **API** (Interfaz de Programación de Aplicaciones) es un conjunto de reglas y especificaciones que las aplicaciones pueden seguir para comunicarse entre ellas. Las APIs permiten que su software extraiga información de un servicio o envíe información a un servicio de manera coherente y segura. En el contexto de datos financieros, las APIs suelen proporcionar formas programáticas de acceder a datos de mercado en tiempo real, datos históricos, indicadores económicos y más, todo sin necesidad de intervención manual o scraping web.

#### Funcionamiento de las APIs en Finanzas:
- **Autenticación**: Muchas APIs financieras requieren un proceso de autenticación, generalmente a través de una clave API, para controlar el acceso y monitorear el uso.
- **Solicitudes y Respuestas**: Las APIs utilizan solicitudes HTTP para recibir comandos y enviar respuestas, empleando formatos estándar como JSON o XML para los datos.
- **Límites de Tasa**: Para garantizar un uso justo y evitar sobrecargas, las APIs financieras a menudo limitan la cantidad de solicitudes que los usuarios pueden realizar en un período de tiempo.



Si buscas usar una API actualizada para obtener datos financieros, una excelente opción puede ser utilizar la API de Google Finance a través de Google Sheets, que permite acceder a información financiera actualizada. Sin embargo, para propósitos de programación y uso directo de una API en scripts Python, Google no proporciona una API financiera pública específica como Yahoo Finance o Alpha Vantage lo hacen.

En lugar de eso, podemos utilizar Alpha Vantage, que es una popular API financiera que proporciona datos gratuitos de acciones, divisas (Forex), y criptomonedas a través de una interfaz API muy accesible. Proporcionaré un ejemplo de cómo usar Alpha Vantage para obtener datos históricos de acciones utilizando Python. Primero, necesitarás obtener una clave API gratuita registrándote en su sitio web.

### Pasos para Utilizar Alpha Vantage en Python

1. **Regístrate para obtener una clave API gratuita** en [Alpha Vantage](https://www.alphavantage.co/support/#api-key).
2. **Instala la biblioteca `alpha_vantage`**:
   ```bash
   pip install alpha_vantage
   ```
3. **Ejemplo de Script para Obtener Datos de Acciones**:

```python
from alpha_vantage.timeseries import TimeSeries
import matplotlib.pyplot as plt

# Tu clave API de Alpha Vantage
api_key = 'YOUR_API_KEY'

# Inicializar TimeSeries con tu clave API
ts = TimeSeries(key=api_key, output_format='pandas')

# Obtener datos históricos de las acciones
data, meta_data = ts.get_daily(symbol='AAPL', outputsize='compact')

# Imprimir los datos
print(data.head())

# Opcional: visualizar los datos
data['4. close'].plot()
plt.title('Daily Closing Price for Apple (AAPL)')
plt.show()
```

Este script hará una solicitud a Alpha Vantage para obtener los precios diarios de cierre de las acciones de Apple (AAPL) y los imprimirá. Además, incluye un ejemplo de cómo visualizar estos datos usando `matplotlib`.

### Consideraciones

- **Límites de API**: Alpha Vantage tiene límites en la cantidad de solicitudes que puedes hacer (5 solicitudes por minuto, 500 solicitudes por día en el plan gratuito).
- **Latencia y Tiempo Real**: Aunque Alpha Vantage proporciona datos actualizados, puede haber una pequeña latencia en comparación con un sistema de trading en tiempo real. Para aplicaciones críticas de tiempo, considera sus opciones premium o servicios alternativos.

Este enfoque te permitirá integrar datos financieros en tus aplicaciones Python, adecuado para análisis, aplicaciones educativas, o incluso para prototipos de estrategias de inversión.

### Ejercicio Práctico

**Objetivo**: Obtener datos históricos de precios de acciones usando una API.

**Instrucciones**:
1. **Selecciona una API financiera** que ofrezca datos históricos de acciones. Puedes elegir Yahoo Finance, Alpha Vantage, o cualquier otra que prefieras.
2. **Regístrate para obtener una clave API** si es necesario.
3. **Utiliza la biblioteca `requests`** para realizar una solicitud a la API y obtener datos de un año para una acción de tu elección.
4. **Guarda los datos recibidos en un archivo CSV**.

# Importación de Datos de Archivos CSV

La habilidad para manejar y analizar datos desde archivos CSV es una competencia esencial en el ámbito de las finanzas, donde frecuentemente se requiere procesar y analizar grandes volúmenes de datos tabulares. Python, junto con la biblioteca `pandas`, ofrece herramientas poderosas y flexibles para esta tarea.

## Manejo de Archivos CSV en Python

`pandas` es una biblioteca de Python que proporciona estructuras de datos de alto rendimiento y fácil uso, ideales para el manejo de datos tabulares. Para trabajar con archivos CSV, `pandas` ofrece la función `read_csv()`, que permite cargar datos de un archivo CSV directamente a un DataFrame, la estructura de datos central de `pandas`.

#### Leer un archivo CSV
```python
import pandas as pd

# Cargar datos desde un archivo CSV
df = pd.read_csv('ruta/del/archivo.csv')

# Mostrar las primeras cinco filas del DataFrame
print(df.head())
```
## Ejemplo Práctico

Supongamos que tienes un archivo CSV con datos de precios de divisas. El archivo contiene columnas para la fecha, el tipo de cambio y otros indicadores económicos asociados.

#### Cómo importar y manipular estos datos:

```python
import pandas as pd

# Cargar datos de divisas desde un archivo CSV
df = pd.read_csv('precios_divisas.csv')

# Ver las primeras filas del DataFrame para entender su estructura
print(df.head())

# Supongamos que queremos convertir la columna de fechas a un tipo datetime
df['Fecha'] = pd.to_datetime(df['Fecha'])

# Supongamos que queremos filtrar los datos para mostrar solo aquellos después de una fecha específica
df_filtrado = df[df['Fecha'] > '2020-01-01']

# Mostrar los resultados filtrados
print(df_filtrado)
```

## Ejercicio Práctico

**Objetivo**: Cargar datos de precios de bonos desde un archivo CSV y realizar un análisis básico.

**Datos**: El archivo `precios_bonos.csv` contiene columnas para `Fecha`, `Precio de Cierre` y `Volumen`.

**Tareas**:
1. Carga el archivo CSV `precios_bonos.csv` en un DataFrame.
2. Convierte la columna `Fecha` a tipo datetime.
3. Calcula el precio promedio de cierre de los bonos.
4. Encuentra el día con el volumen más alto de trading.
5. Crea una nueva columna que calcule la variación diaria del precio de cierre y muestra los resultados.


```python
import pandas as pd

# Cargar el archivo CSV
bonos = pd.read_csv('precios_bonos.csv')

# Convertir la columna 'Fecha'
bonos['Fecha'] = pd.to_datetime(bonos['Fecha'])

# Calcular el precio promedio de cierre
precio_promedio = bonos['Precio de Cierre'].mean()
print("Precio promedio de cierre:", precio_promedio)

# Encontrar el día con el mayor volumen
max_volumen = bonos[bonos['Volumen'] == bonos['Volumen'].max()]
print("Día con mayor volumen:\n", max_volumen)

# Calcular la variación diaria del precio de cierre
bonos['Variación Diaria'] = bonos['Precio de Cierre'].diff()
print("Datos con la nueva columna de variación diaria:\n", bonos.head())
```


# Selección de Variables Relevantes

En el análisis financiero, la selección de variables, también conocida como selección de características, es un paso crucial para desarrollar modelos predictivos eficientes y precisos. Este proceso no solo mejora la precisión de los modelos, sino que también reduce la complejidad computacional y mejora la interpretabilidad de los resultados.

## Teoría sobre la Selección de Características

La selección de características implica identificar las variables más relevantes para usar en modelos predictivos. Esto es especialmente importante en finanzas, donde modelos sobrecargados con datos irrelevantes pueden llevar a conclusiones erróneas y aumentar el riesgo de decisiones financieras subóptimas.

### Importancia de la selección de características:
- **Reducción de la dimensionalidad**: Menos datos implican menos complejidad computacional.
- **Mejora del rendimiento del modelo**: Eliminar datos ruidosos o irrelevantes puede mejorar la precisión del modelo.
- **Prevención del sobreajuste**: Menos variables reducen el riesgo de ajustar el modelo excesivamente a los datos de muestra.
- **Costos reducidos**: Menos datos pueden significar menores costos de almacenamiento y procesamiento.

### Métodos comunes de selección de características:
- **Filtros**: Evalúan cada característica individualmente antes del proceso de modelado. Ejemplos incluyen correlación y pruebas chi-cuadrado.
- **Métodos envolventes**: Evalúan múltiples subconjuntos de características, optimizando la selección para maximizar el rendimiento del modelo. Ejemplos son la eliminación recursiva de características.
- **Métodos intrínsecos**: Realizan la selección de características como parte del proceso de modelado. Un ejemplo es la regularización L1, que puede anular algunos coeficientes de características.

## Técnicas de Selección de Variables en Python

`scikit-learn` ofrece varias herramientas para la selección de características. Vamos a explorar dos técnicas ampliamente utilizadas: Análisis de Componentes Principales (PCA) y la Importancia de Características en modelos basados en árboles.

### Análisis de Componentes Principales (PCA):
PCA es una técnica de reducción de dimensionalidad que transforma las variables originales en un nuevo conjunto de variables, que son combinaciones lineales de las originales y capturan la máxima varianza posible.

```python
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler

# Estandarizar los datos
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)  # Suponiendo que X es tu dataset

# Aplicar PCA
pca = PCA(n_components=2)  # Reducir a dos componentes
X_pca = pca.fit_transform(X_scaled)
```

### Importancia de características en modelos de árboles:
Los modelos basados en árboles, como los árboles de decisión y las ensamblajes, pueden proporcionar la importancia de las características directamente como parte de su entrenamiento.

```python
from sklearn.ensemble import RandomForestClassifier

# Suponiendo que X e y son tus datos y etiquetas
model = RandomForestClassifier()
model.fit(X, y)
importances = model.feature_importances_
```

## Ejemplo y Ejercicio Práctico

**Ejemplo práctico**:
Supongamos que tenemos un conjunto de datos financieros con múltiples indicadores técnicos y queremos identificar cuáles son los más importantes para predecir el precio de cierre de las acciones.

```python
import pandas as pd
from sklearn.feature_selection import SelectKBest, f_classif

# Cargar datos
data = pd.read_csv('datos_financieros.csv')
X = data.drop('Precio_Cierre', axis=1)
y = data['Precio_Cierre']

# Seleccionar las 5 mejores características
selector = SelectKBest(f_classif, k=5)
X_new = selector.fit_transform(X, y)

# Ver las características seleccionadas
print(data.columns[selector.get_support(indices=True)])
```

### Ejercicio práctico
Los estudiantes deberán utilizar un conjunto de datos de bonos con varias características económicas y aplicar tanto PCA como la Importancia de Características para determinar cuáles son los predictores más relevantes.

- **Objetivo**: Analizar la importancia de diferentes variables económicas en la predicción de los precios de los bonos.
- **Tarea**: Aplicar PCA y RandomForest para seleccion

ar las características más relevantes.
- **Entregable**: Un informe que detalle las características seleccionadas y su posible impacto en la predicción de precios.

Este enfoque práctico asegura que los estudiantes no solo aprendan la teoría detrás de la selección de variables, sino que también adquieran habilidades prácticas aplicándolas en contextos financieros reales utilizando Python.

In [3]:
import pandas as pd
import numpy as np

# Establecer una semilla para reproducibilidad
np.random.seed(42)

# Crear un DataFrame con 1000 entradas
dates = pd.date_range(start="2021-01-01", periods=1000, freq='D')
data = pd.DataFrame(index=dates)

# Simular diferentes características
data['Volumen'] = np.random.randint(10000, 100000, size=(1000))
data['Promedio_Movil_10'] = np.random.normal(100, 10, size=(1000)).cumsum() + 50
data['RSI'] = np.random.normal(50, 10, size=(1000))  # Índice de fuerza relativa simulado
data['MACD'] = np.random.normal(0, 2, size=(1000))  # Convergencia/divergencia de la media móvil
data['Precio_Cierre'] = np.random.normal(100, 15, size=(1000)).cumsum()  # Precio de cierre

# Introducir un poco de ruido
data['Ruido'] = np.random.normal(0, 0.1, size=(1000))

# Guardar el DataFrame como un archivo CSV
data.to_csv('datos_financieros.csv')

# Mostrar las primeras filas del DataFrame
print(data.head())


            Volumen  Promedio_Movil_10        RSI      MACD  Precio_Cierre  \
2021-01-01    25795         146.815215  46.961692  0.667456      76.660450   
2021-01-02    10860         243.624645  65.681048 -0.595222     204.601647   
2021-01-03    86820         349.059476  44.739220 -0.180249     293.725196   
2021-01-04    64886         459.408685  49.859805  2.046771     396.725419   
2021-01-05    16265         537.327620  51.016443 -0.369169     474.388223   

               Ruido  
2021-01-01  0.002808  
2021-01-02  0.010423  
2021-01-03 -0.118688  
2021-01-04 -0.029841  
2021-01-05 -0.033868  


In [4]:
import pandas as pd
from sklearn.feature_selection import SelectKBest, f_classif

# Cargar datos
data = pd.read_csv('datos_financieros.csv')
data.index = data['Unnamed: 0']
data.drop('Unnamed: 0',axis=1,inplace =True)
X = data.drop('Precio_Cierre', axis=1)
y = data['Precio_Cierre']

# Seleccionar las 5 mejores características
selector = SelectKBest(f_classif, k=5)
X_new = selector.fit_transform(X, y)

# Ver las características seleccionadas
print(data.columns[selector.get_support(indices=True)])

Index(['Volumen', 'Promedio_Movil_10', 'RSI', 'MACD', 'Precio_Cierre'], dtype='object')


  msw = sswn / float(dfwn)


In [5]:
X_new.shape

(1000, 5)