## 2. Configuraci√≥n inicial e importaci√≥n de librer√≠as

In [6]:
# Importaci√≥n de librer√≠as principales
import numpy as np
import pandas as pd
import os

import matplotlib.pyplot as plt
import seaborn as sns

from scipy import stats

from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.cluster import KMeans
from sklearn.linear_model import LinearRegression, LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix, classification_report, accuracy_score

# Opciones de visualizaci√≥n
plt.rcParams['figure.figsize'] = (10, 6)
pd.set_option('display.max_columns', 50)

# Estilo de gr√°ficos
sns.set(style="whitegrid")

print("Librer√≠as importadas correctamente.")

Librer√≠as importadas correctamente.


## 3. Recopilaci√≥n y descripci√≥n de datos

En esta secci√≥n se seleccionan los activos a analizar y se descargan sus datos hist√≥ricos
(precios diarios, volumen, etc.). Posteriormente se describe el conjunto de datos resultante.

### 3.1. Selecci√≥n de activos y rango temporal

Modificar las listas seg√∫n sea necesario.


In [13]:
# Lista de s√≠mbolos a analizar (se pueden modificar)
assets = [
    "AAPL",    # Apple
    "MSFT",    # Microsoft
    "NVDA",    # NVIDIA
    "TSLA",    # Tesla
    "GLD"      # Oro (ETF de oro SPDR Gold Shares)
]

# Rango temporal (puede ajustarse)
start_date = "2018-01-01"
end_date = "2025-12-01"

assets, start_date, end_date

(['AAPL', 'MSFT', 'NVDA', 'TSLA', 'GLD'], '2018-01-01', '2025-12-01')

### 3.2 Descarga de Datos

In [None]:
import os
import yfinance as yf

assets = ["AAPL", "MSFT", "NVDA", "TSLA", "GLD"]
os.makedirs("data", exist_ok=True)

for ticker in assets:
    print(f"Descargando {ticker} ...")
    df = yf.download(ticker, start=start_date, end=end_date)
    df.to_csv(f"data/{ticker}.csv")

print("‚úî Descarga completa")


Borrando: data\AAPL.csv
Borrando: data\GLD.csv
Borrando: data\MSFT.csv
Borrando: data\NVDA.csv
Borrando: data\TSLA.csv
‚úî Archivos antiguos eliminados
‚¨áÔ∏è Descargando datos de mercado...

   ‚Ä¢ Descargando AAPL...


  df = yf.download(ticker, start=start_date, end=end_date)
[*********************100%***********************]  1 of 1 completed
  df = yf.download(ticker, start=start_date, end=end_date)


     ‚úî Guardado en data/AAPL.csv
   ‚Ä¢ Descargando MSFT...


[*********************100%***********************]  1 of 1 completed
  df = yf.download(ticker, start=start_date, end=end_date)


     ‚úî Guardado en data/MSFT.csv
   ‚Ä¢ Descargando NVDA...


[*********************100%***********************]  1 of 1 completed
  df = yf.download(ticker, start=start_date, end=end_date)


     ‚úî Guardado en data/NVDA.csv
   ‚Ä¢ Descargando TSLA...


[*********************100%***********************]  1 of 1 completed
  df = yf.download(ticker, start=start_date, end=end_date)


     ‚úî Guardado en data/TSLA.csv
   ‚Ä¢ Descargando GLD...


[*********************100%***********************]  1 of 1 completed

     ‚úî Guardado en data/GLD.csv

üéâ Descarga completada. Los archivos est√°n listos en la carpeta 'data/'.





### 3.3 Carga de datos locales

En este proyecto trabajaremos **de forma local**, leyendo archivos `.csv` desde la carpeta `data/`.
Cada activo debe tener un archivo con su nombre de ticker, por ejemplo:

- `data/AAPL.csv`
- `data/MSFT.csv`
- `data/NVDA.csv`
- `data/TSLA.csv`
- `data/GLD.csv` (oro)

Los archivos deben contener al menos las columnas est√°ndar de Yahoo Finance: `Date`, `Open`, `High`,
`Low`, `Close`, `Adj Close`, `Volume`.

> Opcionalmente se puede incluir una secci√≥n comentada con `yfinance` para descargar los datos
si se tiene conexi√≥n a internet.


In [None]:
import os
import pandas as pd

data = {}

for ticker in assets:
    file_name = f"data/{ticker}.csv"
    if not os.path.exists(file_name):
        print(f"‚ö†Ô∏è Archivo no encontrado: {file_name}")
        continue

    print(f"\nCargando datos de {ticker} desde {file_name}...")

    # Leemos TODO el CSV sin asumir encabezados
    df_raw = pd.read_csv(file_name, header=None)

    # Fila 0: ['Price','Close','High','Low','Open','Volume']
    # Fila 1: ['Ticker','GLD','GLD','GLD','GLD','GLD']
    # Fila 2: ['Date','','','','','']
    # Fila 3+: fecha y valores

    # Construimos los nombres de columnas que queremos:
    # -> 'Date', 'Close', 'High', 'Low', 'Open', 'Volume'
    price_row = df_raw.iloc[0]              # fila con Price,Close,High,...
    colnames = ['Date'] + price_row[1:].tolist()

    # Nos quedamos solo con las filas de datos (a partir de la fila 3)
    df = df_raw.iloc[3:].reset_index(drop=True)
    df.columns = colnames

    # Convertimos tipos
    df["Date"] = pd.to_datetime(df["Date"])
    for c in df.columns[1:]:
        df[c] = pd.to_numeric(df[c], errors="coerce")

    # Usamos la fecha como √≠ndice
    df.set_index("Date", inplace=True)

    data[ticker] = df

# Resumen
print("\nActivos cargados:", list(data.keys()))
for t, df in data.items():
    print(f"{t}: columnas -> {df.columns.tolist()}")

# Usaremos la columna 'Close' como serie principal de precios
adj_close = pd.DataFrame({ticker: df["Close"] for ticker, df in data.items()})
adj_close.head()



Cargando datos de AAPL...
  Columnas crudas: ['Price', 'Close', 'High', 'Low', 'Open', 'Volume']

Cargando datos de MSFT...
  Columnas crudas: ['Price', 'Close', 'High', 'Low', 'Open', 'Volume']

Cargando datos de NVDA...
  Columnas crudas: ['Price', 'Close', 'High', 'Low', 'Open', 'Volume']

Cargando datos de TSLA...
  Columnas crudas: ['Price', 'Close', 'High', 'Low', 'Open', 'Volume']

Cargando datos de GLD...
  Columnas crudas: ['Price', 'Close', 'High', 'Low', 'Open', 'Volume']

Activos cargados: ['AAPL', 'MSFT', 'NVDA', 'TSLA', 'GLD']
AAPL: columnas -> ['Unnamed: 1', 'Unnamed: 2', 'Unnamed: 3', 'Unnamed: 4', 'Unnamed: 5']
MSFT: columnas -> ['Unnamed: 1', 'Unnamed: 2', 'Unnamed: 3', 'Unnamed: 4', 'Unnamed: 5']
NVDA: columnas -> ['Unnamed: 1', 'Unnamed: 2', 'Unnamed: 3', 'Unnamed: 4', 'Unnamed: 5']
TSLA: columnas -> ['Unnamed: 1', 'Unnamed: 2', 'Unnamed: 3', 'Unnamed: 4', 'Unnamed: 5']
GLD: columnas -> ['Unnamed: 1', 'Unnamed: 2', 'Unnamed: 3', 'Unnamed: 4', 'Unnamed: 5']


KeyError: 'Close'

### 3.3. Descripci√≥n inicial del dataset

En esta secci√≥n se exploran las dimensiones del dataset, el rango de fechas, la cantidad de valores faltantes, etc.


In [None]:
# Informaci√≥n b√°sica de los datos
print("Dimensiones de adj_close:", adj_close.shape)
print("\nPrimeras filas:")
display(adj_close.head())

print("\nResumen estad√≠stico inicial:")
display(adj_close.describe())

print("\nConteo de valores faltantes por activo:")
display(adj_close.isna().sum())

## 4. An√°lisis Exploratorio de Datos (EDA)

En esta secci√≥n se calculan y visualizan medidas descriptivas para comprender el comportamiento
de los activos: rendimientos, volatilidad, distribuciones, correlaciones, etc.


### 4.1. C√°lculo de rendimientos diarios

In [None]:
# C√°lculo de rendimientos diarios (porcentaje)
returns = adj_close.pct_change().dropna()
returns.head()

### 4.2. Estad√≠sticos descriptivos de los rendimientos

In [None]:
# Estad√≠sticos descriptivos de los rendimientos
desc_returns = returns.describe()
desc_returns

### 4.3. Histogramas de rendimientos

In [None]:
# Histogramas de rendimientos para cada activo
returns.hist(bins=50, figsize=(12, 8))
plt.suptitle("Histogramas de rendimientos diarios", y=1.02)
plt.show()

### 4.4. Boxplots de rendimientos

In [None]:
# Boxplots de rendimientos
plt.figure(figsize=(10, 6))
sns.boxplot(data=returns)
plt.title("Distribuci√≥n de rendimientos diarios por activo")
plt.ylabel("Rendimiento diario")
plt.show()

### 4.5. Matriz de correlaci√≥n y mapa de calor

In [None]:
# Matriz de correlaci√≥n de los rendimientos
corr_matrix = returns.corr()

plt.figure(figsize=(8, 6))
sns.heatmap(corr_matrix, annot=True, cmap="coolwarm", vmin=-1, vmax=1)
plt.title("Matriz de correlaci√≥n de rendimientos")
plt.show()

*(Aqu√≠ se debe incluir una discusi√≥n narrativa de los hallazgos observados en el EDA,
relacion√°ndolos con las preguntas de investigaci√≥n).*

## 5. Preparaci√≥n de datos

En esta secci√≥n se realizan las transformaciones necesarias para aplicar las t√©cnicas estad√≠sticas:
manejo de valores faltantes, creaci√≥n de variables derivadas, estandarizaci√≥n, etc.


In [None]:
# Eliminaci√≥n de posibles filas con valores faltantes en los rendimientos
clean_returns = returns.dropna()

# Ejemplo de creaci√≥n de una variable objetivo (target) para un activo concreto, por ejemplo SPY:
target_asset = "SPY"  # se puede cambiar

# Variable binaria: 1 si el rendimiento de SPY es positivo al d√≠a siguiente, 0 en caso contrario
spy_future = clean_returns[target_asset].shift(-1)
y_binary = (spy_future > 0).astype(int).dropna()

# Alineamos los datos de caracter√≠sticas con el target
X_features = clean_returns.loc[y_binary.index]

X_features.head(), y_binary.head()

### 5.1. Estandarizaci√≥n de variables para PCA y clustering

In [None]:
scaler = StandardScaler()
X_scaled = scaler.fit_transform(clean_returns)

X_scaled[:5]

## 6. Aplicaci√≥n de t√©cnicas estad√≠sticas

En esta secci√≥n se aplican las t√©cnicas estad√≠sticas requeridas por el proyecto:  
- Pruebas de hip√≥tesis  
- Modelos de regresi√≥n  
- An√°lisis de Componentes Principales (PCA)  
- Clustering  

Cada t√©cnica debe ser justificada y sus resultados interpretados.


### 6.1. Pruebas de hip√≥tesis

In [None]:
# Ejemplo: t-test para comparar la media de rendimientos entre dos activos

asset1 = "AAPL"
asset2 = "MSFT"

sample1 = clean_returns[asset1]
sample2 = clean_returns[asset2]

t_stat, p_value = stats.ttest_ind(sample1, sample2, equal_var=False)  # Welch's t-test

print(f"t-statistic: {t_stat:.4f}")
print(f"p-value: {p_value:.4f}")

# Aqu√≠ se debe interpretar el resultado en funci√≥n de un alfa (ej. 0.05).

### 6.2. Regresi√≥n lineal y log√≠stica

In [None]:
# --- Regresi√≥n lineal ---
# Ejemplo: modelar el rendimiento de AAPL en funci√≥n del rendimiento de SPY

X_lin = clean_returns[[target_asset]]  # SPY como predictor
y_lin = clean_returns["AAPL"]          # AAPL como variable respuesta

lin_reg = LinearRegression()
lin_reg.fit(X_lin, y_lin)

print("Coeficiente:", lin_reg.coef_[0])
print("Intercepto:", lin_reg.intercept_)
print("R^2:", lin_reg.score(X_lin, y_lin))

In [None]:
# --- Regresi√≥n log√≠stica ---
# Usamos X_features (rendimientos de todos los activos) para predecir subida/bajada de SPY

X_train, X_test, y_train, y_test = train_test_split(
    X_features, y_binary, test_size=0.2, random_state=42, shuffle=False
)

log_reg = LogisticRegression(max_iter=1000)
log_reg.fit(X_train, y_train)

y_pred = log_reg.predict(X_test)

print("Accuracy:", accuracy_score(y_test, y_pred))
print("\nMatriz de confusi√≥n:")
print(confusion_matrix(y_test, y_pred))
print("\nReporte de clasificaci√≥n:")
print(classification_report(y_test, y_pred))

### 6.3. An√°lisis de Componentes Principales (PCA)

In [None]:
pca = PCA(n_components=2)
principal_components = pca.fit_transform(X_scaled)

pc_df = pd.DataFrame(
    principal_components,
    columns=["PC1", "PC2"],
    index=clean_returns.index
)

print("Varianza explicada por cada componente:", pca.explained_variance_ratio_)

plt.figure(figsize=(8, 6))
plt.scatter(pc_df["PC1"], pc_df["PC2"], alpha=0.5)
plt.title("Proyecci√≥n de los datos en los dos primeros componentes principales")
plt.xlabel("PC1")
plt.ylabel("PC2")
plt.show()

### 6.4. Clustering (K-Means)

In [None]:
# Clustering usando los rendimientos estandarizados
k = 3  # n√∫mero de clusters (se puede ajustar)

kmeans = KMeans(n_clusters=k, random_state=42)
clusters = kmeans.fit_predict(X_scaled)

pc_df['cluster'] = clusters

plt.figure(figsize=(8, 6))
sns.scatterplot(
    data=pc_df,
    x="PC1", y="PC2",
    hue="cluster", palette="tab10", alpha=0.7
)
plt.title("Clusters en el espacio de los dos primeros componentes principales")
plt.show()

## 7. Resultados y conclusiones

En esta secci√≥n se deben sintetizar los hallazgos m√°s importantes:

- Activo(s) con mayor volatilidad.  
- Relaciones significativas entre activos (correlaciones, regresiones).  
- Principales componentes encontrados por PCA y su interpretaci√≥n.  
- Estructura de clusters y qu√© significan en t√©rminos de comportamiento de los activos.  
- Desempe√±o del modelo de regresi√≥n log√≠stica para predecir subidas/bajadas.  

Finalmente, se responden expl√≠citamente las preguntas de investigaci√≥n planteadas en la secci√≥n 1.3.


## 8. Limitaciones y trabajo futuro

- (Describir las limitaciones del an√°lisis: rango temporal, tipo de modelo, ausencia de informaci√≥n macroecon√≥mica, etc.).  
- (Proponer extensiones: incluir m√°s activos, usar otros modelos de series temporales, etc.).


## 9. Referencias

- Apuntes y materiales del curso de Estad√≠stica.  
- Documentaci√≥n de `pandas`, `matplotlib`, `seaborn`, `scikit-learn`.  
- Yahoo Finance / yfinance para datos financieros.  
