## Análisis exploratorio de datos
Esta notebook debe ser ejecutada en Azure Synapse. Muestra las relaciones más influyentes entre las variables, para realizar el modelaje más adecuado.

In [None]:
# Variables
asset = 'apple'   
 
storage_account_name = 'nticmasterstg' 
data_lake_container = f'abfss://datalake@{storage_account_name}.dfs.core.windows.net' 
gold_folder = 'gold' # Directorio final

gold_table_path = f"{data_lake_container}/{gold_folder}/{asset}" 

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

data = spark.read.format("delta").load(gold_table_path)

data = data.toPandas()

# 1. Descripción general
print("Primeras filas del dataset:")
print(data.head())

print("\nInformación general del dataset:")
print(data.info())

print("\nCantidad de valores nulos por columna:")
print(data.isnull().sum())

# 2. Estadísticas descriptivas
print("\nEstadísticas descriptivas:")
print(data.describe())

# 3. Visualización de datos

# Histograma de precios de cierre ajustado
plt.figure(figsize=(10, 6))
sns.histplot(data['Adj_Close'], bins=30, kde=True)
plt.title('Distribución del Precio de Cierre Ajustado')
plt.xlabel('Adj Close')
plt.ylabel('Frecuencia')
plt.show()

# Boxplot para detectar valores atípicos en precios de cierre ajustado
plt.figure(figsize=(10, 6))
sns.boxplot(x=data['Adj_Close'])
plt.title('Boxplot del Precio de Cierre Ajustado')
plt.xlabel('Adj Close')
plt.show()

# Gráfico de líneas del precio de cierre ajustado a lo largo del tiempo
plt.figure(figsize=(14, 7))
plt.plot(data['Date'], data['Adj_Close'])
plt.title('Precio de Cierre Ajustado a lo Largo del Tiempo')
plt.xlabel('Fecha')
plt.ylabel('Adj Close')
plt.xticks(rotation=45)
plt.show()


# 4. Análisis de correlación
plt.figure(figsize=(12, 8))
correlation_matrix = data.corr()
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm')
plt.title('Matriz de Correlación')
plt.show()

# Relaciones entre las variables más relevantes
relevant_features = ['Adj_Close', '7_day_moving_avg', '30_day_moving_avg', 'daily_return', 'Volume']
sns.pairplot(data[relevant_features])
plt.show()
