# Introducción del archivo

En este archivo, vamos a importar los datos financieros por cada una de las 35 empresas del IBEX 35.

En primer lugar, empezaremos importando gracias a la API de Yahoo Finance los datos de cada una de las firmas. 

En segundo lugar, especificaremos el intervalo temporal que queremos escoger para analizar.

En tercer lugar, vamos a analizar la información resultante del dataset de cada empresa.

Finalmente, guardaremos en formato .csv un dataset por cada una de las 35 compañías.

A lo largo de este archivo, se ha separado en 6 principales pasos los procesos anteriores:
Para la extracción de datos de cada una de las 35 empresas del IBEX 35, vamos a elaborar una serie de pasos:

# Indice de pasos:


[Paso 1: Instalar las librerias necesarias](#paso-1-instalar-las-librerias-necesarias)

[Paso 2: Importar las librerias necesarias para nuestro analisis](#paso-2-importar-las-librerias-necesarias-para-nuestro-analisis)

[Paso 3: Lista de indices bursatiles](#paso-3-lista-de-indices-bursatiles)

[Paso 4: Extraccion de datasets de 10 indices a partir de Yahoo Finance](#paso-4-extraccion-de-datasets-de-10-indices-a-partir-de-yahoo-finance)

  - [Paso 4.1- Obtencion de datos financieros de los 10 indices a partir de Yahoo Finance](#paso-41--obtencion-de-datos-financieros-de-los-10-indices-a-partir-de-yahoo-finance)

  - [Paso 4.2- Especificar los parametros de fechas a escoger](#paso-42--especificar-los-parametros-de-fechas-a-escoger)

  - [Paso 4.3- Establecer el formato de fecha](#paso-43--establecer-el-formato-de-fecha)

[Paso 5: Informacion acerca del dataset](#paso-5-informacion-acerca-del-dataset)

  - [Paso 5.1- Filas y columnas de cada indice](#paso-51--filas-y-columnas-de-cada-indice)

  - [Paso 5.2- Variables que vienen en los datos de los indices a partir de Yahoo Finance](#paso-52--variables-que-vienen-en-los-datos-de-los-indices-a-partir-de-yahoo-finance)

  - [Paso 5.3- Informacion de las columnas de los datasets de los indices](#paso-53--informacion-de-las-columnas-de-los-datasets-de-los-indices)
  
[Paso 6: Guardar los datos de Yahoo Finance en archivos CSV. Uno por cada indice bursatil](#paso-6-guardar-los-datos-de-yahoo-finance-en-archivos-csv-uno-por-cada-indice-bursatil)

# Paso 1: Instalar las librerias necesarias

In [1]:
#pip install pandas
#pip install yfinance

# Paso 2: Importar las librerias necesarias para nuestro analisis

In [1]:
import yfinance as yf

import pandas as pd
import datetime

# Paso 3: Lista de indices bursatiles

Se va a escoger una lista de 10 índices bursátiles, junto con sus etiqueta de Yahoo Finance.

|Número| Indice Bursátil | Etiqueta en Yahoo Finance |
|-|----------|----------|
|1| NIFTY 50 (India)    | ^NSEI   |
|2| ASX 200 (Australia)    | ^AXJO   |
|3| S&P 500 (EEUU)   | ^GSPC  |
|4| Dow Jones (EEUU)   | ^DJI  |
|5| Nasdaq (EEUU)   | ^IXIC  |
|6| S&P/TSX Composite (Canadá)   | ^GSPTSE  |
|7| DAX 40 (Alemania)   | ^GDAXI  |
|8| FTSE 100 (Reino Unido)   | ^FTSE  |
|9| Eurostoxx 50 (Eurozona)   | ^STOXX50E  |
|10| IBEX 35 (España)   | ^IBEX  |

# Paso 4: Extraccion de datasets de 10 indices a partir de Yahoo Finance

Vamos a extraer los datos de los índices bursátiles, utilizando la API proporcionada por Yahoo Finance a través de la biblioteca yfinance en Python.

A continuación, vamos a especificar de nuevo la librería a pesar de haberse importado en el Paso 1.

In [1]:
import yfinance as yf

La biblioteca yfinance actúa como un intermediario entre tu código Python y los servidores de Yahoo Finance, facilitando la obtención de datos financieros como precios históricos, datos en tiempo real, información de la empresa, entre otros.

Tras tener importada la librería de Yahoo Finance, cabe la posibilidad de acceder entre otros a los datos financieros de los 10 índices.

En principio, tendremos en cuenta los datos en los días operativos entre las fechas de: 01/01/2018 y 20/05/2024. Es decir, 5 años y casi 5 meses en total.

Hay que tener en cuenta que en los índices bursátiles, los días dentro de los fines de semana la bolsa está cerrada. En adicción, hay otros tantos días que no son festivos. Por lo que en cada año no habría 365 días.

A continuación, se muestra:
- Paso 4.1: Obtención de datos financieros de los 10 índices bursátiles a partir de Yahoo Finance.
- Paso 4.2: Especificar los parámetros de fechas a escoger.
- Paso 4.3: Establecer el formato de fecha.

## Paso 4.1- Obtencion de datos financieros de los 10 indices a partir de Yahoo Finance

Aquí importamos el Ticker de Yahoo Finance para cada índice, y le asignamos una variable con su respectivo nombre:

In [2]:
#1 NIFTY50
NIFTY50_data = yf.Ticker('^NSEI')
#2 ASX200
ASX200_data = yf.Ticker('^AXJO')
#3 S&P 500
SP500_data = yf.Ticker('^GSPC')
#4 Dow Jones
DowJones_data = yf.Ticker('^DJI')
#5 Nasdaq
Nasdaq_data = yf.Ticker('^IXIC')
#6 S&P/TSX Composite
SPCanada_data = yf.Ticker('^GSPTSE')
#7 DAX 40
DAX40_data = yf.Ticker('^GDAXI')
#8 FTSE 100
FTSE100_data = yf.Ticker('^FTSE')
#9 Eurostoxx 50
Euro50_data = yf.Ticker('^STOXX50E')
#10 IBEX 35
IBEX35_data = yf.Ticker('^IBEX')

## Paso 4.2- Especificar los parametros de fechas a escoger

Vamos a tener en cuenta, que el intervalo temporal a tener en cuenta para la elaboración de los análisis, tendrá por defecto las siguientes fechas:
- La Fecha inicial se establece en el 01/01/2018
- La Fecha final se establece en el 20/05/2024

En cualquier caso, estas fechas se pueden modificar en la siguiente celda a gusto del usuario.

In [3]:
import datetime

#1   fecha_inicial, la cual podemos modificar a nuestro antojo
fecha_inicial = '2018-01-01'

#2   fecha_final, la cual podemos modificar a nuestro antojo
fecha_final = '2024-05-20'

Por otra parte, dejamos especificados los parámetros de start y end, con la fecha inicial y final establecida en la celda anterior.

A continuación, mostramos como quedaría el filtrado de las fechas mediante la aplicación para el índice NIFTY 50 de la India.

In [4]:
NIFTY50_df = NIFTY50_data.history(start=fecha_inicial, end=fecha_final)
NIFTY50_df

Unnamed: 0_level_0,Open,High,Low,Close,Volume,Dividends,Stock Splits
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2018-01-02 00:00:00+05:30,10477.549805,10495.200195,10404.650391,10442.200195,153400,0.0,0.0
2018-01-03 00:00:00+05:30,10482.650391,10503.599609,10429.549805,10443.200195,167300,0.0,0.0
2018-01-04 00:00:00+05:30,10469.400391,10513.000000,10441.450195,10504.799805,174900,0.0,0.0
2018-01-05 00:00:00+05:30,10534.250000,10566.099609,10520.099609,10558.849609,180900,0.0,0.0
2018-01-08 00:00:00+05:30,10591.700195,10631.200195,10588.549805,10623.599609,169000,0.0,0.0
...,...,...,...,...,...,...,...
2024-05-13 00:00:00+05:30,22027.949219,22131.650391,21821.050781,22104.050781,278200,0.0,0.0
2024-05-14 00:00:00+05:30,22112.900391,22270.050781,22081.250000,22217.849609,230200,0.0,0.0
2024-05-15 00:00:00+05:30,22255.599609,22297.550781,22151.750000,22200.550781,231900,0.0,0.0
2024-05-16 00:00:00+05:30,22319.199219,22432.250000,22054.550781,22403.849609,368900,0.0,0.0


En adicción, se muestra el mismo procedimiento para cada empresa del IBEX 35:

In [5]:
NIFTY50_df = NIFTY50_data.history(start=fecha_inicial, end=fecha_final)
ASX200_df = ASX200_data.history(start=fecha_inicial, end=fecha_final)
SP500_df = SP500_data.history(start=fecha_inicial, end=fecha_final)
DowJones_df = DowJones_data.history(start=fecha_inicial, end=fecha_final)
Nasdaq_df = Nasdaq_data.history(start=fecha_inicial, end=fecha_final)
SPCanada_df = SPCanada_data.history(start=fecha_inicial, end=fecha_final)
DAX40_df = DAX40_data.history(start=fecha_inicial, end=fecha_final)
FTSE100_df = FTSE100_data.history(start=fecha_inicial, end=fecha_final)
Euro50_df = Euro50_data.history(start=fecha_inicial, end=fecha_final)
IBEX35_df = IBEX35_data.history(start=fecha_inicial, end=fecha_final)


## Paso 4.3- Establecer el formato de fecha

In [6]:
NIFTY50_df

Unnamed: 0_level_0,Open,High,Low,Close,Volume,Dividends,Stock Splits
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2018-01-02 00:00:00+05:30,10477.549805,10495.200195,10404.650391,10442.200195,153400,0.0,0.0
2018-01-03 00:00:00+05:30,10482.650391,10503.599609,10429.549805,10443.200195,167300,0.0,0.0
2018-01-04 00:00:00+05:30,10469.400391,10513.000000,10441.450195,10504.799805,174900,0.0,0.0
2018-01-05 00:00:00+05:30,10534.250000,10566.099609,10520.099609,10558.849609,180900,0.0,0.0
2018-01-08 00:00:00+05:30,10591.700195,10631.200195,10588.549805,10623.599609,169000,0.0,0.0
...,...,...,...,...,...,...,...
2024-05-13 00:00:00+05:30,22027.949219,22131.650391,21821.050781,22104.050781,278200,0.0,0.0
2024-05-14 00:00:00+05:30,22112.900391,22270.050781,22081.250000,22217.849609,230200,0.0,0.0
2024-05-15 00:00:00+05:30,22255.599609,22297.550781,22151.750000,22200.550781,231900,0.0,0.0
2024-05-16 00:00:00+05:30,22319.199219,22432.250000,22054.550781,22403.849609,368900,0.0,0.0


A continuación, vamos a establecer el formato de fecha %Y-%m-%d , que es básicamente el YYYY-MM-DD. 

Este formato no está asociado específicamente a un país en particular, sino que es un estándar de formato de fecha ampliamente utilizado en la programación y en sistemas informáticos en general. Es parte de la especificación de formateo de fecha y hora de la biblioteca estándar de Python y se utiliza en muchas otras herramientas y lenguajes de programación.

A continuación, lo aplicamos a los dataframes de los 10 índices:

In [7]:
NIFTY50_df.index = NIFTY50_df.index.strftime('%Y-%m-%d')
ASX200_df.index = ASX200_df.index.strftime('%Y-%m-%d')
SP500_df.index = SP500_df.index.strftime('%Y-%m-%d')
DowJones_df.index = DowJones_df.index.strftime('%Y-%m-%d')
Nasdaq_df.index = Nasdaq_df.index.strftime('%Y-%m-%d')
SPCanada_df.index = SPCanada_df.index.strftime('%Y-%m-%d')
DAX40_df.index = DAX40_df.index.strftime('%Y-%m-%d')
FTSE100_df.index = FTSE100_df.index.strftime('%Y-%m-%d')
Euro50_df.index = Euro50_df.index.strftime('%Y-%m-%d')
IBEX35_df.index = IBEX35_df.index.strftime('%Y-%m-%d')


De forma que quede cada empresa de la siguiente forma:

In [8]:
NIFTY50_df

Unnamed: 0_level_0,Open,High,Low,Close,Volume,Dividends,Stock Splits
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2018-01-02,10477.549805,10495.200195,10404.650391,10442.200195,153400,0.0,0.0
2018-01-03,10482.650391,10503.599609,10429.549805,10443.200195,167300,0.0,0.0
2018-01-04,10469.400391,10513.000000,10441.450195,10504.799805,174900,0.0,0.0
2018-01-05,10534.250000,10566.099609,10520.099609,10558.849609,180900,0.0,0.0
2018-01-08,10591.700195,10631.200195,10588.549805,10623.599609,169000,0.0,0.0
...,...,...,...,...,...,...,...
2024-05-13,22027.949219,22131.650391,21821.050781,22104.050781,278200,0.0,0.0
2024-05-14,22112.900391,22270.050781,22081.250000,22217.849609,230200,0.0,0.0
2024-05-15,22255.599609,22297.550781,22151.750000,22200.550781,231900,0.0,0.0
2024-05-16,22319.199219,22432.250000,22054.550781,22403.849609,368900,0.0,0.0


# Paso 5: Informacion acerca del dataset

Vamos a analizar la información que nos viene de los 10 índices:

## Paso 5.1- Filas y columnas de cada indice

En primer, lugar tenemos las siguientes filas y columnas para NIFTY 50 como ejemplo:

In [9]:
NIFTY50_df.shape

(1569, 7)

Tenemos un total de:
- 1569 filas
- el index de 'Date' y 7 columnas

Con el output de la siguiente celda, vamos a ver las filas y columnas de los 10 índices:

In [10]:
dataframes_dict = {
    "NIFTY50_df": NIFTY50_df,
    "ASX200_df": ASX200_df,
    "SP500_df": SP500_df,
    "DowJones_df": DowJones_df,
    "Nasdaq_df": Nasdaq_df,
    "SPCanada_df": SPCanada_df,
    "DAX40_df": DAX40_df,
    "FTSE100_df": FTSE100_df,
    "Euro50_df": Euro50_df,
    "IBEX35_df": IBEX35_df
}

for i, (df_name, df) in enumerate(dataframes_dict.items(), start=1):
    print(f"{i}. {df_name}: {df.shape}")

1. NIFTY50_df: (1569, 7)
2. ASX200_df: (1612, 7)
3. SP500_df: (1605, 7)
4. DowJones_df: (1605, 7)
5. Nasdaq_df: (1605, 7)
6. SPCanada_df: (1602, 7)
7. DAX40_df: (1619, 7)
8. FTSE100_df: (1609, 7)
9. Euro50_df: (1603, 7)
10. IBEX35_df: (1631, 7)


De entre los 10 índices, se ha identificado varios con menos filas:

## Paso 5.2- Variables que vienen en los datos de los indices a partir de Yahoo Finance

En segundo lugar, desde Yahoo Finance, estamos importando de cada índice las siguientes variables:

Como podemos observar, hay 7 columnas que vamos a explicar brevemente.

1- Date (index)

Esta columna la hemos creado previamente. Date(fecha) se refiere al punto específico en el tiempo en el que se lleva a cabo una transacción o una serie de transacciones en el mercado de valores. La fecha se indica generalmente en un formato estándar de día, mes y año y es crucial para el registro preciso de las operaciones financieras.

2- Open

Open (Apertura) describe el precio al que una acción comienza a ser negociada al inicio de un periodo determinado de cotización, como el inicio de una jornada de trading o el inicio de un intervalo de tiempo específico.

3- High

High (Alto) se refiere al precio más alto alcanzado por una acción durante el periodo de tiempo analizado. Representa el punto máximo de valoración alcanzado por la acción en el mercado durante ese periodo.

4- Low

Low (Baja) es el precio más bajo registrado para una acción durante el periodo de tiempo en cuestión. Indica el nivel mínimo de valoración al que la acción ha llegado en el mercado durante ese periodo de tiempo.

5- Close

Close (Cierre) describe el precio al que una acción finaliza su cotización al final de un periodo específico, como el cierre de una jornada de trading o el final de un intervalo de tiempo determinado.

6- Volume

Volume (Volumen) indica el número total de acciones que se han negociado durante un periodo de tiempo específico. El volumen es un indicador clave de la actividad de trading en el mercado de valores y puede proporcionar información sobre el interés y la liquidez de una acción en particular.

7- Dividends

Dividends (Dividendos) indica los dividendos pagados por las acciones de la empresa en la fecha correspondiente, si los hubiera. Los dividendos representan los pagos periódicos realizados a los accionistas como una distribución de las ganancias de la empresa.

8- Stock Splits
 
Stock Splits (División de acciones) indica si se produjeron divisiones de acciones de ACS en la fecha indicada. Un split de acciones implica la división de las acciones existentes en múltiples acciones nuevas, generalmente con el objetivo de ajustar el precio por acción y hacerlas más accesibles para los inversores.

## Paso 5.3- Informacion de las columnas de los datasets de los indices

En tercer lugar, vamos a obtener más información de las columnas:

In [11]:
NIFTY50_df.columns

Index(['Open', 'High', 'Low', 'Close', 'Volume', 'Dividends', 'Stock Splits'], dtype='object')

In [12]:
NIFTY50_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 1569 entries, 2018-01-02 to 2024-05-17
Data columns (total 7 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Open          1569 non-null   float64
 1   High          1569 non-null   float64
 2   Low           1569 non-null   float64
 3   Close         1569 non-null   float64
 4   Volume        1569 non-null   int64  
 5   Dividends     1569 non-null   float64
 6   Stock Splits  1569 non-null   float64
dtypes: float64(6), int64(1)
memory usage: 98.1+ KB


Comprobar si hay valores NaN en las columnas de los datasets:

In [13]:
NIFTY50_df.isna().sum()

Open            0
High            0
Low             0
Close           0
Volume          0
Dividends       0
Stock Splits    0
dtype: int64

Y a continuación, si los hay a lo largo de todo el dataset...

In [14]:
import pandas as pd

# Diccionario para mapear el nombre del DataFrame con su respectivo DataFrame
dataframes_dict = {
    "NIFTY50_df": NIFTY50_df,
    "ASX200_df": ASX200_df,
    "SP500_df": SP500_df,
    "DowJones_df": DowJones_df,
    "Nasdaq_df": Nasdaq_df,
    "SPCanada_df": SPCanada_df,
    "DAX40_df": DAX40_df,
    "FTSE100_df": FTSE100_df,
    "Euro50_df": Euro50_df,
    "IBEX35_df": IBEX35_df
}

na_counts_dict = {}

for df_name, df in dataframes_dict.items():
    na_counts_dict[df_name] = df.isna().sum()

na_counts_df = pd.DataFrame(na_counts_dict)

# Transponer el df para tener los DataFrames en columnas verticales
na_counts_df = na_counts_df.transpose()

print(na_counts_df)

             Open  High  Low  Close  Volume  Dividends  Stock Splits
NIFTY50_df      0     0    0      0       0          0             0
ASX200_df       0     0    0      0       0          0             0
SP500_df        0     0    0      0       0          0             0
DowJones_df     0     0    0      0       0          0             0
Nasdaq_df       0     0    0      0       0          0             0
SPCanada_df     0     0    0      0       0          0             0
DAX40_df        0     0    0      0       0          0             0
FTSE100_df      0     0    0      0       0          0             0
Euro50_df       0     0    0      0       0          0             0
IBEX35_df       0     0    0      0       0          0             0


Como podemos observar, no hay valores nulos, por lo que no será necesaria una limpieza de los datasets.

Podemos confirmar que los datos que provienen de Yahoo Finance vienen de forma relativamente limpia para poder analizarlos posteriormente.

# Paso 6: Guardar los datos de Yahoo Finance en archivos CSV. Uno por cada indice bursatil

Tras haber filtrado los 10 datasets, vamos a proceder a guardar cada dataset en archivos .csv

In [15]:
#NIFTY50_df.to_csv('../Data/NIFTY50_dataset.csv')
#ASX200_df.to_csv('../Data/ASX200_dataset.csv')
#SP500_df.to_csv('../Data/SP500_dataset.csv')
#DowJones_df.to_csv('../Data/DowJones_dataset.csv')
#Nasdaq_df.to_csv('../Data/Nasdaq_dataset.csv')
#SPCanada_df.to_csv('../Data/SPCanada_dataset.csv')
#DAX40_df.to_csv('../Data/DAX40_dataset.csv')
#FTSE100_df.to_csv('../Data/FTSE100_dataset.csv')
#Euro50_df.to_csv('../Data/Euro50_dataset.csv')
#IBEX35_df.to_csv('../Data/IBEX35_dataset.csv')

Aquí ya tenemos los 10 archivos guardados en su correspondiente repositorio.