## **DESCARGAR DATOS DE CASH FLOW DEL INDICE S&P500**

**Nota Importante: Todos los ejemplos que vamos a ver a lo largo de este cuaderno son solo para fines educativos y no constituyen recomendación de inversión.**

En este módulo aprenderemos a obtener grandes volúmenes de datos financieros relacionados con el área de pérdidas y ganancias.

Para ello, utilizaremos la librería `yfinance`. Para instalarla, sigue estos pasos:

1. Haz clic en **Terminal** (en el menú superior) o accede al **Command Prompt (CMD)** / **Análisis del Sistema** desde la barra de herramientas.
2. Escribe el siguiente comando:

    ```bash
    pip install yfinance
    ```

**Nota importante:** Las librerías de Python se actualizan con frecuencia, lo que puede hacer que algunas de sus funciones queden obsoletas. Es importante mantenerlas actualizadas. Para actualizar una librería, utiliza el siguiente comando:

```bash
pip install yfinance --upgrade --no-cache-dir
```


Si deseas verificar la versión instalada de una librería, utiliza el siguiente comando:

```bash
pip show yfinance
```

**Estas instrucciones son aplicables a cualquier librería de Python.**



# Pasos a seguir:

1. Utilizar el listado de empresas cotizadas del S&P 500 creado en el módulo anterior para acceder a la librería `yfinance`.
2. Implementar un bucle `for` que itere sobre cada uno de los tickers.
3. Construir una tabla que consolide los datos de `Cash Flow` de cada empresa.

**Antes de nada importamos las librerias que vamos a necesitar para este módulo**

In [None]:
# Preparamos la celda para importar las librerias necesarias para el proyecto, en este caso pandas, numpy y yfinance. Si no se encuentran instaladas, se mostrará un mensaje de error indicando cuál es la librería faltante y cómo instalarla.

# Importamos las librerías necesarias
    # pandas: para manipulación y análisis de datos en forma de tablas (DataFrames)
    # requests: para hacer peticiones HTTP y descargar contenido de páginas web
    # yfinance: para obtener datos financieros desde Yahoo Finance
    # datetime y timedelta: para manejar fechas y tiempos
    # time: para medir el tiempo de ejecución de ciertas partes del código

try:
    import pandas as pd
    import numpy as np
    import yfinance as yf
    import requests
    from datetime import datetime, timedelta
    import time
    print("se han importado las librerias correctamente")
except ImportError as e:
    print(f"Mensaje de error: {e}. Por favor, asegúrate de tener instaladas la libreria indicada (pip install nombre_de_libreria).")



**1. Crear el listado de tickers**

Documentación disponible en el archivo extraer_tickers_SP500.ipynb

In [2]:
########---CARGAMOS LOS TICKERS DEL S&P 500 DESDE WIKIPEDIA---########

# URL de la página de Wikipedia que contiene la lista de empresas del S&P 500
url_sp500 = "https://en.wikipedia.org/wiki/List_of_S%26P_500_companies"

# Definimos un encabezado HTTP (User-Agent)
headers = {
    "User-Agent": "Mozilla/5.0"
}

# Realizamos la petición HTTP GET a la página web
response = requests.get(url_sp500, headers=headers)

# Extraemos el contenido HTML de la respuesta en formato texto
html = response.text

# Utilizamos pandas para leer las tablas HTML contenidas en la página
# pd.read_html busca automáticamente todas las etiquetas <table> del HTML
sp500 = pd.read_html(html)[0]

# Renombramos algunas columnas para que tengan nombres más simples e intuitivos.
sp500 = sp500.rename(
    columns={
        'Symbol': 'ticker',
        'Security': 'name',
        'GICS Sector': 'sector'
            }
        )

# Seleccionamos únicamente las columnas que nos interesan, eliminando información innecesaria
sp500_clean = sp500[['ticker', 'name', 'sector']]

# En este punto, sp500_clean contiene:
# - ticker: símbolo bursátil de la empresa
# - name: nombre de la empresa
# - sector: sector económico al que pertenece

# Creamos la lista de tickers a partir de la columna 'ticker' del DataFrame limpio, añadimos unique() para evitar duplicados y tolist() para convertir el resultado en una lista de Python
tickers_list = sp500_clean['ticker'].unique().tolist()

print(tickers_list)

['MMM', 'AOS', 'ABT', 'ABBV', 'ACN', 'ADBE', 'AMD', 'AES', 'AFL', 'A', 'APD', 'ABNB', 'AKAM', 'ALB', 'ARE', 'ALGN', 'ALLE', 'LNT', 'ALL', 'GOOGL', 'GOOG', 'MO', 'AMZN', 'AMCR', 'AEE', 'AEP', 'AXP', 'AIG', 'AMT', 'AWK', 'AMP', 'AME', 'AMGN', 'APH', 'ADI', 'AON', 'APA', 'APO', 'AAPL', 'AMAT', 'APP', 'APTV', 'ACGL', 'ADM', 'ARES', 'ANET', 'AJG', 'AIZ', 'T', 'ATO', 'ADSK', 'ADP', 'AZO', 'AVB', 'AVY', 'AXON', 'BKR', 'BALL', 'BAC', 'BAX', 'BDX', 'BRK.B', 'BBY', 'TECH', 'BIIB', 'BLK', 'BX', 'XYZ', 'BK', 'BA', 'BKNG', 'BSX', 'BMY', 'AVGO', 'BR', 'BRO', 'BF.B', 'BLDR', 'BG', 'BXP', 'CHRW', 'CDNS', 'CPT', 'CPB', 'COF', 'CAH', 'CCL', 'CARR', 'CVNA', 'CAT', 'CBOE', 'CBRE', 'CDW', 'COR', 'CNC', 'CNP', 'CF', 'CRL', 'SCHW', 'CHTR', 'CVX', 'CMG', 'CB', 'CHD', 'CI', 'CINF', 'CTAS', 'CSCO', 'C', 'CFG', 'CLX', 'CME', 'CMS', 'KO', 'CTSH', 'COIN', 'CL', 'CMCSA', 'FIX', 'CAG', 'COP', 'ED', 'STZ', 'CEG', 'COO', 'CPRT', 'GLW', 'CPAY', 'CTVA', 'CSGP', 'COST', 'CTRA', 'CRH', 'CRWD', 'CCI', 'CSX', 'CMI', 'CVS', 

  sp500 = pd.read_html(html)[0]


**2. Conexión con YahooFinance, bucle con tickers y creación de tabla con cifras de balance**

El proceso es el siguiente:

    - Creamos una Tabla vacia a la que añadiremos los datos con cada iteración

    - Vamos a abrir un bucle en el que vamos a iterar cada ticker

    - Dentro de cada iteración, vamos a descargar los datos de balance de cada ticker, en todos los años disponibles que tengamos y lo añadiremos a la tabla
    


In [3]:
#Creamos una Tabla vacia a la que añadiremos los datos con cada iteración
df_cash_flow = pd.DataFrame()

print("Cargando datos de cash flow de los tickers del S&P 500...")

#Vamos a abrir un bucle en el que vamos a iterar cada ticker, ab rimos un for loop
for ticker in tickers_list:
    #Mensaje para saber en qué ticker estamos
    print(ticker)
    #Descargamos los datos de cada ticker
    stock = yf.Ticker(ticker)
    #Dentro de cada iteración, vamos a descargar los datos de cash flow de cada ticker, en todos los años disponibles que tengamos y lo añadiremos a la tabla
    ### LA SIGUIENTE LINEA DE CODIGO ES LA UNICA QUE CAMBIA RESPECTO A OTROS MÓDULOS
    cash_flow = stock.cashflow 
    #Transponemos la tabla para que las fechas sean filas y no columnas
    cash_flow_t = cash_flow.T  
    #hacemos unpivot para tener una tabla más manejable en la que cada una de los capitulos del balance esté en una fila y no en columnas
    cash_flow_unpiv = cash_flow_t.reset_index().melt(id_vars='index', var_name='Account', value_name='Value')  # Unpivoting
    #Añadimos una columna con el ticker para identificar cada empresa
    cash_flow_unpiv['ticker'] = ticker
    #Concatenamos los datos descargados a la tabla vacia creada anteriormente
    # Este ultimo paso es crucial para ir acumulando los datos de cada ticker en un solo DataFrame
    df_cash_flow = pd.concat([df_cash_flow, cash_flow_unpiv], ignore_index=True)

# Tenemos el dataframe construido, ahora renombramos las columnas para que tengan nombres más claros
# Renombramos la columna 'index' a 'date' para mayor claridad
df_cash_flow = df_cash_flow.rename(columns={'index': 'date'
                                        , 'Account': 'account'
                                        , 'Value': 'value'})

# Muestra del DataFrame resultante
df_cash_flow.head()

Cargando datos de cash flow de los tickers del S&P 500...
MMM
AOS
ABT
ABBV
ACN
ADBE
AMD
AES
AFL
A
APD
ABNB
AKAM
ALB
ARE
ALGN
ALLE
LNT
ALL
GOOGL
GOOG
MO
AMZN
AMCR
AEE
AEP
AXP
AIG
AMT
AWK
AMP
AME
AMGN
APH
ADI
AON
APA
APO
AAPL
AMAT
APP
APTV
ACGL
ADM
ARES
ANET
AJG
AIZ
T
ATO
ADSK
ADP
AZO
AVB
AVY
AXON
BKR
BALL
BAC
BAX
BDX
BRK.B
BBY
TECH
BIIB
BLK
BX
XYZ
BK
BA
BKNG
BSX
BMY
AVGO
BR
BRO
BF.B
BLDR
BG
BXP
CHRW
CDNS
CPT
CPB
COF
CAH
CCL
CARR
CVNA
CAT
CBOE
CBRE
CDW
COR
CNC
CNP
CF
CRL
SCHW
CHTR
CVX
CMG
CB
CHD
CI
CINF
CTAS
CSCO
C
CFG
CLX
CME
CMS
KO
CTSH
COIN
CL
CMCSA
FIX
CAG
COP
ED
STZ
CEG
COO
CPRT
GLW
CPAY
CTVA
CSGP
COST
CTRA
CRH
CRWD
CCI
CSX
CMI
CVS
DHR
DRI
DDOG
DVA
DAY
DECK
DE
DELL
DAL
DVN
DXCM
FANG
DLR
DG
DLTR
D
DPZ
DASH
DOV
DOW
DHI
DTE
DUK
DD
ETN
EBAY
ECL
EIX
EW
EA
ELV
EME
EMR
ETR
EOG
EPAM
EQT
EFX
EQIX
EQR
ERIE
ESS
EL
EG
EVRG
ES
EXC
EXE
EXPE
EXPD
EXR
XOM
FFIV
FDS
FICO
FAST
FRT
FDX
FIS
FITB
FSLR
FE
FISV
F
FTNT
FTV
FOXA
FOX
BEN
FCX
GRMN
IT
GE
GEHC
GEV
GEN
GNRC
GD
GIS
GM
GPC
GILD
GPN
GL
GDDY
GS
HAL
H

Unnamed: 0,date,account,value,ticker
0,2024-12-31,Free Cash Flow,638000000.0,MMM
1,2023-12-31,Free Cash Flow,5065000000.0,MMM
2,2022-12-31,Free Cash Flow,3842000000.0,MMM
3,2021-12-31,Free Cash Flow,5851000000.0,MMM
4,2024-12-31,Repurchase Of Capital Stock,-1801000000.0,MMM


**Nota importante:** Los datos obtenidos de `yfinance` suelen estar desestructurados, tanto en su formato como en su contenido. Las diferentes secciones de cashflow no están correctamente ordenadas ni clasificadas, sino que aparecen de manera aleatoria.

A continuación, se muestra un ejemplo:

In [4]:
print(df_cash_flow['account'].unique())

['Free Cash Flow' 'Repurchase Of Capital Stock' 'Repayment Of Debt'
 'Issuance Of Debt' 'Capital Expenditure'
 'Interest Paid Supplemental Data' 'Income Tax Paid Supplemental Data'
 'End Cash Position' 'Beginning Cash Position'
 'Effect Of Exchange Rate Changes' 'Changes In Cash' 'Financing Cash Flow'
 'Cash Flow From Continuing Financing Activities'
 'Net Other Financing Charges' 'Proceeds From Stock Option Exercised'
 'Cash Dividends Paid' 'Common Stock Dividend Paid'
 'Net Common Stock Issuance' 'Common Stock Payments'
 'Net Issuance Payments Of Debt' 'Net Short Term Debt Issuance'
 'Net Long Term Debt Issuance' 'Long Term Debt Payments'
 'Long Term Debt Issuance' 'Investing Cash Flow'
 'Cash Flow From Continuing Investing Activities'
 'Net Other Investing Changes' 'Net Investment Purchase And Sale'
 'Sale Of Investment' 'Purchase Of Investment'
 'Net Business Purchase And Sale' 'Sale Of Business'
 'Purchase Of Business' 'Net PPE Purchase And Sale' 'Sale Of PPE'
 'Purchase Of PPE' '

In [5]:
#Ejemplo de cómo descargar los datos de balance de un ticker específico (por ejemplo, 'META' para Meta Platforms, Inc.)

stock = yf.Ticker('META')
#Dentro de cada iteración, vamos a descargar los datos de cash flow de cada ticker, en todos los años disponibles que tengamos y lo añadiremos a la tabla
cash_flow_ticker = stock.cashflow
# cash_flow_ticker.T.reset_index().melt(id_vars='index', var_name='Account', value_name='Value')  # Unpivoting
cash_flow_ticker

Unnamed: 0,2024-12-31,2023-12-31,2022-12-31,2021-12-31
Free Cash Flow,54072000000.0,44068000000.0,19289000000.0,38993000000.0
Repurchase Of Capital Stock,-30125000000.0,-19774000000.0,-27956000000.0,-44537000000.0
Repayment Of Debt,-1969000000.0,-1058000000.0,-850000000.0,-677000000.0
Issuance Of Debt,10432000000.0,8455000000.0,9921000000.0,0.0
Capital Expenditure,-37256000000.0,-27045000000.0,-31186000000.0,-18690000000.0
Interest Paid Supplemental Data,486000000.0,448000000.0,0.0,0.0
Income Tax Paid Supplemental Data,10554000000.0,6607000000.0,6407000000.0,8525000000.0
End Cash Position,45438000000.0,42827000000.0,15596000000.0,16865000000.0
Beginning Cash Position,42827000000.0,15596000000.0,16865000000.0,17954000000.0
Effect Of Exchange Rate Changes,-786000000.0,113000000.0,-638000000.0,-474000000.0


**3. Descargamos en Excel los datos**

In [6]:
## descargamos el excel sin el índice
cash_flow_ticker.to_excel('cash_flow.xlsx', index=False) 

**Fin del módulo**