# Anexo 3. Elaboración del Dataset Final
---

Una vez se tienen los 3 dataset iniciales de income, balance y cashflow creados, es necesario realizar preparar los datos que se tienen en los diferentes dataset para poder general el dataset final con el que se va a trabajar en la realización de clusters. Esta etapa cuenta con la siguientes fases:

- Importación de los tres datasets desde `github.com`.
- Visualización y exploración inicial de datos.
- Manipulación y transformación de datos.
- Creación del dataset final.
- Análisis de valores faltantes.

In [None]:
# Librerías necesarias

import numpy as np
import pandas as pd
import seaborn as sns

## Importación y Visualización de los Datasets Income, Balance y Cashflow
---

Los datasets base empleados en este notebook se encuentran en un repositorio de `github`. Estos han sido almacenados en este repositorio debido a desde este repositorio es posible generar reproducibilidad de este notebook.

In [None]:
df_income = pd.read_excel("df_income.xlsx")
df_balance = pd.read_excel("df_balance.xlsx")
df_cashflow = pd.read_excel("df_cashflow.xlsx")

In [None]:
# Visualización de los cinco primeros registros de Income

df_income.head()

Unnamed: 0,Date,Net Income,Shares Outstanding (Basic),Dividend Per Share,EBIT,EBITDA,Revenue,Accion
0,2023-01-31,352.0,296.0,0.225,435.0,502.0,1756.0,A
1,2022-10-31,368.0,296.0,0.21,478.0,551.0,1849.0,A
2,2022-07-31,329.0,298.0,0.21,416.0,496.0,1718.0,A
3,2022-04-30,274.0,299.0,0.21,354.0,436.0,1607.0,A
4,2022-01-31,283.0,301.0,0.21,340.0,422.0,1674.0,A


In [None]:
# Resumen del dataframe Income

df_income.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 37538 entries, 0 to 37537
Data columns (total 8 columns):
 #   Column                      Non-Null Count  Dtype         
---  ------                      --------------  -----         
 0   Date                        37538 non-null  datetime64[ns]
 1   Net Income                  37281 non-null  float64       
 2   Shares Outstanding (Basic)  37261 non-null  float64       
 3   Dividend Per Share          37538 non-null  float64       
 4   EBIT                        37281 non-null  float64       
 5   EBITDA                      37157 non-null  float64       
 6   Revenue                     37284 non-null  float64       
 7   Accion                      37538 non-null  object        
dtypes: datetime64[ns](1), float64(6), object(1)
memory usage: 2.3+ MB


In [None]:
# Visualización de los cinco primeros registros de Balance

df_balance.head()

Unnamed: 0,Date,Cash & Cash Equivalents,Total Assets,Total Liabilities,Shareholders' Equity,Total Long-Term Liabilities,Total Current Liabilities,Long-Term Debt,Current Debt,Accion
0,2023-01-31,1250.0,10919.0,5310.0,5609.0,3374.0,1936.0,2733.0,238.0,A
1,2022-10-31,1053.0,10532.0,5227.0,5305.0,3366.0,1861.0,2733.0,36.0,A
2,2022-07-31,1077.0,10484.0,5393.0,5091.0,3491.0,1902.0,2732.0,180.0,A
3,2022-04-30,1207.0,10455.0,5333.0,5122.0,3520.0,1813.0,2730.0,175.0,A
4,2022-01-31,1158.0,10327.0,5173.0,5154.0,3589.0,1584.0,2730.0,0.0,A


In [None]:
# Resumen del dataframe Balance

df_balance.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 36292 entries, 0 to 36291
Data columns (total 10 columns):
 #   Column                       Non-Null Count  Dtype         
---  ------                       --------------  -----         
 0   Date                         36292 non-null  datetime64[ns]
 1   Cash & Cash Equivalents      36292 non-null  float64       
 2   Total Assets                 35330 non-null  float64       
 3   Total Liabilities            35314 non-null  float64       
 4   Shareholders' Equity         35316 non-null  float64       
 5   Total Long-Term Liabilities  34667 non-null  float64       
 6   Total Current Liabilities    34681 non-null  float64       
 7   Long-Term Debt               34691 non-null  float64       
 8   Current Debt                 34807 non-null  float64       
 9   Accion                       36292 non-null  object        
dtypes: datetime64[ns](1), float64(8), object(1)
memory usage: 2.8+ MB


In [None]:
# Visualización de los cinco primeros registros de Cashflow

df_cashflow.head()

Unnamed: 0,Date,Net Cash Flow,Free Cash Flow,Dividends Paid,Accion
0,2023-01-31,197.0,220.0,-67.0,A
1,2022-10-31,-17.0,378.0,-62.0,A
2,2022-07-31,-115.0,244.0,-62.0,A
3,2022-04-30,72.0,219.0,-63.0,A
4,2022-01-31,-374.0,180.0,-63.0,A


In [None]:
# Resumen del dataframe cashflow

df_cashflow.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 37537 entries, 0 to 37536
Data columns (total 5 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   Date            37537 non-null  datetime64[ns]
 1   Net Cash Flow   37396 non-null  float64       
 2   Free Cash Flow  37394 non-null  float64       
 3   Dividends Paid  37396 non-null  float64       
 4   Accion          37537 non-null  object        
dtypes: datetime64[ns](1), float64(3), object(1)
memory usage: 1.4+ MB


## Preparación de los Datos
---
Como cualquier proyecto que involucre datos, es necesario realizar un preprocesamiento de los datos porque estos rara vez vienen listos para ser utilizados en modelos. Dado lo anterior, en esta sección se tratarán y describirán los pasos llevados a cabo para preparar los datos.

### Identificación de Registros Anómalos

Posterior al cambio del nombre de la columna de las fechas, se realizará la transformación del `dtype` de esta misma, ya que originalmente esta columna es de tipo `object` como se observa en el resumen de los 3 dataframes. Antes de aplicar cualquier transfromación, se verificará si existen cadenas de texto en estas columnas, esto con el fin de evitar problemas durante la transformación de dtype.

In [None]:
# Verificación de la existencia de cadenas de caracteres en la columna Date en Income

indices_income = df_income[pd.to_datetime(df_income['Date'], errors="coerce").isna()].index

df_income.loc[indices_income,:]

Unnamed: 0,Date,Net Income,Shares Outstanding (Basic),Dividend Per Share,EBIT,EBITDA,Revenue,Accion


In [None]:
# Verificación de la existencia de cadenas de caracteres en la columna Date en Income

indices_balance = df_balance[pd.to_datetime(df_balance['Date'], errors="coerce").isna()].index

df_balance.loc[indices_balance,:]

Unnamed: 0,Date,Cash & Cash Equivalents,Total Assets,Total Liabilities,Shareholders' Equity,Total Long-Term Liabilities,Total Current Liabilities,Long-Term Debt,Current Debt,Accion


In [None]:
# Verificación de la existencia de cadenas de caracteres en la columna Date en Income

indices_cashflow = df_cashflow[pd.to_datetime(df_cashflow['Date'], errors="coerce").isna()].index

df_cashflow.loc[indices_cashflow,:]

Unnamed: 0,Date,Net Cash Flow,Free Cash Flow,Dividends Paid,Accion


Es posible que la columna que contiene el símbolo de la acción de cada empresa tenga inconvenientes respecto a minúsculas y mayúsculas. En búsqueda de obtener uniformidad, todas los símbolos de la columna `Accion` se modificarán para que todas los caracteres sean letras mayúsuculas. Esto para los tres datasets.

In [None]:
# Buscar en las columnas Accion la existencia de caracteres tengas letras minúsculas.

print(df_income['Accion'].apply(lambda x: x.isupper()).sum() == df_income.shape[0])
print(df_balance['Accion'].apply(lambda x: x.isupper()).sum() == df_balance.shape[0])
print(df_cashflow['Accion'].apply(lambda x: x.isupper()).sum() == df_cashflow.shape[0])

True
True
True


Efectivamente todos los símbolos de las acciones se han transformado en caracteres mayúsculos. Esto es de vital importancia para la siguiente fase de la manipulación y transformación de datos.

### Creación de llaves para income, balance y cashflow
---

Para crear un único dataset final a partir de los tres dataset que se están trabajando, es necesario tener una llave única (llave primaria) para cada uno de los registros con la cual se puedan realizar los respectivos joins entre los datasets. La definición de esta llave primaria estará dada por: $Llave = Accion + Año + Mes$.

Para ilustrar un ejemplo de una llave única, se tomará como ejemplo la acción A, en el año 2023 en el mes 3, partiendo de esta información la llave única para este registro particular sería: $A2023-3$.

Si bien al momento de descargar la información esta se solicitó a nivel trimestral, es posible que exista información de otros meses diferentes a los meses de cierre de trimeste (3: marzo, 6: junio, 9: septiembre, 12: diciembre), por lo que de ser así, es necesario realizar una transformación del mes para trabajar todos los registros dentro del mismo trimeste, más exactamente al final del mismo trimeste.

In [None]:
print(f"Meses únicos en el dataset income: {np.sort(df_income['Date'].apply(lambda x: x.month).unique())}")

Meses únicos en el dataset income: [ 1  2  3  4  5  6  7  8  9 10 11 12]


In [None]:
print(f"Meses únicos en el dataset balance: {np.sort(df_balance['Date'].apply(lambda x: x.month).unique())}")

Meses únicos en el dataset balance: [ 1  2  3  4  5  6  7  8  9 10 11 12]


In [None]:
print(f"Meses únicos en el dataset cashflow: {np.sort(df_cashflow['Date'].apply(lambda x: x.month).unique())}")

Meses únicos en el dataset cashflow: [ 1  2  3  4  5  6  7  8  9 10 11 12]


Los tres datasets presentan meses diferentes a los meses de cierre de trimestre, por esto es necesario modificar el mes de estos registros mediante una función definida por el usuario, la cual cambiará el mes del registro al mes de cierre de trimestre correspondiente.

In [None]:
# Función para corregir el mes (trimestre) en las fechas

def quarter(month):

  if month <= 3:
    return 3
  if month <= 6:
    return 6
  if month <= 9:
    return 9
  if month <= 12:
    return 12

Antes de realizar la transformación de los meses y posterior creación de llaves únicas es posible que se creen llaves únicas repetidas, situación que no debería presentarse dado el nombre 'llaves únicas'. Para evaluar esta posibilidad se crearán dos llaves únicas, la primera no tendrá en cuenta la transformación del mes y la segunda sí tendrá en cuenta esta transformación.

In [None]:
# Creación de las llaves (sin modificar el mes) para su posterior concatenación

df_income['Key_1'] = df_income['Accion'] + \
                     df_income['Date'].apply(lambda x: x.year).astype(str) + '-' + \
                     df_income['Date'].apply(lambda x: x.month).astype(str)

df_balance['Key_1'] = df_balance['Accion'] + \
                      df_balance['Date'].apply(lambda x: x.year).astype(str) + '-' + \
                      df_balance['Date'].apply(lambda x: x.month).astype(str)

df_cashflow['Key_1'] = df_cashflow['Accion'] + \
                       df_cashflow['Date'].apply(lambda x: x.year).astype(str) + '-' + \
                       df_cashflow['Date'].apply(lambda x: x.month).astype(str)

In [None]:
# Creación de las llaves (con el mes modificado) para su posterior concatenación

df_income['Key_2'] = df_income['Accion'] + \
                     df_income['Date'].apply(lambda x: x.year).astype(str) + '-' + \
                     df_income['Date'].apply(lambda x: x.month).apply(quarter).astype(str)

df_balance['Key_2'] = df_balance['Accion'] + \
                      df_balance['Date'].apply(lambda x: x.year).astype(str) + '-' + \
                      df_balance['Date'].apply(lambda x: x.month).apply(quarter).astype(str)

df_cashflow['Key_2'] = df_cashflow['Accion'] + \
                       df_cashflow['Date'].apply(lambda x: x.year).astype(str) + '-' + \
                       df_cashflow['Date'].apply(lambda x: x.month).apply(quarter).astype(str)

A continuación solamente se visualizará el primer registro de los tres datasets para ver las dos llaves creadas.

In [None]:
df_income.head(1)

Unnamed: 0,Date,Net Income,Shares Outstanding (Basic),Dividend Per Share,EBIT,EBITDA,Revenue,Accion,Key_1,Key_2
0,2023-01-31,352.0,296.0,0.225,435.0,502.0,1756.0,A,A2023-1,A2023-3


In [None]:
df_balance.head(1)

Unnamed: 0,Date,Cash & Cash Equivalents,Total Assets,Total Liabilities,Shareholders' Equity,Total Long-Term Liabilities,Total Current Liabilities,Long-Term Debt,Current Debt,Accion,Key_1,Key_2
0,2023-01-31,1250.0,10919.0,5310.0,5609.0,3374.0,1936.0,2733.0,238.0,A,A2023-1,A2023-3


In [None]:
df_cashflow.head(1)

Unnamed: 0,Date,Net Cash Flow,Free Cash Flow,Dividends Paid,Accion,Key_1,Key_2
0,2023-01-31,197.0,220.0,-67.0,A,A2023-1,A2023-3


### Manejo de Registros Duplicados

Ahora, para cada uno de los datasets se identificará el número de registros que tienen llaves diferentes (es decir, registros donde el mes de su respectiva fecha haya sido modificado).

In [None]:
print(f"Cantidad de registros con llaves diferentes en income: {(df_income['Key_1'] != df_income['Key_2']).sum()}")
print(f"Cantidad de registros en el dataset income: {df_income.shape[0]}")

Cantidad de registros con llaves diferentes en income: 5702
Cantidad de registros en el dataset income: 37538


In [None]:
print(f"Cantidad de registros con llaves diferentes en balance: {(df_balance['Key_1'] != df_balance['Key_2']).sum()}")
print(f"Cantidad de registros en el dataset balance: {df_balance.shape[0]}")

Cantidad de registros con llaves diferentes en balance: 6446
Cantidad de registros en el dataset balance: 36292


In [None]:
print(f"Cantidad de registros con llaves diferentes en cashflow: {(df_cashflow['Key_1'] != df_cashflow['Key_2']).sum()}")
print(f"Cantidad de registros en el dataset cashflow: {df_cashflow.shape[0]}")

Cantidad de registros con llaves diferentes en cashflow: 5882
Cantidad de registros en el dataset cashflow: 37537


Más allá de la diferencia entre las llaves creadas para cada registro es necesario mirar la cantidad de llaves duplicadas, ya que esto repercute directamente en los registros a seleccionar para la creación del dataset final.

In [None]:
print("Porcentaje de llaves primrias (key_1) repetidas en el dataset income:")
print(f"{round(sum(df_income['Key_1'].duplicated()) / df_income.shape[0] * 100, 2)}%")

Porcentaje de llaves primrias (key_1) repetidas en el dataset income:
0.0%


In [None]:
print("Porcentaje de llaves primrias (key_1) repetidas en el dataset balance:")
print(f"{round(sum(df_balance['Key_1'].duplicated()) / df_balance.shape[0] * 100, 2)}%")

Porcentaje de llaves primrias (key_1) repetidas en el dataset balance:
0.0%


In [None]:
print("Porcentaje de llaves primrias (key_1) repetidas en el dataset cashflow:")
print(f"{round(sum(df_cashflow['Key_1'].duplicated()) / df_cashflow.shape[0] * 100, 2)}%")

Porcentaje de llaves primrias (key_1) repetidas en el dataset cashflow:
0.0%


In [None]:
print("Porcentaje de llaves primrias (key_2) repetidas en el dataset income:")
print(f"{round(sum(df_income['Key_2'].duplicated()) / df_income.shape[0] * 100, 2)}%")

Porcentaje de llaves primrias (key_2) repetidas en el dataset income:
1.01%


In [None]:
print("Porcentaje de llaves primrias (key_2) repetidas en el dataset balance:")
print(f"{round(sum(df_balance['Key_2'].duplicated()) / df_balance.shape[0] * 100, 2)}%")

Porcentaje de llaves primrias (key_2) repetidas en el dataset balance:
1.29%


In [None]:
print("Porcentaje de llaves primrias (key_2) repetidas en el dataset cashflow:")
print(f"{round(sum(df_cashflow['Key_2'].duplicated()) / df_cashflow.shape[0] * 100, 2)}%")

Porcentaje de llaves primrias (key_2) repetidas en el dataset cashflow:
1.05%


Para los tres datasets, menos del 2% del total de registro cuenta con llaves repetidas (llaves que se crearon a partir de la transformación del mes). Para intentar conservar la mayor cantidad de información posible, primero se visualizará un ejemplo de dos registros con la misma llave primaria (`Key_2`) repetida en el dataset income.

In [None]:
# Visualización de las llaves repetidas (key_2) en el dataset income

df_income.loc[df_income['Key_2'].duplicated()].head()

Unnamed: 0,Date,Net Income,Shares Outstanding (Basic),Dividend Per Share,EBIT,EBITDA,Revenue,Accion,Key_1,Key_2
141,2022-10-08,110.982,60.053,1.5,159.457,225.99,2641.341,AAP,AAP2022-10,AAP2022-12
153,2019-10-05,123.669,70.381,0.06,169.183,225.491,2312.106,AAP,AAP2019-10,AAP2019-12
157,2018-10-06,115.843,73.888,0.06,159.996,215.336,2274.982,AAP,AAP2018-10,AAP2018-12
161,2017-10-07,95.996,73.866,0.06,157.314,214.867,2182.233,AAP,AAP2017-10,AAP2017-12
165,2016-10-08,113.844,73.638,0.06,191.419,251.416,2248.855,AAP,AAP2016-10,AAP2016-12


In [None]:
# Visualización de dos registros con la misma llave primaria (Key_2) en el dataset income

df_income.loc[df_income['Key_2'] == "AAP2022-12"]

Unnamed: 0,Date,Net Income,Shares Outstanding (Basic),Dividend Per Share,EBIT,EBITDA,Revenue,Accion,Key_1,Key_2
140,2022-12-31,106.696,59.436,1.5,143.32,211.896,2473.745,AAP,AAP2022-12,AAP2022-12
141,2022-10-08,110.982,60.053,1.5,159.457,225.99,2641.341,AAP,AAP2022-10,AAP2022-12


Como se comentó anteriormente, el cambio de del mes de 10 a 12 produjo una llave primaria repetida, en este caso la llave `AAP2022-12` de la columna `Key_2`. En la siguiente celda se presentará los cinco primeros registros con llaves repetidas en el dataset income.

In [None]:
# Registros con llaves Key_2 repetidas del dataset income

acciones_llaves_duplicadas_income = df_income.loc[df_income['Key_2'].duplicated(), "Key_2"].values

df_income.loc[df_income['Key_2'].isin(acciones_llaves_duplicadas_income)].head(10)

Unnamed: 0,Date,Net Income,Shares Outstanding (Basic),Dividend Per Share,EBIT,EBITDA,Revenue,Accion,Key_1,Key_2
140,2022-12-31,106.696,59.436,1.5,143.32,211.896,2473.745,AAP,AAP2022-12,AAP2022-12
141,2022-10-08,110.982,60.053,1.5,159.457,225.99,2641.341,AAP,AAP2022-10,AAP2022-12
152,2019-12-28,95.907,69.423,0.06,127.875,186.681,2112.614,AAP,AAP2019-12,AAP2019-12
153,2019-10-05,123.669,70.381,0.06,169.183,225.491,2312.106,AAP,AAP2019-10,AAP2019-12
156,2018-12-29,53.442,72.99,0.06,82.832,137.432,2105.072,AAP,AAP2018-12,AAP2018-12
157,2018-10-06,115.843,73.888,0.06,159.996,215.336,2274.982,AAP,AAP2018-10,AAP2018-12
160,2017-12-30,184.5,73.903,0.06,87.273,143.78,2036.986,AAP,AAP2017-12,AAP2017-12
161,2017-10-07,95.996,73.866,0.06,157.314,214.867,2182.233,AAP,AAP2017-10,AAP2017-12
164,2016-12-31,62.365,73.676,0.06,110.276,169.401,2082.891,AAP,AAP2016-12,AAP2016-12
165,2016-10-08,113.844,73.638,0.06,191.419,251.416,2248.855,AAP,AAP2016-10,AAP2016-12


La selección de los registros que tienen llaves repetidas a conservar se realizará a partir de la selección de aquellos registros que originalmente el mes ya era uno de los meses de cierre de trimestre (3: marzo, 6: junio, 9: septiembre, 12: diciembre).

En la siguiente celda se creará un dataframe temporal que contenga todos los registros repetidos, posteriormente se seleccionarán los índices de los registros duplicados, que suelen ser la segunda aparición del mismo valor en la columna de interés. Y finalmente se comprobará que los registros conservados son aquellos con meses de cierre de trimestre. Este proceso se realizará para los tres datasets.

In [None]:
df_income_repetidos = df_income.loc[df_income['Key_2'].isin(acciones_llaves_duplicadas_income)]

# Lista de índices a eliminar de dataset df_income

indices_repetidos_income = df_income_repetidos[df_income_repetidos['Key_2'].duplicated()].index

# Verificación que las fechas de los registros a conservar tengan los meses 3, 6, 9 o 12

df_income_repetidos[~df_income_repetidos.index.isin(indices_repetidos_income)].Date.apply(lambda x: x.month).isin([3,6,9,12]).sum() == df_income_repetidos.shape[0] / 2

True

In [None]:
# Registros con llaves Key_2 repetidas del dataset balance

acciones_llaves_duplicadas_balance = df_balance.loc[df_balance['Key_2'].duplicated(), "Key_2"].values

df_balance_repetidos = df_balance.loc[df_balance['Key_2'].isin(acciones_llaves_duplicadas_balance)]

# Lista de índices a eliminar de dataset df_balance

indices_repetidos_balance = df_balance_repetidos[df_balance_repetidos['Key_2'].duplicated()].index

# Verificación que las fechas de los registros a conservar tengan los meses 3, 6, 9 o 12

df_balance_repetidos[~df_balance_repetidos.index.isin(indices_repetidos_balance)].Date.apply(lambda x: x.month).isin([3,6,9,12]).sum() == df_balance_repetidos.shape[0] / 2

True

In [None]:
# Registros con llaves Key_2 repetidas del dataset cashflow

acciones_llaves_duplicadas_cashflow = df_cashflow.loc[df_cashflow['Key_2'].duplicated(), "Key_2"].values

df_cashflow_repetidos = df_cashflow.loc[df_cashflow['Key_2'].isin(acciones_llaves_duplicadas_cashflow)]

# Lista de índices a eliminar de dataset df_cashflow

indices_repetidos_cashflow = df_cashflow_repetidos[df_cashflow_repetidos['Key_2'].duplicated()].index

# Verificación que las fechas de los registros a conservar tengan los meses 3, 6, 9 o 12

df_cashflow_repetidos[~df_cashflow_repetidos.index.isin(indices_repetidos_cashflow)].Date.apply(lambda x: x.month).isin([3,6,9,12]).sum() == df_cashflow_repetidos.shape[0] / 2

True

El resultado `True` de las tres celdas anteriores verifica que efectivamente se han eliminado los registros cuyo mes no corresponde a  ningún mes de cierre de trimestre.

A continuación se verificará que la suma de registros eliminados y registros conservados sea igual a la cantidad de registros originalmente en cada dataset.

In [None]:
# Dataset income sin los registros con llaves Key_2 repetidas

df_income.loc[~df_income.index.isin(indices_repetidos_income)].shape[0] + len(indices_repetidos_income) == df_income.shape[0]

True

In [None]:
# Dataset balance sin los registros con llaves Key_2 repetidas

df_balance.loc[~df_balance.index.isin(indices_repetidos_balance)].shape[0] + len(indices_repetidos_balance) == df_balance.shape[0]

True

In [None]:
# Dataset cashflow sin los registros con llaves Key_2 repetidas

df_cashflow.loc[~df_cashflow.index.isin(indices_repetidos_cashflow)].shape[0] + len(indices_repetidos_cashflow) == df_cashflow.shape[0]

True

Una vez se han seleccionados los índices de los registros a conservar, se filtrarán los tres dataset iniciales para tener una única llave priamria que contenta el símbolo de la acción, el año y el mes de cierre de trimestre con la cual posteriormente realizar los joins necesarios para la creación de dataset final. Adicionalmente, la columna `Key_1` será eliminada ya que su objetivo era dar visibilidad sobre la cantidad de cambios efectuados por la función `quarter` definida previamente.

In [None]:
# Filtrado de los dataset sin llaves Key_2 repetidas

df_income = df_income.loc[~df_income.index.isin(indices_repetidos_income)]
df_balance = df_balance.loc[~df_balance.index.isin(indices_repetidos_balance)]
df_cashflow = df_cashflow.loc[~df_cashflow.index.isin(indices_repetidos_cashflow)]

In [None]:
# Eliminación de la columna Key_1 para los dataset income, balance y cashflow

df_income.drop(columns=['Key_1'], inplace=True)
df_balance.drop(columns=['Key_1'], inplace=True)
df_cashflow.drop(columns=['Key_1'], inplace=True)

Finalmente se imprimiran las columnas presentes en los tres datasets trabajados hasta el momento.

In [None]:
# Columnas del dataset income

df_income.columns

Index(['Date', 'Net Income', 'Shares Outstanding (Basic)',
       'Dividend Per Share', 'EBIT', 'EBITDA', 'Revenue', 'Accion', 'Key_2'],
      dtype='object')

In [None]:
# Columnas del dataset balance

df_balance.columns

Index(['Date', 'Cash & Cash Equivalents', 'Total Assets', 'Total Liabilities',
       'Shareholders' Equity', 'Total Long-Term Liabilities',
       'Total Current Liabilities', 'Long-Term Debt', 'Current Debt', 'Accion',
       'Key_2'],
      dtype='object')

In [None]:
# Columnas del dataset cashflow

df_cashflow.columns

Index(['Date', 'Net Cash Flow', 'Free Cash Flow', 'Dividends Paid', 'Accion',
       'Key_2'],
      dtype='object')

Una vez realizada la manipulación de los 3 datasets originales, se revisará la cantidad de registros disponibles en los datasets:

## Valores faltantes en los tres datasets

In [None]:
# Número de registros con al menos una variable en NaN

print(f"Registros con al menos una variable con NaN (Income): {df_income[df_income.isna().any(axis=1)].shape[0]}")
print(f"Registros con al menos una variable con NaN (Balance): {df_balance[df_balance.isna().any(axis=1)].shape[0]}")
print(f"Registros con al menos una variable con NaN (Cashflow): {df_cashflow[df_cashflow.isna().any(axis=1)].shape[0]}")

Registros con al menos una variable con NaN (Income): 600
Registros con al menos una variable con NaN (Balance): 1618
Registros con al menos una variable con NaN (Cashflow): 145


In [None]:
print(df_income.shape)
print(df_balance.shape)
print(df_cashflow.shape)

(37160, 9)
(35824, 11)
(37144, 6)


In [None]:
# Copia de los dataset income, balance y cashflow

df_income_test = df_income.copy()
df_balance_test = df_balance.copy()
df_cashflow_test = df_cashflow.copy()

In [None]:
# Eliminación de filas con al menos una variable en NaN

df_income_test.dropna(how='any', inplace=True)
df_balance_test.dropna(how='any', inplace=True)
df_cashflow_test.dropna(how='any', inplace=True)

In [None]:
# Acciones comunes a los 3 datasets

conjunto_income = set(df_income_test['Accion'].unique())
conjunto_balance = set(df_balance_test['Accion'].unique())
conjunto_cashflow = set(df_cashflow_test['Accion'].unique())

acciones_comunes = conjunto_income.intersection(conjunto_balance).intersection(conjunto_cashflow)
acciones_comunes = sorted(list(acciones_comunes))

print(f"Número de acciones comunes en los tres datasets: {len(acciones_comunes)}")

Número de acciones comunes en los tres datasets: 313


In [None]:
# Creación de la columna year para identificar años faltantes

df_income_test['Year'] = df_income_test['Date'].apply(lambda x: x.year)
df_balance_test['Year'] = df_balance_test['Date'].apply(lambda x: x.year)
df_cashflow_test['Year'] = df_cashflow_test['Date'].apply(lambda x: x.year)

In [None]:
# Creación de 3 datasets para verificar la cantidad de años de cada acción

years = ['Accion', 'First Year', 'Last Year', 'Missing Years', 'Total Years']

df_income_years = pd.DataFrame(columns=years)
df_balance_years = pd.DataFrame(columns=years)
df_cashflow_years = pd.DataFrame(columns=years)

In [None]:
# Llenado df_income_years

for accion in acciones_comunes:

    anios = df_income_test.loc[df_income_test['Accion'] == accion, 'Year']
    anio_min = anios.min()
    anio_max = anios.max()
    diff_anios = anio_max - anio_min
    rango_anios = pd.Series(range(anio_min, anio_max + 1))
    anios_faltantes = rango_anios[~rango_anios.isin(anios)]

    df_income_years.loc[len(df_income_years.index)] = [accion, anio_min, anio_max, list(anios_faltantes), diff_anios]

In [None]:
# Número de acciones con años faltantes (Income)

df_income_years[df_income_years['Missing Years'].apply(lambda x: len(x) > 0)]

Unnamed: 0,Accion,First Year,Last Year,Missing Years,Total Years
94,EMR,1996,2023,[2002],27
290,VMC,1996,2023,"[2000, 2001, 2002, 2003, 2004, 2005]",27


In [None]:
# Llenado df_balance_years

for accion in acciones_comunes:

    anios = df_balance_test.loc[df_balance_test['Accion'] == accion, 'Year']
    anio_min = anios.min()
    anio_max = anios.max()
    diff_anios = anio_max - anio_min
    rango_anios = pd.Series(range(anio_min, anio_max + 1))
    anios_faltantes = rango_anios[~rango_anios.isin(anios)]

    df_balance_years.loc[len(df_balance_years.index)] = [accion, anio_min, anio_max, list(anios_faltantes), diff_anios]

In [None]:
# Número de acciones con años faltantes (Balance)

df_balance_years[df_balance_years['Missing Years'].apply(lambda x: len(x) > 0)]

Unnamed: 0,Accion,First Year,Last Year,Missing Years,Total Years
85,DXC,2014,2022,[2016],8
159,KR,1992,2023,[1993],31
284,UNP,1996,2023,"[1999, 2000, 2001]",27


In [None]:
# Llenado df_cashflow_years

for accion in acciones_comunes:

    anios = df_cashflow_test.loc[df_cashflow_test['Accion'] == accion, 'Year']
    anio_min = anios.min()
    anio_max = anios.max()
    diff_anios = anio_max - anio_min
    rango_anios = pd.Series(range(anio_min, anio_max + 1))
    anios_faltantes = rango_anios[~rango_anios.isin(anios)]

    df_cashflow_years.loc[len(df_cashflow_years.index)] = [accion, anio_min, anio_max, list(anios_faltantes), diff_anios]

In [None]:
# Número de acciones con años faltantes (Cashflow)

df_cashflow_years[df_cashflow_years['Missing Years'].apply(lambda x: len(x) > 0)]

Unnamed: 0,Accion,First Year,Last Year,Missing Years,Total Years
94,EMR,1996,2023,[2002],27
265,TDG,2003,2022,[2004],19
290,VMC,1996,2023,"[2000, 2001, 2002, 2003, 2004, 2005]",27


In [None]:
set_income = set(df_income_test['Key_2'])
set_balance = set(df_balance_test['Key_2'])
set_cashflow = set(df_cashflow_test['Key_2'])

In [None]:
# Número de elementos en Key_2 comunes a los tres datasets

len(set_income.intersection(set_balance).intersection(set_cashflow))

28238

## Creación del dataset final
---
Una vez se han preparados los dataset de income, balance y cashflow, se puede crear el dataset final que contenga todas columnas particulares de cada dataset para poder crear los KPI necesarios en la clusterización de empresas.

### Unión de Datasets

Para la creación del dataset final se concatenarán los dataset de income, balance y cashflow a partir de sus llaves primarias creadas anteriormente (`Key_2`). El dataset final se creará con un outer join para conservar toda la información de los 3 dataset, y la columna base para realizar el join es `Key_2`.

In [None]:
# Creación del dataset final

df_final = pd.merge(df_income, df_balance, on="Key_2", how="inner")
df_final.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 30240 entries, 0 to 30239
Data columns (total 19 columns):
 #   Column                       Non-Null Count  Dtype         
---  ------                       --------------  -----         
 0   Date_x                       30240 non-null  datetime64[ns]
 1   Net Income                   30024 non-null  float64       
 2   Shares Outstanding (Basic)   30051 non-null  float64       
 3   Dividend Per Share           30240 non-null  float64       
 4   EBIT                         30024 non-null  float64       
 5   EBITDA                       29969 non-null  float64       
 6   Revenue                      30027 non-null  float64       
 7   Accion_x                     30240 non-null  object        
 8   Key_2                        30240 non-null  object        
 9   Date_y                       30240 non-null  datetime64[ns]
 10  Cash & Cash Equivalents      30240 non-null  float64       
 11  Total Assets                 29458 non-nu

Cuando dos dataframes se unen mediante un merge, pandas automáticamente asigna un sufijo para identificar columnas con mismo nombre de los dos dataframe involucrados en el join. Es por eso que al momento de imprimir el nombre de las columnas del dataframe final se observan columnas con sufijo `_x` y `_y`. Estos sufijos será de utilidad al momento de renombrar la columnas una vez el dataset esté completo.

Ahora es necesario agregar el tercer dataset, una vez más con un outer join.

In [None]:
# Unión de los tres dataset

df_final = df_final.merge(df_cashflow, on="Key_2", how="inner")
df_final.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 29713 entries, 0 to 29712
Data columns (total 24 columns):
 #   Column                       Non-Null Count  Dtype         
---  ------                       --------------  -----         
 0   Date_x                       29713 non-null  datetime64[ns]
 1   Net Income                   29631 non-null  float64       
 2   Shares Outstanding (Basic)   29524 non-null  float64       
 3   Dividend Per Share           29713 non-null  float64       
 4   EBIT                         29631 non-null  float64       
 5   EBITDA                       29580 non-null  float64       
 6   Revenue                      29634 non-null  float64       
 7   Accion_x                     29713 non-null  object        
 8   Key_2                        29713 non-null  object        
 9   Date_y                       29713 non-null  datetime64[ns]
 10  Cash & Cash Equivalents      29713 non-null  float64       
 11  Total Assets                 28942 non-nu

In [None]:
# Columnas del dataset final

df_final.columns

Index(['Date_x', 'Net Income', 'Shares Outstanding (Basic)',
       'Dividend Per Share', 'EBIT', 'EBITDA', 'Revenue', 'Accion_x', 'Key_2',
       'Date_y', 'Cash & Cash Equivalents', 'Total Assets',
       'Total Liabilities', 'Shareholders' Equity',
       'Total Long-Term Liabilities', 'Total Current Liabilities',
       'Long-Term Debt', 'Current Debt', 'Accion_y', 'Date', 'Net Cash Flow',
       'Free Cash Flow', 'Dividends Paid', 'Accion'],
      dtype='object')

In [None]:
# Resumen del dataset final

df_final.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 29713 entries, 0 to 29712
Data columns (total 24 columns):
 #   Column                       Non-Null Count  Dtype         
---  ------                       --------------  -----         
 0   Date_x                       29713 non-null  datetime64[ns]
 1   Net Income                   29631 non-null  float64       
 2   Shares Outstanding (Basic)   29524 non-null  float64       
 3   Dividend Per Share           29713 non-null  float64       
 4   EBIT                         29631 non-null  float64       
 5   EBITDA                       29580 non-null  float64       
 6   Revenue                      29634 non-null  float64       
 7   Accion_x                     29713 non-null  object        
 8   Key_2                        29713 non-null  object        
 9   Date_y                       29713 non-null  datetime64[ns]
 10  Cash & Cash Equivalents      29713 non-null  float64       
 11  Total Assets                 28942 non-nu

En la creación del dataframe final se observa que, como era de esperarse, la única variable que no tieve valores nulos es `Key_2`, las demás variables tienen valores faltantes. Si bien es necesario realizar un tratamiento de datos y valores faltantes antes de hacer clusterización, primero debe unificarse las columnas `Dates` y `Accion` ya que estas dos columnas, junto con `Key_2` deben tener obligatoriamente todos sus registros.

In [None]:
# Cambio de nombre para unificación de las columnas Date y Accion

df_final.rename(columns={"Date": "Date_z"}, inplace=True)
df_final.rename(columns={"Accion": "Accion_z"}, inplace=True)

Se ha nombrado estas dos columnas con el sufijo `_z` porque a partir de las columnas con sufijos `_x`, `_y` y `_z` se creará una columna única a partir de la información de estas tres columnas, esto aplica para Date y Accion:

In [None]:
# Creación columnas Date y Accion

df_final['Date'] = df_final['Date_x'].fillna(df_final['Date_y'].fillna(df_final['Date_z']))
df_final['Accion'] = df_final['Accion_x'].fillna(df_final['Accion_y'].fillna(df_final['Accion_z']))

print(f"Valores nulos en la columna Date: {df_final['Date'].isna().sum()}")
print(f"Valores nulos en la columna Accion: {df_final['Accion'].isna().sum()}")

Valores nulos en la columna Date: 0
Valores nulos en la columna Accion: 0


Ya no hay valores nulos en las columnas `Date` y `Accion`.

Ahora se pueden eliminar las columnas temporales creadas, las cuales son aquellas con sufijos. También se creará una columna adicional llamada `Month`, esta nos servirá para ejecutar diferentes análisis que se detallarán más adelante.

In [None]:
# Eliminar columnas temporales, creación de la columna month

df_final.drop(columns=['Date_x', 'Date_y', 'Date_z', 'Accion_x', 'Accion_y', 'Accion_z'], inplace=True)
df_final['Date'] = pd.to_datetime(df_final['Date']).dt.date
df_final['Month'] = df_final['Date'].apply(lambda x: x.month)

df_final.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 29713 entries, 0 to 29712
Data columns (total 21 columns):
 #   Column                       Non-Null Count  Dtype  
---  ------                       --------------  -----  
 0   Net Income                   29631 non-null  float64
 1   Shares Outstanding (Basic)   29524 non-null  float64
 2   Dividend Per Share           29713 non-null  float64
 3   EBIT                         29631 non-null  float64
 4   EBITDA                       29580 non-null  float64
 5   Revenue                      29634 non-null  float64
 6   Key_2                        29713 non-null  object 
 7   Cash & Cash Equivalents      29713 non-null  float64
 8   Total Assets                 28942 non-null  float64
 9   Total Liabilities            28930 non-null  float64
 10  Shareholders' Equity         28932 non-null  float64
 11  Total Long-Term Liabilities  28372 non-null  float64
 12  Total Current Liabilities    28386 non-null  float64
 13  Long-Term Debt  

In [None]:
df_final_test = df_final.copy()
df_final_test.dropna(how='any', inplace=True)
df_final_test['Year'] = df_final_test['Date'].apply(lambda x: x.year)
df_final_test.shape

(28238, 22)

In [None]:
# Creación de un dataset para verificar la cantidad de años de cada acción

years = ['Accion', 'First Year', 'Last Year', 'Missing Years', 'Total Years']
acciones_finales = df_final_test['Accion'].unique()

df_final_years = pd.DataFrame(columns=years)

for accion in acciones_finales:

    anios = df_final_test.loc[df_final_test['Accion'] == accion, 'Year']
    anio_min = anios.min()
    anio_max = anios.max()
    diff_anios = anio_max - anio_min
    rango_anios = pd.Series(range(anio_min, anio_max + 1))
    anios_faltantes = rango_anios[~rango_anios.isin(anios)]

    df_final_years.loc[len(df_final_years.index)] = [accion, anio_min, anio_max, list(anios_faltantes), diff_anios]

# Número de acciones con años faltantes (df compilado)

df_final_years[df_final_years['Missing Years'].apply(lambda x: len(x) > 0)]

Unnamed: 0,Accion,First Year,Last Year,Missing Years,Total Years
94,EMR,1996,2023,[2002],27
284,UNP,1996,2023,"[1999, 2000, 2001]",27
290,VMC,1996,2023,"[2000, 2001, 2002, 2003, 2004, 2005]",27


El valor de los registros del dataset final es igual a la cantidad de llaves (`Key_2`) compartidas en los tres datasets iniciales.

In [None]:
# Celda a ejecutar en dado caso que se quiera exportar el dataframe creado

df_final_test.to_csv("df_final.csv", index=False)

### Importación del dataset de precios diarios

In [None]:
# Importación del data set final de precios con los 4 millones de registros

url = "https://media.githubusercontent.com/media/Santigago97/Master/main/Data_set_precios_final.csv"
df_precios = pd.read_csv(url)
df_precios.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4107605 entries, 0 to 4107604
Data columns (total 3 columns):
 #   Column  Dtype  
---  ------  -----  
 0   Date    object 
 1   Accion  object 
 2   Close   float64
dtypes: float64(1), object(2)
memory usage: 94.0+ MB


In [None]:
# Visualización de los primeros cinco valores del dataframe de precios

df_precios.head()

Unnamed: 0,Date,Accion,Close
0,1980-03-17 00:00:00-05:00,RF,0.470826
1,1980-03-18 00:00:00-05:00,RF,0.470826
2,1980-03-19 00:00:00-05:00,RF,0.470826
3,1980-03-20 00:00:00-05:00,RF,0.470826
4,1980-03-21 00:00:00-05:00,RF,0.470826


In [None]:
df_precios['Accion'] = df_precios['Accion'].apply(lambda x: x.upper())

In [None]:
# Modificación de la columna "Date"

df_precios['Date'] = df_precios['Date'].apply(lambda x: pd.to_datetime(x.split(' ')[0]).date())

df_precios.head()

Unnamed: 0,Date,Accion,Close
0,1980-03-17,RF,0.470826
1,1980-03-18,RF,0.470826
2,1980-03-19,RF,0.470826
3,1980-03-20,RF,0.470826
4,1980-03-21,RF,0.470826


In [None]:
df_precios['Key_2'] = df_precios['Accion'] + \
                      df_precios['Date'].apply(lambda x: x.year).astype(str) + '-' + \
                      df_precios['Date'].apply(lambda x: x.month).apply(quarter).astype(str)

In [None]:
df_precios['Day'] = df_precios['Date'].apply(lambda x: x.day)

In [None]:
df_precios['Month'] = df_precios['Date'].apply(lambda x: x.month)

In [None]:
df_precios.shape

(4107605, 6)

In [None]:
df_precios[df_precios['Close'].isna()]

Unnamed: 0,Date,Accion,Close,Key_2,Day,Month
2311347,1997-06-06,RE,,RE1997-6,6,6
3814165,1998-01-14,PKI,,PKI1998-3,14,1


In [None]:
df_precios_cierre = df_precios.loc[df_precios['Day'] >= 28]

df_precios_cierre

Unnamed: 0,Date,Accion,Close,Key_2,Day,Month
9,1980-03-28,RF,0.464099,RF1980-3,28,3
10,1980-03-31,RF,0.470826,RF1980-3,31,3
29,1980-04-28,RF,0.538086,RF1980-6,28,4
30,1980-04-29,RF,0.531360,RF1980-6,29,4
31,1980-04-30,RF,0.531360,RF1980-6,30,4
...,...,...,...,...,...,...
4107578,2023-05-30,ZTS,160.940002,ZTS2023-6,30,5
4107579,2023-05-31,ZTS,163.009995,ZTS2023-6,31,5
4107598,2023-06-28,ZTS,169.100006,ZTS2023-6,28,6
4107599,2023-06-29,ZTS,171.869995,ZTS2023-6,29,6


In [None]:
# df precios de cierre final del mes

df_precios_cierre = df_precios_cierre.drop_duplicates(subset='Key_2', keep='last')

df_precios_cierre

Unnamed: 0,Date,Accion,Close,Key_2,Day,Month
10,1980-03-31,RF,0.470826,RF1980-3,31,3
73,1980-06-30,RF,0.538086,RF1980-6,30,6
137,1980-09-30,RF,0.659156,RF1980-9,30,9
200,1980-12-31,RF,0.692786,RF1980-12,31,12
262,1981-03-31,RF,0.739868,RF1981-3,31,3
...,...,...,...,...,...,...
4107349,2022-06-30,ZTS,170.443924,ZTS2022-6,30,6
4107413,2022-09-30,ZTS,147.312302,ZTS2022-9,30,9
4107476,2022-12-30,ZTS,145.893127,ZTS2022-12,30,12
4107538,2023-03-31,ZTS,166.083313,ZTS2023-3,31,3


In [None]:
print(df_final_test.shape)
print(df_precios_cierre.shape)

(28238, 22)
(65449, 6)


In [None]:
# Dataframe con vairables y precios de las acciones

df_compilado = pd.merge(df_final_test, df_precios_cierre, on='Key_2', how='left')

df_compilado.head()

Unnamed: 0,Net Income,Shares Outstanding (Basic),Dividend Per Share,EBIT,EBITDA,Revenue,Key_2,Cash & Cash Equivalents,Total Assets,Total Liabilities,...,Dividends Paid,Date_x,Accion_x,Month_x,Year,Date_y,Accion_y,Close,Day,Month_y
0,352.0,296.0,0.225,435.0,502.0,1756.0,A2023-3,1250.0,10919.0,5310.0,...,-67.0,2023-01-31,A,1,2023,2023-03-31,A,137.851746,31.0,3.0
1,368.0,296.0,0.21,478.0,551.0,1849.0,A2022-12,1053.0,10532.0,5227.0,...,-62.0,2022-10-31,A,10,2022,2022-12-30,A,149.121826,30.0,12.0
2,329.0,298.0,0.21,416.0,496.0,1718.0,A2022-9,1077.0,10484.0,5393.0,...,-62.0,2022-07-31,A,7,2022,2022-09-30,A,120.731705,30.0,9.0
3,274.0,299.0,0.21,354.0,436.0,1607.0,A2022-6,1207.0,10455.0,5333.0,...,-63.0,2022-04-30,A,4,2022,2022-06-30,A,117.761826,30.0,6.0
4,283.0,301.0,0.21,340.0,422.0,1674.0,A2022-3,1158.0,10327.0,5173.0,...,-63.0,2022-01-31,A,1,2022,2022-03-31,A,131.001053,31.0,3.0


In [None]:
df_compilado.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 28238 entries, 0 to 28237
Data columns (total 27 columns):
 #   Column                       Non-Null Count  Dtype  
---  ------                       --------------  -----  
 0   Net Income                   28238 non-null  float64
 1   Shares Outstanding (Basic)   28238 non-null  float64
 2   Dividend Per Share           28238 non-null  float64
 3   EBIT                         28238 non-null  float64
 4   EBITDA                       28238 non-null  float64
 5   Revenue                      28238 non-null  float64
 6   Key_2                        28238 non-null  object 
 7   Cash & Cash Equivalents      28238 non-null  float64
 8   Total Assets                 28238 non-null  float64
 9   Total Liabilities            28238 non-null  float64
 10  Shareholders' Equity         28238 non-null  float64
 11  Total Long-Term Liabilities  28238 non-null  float64
 12  Total Current Liabilities    28238 non-null  float64
 13  Long-Term Debt  

In [None]:
# Verificación de valores NaN en la columna Close

#df_compilado[df_compilado['Close'].isna()].loc[:,['Accion','Date','Key_2', 'Close']]

In [None]:
df_compilado.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 28238 entries, 0 to 28237
Data columns (total 27 columns):
 #   Column                       Non-Null Count  Dtype  
---  ------                       --------------  -----  
 0   Net Income                   28238 non-null  float64
 1   Shares Outstanding (Basic)   28238 non-null  float64
 2   Dividend Per Share           28238 non-null  float64
 3   EBIT                         28238 non-null  float64
 4   EBITDA                       28238 non-null  float64
 5   Revenue                      28238 non-null  float64
 6   Key_2                        28238 non-null  object 
 7   Cash & Cash Equivalents      28238 non-null  float64
 8   Total Assets                 28238 non-null  float64
 9   Total Liabilities            28238 non-null  float64
 10  Shareholders' Equity         28238 non-null  float64
 11  Total Long-Term Liabilities  28238 non-null  float64
 12  Total Current Liabilities    28238 non-null  float64
 13  Long-Term Debt  

In [None]:
df_precios.loc[(df_precios['Accion'] == 'XYL')]

Unnamed: 0,Date,Accion,Close,Key_2,Day,Month
851398,2011-10-13,XYL,20.657164,XYL2011-12,13,10
851399,2011-10-14,XYL,21.594193,XYL2011-12,14,10
851400,2011-10-17,XYL,21.432341,XYL2011-12,17,10
851401,2011-10-18,XYL,21.500492,XYL2011-12,18,10
851402,2011-10-19,XYL,21.083082,XYL2011-12,19,10
...,...,...,...,...,...,...
854344,2023-06-30,XYL,112.620003,XYL2023-6,30,6
854345,2023-07-03,XYL,111.830002,XYL2023-9,3,7
854346,2023-07-05,XYL,110.220001,XYL2023-9,5,7
854347,2023-07-06,XYL,109.540001,XYL2023-9,6,7


Las dos celdas anteriores evidencian que para las fechas obtenidas de las acciones en el dataset final, no hay precio de cierre en estas acciones, por lo cual se eliminarán del dataset final.

In [None]:
# Eliminación de acciones sin valores en Close

df_compilado.dropna(how='any', inplace=True)

In [None]:
# Eliminación de columnas no necesarias

df_compilado.drop(columns=['Date_y', 'Accion_y', 'Month_y', 'Day'], inplace=True)

# Cambio de nombre de las columnas Date y Accion

df_compilado.rename(columns={"Date_x": "Date",
                         "Accion_x": "Accion",
                         "Month_x": "Month"}, inplace=True)

In [None]:
df_compilado.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 27931 entries, 0 to 28236
Data columns (total 23 columns):
 #   Column                       Non-Null Count  Dtype  
---  ------                       --------------  -----  
 0   Net Income                   27931 non-null  float64
 1   Shares Outstanding (Basic)   27931 non-null  float64
 2   Dividend Per Share           27931 non-null  float64
 3   EBIT                         27931 non-null  float64
 4   EBITDA                       27931 non-null  float64
 5   Revenue                      27931 non-null  float64
 6   Key_2                        27931 non-null  object 
 7   Cash & Cash Equivalents      27931 non-null  float64
 8   Total Assets                 27931 non-null  float64
 9   Total Liabilities            27931 non-null  float64
 10  Shareholders' Equity         27931 non-null  float64
 11  Total Long-Term Liabilities  27931 non-null  float64
 12  Total Current Liabilities    27931 non-null  float64
 13  Long-Term Debt  

## Creación de Dataset de KPI
---

Dado que para realizar una evaluación de las empresas necesitamos valores relativos (índices) se creará un dataset que no contenga ningún valor absoluto. Esto con el fin de tener un mejor punto de partida y no caer en el error de comparar empresas de diferentes tamaños sin tener en cuenta los valores relativos.

In [None]:
# Creación del dataframe de KPI

df_kpi = df_compilado.copy()

In [None]:
# Columnas del dataframe de KPI

df_kpi.columns

Index(['Net Income', 'Shares Outstanding (Basic)', 'Dividend Per Share',
       'EBIT', 'EBITDA', 'Revenue', 'Key_2', 'Cash & Cash Equivalents',
       'Total Assets', 'Total Liabilities', 'Shareholders' Equity',
       'Total Long-Term Liabilities', 'Total Current Liabilities',
       'Long-Term Debt', 'Current Debt', 'Net Cash Flow', 'Free Cash Flow',
       'Dividends Paid', 'Date', 'Accion', 'Month', 'Year', 'Close'],
      dtype='object')

### Definición de las Columnas de KPI

A continuación, se definen los índices (Key Performance Indicators) para el dataset de KPI y se eliminarán el resto de columnas.

In [None]:
# Definición de columnas para calcular variables relativas

df_kpi['Entreprice Value'] = (df_kpi['Close'] * df_kpi['Shares Outstanding (Basic)']) + (df_kpi['Long-Term Debt'] + df_kpi['Current Debt']) - df_kpi['Cash & Cash Equivalents']
df_kpi['EV / Free Cashflow'] = df_kpi['Entreprice Value'] / df_kpi['Free Cash Flow']
df_kpi['EV / EBITDA'] = df_kpi['Entreprice Value'] / df_kpi['EBITDA']
df_kpi['EV / Revenue'] = df_kpi['Entreprice Value'] / df_kpi['Revenue']

df_kpi['Earnings per Share'] = (df_kpi['Net Income'] - df_kpi['Dividends Paid']) / df_kpi['Shares Outstanding (Basic)']
df_kpi['Total Liabilities / Total Assets'] = df_kpi['Total Liabilities'] / df_kpi['Total Assets']
df_kpi['Long Term Liabilities / Total Assets'] = df_kpi['Total Long-Term Liabilities'] / df_kpi['Total Assets']
df_kpi['ROIC'] = df_kpi['EBIT'] / ((df_kpi['Long-Term Debt'] + df_kpi['Current Debt']) + df_kpi['Shareholders\' Equity'] - df_kpi['Cash & Cash Equivalents'])
df_kpi['Total Current Liabilities / Total Liabilities'] = df_kpi['Total Current Liabilities'] / df_kpi['Total Liabilities']
df_kpi['ROE'] = df_kpi['Net Income'] / df_kpi['Shareholders\' Equity']
df_kpi['PER'] = df_kpi['Close'] / df_kpi['Earnings per Share']

df_kpi.columns

Index(['Net Income', 'Shares Outstanding (Basic)', 'Dividend Per Share',
       'EBIT', 'EBITDA', 'Revenue', 'Key_2', 'Cash & Cash Equivalents',
       'Total Assets', 'Total Liabilities', 'Shareholders' Equity',
       'Total Long-Term Liabilities', 'Total Current Liabilities',
       'Long-Term Debt', 'Current Debt', 'Net Cash Flow', 'Free Cash Flow',
       'Dividends Paid', 'Date', 'Accion', 'Month', 'Year', 'Close',
       'Entreprice Value', 'EV / Free Cashflow', 'EV / EBITDA', 'EV / Revenue',
       'Earnings per Share', 'Total Liabilities / Total Assets',
       'Long Term Liabilities / Total Assets', 'ROIC',
       'Total Current Liabilities / Total Liabilities', 'ROE', 'PER'],
      dtype='object')

In [None]:
# Lista de los kpi necesarios

kpi_list = ['Date',
            'Month',
            'Accion',
            'EV / Free Cashflow',
            'EV / EBITDA',
            'EV / Revenue',
            'Total Liabilities / Total Assets',
            'Long Term Liabilities / Total Assets',
            'ROIC',
            'Total Current Liabilities / Total Liabilities',
            'ROE',
            'PER']

In [None]:
# Selección de las columnas necesarias

df_kpi = df_kpi[kpi_list]

df_kpi.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 27931 entries, 0 to 28236
Data columns (total 12 columns):
 #   Column                                         Non-Null Count  Dtype  
---  ------                                         --------------  -----  
 0   Date                                           27931 non-null  object 
 1   Month                                          27931 non-null  int64  
 2   Accion                                         27931 non-null  object 
 3   EV / Free Cashflow                             27931 non-null  float64
 4   EV / EBITDA                                    27931 non-null  float64
 5   EV / Revenue                                   27931 non-null  float64
 6   Total Liabilities / Total Assets               27931 non-null  float64
 7   Long Term Liabilities / Total Assets           27931 non-null  float64
 8   ROIC                                           27931 non-null  float64
 9   Total Current Liabilities / Total Liabilities  279

In [None]:
# Visualización de los 5 primeros registros del dataset de kpi

df_kpi.head()

Unnamed: 0,Date,Month,Accion,EV / Free Cashflow,EV / EBITDA,EV / Revenue,Total Liabilities / Total Assets,Long Term Liabilities / Total Assets,ROIC,Total Current Liabilities / Total Liabilities,ROE,PER
0,2023-01-31,1,A,193.295985,84.711388,24.217037,0.486308,0.309003,0.059345,0.364595,0.062756,97.384527
1,2022-10-31,10,A,121.312329,83.22334,24.800465,0.496297,0.319597,0.068081,0.356036,0.069369,102.651304
2,2022-07-31,7,A,154.971508,76.235984,22.009923,0.514403,0.332984,0.060064,0.352679,0.064624,92.015468
3,2022-04-30,4,A,168.533269,84.653179,22.967508,0.510091,0.336681,0.051906,0.339959,0.053495,104.483044
4,2022-01-31,1,A,227.796205,97.164258,24.494216,0.50092,0.347536,0.05055,0.306205,0.054909,113.963344


Una vez creado el dataset final de KPI se crea una celda adicional para poder exportar este dataframe como un archivo csv.

In [None]:
# Exportar archivo csv de datos final

df_kpi.to_csv("df_kpi.csv", index=False)

## Eliminación de Empresas Cíclicas
---
Para la eliminación de empresas cíclica es necesario conocer el sector de cada una de las empresas que están presentes en el dataset final de KPI.

In [None]:
# Creación de una lista con los nombres de las acciones

lista_acciones = df_kpi['Accion'].unique().tolist()

lista_acciones[:5]

['A', 'AAL', 'AAP', 'AAPL', 'ABBV']

In [None]:
# API de yahoo finance

import yfinance as yf

In [None]:
# Creación de una lista con los sectores de cada una de las empresas

sectores = []

for accion in lista_acciones:

  empresa = yf.Ticker(accion)

  try:
    sectores.append(empresa.info['sector'])
  except:
    sectores.append(np.nan)

sectores[:5]

['Healthcare', 'Industrials', 'Consumer Cyclical', 'Technology', 'Healthcare']

In [None]:
# Creación de un dataframe con el nombre de la accion y su respectivo sector

df_sectores = pd.DataFrame(list(zip(lista_acciones, sectores)),
                           columns=['Accion', 'Sector'])

df_sectores.head()

Unnamed: 0,Accion,Sector
0,A,Healthcare
1,AAL,Industrials
2,AAP,Consumer Cyclical
3,AAPL,Technology
4,ABBV,Healthcare


In [None]:
df_sectores.loc[df_sectores['Accion'] == 'AAPL']

Unnamed: 0,Accion,Sector
3,AAPL,Technology


In [None]:
# Sectores únicos de las acciones

df_sectores['Sector'].unique().tolist()

['Healthcare',
 'Industrials',
 'Consumer Cyclical',
 'Technology',
 'Consumer Defensive',
 'Utilities',
 'Financial Services',
 'Basic Materials',
 'Real Estate',
 'Energy',
 'Communication Services',
 nan]

In [None]:
df_kpi.shape

(27931, 12)

In [None]:
df_kpi = df_kpi.merge(df_sectores, on='Accion', how='left')

df_kpi.head()

Unnamed: 0,Date,Month,Accion,EV / Free Cashflow,EV / EBITDA,EV / Revenue,Total Liabilities / Total Assets,Long Term Liabilities / Total Assets,ROIC,Total Current Liabilities / Total Liabilities,ROE,PER,Sector
0,2023-01-31,1,A,193.295985,84.711388,24.217037,0.486308,0.309003,0.059345,0.364595,0.062756,97.384527,Healthcare
1,2022-10-31,10,A,121.312329,83.22334,24.800465,0.496297,0.319597,0.068081,0.356036,0.069369,102.651304,Healthcare
2,2022-07-31,7,A,154.971508,76.235984,22.009923,0.514403,0.332984,0.060064,0.352679,0.064624,92.015468,Healthcare
3,2022-04-30,4,A,168.533269,84.653179,22.967508,0.510091,0.336681,0.051906,0.339959,0.053495,104.483044,Healthcare
4,2022-01-31,1,A,227.796205,97.164258,24.494216,0.50092,0.347536,0.05055,0.306205,0.054909,113.963344,Healthcare


In [None]:
df_kpi.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 27931 entries, 0 to 27930
Data columns (total 13 columns):
 #   Column                                         Non-Null Count  Dtype  
---  ------                                         --------------  -----  
 0   Date                                           27931 non-null  object 
 1   Month                                          27931 non-null  int64  
 2   Accion                                         27931 non-null  object 
 3   EV / Free Cashflow                             27931 non-null  float64
 4   EV / EBITDA                                    27931 non-null  float64
 5   EV / Revenue                                   27931 non-null  float64
 6   Total Liabilities / Total Assets               27931 non-null  float64
 7   Long Term Liabilities / Total Assets           27931 non-null  float64
 8   ROIC                                           27931 non-null  float64
 9   Total Current Liabilities / Total Liabilities  279

In [None]:
# Empresas ciclicas: energía, materias primas, bienes no fundamentales y sevicios financieros

df_kpi.loc[(df_kpi['Sector'] == 'Energy') | \
           (df_kpi['Sector'] == 'Basic Materials') | \
           (df_kpi['Sector'] == 'Consumer Cyclical') | \
           (df_kpi['Sector'] == 'Financial Services')]

Unnamed: 0,Date,Month,Accion,EV / Free Cashflow,EV / EBITDA,EV / Revenue,Total Liabilities / Total Assets,Long Term Liabilities / Total Assets,ROIC,Total Current Liabilities / Total Liabilities,ROE,PER,Sector
132,2022-12-31,12,AAP,82.002241,56.693681,4.856266,0.777153,0.330309,0.023648,0.574976,0.039837,80.891929,Consumer Cyclical
133,2022-07-16,7,AAP,47.092679,47.635862,4.719593,0.769746,0.329655,0.032743,0.571736,0.051668,39.270573,Consumer Cyclical
134,2022-04-23,4,AAP,-80.789249,48.478886,4.045580,0.757577,0.336616,0.031167,0.555668,0.048043,34.868026,Consumer Cyclical
135,2022-01-01,1,AAP,170.777547,86.814142,6.333370,0.743461,0.318644,0.018592,0.571405,0.026107,151.959563,Consumer Cyclical
136,2021-10-09,10,AAP,193.549498,58.385928,6.469202,0.730572,0.312909,0.039965,0.571693,0.053124,61.750753,Consumer Cyclical
...,...,...,...,...,...,...,...,...,...,...,...,...,...
27800,1998-12-26,12,YUM,-555.681122,39.047863,2.433913,1.256676,0.931582,0.030541,0.258693,0.031814,-105.401475,Consumer Cyclical
27801,1998-09-05,9,YUM,46.059194,13.992666,3.660333,1.297877,0.946924,0.169820,0.270406,-0.143273,15.418903,Consumer Cyclical
27802,1998-06-13,6,YUM,45.400707,12.454280,3.600394,1.307517,0.984469,0.169512,0.247070,-0.155556,10.634198,Consumer Cyclical
27803,1998-03-21,3,YUM,inf,24.163454,3.421374,1.326539,1.024460,0.063444,0.227720,-0.033708,43.008511,Consumer Cyclical


### Eliminación de las empresas cíclicas

In [None]:
acciones_a_eliminar = ['Energy', 'Basic Materials', 'Consumer Cyclical', 'Financial Services']

mask = ~df_kpi['Sector'].isin(acciones_a_eliminar)

df_kpi_modelo = df_kpi[mask]

df_kpi_modelo.head()

Unnamed: 0,Date,Month,Accion,EV / Free Cashflow,EV / EBITDA,EV / Revenue,Total Liabilities / Total Assets,Long Term Liabilities / Total Assets,ROIC,Total Current Liabilities / Total Liabilities,ROE,PER,Sector
0,2023-01-31,1,A,193.295985,84.711388,24.217037,0.486308,0.309003,0.059345,0.364595,0.062756,97.384527,Healthcare
1,2022-10-31,10,A,121.312329,83.22334,24.800465,0.496297,0.319597,0.068081,0.356036,0.069369,102.651304,Healthcare
2,2022-07-31,7,A,154.971508,76.235984,22.009923,0.514403,0.332984,0.060064,0.352679,0.064624,92.015468,Healthcare
3,2022-04-30,4,A,168.533269,84.653179,22.967508,0.510091,0.336681,0.051906,0.339959,0.053495,104.483044,Healthcare
4,2022-01-31,1,A,227.796205,97.164258,24.494216,0.50092,0.347536,0.05055,0.306205,0.054909,113.963344,Healthcare


In [None]:
# Acciones sin un sector asignado

df_kpi[df_kpi["Sector"].isna()]['Accion'].unique()

array(['CAT'], dtype=object)

*Caterpillar* es la única acción que no tiene asignado un sector, con una búsqueda rápida puede identificarse que el setor de *Caterpillar* corresponde a `Industrials`.

In [None]:
# Asignación del sector a Caterpillar

df_kpi_modelo.loc[df_kpi_modelo["Accion"] == "CAT", "Sector"] = "Industrials"

In [None]:
df_kpi_modelo.loc[df_kpi_modelo["Accion"] == "CAT"]

Unnamed: 0,Date,Month,Accion,EV / Free Cashflow,EV / EBITDA,EV / Revenue,Total Liabilities / Total Assets,Long Term Liabilities / Total Assets,ROIC,Total Current Liabilities / Total Liabilities,ROE,PER,Sector
3859,2023-03-31,3,CAT,146.711482,44.607024,9.313987,0.782783,0.402121,0.057415,0.486293,0.106935,45.840602,Industrials
3860,2022-12-31,12,CAT,69.548665,55.052045,9.198007,0.806073,0.421281,0.048278,0.477366,0.091498,59.146731,Industrials
3861,2022-09-30,9,CAT,55.721940,35.594374,7.662975,0.806914,0.433621,0.058449,0.462618,0.130649,31.682738,Industrials
3862,2022-06-30,6,CAT,67.276259,44.761495,8.674562,0.805701,0.448605,0.047273,0.443212,0.106162,40.899995,Industrials
3863,2022-03-31,3,CAT,-1513.416320,54.940637,10.802957,0.792199,0.433261,0.043921,0.453091,0.089899,54.288641,Industrials
...,...,...,...,...,...,...,...,...,...,...,...,...,...
3960,1997-12-31,12,CAT,17579.393429,19.597986,3.385210,0.774571,0.482270,0.055886,0.377371,0.096388,17.101826,Industrials
3961,1997-09-30,9,CAT,31.132986,23.281035,4.013448,0.774256,0.459293,0.047447,0.406794,0.082160,21.749188,Industrials
3962,1997-06-30,6,CAT,58.289813,20.274717,3.734378,0.776402,0.454671,0.057532,0.414387,0.096324,20.316513,Industrials
3963,1997-03-31,3,CAT,67.755149,18.100654,3.529245,0.773689,0.447699,0.055150,0.421345,0.090243,16.524773,Industrials


In [None]:
df_kpi_modelo.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 19650 entries, 0 to 27930
Data columns (total 13 columns):
 #   Column                                         Non-Null Count  Dtype  
---  ------                                         --------------  -----  
 0   Date                                           19650 non-null  object 
 1   Month                                          19650 non-null  int64  
 2   Accion                                         19650 non-null  object 
 3   EV / Free Cashflow                             19650 non-null  float64
 4   EV / EBITDA                                    19650 non-null  float64
 5   EV / Revenue                                   19650 non-null  float64
 6   Total Liabilities / Total Assets               19650 non-null  float64
 7   Long Term Liabilities / Total Assets           19650 non-null  float64
 8   ROIC                                           19650 non-null  float64
 9   Total Current Liabilities / Total Liabilities  196

In [None]:
df_kpi_modelo['Year'] = df_kpi_modelo['Date'].apply(lambda x: x.year)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_kpi_modelo['Year'] = df_kpi_modelo['Date'].apply(lambda x: x.year)


In [None]:
# Dataset final de KPI para clusterizacion

df_kpi_modelo.to_csv("df_kpi_modelo.csv", index=False)