# Expansión de dataset original

In [54]:
# Importar las bibliotecas necesarias

import pandas as pd
import numpy as np

In [None]:
# Cargar el dataFrame original

df_original = pd.read_csv("deutsche_bank_financial_performance.csv")

### Análisis Exploratorio

In [None]:
# Análisis Exploratorio

print(f"Número de filas: {len(df_original)}")
print("Exploración:")
print(df_original.head())


Número de filas inicial: 800
Vista previa del DataFrame original:
       Date  Operating_Income    Expenses        Assets   Liabilities  \
0  1/1/2015        4370861.07  3682573.85  1.363403e+08  1.494296e+08   
1  1/2/2015        9556428.76  1186425.69  1.955172e+08  4.725052e+07   
2  1/3/2015        7587945.48  3093297.62  1.519954e+08  1.756590e+08   
3  1/4/2015        6387926.36  3230217.71  2.097483e+08  1.382626e+08   
4  1/5/2015        2404167.76  2408588.02  8.124073e+07  2.773058e+08   

        Equity      Revenue   Cash_Flow  Net_Income  Debt_to_Equity   ROA  \
0  59803407.08   9435946.42  1428845.20   688287.22            2.50  0.01   
1  55281922.53  12470620.28  1029017.28  8370003.06            0.85  0.04   
2  27447676.11  11882092.09  7320721.28  4494647.86            6.40  0.03   
3  87293509.41   4000698.76  1925965.75  3157708.65            1.58  0.02   
4  70924670.47   3940243.11  6659376.16    -4420.26            3.91  0.00   

   Profit_Margin  Interest_Expen

In [71]:
df_original.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 800 entries, 0 to 799
Data columns (total 15 columns):
 #   Column            Non-Null Count  Dtype         
---  ------            --------------  -----         
 0   Date              800 non-null    datetime64[ns]
 1   Operating_Income  800 non-null    float64       
 2   Expenses          800 non-null    float64       
 3   Assets            800 non-null    float64       
 4   Liabilities       800 non-null    float64       
 5   Equity            800 non-null    float64       
 6   Revenue           800 non-null    float64       
 7   Cash_Flow         800 non-null    float64       
 8   Net_Income        800 non-null    float64       
 9   Debt_to_Equity    800 non-null    float64       
 10  ROA               800 non-null    float64       
 11  Profit_Margin     800 non-null    float64       
 12  Interest_Expense  800 non-null    float64       
 13  Tax_Expense       800 non-null    float64       
 14  Dividend_Payout   800 non-

### Creación de nuevas filas

In [None]:
#1. Convertir la columna de fecha al tipo datetime
df_original['Date'] = pd.to_datetime(df_original['Date'])

In [None]:
# 2. Definir cuántas filas nuevas generar
filas_nuevas = 6000

In [None]:
# 3. Generar las nuevas fechas de forma secuencial
# Obtenemos la última fecha del dataset original
ultima_fecha = df_original['Date'].max()

In [None]:
# Creamos un rango de fechas que empieza el día siguiente a la última fecha del df_original
nuevas_fechas = pd.date_range(
    start=ultima_fecha + pd.Timedelta(days=1),
    periods=filas_nuevas,
    freq='D' # Frecuencia diaria
)

In [None]:
# 4. Generar los nuevos datos para las otras columnas mediante muestreo
# Seleccionamos todas las columnas excepto 'date'
columnas_a_muestrear = df_original.columns.drop('Date')

# Creamos una muestra aleatoria de las otras columnas
nuevos_datos_otras_columnas = df_original[columnas_a_muestrear].sample(
    n=filas_nuevas,
    replace=True,         # Permitir que se repitan las combinaciones de datos
    random_state=42       # Para reproducibilidad
).reset_index(drop=True)  # Reiniciar el índice para unir ambos dataframes posteriormente

In [None]:
# 5. Crear el nuevo dataFrame combinando las fechas y los datos
df_nuevas_filas = pd.DataFrame(nuevos_datos_otras_columnas)
df_nuevas_filas['Date'] = nuevas_fechas

In [None]:
# 6. Unir el DataFrame original con las nuevas filas generadas
df_final = pd.concat([df_original, df_nuevas_filas], 
                     ignore_index=True) # Ignorar la columna de índice.

In [None]:
# 7. Verificar los cambios
print(f"Filas generadas: {len(df_nuevas_filas)}")
print(f"Número total de filas final: {len(df_final)}")
print(f"Primera fecha nueva generada: {df_final.iloc[800]['Date'].date()}")
print(f"Última fecha del dataset final: {df_final['Date'].max().date()}")

Filas generadas: 6000
Número total de filas final: 6800
Primera fecha nueva generada: 2017-03-11
Última fecha del dataset final: 2033-08-13


In [None]:
# Comprobar si todas las fechas son únicas
fechas_unicas = df_final['Date'].is_unique
print(f"\n¿Son todas las fechas únicas? {fechas_unicas}")

print("\nVista de la transición entre datos originales y generados:")
print(df_final.iloc[798:802])


¿Son todas las fechas únicas? True

Vista de la transición entre datos originales y generados:
          Date  Operating_Income    Expenses       Assets   Liabilities  \
798 2017-03-09        7269857.41   885462.12  340620073.8  5.897583e+07   
799 2017-03-10        9302494.43  4523858.94  336606042.9  1.692377e+08   
800 2017-03-11        3829203.83  1316459.46  190317259.9  2.379410e+08   
801 2017-03-12        7308722.18  2158368.55  207277867.4  3.694218e+08   

          Equity      Revenue   Cash_Flow  Net_Income  Debt_to_Equity   ROA  \
798  57694652.82   3592472.21  5466741.19  6384395.29            1.02  0.02   
799  24523062.25  10253786.57  5864917.33  4778635.49            6.90  0.01   
800  60315335.65   9125887.64  1424355.94  2512744.37            3.94  0.01   
801  53751743.67   5647810.57   555147.83  5150353.64            6.87  0.02   

     Profit_Margin  Interest_Expense  Tax_Expense  Dividend_Payout  
798           1.78         937145.92   1402043.77       2734468

### Exportar a formato csv el nuevo dataframe

In [None]:
# Nombre del nuevo archivo CSV
nombre_archivo = 'deutsche_bank.csv'


# Exportar a formato csv el nuevo dataframe
df_final.to_csv(nombre_archivo, index=False)