# Limpieza de datos

El siguiente archivo muestra el proceso para limpiar un dataset con valores nulos, valores de texto en columnas numéricas, filas duplicadas y las transformaciónes necesarias para realizar una limpieza exitosa.

#### Acerca del conjunto de datos
Este conjunto de datos presenta el desempeño financiero de Deutsche Bank, incluidas métricas clave como el ingreso operativo, el ingreso neto y los indicadores del balance. Abarca 6800 registros a lo largo del tiempo, lo que lo hace adecuado para proyectos de análisis financiero, modelado y aprendizaje automático. El conjunto de datos se puede utilizar para tareas como evaluación del rendimiento, análisis de ratios y previsión.

* Fecha: La fecha correspondiente a cada registro financiero (a partir de enero de 2015).

* Resultado_Operativo: Los ingresos generados por las operaciones comerciales principales del banco.

* Gastos: Costos totales incurridos durante las operaciones.

* Activos: Activos totales propiedad del banco (p. ej., efectivo, inversiones).

* Pasivos: El total de deudas y obligaciones contraídas.

* Patrimonio_Neto: Patrimonio de los accionistas, que representa el valor neto de los activos menos los pasivos.

* Ingresos: Ingresos totales de todas las operaciones y actividades.

* Flujo_efectivo: El efectivo neto generado o utilizado en las operaciones.

* Resultado_Neto: Beneficio después de restar los gastos de los ingresos operativos.

* Ratio_deuda_patrimonio: Relación financiera que muestra la proporción de deuda en comparación con el capital.

* ROA (Return on Assets): Métrica de rentabilidad calculada como el ingreso neto dividido por los activos totales.

* Margen_Utilidad: Un ratio que muestra el porcentaje de ingresos que permanece como beneficio.

* Gastos_Financieros: Costos asociados a los préstamos o deudas del banco.

* Impuestos: El monto pagado como impuestos sobre las ganancias.

* Dividendos: La parte de las ganancias distribuida a los accionistas como dividendos.


### 1. Extracción

In [22]:
# Importar las bibliotecas necesarias

import pandas as pd
import numpy as np

In [23]:
# Importar el conjunto de datos a limpiar
df = pd.read_csv('df_sucio.csv')

### 2. Transformación

#### 2.1 Exploracion del Dataframe

In [24]:
# Visualizar el número de filas y columnas del DataFrame

print(f"El conjunto de datos contiene {df.shape[0]} filas y {df.shape[1]} columnas.")

El conjunto de datos contiene 7033 filas y 15 columnas.


In [25]:
# Contar los valores nulos en cada columna
df.isnull().sum()


Date                  0
Operating_Income    486
Expenses            351
Assets              351
Liabilities         351
Equity              351
Revenue             351
Cash_Flow           351
Net_Income          351
Debt_to_Equity      484
ROA                 351
Profit_Margin       351
Interest_Expense    351
Tax_Expense         482
Dividend_Payout     351
dtype: int64

In [26]:
# Crear una tabla que muestre el porcentaje de valores nulos en cada columna
null_percentage = (df.isnull().sum() / len(df)) * 100
null_percentage = null_percentage[null_percentage > 0].sort_values(ascending=False) # Filtrar solo las columnas con valores nulos 
# y ordenar de mayor a menor

# Mostrar la tabla de porcentaje de valores nulos
null_percentage_table = pd.DataFrame({'% de valores nulos': null_percentage})
print(null_percentage_table)

                  % de valores nulos
Operating_Income            6.910280
Debt_to_Equity              6.881843
Tax_Expense                 6.853405
Liabilities                 4.990758
Assets                      4.990758
Expenses                    4.990758
Revenue                     4.990758
Equity                      4.990758
Net_Income                  4.990758
Cash_Flow                   4.990758
ROA                         4.990758
Profit_Margin               4.990758
Interest_Expense            4.990758
Dividend_Payout             4.990758


In [27]:
# Obtener información general sobre el DataFrame 
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7033 entries, 0 to 7032
Data columns (total 15 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   Date              7033 non-null   object 
 1   Operating_Income  6547 non-null   float64
 2   Expenses          6682 non-null   float64
 3   Assets            6682 non-null   object 
 4   Liabilities       6682 non-null   object 
 5   Equity            6682 non-null   float64
 6   Revenue           6682 non-null   float64
 7   Cash_Flow         6682 non-null   float64
 8   Net_Income        6682 non-null   object 
 9   Debt_to_Equity    6549 non-null   float64
 10  ROA               6682 non-null   float64
 11  Profit_Margin     6682 non-null   float64
 12  Interest_Expense  6682 non-null   object 
 13  Tax_Expense       6551 non-null   float64
 14  Dividend_Payout   6682 non-null   float64
dtypes: float64(10), object(5)
memory usage: 824.3+ KB


In [28]:
# Visualizar el nombre de las columnas (variables)
df.columns

Index(['Date', 'Operating_Income', 'Expenses', 'Assets', 'Liabilities',
       'Equity', 'Revenue', 'Cash_Flow', 'Net_Income', 'Debt_to_Equity', 'ROA',
       'Profit_Margin', 'Interest_Expense', 'Tax_Expense', 'Dividend_Payout'],
      dtype='object')

In [29]:
# Visualizar las estadísticas descriptivas del DataFrame
df.describe()

Unnamed: 0,Operating_Income,Expenses,Equity,Revenue,Cash_Flow,Debt_to_Equity,ROA,Profit_Margin,Tax_Expense,Dividend_Payout
count,6547.0,6682.0,6682.0,6682.0,6682.0,6549.0,6682.0,6682.0,6551.0,6682.0
mean,5480086.0,2750231.0,54498510.0,8437142.0,4228204.0,5.450289,0.013589,0.433249,765988.2,1483747.0
std,2628738.0,1323608.0,25908290.0,3720943.0,2143893.0,5.244191,0.020944,0.613714,418386.1,831743.9
min,1045554.0,520844.1,10058810.0,2000399.0,507075.6,0.24,-0.04,-1.53,50349.46,101164.5
25%,3181688.0,1548318.0,31098300.0,5209141.0,2450360.0,2.06,0.0,0.06,399804.3,747440.7
50%,5568493.0,2834771.0,54045330.0,8574058.0,4119509.0,3.88,0.01,0.33,750370.5,1462946.0
75%,7755533.0,3845787.0,77523920.0,11546750.0,6061746.0,6.9,0.02,0.63,1147344.0,2153049.0
max,9997459.0,4997362.0,99960190.0,14970740.0,7990947.0,35.45,0.13,3.59,1498851.0,2996824.0


In [30]:
# Visualizar cuantas filas hay duplicadas
df.duplicated().sum()

np.int64(33)

In [31]:
# Contar las ocurrencias de cada fecha
conteo_fechas = df['Date'].value_counts()

# Filtrar para mostrar solo las fechas que aparecen más de una vez
fechas_duplicadas = conteo_fechas[conteo_fechas > 1]

print("Fechas duplicadas y su frecuencia:")
print(fechas_duplicadas)

Fechas duplicadas y su frecuencia:
Date
2020-04-28    3
2021-05-23    3
2027-08-25    3
2030-10-01    3
2015-01-03    2
             ..
2032-10-18    2
2032-11-04    2
2032-12-24    2
2033-04-15    2
2033-04-26    2
Name: count, Length: 229, dtype: int64


In [32]:
# Crear un filtro booleano para las filas donde la fecha está duplicada
filtro_fechas_dup = df['Date'].duplicated(keep=False)

# Aplicar el filtro para ver todas las filas involucradas
filas_con_fechas_duplicadas = df[filtro_fechas_dup]

print("Filas completas que tienen fechas duplicadas:")
print(filas_con_fechas_duplicadas.sort_values(by='Date'))

Filas completas que tienen fechas duplicadas:
            Date  Operating_Income    Expenses       Assets  Liabilities  \
2     2015-01-03        7587945.48  3093297.62  151995381.0  175658980.1   
6830  2015-01-03        7587945.48  3093297.62  151995381.0  175658980.1   
9     2015-01-10        7372653.20  1009571.21  293005361.6  192520616.1   
6845  2015-01-10        7372653.20  1009571.21  293005361.6  192520616.1   
6932  2015-01-18        5722807.88         NaN  347827635.4  34818484.78   
...          ...               ...         ...          ...          ...   
6842  2032-12-24        6179267.60   631612.77  403543228.1  43637225.94   
6865  2033-04-15        2365073.92  2090396.21  55267974.83  188689392.7   
6679  2033-04-15        2365073.92  2090396.21  55267974.83  188689392.7   
6855  2033-04-26        6971515.92         NaN  133338005.5  124944432.0   
6690  2033-04-26        6971515.92  4321380.43  133338005.5  124944432.0   

           Equity      Revenue   Cash_Flo

In [33]:
# Visualizar cuántos valores únicos hay en cada columna
valores_unicos = df.nunique()
print("Número de valores únicos en cada columna:")
print(valores_unicos)

Número de valores únicos en cada columna:
Date                6800
Operating_Income     800
Expenses             800
Assets               801
Liabilities          801
Equity               800
Revenue              800
Cash_Flow            800
Net_Income           801
Debt_to_Equity       568
ROA                   18
Profit_Margin        230
Interest_Expense     801
Tax_Expense          800
Dividend_Payout      800
dtype: int64


#### 2.2 Transformación

#### 2.2.1. Eliminar filas duplicadas

In [34]:
# Elimivar filas duplicadas basadas en la columna 'Date', manteniendo la primera ocurrencia con Keep='first'
df2 = df.drop_duplicates(subset=['Date'], keep='first')

In [35]:
# Verificar si aún hay filas hay duplicadas
df2.duplicated().sum()

np.int64(0)

In [36]:
# Verificar el número de columnas y filas después de eliminar duplicados

print(f"El conjunto de datos contiene {df2.shape[0]} filas y {df2.shape[1]} columnas.")

El conjunto de datos contiene 6800 filas y 15 columnas.


#### 2.2.2 Coercionar las filas a formato numérico y sustituir los valores de texto por el valor promedio de la columna

In [43]:
# Crear lista de columnas de formato 'object' (contienen texto) pero deberían ser numéricas (float)
columnas = ['Assets', 'Liabilities', 'Net_Income', 'Interest_Expense']

# Iterar sobre cada columna para limpiarla
for col in columnas:
    # Forzar la conversión a número. Los valores que no se puedan convertir
    # se transformarán en NaN.
    df2.loc[:, col] = pd.to_numeric(df2[col], errors='coerce') # errors='coerce' convierte errores en NaN
    
    # Calcular el promedio de la columna (ignora los NaN automáticamente)
    mean_value = df2[col].mean()
    
    # Rellenar los valores NaN con el promedio calculado
    df2.loc[:, col] = df2[col].fillna(mean_value)

In [38]:
# Verificar los tipos de datos después de la conversión
df2.info()

<class 'pandas.core.frame.DataFrame'>
Index: 6800 entries, 0 to 6799
Data columns (total 15 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   Date              6800 non-null   object 
 1   Operating_Income  6332 non-null   float64
 2   Expenses          6466 non-null   float64
 3   Assets            6800 non-null   float64
 4   Liabilities       6800 non-null   float64
 5   Equity            6465 non-null   float64
 6   Revenue           6463 non-null   float64
 7   Cash_Flow         6454 non-null   float64
 8   Net_Income        6800 non-null   float64
 9   Debt_to_Equity    6333 non-null   float64
 10  ROA               6459 non-null   float64
 11  Profit_Margin     6465 non-null   float64
 12  Interest_Expense  6800 non-null   float64
 13  Tax_Expense       6334 non-null   float64
 14  Dividend_Payout   6461 non-null   float64
dtypes: float64(14), object(1)
memory usage: 850.0+ KB


#### 2.2.3 Convertir la columna "Date" a formato datetime


In [40]:
# Convertir la columna de fecha al tipo datetime
df2.loc[:, 'Date'] = df2['Date'].astype('datetime64[ns]')

In [41]:
# Verificar los tipos de datos después de la conversión
df2.info()

<class 'pandas.core.frame.DataFrame'>
Index: 6800 entries, 0 to 6799
Data columns (total 15 columns):
 #   Column            Non-Null Count  Dtype         
---  ------            --------------  -----         
 0   Date              6800 non-null   datetime64[ns]
 1   Operating_Income  6332 non-null   float64       
 2   Expenses          6466 non-null   float64       
 3   Assets            6800 non-null   float64       
 4   Liabilities       6800 non-null   float64       
 5   Equity            6465 non-null   float64       
 6   Revenue           6463 non-null   float64       
 7   Cash_Flow         6454 non-null   float64       
 8   Net_Income        6800 non-null   float64       
 9   Debt_to_Equity    6333 non-null   float64       
 10  ROA               6459 non-null   float64       
 11  Profit_Margin     6465 non-null   float64       
 12  Interest_Expense  6800 non-null   float64       
 13  Tax_Expense       6334 non-null   float64       
 14  Dividend_Payout   6461 non-nu

#### 2.2.4 Sustituir los valores nulos por el valor promedio de la columna

In [None]:
# Crear lista de columnas
lista_col=df.columns

# Iterar sobre cada columna para limpiarla
for col in lista_col:    
    # Calcular el promedio de la columna
    mean_value = df2[col].mean()
    
    # Rellenar los valores NaN con el promedio calculado
    df2[col].fillna(mean_value, inplace=True)

In [60]:
# Verificar si aún hay valores nulos
df2.isnull().sum()

Date                0
Operating_Income    0
Expenses            0
Assets              0
Liabilities         0
Equity              0
Revenue             0
Cash_Flow           0
Net_Income          0
Debt_to_Equity      0
ROA                 0
Profit_Margin       0
Interest_Expense    0
Tax_Expense         0
Dividend_Payout     0
dtype: int64

#### 2.2.5 Traducir los nombres de las columnas al Español

In [61]:
df.columns

Index(['Date', 'Operating_Income', 'Expenses', 'Assets', 'Liabilities',
       'Equity', 'Revenue', 'Cash_Flow', 'Net_Income', 'Debt_to_Equity', 'ROA',
       'Profit_Margin', 'Interest_Expense', 'Tax_Expense', 'Dividend_Payout'],
      dtype='object')

In [None]:
# Traducir los nombres de las columnas al español
df2=df2.rename(columns={'Date': 'Fecha','Operating_Income': 'Resultado_Operativo','Expenses':'Gastos','Assets':'Activos',
                      'Liabilities':'Pasivos', 'Equity':'Patrimonio_Neto','Revenue':'Ingresos',
                      'Cash_Flow':'Flujo_efectivo','Net_Income':'Resultado_Neto','Debt_to_Equity':'Ratio_deuda_patrimonio',
                      'Profit_Margin':'Margen_Utilidad','Interest_Expense':'Gastos_Financieros',
                      'Tax_Expense':'Impuestos','Dividend_Payout':'Dividendos'})

# Visualoizar los nombres de las columnas después del cambio
df2

Unnamed: 0,Fecha,Resultado_Operativo,Gastos,Activos,Pasivos,Patrimonio_Neto,Ingresos,Flujo_efectivo,Resultado_Neto,Ratio_deuda_patrimonio,ROA,Margen_Utilidad,Gastos_Financieros,Impuestos,Dividendos
0,2015-01-01,4.370861e+06,3682573.85,1.363403e+08,2.095012e+08,5.980341e+07,9.435946e+06,1428845.20,688287.22,2.50,0.01,0.07,609472.14,1.042103e+06,1170151.42
1,2015-01-02,9.556429e+06,1186425.69,1.955172e+08,4.725052e+07,5.528192e+07,8.435807e+06,1029017.28,8370003.06,0.85,0.04,0.67,699770.11,1.329540e+06,492998.93
2,2015-01-03,7.587945e+06,3093297.62,1.519954e+08,1.756590e+08,5.442243e+07,8.435807e+06,7320721.28,4494647.86,6.40,0.03,0.38,337977.34,7.660759e+05,1603358.92
3,2015-01-04,5.483306e+06,3230217.71,2.097483e+08,1.382626e+08,8.729351e+07,4.000699e+06,1925965.75,3157708.65,1.58,0.02,0.79,1345468.95,1.316374e+06,426566.77
4,2015-01-05,2.404168e+06,2408588.02,8.124073e+07,2.773058e+08,7.092467e+07,3.940243e+06,6659376.16,-4420.26,3.91,0.00,0.00,175614.54,1.366553e+05,2808563.51
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6795,2033-08-09,1.228157e+06,1507179.27,4.983505e+08,1.522763e+08,9.778088e+07,3.616496e+06,5005941.12,-279022.58,1.56,0.00,-0.08,1449801.45,1.077905e+06,165448.89
6796,2033-08-10,6.086199e+06,857387.16,6.145149e+07,3.530014e+08,5.442243e+07,1.218110e+07,5618837.98,5228811.49,7.76,0.09,0.43,726107.79,1.160928e+06,1420453.37
6797,2033-08-11,5.217946e+06,2712175.46,2.352945e+08,3.479339e+07,5.595227e+07,3.819836e+06,4622879.41,2505770.32,0.62,0.01,0.66,1031593.73,4.490258e+05,2041217.73
6798,2033-08-12,6.680248e+06,4230119.63,1.817699e+08,1.673065e+08,6.282429e+07,4.469170e+06,1409772.49,2450128.00,2.66,0.01,0.55,1116118.99,1.064315e+06,2030774.76


In [63]:
# Visualizar todo el DataFrame limpio
df2.info()

<class 'pandas.core.frame.DataFrame'>
Index: 6800 entries, 0 to 6799
Data columns (total 15 columns):
 #   Column                  Non-Null Count  Dtype         
---  ------                  --------------  -----         
 0   Fecha                   6800 non-null   datetime64[ns]
 1   Resultado_Operativo     6800 non-null   float64       
 2   Gastos                  6800 non-null   float64       
 3   Activos                 6800 non-null   float64       
 4   Pasivos                 6800 non-null   float64       
 5   Patrimonio_Neto         6800 non-null   float64       
 6   Ingresos                6800 non-null   float64       
 7   Flujo_efectivo          6800 non-null   float64       
 8   Resultado_Neto          6800 non-null   float64       
 9   Ratio_deuda_patrimonio  6800 non-null   float64       
 10  ROA                     6800 non-null   float64       
 11  Margen_Utilidad         6800 non-null   float64       
 12  Gastos_Financieros      6800 non-null   float64      

#### 2.2.6 Tratamiento de valores atípicos

In [None]:
# Revisar los valores atípicos en cada columna
for col in df2.select_dtypes(include=[np.number]).columns:
    Q1 = df2[col].quantile(0.25)
    Q3 = df2[col].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    outliers = df2[(df2[col] < lower_bound) | (df2[col] > upper_bound)]
    print(f"Columna: {col}, Número de valores atípicos: {outliers.shape[0]}")

Los valores atípicos son casos de estudio dentro del dataset, ya que podría representar eventos realees o excepcionales que podrian indicar información valiosa. Por lo que, en el análisis se estará realizando el tratamiento específicos a estos valores.

### 3. Carga del Dataframe

Exportar el dataframe limpio a formato csv para su análisis.

In [65]:
# Guardar el DataFrame limpio en un nuevo archivo CSV
df2.to_csv('df_deutsche_bank.csv', index=False) 


# Conclusiones
El proceso de limpieza del dataset fue riguroso ya que existían valores nulos, texto en columnas, filas duplicadas y valores nulos.
Con un análisis exploratorio previo se pudo localizar todos estos hallazgos, lo que me permiti+o tener claridad de los pasos a seguir para realizar una limpieza exitosa. 
Las técnicas usadas para realizar la limpieza fueron: 
1. Eliminar filas duplicadas con "drop_duplicates"
2. Coercionar las filas a formato numérico (a excepción de la columan "Date")
3. Sustituir los valores de texto por el valor promedio de la columna
4. Sustituir los valores nulos por el valor promedio de la columna
5. Traducir los nombres de las columnas al español
6. Visualizar los outliers para su tratamiento en la fase de análisis

Durante el proceso aprendí a realizar una limpieza ordenada y estructurada que me permitió diseñar el proceso a seguir para lograr limpiar el dataset de manera correcta y lista para su análisis.
