In [169]:
# Pandas
import pandas as pd
pd.set_option('display.max_columns', 25) # Número máximo de columnas a mostrar
pd.set_option('display.max_rows', 50) # Numero máximo de filas a mostar

# Numpy
import numpy as np
np.random.seed(3301)

# Seaborn
import seaborn as sns 

# Matplolib
%matplotlib inline
import matplotlib.pyplot as plt

# Lectura de datos
db_route = "data/datos_originales.csv"
df = pd.read_csv(db_route, sep=';')
df.shape

(1068, 20)

In [170]:
print("Número de filas: ", df.shape[0])
print("Número de columnas: ", df.shape[1])
print("Número de columnas y sus tipos de datos: \n")
print(df.dtypes)

Número de filas:  1068
Número de columnas:  20
Número de columnas y sus tipos de datos: 

No.                                  int64
NIT                                  int64
RAZON SOCIAL                        object
SUPERVISOR                          object
REGIÓN                              object
DEPARTAMENTO DOMICILIO              object
CIUDAD DOMICILIO                    object
CIIU                                object
MACROSECTOR                         object
INGRESOS OPERACIONALES\r\n2018*     object
GANANCIA (PERDIDA) 2018             object
TOTAL ACTIVOS 2018                  object
TOTAL PASIVOS 2018                  object
TOTAL PATRIMONIO 2018               object
INGRESOS OPERACIONALES\r\n2017*     object
GANANCIA (PERDIDA) 2017            float64
TOTAL ACTIVOS 2017                  object
TOTAL PASIVOS 2017                  object
TOTAL PATRIMONIO 2017               object
GRUPO EN NIIF                       object
dtype: object


In [171]:
print("Variables numéricas: \n")
df.describe()

Variables numéricas: 



Unnamed: 0,No.,NIT,GANANCIA (PERDIDA) 2017
count,1068.0,1068.0,1067.0
mean,534.5,859069900.0,114744100.0
std,308.449348,37823540.0,5226753000.0
min,1.0,800000300.0,-79779970000.0
25%,267.75,830011300.0,2899945.0
50%,534.5,860059000.0,50239170.0
75%,801.25,891085100.0,191586300.0
max,1068.0,901097500.0,66204120000.0


In [172]:
# Ver datos núlos
print("\nNúmero de filas con valores nulos: ", df.isnull().any(axis=1).sum())
print("Número de columnas con valores nulos: ", df.isnull().any().sum())
print("Lista de columnas con valores núlos y sus tipos: \n", df.isnull().any()[df.isnull().any() == True])

# Porcentaje de completitud
print(f"\nPorcentaje de completitud de las columnas: {(1-(df.isnull().any(axis=1).sum()/df.shape[0]))*100:.2f}%")


Número de filas con valores nulos:  30
Número de columnas con valores nulos:  13
Lista de columnas con valores núlos y sus tipos: 
 REGIÓN                             True
DEPARTAMENTO DOMICILIO             True
CIUDAD DOMICILIO                   True
CIIU                               True
MACROSECTOR                        True
INGRESOS OPERACIONALES\r\n2018*    True
GANANCIA (PERDIDA) 2018            True
TOTAL ACTIVOS 2018                 True
TOTAL PASIVOS 2018                 True
TOTAL PATRIMONIO 2018              True
INGRESOS OPERACIONALES\r\n2017*    True
GANANCIA (PERDIDA) 2017            True
TOTAL ACTIVOS 2017                 True
dtype: bool

Porcentaje de completitud de las columnas: 97.19%


In [173]:
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1068 entries, 0 to 1067
Data columns (total 20 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   No.                            1068 non-null   int64  
 1   NIT                            1068 non-null   int64  
 2   RAZON SOCIAL                   1068 non-null   object 
 3   SUPERVISOR                     1068 non-null   object 
 4   REGIÓN                         1067 non-null   object 
 5   DEPARTAMENTO DOMICILIO         1063 non-null   object 
 6   CIUDAD DOMICILIO               1064 non-null   object 
 7   CIIU                           1067 non-null   object 
 8   MACROSECTOR                    1065 non-null   object 
 9   INGRESOS OPERACIONALES
2018*  1067 non-null   object 
 10  GANANCIA (PERDIDA) 2018        1067 non-null   object 
 11  TOTAL ACTIVOS 2018             1066 non-null   object 
 12  TOTAL PASIVOS 2018             1066 non-null   ob

In [174]:
# Ver duplicidad de datos
print("\nNúmero de filas duplicadas: ", df.duplicated().sum())
print("Número de filas con indice duplicado: ", df['NIT'].duplicated().sum())


Número de filas duplicadas:  0
Número de filas con indice duplicado:  68


In [175]:
df.sample(5)

Unnamed: 0,No.,NIT,RAZON SOCIAL,SUPERVISOR,REGIÓN,DEPARTAMENTO DOMICILIO,CIUDAD DOMICILIO,CIIU,MACROSECTOR,INGRESOS OPERACIONALES\r\n2018*,GANANCIA (PERDIDA) 2018,TOTAL ACTIVOS 2018,TOTAL PASIVOS 2018,TOTAL PATRIMONIO 2018,INGRESOS OPERACIONALES\r\n2017*,GANANCIA (PERDIDA) 2017,TOTAL ACTIVOS 2017,TOTAL PASIVOS 2017,TOTAL PATRIMONIO 2017,GRUPO EN NIIF
318,319,800052534,DISTRIBUCIONES AXA SAS,SUPERSOCIEDADES,Bogotá - Cundinamarca,BOGOTA D.C.,BOGOTA-D.C.-BOGOTA D.C.,G4645 - Comercio al por mayor de productos far...,COMERCIO,2431623100,60163750,787302360,564013370,223288990,2199907330,43110390.0,721060330,$ 530920370,190139960,NIIF PYMES-GRUPO 2
1063,1064,900292211,REFINADORA NACIONAL DE ACEITES Y GRASAS SAS,SUPERSOCIEDADES,Costa Pacífica,VALLE,CANDELARIA-VALLE,C1030 - Elaboración de aceites y grasas de ori...,MANUFACTURA,1386316790,22151990,501416690,274589220,226827470,1189202740,6154480.0,646611960,$ 396936480,249675480,NIIF PLENAS-GRUPO 1
1065,1066,860058831,avicola los cambulos sa.,SUPERSOCIEDADES,Bogotá - Cundinamarca,BOGOTA D.C.,BOGOTA-D.C.-BOGOTA D.C.,A0145 - Cría de aves de corral,AGROPECUARIO,2485960390,18906280,780480300,505029030,275451270,2209342160,15342020.0,755261660,$ 487229570,268032090,NIIF PYMES-GRUPO 2
614,615,830131993,EFECTIVO LTDA,SUPERSOCIEDADES,Bogotá - Cundinamarca,BOGOTA D.C.,BOGOTA-D.C.-BOGOTA D.C.,H5229 - Otras actividades complementarias al t...,SERVICIOS,5200510120,483527130,3293350180,1985023190,1308326990,5166809290,374284980.0,3292129500,$ 2290473160,1001656340,NIIF PYMES-GRUPO 2
652,653,900818642,CONSTRUCCIONES COLOMBIANAS OHL SAS,SUPERSOCIEDADES,Bogotá - Cundinamarca,BOGOTA D.C.,BOGOTA-D.C.-BOGOTA D.C.,F4210 - Construcción de carreteras y vías de f...,CONSTRUCCIÓN,1448136230,-893997020,1996355320,1986833700,9521620,1980487340,141749450.0,1455661690,$ 1242144700,213516990,NIIF PLENAS-GRUPO 1


## Razon Social, NIT y No.

In [176]:
# Como se encontraron duplicados en la variable NIT, se procede a eliminarlos
df.drop_duplicates(subset='NIT', inplace=True)
print("Número de filas: ", df.shape[0])

# Se elimina la columna 'Razon social' y 'No.' ya que no aportan información relevante
df = df.drop(['RAZON SOCIAL', 'No.', 'NIT'], axis=1)

Número de filas:  1000


## Supervisor

In [177]:
# Dar valores únicos de columna supervisor
df['SUPERVISOR'].value_counts(dropna=False)

SUPERSOCIEDADES    892
SUPERSALUD          42
SUPERFINANCIERA     38
SUPERSERVICIOS      16
SUPERVIGILANCIA      8
SUPERSUCIEDADES      4
Name: SUPERVISOR, dtype: int64

In [178]:
# En la coluna 'SUPERVISOR' se reemplazan los valores 'SUPERSUCIEDADES' por 'SUPERSOCIEDADES'
df['SUPERVISOR'] = df['SUPERVISOR'].replace('SUPERSUCIEDADES', 'SUPERSOCIEDADES')
# One hot encoder para la columna supervisor
from random import sample


df = pd.get_dummies(df, columns=['SUPERVISOR'], prefix=['SUPERVISOR'])
df.sample(5)

Unnamed: 0,REGIÓN,DEPARTAMENTO DOMICILIO,CIUDAD DOMICILIO,CIIU,MACROSECTOR,INGRESOS OPERACIONALES\r\n2018*,GANANCIA (PERDIDA) 2018,TOTAL ACTIVOS 2018,TOTAL PASIVOS 2018,TOTAL PATRIMONIO 2018,INGRESOS OPERACIONALES\r\n2017*,GANANCIA (PERDIDA) 2017,TOTAL ACTIVOS 2017,TOTAL PASIVOS 2017,TOTAL PATRIMONIO 2017,GRUPO EN NIIF,SUPERVISOR_SUPERFINANCIERA,SUPERVISOR_SUPERSALUD,SUPERVISOR_SUPERSERVICIOS,SUPERVISOR_SUPERSOCIEDADES,SUPERVISOR_SUPERVIGILANCIA
984,Costa Atlántica,ATLANTICO,BARRANQUILLA-ATLANTICO,H4930 - Transporte por tuberías,SERVICIOS,11975174030,7254085770,63558409630,31429655390,32128754240,10121527250,6488579000.0,59315353430,$ 29690891160,29624462270,NIIF PLENAS-GRUPO 1,0,0,1,0,0
260,Centro - Oriente,SANTANDER,BUCARAMANGA-SANTANDER,N7820 - Actividades de agencias de empleo temp...,SERVICIOS,1652314330,14094320,308170510,183853070,124317440,1600648680,16003040.0,283427790,$ 165636120,117791670,NIIF PYMES-GRUPO 2,0,0,0,1,0
99,Antioquia,ANTIOQUIA,MEDELLIN-ANTIOQUIA,G4511 - Comercio de vehículos automotores nuevos,COMERCIO,1581724850,17603060,367394080,314842270,52551810,1356034030,4054880.0,418582150,$ 383633400,34948750,NIIF PYMES-GRUPO 2,0,0,0,1,0
456,Antioquia,ANTIOQUIA,ENVIGADO-ANTIOQUIA,G4711 - Comercio al por menor en establecimien...,COMERCIO,2268837740,194230,783256220,668218910,115037310,1733342180,-1486690.0,548145670,$ 433302600,114843070,NIIF PYMES-GRUPO 2,0,0,0,1,0
113,Costa Pacífica,CAUCA,PUERTO-TEJADA-CAUCA,C1709 - Fabricación de otros artículos de pape...,MANUFACTURA,3476583450,181802660,3751856300,1014275330,2737580970,2933234810,152317400.0,4100643480,$ 1346864930,2753778550,NIIF PLENAS-GRUPO 1,0,0,0,1,0


## Región

In [179]:
# Dar valores únicos de columna región
df['REGIÓN'].value_counts(dropna=False)

Bogotá - Cundinamarca    555
Antioquia                161
Costa Pacífica           126
Costa Atlántica           94
Centro - Oriente          30
Eje Cafetero              22
Otros                      7
Costa Atlantica            4
NaN                        1
Name: REGIÓN, dtype: int64

In [180]:
# Se cambian valores núlos de la columna 'REGIÓN' por la moda
df['REGIÓN'] = df['REGIÓN'].fillna(df['REGIÓN'].mode()[0])

# En la columna 'REGIÓN' se reemplazan los valores 'Costa Atlántica' por 'Costa Atlantica'
df['REGIÓN'] = df['REGIÓN'].replace('Costa Atlántica', 'Costa Atlantica')

# En la columna región, dados los pocos valores para 'Eje Cafetero' y 'Centro - Oriente', se agrupan en una nueva categoría 'Otros'
df['REGIÓN'] = df['REGIÓN'].replace(['Eje Cafetero', 'Centro - Oriente'], 'Otros')

# Dar valores únicos de columna región
df['REGIÓN'].value_counts(dropna=False)

Bogotá - Cundinamarca    556
Antioquia                161
Costa Pacífica           126
Costa Atlantica           98
Otros                     59
Name: REGIÓN, dtype: int64

In [181]:
# One hot encoder para la columna región
df = pd.get_dummies(df, columns=['REGIÓN'], prefix=['REGION'])
df.sample(5)

Unnamed: 0,DEPARTAMENTO DOMICILIO,CIUDAD DOMICILIO,CIIU,MACROSECTOR,INGRESOS OPERACIONALES\r\n2018*,GANANCIA (PERDIDA) 2018,TOTAL ACTIVOS 2018,TOTAL PASIVOS 2018,TOTAL PATRIMONIO 2018,INGRESOS OPERACIONALES\r\n2017*,GANANCIA (PERDIDA) 2017,TOTAL ACTIVOS 2017,TOTAL PASIVOS 2017,TOTAL PATRIMONIO 2017,GRUPO EN NIIF,SUPERVISOR_SUPERFINANCIERA,SUPERVISOR_SUPERSALUD,SUPERVISOR_SUPERSERVICIOS,SUPERVISOR_SUPERSOCIEDADES,SUPERVISOR_SUPERVIGILANCIA,REGION_Antioquia,REGION_Bogotá - Cundinamarca,REGION_Costa Atlantica,REGION_Costa Pacífica,REGION_Otros
219,CORDOBA,CIENAGA-DE-ORO-CORDOBA,C1011 - Procesamiento y conservación de carne ...,MANUFACTURA,3720462540,59078120,1841074840,432262270,1408812570,3591680010,-57876990.0,1706871000,$ 357136550,1349734450,NIIF PLENAS-GRUPO 1,0,0,0,1,0,0,0,1,0,0
153,ANTIOQUIA,MEDELLIN-ANTIOQUIA,G4632 - Comercio al por mayor de bebidas y tabaco,COMERCIO,3012803520,22869980,1934777480,1542020370,392757110,3035006120,12018160.0,1810006610,$ 1440119470,369887140,NIIF PYMES-GRUPO 2,0,0,0,1,0,1,0,0,0,0
328,ANTIOQUIA,MEDELLIN,O8430- Actividades de planes de seguridad soci...,SERVICIOS,"3,9393E+11",5948635263,93160283475,67119931142,26040352333,"3,26278E+11",4082392000.0,72151272371,$ 52386761089,19764511282,NIIF PLENAS-GRUPO 1,0,1,0,0,0,1,0,0,0,0
124,ANTIOQUIA,MEDELLIN-ANTIOQUIA,G4511 - Comercio de vehículos automotores nuevos,COMERCIO,2691247580,14046560,1266655330,576740980,689914350,2735004020,13010300.0,1357296930,$ 681429130,675867800,NIIF PYMES-GRUPO 2,0,0,0,1,0,1,0,0,0,0
1025,CUNDINAMARCA,TENJO-CUNDINAMARCA,G4620 - Comercio al por mayor de materias prim...,COMERCIO,1889494160,15618840,620582760,530228360,90354400,1996930630,25795870.0,536944460,$ 458584230,78360230,NIIF PYMES-GRUPO 2,0,0,0,1,0,0,1,0,0,0


## Departamento y Ciudad Domicilio

In [182]:
# Dar valores únicos de columna región
df['DEPARTAMENTO DOMICILIO'].value_counts(dropna=False)

BOGOTA D.C.                 478
ANTIOQUIA                   160
VALLE                       105
CUNDINAMARCA                 70
ATLANTICO                    58
SANTANDER                    25
BOLIVAR                      23
CAUCA                        15
RISARALDA                    11
CALDAS                       10
MAGDALENA                     7
BOGOTÁ D.C.                   6
NaN                           5
NORTE DE SANTANDER            4
CORDOBA                       4
NARIÑO                        4
META                          2
HUILA                         2
TOLIMA                        2
GUAJIRA                       2
QUINDIO                       1
BOYACA                        1
CHOCO                         1
SAN ANDRES Y PROVIDENCIA      1
CASANARE                      1
CESAR                         1
SUCRE                         1
Name: DEPARTAMENTO DOMICILIO, dtype: int64

In [183]:
# Dado el pequeño número de datos por cada categoría de departamento y la correlación con la columna 'CIUDAD DOMICILIO' y 'REGIÓN', se elimina la columna 'DEPARTAMENTO DOMICILIO' y 'CIUDAD DOMICILIO'
df = df.drop(['DEPARTAMENTO DOMICILIO', 'CIUDAD DOMICILIO'], axis=1)

## CIIU

In [184]:
# Dar valores únicos de columna CIUU
df['CIIU'].value_counts(dropna=False)

G4511 - Comercio de vehículos automotores nuevos                                                                                        42
G4645 - Comercio al por mayor de productos farmacéuticos, medicinales, cosméticos y de tocador                                          33
O8430- Actividades de planes de seguridad social de afiliacion obligatoria                                                              25
F4111 - Construcción de edificios residenciales                                                                                         24
G4661 - Comercio al por mayor de combustibles sólidos, líquidos, gaseosos y productos conexos                                           23
                                                                                                                                        ..
J6399 - Otras actividades de servicio de información n.c.p.                                                                              1
S9511 - Mantenimiento y rep

In [185]:
# Se cambian valores núlos de la columna 'CIIU' por la moda
df['CIIU'] = df['CIIU'].fillna(df['CIIU'].mode()[0])

## Macrosector

In [186]:
# Dar valores únicos de columna Macrosector
df['MACROSECTOR'].value_counts(dropna=False)

MANUFACTURA             328
COMERCIO                301
SERVICIOS               225
CONSTRUCCIÓN             63
MINERO-HIDROCARBUROS     54
AGROPECUARIO             23
CONSTRUCCION              3
NaN                       3
Name: MACROSECTOR, dtype: int64

In [187]:
# Se cambian valores núlos de la columna 'MACROSECTOR' por la moda
df['MACROSECTOR'] = df['MACROSECTOR'].fillna(df['MACROSECTOR'].mode()[0])

# En la columna MACROSECTOR, se remplazan los valores 'CONSTRUCCIÓN' por 'CONSTRUCCION'
df['MACROSECTOR'] = df['MACROSECTOR'].replace('CONSTRUCCIÓN', 'CONSTRUCCION')

df['MACROSECTOR'].value_counts()

MANUFACTURA             331
COMERCIO                301
SERVICIOS               225
CONSTRUCCION             66
MINERO-HIDROCARBUROS     54
AGROPECUARIO             23
Name: MACROSECTOR, dtype: int64

In [188]:
# One hot encoder para la columna MACROSECTOR
df = pd.get_dummies(df, columns=['MACROSECTOR'], prefix=['MACROSECTOR'])
df.sample(2)

Unnamed: 0,CIIU,INGRESOS OPERACIONALES\r\n2018*,GANANCIA (PERDIDA) 2018,TOTAL ACTIVOS 2018,TOTAL PASIVOS 2018,TOTAL PATRIMONIO 2018,INGRESOS OPERACIONALES\r\n2017*,GANANCIA (PERDIDA) 2017,TOTAL ACTIVOS 2017,TOTAL PASIVOS 2017,TOTAL PATRIMONIO 2017,GRUPO EN NIIF,...,SUPERVISOR_SUPERVIGILANCIA,REGION_Antioquia,REGION_Bogotá - Cundinamarca,REGION_Costa Atlantica,REGION_Costa Pacífica,REGION_Otros,MACROSECTOR_AGROPECUARIO,MACROSECTOR_COMERCIO,MACROSECTOR_CONSTRUCCION,MACROSECTOR_MANUFACTURA,MACROSECTOR_MINERO-HIDROCARBUROS,MACROSECTOR_SERVICIOS
479,D3511 - Generación de energia electrica,26759100000,4541690000,"1,89895E+11","1,30779E+11",59115620000,23665150000,3530070000.0,"1,92443E+11",$ 137589850000,54852710000,NIIF PLENAS-GRUPO 1,...,0,1,0,0,0,0,0,0,0,0,0,1
56,I5511 - Alojamiento en hoteles,2781492780,196547900,6425227350,2974307800,3450919550,2696423110,175922300.0,6126572240,$ 2882479980,3244092260,NIIF PLENAS-GRUPO 1,...,0,0,0,0,1,0,0,0,0,0,0,1


## Ingresos operacionales

In [189]:
# Dar valores únicos de columna INGRESOS OPERACIONALES\r\n2018*
df['INGRESOS OPERACIONALES\r\n2018*'].value_counts(dropna=False)

2485960390     1
7817717760     1
1892909060     1
7,01404E+11    1
1758493390     1
              ..
1579861830     1
11607941610    1
17288980000    1
2507354850     1
NaN            1
Name: INGRESOS OPERACIONALES\r\n2018*, Length: 1000, dtype: int64

In [190]:
# Se convierte la columna 'INGRESOS OPERACIONALES\r\n2018*' a tipo numérico
df['INGRESOS OPERACIONALES\r\n2018*'] = pd.to_numeric(df['INGRESOS OPERACIONALES\r\n2018*'], errors='coerce')

# Se cambian valores núlos de la columna 'INGRESOS OPERACIONALES\r\n2018*' por la media
df['INGRESOS OPERACIONALES\r\n2018*'] = df['INGRESOS OPERACIONALES\r\n2018*'].fillna(df['INGRESOS OPERACIONALES\r\n2018*'].mean())

# Estadisticas descriptivas de la columna 'INGRESOS OPERACIONALES\r\n2018*'
df['INGRESOS OPERACIONALES\r\n2018*'].describe()

count    1.000000e+03
mean     6.330685e+09
std      1.023964e+10
min      1.343546e+09
25%      1.802364e+09
50%      2.819607e+09
75%      6.330685e+09
max      8.966811e+10
Name: INGRESOS OPERACIONALES\r\n2018*, dtype: float64

In [203]:
# Se convierte la columna 'INGRESOS OPERACIONALES\r\n2017*' a tipo numérico
df['INGRESOS OPERACIONALES\r\n2017*'] = pd.to_numeric(df['INGRESOS OPERACIONALES\r\n2017*'], errors='coerce')

# Se cambian valores núlos de la columna 'INGRESOS OPERACIONALES\r\n2017*' por la media
df['INGRESOS OPERACIONALES\r\n2017*'] = df['INGRESOS OPERACIONALES\r\n2017*'].fillna(df['INGRESOS OPERACIONALES\r\n2017*'].mean())

# Estadisticas descriptivas de la columna 'INGRESOS OPERACIONALES\r\n2018*'
df['INGRESOS OPERACIONALES\r\n2017*'].describe()

count    1.000000e+03
mean     5.529464e+09
std      9.682294e+09
min      0.000000e+00
25%      1.584274e+09
50%      2.525021e+09
75%      5.522213e+09
max      9.150339e+10
Name: INGRESOS OPERACIONALES\r\n2017*, dtype: float64

## GANANCIA (PERDIDA) 2018

In [191]:
# Contar valores únicos de la columna 'GANANCIA (PERDIDA) 2018'
df['GANANCIA (PERDIDA) 2018'].value_counts(dropna=False)

-122226790    1
210071430     1
-47856980     1
656402190     1
-6814140      1
             ..
-928380       1
-224833210    1
174365100     1
138759370     1
NaN           1
Name: GANANCIA (PERDIDA) 2018, Length: 1000, dtype: int64

In [194]:
# Cambiar columna a tipo numérico
df['GANANCIA (PERDIDA) 2018'] = pd.to_numeric(df['GANANCIA (PERDIDA) 2018'], errors='coerce')
# Cambiar nulos por la media
df['GANANCIA (PERDIDA) 2018'] = df['GANANCIA (PERDIDA) 2018'].fillna(df['GANANCIA (PERDIDA) 2018'].mean())
# Estadisticas descriptivas de la columna 'GANANCIA (PERDIDA) 2018'
df['GANANCIA (PERDIDA) 2018'].describe()

count    1.000000e+03
mean     5.114633e+08
std      3.722554e+09
min     -6.993593e+10
25%      1.058791e+07
50%      6.754123e+07
75%      2.799793e+08
max      3.575753e+10
Name: GANANCIA (PERDIDA) 2018, dtype: float64

## Total activos, total pasivos, y total patrimonio

In [199]:
# Cambiar columna 'TOTAL ACTIVOS 2018' a tipo numérico
df['TOTAL ACTIVOS 2018'] = pd.to_numeric(df['TOTAL ACTIVOS 2018'], errors='coerce')
# Cambiar nulos por la media
df['TOTAL ACTIVOS 2018'] = df['TOTAL ACTIVOS 2018'].fillna(df['TOTAL ACTIVOS 2018'].mean())
# Estadisticas descriptivas de la columna
df['TOTAL ACTIVOS 2018'].describe()


count    1.000000e+03
mean     6.803199e+09
std      1.273494e+10
min      7.329964e+07
25%      1.239752e+09
50%      2.571577e+09
75%      6.570254e+09
max      9.834450e+10
Name: TOTAL ACTIVOS 2018, dtype: float64

In [200]:
# Cambiar columna 'TOTAL PASIVOS 2018' a tipo numérico
df['TOTAL PASIVOS 2018'] = pd.to_numeric(df['TOTAL PASIVOS 2018'], errors='coerce')
# Cambiar nulos por la media
df['TOTAL PASIVOS 2018'] = df['TOTAL PASIVOS 2018'].fillna(df['TOTAL PASIVOS 2018'].mean())
# Estadisticas descriptivas de la columna
df['TOTAL PASIVOS 2018'].describe()

count    1.000000e+03
mean     4.428247e+09
std      1.042948e+10
min      9.900000e+01
25%      6.802998e+08
50%      1.404471e+09
75%      3.667883e+09
max      9.815819e+10
Name: TOTAL PASIVOS 2018, dtype: float64

In [201]:
# Cambiar columna 'TOTAL PATRIMONIO 2018' a tipo numérico
df['TOTAL PATRIMONIO 2018'] = pd.to_numeric(df['TOTAL PATRIMONIO 2018'], errors='coerce')
# Cambiar nulos por la media
df['TOTAL PATRIMONIO 2018'] = df['TOTAL PATRIMONIO 2018'].fillna(df['TOTAL PATRIMONIO 2018'].mean())
# Estadisticas descriptivas de la columna
df['TOTAL PATRIMONIO 2018'].describe()

count    1.000000e+03
mean     3.012722e+09
std      1.052197e+10
min     -7.303930e+10
25%      3.219121e+08
50%      8.789573e+08
75%      2.708107e+09
max      9.206876e+10
Name: TOTAL PATRIMONIO 2018, dtype: float64