In [17]:
# Pandas
import pandas as pd
pd.set_option('display.max_columns', 25) # Número máximo de columnas a mostrar
pd.set_option('display.max_rows', 50) # Numero máximo de filas a mostar

# Numpy
import numpy as np
np.random.seed(3301)

# Seaborn
import seaborn as sns 

# Matplolib
%matplotlib inline
import matplotlib.pyplot as plt

# Lectura de datos
db_route = "data/datos_originales.csv"
df = pd.read_csv(db_route, sep=';')
df.shape

(1068, 20)

In [18]:
print("Número de filas: ", df.shape[0])
print("Número de columnas: ", df.shape[1])
print("Número de columnas y sus tipos de datos: \n")
print(df.dtypes)

Número de filas:  1068
Número de columnas:  20
Número de columnas y sus tipos de datos: 

No.                                  int64
NIT                                  int64
RAZON SOCIAL                        object
SUPERVISOR                          object
REGIÓN                              object
DEPARTAMENTO DOMICILIO              object
CIUDAD DOMICILIO                    object
CIIU                                object
MACROSECTOR                         object
INGRESOS OPERACIONALES\r\n2018*     object
GANANCIA (PERDIDA) 2018             object
TOTAL ACTIVOS 2018                  object
TOTAL PASIVOS 2018                  object
TOTAL PATRIMONIO 2018               object
INGRESOS OPERACIONALES\r\n2017*     object
GANANCIA (PERDIDA) 2017            float64
TOTAL ACTIVOS 2017                  object
TOTAL PASIVOS 2017                  object
TOTAL PATRIMONIO 2017               object
GRUPO EN NIIF                       object
dtype: object


In [19]:
print("Variables numéricas: \n")
df.describe()

Variables numéricas: 



Unnamed: 0,No.,NIT,GANANCIA (PERDIDA) 2017
count,1068.0,1068.0,1067.0
mean,534.5,859069900.0,114744100.0
std,308.449348,37823540.0,5226753000.0
min,1.0,800000300.0,-79779970000.0
25%,267.75,830011300.0,2899945.0
50%,534.5,860059000.0,50239170.0
75%,801.25,891085100.0,191586300.0
max,1068.0,901097500.0,66204120000.0


In [20]:
# Ver datos núlos
print("\nNúmero de filas con valores nulos: ", df.isnull().any(axis=1).sum())
print("Número de columnas con valores nulos: ", df.isnull().any().sum())
print("Lista de columnas con valores núlos y sus tipos: \n", df.isnull().any()[df.isnull().any() == True])

# Porcentaje de completitud
print(f"\nPorcentaje de completitud de las columnas: {(1-(df.isnull().any(axis=1).sum()/df.shape[0]))*100:.2f}%")


Número de filas con valores nulos:  30
Número de columnas con valores nulos:  13
Lista de columnas con valores núlos y sus tipos: 
 REGIÓN                             True
DEPARTAMENTO DOMICILIO             True
CIUDAD DOMICILIO                   True
CIIU                               True
MACROSECTOR                        True
INGRESOS OPERACIONALES\r\n2018*    True
GANANCIA (PERDIDA) 2018            True
TOTAL ACTIVOS 2018                 True
TOTAL PASIVOS 2018                 True
TOTAL PATRIMONIO 2018              True
INGRESOS OPERACIONALES\r\n2017*    True
GANANCIA (PERDIDA) 2017            True
TOTAL ACTIVOS 2017                 True
dtype: bool

Porcentaje de completitud de las columnas: 97.19%


In [21]:
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1068 entries, 0 to 1067
Data columns (total 20 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   No.                            1068 non-null   int64  
 1   NIT                            1068 non-null   int64  
 2   RAZON SOCIAL                   1068 non-null   object 
 3   SUPERVISOR                     1068 non-null   object 
 4   REGIÓN                         1067 non-null   object 
 5   DEPARTAMENTO DOMICILIO         1063 non-null   object 
 6   CIUDAD DOMICILIO               1064 non-null   object 
 7   CIIU                           1067 non-null   object 
 8   MACROSECTOR                    1065 non-null   object 
 9   INGRESOS OPERACIONALES
2018*  1067 non-null   object 
 10  GANANCIA (PERDIDA) 2018        1067 non-null   object 
 11  TOTAL ACTIVOS 2018             1066 non-null   object 
 12  TOTAL PASIVOS 2018             1066 non-null   ob

In [22]:
# Ver duplicidad de datos
print("\nNúmero de filas duplicadas: ", df.duplicated().sum())
print("Número de filas con indice duplicado: ", df['No.'].duplicated().sum())


Número de filas duplicadas:  0
Número de filas con indice duplicado:  0


In [23]:
df.sample(10)

Unnamed: 0,No.,NIT,RAZON SOCIAL,SUPERVISOR,REGIÓN,DEPARTAMENTO DOMICILIO,CIUDAD DOMICILIO,CIIU,MACROSECTOR,INGRESOS OPERACIONALES\r\n2018*,GANANCIA (PERDIDA) 2018,TOTAL ACTIVOS 2018,TOTAL PASIVOS 2018,TOTAL PATRIMONIO 2018,INGRESOS OPERACIONALES\r\n2017*,GANANCIA (PERDIDA) 2017,TOTAL ACTIVOS 2017,TOTAL PASIVOS 2017,TOTAL PATRIMONIO 2017,GRUPO EN NIIF
318,319,800052534,DISTRIBUCIONES AXA SAS,SUPERSOCIEDADES,Bogotá - Cundinamarca,BOGOTA D.C.,BOGOTA-D.C.-BOGOTA D.C.,G4645 - Comercio al por mayor de productos far...,COMERCIO,2431623100,60163750,787302360,564013370,223288990,2199907330,43110390.0,721060330,$ 530920370,190139960,NIIF PYMES-GRUPO 2
1063,1064,900292211,REFINADORA NACIONAL DE ACEITES Y GRASAS SAS,SUPERSOCIEDADES,Costa Pacífica,VALLE,CANDELARIA-VALLE,C1030 - Elaboración de aceites y grasas de ori...,MANUFACTURA,1386316790,22151990,501416690,274589220,226827470,1189202740,6154480.0,646611960,$ 396936480,249675480,NIIF PLENAS-GRUPO 1
1065,1066,860058831,avicola los cambulos sa.,SUPERSOCIEDADES,Bogotá - Cundinamarca,BOGOTA D.C.,BOGOTA-D.C.-BOGOTA D.C.,A0145 - Cría de aves de corral,AGROPECUARIO,2485960390,18906280,780480300,505029030,275451270,2209342160,15342020.0,755261660,$ 487229570,268032090,NIIF PYMES-GRUPO 2
614,615,830131993,EFECTIVO LTDA,SUPERSOCIEDADES,Bogotá - Cundinamarca,BOGOTA D.C.,BOGOTA-D.C.-BOGOTA D.C.,H5229 - Otras actividades complementarias al t...,SERVICIOS,5200510120,483527130,3293350180,1985023190,1308326990,5166809290,374284980.0,3292129500,$ 2290473160,1001656340,NIIF PYMES-GRUPO 2
652,653,900818642,CONSTRUCCIONES COLOMBIANAS OHL SAS,SUPERSOCIEDADES,Bogotá - Cundinamarca,BOGOTA D.C.,BOGOTA-D.C.-BOGOTA D.C.,F4210 - Construcción de carreteras y vías de f...,CONSTRUCCIÓN,1448136230,-893997020,1996355320,1986833700,9521620,1980487340,141749450.0,1455661690,$ 1242144700,213516990,NIIF PLENAS-GRUPO 1
711,712,815000863,AVIDESA DE OCCIDENTE S.A.,SUPERSOCIEDADES,Costa Pacífica,VALLE,BUGA-VALLE,A0145 - Cría de aves de corral,AGROPECUARIO,6207421720,116558650,2706477790,1335500390,1370977400,5643317500,42212270.0,2562787300,$ 1308177520,1254609780,NIIF PYMES-GRUPO 2
60,61,890924167,CI HERMECO SA,SUPERSOCIEDADES,Antioquia,ANTIOQUIA,MEDELLIN-ANTIOQUIA,"C1410 - Confección de prendas de vestir, excep...",MANUFACTURA,2320887010,17734230,1191721070,930297720,261423350,2358482350,11409300.0,1316271670,$ 1061173250,255098420,NIIF PLENAS-GRUPO 1
26,27,890101176,MEICO SA,SUPERSOCIEDADES,Costa Atlántica,ATLANTICO,BARRANQUILLA-ATLANTICO,G4632 - Comercio al por mayor de bebidas y tabaco,COMERCIO,2910661520,35664890,1540443630,1252930100,287513530,2728601570,18941640.0,1394480880,$ 1136653610,257827270,NIIF PLENAS-GRUPO 1
853,854,900179369,CONFIPETROL SAS,SUPERSOCIEDADES,Bogotá - Cundinamarca,BOGOTA D.C.,BOGOTA-D.C.-BOGOTA D.C.,C3312 - Mantenimiento y reparación especializa...,MANUFACTURA,2546033590,172661220,2145698860,917299680,1228399180,2093203720,176806240.0,1906776900,$ 769785200,1136991700,NIIF PLENAS-GRUPO 1
233,234,800014246,ESTYMA ESTUDIOS Y MANEJOS S.A.,SUPERSOCIEDADES,Antioquia,ANTIOQUIA,MEDELLIN-ANTIOQUIA,F4210 - Construcción de carreteras y vías de f...,CONSTRUCCIÓN,2319000890,120838060,2303069480,1589327490,713741990,1821475840,77313310.0,2156899670,$ 1573352430,583547240,NIIF PYMES-GRUPO 2


## Razon Social y No.

In [24]:
# Se elimina la columna 'Razon social' y 'No.' ya que no aportan información relevante
df = df.drop(['RAZON SOCIAL', 'No.'], axis=1)

## Supervisor

In [25]:
# Dar valores únicos de columna supervisor
df['SUPERVISOR'].value_counts()

SUPERSOCIEDADES    954
SUPERSALUD          47
SUPERFINANCIERA     38
SUPERSERVICIOS      16
SUPERVIGILANCIA      9
SUPERSUCIEDADES      4
Name: SUPERVISOR, dtype: int64

In [26]:
# One hot encoder para la columna supervisor
from random import sample


df = pd.get_dummies(df, columns=['SUPERVISOR'], prefix=['SUPERVISOR'])
df.sample(10)

Unnamed: 0,NIT,REGIÓN,DEPARTAMENTO DOMICILIO,CIUDAD DOMICILIO,CIIU,MACROSECTOR,INGRESOS OPERACIONALES\r\n2018*,GANANCIA (PERDIDA) 2018,TOTAL ACTIVOS 2018,TOTAL PASIVOS 2018,TOTAL PATRIMONIO 2018,INGRESOS OPERACIONALES\r\n2017*,GANANCIA (PERDIDA) 2017,TOTAL ACTIVOS 2017,TOTAL PASIVOS 2017,TOTAL PATRIMONIO 2017,GRUPO EN NIIF,SUPERVISOR_SUPERFINANCIERA,SUPERVISOR_SUPERSALUD,SUPERVISOR_SUPERSERVICIOS,SUPERVISOR_SUPERSOCIEDADES,SUPERVISOR_SUPERSUCIEDADES,SUPERVISOR_SUPERVIGILANCIA
426,830095890,Costa Atlántica,ATLANTICO,BARRANQUILLA-ATLANTICO,C2012 - Fabricación de abonos y compuestos ino...,MANUFACTURA,2043511250,48558350,1682042270,609369790,1072672480,1851614660,49065230.0,1451827150,$ 430822890,1021004260,NIIF PLENAS-GRUPO 1,0,0,0,1,0,0
86,860031606,Bogotá - Cundinamarca,BOGOTA D.C.,BOGOTA-D.C.-BOGOTA D.C.,C1051 - Elaboración de productos de molinería,MANUFACTURA,10805453660,6996880,6558470520,5205197930,1353272590,10472280340,-69944010.0,6020019360,$ 4804202840,1215816520,NIIF PLENAS-GRUPO 1,0,0,0,1,0,0
379,830078966,Costa Atlántica,MAGDALENA,SANTA-MARTA-MAGDALENA,G4511 - Comercio de vehículos automotores nuevos,COMERCIO,9626143060,103316000,5527810110,2825423440,2702386670,7909923530,108763400.0,5693944410,$ 3096939000,2597005410,NIIF PLENAS-GRUPO 1,0,0,0,1,0,0
906,900235088,Bogotá - Cundinamarca,BOGOTA D.C.,BOGOTA-D.C.-BOGOTA D.C.,B0610 - Extracción de petróleo crudo,MINERO-HIDROCARBUROS,1362523110,-319518960,1069620750,532429790,537190960,776236580,-244966300.0,1381770150,$ 566009660,815760490,NIIF PLENAS-GRUPO 1,0,0,0,1,0,0
304,900514524,Bogotá - Cundinamarca,BOGOTA D.C.,BOGOTA-D.C.-BOGOTA D.C.,G4645 - Comercio al por mayor de productos far...,COMERCIO,2523157630,167819940,2183591540,592895690,1590695850,2626987250,-2994800.0,1948719080,$ 489226900,1459492180,NIIF PLENAS-GRUPO 1,0,0,0,1,0,0
970,890908493,Antioquia,ANTIOQUIA,ITAGUI-ANTIOQUIA,C1011 - Procesamiento y conservación de carne ...,MANUFACTURA,1502581060,16053360,802012500,522791720,279220780,1324725820,11040180.0,747172260,$ 502560870,244611390,NIIF PLENAS-GRUPO 1,0,0,0,1,0,0
593,900319753,Bogotá - Cundinamarca,BOGOTA D.C.,BOGOTA-D.C.-BOGOTA D.C.,G4711 - Comercio al por menor en establecimien...,COMERCIO,11926054310,210071430,5874331970,1732129760,4142202210,10828601830,125789500.0,5539782830,$ 1606725490,3933057340,NIIF PLENAS-GRUPO 1,0,0,0,1,0,0
834,811036030,Antioquia,ANTIOQUIA,MEDELLIN-ANTIOQUIA,"C1082 - Elaboración de cacao, chocolate y prod...",MANUFACTURA,9502890310,1458188510,16750729840,4898128260,11852601580,8847782120,1034041000.0,16803753550,$ 5446531580,11357221970,NIIF PLENAS-GRUPO 1,0,0,0,1,0,0
645,802000849,Costa Atlántica,ATLANTICO,BARRANQUILLA-ATLANTICO,G4511 - Comercio de vehículos automotores nuevos,COMERCIO,1391539700,1348300,1130554460,634533780,496020680,1460854070,14408300.0,1063803950,$ 569346250,494457700,NIIF PYMES-GRUPO 2,0,0,0,1,0,0
667,860036884,Bogotá - Cundinamarca,BOGOTA D.C.,BOGOTA-D.C.-BOGOTA D.C.,"M6920 - Actividades de contabilidad, teneduría...",SERVICIOS,1735378500,192714900,664230600,359900570,304330030,1438180040,153881300.0,601392570,$ 363720490,237672080,NIIF PLENAS-GRUPO 1,0,0,0,1,0,0
