### Uso de loops y métodos de Pandas para limpieza de datos

Usaremos los loops para iterar las veces que se requiera sobre listas o series de datos (columnas) con el fin de automatizar un proceso repetitivo.
Los métodos de reemplazo, recorte, división, mayúsculas, minúsculas, entre otras, que encontramos en `Pandas`, ayudan a realizar limpieza masiva sobre los elementos no deseados dentro del set de datos que estemos trabajando. 

In [10]:
# importar las librerias necesarias

import pandas as pd

In [11]:
# leer el archivo de datos y almacenarlo en un dataframe

df = pd.read_csv('./data_raw/diez_mil_emp.csv')

In [12]:
# mostrar las primeras 5 filas del dataframe

df.head()

Unnamed: 0,NIT,RAZÓN SOCIAL,SUPERVISOR,REGIÓN,DEPARTAMENTO DOMICILIO,CIUDAD DOMICILIO,CIIU,MACROSECTOR,INGRESOS OPERACIONALES,GANANCIA (PÉRDIDA),TOTAL ACTIVOS,TOTAL PASIVOS,TOTAL PATRIMONIO,Año de Corte
0,899999068,ECOPETROL S.A,SUPERFINANCIERA,Bogotá - Cundinamarca,BOGOTA D.C.,BOGOTA D.C.-BOGOTA D.C.,610,MINERO,$144.82,$33.41,$216.85,$125.81,$91.03,2022
1,900112515,REFINERIA DE CARTAGENA S.A.S,SUPERSOCIEDADES,Costa Atlántica,BOLIVAR,CARTAGENA-BOLIVAR,1921,MANUFACTURA,$27.86,$2.19,$42.84,$16.48,$26.36,2022
2,830095213,ORGANIZACIÓN TERPEL S.A.,SUPERFINANCIERA,Bogotá - Cundinamarca,BOGOTA D.C.,BOGOTA D.C.-BOGOTA D.C.,4661,COMERCIO,$23.60,$0.33,$7.48,$4.47,$3.01,2022
3,860069804,CARBONES DEL CERREJON LIMITED,SUPERSOCIEDADES,Bogotá - Cundinamarca,BOGOTA D.C.,BOGOTA D.C.-BOGOTA D.C.,510,MINERO,$16.39,$6.05,$10.45,$9.00,$1.45,2022
4,800021308,DRUMMOND LTD,SUPERSOCIEDADES,Bogotá - Cundinamarca,BOGOTA D.C.,BOGOTA D.C.-BOGOTA D.C.,510,MINERO,$15.27,$2.16,$14.27,$6.34,$7.93,2022


In [13]:
# explorar los datos en tamaño del dataframe y tipos de datos

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20000 entries, 0 to 19999
Data columns (total 14 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   NIT                     20000 non-null  int64 
 1   RAZÓN SOCIAL            19998 non-null  object
 2   SUPERVISOR              20000 non-null  object
 3   REGIÓN                  20000 non-null  object
 4   DEPARTAMENTO DOMICILIO  20000 non-null  object
 5   CIUDAD DOMICILIO        20000 non-null  object
 6   CIIU                    20000 non-null  int64 
 7   MACROSECTOR             20000 non-null  object
 8   INGRESOS OPERACIONALES  20000 non-null  object
 9   GANANCIA (PÉRDIDA)      20000 non-null  object
 10  TOTAL ACTIVOS           20000 non-null  object
 11  TOTAL PASIVOS           20000 non-null  object
 12  TOTAL PATRIMONIO        20000 non-null  object
 13  Año de Corte            20000 non-null  int64 
dtypes: int64(3), object(11)
memory usage: 2.1+ MB


### Análisis inicial

* Encontramos tíldes y espacios en los nombres de las columnas
* Encontramos dos valores null en la columna `RAZÓN SOCIAL`
* Encontramos dos variables `int64` con las que no se realizaría cálculos numéricos y 5 variables `object` con las que se podrían hacer cálculos numéricos
* Encontramos en las 5 variables con las que se pueden hacer cálculos numéricos un caractér especial ($), el cual debe ser limpiado de las columnas para que sea leido como tipo `float`

In [14]:
# cambiar los nombres de las columnas

nombres_columnas = df.columns.str.lower().str.replace(' ', '_').str.replace('(', '').str.replace(')', '').str.replace('ó', 'o').str.replace('é', 'e').str.replace('ñ', 'ni')

In [15]:
nombres_columnas

Index(['nit', 'razon_social', 'supervisor', 'region', 'departamento_domicilio',
       'ciudad_domicilio', 'ciiu', 'macrosector', 'ingresos_operacionales',
       'ganancia_perdida', 'total_activos', 'total_pasivos',
       'total_patrimonio', 'anio_de_corte'],
      dtype='object')

In [16]:
# renombrar las columnas
df.rename(columns=dict(zip(df.columns, nombres_columnas)), inplace=True)

In [17]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20000 entries, 0 to 19999
Data columns (total 14 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   nit                     20000 non-null  int64 
 1   razon_social            19998 non-null  object
 2   supervisor              20000 non-null  object
 3   region                  20000 non-null  object
 4   departamento_domicilio  20000 non-null  object
 5   ciudad_domicilio        20000 non-null  object
 6   ciiu                    20000 non-null  int64 
 7   macrosector             20000 non-null  object
 8   ingresos_operacionales  20000 non-null  object
 9   ganancia_perdida        20000 non-null  object
 10  total_activos           20000 non-null  object
 11  total_pasivos           20000 non-null  object
 12  total_patrimonio        20000 non-null  object
 13  anio_de_corte           20000 non-null  int64 
dtypes: int64(3), object(11)
memory usage: 2.1+ MB


In [18]:
# eliminar los valores nulos

df.dropna(inplace=True)

In [19]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 19998 entries, 0 to 19999
Data columns (total 14 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   nit                     19998 non-null  int64 
 1   razon_social            19998 non-null  object
 2   supervisor              19998 non-null  object
 3   region                  19998 non-null  object
 4   departamento_domicilio  19998 non-null  object
 5   ciudad_domicilio        19998 non-null  object
 6   ciiu                    19998 non-null  int64 
 7   macrosector             19998 non-null  object
 8   ingresos_operacionales  19998 non-null  object
 9   ganancia_perdida        19998 non-null  object
 10  total_activos           19998 non-null  object
 11  total_pasivos           19998 non-null  object
 12  total_patrimonio        19998 non-null  object
 13  anio_de_corte           19998 non-null  int64 
dtypes: int64(3), object(11)
memory usage: 2.3+ MB


In [20]:
# reemplazar el simbolo $ por un espacio vacío en las columnas ingresos_operacionales, ganancia_perdida, 
# total_activos, total_pasivos, total_patrimonio

variables_monetarias = ['ingresos_operacionales', 'ganancia_perdida', 'total_activos', 'total_pasivos', 'total_patrimonio']

for variable in variables_monetarias:
    df[variable] = df[variable].str.replace('$', '').astype(float) 

In [21]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 19998 entries, 0 to 19999
Data columns (total 14 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   nit                     19998 non-null  int64  
 1   razon_social            19998 non-null  object 
 2   supervisor              19998 non-null  object 
 3   region                  19998 non-null  object 
 4   departamento_domicilio  19998 non-null  object 
 5   ciudad_domicilio        19998 non-null  object 
 6   ciiu                    19998 non-null  int64  
 7   macrosector             19998 non-null  object 
 8   ingresos_operacionales  19998 non-null  float64
 9   ganancia_perdida        19998 non-null  float64
 10  total_activos           19998 non-null  float64
 11  total_pasivos           19998 non-null  float64
 12  total_patrimonio        19998 non-null  float64
 13  anio_de_corte           19998 non-null  int64  
dtypes: float64(5), int64(3), object(6)
memory u

In [24]:
# Quitar el último número de la columna nit a las filas que tengan un número de nit mayor a 9 dígitos

df['nit'] = df['nit'].astype(str)

df['nit'] = df['nit'].apply(lambda x: x[:-1] if len(x) > 9 else x)

In [29]:
# Cambiar el tipo de dato de las columnas ciiu y anio_de_corte a string

df['ciiu'] = df['ciiu'].astype(str)
df['anio_de_corte'] = df['anio_de_corte'].astype(str)

In [30]:
# realizar un análisis descriptivo de las variables numéricas

df.describe()

Unnamed: 0,ingresos_operacionales,ganancia_perdida,total_activos,total_pasivos,total_patrimonio
count,19998.0,19998.0,19998.0,19998.0,19998.0
mean,0.151706,0.014232,0.198055,0.098076,0.099619
std,1.341852,0.291488,2.286939,1.264216,1.107717
min,0.01,-2.1,0.0,0.0,-3.69
25%,0.02,0.0,0.01,0.01,0.01
50%,0.04,0.0,0.03,0.02,0.01
75%,0.08,0.0,0.08,0.04,0.03
max,144.82,33.41,216.85,125.81,91.03


In [31]:
# realizar un análisis descriptivo de las variables categóricas

df.describe(include='object')

Unnamed: 0,nit,razon_social,supervisor,region,departamento_domicilio,ciudad_domicilio,ciiu,macrosector,anio_de_corte
count,19998,19998,19998,19998,19998,19998,19998,19998,19998
unique,11440,11436,6,7,33,348,389,6,2
top,900107634,CONVIAS SAS,SUPERSOCIEDADES,Bogotá - Cundinamarca,BOGOTA D.C.,BOGOTA D.C.-BOGOTA D.C.,8610,COMERCIO,2022
freq,2,4,17776,9288,7864,7325,831,6756,9999


### Informe final

* Encontramos que las variables de estado de resultados operativos de las 10.000 empresas más grandes del país (cifras en Billones de pesos) presentan:

In [32]:
# Presentar estadísticos de las variables numéricas

def estadisticos_numericas(df):
    estadisticos = df.describe().T
    for var in df.select_dtypes(include='float64').columns:
        print(f'Variable: {var}, Media: {estadisticos.loc[var, "mean"]}, Mediana: {estadisticos.loc[var, "50%"]}, Desviación Estándar: {estadisticos.loc[var, "std"]}')
    

In [33]:
estadisticos_numericas(df)

Variable: ingresos_operacionales, Media: 0.1517061706170617, Mediana: 0.04, Desviación Estándar: 1.3418518041171903
Variable: ganancia_perdida, Media: 0.014231923192319232, Mediana: 0.0, Desviación Estándar: 0.2914881514202155
Variable: total_activos, Media: 0.19805480548054807, Mediana: 0.03, Desviación Estándar: 2.286938787976113
Variable: total_pasivos, Media: 0.09807580758075807, Mediana: 0.02, Desviación Estándar: 1.2642160156294142
Variable: total_patrimonio, Media: 0.09961896189618963, Mediana: 0.01, Desviación Estándar: 1.1077168276730427


* Encontramos que las variables categoricas tienen las siguientes descripciones:

In [34]:
# Presentar los estadísticos de las variables categóricas

def estadisticos_categoricas(df):
    for var in df.select_dtypes(include='object').columns:
        print(f'Variable: {var}, Valores Únicos: {df[var].nunique()}, Moda: {df[var].mode()[0]}')

In [35]:
estadisticos_categoricas(df)

Variable: nit, Valores Únicos: 11440, Moda: 800000118
Variable: razon_social, Valores Únicos: 11436, Moda: AGENCIA DE ADUANAS DHL GLOBAL FORWARDING COLOMBIA S.A NIVEL 1
Variable: supervisor, Valores Únicos: 6, Moda: SUPERSOCIEDADES
Variable: region, Valores Únicos: 7, Moda: Bogotá - Cundinamarca
Variable: departamento_domicilio, Valores Únicos: 33, Moda: BOGOTA D.C.
Variable: ciudad_domicilio, Valores Únicos: 348, Moda: BOGOTA D.C.-BOGOTA D.C.
Variable: ciiu, Valores Únicos: 389, Moda: 8610
Variable: macrosector, Valores Únicos: 6, Moda: COMERCIO
Variable: anio_de_corte, Valores Únicos: 2, Moda: 2021


In [36]:
# Guardar el dataframe procesado en un archivo csv

df.to_csv('./data_processed/diez_mil_empresas_procesado.csv', index=False)