## Limpieza de datos
#### Se va realizar limpieza de datos del archivo 10000_Empresas_mas_Grandes_del_Pa_s_20240823.csv, haciendo unificación de valores, quitando caracteres especiales, tranformando datos de acuerdo a su naturaleza


In [58]:
# Se importa libreria pandas par poder usar las funciones necesarias para poder empezar la limpieza
import pandas as pd
import re

#### Leemos el archivo desde Github con el fin de tenerlo disponibles de manera publica en el repositorio asignando variable "URL" y se imprime el contenido con su encabezado


In [60]:
# Letura del archivo desde GitHub 

url = 'https://raw.githubusercontent.com/yodidj/Ciencia-Datos/main/10000_Empresas_mas_Grandes_del_Pa_s_20240823.csv'
df = pd.read_csv(url)

# Muestra las primera columnas del dataframe
print(df.head())

         NIT                   RAZÓN SOCIAL       SUPERVISOR  \
0  899999068                  ECOPETROL S.A  SUPERFINANCIERA   
1  900112515   REFINERIA DE CARTAGENA S.A.S  SUPERSOCIEDADES   
2  830095213       ORGANIZACIÓN TERPEL S.A.  SUPERFINANCIERA   
3  860069804  CARBONES DEL CERREJON LIMITED  SUPERSOCIEDADES   
4  800021308                   DRUMMOND LTD  SUPERSOCIEDADES   

                  REGIÓN DEPARTAMENTO DOMICILIO         CIUDAD DOMICILIO  \
0  Bogotá - Cundinamarca            BOGOTA D.C.  BOGOTA D.C.-BOGOTA D.C.   
1        Costa Atlántica                BOLIVAR        CARTAGENA-BOLIVAR   
2  Bogotá - Cundinamarca            BOGOTA D.C.  BOGOTA D.C.-BOGOTA D.C.   
3  Bogotá - Cundinamarca            BOGOTA D.C.  BOGOTA D.C.-BOGOTA D.C.   
4  Bogotá - Cundinamarca            BOGOTA D.C.  BOGOTA D.C.-BOGOTA D.C.   

   CIIU  MACROSECTOR INGRESOS OPERACIONALES GANANCIA (PÉRDIDA) TOTAL ACTIVOS  \
0   610       MINERO                $144.82             $33.41       $216.85  

#### La función "shape" es util para validar cuantas filas y columnas

In [80]:
# La función  shape es util para validar cuantas filas y columnas y posteriormente transformado el archivo validar si se mantuvo o se modificaron las filas o columnas
df.shape


(20000, 14)

#### La funcion "drop_duplicates" para eliminar filas duplicadas y poner tener con certeza la información idonea

In [82]:
# La funcion "drop_duplicates" para eliminar filas duplicadas y poner tener con certeza la información idonea
# Para este caso no hubo duplicidad de filas por lo tanto se mantuvo las mismas filas

df.drop_duplicates()

Unnamed: 0,NIT,RAZÓN SOCIAL,SUPERVISOR,REGIÓN,DEPARTAMENTO DOMICILIO,CIUDAD DOMICILIO,CIIU,MACROSECTOR,INGRESOS OPERACIONALES,GANANCIA (PÉRDIDA),TOTAL ACTIVOS,TOTAL PASIVOS,TOTAL PATRIMONIO,Año de Corte
0,899999068,ECOPETROL SA,SUPERFINANCIERA,Bogot Cundinamarca,BOGOTA DC,BOGOTA DCBOGOTA DC,610,MINERO,144.82,33.41,216.85,125.81,91.03,2022
1,900112515,REFINERIA DE CARTAGENA SAS,SUPERSOCIEDADES,Costa Atlntica,BOLIVAR,CARTAGENABOLIVAR,1921,MANUFACTURA,27.86,2.19,42.84,16.48,26.36,2022
2,830095213,ORGANIZACIN TERPEL SA,SUPERFINANCIERA,Bogot Cundinamarca,BOGOTA DC,BOGOTA DCBOGOTA DC,4661,COMERCIO,23.60,0.33,7.48,4.47,3.01,2022
3,860069804,CARBONES DEL CERREJON LIMITED,SUPERSOCIEDADES,Bogot Cundinamarca,BOGOTA DC,BOGOTA DCBOGOTA DC,510,MINERO,16.39,6.05,10.45,9.00,1.45,2022
4,800021308,DRUMMOND LTD,SUPERSOCIEDADES,Bogot Cundinamarca,BOGOTA DC,BOGOTA DCBOGOTA DC,510,MINERO,15.27,2.16,14.27,6.34,7.93,2022
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
19995,900440256,EFIVENTAS Y SERVICIOS SAS,SUPERSOCIEDADES,Costa Atlntica,ATLANTICO,BARRANQUILLAATLANTICO,7490,SERVICIOS,0.01,0.00,0.01,0.01,0.00,2021
19996,890115230,QUIMIFEX SAS,SUPERSOCIEDADES,Costa Atlntica,ATLANTICO,BARRANQUILLAATLANTICO,4664,COMERCIO,0.01,0.00,0.01,0.01,0.00,2021
19997,901021850,EDGE NETWORK SERVICES COLOMBIA SAS,SUPERSOCIEDADES,Bogot Cundinamarca,BOGOTA DC,BOGOTA DCBOGOTA DC,6190,SERVICIOS,0.01,0.00,0.04,0.00,0.04,2021
19998,900350192,DESTINO COMERCIAL SAS,SUPERSOCIEDADES,Antioquia,ANTIOQUIA,SABANETAANTIOQUIA,4771,COMERCIO,0.01,0.00,0.01,0.00,0.00,2021


In [61]:
# La función "tolist" sirve para listar todos las columnas contenidas en el archivo 

columnas = df.columns.tolist()
print("Campos del archivo:", columnas)

Campos del archivo: ['NIT', 'RAZÓN SOCIAL', 'SUPERVISOR', 'REGIÓN', 'DEPARTAMENTO DOMICILIO', 'CIUDAD DOMICILIO', 'CIIU', 'MACROSECTOR', 'INGRESOS OPERACIONALES', 'GANANCIA (PÉRDIDA)', 'TOTAL ACTIVOS', 'TOTAL PASIVOS', 'TOTAL PATRIMONIO', 'Año de Corte']


### Limpiar texto 
#### Se importa la libreria "re" de expesiones regulares donde usamos ^ para negar cualquier caracter desde A-Z mayuscula , desde a-z minuscula, númerico del 0-9 y espacios \s


In [64]:
import pandas as pd
import re

def limpiar_texto(texto):
    if pd.isna(texto):
        return ""
    # Convierte todo a cadena
    texto = str(texto)
    # "strip" elimina espacios al inicio y al final
    texto = texto.strip()
    # Eliminar caracteres especiales usando una expresión regular
    texto = re.sub(r'[^A-Za-z0-9\s]', '', texto)
    # Eliminar espacios extra
    texto = re.sub(r'\s+', ' ', texto)
    return texto


In [83]:
# En columnas a limpiar puedo colocar las columnas a la cuales se desea hacer limpieza con la funcion definida anteriormente "limpiar_texto"

columnas_a_limpiar = ['RAZÓN SOCIAL', 'SUPERVISOR', 'REGIÓN', 'DEPARTAMENTO DOMICILIO', 'CIUDAD DOMICILIO', 'CIIU', 'MACROSECTOR']

for columna in columnas_a_limpiar:
    df[columna] = df[columna].apply(limpiar_texto)

    # Mostrar las primeras filas del DataFrame limpio
print(df.head())

         NIT                   RAZÓN SOCIAL       SUPERVISOR  \
0  899999068                   ECOPETROL SA  SUPERFINANCIERA   
1  900112515     REFINERIA DE CARTAGENA SAS  SUPERSOCIEDADES   
2  830095213          ORGANIZACIN TERPEL SA  SUPERFINANCIERA   
3  860069804  CARBONES DEL CERREJON LIMITED  SUPERSOCIEDADES   
4  800021308                   DRUMMOND LTD  SUPERSOCIEDADES   

               REGIÓN DEPARTAMENTO DOMICILIO    CIUDAD DOMICILIO  CIIU  \
0  Bogot Cundinamarca              BOGOTA DC  BOGOTA DCBOGOTA DC   610   
1      Costa Atlntica                BOLIVAR    CARTAGENABOLIVAR  1921   
2  Bogot Cundinamarca              BOGOTA DC  BOGOTA DCBOGOTA DC  4661   
3  Bogot Cundinamarca              BOGOTA DC  BOGOTA DCBOGOTA DC   510   
4  Bogot Cundinamarca              BOGOTA DC  BOGOTA DCBOGOTA DC   510   

   MACROSECTOR  INGRESOS OPERACIONALES  GANANCIA (PÉRDIDA)  TOTAL ACTIVOS  \
0       MINERO                  144.82               33.41         216.85   
1  MANUFACTURA  

### Reducción de Nit a 9 digitos, en la columna NIT se busca dejar la cantidad de digitos a 9 
##### Se retornan los primeros 9 digitos de cada fila de la columna NIT

In [84]:
import pandas as pd

# función reducir la columan NIT a 9 dígitos
def nit_a_9_digitos(numero):
    numero_str = str(numero)
    if len(numero_str) > 9:
        return int(numero_str[:9])
    return numero

# Se aplica la funcion "nit_a_9_digitos" a la columna "NIT"
df['NIT'] = df['NIT'].apply(nit_a_9_digitos)

# Mostrar las primeras filas del DataFrame modificado
print(df.head())

         NIT                   RAZÓN SOCIAL       SUPERVISOR  \
0  899999068                   ECOPETROL SA  SUPERFINANCIERA   
1  900112515     REFINERIA DE CARTAGENA SAS  SUPERSOCIEDADES   
2  830095213          ORGANIZACIN TERPEL SA  SUPERFINANCIERA   
3  860069804  CARBONES DEL CERREJON LIMITED  SUPERSOCIEDADES   
4  800021308                   DRUMMOND LTD  SUPERSOCIEDADES   

               REGIÓN DEPARTAMENTO DOMICILIO    CIUDAD DOMICILIO  CIIU  \
0  Bogot Cundinamarca              BOGOTA DC  BOGOTA DCBOGOTA DC   610   
1      Costa Atlntica                BOLIVAR    CARTAGENABOLIVAR  1921   
2  Bogot Cundinamarca              BOGOTA DC  BOGOTA DCBOGOTA DC  4661   
3  Bogot Cundinamarca              BOGOTA DC  BOGOTA DCBOGOTA DC   510   
4  Bogot Cundinamarca              BOGOTA DC  BOGOTA DCBOGOTA DC   510   

   MACROSECTOR  INGRESOS OPERACIONALES  GANANCIA (PÉRDIDA)  TOTAL ACTIVOS  \
0       MINERO                  144.82               33.41         216.85   
1  MANUFACTURA  

#### Transformación de datos 
##### Se cambia o se define el dato según corresponde en este caso por ser númerico se deja tipo "float" o "int "en las columnas  'INGRESOS OPERACIONALES', 'GANANCIA (PÉRDIDA)', 'TOTAL ACTIVOS', 'TOTAL PASIVOS', 'TOTAL PATRIMONIO', 'Año de Corte'


In [78]:
def clean_currency(x):
    if isinstance(x, str):
        return x.replace('$', '').replace(',', '')
    return x

# Aplicar la función de limpieza a las columnas relevantes
df['INGRESOS OPERACIONALES'] = df['INGRESOS OPERACIONALES'].apply(clean_currency).astype(float)
df['GANANCIA (PÉRDIDA)'] = df['GANANCIA (PÉRDIDA)'].apply(clean_currency).astype(float)
df['TOTAL ACTIVOS'] = df['TOTAL ACTIVOS'].apply(clean_currency).astype(float)
df['TOTAL PASIVOS'] = df['TOTAL PASIVOS'].apply(clean_currency).astype(float)
df['TOTAL PATRIMONIO'] = df['TOTAL PATRIMONIO'].apply(clean_currency).astype(float)
df['Año de Corte'] = df['Año de Corte'].astype(int)

print(df)
print(df.dtypes)

             NIT                                       RAZÓN SOCIAL  \
0      899999068                                       ECOPETROL SA   
1      900112515                         REFINERIA DE CARTAGENA SAS   
2      830095213                              ORGANIZACIN TERPEL SA   
3      860069804                      CARBONES DEL CERREJON LIMITED   
4      800021308                                       DRUMMOND LTD   
...          ...                                                ...   
19995  900440256                          EFIVENTAS Y SERVICIOS SAS   
19996  890115230                                       QUIMIFEX SAS   
19997  901021850                 EDGE NETWORK SERVICES COLOMBIA SAS   
19998  900350192                              DESTINO COMERCIAL SAS   
19999  830123119  DISTRIBUIDORA DE MAQUINARIA AGRICOLA Y PECUARI...   

            SUPERVISOR              REGIÓN DEPARTAMENTO DOMICILIO  \
0      SUPERFINANCIERA  Bogot Cundinamarca              BOGOTA DC   
1      SU