###Fuente de la data

Los micro-datos gestionados en este notebook son tomados de www.datos.gov.co y corresponden a datos cuya fuente primaria es el Ministerio Nacional de Justicia y Derecho

In [1]:
import pandas as pd

###Descarga del dataset desde el endpoint - archivo 3y4s-dmxy.csv

Contiene información sobre la cuantificación de las hectáreas de los cultivos de coca existentes a 31 de diciembre de cada año en el territorio nacional. Información compilada para los años 2001 al 2022.


In [2]:
coca_plantations_Minjusticia = pd.read_csv("https://www.datos.gov.co/resource/acs4-3wgp.csv?$limit=500000", dtype={'codmpio': str})
coca_plantations_Minjusticia.head(3)

Unnamed: 0,coddepto,departamento,codmpio,municipio,_2001,_2002,_2003,_2004,_2005,_2006,...,_2013,_2014,_2015,_2016,_2017,_2018,_2019,_2020,_2021,_2022
0,91,AMAZONAS,91263,EL ENCANTO (Cor. Departamental),191.82,264.00,164.00,270.00,382.00,233.00,...,8.00,20.00,11.77,12.65,8.04,4.12,2.52,0.0,- 0,- 0
1,91,AMAZONAS,91405,LA CHORRERA (Cor. Departamental),65.00,236.00,209.00,271.00,257.00,223.00,...,25.00,51.00,13.61,14.09,18.20,6.04,3.16,0.0,- 0,- 0
2,91,AMAZONAS,91407,LA PEDRERA (Cor. Departamental),- 0,- 0,- 0,- 0,- 0,- 0,...,- 0,- 0,- 0,- 0,- 0,- 0,- 0,0.0,- 0,- 0


###Revisión y limpieza para integrarlo a la base de datos

### - Resumen de la estructura del dataset

In [3]:
coca_plantations_Minjusticia.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 319 entries, 0 to 318
Data columns (total 26 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   coddepto      319 non-null    int64  
 1   departamento  319 non-null    object 
 2   codmpio       319 non-null    object 
 3   municipio     319 non-null    object 
 4   _2001         319 non-null    object 
 5   _2002         319 non-null    object 
 6   _2003         319 non-null    object 
 7   _2004         319 non-null    object 
 8   _2005         319 non-null    object 
 9   _2006         319 non-null    object 
 10  _2007         319 non-null    object 
 11  _2008         319 non-null    object 
 12  _2009         319 non-null    object 
 13  _2010         319 non-null    object 
 14  _2011         319 non-null    object 
 15  _2012         319 non-null    object 
 16  _2013         319 non-null    object 
 17  _2014         319 non-null    object 
 18  _2015         319 non-null    

In [4]:
# Verificar el numero de valores únicos que se guarda en cada columna
for col in coca_plantations_Minjusticia.columns:
  print(f'{col}: {coca_plantations_Minjusticia[col].nunique()}')

coddepto: 24
departamento: 24
codmpio: 319
municipio: 305
_2001: 150
_2002: 127
_2003: 176
_2004: 166
_2005: 144
_2006: 148
_2007: 152
_2008: 148
_2009: 151
_2010: 148
_2011: 146
_2012: 129
_2013: 115
_2014: 128
_2015: 190
_2016: 182
_2017: 187
_2018: 188
_2019: 175
_2020: 173
_2021: 182
_2022: 184


In [5]:
# Eliminar columnas que se considera innecesarias para el proyecto
delete_columns = ['coddepto']
# Eliminando las columnas especificadas
coca_plantations_Minjusticia = coca_plantations_Minjusticia.drop(delete_columns, axis=1)

### Estandarización de categorizaciones

La estandarización de categorizaciones es el proceso de uniformizar y normalizar los valores de las categorías en un conjunto de datos para asegurar la consistencia y evitar discrepancias. Esto es crucial para la calidad y precisión de los análisis

In [6]:
# Convertir columnas que deben ser numericas
# Lista de columnas a convertir
cols_to_convert = ['_2001', '_2002', '_2003', '_2004', '_2005', '_2006', '_2007', '_2008',
                   '_2009', '_2010', '_2011', '_2012', '_2013', '_2014', '_2015', '_2016',
                   '_2017', '_2018', '_2019', '_2020', '_2021', '_2022']

# Reemplazar valores no numéricos por NaN y luego convertir a int
for col in cols_to_convert:
    coca_plantations_Minjusticia[col] = pd.to_numeric(coca_plantations_Minjusticia[col], errors='coerce').fillna(0).astype('int64')

# Verificar la conversión
coca_plantations_Minjusticia.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 319 entries, 0 to 318
Data columns (total 25 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   departamento  319 non-null    object
 1   codmpio       319 non-null    object
 2   municipio     319 non-null    object
 3   _2001         319 non-null    int64 
 4   _2002         319 non-null    int64 
 5   _2003         319 non-null    int64 
 6   _2004         319 non-null    int64 
 7   _2005         319 non-null    int64 
 8   _2006         319 non-null    int64 
 9   _2007         319 non-null    int64 
 10  _2008         319 non-null    int64 
 11  _2009         319 non-null    int64 
 12  _2010         319 non-null    int64 
 13  _2011         319 non-null    int64 
 14  _2012         319 non-null    int64 
 15  _2013         319 non-null    int64 
 16  _2014         319 non-null    int64 
 17  _2015         319 non-null    int64 
 18  _2016         319 non-null    int64 
 19  _2017   

In [7]:
# Obtener las columnas que no son numéricas
non_numeric_columns = ['departamento', 'codmpio', 'municipio']
non_numeric_columns

['departamento', 'codmpio', 'municipio']

- Borrar espacios en blanco al principio y al final, cambiar a mayúsculas, remover acentos y eliminar signos extraños

In [8]:
import unicodedata

def remove_accents_and_special_chars(input_str):
    # Normalizar la cadena a NFKD
    nfkd_form = unicodedata.normalize('NFKD', input_str)

    # Eliminar acentos
    no_accents = ''.join([c for c in nfkd_form if not unicodedata.combining(c)])

    # Definir caracteres no deseados
    unwanted_chars =  [',', ';', '!', '?', '#', '$', '%', '"', "'", '/', '\\', '|', '-']

    # Eliminar caracteres no deseados
    cleaned_str = ''.join([c for c in no_accents if c not in unwanted_chars])

    # Remover espacios en blanco al principio y al final, y convertir a mayúsculas
    result = cleaned_str.strip().upper()

    return result

In [9]:
# Aplicar la función a todas las columnas categóricas
coca_plantations_Minjusticia[non_numeric_columns] = coca_plantations_Minjusticia[non_numeric_columns].astype(str)
for col in non_numeric_columns:
    coca_plantations_Minjusticia[col] = coca_plantations_Minjusticia[col].apply(remove_accents_and_special_chars)

In [10]:
# Imprimir categorías únicas para columnas de tipo object
for column in non_numeric_columns:
    print(f"Categorías en la columna '{column}':")
    print(coca_plantations_Minjusticia[column].unique())
    print()

Categorías en la columna 'departamento':
['AMAZONAS' 'ANTIOQUIA' 'ARAUCA' 'BOLIVAR' 'BOYACA' 'CALDAS' 'CAQUETA'
 'CAUCA' 'CESAR' 'CHOCO' 'CORDOBA' 'CUNDINAMARCA' 'GUAINIA' 'GUAVIARE'
 'LA GUAJIRA' 'MAGDALENA' 'META' 'NARINO' 'NORTE DE SANTANDER' 'PUTUMAYO'
 'SANTANDER' 'VALLE DEL CAUCA' 'VAUPES' 'VICHADA']

Categorías en la columna 'codmpio':
['91263' '91405' '91407' '91430' '91460' '91530' '91536' '91669' '05031'
 '05040' '05045' '05055' '05107' '05120' '05134' '05142' '05147' '05148'
 '05154' '05172' '05197' '05234' '05250' '05284' '05310' '05361' '05425'
 '05475' '05480' '05483' '05495' '05490' '05579' '05585' '05591' '05604'
 '05628' '05649' '05652' '05660' '05665' '05667' '05670' '05686' '05736'
 '05756' '05790' '05819' '05837' '05842' '05847' '05854' '05858' '05873'
 '05885' '05887' '05890' '05893' '05895' '81065' '81300' '81591' '81736'
 '81794' '13006' '13030' '13042' '13074' '13160' '13268' '13458' '13473'
 '13490' '13600' '13655' '13667' '13670' '13688' '13744' '13810' '15212

- Estandarizar algunas columnas categoricas

In [11]:
# Columna

### Hacer coincidir los códigos de los municipios con el formato de los códigos guardados en la base de datos

Los códigos reales de los municipios de Colombia, están almacenados en la base de datos PostgreSQL del proyecto, en la tabla municipalities dentro del campo dept_mpio_code, junto con la informacion necesaria para georeferenciar todos los municipios y departamentos de Colombia. Este campo guarda el código del municipio en un formato string de exactamente 5 caracteres, los dos primeros corresponden al departamento y los tres restantes al municipio.


Para hacer esta verificación, previamente exportamos desde la base de datos PostgreSQL un DataFrame con los siguientes campos: dept_name, mpio_name y dept_mpio_code, los cuales contienen la información de los departamentos y municipios oficiales, junto con sus respectivos códigos. Este DataFrame se carga en la siguiente celda y se utiliza para comparar con la columna "codigomunicipioatencion"

In [12]:
dept_mpios_codes = pd.read_csv("/content/drive/MyDrive/analytics_data_proyect/deptos_mupios.csv", index_col=0, dtype={'dept_mpio_code': str})
print(dept_mpios_codes.info())
dept_mpios_codes.head()

<class 'pandas.core.frame.DataFrame'>
Index: 1121 entries, 0 to 1120
Data columns (total 3 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   dept_mpio_code  1121 non-null   object
 1   dept_name       1121 non-null   object
 2   mupio_name      1121 non-null   object
dtypes: object(3)
memory usage: 35.0+ KB
None


Unnamed: 0,dept_mpio_code,dept_name,mupio_name
0,97001,VAUPES,MITU
1,97161,VAUPES,CARURU
2,97511,VAUPES,PACOA
3,97666,VAUPES,TARAIRA
4,97777,VAUPES,PAPUNAHUA


- Longitud de los códigos municipios en el df

In [13]:
# Convertir a strings
coca_plantations_Minjusticia["codmpio"] = coca_plantations_Minjusticia["codmpio"].astype(str)

# Calcular la longitud de cada valor en la columna
longitud_mpio = coca_plantations_Minjusticia["codmpio"].apply(len)

# Longitudes de los códigos
print(f'Los códigos de los mpios tiene longitudes de :{longitud_mpio.unique()} caracteres')

Los códigos de los mpios tiene longitudes de :[5] caracteres


In [14]:
# Contar registros por longitud
long_df = longitud_mpio.value_counts().reset_index()
long_df.rename(columns={'cod_mpio': 'no_dígitos_codigo_dane'}, inplace=True)
long_df['percentage'] = (long_df['count'] / len(longitud_mpio))
long_df.head()

Unnamed: 0,codmpio,count,percentage
0,5,319,1.0


In [15]:
# Mostrar una muestra de registros para cada longitud
for longitud in longitud_mpio.value_counts().index:
    print(f"Muestra de registros con longitud {longitud}:")
    muestra = coca_plantations_Minjusticia[longitud_mpio == longitud].head(5)  # Muestra de los primeros 5 registros
    print(muestra[['codmpio']])
    print()

Muestra de registros con longitud 5:
  codmpio
0   91263
1   91405
2   91407
3   91430
4   91460



Nota: Todos los códigos del df que se esta analizando tiene un string de 5 digitos igual al almacenado en la base de datos, asi que pasamos  a verificar si todos los códigos de este df corresponden a valores reales

- Verificar que los códigos de municipios que quedaron en el dataset correspondan solamente a códigos reales almacenados en la base de datos

In [16]:
# Función para comparar listas y mostrar diferencias
def compare_lists(df1_col, df2_col, label1, label2):
    # Extraer listas únicas y normalizar
    list1 = set(df1_col.str.strip().str.upper().unique())
    list2 = set(df2_col.str.strip().str.upper().unique())

    # Encontrar diferencias
    only_in_list1 = list1 - list2
    only_in_list2 = list2 - list1

    # Imprimir resultados
    print(f"{label1} que no están en {label2}:")
    print(only_in_list1)

In [17]:
# Comparar listas de códigos
compare_lists(coca_plantations_Minjusticia['codmpio'], dept_mpios_codes['dept_mpio_code'],
              "Códigos de municipios en coca_plantations_Minjusticia", "Códigos de municipios dept_mpios_codes")

Códigos de municipios en coca_plantations_Minjusticia que no están en Códigos de municipios dept_mpios_codes:
{'94663'}


- Analizar cod de mpio que no corresponde a un cod real

In [18]:
mpio_cod_ = coca_plantations_Minjusticia[coca_plantations_Minjusticia['codmpio'].isin(['94663'])]
mpio_cod_['municipio'].value_counts()

Unnamed: 0_level_0,count
municipio,Unnamed: 1_level_1
MAPIRIPANA (COR. DEPARTAMENTAL),1


Nota: BELEN DE BIJARA figura en la base de datos como un corregimiento del municipio de MUTATA y Mapiripana figura como corregimiento de Barrancominas del Guania

In [19]:
# Verificar cod municipios de MUTATA Y BARRANCOMINAS
dept_mpios_codes[dept_mpios_codes['mupio_name'].isin(['BARRANCOMINAS'])]

Unnamed: 0,dept_mpio_code,dept_name,mupio_name
1093,94343,GUAINIA,BARRANCOMINAS


In [20]:
# Reemplazar el valor '27086' por '05480' en la columna 'codigomunicipioatencion'
coca_plantations_Minjusticia['codmpio'] = coca_plantations_Minjusticia['codmpio'].replace({'94663':'05480'})

- Verificar si cambio se aplicó

In [21]:
# Comparar listas de códigos
compare_lists(coca_plantations_Minjusticia['codmpio'], dept_mpios_codes['dept_mpio_code'],
              "Códigos de municipios en coca_plantations_Minjusticia", "Códigos de municipios dept_mpios_codes")

Códigos de municipios en coca_plantations_Minjusticia que no están en Códigos de municipios dept_mpios_codes:
set()


### Procesamiento final como preparación para integrarlo a la bd de datos del proyecto

- Eliminar columnas que dejaron de ser necesarias

In [22]:
coca_plantations_Minjusticia.columns

Index(['departamento', 'codmpio', 'municipio', '_2001', '_2002', '_2003',
       '_2004', '_2005', '_2006', '_2007', '_2008', '_2009', '_2010', '_2011',
       '_2012', '_2013', '_2014', '_2015', '_2016', '_2017', '_2018', '_2019',
       '_2020', '_2021', '_2022'],
      dtype='object')

In [23]:
# Eliminar columnas 'departamento', 'municipio' que ya no son necesarias
columns_to_drop = ['departamento', 'municipio']
coca_plantations_Minjusticia = coca_plantations_Minjusticia.drop(columns=columns_to_drop)

In [24]:
# Adicionar columna para trazabilidad de la fuente
# Lista de tuplas
coca_plantations_Minjusticia['source_id'] = 120

In [25]:
coca_plantations_Minjusticia.columns

Index(['codmpio', '_2001', '_2002', '_2003', '_2004', '_2005', '_2006',
       '_2007', '_2008', '_2009', '_2010', '_2011', '_2012', '_2013', '_2014',
       '_2015', '_2016', '_2017', '_2018', '_2019', '_2020', '_2021', '_2022',
       'source_id'],
      dtype='object')

In [26]:
# Ajustar nombre de columnas

# Definir el diccionario de traducción
translation_map = {
    'codmpio': 'dane_code',
    '_2001':'2001',
    '_2002':'2002',
    '_2003':'2003',
    '_2004':'2004',
    '_2005':'2005',
    '_2006':'2006',
    '_2007':'2007',
    '_2008':'2008',
    '_2009':'2009',
    '_2010':'2010',
    '_2011':'2011',
    '_2012':'2012',
    '_2013':'2013',
    '_2014':'2014',
    '_2015':'2015',
    '_2016':'2016',
    '_2017':'2017',
    '_2018':'2018',
    '_2019':'2019',
    '_2020':'2020',
    '_2021':'2021',
    '_2022':'2022',
    'source_id': 'source_id'
}

# Renombrar las columnas
coca_plantations_Minjusticia.rename(columns=translation_map, inplace=True)

In [27]:
#Estructura final del dataset a integrar a la base de datos
coca_plantations_Minjusticia.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 319 entries, 0 to 318
Data columns (total 24 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   dane_code  319 non-null    object
 1   2001       319 non-null    int64 
 2   2002       319 non-null    int64 
 3   2003       319 non-null    int64 
 4   2004       319 non-null    int64 
 5   2005       319 non-null    int64 
 6   2006       319 non-null    int64 
 7   2007       319 non-null    int64 
 8   2008       319 non-null    int64 
 9   2009       319 non-null    int64 
 10  2010       319 non-null    int64 
 11  2011       319 non-null    int64 
 12  2012       319 non-null    int64 
 13  2013       319 non-null    int64 
 14  2014       319 non-null    int64 
 15  2015       319 non-null    int64 
 16  2016       319 non-null    int64 
 17  2017       319 non-null    int64 
 18  2018       319 non-null    int64 
 19  2019       319 non-null    int64 
 20  2020       319 non-null    int64

In [28]:
coca_plantations_Minjusticia.head()

Unnamed: 0,dane_code,2001,2002,2003,2004,2005,2006,2007,2008,2009,...,2014,2015,2016,2017,2018,2019,2020,2021,2022,source_id
0,91263,191,264,164,270,382,233,186,349,109,...,20,11,12,8,4,2,0,0,0,120
1,91405,65,236,209,271,257,223,132,349,81,...,51,13,14,18,6,3,0,0,0,120
2,91407,0,0,0,0,0,0,0,0,7,...,0,0,0,0,0,0,0,0,0,120
3,91430,0,0,0,0,0,0,0,0,2,...,0,0,0,0,0,0,0,0,0,120
4,91460,6,43,36,30,12,4,9,2,4,...,0,0,0,0,0,0,0,0,0,120


## Salvar en archivo csv en el drive

In [29]:
# Guardar en archivos CSV en el drive
coca_plantations_Minjusticia.to_csv('/content/drive/MyDrive/analytics_data_proyect/initial_transformation/coca_plantations_Minjusticia.csv', index=False)