In [1]:
import numpy as np
import pandas as pd

In [2]:
# Cargar datos con codificación adecuada
df = pd.read_csv('../data/raw/INFRACTORES_160.csv')

# Visualizar datos
df.head()

Unnamed: 0,Numero,Infractor,DocumentoIdentidad,tituloHab,Resolucion,FechaResolucion,OrganoSancionador,AmbitoInfraccion
0,1,6 HERMANOS V & M S.A.C.,20603533811,,RA N° D000229-2022-MIDAGRI-SERFOR-ATFFS-LIMA,31/01/2022,ARFFS,ATFFS LIMA
1,2,A&V CARGOPERU S.A.C.,20538659682,,RA N 0114-2018-MINAGRI-SERFOR-ATFFS-LAMBAYEQUE,21/06/2018,ARFFS,ATFFS LAMBAYEQUE
2,3,ABDIAS ESPINOZA MAYTA,21005766,,RA N° D000656-2023-MIDAGRI-SERFOR-ATFFS-SELVA ...,21/12/2023,ARFFS,ATFFS SELVA CENTRAL
3,4,ABEL CAMPOS LLANCO,20992564,,D000193-2024-MIDAGRI-SERFOR-ATFFS-SIERRA CENTRAL,18/07/2024,ARFFS,ATFFS SIERRA CENTRAL
4,5,ABEL MORIANO MAYTAN,48732344,,RESOLUCION GERENCIAL REGIONAL N°1724-2024-GOR...,23/12/2024,ARFFS,GORE MADRE DE DIOS


Limpieza de Datos

In [3]:
#Corrección Nombres de Columnas para una mejor comprensión
df.columns = [
    'indice',
    'nombre_infractor',
    'nro_doc_identificación',
    'titulo_habilitante',
    'resolución_administrativa',
    'fecha_resolución',
    'org_sancionador',
    'área_geográfica'
]
#Visualizar los datos correguidos
df.head()

Unnamed: 0,indice,nombre_infractor,nro_doc_identificación,titulo_habilitante,resolución_administrativa,fecha_resolución,org_sancionador,área_geográfica
0,1,6 HERMANOS V & M S.A.C.,20603533811,,RA N° D000229-2022-MIDAGRI-SERFOR-ATFFS-LIMA,31/01/2022,ARFFS,ATFFS LIMA
1,2,A&V CARGOPERU S.A.C.,20538659682,,RA N 0114-2018-MINAGRI-SERFOR-ATFFS-LAMBAYEQUE,21/06/2018,ARFFS,ATFFS LAMBAYEQUE
2,3,ABDIAS ESPINOZA MAYTA,21005766,,RA N° D000656-2023-MIDAGRI-SERFOR-ATFFS-SELVA ...,21/12/2023,ARFFS,ATFFS SELVA CENTRAL
3,4,ABEL CAMPOS LLANCO,20992564,,D000193-2024-MIDAGRI-SERFOR-ATFFS-SIERRA CENTRAL,18/07/2024,ARFFS,ATFFS SIERRA CENTRAL
4,5,ABEL MORIANO MAYTAN,48732344,,RESOLUCION GERENCIAL REGIONAL N°1724-2024-GOR...,23/12/2024,ARFFS,GORE MADRE DE DIOS


In [4]:
#Eliminar duplicados ( si es que hay)
# Ver el número de filas antes
print("Antes:", df.shape)

# Eliminar duplicados (por defecto busca duplicados en todas las columnas)
df_sin_duplicados = df.drop_duplicates()

# Ver el número de filas después
print("Después:", df_sin_duplicados.shape)

Antes: (3841, 8)
Después: (3841, 8)


In [5]:
#Correguir datos nulos o faltantes
# Ver valores nulos por columna
df.isnull().sum()

indice                          0
nombre_infractor                0
nro_doc_identificación          1
titulo_habilitante           2167
resolución_administrativa       8
fecha_resolución               34
org_sancionador                 1
área_geográfica                 0
dtype: int64

In [6]:
# Rellenando datos nulos
df['nro_doc_identificación'] = df['nro_doc_identificación'].fillna('NO DECLARADO')
df['titulo_habilitante'] = df['titulo_habilitante'].fillna('NO CUENTA')
df['resolución_administrativa'] = df['resolución_administrativa'].fillna('SIN RESOLUCIÓN')
df['fecha_resolución'] = df['fecha_resolución'].fillna('FECHA NO DISPONIBLE')
df['org_sancionador'] = df['org_sancionador'].fillna('NO DECLARADO')

# Verificar nulos
df.isnull().sum()

indice                       0
nombre_infractor             0
nro_doc_identificación       0
titulo_habilitante           0
resolución_administrativa    0
fecha_resolución             0
org_sancionador              0
área_geográfica              0
dtype: int64

TRANSFORMACIÓN DE DATOS

In [7]:
#Normalización de Fecha
df['fecha_resolución'] = pd.to_datetime(df['fecha_resolución'], errors='coerce', dayfirst=True)
# Extraer año y mes como enteros
df['año_resolución'] = df['fecha_resolución'].dt.year.astype('Int64')
df['mes_resolución'] = df['fecha_resolución'].dt.month.astype('Int64')

In [8]:
#Normalizar columar org_sancionador a todo mayusculas
df['org_sancionador'] = df['org_sancionador'].str.upper().str.strip()

In [9]:
#Calificar tipo de infractores
df['tipo_infractor'] = df['nro_doc_identificación'].apply(lambda x: 'JURÍDICA' if len(str(x)) == 11 else 'NATURAL')
#verificación de cambios
df.head()

Unnamed: 0,indice,nombre_infractor,nro_doc_identificación,titulo_habilitante,resolución_administrativa,fecha_resolución,org_sancionador,área_geográfica,año_resolución,mes_resolución,tipo_infractor
0,1,6 HERMANOS V & M S.A.C.,20603533811,NO CUENTA,RA N° D000229-2022-MIDAGRI-SERFOR-ATFFS-LIMA,2022-01-31,ARFFS,ATFFS LIMA,2022,1,JURÍDICA
1,2,A&V CARGOPERU S.A.C.,20538659682,NO CUENTA,RA N 0114-2018-MINAGRI-SERFOR-ATFFS-LAMBAYEQUE,2018-06-21,ARFFS,ATFFS LAMBAYEQUE,2018,6,JURÍDICA
2,3,ABDIAS ESPINOZA MAYTA,21005766,NO CUENTA,RA N° D000656-2023-MIDAGRI-SERFOR-ATFFS-SELVA ...,2023-12-21,ARFFS,ATFFS SELVA CENTRAL,2023,12,NATURAL
3,4,ABEL CAMPOS LLANCO,20992564,NO CUENTA,D000193-2024-MIDAGRI-SERFOR-ATFFS-SIERRA CENTRAL,2024-07-18,ARFFS,ATFFS SIERRA CENTRAL,2024,7,NATURAL
4,5,ABEL MORIANO MAYTAN,48732344,NO CUENTA,RESOLUCION GERENCIAL REGIONAL N°1724-2024-GOR...,2024-12-23,ARFFS,GORE MADRE DE DIOS,2024,12,NATURAL


In [10]:
# Guardar el DataFrame limpio en un archivo CSV
df.to_csv('../data/processed/INFRACTORES_160_limpio.csv', index=False)