### UNIR LOS DATOS EN EL MISMO FORMATO DE SPSS

In [1]:
import pyreadstat  # Importa la librería pyreadstat para leer archivos .sav (SPSS)
import pandas as pd  # Importa la librería pandas para manipulación y análisis de datos

# Cargar los archivos .sav en DataFrames separados
# Utiliza la función read_sav de la librería pyreadstat para leer los archivos .sav
# Los resultados se guardan en dos variables: el DataFrame y la metadata del archivo .sav

df_car_c, meta_car_c = pyreadstat.read_sav('01_PENALES_CARATULA.sav')  # Lee el archivo '01_PENALES_CARATULA.sav' y guarda los datos en df_car_c y la metadata en meta_car_c
df_cap100, meta_cap100 = pyreadstat.read_sav('01_PENALES_CAP100.sav')  # Lee el archivo '01_PENALES_CAP100.sav' y guarda los datos en df_cap100 y la metadata en meta_cap100
df_cap200, meta_cap200 = pyreadstat.read_sav('01_PENALES_CAP200.sav')  # Lee el archivo '01_PENALES_CAP200.sav' y guarda los datos en df_cap200 y la metadata en meta_cap200
df_cap300, meta_cap300 = pyreadstat.read_sav('01_PENALES_CAP300.sav')  # Lee el archivo '01_PENALES_CAP300.sav' y guarda los datos en df_cap300 y la metadata en meta_cap300
df_cap400, meta_cap400 = pyreadstat.read_sav('01_PENALES_CAP400.sav')  # Lee el archivo '01_PENALES_CAP400.sav' y guarda los datos en df_cap400 y la metadata en meta_cap400

# Guardar cada DataFrame como archivo .csv
# Utiliza la función to_csv del DataFrame de pandas para guardar los datos en archivos .csv
# El parámetro index=False asegura que el índice de los DataFrames no se guarde en el archivo .csv

df_car_c.to_csv('01_PENALES_CARATULA.csv', index=False)  # Guarda df_car_c en '01_PENALES_CARATULA.csv' sin incluir el índice
df_cap100.to_csv('01_PENALES_CAP100.csv', index=False)  # Guarda df_cap100 en '01_PENALES_CAP100.csv' sin incluir el índice
df_cap200.to_csv('01_PENALES_CAP200.csv', index=False)  # Guarda df_cap200 en '01_PENALES_CAP200.csv' sin incluir el índice
df_cap300.to_csv('01_PENALES_CAP300.csv', index=False)  # Guarda df_cap300 en '01_PENALES_CAP300.csv' sin incluir el índice
df_cap400.to_csv('01_PENALES_CAP400.csv', index=False)  # Guarda df_cap400 en '01_PENALES_CAP400.csv' sin incluir el índice


### JUNTAR ARCHIVOS 

In [3]:
import pandas as pd
import chardet

def main():
    # Lista de archivos de entrada
    input_files = ["01_PENALES_CARATULA.csv", "01_PENALES_CAP100.csv", "01_PENALES_CAP200.csv", "01_PENALES_CAP300.csv", "01_PENALES_CAP400.csv"]
    # Archivo de salida
    output_file = "DATA1.csv"

    # Leer todos los archivos CSV en una lista de DataFrames
    dataframes = []
    for file in input_files:
        try:
            # Intentar leer el archivo CSV
            df = pd.read_csv(file, encoding='utf-8', sep=None, engine='python')
            dataframes.append(df)
        except UnicodeDecodeError:
            print(f"Error de codificación al leer el archivo {file}")
        except pd.errors.ParserError as e:
            print(f"Error de análisis al leer el archivo {file}: {e}")
        except Exception as e:
            print(f"Error desconocido al leer el archivo {file}: {e}")

    if dataframes:
        # Concatenar los DataFrames a lo largo de las columnas
        merged_df = pd.concat(dataframes, axis=1)

        # Guardar el DataFrame combinado en un nuevo archivo CSV
        merged_df.to_csv(output_file, index=False)

        print(f"Archivos CSV combinados exitosamente en {output_file}")
    else:
        print("No se pudieron leer los archivos CSV.")

if __name__ == "__main__":
    main()




Archivos CSV combinados exitosamente en DATA1.csv


### cambiar los valores de la columna P404_RFINAL

In [6]:
import pandas as pd

def modify_p404_rfinal():
    # Archivo de entrada y salida
    input_file = "DATA1.csv"
    output_file = "DATA2.csv"  
    
    try:
        # Leer el archivo DATA1.CSV con la codificación adecuada y manejo de tipos de datos mixtos si es necesario
        df = pd.read_csv(input_file, encoding='utf-8')
        
        # Verificar si la columna P404_RFINAL existe antes de modificar sus valores
        if 'P404_RFINAL' in df.columns:
            # Modificar los valores según el diccionario de reemplazo
            df['P404_RFINAL'] = df['P404_RFINAL'].replace({
                1: 'Completa',
                2: 'Incompleta',
                3: 'Rechazo',
                4: 'No se presento'
            })
        else:
            print("La columna P404_RFINAL no existe en el archivo.")

        # Guardar el DataFrame modificado en un nuevo archivo CSV
        df.to_csv(output_file, index=False, encoding='utf-8')  
        
        print(f"Archivo {output_file} modificado exitosamente.")
    
    except UnicodeDecodeError:
        print(f"Error de codificación al leer el archivo {input_file}")
    except pd.errors.ParserError as e:
        print(f"Error de análisis al leer el archivo {input_file}: {e}")
    except Exception as e:
        print(f"Error desconocido al leer el archivo {input_file}: {e}")

if __name__ == "__main__":
    modify_p404_rfinal()


  df = pd.read_csv(input_file, encoding='utf-8')


Archivo DATA2.csv modificado exitosamente.


### AHORA FILTRAREMOS SOLO AQUELLAS ENCUESTAS QUE ESTEN COMPLETAS 

In [7]:

import pandas as pd

def filter_complete_rows():
    # Archivo de entrada y salida
    input_file = "DATA2.csv"
    output_file = "DATA3.csv"
    
    try:
        df = pd.read_csv(input_file, encoding='utf-8')
        
        # Filtrar las filas donde P404_RFINAL es igual a 'Completa'
        df_completa = df[df['P404_RFINAL'] == 'Completa']
        
        # Guardar el DataFrame filtrado en un nuevo archivo CSV
        df_completa.to_csv(output_file, index=False, encoding='utf-8')  
        
        print(f"Archivo {output_file} generado exitosamente con filas completas.")
    
    except UnicodeDecodeError:
        print(f"Error de codificación al leer el archivo {input_file}")
    except pd.errors.ParserError as e:
        print(f"Error de análisis al leer el archivo {input_file}: {e}")
    except Exception as e:
        print(f"Error desconocido al leer el archivo {input_file}: {e}")

if __name__ == "__main__":
    filter_complete_rows()


  df = pd.read_csv(input_file, encoding='utf-8')


Archivo DATA3.csv generado exitosamente con filas completas.


### IMPORTAR LIBRERIAS

In [13]:
import pandas as pd
import numpy as np
import matplotlib as plt
import matplotlib.pyplot as plt

In [14]:
import pandas as pd  # Importa la librería pandas para manipulación y análisis de datos estructurados

import numpy as np  # Importa la librería NumPy para operaciones numéricas avanzadas y manejo eficiente de arreglos

import matplotlib as plt  # Importa la biblioteca Matplotlib, que se utiliza para crear gráficos en Python
import matplotlib.pyplot as plt  # Importa el módulo pyplot de Matplotlib, que proporciona una interfaz de estilo similar a MATLAB para la creación de gráficos

import pandas as pd  # Importa la librería pandas para manipulación y análisis de datos estructurados
import warnings  # Importa la librería warnings para controlar y manejar advertencias

try:
    # Intentar leer el archivo CSV con la codificación latin1 y manejo de errores de línea
    df = pd.read_csv('DATA3.csv', encoding='utf-8', sep=',', on_bad_lines='skip')  # Lee el archivo CSV y omite las líneas con errores
except Exception as e:
    # Capturar cualquier excepción que ocurra al leer el archivo CSV
    print(f"Error al leer el archivo CSV: {e}")  # Imprime un mensaje de error
    df = None  # Asigna None al DataFrame si ocurre un error

if df is not None:
    try:
        # Exploración inicial del conjunto de datos
        print("Primeras filas del dataframe:")  # Imprime un mensaje
        print(df.head())  # Muestra las primeras filas del DataFrame

        print("\nInformación del dataframe:")  # Imprime un mensaje
        print(df.info())  # Muestra información general del DataFrame

        print("\nEstadísticas descriptivas:")  # Imprime un mensaje
        print(df.describe())  # Muestra estadísticas descriptivas de las columnas numéricas

        # Manejar valores nulos
        print("\nValores nulos por columna antes de la limpieza:")  # Imprime un mensaje
        print(df.isnull().sum())  # Muestra la cantidad de valores nulos por columna

        # Rellenar valores nulos con la media para columnas numéricas
        num_cols = df.select_dtypes(include=['number']).columns  # Selecciona las columnas numéricas
        df[num_cols] = df[num_cols].fillna(df[num_cols].mean())  # Rellena los valores nulos en las columnas numéricas con la media de la columna

        print("\nValores nulos por columna después de la limpieza:")  # Imprime un mensaje
        print(df.isnull().sum())  # Muestra la cantidad de valores nulos por columna después de la limpieza

        # Manejar datos duplicados
        print("\nNúmero de filas duplicadas antes de la limpieza:")  # Imprime un mensaje
        print(df.duplicated().sum())  # Muestra la cantidad de filas duplicadas

        df.drop_duplicates(inplace=True)  # Elimina las filas duplicadas del DataFrame

        print("\nNúmero de filas duplicadas después de la limpieza:")  # Imprime un mensaje
        print(df.duplicated().sum())  # Muestra la cantidad de filas duplicadas después de la limpieza
    
    except Exception as e:
        # Capturar cualquier excepción que ocurra al procesar el dataframe
        print(f"Error al procesar el dataframe: {e}")  # Imprime un mensaje de error
else:
    print("No se pudo cargar el dataframe debido a errores previos.")  # Imprime un mensaje si no se pudo cargar el DataFrame



  df = pd.read_csv('DATA3.csv', encoding='utf-8', sep=',', on_bad_lines='skip')  # Lee el archivo CSV y omite las líneas con errores


Primeras filas del dataframe:
   ID_CARATULA  INTERNO_ID  CUEST_NRO  CCDD         DD  CCPP         PP  CCDI  \
0          1.0         1.0        1.0    15       LIMA     1       LIMA     8   
1          3.0         1.0        4.0     6  CAJAMARCA     1  CAJAMARCA     1   
2          4.0         1.0        5.0    15       LIMA     1       LIMA    32   
3          5.0         1.0        6.0    15       LIMA     1       LIMA    32   
4          6.0         1.0        7.0    15       LIMA     1       LIMA    32   

                       DI  CCCP  ... P403_4  P403_5 P403_5ESP  P403_6 P403_7  \
0              CHORRILLOS     1  ...    0.0     0.0       NaN     NaN    NaN   
1               CAJAMARCA     1  ...    0.0     0.0       NaN     NaN    NaN   
2  SAN JUAN DE LURIGANCHO     1  ...    0.0     0.0       NaN     1.0    NaN   
3  SAN JUAN DE LURIGANCHO     1  ...    0.0     0.0       NaN     NaN    NaN   
4  SAN JUAN DE LURIGANCHO     1  ...    0.0     0.0       NaN     NaN    NaN   

  

### REEMPLAZAR VALORES 

In [10]:
import pandas as pd
import warnings
import numpy as np
import matplotlib as plt

try:
    df = pd.read_csv('DATA3.csv', encoding='utf-8', sep=',', on_bad_lines='skip')
except Exception as e:
    # Capturar cualquier excepción que ocurra al leer el archivo CSV
    print(f"Error al leer el archivo CSV: {e}")
    df = None
mappings = {
    'GENERO': {1: 'Hombre', 2: 'Mujer'},
    'E_CIVIL': {
        1: 'Conviviente', 2: 'Casado(a)', 3: 'Viudo(a)', 4: 'Divorciado(a)', 
        5: 'Separado(a)', 6: 'Soltero(a)'
    },
    'RELIGION': {
        1: 'Catolica', 2: 'Evangelica', 3: 'Mormon', 4: 'Adventista', 
        5: 'Testigo de Jehova', 6: 'Otra', 7: 'Ninguna'
    },
    'SITUACION_JURIDICA': {1: 'Procesado', 2: 'Sentenciado'},
    'P101': {
        1: 'Quechua', 2: 'Aymara', 3: 'Ashaninka', 4: 'Awajun/Aguruna', 
        5: 'Shipibo/Konibo', 6: 'Otra lengua nativo', 7: 'Castellano', 
        8: 'Ingles', 9: 'Otra lengua extranjera', 10: 'Es sordomudo/a o mudo/a'
    },
    'P102': {1: 'Si', 2: 'No'},
    'P103_1': {1: 'Si', 2: 'No'},
    'P103_2': {1: 'Si', 2: 'No'},
    'P103_3': {1: 'Si', 2: 'No'},
    'P104_1': {
        1: 'Sin nivel', 2: 'Educacion Inicial', 3: 'Primaria Incompleta', 
        4: 'Primaria Completa', 5: 'Secundaria Incompleta', 6: 'Secundaria Completa', 
        7: 'Superior no universitaria incompleta', 8: 'Superior no universitaria completa', 
        9: 'Superior universitaria incompleta', 10: 'Superior universitaria completa', 
        11: 'Postgrado'
    },
    'P104_4_CCEE': {1: 'Estatal', 2: 'No Estatal', 3: 'Omision'},
    'P105': {
        1: 'La familia no le permitió', 2: 'La familia es/era muy pobre', 
        3: 'Tenía necesidad económica', 4: 'No le gustaba estudiar', 
        5: 'Lo expulsaron', 6: 'Por haber ingresado a prisión', 
        7: 'Tenía que cuidar a mis hermanos(as)', 8: 'Mi pareja me lo impidió', 
        9: 'Otra', 10: 'No sabe / No contesta', 11: 'Problemas de Salud', 
        12: 'Problemas familiares'
    },
    'P106': {1: 'Si', 2: 'No', 3: 'No sabe / No contesta'},
    'P109_1': {1: 'Si', 2: 'No', 3: 'No contesta'},
    'P109A_1': {
        1: 'Marihuana', 2: 'Inhalantes', 3: 'Pasta básica / Cocaína o crack', 
        4: 'Pastillas', 5: 'Otro tipo de droga', 6: 'Cerveza', 7: 'Chicha', 
        8: 'Otro tipo de licor', 9: 'Ron', 10: 'Whisky', 11: 'Aguardiente'
    },
    'P109C_1': {1: 'Si', 2: 'No'},
    'P109D_1': {
        1: 'Diario', 2: '2 a 6 veces a la semana', 3: 'Semanal', 4: 'Quincenal', 
        5: 'Mensual', 6: 'Otra frecuencia'
    },
    'P109_2': {1: 'Si', 2: 'No', 3: 'No contesta'},
    'P109A_2': {
        1: 'Marihuana', 2: 'Inhalantes', 3: 'Pasta básica / Cocaína o crack', 
        4: 'Pastillas', 5: 'Otro tipo de droga', 6: 'Cerveza', 7: 'Chicha', 
        8: 'Otro tipo de licor', 9: 'Ron', 10: 'Whisky', 11: 'Aguardiente'
    },
    'P109C_2': {1: 'Si', 2: 'No'},
    'P109D_2': {
        1: 'Diario', 2: '2 a 6 veces a la semana', 3: 'Semanal', 4: 'Quincenal', 
        5: 'Mensual', 6: 'Otra frecuencia'
    },
    'P109_3': {1: 'Si', 2: 'No', 3: 'No contesta'},
    'P109C_3': {1: 'Si', 2: 'No'},
    'P109D_3': {
        1: 'Diario', 2: '2 a 6 veces a la semana', 3: 'Semanal', 4: 'Quincenal', 
        5: 'Mensual', 6: 'Otra frecuencia'
    },
    'P110': {1: 'Si', 2: 'No'},
    'P110A': {1: 'Si', 2: 'No'},
    'P110B': {1: 'Si', 2: 'No'},
    'P110C': {
        1: 'No tiene dinero', 2: 'No confía en los médicos', 3: 'No es necesario', 
        4: 'No tiene seguro de salud', 5: 'Por el maltrato del personal de salud', 
        6: 'No me han confirmado el embarazo', 7: 'Otro'
    },
    'P111': {1: 'Si', 2: 'No'},
    'P112': {
        1: 'Heterosexual', 2: 'Bisexual', 
        3: 'Homosexual (lesbiana, gay, transexual, intersexual)', 
        4: 'No responde'
    },
    'P113_1': {1: 'Si', 2: 'No'},
    'P113_2': {1: 'Si', 2: 'No'},
    'P113_3': {1: 'Si', 2: 'No'},
    'P113_4': {1: 'Si', 2: 'No'},
    'P113_5': {1: 'Si', 2: 'No'},
    'P113_6': {1: 'Si', 2: 'No'},
    'P113A_1': {1: 'Leve', 2: 'Moderada', 3: 'Severa'},
    'P113A_2': {1: 'Leve', 2: 'Moderada', 3: 'Severa'},
    'P113A_3': {1: 'Leve', 2: 'Moderada', 3: 'Severa'},
    'P113A_4': {1: 'Leve', 2: 'Moderada', 3: 'Severa'},
    'P113A_5': {1: 'Leve', 2: 'Moderada', 3: 'Severa'},
    'P113A_6': {1: 'Leve', 2: 'Moderada', 3: 'Severa'},
    'P114': {1: 'Si', 2: 'No'},
    'P117': {
        1: 'Empleador o patrono', 2: 'Trabajador dependiente', 3: 'Empleado', 
        4: 'Obrero', 5: 'Trabajador familiar no remunerado', 6: 'Trabajador del hogar', 
        7: 'Otro'
    },
    'P118': {
        1: 'Falta de estudios', 2: 'Problemas de salud', 
        3: 'Por tener antecedentes penales/Judiciales', 
        4: 'Responsabilidades familiares', 5: 'Estaba estudiando', 
        6: 'No necesitaba trabajar', 7: 'No quería trabajar', 
        8: 'Tenía un “trabajo” ilegal', 9: 'Era alcohólico o drogadicto', 
        10: 'Era jubilado', 11: 'No encontraba trabajo', 
        12: 'Dedicado a los quehaceres del hogar', 13: 'Otro', 14: 'No contesta'
    },
    'P119_1': {1: 'Si', 2: 'No'},
    'P119_2': {1: 'Si', 2: 'No'},
    'P119_3': {1: 'Si', 2: 'No'},
    'P119_4': {1: 'Si', 2: 'No'},
    'P119_5': {1: 'Si', 2: 'No'},
    'P119_6': {1: 'Si', 2: 'No'},
    'P120': {
        1: 'Quechua?', 2: 'Aymara?', 3: 'Nativo o indígena de la Amazonía?', 
        4: 'Parte de otro pueblo originario?', 5: 'Negro/Moreno/Zambo/Afroperuano?', 
        6: 'Blanco?', 7: 'Mestizo?', 8: 'Otro?', 9: 'No sabe / No responde'
    },
    'P121': {1: 'Si', 2: 'No', 3: 'No sabe'},
    'P122_NO': {1: 'No recuerda'},
    'P123_1': {1: 'Si', 2: 'No'},
    'P123_2': {1: 'Si', 2: 'No'},
    'P123_3': {1: 'Si', 2: 'No'},
    'P123_4': {1: 'Si', 2: 'No'},
    'P123_5': {1: 'Si', 2: 'No'},
    'P123_6': {1: 'Si', 2: 'No'},
    'P124_NO': {1: 'Nunca vivio con su papá'},
    'P125_1': {1: 'Si', 2: 'No'},
    'P125_2': {1: 'Si', 2: 'No'},
    'P125_3': {1: 'Si', 2: 'No'},
    'P125_4': {1: 'Si', 2: 'No'},
    'P125_5': {1: 'Si', 2: 'No'},
    'P125_6': {1: 'Si', 2: 'No'},
    'P126': {1: 'Si, siempre', 2: 'Si, a veces', 3: 'No', 4: 'No contesta'},
    'P127': {1: 'Si', 2: 'No', 3: 'No sabe / No contesta'},
    'P128': {1: 'Si', 2: 'No', 3: 'No sabe / No contesta'},
    'P129': {1: 'Si', 2: 'No', 3: 'No aplica', 4: 'No sabe / No contesta'},
    'P130': {1: 'Si', 2: 'No', 3: 'No recuerda / No contesta'},
    'P131': {
        1: 'Menos de 7 años', 2: 'Entre 7 y 12 años', 3: 'Más de 12 años', 
        4: 'No recuerda / No contesta'
    },
    'P132': {
        1: 'Para buscar trabajo', 2: 'Por el abandono o separación de los padres', 
        3: 'Lo botaron de la casa', 4: 'Muerte de (los) padre(s)', 
        5: 'Alcoholismo o drogadicción del (los) padre(s)', 6: 'Violencia en la familia', 
        7: 'Abuso sexual', 8: 'Violación sexual', 9: 'Otro', 10: 'Por independizarse', 
        11: 'Mala influencia', 12: 'Por rebeldía', 13: 'Por problemas familiares', 
        14: 'Para estudiar'
    },
    'P133': {1: 'Si', 2: 'No', 3: 'No recuerda / No contesta'},
    'P135': {1: 'Si', 2: 'No', 3: 'No recuerda / No contesta'},
    'P136': {1: 'Si', 2: 'No', 3: 'No recuerda / No contesta'},
    'P137': {1: 'Si', 2: 'No'},
    'P138': {1: 'Si', 2: 'No', 3: 'No sabe / No contesta'},
    'P139': {1: 'Si', 2: 'No'},
    'P140': {
        1: 'Por su color de piel/raza', 2: 'Por su idioma/lengua/forma de hablar/dejo/acento', 
        3: 'Por sus costumbres (música, comida, vestimenta)', 
        4: 'Por su origen familiar/su lugar de nacimiento/su región de procedencia', 
        5: 'Por ser pobre/no tener dinero', 6: 'Por su lugar de residencia/donde vive', 
        7: 'Por no tener conocidos o vara', 8: 'Por tener alguna discapacidad', 
        9: 'Por ser mujer', 10: 'Por su orientación sexual', 
        11: 'Por antecedentes penales / judiciales', 12: 'Por tatuajes cicatrices', 
        13: 'Otro'
    },
    'P141_1': {0: 'No', 1: 'Si'},
    'P141_2': {0: 'No', 1: 'Si'},
    'P141_3': {0: 'No', 1: 'Si'},
    'P141_4': {0: 'No', 1: 'Si'},
    'P141_5': {0: 'No', 1: 'Si'},
    'P141_6': {0: 'No', 1: 'Si'},
    'P141_7': {0: 'No', 1: 'Si'},
    'P141_8': {0: 'No', 1: 'Si'},
    'P141_9': {0: 'No', 1: 'Si'},
    'P141_10': {0: 'No', 1: 'Si'},
    'P141_11': {0: 'No', 1: 'Si'},
    'P141_12': {0: 'No', 1: 'Si'},
    'P141_13': {0: 'No', 1: 'Si'},
    'P202': {
        1: 'Vía pública', 2: 'Vivienda de la víctima', 3: 'Local comercial bancario o esparcimiento', 
        4: 'Centro de trabajo', 5: 'Vehículo público', 6: 'Vehículo privado', 
        7: 'Campo abierto / lugar desolado', 8: 'Casa o establecimiento abandonado', 
        9: 'Dependencia policial / cuartel', 10: 'En el mar, acantilado, acequia, canal', 
        11: 'Hogar del interno', 12: 'Puerto / Aeropuerto', 13: 'Otros', 
        14: 'No contesta', 15: 'No sabe', 16: 'Casa de familiar'
    },
    'P203': {
        1: 'Por venganza', 2: 'Por ajuste de cuentas', 3: 'Por celos', 
        4: 'Por mala práctica profesional', 5: 'Por lucro personal', 
        6: 'Por emoción violenta', 7: 'Otro', 8: 'No sabe', 9: 'Placer sexual', 
        10: 'Por involucrarse', 11: 'Bajo el efecto de drogas y/o bebidas alcoholicas', 
        12: 'Trafico de drogas'
    },
    'P204': {1: 'Si', 2: 'No', 3: 'No sabe / No contesta'},
    'P205': {1: 'De fuego', 2: 'Punzo cortante', 3: 'Otros', 4: 'No sabe / No contesta'},
    'P206': {1: 'Si', 2: 'No', 3: 'No sabe / No contesta'},
    'P207_NO': {1: 'No sabe / No contesta'},
    'P208': {
        1: 'No sabe / No contesta', 2: 'La compró', 3: 'La robó', 4: 'Se la dio un amigo/os', 
        5: 'Se la dio un familiar', 6: 'Siendo policía o militar', 7: 'Otro', 
        8: 'No sabe / No contesta'
    },
    'P209': {1: 'Si', 2: 'No', 3: 'No sabe / No contesta'},
    'P210': {
        1: 'Alcohol', 2: 'Marihuana', 3: 'Inhalantes (terocal u otros)', 
        4: 'Pasta básica / cocaína / crack', 5: 'Pastillas', 6: 'Heroína', 
        7: 'Otro', 8: 'No sabe / No contesta'
    },
    'P211': {1: 'Si', 2: 'No', 3: 'No sabe / No contesta'},
    'P212': {
        1: 'Era(n) familiar(es)', 2: 'Era(n) amigo(s)', 3: 'Era(n) conocido(s) de donde vivía', 
        4: 'Era(n) alguien de donde estudiaba', 5: 'Era(n) alguien del trabajo', 
        6: 'Era(n) alguien que acababa de conocer', 7: 'Otro', 8: 'No sabe / No contesta'
    },
    'P213': {
        1: 'Conseguir dinero para comprarme lo que quería', 2: 'Traer dinero a la casa', 
        3: 'Porque me daba reputación entre mis conocidos', 
        4: 'Por la emoción del riesgo de hacerlo', 5: 'Porque me obligaron mis familiares', 
        6: 'Porque mis amigos lo hacían', 7: 'Porque estaba aburrido', 
        8: 'Porque no tenía miedo a la policía', 9: 'Otro', 10: 'No sabe / No contesta', 
        11: 'No cometio delito a esa edad', 12: 'No participo del hecho'
    },
    'P214': {1: 'Si', 2: 'No', 3: 'No sabe / No contesta'},
    'P215': {1: 'Si', 2: 'No', 3: 'No sabe / No contesta'},
    'P216': {1: 'Procesado', 2: 'Sentenciado'},
    'P217': {1: 'Si', 2: 'No'},
    'P217A': {1: 'Defensor Público (Abogado de oficio)', 2: 'Abogado particular'},
    'P218': {1: 'Inocente', 2: 'Culpable'},
    'P219': {1: 'Si', 2: 'No', 3: 'No sabe / No contesta'},
    'P220': {1: 'Si', 2: 'No', 3: 'No sabe / No contesta'},
    'P301': {1: 'Nada limpios', 2: 'Poco limpios', 3: 'Limpios', 4: 'Muy limpios', 5: 'No sabe / No contesta'},
    'P302': {1: 'Muy mala', 2: 'Mala', 3: 'Buena', 4: 'Muy buena', 5: 'No sabe / No contesta'},
    'P303': {1: 'Si', 2: 'No'},
    'P309': {1: 'Si', 2: 'No', 3: 'No sabe / No contesta'},
    'P310': {1: 'Si', 2: 'No'},
    'P311_1': {1: 'No tuvo Dinero'},
    'P311_2': {1: 'Demoran mucho en atender'},
    'P311_3': {1: 'No confia en los medicos'},
    'P311_4': {1: 'No era grave/ No fue necesario'},
    'P311_5': {1: 'Prefiere curarse con remedios caseros'},
    'P311_6': {1: 'No tiene seguro'},
    'P311_7': {1: 'Se auto receto'},
    'P311_8': {1: 'Falta de Tiempo'},
    'P311_9': {1: 'Por el Maltrato del personal de salud'},
    'P311_10': {1: 'No correspondia atencion para su pabellos'},
    'P311_11': {1: 'otro'},
    'P313_1': {1: 'Si', 2: 'No', 3: 'No sabe / No contesta'},
    'P313_2': {1: 'Si', 2: 'No', 3: 'No sabe / No contesta'},
    'P313_3': {1: 'Si', 2: 'No', 3: 'No sabe / No contesta'},
    'P313_4': {1: 'Si', 2: 'No', 3: 'No sabe / No contesta'},
    'P313_5': {1: 'Si', 2: 'No', 3: 'No sabe / No contesta'},
    'P314': {
        1: 'Porque no le proporcionan ningún trabajo', 
        2: 'Porque no le gustan los trabajos que le ofrecen', 3: 'Porque estudia', 
        4: 'Porque no tengo el dinero para pagar el taller', 5: 'Porque no es rentable', 
        6: 'Porque no tienen material y/o herramienta para trabajar', 7: 'Otros', 
        8: 'No sabe / No contesta', 9: 'Ingreso recien al penal', 10: 'Por enfermedad y/o estado de salud'
    },
    'P315': {
        1: 'Tres veces por semana', 2: 'Dos veces por semana', 3: 'Una vez por semana', 
        4: 'Cada 15 días', 5: 'Una vez al mes', 6: 'Cada tres meses', 
        7: 'Una vez al año', 8: 'Nunca', 9: 'Otros', 10: 'No sabe / No contesta'
    },
    'P316': {
        1: 'Papá/padrastro', 2: 'Mamá/madrasta', 3: 'Hijos(as)', 4: 'Pareja', 
        5: 'Hermanos(as)', 6: 'Abuelo(a)', 7: 'TÍos(as)', 8: 'Amigos(as)', 
        9: 'Otros', 10: 'Ambos padres'
    },
    'P317': {1: 'Si', 2: 'No'},
    'P318': {
        1: 'Por su color de piel/raza', 2: 'Por su idioma/ lengua/ forma de hablar/dejo/ acento', 
        3: 'Por sus costumbres (música, comida y vestimenta)', 
        4: 'Por su origen familiar/ su lugar de Nacimiento/ su región de procedencia', 
        5: 'Por tener alguna discapacidad', 6: 'Por ser mujer', 7: 'Por su orientación sexual', 
        8: 'Otra', 9: 'Por el delito cometido', 10: 'Por estar preso'
    },
    'P319_1': {1: 'Personal de la PNP'},
    'P319_2': {1: 'Personal de seguridad'},
    'P319_3': {1: 'Personal del INPE'},
    'P319_4': {1: 'Abogados'},
    'P319_5': {1: 'Compañeros del EP'},
    'P319_6': {1: 'Otros'},
    'P319_7': {1: 'No sabe / No contesta'},
    'P401_1': {1: 'Realizar una llamada telefonica'},
    'P401_2': {1: 'Recibir la asistencia de un abogado'},
    'P401_3': {1: 'No declarar'},
    'P401_4': {1: 'No recuerda / No contesta'},
    'P402_NO': {1: 'No recuerda / No contesta'},
    'P403_1': {1: 'Estudiar'},
    'P403_2': {1: 'Trabajar'},
    'P403_3': {1: 'Viajar'},
    'P403_4': {1: 'Retornar a mi pais'},
    'P403_5': {1: 'Otros'},
    'P403_6': {1: 'Regresar con mi familia'},
    'P403_7': {1: 'Reincorporarme con la sociedad'}
}

# Apply mappings to respective columns
for col, mapping in mappings.items():
    if col in df.columns:
        df[col] = df[col].map(mapping)
        
        
if 'df' in locals():
    # Guardar el conjunto de datos limpio
    df.to_csv('DATA4.csv', index=False, encoding='utf-8')
    print("\nDatos limpiados y guardados en 'DATA4.csv'")
else:
    print("No se pudo cargar el archivo CSV.")


  df = pd.read_csv('DATA3.csv', encoding='utf-8', sep=',', on_bad_lines='skip')



Datos limpiados y guardados en 'DATA4.csv'


### Eliminar lo innecesario 


### eliminar lo de caratula 

In [11]:
import pandas as pd
import warnings
import numpy as np
import matplotlib as plt

try:
    df = pd.read_csv('DATA4.csv', encoding='utf-8', sep=',', on_bad_lines='skip')
except Exception as e:
    # Capturar cualquier excepción que ocurra al leer el archivo CSV
    print(f"Error al leer el archivo CSV: {e}")
    df = None
    

# Filtrar y eliminar datos innecesarios
columnas_a_eliminar = ['ID_CARATULA','INTERNO_ID','CCDD','CCPP', 'CCDI','CCCP','CCOF_REGIONAL','EST_PENIT_COD','PABELLON','PISO',
                        'ALA','AMBIENTE','RELIGION_ESP','PAIS_NAC_COD','NAC_CCDD','NAC_CCPP','NAC_CCDI','NAC_CCCP','INT_CCDD',
                        'INT_CCPP','INT_CCDI','INT_CCCP','TSALUD_1','TSALUD_2','TSALUD_3','TSALUD_4','TSALUD_5','TSALUD_6',
                        'TSALUD_7','TSALUD_8','TSALUD_7ESP','INT_TIPOVIA','INT_NOMBVIA','INT_PUERTA','INT_BLOCK','INT_INTERIOR',
                        'INT_PISO','INT_MZ','INT_LOTE','INT_KILOMETRO','INT_REFERENCIA','DEL_GENERICO_CD','DEL_ESPECIFICO_CD',
                        'OTROS_DELITOS',
                        'ID_CARATULA.1', 'INTERNO_ID.1', 'CUEST_NRO.1', 'P101_ESP', 'P102A_1', 'P102A_2', 'P102A_3', 'P102A_4', 'P102A_5', 
                        'P102A_6', 'P102A_6ESP', 'P102A_7', 'P102A_8', 'P102A_9', 'P102A_9ESP', 'P104_2_ANIO', 'P104_3_GRADO', 'P105_ESP', 
                        'P107_1', 'P107A_1', 'P107B_1', 'P107C_1', 'P107D_1', 'P107D_1ESP', 'P107_2', 'P107A_2', 'P107B_2', 'P107C_2', 
                        'P107D_2', 'P107D_2ESP', 'P107_3', 'P107A_3', 'P107B_3', 'P107C_3', 'P107D_3', 'P107D_3ESP', 'P107_4', 'P107A_4', 
                        'P107B_4', 'P107C_4', 'P107D_4', 'P107D_4ESP', 'P107_5', 'P107A_5', 'P107B_5', 'P107C_5', 'P107D_5', 'P107D_5ESP', 
                        'P107_6', 'P107A_6', 'P107B_6', 'P107C_6', 'P107D_6', 'P107D_6ESP', 'P107_7', 'P107A_7', 'P107B_7', 'P107C_7', 
                        'P107D_7', 'P107D_7ESP', 'P107_8', 'P107A_8', 'P107B_8', 'P107C_8', 'P107D_8', 'P107D_8ESP', 'P107_9', 'P107A_9', 
                        'P107B_9', 'P107C_9', 'P107D_9', 'P107D_9ESP', 'P107_10', 'P107A_10', 'P107B_10', 'P107C_10', 'P107D_10', 
                        'P107D_10ESP', 'P107_11', 'P107_11ESP', 'P107A_11', 'P107B_11', 'P107C_11', 'P107D_11', 'P107D_11ESP', 'P107_12', 
                        'P107_12ESP', 'P1079A_12', 'P107B_12', 'P107C_12', 'P107D_12', 'P107D_12ESP', 'P108_1', 'P108_2', 'P108_3', 
                        'P108_3ESP', 'P108_4', 'P108_5', 'P108_5ESP', 'P109A_1ESP', 'P109A_2ESP', 'P110C_ESP', 'P115_COD', 'P116_COD', 
                        'P116', 'P117_ESP', 'P118_ESP', 'P120_ESP', 'P121A', 'P121A_ESP', 'P123_6ESP', 'P125_6ESP', 'P132_ESP', 'P134_1', 
                        'P134_2', 'P134_3', 'P134_4', 'P134_5', 'P134_6', 'P134_7', 'P134_7ESP', 'P140_ESP', 'P141_13ESP', 'OMICAP100','ID_CARATULA.2', 'INTERNO_ID.2', 'CUEST_NRO.2', 'P201_CCDD', 'P201_CCPP', 'P201_CCDI', 'P202_ESP', 'P203_ESP', 
                        'P205_ESP', 'P208_ESP', 'P210_ESP', 'P212_ESP', 'P213_ESP', 'P214A_1', 'P214A_2', 'P214A_3', 'P214A_4', 'P214A_5', 
                        'P214A_6', 'P214A_7', 'P214A_6ESP', 'P215A', 'P220A', 'P220A_NO', 'P221_1', 'P222_1', 'P222_1ESP', 'P223_1', 
                        'P221_2', 'P222_2', 'P222_2ESP', 'P223_2', 'P221_3', 'P222_3', 'P222_3ESP', 'P223_3', 'OMICAP200',
                        'ID_CARATULA.3', 'INTERNO_ID.3', 'CUEST_NRO.3', 'P304_1_A', 'P304_2_A', 'P304_3_A', 'P304_4_A', 'P304_4_IES', 'P305', 
                        'P306', 'P306_ESP', 'P307', 'P308', 'P308_ESP', 'P309A', 'P311_11ESP', 'P312_1', 'P312A_1', 'P312B_1', 'P312_2', 
                        'P312A_2', 'P312B_2', 'P312_3', 'P312A_3', 'P312B_3', 'P312_4', 'P312A_4', 'P312B_4', 'P312_5', 'P312A_5', 'P312B_5', 
                        'P312_6', 'P312_6ESP', 'P312A_6', 'P312B_6', 'P313_5ESP', 'P314_ESP', 'P315_ESP', 'P316_ESP', 'P318_ESP', 
                        'P319_6ESP', 'OMICAP300', 'ID_CARATULA.4', 'INTERNO_ID.4', 'CUEST_NRO.4', 'P404_FEC', 'P404_RFINAL', 'P404_MNRPTA', 
                        'P404_MNRPTA_ESP', 'OMICAP400','P403_5ESP'              ]
df.drop(columnas_a_eliminar, axis=1, inplace=True)


if 'df' in locals():
    # Guardar el conjunto de datos limpio
    df.to_csv('DATA5.csv', index=False, encoding='utf-8')
    print("\nDatos limpiados y guardados en 'DATA5.csv'")
else:
    print("No se pudo cargar el archivo CSV.")
    
    

  df = pd.read_csv('DATA4.csv', encoding='utf-8', sep=',', on_bad_lines='skip')



Datos limpiados y guardados en 'DATA5.csv'


### verificar el tipo de dato

In [12]:
import pandas as pd

try:
    data = pd.read_csv('DATA5.csv', encoding='utf-8')
except FileNotFoundError as e:
    print(f"Error: No se encontró el archivo 'DATA5.csv': {e}")
    data = None
except Exception as e:
    print(f"Error al leer el archivo 'DATA5.csv': {e}")
    data = None

if data is not None:
    # Mostrar los tipos de datos de todas las columnas
    print("Tipos de datos de todas las columnas:")
    for column, dtype in data.dtypes.items():
        print(f"{column}: {dtype}")

    # Convertir 'CUEST_NRO' a entero
    data['CUEST_NRO'] = data['CUEST_NRO'].astype(int)

    # Función para convertir valores a enteros, reemplazando valores no válidos con None
    def to_int(value):
        try:
            return int(value)
        except (ValueError, TypeError):
            return None

    # Aplicar la función a la columna 'EDAD'
    data['EDAD'] = data['EDAD'].apply(to_int)

    # Convertir otras columnas que deben ser enteros
    int_columns = ['FEC_NAC_DIA', 'FEC_NAC_MES', 'FEC_NAC_ANIO', 'P109B_1', 'P109B_2', 'P109B_3', 'P114A', 'P122', 'P124', 'P137A_HIJO', 'P137A_HIJA', 'P207', 'P219A', 'P402_M', 'P402_A']
    for col in int_columns:
        data[col] = data[col].apply(to_int)

    # Convertir las columnas a sus tipos adecuados
    data = data.astype({
    'CUEST_NRO': 'int',
    'DD': 'str',
    'PP': 'str',
    'DI': 'str',
    'CP': 'str',
    'OF_REGIONAL': 'str',
    'EST_PENIT': 'str',
    'GENERO': 'str',
    'E_CIVIL': 'str',
    'RELIGION': 'str',
    'NACIONALIDAD': 'str',
    'PAIS_NAC': 'str',
    'NAC_DD': 'str',
    'NAC_PP': 'str',
    'NAC_DI': 'str',
    'NAC_CP': 'str',
    'INT_DD': 'str',
    'INT_PP': 'str',
    'INT_DI': 'str',
    'INT_CP': 'str',
    'SITUACION_JURIDICA': 'str',
    'DELITO_GENERICO': 'str',
    'DELITO_ESPECIFICO': 'str',
    'P101': 'str',
    'P102': 'str',
    'P103_1': 'str',
    'P103_2': 'str',
    'P103_3': 'str',
    'P104_1': 'str',
    'P104_4_CCEE': 'str',
    'P105': 'str',
    'P106': 'str',
    'P109_1': 'str',
    'P109A_1': 'str',
    'P109C_1': 'str',
    'P109D_1': 'str',
    'P109_2': 'str',
    'P109A_2': 'str',
    'P109C_2': 'str',
    'P109D_2': 'str',
    'P109_3': 'str',
    'P109C_3': 'str',
    'P109D_3': 'str',
    'P110': 'str',
    'P110A': 'str',
    'P110B': 'str',
    'P110C': 'str',
    'P111': 'str',
    'P112': 'str',
    'P113_1': 'str',
    'P113_2': 'str',
    'P113_3': 'str',
    'P113_4': 'str',
    'P113_5': 'str',
    'P113_6': 'str',
    'P113A_1': 'str',
    'P113A_2': 'str',
    'P113A_3': 'str',
    'P113A_4': 'str',
    'P113A_5': 'str',
    'P113A_6': 'str',
    'P114': 'str',
    'P114A_NO': 'str',
    'P115': 'str',
    'P117': 'str',
    'P118': 'str',
    'P119_1': 'str',
    'P119_2': 'str',
    'P119_3': 'str',
    'P119_4': 'str',
    'P119_5': 'str',
    'P119_6': 'str',
    'P120': 'str',
    'P121': 'str',
    'P122_NO': 'str',
    'P123_1': 'str',
    'P123_2': 'str',
    'P123_3': 'str',
    'P123_4': 'str',
    'P123_5': 'str',
    'P123_6': 'str',
    'P124_NO': 'str',
    'P125_1': 'str',
    'P125_2': 'str',
    'P125_3': 'str',
    'P125_4': 'str',
    'P125_5': 'str',
    'P125_6': 'str',
    'P126': 'str',
    'P127': 'str',
    'P128': 'str',
    'P129': 'str',
    'P130': 'str',
    'P131': 'str',
    'P132': 'str',
    'P133': 'str',
    'P135': 'str',
    'P136': 'str',
    'P137': 'str',
    'P138': 'str',
    'P139': 'str',
    'P140': 'str',
    'P141_1': 'str',
    'P141_2': 'str',
    'P141_3': 'str',
    'P141_4': 'str',
    'P141_5': 'str',
    'P141_6': 'str',
    'P141_7': 'str',
    'P141_8': 'str',
    'P141_9': 'str',
    'P141_10': 'str',
    'P141_11': 'str',
    'P141_12': 'str',
    'P141_13': 'str',
    'P201_DD': 'str',
    'P201_PP': 'str',
    'P201_DI': 'str',
    'P202': 'str',
    'P203': 'str',
    'P204': 'str',
    'P205': 'str',
    'P206': 'str',
    'P207_NO': 'str',
    'P208': 'str',
    'P209': 'str',
    'P210': 'str',
    'P211': 'str',
    'P212': 'str',
    'P213': 'str',
    'P214': 'str',
    'P215': 'str',
    'P216': 'str',
    'P217': 'str',
    'P217A': 'str',
    'P218': 'str',
    'P219': 'str',
    'P219A_NO': 'str',
    'P220': 'str',
    'P301': 'str',
    'P302': 'str',
    'P303': 'str',
    'P309': 'str',
    'P310': 'str',
    'P311_1': 'str',
    'P311_2': 'str',
    'P311_3': 'str',
    'P311_4': 'str',
    'P311_5': 'str',
    'P311_6': 'str',
    'P311_7': 'str',
    'P311_8': 'str',
    'P311_9': 'str',
    'P311_10': 'str',
    'P313_1': 'str',
    'P313_2': 'str',
    'P313_3': 'str',
    'P313_4': 'str',
    'P313_5': 'str',
    'P314': 'str',
    'P315': 'str',
    'P316': 'str',
    'P317': 'str',
    'P318': 'str',
    'P319_1': 'str',
    'P319_2': 'str',
    'P319_3': 'str',
    'P319_4': 'str',
    'P319_5': 'str',
    'P319_6': 'str',
    'P402_NO': 'str',
    'P403_1': 'str',
    'P403_2': 'str',
    'P403_3': 'str',
    'P403_4': 'str',
    'P403_5': 'str',
    'P403_6': 'str',
    'P403_7': 'str',
    })

    # Guardar el conjunto de datos limpio
    data.to_csv('DATA6.csv', index=False, encoding='utf-8')
    print("\nDatos limpiados y guardados en 'DATA6.csv'")
else:
    print("No se pudo cargar el archivo CSV.")


  data = pd.read_csv('DATA5.csv', encoding='utf-8')


Tipos de datos de todas las columnas:
CUEST_NRO: float64
DD: object
PP: object
DI: object
CP: object
OF_REGIONAL: object
EST_PENIT: object
GENERO: object
E_CIVIL: object
RELIGION: object
EDAD: float64
FEC_NAC_DIA: float64
FEC_NAC_MES: float64
FEC_NAC_ANIO: float64
NACIONALIDAD: object
PAIS_NAC: object
NAC_DD: object
NAC_PP: object
NAC_DI: object
NAC_CP: object
INT_DD: object
INT_PP: object
INT_DI: object
INT_CP: object
SITUACION_JURIDICA: object
DELITO_GENERICO: object
DELITO_ESPECIFICO: object
P101: object
P102: object
P103_1: object
P103_2: object
P103_3: object
P104_1: object
P104_4_CCEE: object
P105: object
P106: object
P109_1: object
P109A_1: object
P109B_1: float64
P109C_1: object
P109D_1: object
P109_2: object
P109A_2: object
P109B_2: float64
P109C_2: object
P109D_2: object
P109_3: object
P109B_3: float64
P109C_3: object
P109D_3: object
P110: object
P110A: object
P110B: object
P110C: object
P111: object
P112: object
P113_1: object
P113_2: object
P113_3: object
P113_4: object
P11

In [11]:
data.dtypes

CUEST_NRO     int32
DD           object
PP           object
DI           object
CP           object
              ...  
P403_3       object
P403_4       object
P403_5       object
P403_6       object
P403_7       object
Length: 200, dtype: object