In [1]:
import pandas as pd

# Leer el CSV
df = pd.read_csv('../data/data_divorce.csv')

## Descripción General del Conjunto de Datos

In [2]:
# Descripcion del conjunto de datos
filas, columnas = df.shape
print(f"Total de registros/observaciones: {filas}")
print(f"Total de variables/columnas: {columnas}")


Total de registros/observaciones: 71576
Total de variables/columnas: 18


Listado de Variables con Tipo y Descripción

In [3]:
# Diccionario con descripción de variables
descripcion_variables = {
    'DEPREG': 'Departamento de registro del divorcio',
    'MUPREG': 'Municipio de registro del divorcio',
    'MESREG': 'Mes de registro del divorcio',
    'AÑOREG': 'Año de registro del divorcio',
    'DIAOCU': 'Día de ocurrencia del divorcio',
    'MESOCU': 'Mes de ocurrencia del divorcio',
    'DEPOCU': 'Departamento de ocurrencia del divorcio',
    'MUPOCU': 'Municipio de ocurrencia del divorcio',
    'EDADHOM': 'Edad del hombre al momento del divorcio',
    'EDADMUJ': 'Edad de la mujer al momento del divorcio',
    'GETHOM': 'Grupo étnico del hombre',
    'GETMUJ': 'Grupo étnico de la mujer',
    'NACHOM': 'Nacionalidad del hombre',
    'NACMUJ': 'Nacionalidad de la mujer',
    'ESCHOM': 'Nivel educativo del hombre',
    'ESCMUJ': 'Nivel educativo de la mujer',
    'OCUHOM': 'Ocupación del hombre',
    'OCUMUJ': 'Ocupación de la mujer'
}

# Clasificación de variables por tipo
variables_categoricas = ['DEPREG', 'MUPREG', 'MESREG', 'MESOCU', 'DEPOCU', 'MUPOCU',
                         'GETHOM', 'GETMUJ', 'NACHOM', 'NACMUJ', 'ESCHOM', 'ESCMUJ',
                         'OCUHOM', 'OCUMUJ']

variables_numericas = ['AÑOREG', 'DIAOCU', 'EDADHOM', 'EDADMUJ']

# Crear tabla descriptiva
tabla_variables = pd.DataFrame({
    'Variable': df.columns,
    'Descripción': [descripcion_variables.get(col, 'Sin descripción') for col in df.columns],
    'Tipo de Dato': df.dtypes.astype(str),
    'Clasificación': ['Numérica' if col in variables_numericas else 'Categórica' for col in df.columns],
    'Valores Únicos': [df[col].nunique() for col in df.columns],
    'Valores Nulos': [df[col].isnull().sum() for col in df.columns]
})

tabla_variables

Unnamed: 0,Variable,Descripción,Tipo de Dato,Clasificación,Valores Únicos,Valores Nulos
DEPREG,DEPREG,Departamento de registro del divorcio,str,Categórica,22,0
MUPREG,MUPREG,Municipio de registro del divorcio,str,Categórica,331,0
MESREG,MESREG,Mes de registro del divorcio,str,Categórica,12,0
AÑOREG,AÑOREG,Año de registro del divorcio,float64,Numérica,12,0
DIAOCU,DIAOCU,Día de ocurrencia del divorcio,float64,Numérica,31,0
MESOCU,MESOCU,Mes de ocurrencia del divorcio,str,Categórica,12,0
DEPOCU,DEPOCU,Departamento de ocurrencia del divorcio,str,Categórica,22,0
MUPOCU,MUPOCU,Municipio de ocurrencia del divorcio,str,Categórica,331,0
EDADHOM,EDADHOM,Edad del hombre al momento del divorcio,str,Numérica,79,0
EDADMUJ,EDADMUJ,Edad de la mujer al momento del divorcio,str,Numérica,67,0


### Analisis exploratorio de variables categóricas
Tabla de frecuencias de las variables categoricas

In [4]:
# Elegir una de las variables categoricas
var_categoricas = ['DEPREG', 'MUPREG', 'MESREG', 'MESOCU', 'DEPOCU', 'MUPOCU', 'GETHOM', 'GETMUJ', 
                   'NACHOM', 'NACMUJ', 'ESCHOM', 'ESCMUJ', 'OCUHOM', 'OCUMUJ']

# Crear tabla de frecuencias
tabla_freq = pd.DataFrame({
    'Categoría': df['OCUMUJ'].value_counts().index,
    'Frecuencia': df['OCUMUJ'].value_counts().values,
    'Porcentaje': (df['OCUMUJ'].value_counts(normalize=True).values * 100).round(2)
})

# Ordenar por categoría
tabla_freq = tabla_freq.sort_values('Frecuencia', ascending= False).reset_index(drop=True)

#Imprimir tabla
tabla_freq

Unnamed: 0,Categoría,Frecuencia,Porcentaje
0,No especificado en otro grupo,34682,48.45
1,Ignorado,18259,25.51
2,Profesionales de la enseñanza,3653,5.10
3,Oficinistas,2701,3.77
4,Empleados contables y encargados del registro ...,1483,2.07
...,...,...,...
120,"Panaderos, pasteleros y confiteros",1,0.00
121,Limpiadores y asistentes domesticos,1,0.00
122,Jubilado,1,0.00
123,Agricultores y trabajadores calificados de exp...,1,0.00
