In [1]:
import os
import pandas as pd
from tabulate import tabulate
import matplotlib.pyplot as plt

In [2]:
modulo_hogar = pd.read_csv("../input/Enaho01-2020-100.csv", encoding='latin1',sep =",", low_memory=False)
columnas_interes = [ "CONGLOME", "VIVIENDA", "HOGAR", "UBIGEO", "DOMINIO", "ESTRATO","P1121", "P1123", "P1124", "P1125",
                    "P1126", "P1127", "P1142", "P1144"]
modulo_hogar = modulo_hogar[columnas_interes]

# Variables de interés: Parentesco Sexo y Edad
modulo_miembros = pd.read_csv("../input/Enaho01-2020-200.csv", encoding='latin1',sep =",", low_memory=False)
columnas_interes_miembros = ["CONGLOME", "VIVIENDA", "HOGAR", "UBIGEO", "DOMINIO", "ESTRATO","CODPERSO", "P203B", "P207", 
                             "P208A"]
modulo_miembros = modulo_miembros[columnas_interes_miembros]

# Variables de interés
modulo_educa = pd.read_csv("../input/Enaho01a-2020-300.csv", encoding='latin1',sep =",", low_memory=False)
columnas_interes_educa = ["CONGLOME","VIVIENDA","HOGAR","UBIGEO","DOMINIO","ESTRATO","CODPERSO","P300A","P304A","P307A1",
    "P307A2","P307A3","P307A4","P307A4_5","P307A4_6","P307A4_7","P307B1","P307B2","P307B3","P307B4","P307B4_5","P307B4_6",
    "P307B4_7","P308A","P308D","P314A","P314B$1","P314B$2","P314B$3","P314B$4","P314B$5","P314B$6","P314B$7","P314B1_1",
    "P314B1_2","P314B1_8","P314B1_9","P314B1_6","P314B1_7","P314D","P316$1","P316$2", "P316$3","P316$4","P316$5","P316$6",
    "P316$7","P316$8","P316$9","P316$10","P316$11","P316$12","P316A1","P316B","P316C1","P316C2","P316C3","P316C4","P316C5",
    "P316C6","P316C7","P316C8","P316C9","P316C10","T313A"]
modulo_educa = modulo_educa[columnas_interes_educa]

sumaria = pd.read_csv("../input/Sumaria-2020.csv", encoding='latin1',sep =",", low_memory=False)
columnas_interes_sumaria = ['CONGLOME','VIVIENDA','HOGAR','UBIGEO','DOMINIO','ESTRATO','ESTRSOCIAL','MIEPERHO','TOTMIEHO']
sumaria = sumaria[columnas_interes_sumaria]

In [3]:
# Combinar módulo_hogar y módulo_miembros utilizando variables de identificación
hogar_miembros = pd.merge(modulo_hogar, modulo_miembros, on=["CONGLOME","VIVIENDA","HOGAR","UBIGEO","DOMINIO","ESTRATO"])

# Combinar hogar_miembros y módulo_educa utilizando variables de identificación
df = pd.merge(hogar_miembros, modulo_educa, on=["CONGLOME","VIVIENDA","HOGAR","CODPERSO","UBIGEO","DOMINIO","ESTRATO"])

base_final = pd.merge(df, sumaria, on=['CONGLOME','VIVIENDA','HOGAR','UBIGEO','DOMINIO',"ESTRATO"])

In [4]:
# Crear una variable "departamento" extrayendo los primeros 2 dígitos de "ubigeo"
base_final["DEPARTAMENTO"] = base_final["UBIGEO"].astype(str).str[:2]

# Convertir la variable "departamento" a tipo de dato numérico y reemplazar los valores
base_final["DEPARTAMENTO"] = pd.to_numeric(base_final["DEPARTAMENTO"], errors="coerce")

# Recodificar la variable "departamento" para asignar nombres a los códigos numéricos
dict_departamento = {
    1: "Amazonas", 2: "Ancash", 3: "Apurímac", 4: "Arequipa", 5: "Ayacucho", 6: "Cajamarca", 7: "Callao", 8: "Cusco",
    9: "Huancavelica", 10: "Huánuco", 11: "Ica", 12: "Junín", 13: "La Libertad", 14: "Lambayeque", 15: "Lima",
    16: "Loreto", 17: "Madre de Dios", 18: "Moquegua", 19: "Pasco", 20: "Piura", 21: "Puno", 22: "San Martín", 
    23: "Tacna", 24: "Tumbes", 25: "Ucayali"
}
base_final["DEPARTAMENTO"].replace(dict_departamento, inplace=True)

# Recodificar la variable "estrato" para crear la variable "area"
base_final["AREA"] = base_final["ESTRATO"].apply(lambda x: 1 if 1 <= x <= 5 else 0)

# Definir etiquetas para la variable "area"
dict_area = {1: "Urbano", 0: "Rural"}
base_final["AREA"] = base_final["AREA"].map(dict_area)

In [5]:
# Recodificar la variable "dominio" para crear la variable "zona"
dict_zona = { 1:"Costa", 2:"Costa", 3: "Costa", 4:"Sierra", 5:"Sierra", 6:"Sierra", 7:"Selva", 8: "Lima Metropolitana"}
base_final["ZONA"] = base_final["DOMINIO"].map(dict_zona)

In [6]:
# DESCRIPTIVOS DE LAS VARIABLES
# Filtrar el DataFrame para incluir solo las filas con valores 1, 2 o 3 en la columna "P308A"
base_filtrada = base_final[base_final["P308A"].isin(["1", "2", "3"])]
# Convertir la columna "P208A" a tipo numérico (si es posible)
base_filtrada["P208A"] = pd.to_numeric(base_filtrada["P208A"], errors="coerce")

# Filtrar las filas donde "P208A" es menor que 18
base_filtrada = base_filtrada[base_filtrada["P208A"] <= 18]

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  base_filtrada["P208A"] = pd.to_numeric(base_filtrada["P208A"], errors="coerce")


![image.png](attachment:image.png)

In [7]:
def generar_tabla_recuento(dataframe, columna, descripcion_valores, guardar_como_jpeg=False):
    # Obtener el recuento de valores de la columna especificada en el DataFrame
    recuento = dataframe[columna].value_counts().reset_index()

    # Renombrar las columnas del DataFrame de recuento
    recuento.columns = [descripcion_valores, "Recuento"]

    # Calcular porcentajes
    recuento["Porcentaje (%)"] = (recuento["Recuento"] / recuento["Recuento"].sum()) * 100

    # Mostrar el DataFrame de recuento en una tabla con rayitas
    tabla_formateada = tabulate(recuento, headers="keys", tablefmt="grid")

    # Mostrar la tabla formateada en la consola
    print(tabla_formateada)

    if guardar_como_jpeg:
        # Guardar la tabla formateada como una imagen JPEG en la ruta especificada
        nombre_archivo = os.path.join("../output/tables", f"{descripcion_valores}.jpeg")
        
        # Configurar el tamaño y los márgenes de la figura
        plt.figure(figsize=(8, 6))
        plt.subplots_adjust(left=0.2, top=0.9, right=0.8, bottom=0.1)
        
        # Configurar el tamaño de la fuente para la tabla
        plt.rc('font', size=12)
        
        # Crear una tabla en lugar de texto
        tabla = plt.table(cellText=recuento.values, colLabels=recuento.columns, loc='center', cellLoc='center')
        
        # Establecer el formato de las celdas de la tabla
        tabla.auto_set_font_size(False)
        tabla.set_fontsize(12)
        
        # Ocultar los ejes
        plt.axis('off')
        
        # Guardar la figura como imagen JPEG
        plt.savefig(nombre_archivo, bbox_inches='tight', dpi=300)
        plt.close()
        print(f"La tabla se ha guardado en {nombre_archivo}")

# Ejemplo de uso:
data = {'Columna': ['A', 'B', 'A', 'C', 'B', 'A', 'A', 'C']}
df = pd.DataFrame(data)
generar_tabla_recuento(df, 'Columna', 'Valores', guardar_como_jpeg=True)


+----+-----------+------------+------------------+
|    | Valores   |   Recuento |   Porcentaje (%) |
|  0 | A         |          4 |               50 |
+----+-----------+------------+------------------+
|  1 | B         |          2 |               25 |
+----+-----------+------------+------------------+
|  2 | C         |          2 |               25 |
+----+-----------+------------+------------------+
La tabla se ha guardado en ../output/tables\Valores.jpeg


# VARIABLES X

In [8]:
generar_tabla_recuento(base_filtrada, "P308A", "Nivel Educativo", guardar_como_jpeg=True) 

+----+-------------------+------------+------------------+
|    |   Nivel Educativo |   Recuento |   Porcentaje (%) |
|  0 |                 2 |      12394 |          46.0761 |
+----+-------------------+------------+------------------+
|  1 |                 3 |      10061 |          37.4029 |
+----+-------------------+------------+------------------+
|  2 |                 1 |       4444 |          16.5211 |
+----+-------------------+------------+------------------+
La tabla se ha guardado en ../output/tables\Nivel Educativo.jpeg


In [9]:
generar_tabla_recuento(base_filtrada, "P308D", "Centro de Estudios", guardar_como_jpeg=True) 
#descripcion_nivel_educativo = { 1 Estatal 2 No estatal}

+----+----------------------+------------+------------------+
|    |   Centro de Estudios |   Recuento |   Porcentaje (%) |
|  0 |                    1 |      23675 |          88.0144 |
+----+----------------------+------------+------------------+
|  1 |                    2 |       3224 |          11.9856 |
+----+----------------------+------------+------------------+
La tabla se ha guardado en ../output/tables\Centro de Estudios.jpeg


In [10]:
generar_tabla_recuento(base_filtrada, "P300A", "Centro de Estudios", guardar_como_jpeg=True)  
#1 Quechua 2 Aimara 3 Otra lengua nativa 4 Castellano 6 Portugués 7 Otra lengua extranjera 
# 8 No escucha/no habla9 Lengua de señas peruanas 10 Ashaninka 11 Awajun/Aguaruna 12 Shipibo-Konibo 
# 13 Shawi/Chayahuita 14 Matsigenka/Machiguenga 15 Achuar

+----+----------------------+------------+------------------+
|    |   Centro de Estudios |   Recuento |   Porcentaje (%) |
|  0 |                    4 |      23654 |       87.9364    |
+----+----------------------+------------+------------------+
|  1 |                    1 |       2258 |        8.39436   |
+----+----------------------+------------+------------------+
|  2 |                    3 |        251 |        0.93312   |
+----+----------------------+------------+------------------+
|  3 |                   11 |        179 |        0.665452  |
+----+----------------------+------------+------------------+
|  4 |                   10 |        170 |        0.631994  |
+----+----------------------+------------+------------------+
|  5 |                   12 |        136 |        0.505595  |
+----+----------------------+------------+------------------+
|  6 |                    2 |         61 |        0.226774  |
+----+----------------------+------------+------------------+
|  7 |  

In [11]:
generar_tabla_recuento(base_filtrada, "P207", "Sexo", guardar_como_jpeg=True)  # 1 Hombre 2 Mujer

+----+--------+------------+------------------+
|    |   Sexo |   Recuento |   Porcentaje (%) |
|  0 |      1 |      13788 |          51.2584 |
+----+--------+------------+------------------+
|  1 |      2 |      13111 |          48.7416 |
+----+--------+------------+------------------+
La tabla se ha guardado en ../output/tables\Sexo.jpeg


In [12]:
generar_tabla_recuento(base_filtrada, "AREA", "Area", guardar_como_jpeg=True)  

+----+--------+------------+------------------+
|    | Area   |   Recuento |   Porcentaje (%) |
|  0 | Urbano |      15551 |          57.8126 |
+----+--------+------------+------------------+
|  1 | Rural  |      11348 |          42.1874 |
+----+--------+------------+------------------+
La tabla se ha guardado en ../output/tables\Area.jpeg


In [13]:
generar_tabla_recuento(base_filtrada, "ESTRSOCIAL", "Estrato Social", guardar_como_jpeg=True) 
# 1 “A” 2 “B” 3 “C” 4 “D” 5 “E” 6 “RURAL”

+----+------------------+------------+------------------+
|    |   Estrato Social |   Recuento |   Porcentaje (%) |
|  0 |                6 |      11348 |         42.1874  |
+----+------------------+------------+------------------+
|  1 |                5 |       6832 |         25.3987  |
+----+------------------+------------+------------------+
|  2 |                4 |       5342 |         19.8595  |
+----+------------------+------------+------------------+
|  3 |                3 |       1981 |          7.36459 |
+----+------------------+------------+------------------+
|  4 |                2 |        975 |          3.62467 |
+----+------------------+------------+------------------+
|  5 |                1 |        421 |          1.56511 |
+----+------------------+------------+------------------+
La tabla se ha guardado en ../output/tables\Estrato Social.jpeg


In [14]:
generar_tabla_recuento(base_filtrada, "P208A", "Edad" , guardar_como_jpeg=True) 

+----+--------+------------+------------------+
|    |   Edad |   Recuento |   Porcentaje (%) |
|  0 |     12 |       2212 |         8.22335  |
+----+--------+------------+------------------+
|  1 |     15 |       2208 |         8.20848  |
+----+--------+------------+------------------+
|  2 |     11 |       2201 |         8.18246  |
+----+--------+------------+------------------+
|  3 |     14 |       2161 |         8.03376  |
+----+--------+------------+------------------+
|  4 |     10 |       2113 |         7.85531  |
+----+--------+------------+------------------+
|  5 |     13 |       2092 |         7.77724  |
+----+--------+------------+------------------+
|  6 |      9 |       2018 |         7.50214  |
+----+--------+------------+------------------+
|  7 |      7 |       1862 |         6.92219  |
+----+--------+------------+------------------+
|  8 |      8 |       1839 |         6.83669  |
+----+--------+------------+------------------+
|  9 |      6 |       1756 |         6.5

In [15]:
generar_tabla_recuento(base_filtrada, "P1121", "Electricidad", guardar_como_jpeg=True) 

+----+----------------+------------+------------------+
|    |   Electricidad |   Recuento |   Porcentaje (%) |
|  0 |              1 |      24654 |         91.654   |
+----+----------------+------------+------------------+
|  1 |              0 |       2245 |          8.34604 |
+----+----------------+------------+------------------+
La tabla se ha guardado en ../output/tables\Electricidad.jpeg


In [16]:
# DIMENSIÓN DE ACCESO

In [17]:
generar_tabla_recuento(base_filtrada, "P1144", "Internet", guardar_como_jpeg=True)  # 1:Tiene conexion a INTERNET

+----+------------+------------+------------------+
|    |   Internet |   Recuento |   Porcentaje (%) |
|  0 |          0 |      17822 |          66.2553 |
+----+------------+------------+------------------+
|  1 |          1 |       9077 |          33.7447 |
+----+------------+------------+------------------+
La tabla se ha guardado en ../output/tables\Internet.jpeg


In [18]:
generar_tabla_recuento(base_filtrada, "P314B$1", "Uso de Internet en el hogar", guardar_como_jpeg=True)  

+----+-------------------------------+------------+------------------+
|    | Uso de Internet en el hogar   |   Recuento |   Porcentaje (%) |
|  0 |                               |      20647 |         76.7575  |
+----+-------------------------------+------------+------------------+
|  1 | 0                             |       4808 |         17.8743  |
+----+-------------------------------+------------+------------------+
|  2 | 1                             |       1444 |          5.36823 |
+----+-------------------------------+------------+------------------+
La tabla se ha guardado en ../output/tables\Uso de Internet en el hogar.jpeg


In [19]:
generar_tabla_recuento(base_filtrada, "P314B$2", "Uso de Internet en el trabajo", guardar_como_jpeg=True) 

+----+---------------------------------+------------+------------------+
|    | Uso de Internet en el trabajo   |   Recuento |   Porcentaje (%) |
|  0 |                                 |      20647 |       76.7575    |
+----+---------------------------------+------------+------------------+
|  1 | 0                               |       6243 |       23.209     |
+----+---------------------------------+------------+------------------+
|  2 | 2                               |          9 |        0.0334585 |
+----+---------------------------------+------------+------------------+
La tabla se ha guardado en ../output/tables\Uso de Internet en el trabajo.jpeg


In [20]:
generar_tabla_recuento(base_filtrada, "P314B$3", "Uso de Internet en el establecimiento educativo", guardar_como_jpeg=True) 

+----+---------------------------------------------------+------------+------------------+
|    | Uso de Internet en el establecimiento educativo   |   Recuento |   Porcentaje (%) |
|  0 |                                                   |      20647 |       76.7575    |
+----+---------------------------------------------------+------------+------------------+
|  1 | 0                                                 |       6233 |       23.1719    |
+----+---------------------------------------------------+------------+------------------+
|  2 | 3                                                 |         19 |        0.0706346 |
+----+---------------------------------------------------+------------+------------------+
La tabla se ha guardado en ../output/tables\Uso de Internet en el establecimiento educativo.jpeg


In [21]:
generar_tabla_recuento(base_filtrada, "P314B$4", "Cabina Publica", guardar_como_jpeg=True) 

+----+------------------+------------+------------------+
|    | Cabina Publica   |   Recuento |   Porcentaje (%) |
|  0 |                  |      20647 |        76.7575   |
+----+------------------+------------+------------------+
|  1 | 0                |       6084 |        22.6179   |
+----+------------------+------------+------------------+
|  2 | 4                |        168 |         0.624559 |
+----+------------------+------------+------------------+
La tabla se ha guardado en ../output/tables\Cabina Publica.jpeg


In [22]:
generar_tabla_recuento(base_filtrada, "P314B$5", "Uso del internet en casa de otra persona", guardar_como_jpeg=True) 

+----+--------------------------------------------+------------+------------------+
|    | Uso del internet en casa de otra persona   |   Recuento |   Porcentaje (%) |
|  0 |                                            |      20647 |        76.7575   |
+----+--------------------------------------------+------------+------------------+
|  1 | 0                                          |       6113 |        22.7258   |
+----+--------------------------------------------+------------+------------------+
|  2 | 5                                          |        139 |         0.516748 |
+----+--------------------------------------------+------------+------------------+
La tabla se ha guardado en ../output/tables\Uso del internet en casa de otra persona.jpeg


In [23]:
generar_tabla_recuento(base_filtrada, "P314B$5", "Uso del internet en Otro", guardar_como_jpeg=True) 

+----+----------------------------+------------+------------------+
|    | Uso del internet en Otro   |   Recuento |   Porcentaje (%) |
|  0 |                            |      20647 |        76.7575   |
+----+----------------------------+------------+------------------+
|  1 | 0                          |       6113 |        22.7258   |
+----+----------------------------+------------+------------------+
|  2 | 5                          |        139 |         0.516748 |
+----+----------------------------+------------+------------------+
La tabla se ha guardado en ../output/tables\Uso del internet en Otro.jpeg


In [24]:
generar_tabla_recuento(base_filtrada, "P314B$6", "Otro", guardar_como_jpeg=True) 

+----+--------+------------+------------------+
|    | Otro   |   Recuento |   Porcentaje (%) |
|  0 |        |      20647 |        76.7575   |
+----+--------+------------+------------------+
|  1 | 0      |       6153 |        22.8745   |
+----+--------+------------+------------------+
|  2 | 6      |         99 |         0.368043 |
+----+--------+------------+------------------+
La tabla se ha guardado en ../output/tables\Otro.jpeg


In [25]:
generar_tabla_recuento(base_filtrada, "P314B$7", "Uso del internet en Acceso movil de Internet", guardar_como_jpeg=True) 

+----+------------------------------------------------+------------+------------------+
|    | Uso del internet en Acceso movil de Internet   |   Recuento |   Porcentaje (%) |
|  0 |                                                |      20647 |         76.7575  |
+----+------------------------------------------------+------------+------------------+
|  1 | 7                                              |       5396 |         20.0602  |
+----+------------------------------------------------+------------+------------------+
|  2 | 0                                              |        856 |          3.18227 |
+----+------------------------------------------------+------------+------------------+
La tabla se ha guardado en ../output/tables\Uso del internet en Acceso movil de Internet.jpeg


In [26]:
generar_tabla_recuento(base_filtrada, "P314B1_1", "Uso del internet a travez de una computadora", guardar_como_jpeg=True) 

+----+------------------------------------------------+------------+------------------+
|    | Uso del internet a travez de una computadora   |   Recuento |   Porcentaje (%) |
|  0 | 0                                              |      13320 |         49.5186  |
+----+------------------------------------------------+------------+------------------+
|  1 |                                                |      11750 |         43.6819  |
+----+------------------------------------------------+------------+------------------+
|  2 | 1                                              |       1829 |          6.79951 |
+----+------------------------------------------------+------------+------------------+
La tabla se ha guardado en ../output/tables\Uso del internet a travez de una computadora.jpeg


In [27]:
generar_tabla_recuento(base_filtrada, "P314B1_2", "Uso del internet a travez de una LAPTOP",, guardar_como_jpeg=True) 

SyntaxError: invalid syntax (434223969.py, line 1)

In [None]:
generar_tabla_recuento(base_filtrada, "P314B1_8", "Uso del internet a travez de una CELULAR SIN PLAN DE DATOS")

In [None]:
generar_tabla_recuento(base_filtrada, "P314B1_9", "Uso del internet a travez de una CELULAR CON PLAN DE DATOS")

In [None]:
#generar_tabla_recuento(base_filtrada, "P314B1_5", "Uso del internet a travez de una CELULAR DE SU CENTRO DE TRABAJO")

In [None]:
generar_tabla_recuento(base_filtrada, "P314B1_6", "Uso del internet a travez de una TABLET")

In [None]:
generar_tabla_recuento(base_filtrada, "P314B1_7", "Uso del internet a travez de una OTRO")

In [None]:
# DIMENSIÓN DE APROPIACION

In [None]:
# Crear la tabla de frecuencia cruzada utilizando crosstab
tabla_frecuencia = pd.crosstab(base_final["AREA"], base_final["P308D"], margins=True, margins_name="Total")

# Calcular los porcentajes
tabla_porcentajes = tabla_frecuencia.div(tabla_frecuencia["Total"], axis=0) * 100
tabla_porcentajes = tabla_porcentajes.round(2)

# Crear una nueva tabla que combine los valores reales y los porcentajes
tabla_combinada = tabla_frecuencia.astype(str) + ' (' + tabla_porcentajes.astype(str) + '%)'

# Formatear y mostrar la tabla combinada
tabla_formateada = tabulate(tabla_combinada, headers='keys', tablefmt='pretty')
print(tabla_formateada)

In [None]:
# Crear la tabla de frecuencia cruzada utilizando crosstab
tabla_frecuencia = pd.crosstab(base_final["AREA"], base_final["P314A"], margins=True, margins_name="Total")

# Calcular los porcentajes
tabla_porcentajes = tabla_frecuencia.div(tabla_frecuencia["Total"], axis=0) * 100
tabla_porcentajes = tabla_porcentajes.round(2)

# Crear una nueva tabla que combine los valores reales y los porcentajes
tabla_combinada = tabla_frecuencia.astype(str) + ' (' + tabla_porcentajes.astype(str) + '%)'

# Formatear y mostrar la tabla combinada
tabla_formateada = tabulate(tabla_combinada, headers='keys', tablefmt='pretty')
print(tabla_formateada)

In [None]:
# Crear la tabla de frecuencia cruzada utilizando crosstab
tabla_frecuencia = pd.crosstab(base_final["AREA"], base_final["P314B$1"], margins=True, margins_name="Total")

# Calcular los porcentajes
tabla_porcentajes = tabla_frecuencia.div(tabla_frecuencia["Total"], axis=0) * 100
tabla_porcentajes = tabla_porcentajes.round(2)

# Crear una nueva tabla que combine los valores reales y los porcentajes
tabla_combinada = tabla_frecuencia.astype(str) + ' (' + tabla_porcentajes.astype(str) + '%)'

# Formatear y mostrar la tabla combinada
tabla_formateada = tabulate(tabla_combinada, headers='keys', tablefmt='pretty')
print(tabla_formateada)