# Parte 1 – Pandas DataFrames

Este notebook trabaja con la Encuesta Nacional de Hogares (ENAHO) de INEI. Se utilizarán dos módulos:

- Vivienda (200)
- Educación (300)

Los archivos están ubicados en la carpeta relativa `./ENAHO/`.

---

In [41]:
# Instalar librerías (solo si aún no están instaladas)
!pip install pandas numpy
!pip install gdown



## 1. Importar librerías y establecer ruta relativa


In [42]:
import pandas as pd
import numpy as np
import os
import gdown

# Ruta relativa a los archivos
data_dir = './ENAHO'
# Cambiar directorio a donde están los datos

#### Importamos dataset de Educación (300) y realizamos la exploración inicial

In [43]:
file_id = "148S33vJDsXBEu1-TOS11wBtW-5XueNIm"
url = f"https://drive.google.com/uc?id={file_id}"
file_300 = "Enaho01A-2023-300.csv"
gdown.download (url, file_300, quiet=False)
df_edu = pd.read_csv(file_300, encoding='ISO-8859-10')


Downloading...
From (original): https://drive.google.com/uc?id=148S33vJDsXBEu1-TOS11wBtW-5XueNIm
From (redirected): https://drive.google.com/uc?id=148S33vJDsXBEu1-TOS11wBtW-5XueNIm&confirm=t&uuid=a7dc6654-b7ba-4851-ae46-e66f98bd53d1
To: c:\Users\KikeMa\Downloads\Azu\diplomado\python\Ejercicios clase\Diplomado-2025-python\Diplomado_PUCP\Lecture_2\Assignment_2\group_7_assignment2_2025\Enaho01A-2023-300.csv
100%|██████████| 118M/118M [00:30<00:00, 3.87MB/s] 
  df_edu = pd.read_csv(file_300, encoding='ISO-8859-10')


In [44]:
#file_300 = os.path.join(data_dir,'C:/Users/KikeMa/Downloads/Azu/diplomado/python/Ejercicios clase/Diplomado-2025-python/Diplomado_PUCP/Lecture_2/Assignment_2/group_7_assignment2_2025/Enaho01A-2023-300.csv')
#df_edu = pd.read_csv(file_300, encoding='ISO-8859-10')

#### Mostramos las 5 primeras filas

In [45]:
print("Primeras 5 filas del dataset de Educación:")
display(df_edu.head())

Primeras 5 filas del dataset de Educación:


Unnamed: 0,AŅO,MES,CONGLOME,VIVIENDA,HOGAR,CODPERSO,UBIGEO,DOMINIO,ESTRATO,CODINFOR,...,I311D$5,I311D$6,I311D$7,I3121C,I3122C,I315B,FACTOR07,FACTORA07,NCONGLOME,SUB_CONGLOME
0,2023,1,5030,2,11,1,10201,7,4,1,...,,,,,,,118.374542,165.623856,6618,0
1,2023,1,5030,2,11,2,10201,7,4,2,...,,,,,,,118.374542,112.328087,6618,0
2,2023,1,5030,2,11,3,10201,7,4,2,...,,,,,,,118.374542,120.091476,6618,0
3,2023,1,5030,2,11,4,10201,7,4,2,...,,,8.0,,,,118.374542,110.974678,6618,0
4,2023,1,5030,11,11,1,10201,7,4,1,...,,,,,,,118.374542,96.03537,6618,0


####  Convertimos las columnas en lista

In [46]:
columnas_edu = df_edu.columns.tolist()
print("Columnas del dataset de Educación:")
print(columnas_edu)

Columnas del dataset de Educación:
['AŅO', 'MES', 'CONGLOME', 'VIVIENDA', 'HOGAR', 'CODPERSO', 'UBIGEO', 'DOMINIO', 'ESTRATO', 'CODINFOR', 'P300N', 'P300I', 'P300A', 'P301A', 'P301B', 'P301C', 'P301D', 'P301A0', 'P301A1', 'P301B0', 'P301B1', 'P301B3', 'P302', 'P302X', 'P302A', 'P302B', 'P303', 'P304A', 'P304B', 'P304C', 'P304D', 'P305', 'P306', 'P307', 'P307A1', 'P307A2', 'P307A3', 'P307A4', 'P307A4_5', 'P307A4_6', 'P307A4_7', 'P307B1', 'P307B2', 'P307B3', 'P307B4', 'P307B4_5', 'P307B4_6', 'P307B4_7', 'P307C', 'P308A', 'P308B', 'P308C', 'P308D', 'P308B1', 'P308B2', 'P308B3', 'P308B4', 'P308B5', 'P308C1', 'P308C2', 'P310', 'P310B1', 'P310C0', 'P310C1', 'P310D1', 'P310D2', 'P310E0', 'P310E1', 'P310E3', 'P311N$1', 'P311N$2', 'P311N$3', 'P311N$4', 'P311N$5', 'P311N$6', 'P311N$7', 'P311N$8', 'P311N$9', 'P311$1', 'P311$2', 'P311$3', 'P311$4', 'P311$5', 'P311$6', 'P311$7', 'P311$8', 'P311$9', 'P311A1$1', 'P311A1$2', 'P311A1$3', 'P311A1$4', 'P311A1$5', 'P311A1$6', 'P311A1$7', 'P311A1$8', 'P311

####  Mostramos los tipos de datos

In [47]:
print("Tipos de datos:")
print(df_edu.dtypes)

Tipos de datos:
AŅO               int64
MES               int64
CONGLOME          int64
VIVIENDA          int64
HOGAR             int64
                 ...   
I315B            object
FACTOR07        float64
FACTORA07       float64
NCONGLOME         int64
SUB_CONGLOME      int64
Length: 511, dtype: object


## 2. Manipulación de data y limpieza de datos

#### Exploramos la data y usamos funciones de summary para un subsample de variables 

In [48]:
cols_base = ['CONGLOME', 'VIVIENDA', 'HOGAR', 'CODPERSO']
cols_extra_edu = ['P301A', 'P301B', 'P301C', 'P311B$4'] 
edu_sub = df_edu[cols_base + cols_extra_edu]
edu_sub

Unnamed: 0,CONGLOME,VIVIENDA,HOGAR,CODPERSO,P301A,P301B,P301C,P311B$4
0,5030,2,11,1,8,3,,
1,5030,2,11,2,10,5,,
2,5030,2,11,3,3,0,4,68
3,5030,2,11,4,3,0,1,5
4,5030,11,11,1,4,5,,
...,...,...,...,...,...,...,...,...
108349,20670,67,11,5,1,,,
108350,20670,68,11,1,5,3,,
108351,20670,69,11,1,3,0,3,
108352,20670,69,11,2,4,0,6,


Presentamos los summary de las variables seleccionadas

In [49]:
print("Resumen estadístico:")
print(edu_sub.describe(include='all'))

Resumen estadístico:
             CONGLOME       VIVIENDA          HOGAR       CODPERSO  \
count   108354.000000  108354.000000  108354.000000  108354.000000   
unique            NaN            NaN            NaN            NaN   
top               NaN            NaN            NaN            NaN   
freq              NaN            NaN            NaN            NaN   
mean     16944.756797      77.820330      11.146271       2.546293   
std       3144.386733      68.547022       1.370084       1.577737   
min       5007.000000       1.000000      11.000000       1.000000   
25%      16028.000000      31.000000      11.000000       1.000000   
50%      17500.000000      66.000000      11.000000       2.000000   
75%      19014.000000     106.000000      11.000000       3.000000   
max      21001.000000     991.000000      44.000000      22.000000   

                P301A   P301B   P301C P311B$4  
count   108354.000000  108354  108354  108354  
unique            NaN      10       9     

Identificamos y removemos los valores perdidos

In [50]:
print("Valores nulos por columna:")
print(edu_sub.isnull().sum())

edu_sub_clean = edu_sub.dropna()

Valores nulos por columna:
CONGLOME    0
VIVIENDA    0
HOGAR       0
CODPERSO    0
P301A       0
P301B       0
P301C       0
P311B$4     0
dtype: int64


# 3. Importar dataset de Vivienda (200) y explorar los datos

In [51]:
# Importar módulo Vivienda (200)
file_200 = os.path.join(data_dir, 'C:/Users/KikeMa/Downloads/Azu/diplomado/python/Ejercicios clase/Diplomado-2025-python/Diplomado_PUCP/Lecture_2/Assignment_2/group_7_assignment2_2025/Enaho01-2023-200.csv')
df_viv = pd.read_csv(file_200, encoding='ISO-8859-10')


#### Mostramos las 5 primera filas del dataset de Vivienda

In [52]:
# Primeras 5 filas
df_viv.head()

Unnamed: 0,AŅO,MES,CONGLOME,VIVIENDA,HOGAR,CODPERSO,UBIGEO,DOMINIO,ESTRATO,P201P,...,OCUPAC_R3,OCUPAC_R4,RAMA_R3,RAMA_R4,CODTAREA,CODTIEMPO,TICUEST01,FACPOB07,NCONGLOME,SUB_CONGLOME
0,2023,2,5007,22,11,1,10101,4,4,20190050070221101,...,,,,,,,2,50.466671,7070,0
1,2023,2,5007,22,11,2,10101,4,4,20190050070221102,...,,,,,,,2,50.466671,7070,0
2,2023,2,5007,22,11,3,10101,4,4,20190050070221104,...,,,,,,,2,50.466671,7070,0
3,2023,2,5007,31,11,1,10101,4,4,20190050070311102,...,,,,,,,2,50.466671,7070,0
4,2023,2,5007,31,11,2,10101,4,4,20230050070311102,...,,,,,,,2,50.466671,7070,0


In [53]:
#Primero revisamos cuáles son los nombres de las columnas
print(df_viv.columns)

Index(['AŅO', 'MES', 'CONGLOME', 'VIVIENDA', 'HOGAR', 'CODPERSO', 'UBIGEO',
       'DOMINIO', 'ESTRATO', 'P201P', 'P203', 'P203A', 'P203B', 'P204', 'P205',
       'P206', 'P207', 'P208A', 'P208B', 'P209', 'P210', 'P211A', 'P211D',
       'P212', 'P213', 'P214', 'P215', 'P216', 'P217', 'T211', 'OCUPAC_R3',
       'OCUPAC_R4', 'RAMA_R3', 'RAMA_R4', 'CODTAREA', 'CODTIEMPO', 'TICUEST01',
       'FACPOB07', 'NCONGLOME', 'SUB_CONGLOME'],
      dtype='object')


#### Convertimos las columnas en una lista y la imprimimos

In [54]:
#Los convertimos en una lista para imprimirlas
columnas = df_viv.columns.tolist()
print(columnas)

['AŅO', 'MES', 'CONGLOME', 'VIVIENDA', 'HOGAR', 'CODPERSO', 'UBIGEO', 'DOMINIO', 'ESTRATO', 'P201P', 'P203', 'P203A', 'P203B', 'P204', 'P205', 'P206', 'P207', 'P208A', 'P208B', 'P209', 'P210', 'P211A', 'P211D', 'P212', 'P213', 'P214', 'P215', 'P216', 'P217', 'T211', 'OCUPAC_R3', 'OCUPAC_R4', 'RAMA_R3', 'RAMA_R4', 'CODTAREA', 'CODTIEMPO', 'TICUEST01', 'FACPOB07', 'NCONGLOME', 'SUB_CONGLOME']


In [55]:
#Verificamos que es una lista 
print(type(columnas))

<class 'list'>


#### Verificamos el tipo de datos

In [56]:
print(df_viv.dtypes)

AŅO               int64
MES               int64
CONGLOME          int64
VIVIENDA          int64
HOGAR             int64
CODPERSO          int64
UBIGEO            int64
DOMINIO           int64
ESTRATO           int64
P201P             int64
P203              int64
P203A            object
P203B            object
P204             object
P205             object
P206             object
P207             object
P208A            object
P208B            object
P209             object
P210             object
P211A            object
P211D            object
P212             object
P213             object
P214             object
P215             object
P216             object
P217             object
T211             object
OCUPAC_R3        object
OCUPAC_R4        object
RAMA_R3          object
RAMA_R4          object
CODTAREA         object
CODTIEMPO        object
TICUEST01         int64
FACPOB07        float64
NCONGLOME         int64
SUB_CONGLOME      int64
dtype: object


#### Seleccionamos una submuestra

In [57]:
#seleccionamos las variables y creamos un subsample
viv_sub= df_viv[[
    'CONGLOME', 'VIVIENDA', 'HOGAR', 'CODPERSO',
    'DOMINIO', 'P204', 'P205', 'P206']].copy() 

In [58]:
print(viv_sub)

        CONGLOME  VIVIENDA  HOGAR  CODPERSO  DOMINIO P204 P205 P206
0           5007        22     11         1        4    1    2     
1           5007        22     11         2        4    1    2     
2           5007        22     11         3        4    1    2     
3           5007        31     11         1        4    1    2     
4           5007        31     11         2        4    2         2
...          ...       ...    ...       ...      ...  ...  ...  ...
119742     21001        60     11         2        6    1    2     
119743     21001        60     11         3        6    2         2
119744     21001        63     11         1        6    1    2     
119745     21001        64     11         1        6    1    2     
119746     21001        64     11         2        6    1    2     

[119747 rows x 8 columns]


#### A. Cambiamos un tipo de variable 

Convertiremos la 'P204' (¿Es miembro del hogar?) a numérica.

In [59]:
viv_sub['P204'] = pd.to_numeric(viv_sub['P204'], errors='coerce')

In [60]:
#verificamos el tipo y es númerica de tipo float64
print(viv_sub['P204'].dtype)

float64


####  B. Reemplazamos los valores de 'P205'

Reemplazaremos la variable DOMINIO de números a dominios

In [61]:
viv_sub.DOMINIO.replace({1: 'Costa Norte' ,
2: 'Costa Centro',
3 :'Costa Sur',
4 : 'Sierra Norte',
5 : 'Sierra Centro',
6 : 'Sierra Sur',
7 : 'Selva',
8 : 'Lima Metropolitana'}, inplace=True)


In [62]:
#verificamos los valores actuales de la pregunta
viv_sub.DOMINIO.head()

0    Sierra Norte
1    Sierra Norte
2    Sierra Norte
3    Sierra Norte
4    Sierra Norte
Name: DOMINIO, dtype: object

# 4. Fusión de Datasets (Merging Datasets)

In [63]:
# Definir columnas comunes para fusionar
common_columns = ['CONGLOME', 'VIVIENDA', 'HOGAR', 'CODPERSO']

# Verificar registros coincidentes entre ambas submuestras
merged_keys = edu_sub_clean[common_columns].merge(viv_sub[common_columns], on=common_columns, how='inner')
print(f"Registros coincidentes en claves comunes: {len(merged_keys)}")


Registros coincidentes en claves comunes: 108354


#### Realizamos la fusión luego de verificar las columnas comunes

In [64]:
# Realizar fusión
df_merged = pd.merge(edu_sub_clean, viv_sub, on=common_columns, how='inner')

# Mostrar resultado
print("\nPrimeras 5 filas del DataFrame fusionado:")
display(df_merged.head())


Primeras 5 filas del DataFrame fusionado:


Unnamed: 0,CONGLOME,VIVIENDA,HOGAR,CODPERSO,P301A,P301B,P301C,P311B$4,DOMINIO,P204,P205,P206
0,5030,2,11,1,8,3,,,Selva,1.0,2,
1,5030,2,11,2,10,5,,,Selva,1.0,2,
2,5030,2,11,3,3,0,4.0,68.0,Selva,1.0,2,
3,5030,2,11,4,3,0,1.0,5.0,Selva,1.0,2,
4,5030,11,11,1,4,5,,,Selva,1.0,2,


# 5. En el Dataframe resultante

In [65]:
df_merged["P311B$4"] = pd.to_numeric(df_merged["P311B$4"], errors="coerce")
print(df_merged["P311B$4"].dtype)

float64


In [66]:
# Agrupar por dominio y calcular promedio de gasto en útiles escolares por dominio
resultado = df_merged.groupby('DOMINIO')['P311B$4'].mean().reset_index()

# Mostrar resultado
print("Promedio de gasto en útiles escolares por dominio:")
print(resultado)

Promedio de gasto en útiles escolares por dominio:
              DOMINIO       P311B$4
0        Costa Centro   3411.290960
1         Costa Norte   5274.820112
2           Costa Sur   8652.500352
3  Lima Metropolitana  11427.812000
4               Selva   3589.382683
5       Sierra Centro   1527.216035
6        Sierra Norte   4893.444378
7          Sierra Sur  13166.127995


# Parte 2 - If conditions
Importamos las librerias

In [67]:
import numpy as np
import pandas as pd

### Pregunta 6
Basic If Condition
Write a Python function that checks if a given number is positive.

In [68]:
A = 5
if A > 0:
    print("The number is positive.")
else:
    print("The number is not positive.")

print(A) 

The number is positive.
5


In [69]:
#otra forma de hallar esta pregunta

def check_positive(a):
    if a > 0:
        return f"The number {a} is positive."
    else:
        return f"The number {a} is not positive."


print(check_positive(5))   
print(check_positive(-3))  
print(check_positive(0)) 

The number 5 is positive.
The number -3 is not positive.
The number 0 is not positive.


### Pregunta 7

If Condition with Multiple Expressions
Create a program that checks the temperature (in Celsius) and returns a message depending on the value:

In [70]:
def check_temperature(temp):
    if temp < 0:
        return "It is freezing."
    elif 0 <= temp <= 20:
        return "It is cold."
    elif 21 <= temp <= 30:
        return "It is warm."
    else:
        return "It is hot."

# Ejemplos
print(check_temperature(-5))
print(check_temperature(0)) 
print(check_temperature(15)) 
print(check_temperature(25))  
print(check_temperature(35)) 

It is freezing.
It is cold.
It is cold.
It is warm.
It is hot.


### Pregunta 8

Write a function that determines if a person is eligible for a scholarship based on these conditions:
- The person must have a GPA greater than 3.5 AND
- Either their extracurricular activities are "Yes" OR they have community service hours greater than 50.

In [71]:
def scholarship_eligibility(gpa, extracurricular, community_hours):
    if gpa > 3.5 and (extracurricular == "Yes" or community_hours > 50):
        return "Eligible for scholarship."
    else:
        return "Not eligible for scholarship."

# Ejemplos
print(scholarship_eligibility(3.8, "Yes", 20))  
print(scholarship_eligibility(3.2, "Yes", 100))  
print(scholarship_eligibility(3.9, "No", 60))    
print(scholarship_eligibility(3.5, "No", 49.9))  
print(scholarship_eligibility(5, "Yes", 60))
print(scholarship_eligibility(3.5, "Yes", 49.9))

Eligible for scholarship.
Not eligible for scholarship.
Eligible for scholarship.
Not eligible for scholarship.
Eligible for scholarship.
Not eligible for scholarship.


### Pregunta 9
Create two lists:
list1 = [1, 2, 3]
list2 = [1, 2, 3]
list3 = list1 

Check with identity operators:

list1 is list2
list1 is list3
list1 == list2 

In [72]:
list1 = [1, 2, 3]
list2 = [1, 2, 3]
list3 = list1 

print(list1 is list2) 
print(list1 is list3) 
print(list1 == list2)  

False
True
True


Explain the difference in the results for each comparison.
- En el caso "list1 is list2" es falso porque al codificar les presentamos que ambas listas son diferentes en la memoria como objeto. 
- En el caso "list1 is list3" es verdadero porque en la orden al codificar les indicamos que son iguales como memoria del objeto. 
- En el caso "list1 == list2" aqui con "==" vamos a ver los valores de la lista, que en este caso, son iguales y por eso es verdadero

### Pregunta 10
Nested If Statement.
Write a function that takes a student's score and determines the grade:

- If the score is greater than or equal to 90, return "A".
- If the score is between 80 and 89:
- Check if the score is exactly 85, then return "B+".
- Otherwise, return "B".
- If the score is between 70 and 79, return "C".
- Otherwise, return "Fail".

In [73]:
def grade(score):
    if score >= 90:
        return "A"
    elif 80 <= score <= 89:
        if score == 85:
            return "B+"
        else:
            return "B"
    elif 70 <= score <= 79:
        return "C"
    else:
        return "Fail"

print(grade(100))
print(grade(92))
print(grade(88))  
print(grade(85))  
print(grade(83))  
print(grade(75))  
print(grade(60))  

A
A
B
B+
B
C
Fail


## Parte 3 — Bucles `for` y vectorización

### 11 Bucle for en NumPy
Escriba un bucle for usando NumPy para iterar a través de una matriz de números [10, 20, 30, 40, 50]e imprimir cada valor multiplicado por 2.

Re-pregunta: ¿Cómo modificarías el bucle para que almacene los resultados en una nueva matriz NumPy en lugar de simplemente imprimirlos?

In [1]:
import numpy as np

# Creamos el arreglo
arr = np.array([10, 20, 30, 40, 50])
resultados =[]

# Bucle for para recorrer cada elemento

for num in arr:
    resultados.append(num * 2) 
print(resultados)

[20, 40, 60, 80, 100]


In [2]:
# Convertimos la lista en un arreglo NumPy
nueva_arr = np.array(resultados)

print("Nueva_matriz:", nueva_arr)

Nueva_matriz: [ 20  40  60  80 100]


### 12 Bucle for en lista
Crea una lista de palabras: ["python", "loop", "list", "iteration"].
Escribe un bucle for para imprimir la longitud de cada palabra.

Re-pregunta: ¿Cómo puedes reescribir el mismo bucle usando una comprensión de lista ?

In [3]:
lista_palabras = ["python", "loop", "list", "iteration"]

for palabra in lista_palabras:
    print(len(palabra))

6
4
4
9


In [4]:
longitudes = [len(palabra) for palabra in lista_palabras]
print(longitudes)

[6, 4, 4, 9]


### 13 Bucle for en diccionario
Dado un diccionario de puntuaciones de estudiantes:
{"Alice": 85, "Bob": 92, "Charlie": 78, "Diana": 88}

Escriba un bucle for para imprimir el nombre de cada estudiante junto con su puntuación.

Re-pregunta: Modificar el bucle para que sólo imprima los nombres de los estudiantes que obtuvieron una puntuación superior a 80.

In [5]:
# Creamos un diccionario de puntuaciones de estudiantes con los datos:
puntuaciones_estudiantes = {"Alice": 85, "Bob": 92, "Charlie": 78, "Diana": 88}

# Creamos un bucle para imprimir nombre y puntuación
for nombre, puntaje in puntuaciones_estudiantes.items():
    print(nombre, "->", puntaje)

Alice -> 85
Bob -> 92
Charlie -> 78
Diana -> 88


In [6]:
# Bucle para imprimir a estudiantes que hayan obtenido puntaje mayor a 80 puntos.
for nombre, puntaje in puntuaciones_estudiantes.items():
    if puntaje > 80:   # condición
        print(nombre)

Alice
Bob
Diana


### 14. Bucle For usando rango
Escriba un bucle for range()para imprimir todos los números pares entre 1 y 20.

Re-pregunta: ¿Cómo cambiarías el bucle para calcular también la suma de estos números pares mientras iteras?

In [7]:
# Imprimir todos los números pares entre 1 y 20
for num in range(2, 21, 2):  # empieza en 2, llega hasta 20, saltando de 2 en 2
    print(num)

2
4
6
8
10
12
14
16
18
20


In [8]:
# Calcular la suma de los pares mientras iteras
suma = 0  # acumulador

for num in range(2, 21, 2):  # pares del 2 al 20
    suma += num              # sumamos el número actual al acumulado
    print(suma)              # mostramos el acumulado en cada paso


2
6
12
20
30
42
56
72
90
110


### 15. Iteraciones sobre Pandas (conjunto de datos ENAHO)
Supongamos que está analizando el conjunto de datos de la Encuesta Nacional de Hogares (ENAHO) , específicamente el archivo Enaho01A-2023-400.
La pregunta de interés es P41601: "¿Cuánto fue el monto total por la compra o servicio?" .

Escriba un forbucle que itere sobre la columna P41601e imprima valores mayores que 5000 .

Re-pregunta: ¿Cómo optimizarías esta tarea utilizando operaciones vectorizadas de pandas (por ejemplo, indexación booleana) en lugar de un forbucle, para hacer que el análisis sea más rápido y más eficiente?

In [10]:
import pandas as pd

In [12]:
# Cargar el archivo ENAHO 400

#df400 = Data Frame de la base 400 (Salud)
# La base de datos Enaho01A-2023-400  no estaba en el drive compartido, el grupo 7 lo descargo de la página de microdatos del INEI
# https://proyectos.inei.gob.pe/microdatos/

df400 = pd.read_csv(
    r"G:\Mi unidad\Cursos2025\CursoPUCP\Curso_Python_Basico\Tarea2\ENAHO-2023\Enaho01A-2023-400.csv",
    encoding="ISO-8859-10"
)
# Ver tamaños del DataFrame
print("400:", df400.shape)

  df400 = pd.read_csv(


400: (112530, 940)


In [13]:
#  Pasar P41601 a numérica
df400["P41601"] = pd.to_numeric(df400["P41601"], errors="coerce")

#  Reemplazamos códigos de missing por NaN (mismo nombre de columna)
df400["P41601"] = df400["P41601"].replace([99999.9, 99999, 999999], np.nan)

# Verificamos que no queden códigos 99999.9
print("Quedan 99999.9?:", (df400["P41601"] == 99999.9).sum())

Quedan 99999.9?: 0


In [14]:
# Verificamos que el campo P41601 ya no tenga missing values con un describe
print(df400["P41601"].describe())  # revisión rápida el promedio ya no contará esos códigos

count    4488.000000
mean       51.357531
std        50.490885
min         1.200000
25%        15.800000
50%        40.000000
75%        70.000000
max       689.500000
Name: P41601, dtype: float64


In [15]:
# A. Con for: imprimir gastos en montos > 5000
resultado = False
for gasto in df400["P41601"].dropna():
    if gasto > 5000:
        print(gasto)
        resultado = True
if not resultado:
    print("No hay montos > 5000 en P41601 (luego del reeemplazo de 99999.9 (missing value)).")        

No hay montos > 5000 en P41601 (luego del reeemplazo de 99999.9 (missing value)).


In [16]:
# B Usando vectores

index = df400["P41601"] > 5000 # indexación booleana
gastos_gt_5000 = df400.loc[index, "P41601"] # renombramos la variable de resultados (gastos mayores a 5000) y con .loc filtramos los casos que sean TRUE
if gastos_gt_5000.empty: # Ahora usamos .empty -> True si la Serie está vacía (no haya gastos > 5000)  y caso contrario, si los encuentra que halle: conteo y promedio.
    print("No hay montos > 5000 en la pregunta P41601 (monto total por la compra o servicio).")
else:
    print(gastos_gt_5000)
    print("Cantidad:", gastos_gt_5000.count(), "| Promedio:", float(gastos_gt_5000.mean()))

No hay montos > 5000 en la pregunta P41601 (monto total por la compra o servicio).
