<a href="https://colab.research.google.com/github/AleMarocho/Prueba/blob/main/Manejo_BD_i.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Manejo de bases de datos para las ciencias sociales I

- [Introdución](#intro)
    - [Importar pandas](#impa)
    - [El Objeto DataFrame](#objdf)
- [Creando Dataframes](#crea)
- [Leyendo Dataframes](#readi)
- [Desafíos comunes con archivos de datos](#desafio)
- [Trabajando con datos](#trabajando)
    - [Exploración inicial](#exploracion)
    - [Cómo seleccionar datos](#select)
    - [Filtrando información](#filter)




<a class="anchor" id="intro"></a>
## Introducción

_Previo: Tipos de datos._

Al 2025, Python tiene una serie de librerías que manejan bases de datos tabulares <sup>1</sup>.

[Pandas](https://pandas.pydata.org/docs/getting_started/index.html) es la librería más popular de Python para realizar análisis de datos. Esta se especializa en trabajar con ciertos tipos de datos. Los más importantes son:

- Data tabular, como los dataframes (o cualquier base de datos estructurada que tengamos).
- Series
- Series de tiempo

Los objetos de Pandas más importantes son 2:
- Series
- Dataframes (nuestro enfoque principal).

<sup>1</sup> Recientemente, la discusión ha virado a mejores métodos para tratar big data. Paquetes como dask, y tipos de archivos binarios como parquet, son un punto inicial. Lo importante es lo siguiente: Son extensiones de Pandas! :)





Esta librería es un _must_ en el aprendizaje del análisis de datos, machine learning, etc por una serie de motivos:
- Se integra perfectamente con librerías como scikit-learn (machine learning), matplotlib, seaborn y altair (visualización de datos), statsmodels (modelos estadísticos listos para usar), análisis de texto, análisis espacial (geopandas, etc).

- La gran parte de la comunidad que hace data analysis, y que se apoya mediante foros y demás, usa Pandas.
- Pandas es muy amplio y tiene muchas funcionalidades.

<a class="anchor" id="impa"></a>

### 1. Importar pandas

In [15]:
import pandas as pd

<a class="anchor" id="objdf"></a>

### 2. El objeto dataframe

- Casi siempre trabajaremos con dataframes.

Pero qué es un dataframe?


- Es el **objeto** principal de pandas, el cual representa una estructura de datos de dos dimensiones: filas y columnas.
- Cada fila es una observación o registro;  cada columna, una variable, atributo, _feature_, etc.
- Hay un sólo valor por celda.   
- El dataframe sirve para representar datos tabulares.


Adicionalmente, todo dataframe tiene un **índice**, que funge como identificador único de cada fila.
Las columnas no necesitan ello, porque por regla, los nombres ya son su identificador único. Por ello, no se acepta nombres repetidos de columna.

2 maneras de usar dataframes: crearlo por nosotros mismos ó leer datos.


<img src="../img/db_example.jpeg" width="800">



<br>
</br>

<a class="anchor" id="crea"></a>

####  Una forma simple de crear dataframes:

- Por filas

In [16]:

nombres_columnas = ['rural', 'pobreza', 'num_ccpp_urbano',
                    'desnutricion_cronica',
                    'centros_rural', 'es_juntos']

obs1 = [True, 40, 1, 50, 60, True]
obs2 = [True, 55, 2, 30, 55, True]
obs3 = [False, 25, 3, 40, 40, True]

obs4 = [True, 30, 2, 25, 55, False]

data = [obs1, obs2, obs3, obs4]

#ejemplo_df = pd.DataFrame(data = data, columns = nombres_columnas)

ejemplo_df  = pd.DataFrame(data = data, columns = nombres_columnas)


ejemplo_df

Unnamed: 0,rural,pobreza,num_ccpp_urbano,desnutricion_cronica,centros_rural,es_juntos
0,True,40,1,50,60,True
1,True,55,2,30,55,True
2,False,25,3,40,40,True
3,True,30,2,25,55,False


In [17]:
pd.DataFrame()

- Por columnas

In [18]:
# Ejemplo cuna más de anterior clase
df = pd.DataFrame()

df['rural'] = [True, True, False, True, False]
df['pobreza'] = [40, 55, 25, 60, 30]
df['rnum_ccpp_urbano'] =[1,2,3,4,5]
df['rdesnutricion_cronica'] = [50,30,40,20,45]
df['rcentros_rural'] = [60,55,40,50,20]
df['res_juntos'] = [True, True, True, True, True]


## df['cuna_o_no'] = [False, True, True, False, True]
df

Unnamed: 0,rural,pobreza,rnum_ccpp_urbano,rdesnutricion_cronica,rcentros_rural,res_juntos
0,True,40,1,50,60,True
1,True,55,2,30,55,True
2,False,25,3,40,40,True
3,True,60,4,20,50,True
4,False,30,5,45,20,True


In [19]:
type(pd.DataFrame())

### Vectorización:
La vectorización se define como aplicar una operación sobre el conjunto de elementos de un vector, en lugar de hacerlo sobre cada elemento de forma individual.
Pandas integra dicha vectorización tal que las operaciones se realizan más rápida, fácil y eficientemente.




In [20]:
mivar = 5

In [21]:
# Ejemplo de vectorización:
## Nótese: Aquí creamos un dataframe con un diccionario, donde las llaves son los nombres de las columnas y
#  los valores son listas con los valores de cada columna.
df = pd.DataFrame({'vec': [1, 2, 3, 4, 5],
                   'non_vec': [1, 2, 3, 4, 5]})

# # No vectorizado: Se utiliza un bucle para realizar la operación.
for i in range(len(df)):
    df.at[i, 'non_vec'] += 10

# print(df)
# # Vewctorizado: Se llama al nombre de la variable como si fuera un vector.
df['vec'] = df['vec'] + 10

df

Unnamed: 0,vec,non_vec
0,11,11
1,12,12
2,13,13
3,14,14
4,15,15


In [22]:
df = pd.DataFrame({'vec': [1, 2, 3, 4, 5],
                   'non_vec': [1, 2, 3, 4, 5]})

len(df)

5

In [23]:
df.at[0,"non_vec"]

np.int64(1)

In [24]:
for i in range(len(df)):
  df.at[i, "non_vec"]

In [25]:
df["vec"] += 10


<a class="anchor" id="readi"></a>

#### Leyendo la información:  
Los archivos que tenemos pueden estar en distintos formatos: dta, sav, json, csv, txt. Pandas puede leer cualquiera de dichos tipos de archivos.
Lo importante es que en esencia, todos ellos representan datos **tabulares**, o datos que tienen


| Método de pandas según file | Tipo de archivo        | Descripción                              |
|------------------|------------------------|------------------------------------------|
| `read_csv()`     | CSV                    | Lee archivos de valores separados por comas (CSV). |
| `read_json()`    | JSON                   | Lee datos estructurados como JSON. |
| `read_stata()`   | Stata                  | Lee archivos de datos en Stata.          |
| `read_spss()`    | SPSS                   | Lee archivos de datos en SPSS.           |
| `read_excel()`   | Excel (xls, xlsx)      | Lee archivos Excel.              |
| `read_pickle()`  | Pickle                 | Lee objetos Python serializados almacenados en archivos Pickle. |
| `read_parquet()` | Parquet                | Lee archivos Parquet.         |
| `read_feather()` | Feather                | Lee archivos Feather.         |
| `read_sql()`     | SQL Query / Database   | Lee de una base de datos usando una consulta SQL. |
| `read_sas()`     | SAS                    | Lee archivos de datos de SAS.            |
| `read_hdf()`     | HDF5                   | Lee archivos HDF5.            |
| `read_orc()`     | ORC                    | Lee archivos ORC.             |
| `read_fwf()`     | Fixed-Width Formatted  | Lee archivos de texto con ancho fijo.    |

- Los métodos están organizados según importancia.
- Hay otros métodos como `read_html`, `read_orc`, y `read_fwf`. Otros paquetes adicionales leen, por ejemplo, archivos .RData (R).

Hoy nos enfocaremos en la base de datos de postulantes de la Universidad Nacional de Ingeniería:
https://www.datosabiertos.gob.pe/dataset/postulantes-al-concurso-de-admisi%C3%B3n-de-la-universidad-nacional-de-ingenier%C3%ADa-uni

In [31]:
## Leyendo los archivos.
locacion_datos = "/Users/Lenovo/Downloads/Datos_abiertos_admision_2024_2_2025_1_0.csv"
df = pd.read_csv(locacion_datos)

FileNotFoundError: [Errno 2] No such file or directory: '/Users/Lenovo/Downloads/Datos_abiertos_admision_2024_2_2025_1_0.csv'

In [32]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [34]:
locacion_datos = "https://docs.google.com/spreadsheets/d/e/2PACX-1vQmJzJVRzCty6ohJIB28V3YpPnCjnOxgvYAWV5jvUZ78o6nco1K81xs1ijXlpsdw1GVYxHlijBq9pcH/pub?output=csv"
df = pd.read_csv(locacion_datos)

In [35]:
df

Unnamed: 0,IDHASH,COLEGIO,COLEGIO_DEPA,COLEGIO_PROV,COLEGIO_DIST,COLEGIO_PAIS,COLEGIO_ANIO_EGRESO,ESPECIALIDAD,ANIO_POSTULA,CICLO_POSTULA,...,ANIO_NACIMIENTO,NACIMIENTO_PAIS,NACIMIENTO_DEPA,NACIMIENTO_PROV,NACIMIENTO_DIST,SEXO,CALIF_FINAL,INGRESO,MODALIDAD,FECHA_CORTE
0,FCE35CE48F105003AD25D7F42AED473CF15C9B0908246D...,VIRGEN DEL ROSARIO,LIMA,LIMA,PACHACAMAC,PERÚ,2023,INGENIERÍA ELECTRÓNICA,2024,2,...,2007,PERÚ,LIMA,LIMA,EL AGUSTINO,MASCULINO,13.382,SI,ORDINARIO,20250630
1,95282C5990D24FDD3D89A3E9635709C0A25697799F65C5...,MONSEÑOR MARCOS LIBARDONI,LIMA,LIMA,LA VICTORIA,PERÚ,2023,INGENIERÍA MECÁNICA,2024,2,...,2006,PERÚ,LIMA,LIMA,LA VICTORIA,MASCULINO,6.700,NO,ORDINARIO,20250630
2,6B0941B84A667898E34B981F7CF89497F3897BA5B6BA24...,3721 SANTA ROSA,LIMA,LIMA,ANCON,PERÚ,2021,INGENIERÍA ECONÓMICA,2024,2,...,2006,PERÚ,LIMA,LIMA,PUENTE PIEDRA,FEMENINO,7.871,NO,ORDINARIO,20250630
3,A1DC21280879F9C205F7C421B8152BE338225A3359D6BF...,ARGENTINA,LIMA,LIMA,LIMA,PERÚ,2021,ARQUITECTURA,2024,2,...,2005,PERÚ,LAMBAYEQUE,CHICLAYO,PATAPO,FEMENINO,12.536,NO,ORDINARIO,20250630
4,EF4BC1BD9F868AAA10BAA5F7BEC08141B9C0D5F0BF3809...,SAN CARLOS,LIMA,LIMA,COMAS,PERÚ,2020,ARQUITECTURA,2024,2,...,2004,PERÚ,LIMA,LIMA,LA VICTORIA,MASCULINO,12.763,NO,ORDINARIO,20250630
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
15371,7A76871277BF7B50009F4B81FA156045AA677DC1F42AC5...,1070 MELITON CARVAJAL,LIMA,LIMA,LINCE,PERÚ,2022,INGENIERÍA ELECTRÓNICA,2025,1,...,2005,PERÚ,LIMA,LIMA,ATE,MASCULINO,3.205,NO,ORDINARIO,20250630
15372,B66283E6A854E54D4312BCEAFF77FA5BFEB1F0CD66D344...,EL AMAUTA,LIMA,LIMA,COMAS,PERÚ,2021,INGENIERÍA PETROQUÍMICA,2025,1,...,2005,PERÚ,LIMA,LIMA,PUENTE PIEDRA,MASCULINO,7.103,NO,ORDINARIO,20250630
15373,0E51C416C1698AA217D8F1F23014D89711142D0DCF2F4D...,MOISES ZEBALLOS,ANCASH,SIHUAS,CHINGALPO,PERÚ,2022,INGENIERÍA ESTADÍSTICA,2025,1,...,2006,PERÚ,ANCASH,SIHUAS,CHINGALPO,MASCULINO,3.044,NO,ORDINARIO,20250630
15374,BE5CD944A10F2E7F44D7DA77527BD405513F729B205498...,6082 LOS PROCERES,LIMA,LIMA,SANTIAGO DE SURCO,PERÚ,2022,INGENIERÍA CIVIL,2025,1,...,2005,PERÚ,LIMA,LIMA,SANTIAGO DE SURCO,MASCULINO,5.592,NO,ORDINARIO,20250630


In [36]:
df.shape

(15376, 23)

<a class="anchor" id="desafio"></a>

### Desafíos comunes con archivos de datos.

Recibir datos de terceros va a ser muy habitual en la labor de data scientists. Algunas situaciones a tener en cuenta (para el futuro), en particular con exceles y csvs, son las siguientes:

Con CSV:
- Problemas con los delimitadores: Lo común es  que el delimitador sea la coma `,`, sin embargo,`|`,  `;` ó incluso `Tab` pueden aparecer, lo que  originará errores de lectura si no se especifica el delimitador correcto.
- Comillas que no cierran: `"""  ""`.
- Codificación diferente:
    - Datos en español en una codificación anglosajona (e.g.) ocasionará caracteres extraños.
    - Tipo de datos diferente (string en vez de numérico).
- Datos faltantes: la falta de comas puede ocasionar errores en cargar los datos.
- Saltos de línea no sistemáticos

Con Excel:
- Datos no tabulares: Exceles que no tienen datos tabulares pueden ocasionar errores de lectura.
- Más de un valor por celda.
- Fórmulas de excel.

<a class="anchor" id="trabajando"></a>

### Trabajando con datos

<a class="anchor" id="exploracion"></a>


### Exploración inicial

Los siguientes son métodos/atributos de exploración que aplicamos sobre el dataframe mismo.

| Método / Atributo         | Descripción                                                                                             |
|-----------------|---------------------------------------------------------------------------------------------------------|
| `head(n)`/`tail(n)` | Muestra las primeras/últimas n filas del DataFrame.
| `describe()`    | Da estadísticas como el promedio, desviación estándar, mínimo y máximo de **columnas numéricas**. |
| `info()`        | Nos ofrece información importante como los tipos de los atributos y sus valores nulos.     |
| `dtypes`        | Da los tipos de datos del dataframe                                             |
| `shape`         | Informa sobre la dimensión del dataframe en forma de tupla `(nfilas, ncolumnas)` |
| `columns`         | Informa sobre el nombre de las columnas del dataframe. |


In [37]:
df.describe()

Unnamed: 0,COLEGIO_ANIO_EGRESO,ANIO_POSTULA,CICLO_POSTULA,ANIO_NACIMIENTO,CALIF_FINAL,FECHA_CORTE
count,15376.0,15376.0,15376.0,15376.0,15376.0,15376.0
mean,2022.43737,2024.667209,1.332791,2005.916688,7.844124,20250630.0
std,2.029341,0.471228,0.471228,2.02489,3.455506,0.0
min,1982.0,2024.0,1.0,1965.0,0.0,20250630.0
25%,2022.0,2024.0,1.0,2005.0,5.1215,20250630.0
50%,2023.0,2025.0,1.0,2006.0,7.646,20250630.0
75%,2024.0,2025.0,2.0,2007.0,10.49725,20250630.0
max,2026.0,2025.0,2.0,2011.0,18.44,20250630.0


In [None]:
#df.describe()
#df.info()
#df.head()
#df.tail(4)

#df.dtypes
#df.shape
#df.columnns

Ahora exploraremos una columna en particular. Aquí se utilizará la exploración para una columna determinada (luego veremos que estas son Series).

| Método          | Descripción                                                                                       |
|-----------------|---------------------------------------------------------------------------------------------------|
| `unique()`      | Da los valores únicos de la serie.                                                          |
| `nunique()`     | Cuenta cuántos elementos únicos hay en la serie.                                                 |
| `sort_values()` | Ordena la serie.         |
| `value_counts()`| Da distribución de frecuencias de cada valor único de la serie.                                             |


Para datos numéricos:                                                    
`sum()`, `mean()`,  `min()`, `max()`, `mode()`, `median()` ,  `std()`

Ejercicios:
- Averigua cuáles son los 5 primeros departamentos en donde nacen los postulantes.
- Cuenta cuántos hombres/mujeres postulan a la UNI.
- Cuenta cuántos ingresan.  
Hint: value_counts()

In [38]:

df['INGRESO'].value_counts(normalize = True)

Unnamed: 0_level_0,proportion
INGRESO,Unnamed: 1_level_1
NO,0.841506
SI,0.158494


<a class="anchor" id="select"></a>

### Cómo seleccionar datos

A veces sólo necesitamos entender una parte de todos nuestros datos. Por ejemplo, queremos ver los datos de los partidos políticos:

In [39]:
# df['ANIO_NACIMIENTO'].unique()
# df['ANIO_NACIMIENTO'].nunique()
# df['NACIMIENTO_DEPA'].value_counts()
# df['NACIMIENTO_DEPA'].value_counts(normalize = True)

In [44]:
pd.crosstab(df["ESPECIALIDAD"],df["ANIO_NACIMIENTO"])

ANIO_NACIMIENTO,1965,1974,1976,1978,1979,1981,1982,1984,1986,1987,...,2002,2003,2004,2005,2006,2007,2008,2009,2010,2011
ESPECIALIDAD,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
ARQUITECTURA,0,0,0,0,0,0,0,0,1,0,...,19,66,109,254,307,375,174,3,0,0
CIENCIA DE LA COMPUTACIÓN,0,0,0,1,0,0,1,0,0,0,...,5,12,32,53,72,44,35,0,0,0
FÍSICA,0,0,0,0,0,0,0,0,0,0,...,3,9,18,14,25,60,20,0,0,0
INGENIERIA AEROESPACIAL,0,0,0,0,0,0,0,0,0,0,...,4,11,21,28,66,70,36,0,0,0
INGENIERÍA AMBIENTAL,0,0,0,0,0,0,0,0,0,0,...,14,16,44,66,86,90,39,0,1,0
INGENIERÍA CIVIL,1,0,0,0,1,0,0,0,0,0,...,32,80,119,218,511,807,336,5,1,0
INGENIERÍA DE CIBERSEGURIDAD,0,0,0,0,0,0,0,0,0,0,...,8,16,30,59,106,116,48,0,0,0
INGENIERÍA DE HIGIENE Y SEGURIDAD INDUSTRIAL,0,0,0,0,0,0,0,0,0,0,...,1,10,12,14,20,14,7,0,0,0
INGENIERÍA DE MINAS,0,0,0,0,0,0,0,1,0,0,...,27,29,53,125,180,213,90,0,1,0
INGENIERÍA DE PETRÓLEO Y GAS NATURAL,0,0,0,0,0,0,0,2,0,0,...,2,6,3,10,22,12,7,0,0,0


Un dataframe está compuesto de varias series: una columna es una serie diferente.

In [45]:
type(df['ANIO_NACIMIENTO']) # Forma de acceder a una columna.
# Otra forma:
# df.ANIO_NACIMIENTO # Mejor utilizar la anterior!

# Acceder a varias columnas:
df[['ANIO_NACIMIENTO', 'NACIMIENTO_DEPA']]


Unnamed: 0,ANIO_NACIMIENTO,NACIMIENTO_DEPA
0,2007,LIMA
1,2006,LIMA
2,2006,LIMA
3,2005,LAMBAYEQUE
4,2004,LIMA
...,...,...
15371,2005,LIMA
15372,2005,LIMA
15373,2006,ANCASH
15374,2005,LIMA


In [None]:
#### Explorando más de una columna:

In [46]:
pd.crosstab(df['NACIMIENTO_DEPA'], df['SEXO'])

# esta funcion nos permite hacer tablas cruzadas entre dos columnas.

pd.crosstab(df['NACIMIENTO_DEPA'], df['SEXO'])

SEXO,FEMENINO,MASCULINO
NACIMIENTO_DEPA,Unnamed: 1_level_1,Unnamed: 2_level_1
AMAZONAS,20,81
ANCASH,61,384
APURIMAC,32,129
AREQUIPA,23,101
AYACUCHO,59,222
CAJAMARCA,43,183
CALLAO,227,636
CUSCO,36,145
ESPANA,1,0
HUANCAVELICA,23,101


### Selección de datos

#### Selección de columnas

In [None]:
# por nombre:
peque_lst = ['ANIO_NACIMIENTO', 'NACIMIENTO_DEPA']
#df[peque_lst]

In [None]:
df_small = df[peque_lst].copy()
df_small

#### Selección y filtración de filas/columnas con ``` iloc``` y ```loc ```

Primero seleccionaremos columnas, para lo que utilizaremos  ``` iloc``` y ```loc ```.

##### Utilizando el iloc
El iloc ubica las observaciones que corresponden al índice que le indicamos.
Recordando nuestra base de postulantes:

In [50]:
# Agarrando observaciones puntuales

df.iloc[[0,4,10]]

Unnamed: 0,IDHASH,COLEGIO,COLEGIO_DEPA,COLEGIO_PROV,COLEGIO_DIST,COLEGIO_PAIS,COLEGIO_ANIO_EGRESO,ESPECIALIDAD,ANIO_POSTULA,CICLO_POSTULA,...,ANIO_NACIMIENTO,NACIMIENTO_PAIS,NACIMIENTO_DEPA,NACIMIENTO_PROV,NACIMIENTO_DIST,SEXO,CALIF_FINAL,INGRESO,MODALIDAD,FECHA_CORTE
0,FCE35CE48F105003AD25D7F42AED473CF15C9B0908246D...,VIRGEN DEL ROSARIO,LIMA,LIMA,PACHACAMAC,PERÚ,2023,INGENIERÍA ELECTRÓNICA,2024,2,...,2007,PERÚ,LIMA,LIMA,EL AGUSTINO,MASCULINO,13.382,SI,ORDINARIO,20250630
4,EF4BC1BD9F868AAA10BAA5F7BEC08141B9C0D5F0BF3809...,SAN CARLOS,LIMA,LIMA,COMAS,PERÚ,2020,ARQUITECTURA,2024,2,...,2004,PERÚ,LIMA,LIMA,LA VICTORIA,MASCULINO,12.763,NO,ORDINARIO,20250630
10,EA5B4F9447C24AE57E2D77CA44E330444B33273616EA95...,2056 JOSE GALVEZ,LIMA,LIMA,INDEPENDENCIA,PERÚ,2019,ARQUITECTURA,2024,2,...,2003,PERÚ,LIMA,LIMA,LIMA,FEMENINO,7.813,NO,ORDINARIO,20250630


In [52]:
cols = [0,4,10]
rows = [1,2]
df.iloc[rows,cols]

Unnamed: 0,IDHASH,COLEGIO_DIST,DOMICILIO_DEPA
1,95282C5990D24FDD3D89A3E9635709C0A25697799F65C5...,LA VICTORIA,LIMA
2,6B0941B84A667898E34B981F7CF89497F3897BA5B6BA24...,ANCON,LIMA


In [54]:
#Buscar partes usando la posición de los índices y las columnas
df.iloc[4000 :, [3]]

Unnamed: 0,COLEGIO_PROV
4000,LIMA
4001,HUARAL
4002,LIMA
4003,LIMA
4004,CAJAMARCA
...,...
15371,LIMA
15372,LIMA
15373,SIHUAS
15374,LIMA


In [55]:
# Agarrando observaciones puntuales definidas por su indice
rows = [1, 2, 10,13,3000]
df.iloc[rows]

Unnamed: 0,IDHASH,COLEGIO,COLEGIO_DEPA,COLEGIO_PROV,COLEGIO_DIST,COLEGIO_PAIS,COLEGIO_ANIO_EGRESO,ESPECIALIDAD,ANIO_POSTULA,CICLO_POSTULA,...,ANIO_NACIMIENTO,NACIMIENTO_PAIS,NACIMIENTO_DEPA,NACIMIENTO_PROV,NACIMIENTO_DIST,SEXO,CALIF_FINAL,INGRESO,MODALIDAD,FECHA_CORTE
1,95282C5990D24FDD3D89A3E9635709C0A25697799F65C5...,MONSEÑOR MARCOS LIBARDONI,LIMA,LIMA,LA VICTORIA,PERÚ,2023,INGENIERÍA MECÁNICA,2024,2,...,2006,PERÚ,LIMA,LIMA,LA VICTORIA,MASCULINO,6.7,NO,ORDINARIO,20250630
2,6B0941B84A667898E34B981F7CF89497F3897BA5B6BA24...,3721 SANTA ROSA,LIMA,LIMA,ANCON,PERÚ,2021,INGENIERÍA ECONÓMICA,2024,2,...,2006,PERÚ,LIMA,LIMA,PUENTE PIEDRA,FEMENINO,7.871,NO,ORDINARIO,20250630
10,EA5B4F9447C24AE57E2D77CA44E330444B33273616EA95...,2056 JOSE GALVEZ,LIMA,LIMA,INDEPENDENCIA,PERÚ,2019,ARQUITECTURA,2024,2,...,2003,PERÚ,LIMA,LIMA,LIMA,FEMENINO,7.813,NO,ORDINARIO,20250630
13,9EC6DCBB0A822AB1043611705A4402F7BBD35E70DB8817...,SACO OLIVEROS DE PRO,LIMA,LIMA,LOS OLIVOS,PERÚ,2023,INGENIERÍA CIVIL,2024,2,...,2006,PERÚ,LIMA,LIMA,LIMA,MASCULINO,4.018,NO,ORDINARIO,20250630
3000,F63963087C7B3706A5AA84B82166D11B48B825FDBE9419...,3027 CORONEL JOSE BALTA,LIMA,LIMA,SAN MARTIN DE PORRES,PERÚ,2022,INGENIERÍA DE SOFTWARE,2024,2,...,2005,PERÚ,LIMA,LIMA,JESUS MARIA,MASCULINO,4.833,NO,ORDINARIO,20250630


In [56]:
rows = [10,13, 2]
cols = [2,4,6]
df.iloc[rows, cols]

Unnamed: 0,COLEGIO_DEPA,COLEGIO_DIST,COLEGIO_ANIO_EGRESO
10,LIMA,INDEPENDENCIA,2019
13,LIMA,LOS OLIVOS,2023
2,LIMA,ANCON,2021


In [57]:
df.iloc[3:, [4]]

Unnamed: 0,COLEGIO_DIST
3,LIMA
4,COMAS
5,SAN SEBASTIAN
6,SAN ANTONIO
7,SAN MARTIN DE PORRES
...,...
15371,LINCE
15372,COMAS
15373,CHINGALPO
15374,SANTIAGO DE SURCO


In [None]:
# qué pasa si  hago...
#df.iloc[rows, ['COLEGIO_DEPA', 'COLEGIO_PROV', 'COLEGIO_ANIO_EGRESO']]

In [58]:
columnas = ['COLEGIO_DEPA', 'COLEGIO_PROV', 'COLEGIO_ANIO_EGRESO']
filas = range(0,6)
df.loc[filas, columnas]


Unnamed: 0,COLEGIO_DEPA,COLEGIO_PROV,COLEGIO_ANIO_EGRESO
0,LIMA,LIMA,2023
1,LIMA,LIMA,2023
2,LIMA,LIMA,2021
3,LIMA,LIMA,2021
4,LIMA,LIMA,2020
5,CUSCO,CUSCO,2023


In [59]:
#INDICE PARA LOS NOMBRES
df2 = df.set_index("IDHASH")


In [None]:
df.iloc[:3,:3]

##### Utilizando el ```loc```

El ``` loc``` es una forma de ubicar observaciones que se basa en las etiquetas, tanto de columnas como de filas.


In [None]:
columnas = ['COLEGIO_DEPA', 'COLEGIO_PROV', 'COLEGIO_ANIO_EGRESO']
filas = range(0,6)
df.loc[filas, columnas]




In [65]:
df2 = df.set_index('IDHASH') ## funciones HASH

In [64]:
df2.loc['E4287C2FE19F63C5E6641955147E36684A5A2FF8064676B6CB00A57522FD99A8175BC39CB2924C9F4D3848443267048FE4CB946A191592F9053A3D1705456A26']

KeyError: 'E4287C2FE19F63C5E6641955147E36684A5A2FF8064676B6CB00A57522FD99A8175BC39CB2924C9F4D3848443267048FE4CB946A191592F9053A3D1705456A26'

In [63]:
df.loc[:, columnas]

#  Con .iloc y .loc, hemos visto nuevas formas de acceder a las filas/columnas de un dataframe:
# df.loc[:, ['ANIO_NACIMIENTO', 'NACIMIENTO_DEPA']]
# df.loc[1:3, ['ANIO_NACIMIENTO', 'NACIMIENTO_DEPA']]
# df.iloc[:, [1, 2]]
# df.iloc[1:3, 2:4]


Unnamed: 0,COLEGIO_DEPA,COLEGIO_PROV,COLEGIO_ANIO_EGRESO
0,LIMA,LIMA,2023
1,LIMA,LIMA,2023
2,LIMA,LIMA,2021
3,LIMA,LIMA,2021
4,LIMA,LIMA,2020
...,...,...,...
15371,LIMA,LIMA,2022
15372,LIMA,LIMA,2021
15373,ANCASH,SIHUAS,2022
15374,LIMA,LIMA,2022


<a class="anchor" id="filter"></a>

### Filtrando información

Muchas veces querremos quedarnos con un subconjunto de datos que cumplen cierta condición. Las condiciones tienen que evaluarse a un booleano.

In [71]:
df[df["NACIMIENTO_PAIS"] == "PERÚ"]

Unnamed: 0,IDHASH,COLEGIO,COLEGIO_DEPA,COLEGIO_PROV,COLEGIO_DIST,COLEGIO_PAIS,COLEGIO_ANIO_EGRESO,ESPECIALIDAD,ANIO_POSTULA,CICLO_POSTULA,...,ANIO_NACIMIENTO,NACIMIENTO_PAIS,NACIMIENTO_DEPA,NACIMIENTO_PROV,NACIMIENTO_DIST,SEXO,CALIF_FINAL,INGRESO,MODALIDAD,FECHA_CORTE
0,FCE35CE48F105003AD25D7F42AED473CF15C9B0908246D...,VIRGEN DEL ROSARIO,LIMA,LIMA,PACHACAMAC,PERÚ,2023,INGENIERÍA ELECTRÓNICA,2024,2,...,2007,PERÚ,LIMA,LIMA,EL AGUSTINO,MASCULINO,13.382,SI,ORDINARIO,20250630
1,95282C5990D24FDD3D89A3E9635709C0A25697799F65C5...,MONSEÑOR MARCOS LIBARDONI,LIMA,LIMA,LA VICTORIA,PERÚ,2023,INGENIERÍA MECÁNICA,2024,2,...,2006,PERÚ,LIMA,LIMA,LA VICTORIA,MASCULINO,6.700,NO,ORDINARIO,20250630
2,6B0941B84A667898E34B981F7CF89497F3897BA5B6BA24...,3721 SANTA ROSA,LIMA,LIMA,ANCON,PERÚ,2021,INGENIERÍA ECONÓMICA,2024,2,...,2006,PERÚ,LIMA,LIMA,PUENTE PIEDRA,FEMENINO,7.871,NO,ORDINARIO,20250630
3,A1DC21280879F9C205F7C421B8152BE338225A3359D6BF...,ARGENTINA,LIMA,LIMA,LIMA,PERÚ,2021,ARQUITECTURA,2024,2,...,2005,PERÚ,LAMBAYEQUE,CHICLAYO,PATAPO,FEMENINO,12.536,NO,ORDINARIO,20250630
4,EF4BC1BD9F868AAA10BAA5F7BEC08141B9C0D5F0BF3809...,SAN CARLOS,LIMA,LIMA,COMAS,PERÚ,2020,ARQUITECTURA,2024,2,...,2004,PERÚ,LIMA,LIMA,LA VICTORIA,MASCULINO,12.763,NO,ORDINARIO,20250630
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
15371,7A76871277BF7B50009F4B81FA156045AA677DC1F42AC5...,1070 MELITON CARVAJAL,LIMA,LIMA,LINCE,PERÚ,2022,INGENIERÍA ELECTRÓNICA,2025,1,...,2005,PERÚ,LIMA,LIMA,ATE,MASCULINO,3.205,NO,ORDINARIO,20250630
15372,B66283E6A854E54D4312BCEAFF77FA5BFEB1F0CD66D344...,EL AMAUTA,LIMA,LIMA,COMAS,PERÚ,2021,INGENIERÍA PETROQUÍMICA,2025,1,...,2005,PERÚ,LIMA,LIMA,PUENTE PIEDRA,MASCULINO,7.103,NO,ORDINARIO,20250630
15373,0E51C416C1698AA217D8F1F23014D89711142D0DCF2F4D...,MOISES ZEBALLOS,ANCASH,SIHUAS,CHINGALPO,PERÚ,2022,INGENIERÍA ESTADÍSTICA,2025,1,...,2006,PERÚ,ANCASH,SIHUAS,CHINGALPO,MASCULINO,3.044,NO,ORDINARIO,20250630
15374,BE5CD944A10F2E7F44D7DA77527BD405513F729B205498...,6082 LOS PROCERES,LIMA,LIMA,SANTIAGO DE SURCO,PERÚ,2022,INGENIERÍA CIVIL,2025,1,...,2005,PERÚ,LIMA,LIMA,SANTIAGO DE SURCO,MASCULINO,5.592,NO,ORDINARIO,20250630


In [72]:
cond_1 = df["COLEGIO_DEPA"] == "LIMA"
cond_2 = df["INGRESO"] == "NO"

df[cond_1 | cond_2]

Unnamed: 0,IDHASH,COLEGIO,COLEGIO_DEPA,COLEGIO_PROV,COLEGIO_DIST,COLEGIO_PAIS,COLEGIO_ANIO_EGRESO,ESPECIALIDAD,ANIO_POSTULA,CICLO_POSTULA,...,ANIO_NACIMIENTO,NACIMIENTO_PAIS,NACIMIENTO_DEPA,NACIMIENTO_PROV,NACIMIENTO_DIST,SEXO,CALIF_FINAL,INGRESO,MODALIDAD,FECHA_CORTE
0,FCE35CE48F105003AD25D7F42AED473CF15C9B0908246D...,VIRGEN DEL ROSARIO,LIMA,LIMA,PACHACAMAC,PERÚ,2023,INGENIERÍA ELECTRÓNICA,2024,2,...,2007,PERÚ,LIMA,LIMA,EL AGUSTINO,MASCULINO,13.382,SI,ORDINARIO,20250630
1,95282C5990D24FDD3D89A3E9635709C0A25697799F65C5...,MONSEÑOR MARCOS LIBARDONI,LIMA,LIMA,LA VICTORIA,PERÚ,2023,INGENIERÍA MECÁNICA,2024,2,...,2006,PERÚ,LIMA,LIMA,LA VICTORIA,MASCULINO,6.700,NO,ORDINARIO,20250630
2,6B0941B84A667898E34B981F7CF89497F3897BA5B6BA24...,3721 SANTA ROSA,LIMA,LIMA,ANCON,PERÚ,2021,INGENIERÍA ECONÓMICA,2024,2,...,2006,PERÚ,LIMA,LIMA,PUENTE PIEDRA,FEMENINO,7.871,NO,ORDINARIO,20250630
3,A1DC21280879F9C205F7C421B8152BE338225A3359D6BF...,ARGENTINA,LIMA,LIMA,LIMA,PERÚ,2021,ARQUITECTURA,2024,2,...,2005,PERÚ,LAMBAYEQUE,CHICLAYO,PATAPO,FEMENINO,12.536,NO,ORDINARIO,20250630
4,EF4BC1BD9F868AAA10BAA5F7BEC08141B9C0D5F0BF3809...,SAN CARLOS,LIMA,LIMA,COMAS,PERÚ,2020,ARQUITECTURA,2024,2,...,2004,PERÚ,LIMA,LIMA,LA VICTORIA,MASCULINO,12.763,NO,ORDINARIO,20250630
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
15371,7A76871277BF7B50009F4B81FA156045AA677DC1F42AC5...,1070 MELITON CARVAJAL,LIMA,LIMA,LINCE,PERÚ,2022,INGENIERÍA ELECTRÓNICA,2025,1,...,2005,PERÚ,LIMA,LIMA,ATE,MASCULINO,3.205,NO,ORDINARIO,20250630
15372,B66283E6A854E54D4312BCEAFF77FA5BFEB1F0CD66D344...,EL AMAUTA,LIMA,LIMA,COMAS,PERÚ,2021,INGENIERÍA PETROQUÍMICA,2025,1,...,2005,PERÚ,LIMA,LIMA,PUENTE PIEDRA,MASCULINO,7.103,NO,ORDINARIO,20250630
15373,0E51C416C1698AA217D8F1F23014D89711142D0DCF2F4D...,MOISES ZEBALLOS,ANCASH,SIHUAS,CHINGALPO,PERÚ,2022,INGENIERÍA ESTADÍSTICA,2025,1,...,2006,PERÚ,ANCASH,SIHUAS,CHINGALPO,MASCULINO,3.044,NO,ORDINARIO,20250630
15374,BE5CD944A10F2E7F44D7DA77527BD405513F729B205498...,6082 LOS PROCERES,LIMA,LIMA,SANTIAGO DE SURCO,PERÚ,2022,INGENIERÍA CIVIL,2025,1,...,2005,PERÚ,LIMA,LIMA,SANTIAGO DE SURCO,MASCULINO,5.592,NO,ORDINARIO,20250630


#### Filtrando información con condiciones

In [None]:
# Podemos guardar las condiciones como variables y luego hacer el filtro.

condicion = [True]*(len(df) - 5) + [False] * (5) # Tenemos una lista de booleanons de la longitud del dataframe.
#df[condicion] # Filtramos el dataframe con la condición.

condicion

In [None]:
cond = df['COLEGIO_DEPA'] == 'LIMA'
# explora qué bota el cond.

df[cond]
df[cond].reset_index(drop = True) # drop = True sirve para q no se quede ennuewtro  dataframe



In [None]:
cond_1 = df['COLEGIO_DEPA'] == "LIMA"
cond_2 = df['INGRESO'] == "NO"

cond_filtrado_and = df[cond_1 & cond_2] ## Pregunta: por qué no usamos el and y or, como habíamos visto antes?

cond_filtrado_or = df[cond_1 | cond_2]

## equivalente a:
df[(
    df['COLEGIO_DEPA'] == "LIMA"
) & (
    df['INGRESO'] == "NO"
    )] ## necesitamos cerrarlo en paréntesis.

df[(df['COLEGIO_DEPA'] == "LIMA") | (df['INGRESO'] == "NO")]

# Nota1: Si queremos hacer un filtro con más de una condición, necesitamos cerrar cada condición en paréntesis.
# Nota2: Podemos almacenar el resultado como una variable, que será un dataframe nuevo.

In [None]:
cond_1 = df['COLEGIO_DEPA'] == "LIMA"
cond_2 = df['INGRESO'] == "NO"

cond_filtrado_and = df[cond_1 & cond_2]

cond_filtrado_and

In [None]:
## Ejercicio: Filtra el dataframe para que solo te quedes con las observaciones que sean de Lima y que hayan ingresado.

In [None]:
#df.query('ANIO_POSTULA > 2020')

In [73]:
df[df['COLEGIO_DEPA'].isin(['LIMA', 'CALLAO'])]

Unnamed: 0,IDHASH,COLEGIO,COLEGIO_DEPA,COLEGIO_PROV,COLEGIO_DIST,COLEGIO_PAIS,COLEGIO_ANIO_EGRESO,ESPECIALIDAD,ANIO_POSTULA,CICLO_POSTULA,...,ANIO_NACIMIENTO,NACIMIENTO_PAIS,NACIMIENTO_DEPA,NACIMIENTO_PROV,NACIMIENTO_DIST,SEXO,CALIF_FINAL,INGRESO,MODALIDAD,FECHA_CORTE
0,FCE35CE48F105003AD25D7F42AED473CF15C9B0908246D...,VIRGEN DEL ROSARIO,LIMA,LIMA,PACHACAMAC,PERÚ,2023,INGENIERÍA ELECTRÓNICA,2024,2,...,2007,PERÚ,LIMA,LIMA,EL AGUSTINO,MASCULINO,13.382,SI,ORDINARIO,20250630
1,95282C5990D24FDD3D89A3E9635709C0A25697799F65C5...,MONSEÑOR MARCOS LIBARDONI,LIMA,LIMA,LA VICTORIA,PERÚ,2023,INGENIERÍA MECÁNICA,2024,2,...,2006,PERÚ,LIMA,LIMA,LA VICTORIA,MASCULINO,6.700,NO,ORDINARIO,20250630
2,6B0941B84A667898E34B981F7CF89497F3897BA5B6BA24...,3721 SANTA ROSA,LIMA,LIMA,ANCON,PERÚ,2021,INGENIERÍA ECONÓMICA,2024,2,...,2006,PERÚ,LIMA,LIMA,PUENTE PIEDRA,FEMENINO,7.871,NO,ORDINARIO,20250630
3,A1DC21280879F9C205F7C421B8152BE338225A3359D6BF...,ARGENTINA,LIMA,LIMA,LIMA,PERÚ,2021,ARQUITECTURA,2024,2,...,2005,PERÚ,LAMBAYEQUE,CHICLAYO,PATAPO,FEMENINO,12.536,NO,ORDINARIO,20250630
4,EF4BC1BD9F868AAA10BAA5F7BEC08141B9C0D5F0BF3809...,SAN CARLOS,LIMA,LIMA,COMAS,PERÚ,2020,ARQUITECTURA,2024,2,...,2004,PERÚ,LIMA,LIMA,LA VICTORIA,MASCULINO,12.763,NO,ORDINARIO,20250630
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
15369,F59425979C700280AA8141EC03A923C8D7E89CC16C1C2D...,REPUBLICA DE BOLIVIA,LIMA,LIMA,VILLA EL SALVADOR,PERÚ,2023,INGENIERÍA ELÉCTRICA,2025,1,...,2006,PERÚ,LIMA,LIMA,LIMA,MASCULINO,3.110,NO,ORDINARIO,20250630
15371,7A76871277BF7B50009F4B81FA156045AA677DC1F42AC5...,1070 MELITON CARVAJAL,LIMA,LIMA,LINCE,PERÚ,2022,INGENIERÍA ELECTRÓNICA,2025,1,...,2005,PERÚ,LIMA,LIMA,ATE,MASCULINO,3.205,NO,ORDINARIO,20250630
15372,B66283E6A854E54D4312BCEAFF77FA5BFEB1F0CD66D344...,EL AMAUTA,LIMA,LIMA,COMAS,PERÚ,2021,INGENIERÍA PETROQUÍMICA,2025,1,...,2005,PERÚ,LIMA,LIMA,PUENTE PIEDRA,MASCULINO,7.103,NO,ORDINARIO,20250630
15374,BE5CD944A10F2E7F44D7DA77527BD405513F729B205498...,6082 LOS PROCERES,LIMA,LIMA,SANTIAGO DE SURCO,PERÚ,2022,INGENIERÍA CIVIL,2025,1,...,2005,PERÚ,LIMA,LIMA,SANTIAGO DE SURCO,MASCULINO,5.592,NO,ORDINARIO,20250630


In [76]:
df.query("ANIO_POSTULA > 2020")

Unnamed: 0,IDHASH,COLEGIO,COLEGIO_DEPA,COLEGIO_PROV,COLEGIO_DIST,COLEGIO_PAIS,COLEGIO_ANIO_EGRESO,ESPECIALIDAD,ANIO_POSTULA,CICLO_POSTULA,...,ANIO_NACIMIENTO,NACIMIENTO_PAIS,NACIMIENTO_DEPA,NACIMIENTO_PROV,NACIMIENTO_DIST,SEXO,CALIF_FINAL,INGRESO,MODALIDAD,FECHA_CORTE
0,FCE35CE48F105003AD25D7F42AED473CF15C9B0908246D...,VIRGEN DEL ROSARIO,LIMA,LIMA,PACHACAMAC,PERÚ,2023,INGENIERÍA ELECTRÓNICA,2024,2,...,2007,PERÚ,LIMA,LIMA,EL AGUSTINO,MASCULINO,13.382,SI,ORDINARIO,20250630
1,95282C5990D24FDD3D89A3E9635709C0A25697799F65C5...,MONSEÑOR MARCOS LIBARDONI,LIMA,LIMA,LA VICTORIA,PERÚ,2023,INGENIERÍA MECÁNICA,2024,2,...,2006,PERÚ,LIMA,LIMA,LA VICTORIA,MASCULINO,6.700,NO,ORDINARIO,20250630
2,6B0941B84A667898E34B981F7CF89497F3897BA5B6BA24...,3721 SANTA ROSA,LIMA,LIMA,ANCON,PERÚ,2021,INGENIERÍA ECONÓMICA,2024,2,...,2006,PERÚ,LIMA,LIMA,PUENTE PIEDRA,FEMENINO,7.871,NO,ORDINARIO,20250630
3,A1DC21280879F9C205F7C421B8152BE338225A3359D6BF...,ARGENTINA,LIMA,LIMA,LIMA,PERÚ,2021,ARQUITECTURA,2024,2,...,2005,PERÚ,LAMBAYEQUE,CHICLAYO,PATAPO,FEMENINO,12.536,NO,ORDINARIO,20250630
4,EF4BC1BD9F868AAA10BAA5F7BEC08141B9C0D5F0BF3809...,SAN CARLOS,LIMA,LIMA,COMAS,PERÚ,2020,ARQUITECTURA,2024,2,...,2004,PERÚ,LIMA,LIMA,LA VICTORIA,MASCULINO,12.763,NO,ORDINARIO,20250630
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
15371,7A76871277BF7B50009F4B81FA156045AA677DC1F42AC5...,1070 MELITON CARVAJAL,LIMA,LIMA,LINCE,PERÚ,2022,INGENIERÍA ELECTRÓNICA,2025,1,...,2005,PERÚ,LIMA,LIMA,ATE,MASCULINO,3.205,NO,ORDINARIO,20250630
15372,B66283E6A854E54D4312BCEAFF77FA5BFEB1F0CD66D344...,EL AMAUTA,LIMA,LIMA,COMAS,PERÚ,2021,INGENIERÍA PETROQUÍMICA,2025,1,...,2005,PERÚ,LIMA,LIMA,PUENTE PIEDRA,MASCULINO,7.103,NO,ORDINARIO,20250630
15373,0E51C416C1698AA217D8F1F23014D89711142D0DCF2F4D...,MOISES ZEBALLOS,ANCASH,SIHUAS,CHINGALPO,PERÚ,2022,INGENIERÍA ESTADÍSTICA,2025,1,...,2006,PERÚ,ANCASH,SIHUAS,CHINGALPO,MASCULINO,3.044,NO,ORDINARIO,20250630
15374,BE5CD944A10F2E7F44D7DA77527BD405513F729B205498...,6082 LOS PROCERES,LIMA,LIMA,SANTIAGO DE SURCO,PERÚ,2022,INGENIERÍA CIVIL,2025,1,...,2005,PERÚ,LIMA,LIMA,SANTIAGO DE SURCO,MASCULINO,5.592,NO,ORDINARIO,20250630


En general, Pandas tiene una serie de métodos para filtrar información.
Vamos viendo cuándo aplicar cada uno:


| Método         | Ejemplo de uso                                                                                                        |
|----------------|-----------------------------------------------------------------------------------------------------------------------|
| `loc`          | `df.loc[(df['ANIO_POSTULA'] > 2020) & (df['ANIO_NACIMIENTO'] < 2000), 'ANIO_NACIMIENTO']`    |
| `iloc`         | `df.iloc[0:5, 0:2]` Accede a las primeras 5 filas y primeras 2 columnas.                                                |
| `query`        | `df.query('(ANIO_POSTULA > 2020) & (ANIO_NACIMIENTO < 2000)')`
| `filter`       | `df.filter(items=['ANIO_NACIMIENTO', 'ANIO_POSTULA'])`                                          |
| `where`        | `df.where((df['ANIO_POSTULA'] > 2020) & (df['ANIO_NACIMIENTO'] < 2000))` Preserva shape pero rellena con Nan     |
| `mask`         | `df.mask((df['ANIO_POSTULA'] > 2020) & (df['ANIO_NACIMIENTO'] < 2000))` Cambia a NaN los valores donde 'ANIO_POSTULA' > 2020 y 'ANIO_NACIMIENTO' < 2000.                            |
| `isin`         | `df[df['ANIO_NACIMIENTO'].isin([2000, 2001])]`

In [74]:
df.loc[
(df['ANIO_POSTULA'] > 2020
) & (
    df['ANIO_NACIMIENTO'] < 2000
), :]

Unnamed: 0,IDHASH,COLEGIO,COLEGIO_DEPA,COLEGIO_PROV,COLEGIO_DIST,COLEGIO_PAIS,COLEGIO_ANIO_EGRESO,ESPECIALIDAD,ANIO_POSTULA,CICLO_POSTULA,...,ANIO_NACIMIENTO,NACIMIENTO_PAIS,NACIMIENTO_DEPA,NACIMIENTO_PROV,NACIMIENTO_DIST,SEXO,CALIF_FINAL,INGRESO,MODALIDAD,FECHA_CORTE
45,E4FE91D00E255FE378DF1653810BC5746BE14967AB3AB4...,JEAN PIAGET,ICA,ICA,LA TINGUINA,PERÚ,2012,INGENIERÍA CIVIL,2024,2,...,1995,PERÚ,ICA,ICA,ICA,MASCULINO,11.460,NO,ORDINARIO,20250630
138,AC4FCF030FDAEACF07562BC85B29A6052ECF8DA8AE7389...,MIGUEL GRAU,APURIMAC,ABANCAY,ABANCAY,PERÚ,2003,MATEMÁTICA,2024,2,...,1987,PERÚ,APURIMAC,ABANCAY,ABANCAY,MASCULINO,6.370,NO,ORDINARIO,20250630
205,6ABEE75BB1F75C0F5866E89844DF14959C2482292532F4...,LUCIE RYNNING DE ANTUNEZ DE MAYOLO,LIMA,LIMA,RIMAC,PERÚ,2016,INGENIERÍA AMBIENTAL,2024,2,...,1999,PERÚ,LIMA,LIMA,LIMA,FEMENINO,11.057,SI,ORDINARIO,20250630
232,A686278E0C7F599104689C1A04B495504C91413452AA7A...,5174 JUAN PABLO II,LIMA,LIMA,CARABAYLLO,PERÚ,2014,INGENIERÍA TEXTIL,2024,2,...,1997,PERÚ,LIMA,LIMA,LIMA,FEMENINO,7.280,NO,ORDINARIO,20250630
274,DE35B63846D571D1D35E22860A6CCF3E97D5221642D683...,43006 MERCEDES INDACOCHEA,TACNA,TACNA,TACNA,PERÚ,2014,INGENIERÍA ELECTRÓNICA,2025,1,...,1997,PERÚ,TACNA,TACNA,TACNA,FEMENINO,3.990,NO,ORDINARIO,20250630
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
15153,2B00C39051D012573F172427A424729488AD1613433403...,0168 AMISTAD PERU JAPON,LIMA,LIMA,SAN JUAN DE LURIGANCHO,PERÚ,2013,INGENIERIA AEROESPACIAL,2025,1,...,1997,PERÚ,LIMA,LIMA,SAN JUAN DE LURIGANCHO,MASCULINO,12.738,SI,ORDINARIO,20250630
15182,DB24B7C0EB9D5E026CAAF99958BA19A558C3737E718740...,LA FE DE MARIA,LIMA,LIMA,COMAS,PERÚ,2015,INGENIERÍA ESTADÍSTICA,2025,1,...,1999,PERÚ,LIMA,LIMA,LIMA,MASCULINO,8.673,NO,ORDINARIO,20250630
15227,2D2184D266CD0F0C08334B5DB1638CD690A92BCDB74261...,5121 PEDRO PLANAS SILVA,CALLAO,CALLAO,VENTANILLA,PERÚ,2013,CIENCIA DE LA COMPUTACIÓN,2025,1,...,1998,PERÚ,CALLAO,CALLAO,VENTANILLA,MASCULINO,0.000,NO,ORDINARIO,20250630
15242,307DFB49504D1C20FF67DB10F348B71DCE45BF8F17C755...,SACO OLIVEROS,LIMA,LIMA,LOS OLIVOS,PERÚ,2015,FÍSICA,2025,1,...,1999,PERÚ,LIMA,LIMA,PUEBLO LIBRE,MASCULINO,10.416,SI,ORDINARIO,20250630


## Ejercicio:
1. Filtra el dataframe y quédate con quienes postularon a la 'ESPECIALIDAD' de INGENIERÍA MECATRÓNICA y cuyo lugar de nacimiento sea Callao.
2. Filtra el dataframe y quédate con los postulantes cuyo país de estudio no haya sido Perú.
3. Filtra el dataframe y quédate con los postulantes de nacieron en Cajamarca y sí ingresaron.
4. Filtra el dataframe y quédate con los postulantes que obtuvieron una calificación final mayor a 17 e ingresaron por modalidad ordinario.
