# Manejo de bases de datos para las ciencias sociales I

- [Introdución](#intro)
    - [Importar pandas](#impa)
    - [El Objeto DataFrame](#objdf)
- [Creando Dataframes](#crea)
- [Leyendo Dataframes](#readi)
- [Desafíos comunes con archivos de datos](#desafio)
- [Trabajando con datos](#trabajando)
    - [Exploración inicial](#exploracion)
    - [Cómo seleccionar datos](#select)
    - [Filtrando información](#filter)




<a class="anchor" id="intro"></a>
## Introducción


_Previo: Tipos de datos._

Al 2025, Python tiene una serie de librerías que manejan bases de datos tabulares <sup>1</sup>.

[Pandas](https://pandas.pydata.org/docs/getting_started/index.html) es la librería más popular de Python para realizar análisis de datos. Esta se especializa en trabajar con ciertos tipos de datos. Los más importantes son:

- Data tabular, como los dataframes (o cualquier base de datos estructurada que tengamos).
- Series
- Series de tiempo

Los objetos de Pandas más importantes son 2:
- Series
- Dataframes (nuestro enfoque principal).

<sup>1</sup> Recientemente, la discusión ha virado a mejores métodos para tratar big data. Paquetes como dask, y tipos de archivos binarios como parquet, son un punto inicial. Lo importante es lo siguiente: Son extensiones de Pandas! :)





Esta librería es un _must_ en el aprendizaje del análisis de datos, machine learning, etc por una serie de motivos:
- Se integra perfectamente con librerías como scikit-learn (machine learning), matplotlib, seaborn y altair (visualización de datos), statsmodels (modelos estadísticos listos para usar), análisis de texto, análisis espacial (geopandas, etc).

- La gran parte de la comunidad que hace data analysis, y que se apoya mediante foros y demás, usa Pandas.
- Pandas es muy amplio y tiene muchas funcionalidades.

<a class="anchor" id="impa"></a>

### 1. Importar pandas

In [1]:
import pandas as pd

<a class="anchor" id="objdf"></a>

### 2. El objeto dataframe

- Casi siempre trabajaremos con dataframes.

Pero qué es un dataframe?


- Es el **objeto** principal de pandas, el cual representa una estructura de datos de dos dimensiones: filas y columnas.
- Cada fila es una observación o registro;  cada columna, una variable, atributo, _feature_, etc.
- Hay un sólo valor por celda.   
- El dataframe sirve para representar datos tabulares.


Adicionalmente, todo dataframe tiene un **índice**, que funge como identificador único de cada fila.
Las columnas no necesitan ello, porque por regla, los nombres ya son su identificador único. Por ello, no se acepta nombres repetidos de columna.

2 maneras de usar dataframes: crearlo por nosotros mismos ó leer datos.


In [None]:
x = 1


<img src="https://github.com/ccsuehara/python_para_las_ccss/blob/main/img/db_example.jpeg?raw=1" width="800">



<br>
</br>

In [4]:
## SERIES: el primer objeto sobre el que se basa pandas:

s1 = pd.Series([1,2,3,4], name = 'numeros')
type(s1)



In [5]:
nombres_columnas = ['rural', 'pobreza', 'num_ccpp_urbano',
                    'desnutricion_cronica',
                    'centros_rural', 'es_juntos']

In [6]:
obs1 = [True, 40, 1, 50, 60, True]
obs2 = [True, 55, 2, 30, 55, True]
obs3 = [False, 25, 3, 40, 40, True]
obs4 = [True, 30, 2, 25, 55, False]
data = [obs1, obs2, obs3, obs4]



In [7]:
pd.DataFrame(data = data, columns = nombres_columnas)

Unnamed: 0,rural,pobreza,num_ccpp_urbano,desnutricion_cronica,centros_rural,es_juntos
0,True,40,1,50,60,True
1,True,55,2,30,55,True
2,False,25,3,40,40,True
3,True,30,2,25,55,False


In [8]:
c1 = [1,2,3,4]
c2 = [True, False, True, True]

df = pd.DataFrame()

df['id'] = c1
df['pertenece'] = c2


In [10]:
df_ = pd.DataFrame({ 'id': c1,
                    'pertenece': c2})

In [15]:
## DataFrame es un objeto compuesto de varios objetos-Series
## EN OOP, esto se llama composición.

<a class="anchor" id="crea"></a>

####  Una forma simple de crear dataframes:

- Por filas

In [None]:

nombres_columnas = ['rural', 'pobreza', 'num_ccpp_urbano',
                    'desnutricion_cronica',
                    'centros_rural', 'es_juntos']

obs1 = [True, 40, 1, 50, 60, True]
obs2 = [True, 55, 2, 30, 55, True]
obs3 = [False, 25, 3, 40, 40, True]

obs4 = [True, 30, 2, 25, 55, False]

data = [obs1, obs2, obs3, obs4]

#ejemplo_df = pd.DataFrame(data = data, columns = nombres_columnas)

ejemplo_df  = pd.DataFrame(data = data, columns = nombres_columnas)


ejemplo_df

In [None]:
pd.DataFrame()

- Por columnas

In [None]:
# Ejemplo cuna más de anterior clase
df = pd.DataFrame()

df['rural'] = [True, True, False, True, False]
df['pobreza'] = [40, 55, 25, 60, 30]
df['rnum_ccpp_urbano'] =[1,2,3,4,5]
df['rdesnutricion_cronica'] = [50,30,40,20,45]
df['rcentros_rural'] = [60,55,40,50,20]
df['res_juntos'] = [True, True, True, True, True]


## df['cuna_o_no'] = [False, True, True, False, True]
df

In [None]:
type(pd.DataFrame())

### Vectorización:
La vectorización se define como aplicar una operación sobre el conjunto de elementos de un vector, en lugar de hacerlo sobre cada elemento de forma individual.
Pandas integra dicha vectorización tal que las operaciones se realizan más rápida, fácil y eficientemente.




In [None]:
mivar = 5

In [None]:
# Ejemplo de vectorización:
## Nótese: Aquí creamos un dataframe con un diccionario, donde las llaves son los nombres de las columnas y
#  los valores son listas con los valores de cada columna.
df = pd.DataFrame({'vec': [1, 2, 3, 4, 5],
                   'non_vec': [1, 2, 3, 4, 5]})

# # No vectorizado: Se utiliza un bucle para realizar la operación.
for i in range(len(df)):
    df.at[i, 'non_vec'] += 10

# print(df)
# # Vewctorizado: Se llama al nombre de la variable como si fuera un vector.
df['vec'] = df['vec'] + 10

df

In [17]:
df = pd.DataFrame({'vec': [1, 2, 3, 4, 5],
                   'non_vec': [1, 2, 3, 4, 5]})
len(df)

5

In [19]:
df.at[0, 'non_vec']

np.int64(1)

In [20]:
for i in range(len(df)):
  df.at[i, 'non_vec'] += 10

In [21]:
df['vec'] += 10

In [22]:
df

Unnamed: 0,vec,non_vec
0,11,11
1,12,12
2,13,13
3,14,14
4,15,15



<a class="anchor" id="readi"></a>

#### Leyendo la información:  
Los archivos que tenemos pueden estar en distintos formatos: dta, sav, json, csv, txt. Pandas puede leer cualquiera de dichos tipos de archivos.
Lo importante es que en esencia, todos ellos representan datos **tabulares**, o datos que tienen


| Método de pandas según file | Tipo de archivo        | Descripción                              |
|------------------|------------------------|------------------------------------------|
| `read_csv()`     | CSV                    | Lee archivos de valores separados por comas (CSV). |
| `read_json()`    | JSON                   | Lee datos estructurados como JSON. |
| `read_stata()`   | Stata                  | Lee archivos de datos en Stata.          |
| `read_spss()`    | SPSS                   | Lee archivos de datos en SPSS.           |
| `read_excel()`   | Excel (xls, xlsx)      | Lee archivos Excel.              |
| `read_pickle()`  | Pickle                 | Lee objetos Python serializados almacenados en archivos Pickle. |
| `read_parquet()` | Parquet                | Lee archivos Parquet.         |
| `read_feather()` | Feather                | Lee archivos Feather.         |
| `read_sql()`     | SQL Query / Database   | Lee de una base de datos usando una consulta SQL. |
| `read_sas()`     | SAS                    | Lee archivos de datos de SAS.            |
| `read_hdf()`     | HDF5                   | Lee archivos HDF5.            |
| `read_orc()`     | ORC                    | Lee archivos ORC.             |
| `read_fwf()`     | Fixed-Width Formatted  | Lee archivos de texto con ancho fijo.    |

- Los métodos están organizados según importancia.
- Hay otros métodos como `read_html`, `read_orc`, y `read_fwf`. Otros paquetes adicionales leen, por ejemplo, archivos .RData (R).

Hoy nos enfocaremos en la base de datos de postulantes de la Universidad Nacional de Ingeniería:
https://www.datosabiertos.gob.pe/dataset/postulantes-al-concurso-de-admisi%C3%B3n-de-la-universidad-nacional-de-ingenier%C3%ADa-uni

In [23]:
## Leyendo los archivos.
locacion_datos = "aqui  coloca el string con la locación de tus datos"
locacion_datos = "/content/Datos_abiertos_admision_2021_1_2024_1.csv" # este es el mio
df = pd.read_csv(locacion_datos)

In [25]:
df.shape

(42516, 22)

<a class="anchor" id="desafio"></a>

### Desafíos comunes con archivos de datos.

Recibir datos de terceros va a ser muy habitual en la labor de data scientists. Algunas situaciones a tener en cuenta (para el futuro), en particular con exceles y csvs, son las siguientes:

Con CSV:
- Problemas con los delimitadores: Lo común es  que el delimitador sea la coma `,`, sin embargo,`|`,  `;` ó incluso `Tab` pueden aparecer, lo que  originará errores de lectura si no se especifica el delimitador correcto.
- Comillas que no cierran: `"""  ""`.
- Codificación diferente:
    - Datos en español en una codificación anglosajona (e.g.) ocasionará caracteres extraños.
    - Tipo de datos diferente (string en vez de numérico).
- Datos faltantes: la falta de comas puede ocasionar errores en cargar los datos.
- Saltos de línea no sistemáticos

Con Excel:
- Datos no tabulares: Exceles que no tienen datos tabulares pueden ocasionar errores de lectura.
- Más de un valor por celda.
- Fórmulas de excel.

<a class="anchor" id="trabajando"></a>

### Trabajando con datos

<a class="anchor" id="exploracion"></a>


### Exploración inicial

Los siguientes son métodos/atributos de exploración que aplicamos sobre el dataframe mismo.

| Método / Atributo         | Descripción                                                                                             |
|-----------------|---------------------------------------------------------------------------------------------------------|
| `head(n)`/`tail(n)` | Muestra las primeras/últimas n filas del DataFrame.
| `describe()`    | Da estadísticas como el promedio, desviación estándar, mínimo y máximo de **columnas numéricas**. |
| `info()`        | Nos ofrece información importante como los tipos de los atributos y sus valores nulos.     |
| `dtypes`        | Da los tipos de datos del dataframe                                             |
| `shape`         | Informa sobre la dimensión del dataframe en forma de tupla `(nfilas, ncolumnas)` |
| `columns`         | Informa sobre el nombre de las columnas del dataframe. |


In [26]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 42516 entries, 0 to 42515
Data columns (total 22 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   IDHASH               42516 non-null  object 
 1   COLEGIO              42516 non-null  object 
 2   COLEGIO_DEPA         42290 non-null  object 
 3   COLEGIO_PROV         42288 non-null  object 
 4   COLEGIO_DIST         42288 non-null  object 
 5   COLEGIO_PAIS         18942 non-null  object 
 6   COLEGIO_ANIO_EGRESO  42516 non-null  int64  
 7   ESPECIALIDAD         42461 non-null  object 
 8   ANIO_POSTULA         42516 non-null  int64  
 9   CICLO_POSTULA        42516 non-null  int64  
 10  DOMICILIO_DEPA       42516 non-null  object 
 11  DOMICILIO_PROV       42516 non-null  object 
 12  DOMICILIO_DIST       42516 non-null  object 
 13  ANIO_NACIMIENTO      42516 non-null  int64  
 14  NACIMIENTO_PAIS      42516 non-null  object 
 15  NACIMIENTO_DEPA      42314 non-null 

In [27]:
df.describe()

Unnamed: 0,COLEGIO_ANIO_EGRESO,ANIO_POSTULA,CICLO_POSTULA,ANIO_NACIMIENTO,CALIF_FINAL
count,42516.0,42516.0,42516.0,42516.0,42492.0
mean,2020.043301,2022.564352,1.313082,2003.665138,7.640941
std,2.853733,1.07873,0.463753,2.858881,3.561482
min,1970.0,2021.0,1.0,1948.0,0.0
25%,2019.0,2022.0,1.0,2003.0,4.894
50%,2020.0,2023.0,1.0,2004.0,7.288
75%,2022.0,2023.0,2.0,2005.0,10.313
max,2025.0,2024.0,2.0,2008.0,20.0


In [None]:
#df.describe()
#df.info()
#df.head()
#df.tail(4)

#df.dtypes
#df.shape
#df.columnns

In [32]:
df.columns

Index(['IDHASH', 'COLEGIO', 'COLEGIO_DEPA', 'COLEGIO_PROV', 'COLEGIO_DIST',
       'COLEGIO_PAIS', 'COLEGIO_ANIO_EGRESO', 'ESPECIALIDAD', 'ANIO_POSTULA',
       'CICLO_POSTULA', 'DOMICILIO_DEPA', 'DOMICILIO_PROV', 'DOMICILIO_DIST',
       'ANIO_NACIMIENTO', 'NACIMIENTO_PAIS', 'NACIMIENTO_DEPA',
       'NACIMIENTO_PROV', 'NACIMIENTO_DIST', 'SEXO', 'CALIF_FINAL', 'INGRESO',
       'MODALIDAD'],
      dtype='object')

In [36]:
pd.crosstab(df['ESPECIALIDAD'], df['NACIMIENTO_PAIS'])

NACIMIENTO_PAIS,ARGENTINA,BOLIVIA,BRAZIL,CHILE,COLOMBIA,ECUADOR,EE.UU.,ESPAÑA,FRANCIA,GUATEMALA,...,JAPÓN,KOREA,MÉXICO,NO ESPECIFICA,PARAGUAY,PERÚ,SIRIA,SUIZA,URUGUAY,VENEZUELA
ESPECIALIDAD,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
ARQUITECTURA,11,1,3,1,1,0,1,4,0,0,...,1,0,0,0,0,4681,0,0,1,6
CIENCIA DE LA COMPUTACIÓN,2,0,0,0,0,1,0,0,0,0,...,1,0,0,0,0,869,1,1,0,4
FÍSICA,1,0,0,3,0,0,1,0,0,0,...,0,0,0,0,0,632,0,0,0,3
INGENIERÍA AMBIENTAL,0,0,0,1,0,0,0,0,0,0,...,0,0,0,0,0,971,0,0,0,1
INGENIERÍA CIVIL,10,1,0,2,0,0,2,0,0,0,...,3,0,0,0,0,7586,0,0,0,3
INGENIERÍA DE CIBERSEGURIDAD,0,0,0,0,0,0,0,1,0,0,...,1,0,0,0,0,605,0,0,0,1
INGENIERÍA DE HIGIENE Y SEGURIDAD INDUSTRIAL,0,0,0,0,0,0,0,1,0,0,...,0,0,0,0,0,206,0,0,0,0
INGENIERÍA DE MINAS,1,0,0,0,1,0,0,2,0,0,...,0,0,0,0,0,1521,0,3,0,1
INGENIERÍA DE PETRÓLEO Y GAS NATURAL,0,0,0,0,0,0,1,0,0,0,...,0,0,0,0,0,142,0,0,0,1
INGENIERÍA DE SISTEMAS,8,1,3,2,2,1,3,2,0,2,...,9,0,0,0,1,6287,0,0,0,6


Ahora exploraremos una columna en particular. Aquí se utilizará la exploración para una columna determinada (luego veremos que estas son Series).

| Método          | Descripción                                                                                       |
|-----------------|---------------------------------------------------------------------------------------------------|
| `unique()`      | Da los valores únicos de la serie.                                                          |
| `nunique()`     | Cuenta cuántos elementos únicos hay en la serie.                                                 |
| `sort_values()` | Ordena la serie.         |
| `value_counts()`| Da distribución de frecuencias de cada valor único de la serie.                                             |


Para datos numéricos:                                                    
`sum()`, `mean()`,  `min()`, `max()`, `mode()`, `median()` ,  `std()`

Ejercicios:
- Averigua cuáles son los 5 primeros departamentos en donde nacen los postulantes.
- Cuenta cuántos hombres/mujeres postulan a la UNI.
- Cuenta cuántos ingresan.  
Hint: value_counts()

In [None]:

df['INGRESO'].value_counts(normalize = True)

<a class="anchor" id="select"></a>

### Cómo seleccionar datos

A veces sólo necesitamos entender una parte de todos nuestros datos. Por ejemplo, queremos ver los datos de los partidos políticos:

In [None]:
# df['ANIO_NACIMIENTO'].unique()
# df['ANIO_NACIMIENTO'].nunique()
# df['NACIMIENTO_DEPA'].value_counts()
# df['NACIMIENTO_DEPA'].value_counts(normalize = True)

Un dataframe está compuesto de varias series: una columna es una serie diferente.

In [38]:
df[['ANIO_NACIMIENTO', 'ESPECIALIDAD']]

Unnamed: 0,ANIO_NACIMIENTO,ESPECIALIDAD
0,2004,INGENIERÍA DE SISTEMAS
1,2001,INGENIERÍA DE TELECOMUNICACIONES
2,2000,INGENIERÍA MECÁNICA
3,2002,INGENIERÍA ELECTRÓNICA
4,2004,ARQUITECTURA
...,...,...
42511,2002,INGENIERÍA CIVIL
42512,2004,INGENIERÍA CIVIL
42513,2006,ARQUITECTURA
42514,2004,ARQUITECTURA


In [None]:
type(df['ANIO_NACIMIENTO']) # Forma de acceder a una columna.
# Otra forma:
# df.ANIO_NACIMIENTO # Mejor utilizar la anterior!

# Acceder a varias columnas:
df[['ANIO_NACIMIENTO', 'NACIMIENTO_DEPA']]


In [None]:
#### Explorando más de una columna:

In [None]:
pd.crosstab(df['NACIMIENTO_DEPA'], df['SEXO'])

# esta funcion nos permite hacer tablas cruzadas entre dos columnas.

pd.crosstab(df['NACIMIENTO_DEPA'], df['SEXO'])

### Selección de datos

#### Selección de columnas

In [39]:
# por nombre:
peque_lst = ['ANIO_NACIMIENTO', 'NACIMIENTO_DEPA']
#df[peque_lst]

In [40]:
df_small = df[peque_lst].copy()
df_small.head()

Unnamed: 0,ANIO_NACIMIENTO,NACIMIENTO_DEPA
0,2004,LIMA
1,2001,ÁNCASH
2,2000,LIMA
3,2002,LIMA
4,2004,LIMA


#### Selección y filtración de filas/columnas con ``` iloc``` y ```loc ```

Primero seleccionaremos columnas, para lo que utilizaremos  ``` iloc``` y ```loc ```.

In [44]:
rows = [0, 4, 10]
cols = [1,2]
df.iloc[rows, cols]

Unnamed: 0,COLEGIO,COLEGIO_DEPA
0,LA DIVINA PROVIDENCIA,LIMA
4,TRILCE LOS OLIVOS,LIMA
10,2095 HERNAN BUSSE DE LA GUERRA,LIMA


In [46]:
df.iloc[40000:, [3]]

Unnamed: 0,COLEGIO_PROV
40000,HUAURA
40001,LIMA
40002,LIMA
40003,LIMA
40004,LIMA
...,...
42511,LIMA
42512,PROV CONST DEL CALLAO
42513,HUAMANGA
42514,LIMA


In [None]:
## loc utiliza las etiquetas.

##### Utilizando el iloc
El iloc ubica las observaciones que corresponden al índice que le indicamos.
Recordando nuestra base de postulantes:

In [None]:
# Agarrando observaciones puntuales

df.iloc[3]



In [None]:
# Agarrando observaciones puntuales definidas por su indice
rows = [1, 2, 10,13,3000]
df.iloc[rows]

In [None]:
rows = [10,13, 2]
cols = [2,4,6]
df.iloc[rows, cols]

In [None]:
df.iloc[3:, [4]]

In [None]:
# qué pasa si  hago...
#df.iloc[rows, ['COLEGIO_DEPA', 'COLEGIO_PROV', 'COLEGIO_ANIO_EGRESO']]

In [None]:
df.iloc[:3,:3]

##### Utilizando el ```loc```

El ``` loc``` es una forma de ubicar observaciones que se basa en las etiquetas, tanto de columnas como de filas.


In [47]:
columnas = ['COLEGIO_DEPA', 'COLEGIO_PROV', 'COLEGIO_ANIO_EGRESO']
filas = range(0,6)
df.loc[filas, columnas]




Unnamed: 0,COLEGIO_DEPA,COLEGIO_PROV,COLEGIO_ANIO_EGRESO
0,LIMA,LIMA,2020
1,ÁNCASH,HUARAZ,2017
2,LIMA,LIMA,2016
3,LIMA,LIMA,2018
4,LIMA,LIMA,2020
5,VENEZUELA,VENEZUELA,2017


In [48]:
df2 = df.set_index('IDHASH') ## FUNCIONES HASH



In [49]:
df2.loc['E4287C2FE19F63C5E6641955147E36684A5A2FF8064676B6CB00A57522FD99A8175BC39CB2924C9F4D3848443267048FE4CB946A191592F9053A3D1705456A26']

Unnamed: 0,E4287C2FE19F63C5E6641955147E36684A5A2FF8064676B6CB00A57522FD99A8175BC39CB2924C9F4D3848443267048FE4CB946A191592F9053A3D1705456A26
COLEGIO,LA DIVINA PROVIDENCIA
COLEGIO_DEPA,LIMA
COLEGIO_PROV,LIMA
COLEGIO_DIST,SURQUILLO
COLEGIO_PAIS,PERÚ
COLEGIO_ANIO_EGRESO,2020
ESPECIALIDAD,INGENIERÍA DE SISTEMAS
ANIO_POSTULA,2021
CICLO_POSTULA,1
DOMICILIO_DEPA,LIMA


In [None]:
df.loc[:, columnas]

#  Con .iloc y .loc, hemos visto nuevas formas de acceder a las filas/columnas de un dataframe:
# df.loc[:, ['ANIO_NACIMIENTO', 'NACIMIENTO_DEPA']]
# df.loc[1:3, ['ANIO_NACIMIENTO', 'NACIMIENTO_DEPA']]
# df.iloc[:, [1, 2]]
# df.iloc[1:3, 2:4]


In [54]:
df['NACIMIENTO_PAIS'].unique()

array(['PERÚ', 'ARGENTINA', 'COLOMBIA', 'VENEZUELA', 'CHILE', 'ESPAÑA',
       'ITALIA', 'EE.UU.', 'BOLIVIA', 'BRAZIL', 'JAPÓN', 'KOREA',
       'URUGUAY', 'ECUADOR', 'NO ESPECIFICA', 'GUATEMALA', 'HONDURAS',
       'SUIZA', 'SIRIA', 'PARAGUAY', 'FRANCIA', 'MÉXICO'], dtype=object)

<a class="anchor" id="filter"></a>

### Filtrando información

Muchas veces querremos quedarnos con un subconjunto de datos que cumplen cierta condición. Las condiciones tienen que evaluarse a un booleano.

In [55]:
(df['NACIMIENTO_PAIS'] == 'PERÚ').value_counts()

Unnamed: 0_level_0,count
NACIMIENTO_PAIS,Unnamed: 1_level_1
True,42285
False,231


In [63]:
cond_1 = df['COLEGIO_DEPA'] == "LIMA"
cond_2 = df['INGRESO'] == "NO"

df[cond_1 | cond_2] ## EN VECTORIAL, no es and  es & ; no es or, es |



ValueError: The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().

In [64]:
df[~ cond_1].head() # no es not, es ~

Unnamed: 0,IDHASH,COLEGIO,COLEGIO_DEPA,COLEGIO_PROV,COLEGIO_DIST,COLEGIO_PAIS,COLEGIO_ANIO_EGRESO,ESPECIALIDAD,ANIO_POSTULA,CICLO_POSTULA,...,DOMICILIO_DIST,ANIO_NACIMIENTO,NACIMIENTO_PAIS,NACIMIENTO_DEPA,NACIMIENTO_PROV,NACIMIENTO_DIST,SEXO,CALIF_FINAL,INGRESO,MODALIDAD
1,2DC37F0B9727B6591EC72D7A942647797A200F45D47C9E...,86019 LA LIBERTAD,ÁNCASH,HUARAZ,HUARAZ,PERÚ,2017,INGENIERÍA DE TELECOMUNICACIONES,2021,1,...,HUARAZ,2001,PERÚ,ÁNCASH,HUARAZ,HUARAZ,FEMENINO,3.58,NO,ORDINARIO
5,3A060265D9E508F256DC9E1881ED163F8D2FB192D04095...,UNIDAD EDUCATIVA SAN JUDAS TADEO,VENEZUELA,VENEZUELA,VENEZUELA,VENEZUELA,2017,INGENIERÍA MECÁNICA-ELÉCTRICA,2021,1,...,SANTIAGO DE SURCO,2000,PERÚ,JUNÍN,CHANCHAMAYO,CHANCHAMAYO,MASCULINO,10.53,NO,EXTRAORDINARIO1 - CONVENIO ANDRES BELLO (inici...
9,6989381377E6B2A54A1AA295438E048B901748BD11501F...,COAR AYACUCHO,AYACUCHO,HUAMANGA,AYACUCHO,PERÚ,2019,ARQUITECTURA,2021,1,...,AYACUCHO,2003,PERÚ,AYACUCHO,HUAMANGA,AYACUCHO,FEMENINO,3.07,NO,ORDINARIO
13,44940F569609FF5B23996C0A6AB82361FAD6C16B1C444A...,PROLOG DE CHINCHA,ICA,CHINCHA,CHINCHA ALTA,PERÚ,2019,INGENIERÍA CIVIL,2021,1,...,GROCIO PRADO,2002,PERÚ,ICA,CHINCHA,CHINCHA ALTA,MASCULINO,6.43,NO,EXTRAORDINARIO2 – INGRESO DIRECTO CEPRE
15,1797D2A80BAB7378A3A88E4DAA2AD1EA14B7826EA2C088...,JOSE PARDO Y BARREDA,ICA,CHINCHA,CHINCHA ALTA,,2013,INGENIERÍA DE SISTEMAS,2024,1,...,SAN JUAN DE LURIGANCHO,1997,PERÚ,ICA,CHINCHA,CHINCHA ALTA,MASCULINO,4.366,NO,ORDINARIO


#### Filtrando información con condiciones

In [65]:
# Podemos guardar las condiciones como variables y luego hacer el filtro.

condicion = [True]*(len(df) - 5) + [False] * (5) # Tenemos una lista de booleanons de la longitud del dataframe.
#df[condicion] # Filtramos el dataframe con la condición.

condicion_todos = [True]* len(df)

df[condicion_todos]

Unnamed: 0,IDHASH,COLEGIO,COLEGIO_DEPA,COLEGIO_PROV,COLEGIO_DIST,COLEGIO_PAIS,COLEGIO_ANIO_EGRESO,ESPECIALIDAD,ANIO_POSTULA,CICLO_POSTULA,...,DOMICILIO_DIST,ANIO_NACIMIENTO,NACIMIENTO_PAIS,NACIMIENTO_DEPA,NACIMIENTO_PROV,NACIMIENTO_DIST,SEXO,CALIF_FINAL,INGRESO,MODALIDAD
0,E4287C2FE19F63C5E6641955147E36684A5A2FF8064676...,LA DIVINA PROVIDENCIA,LIMA,LIMA,SURQUILLO,PERÚ,2020,INGENIERÍA DE SISTEMAS,2021,1,...,SAN JUAN DE MIRAFLORES,2004,PERÚ,LIMA,LIMA,VILLA EL SALVADOR,MASCULINO,3.110,NO,EXTRAORDINARIO1 - DEPORTISTAS CALIFICADOS DE A...
1,2DC37F0B9727B6591EC72D7A942647797A200F45D47C9E...,86019 LA LIBERTAD,ÁNCASH,HUARAZ,HUARAZ,PERÚ,2017,INGENIERÍA DE TELECOMUNICACIONES,2021,1,...,HUARAZ,2001,PERÚ,ÁNCASH,HUARAZ,HUARAZ,FEMENINO,3.580,NO,ORDINARIO
2,3B8677B90781D7BB8F2F967C05FA2DBBE153BBB682DF05...,0113 DANIEL ALOMIAS ROBLES,LIMA,LIMA,SAN JUAN DE LURIGANCHO,PERÚ,2016,INGENIERÍA MECÁNICA,2021,1,...,SAN JUAN DE LURIGANCHO,2000,PERÚ,LIMA,LIMA,JESÚS MARÍA,MASCULINO,8.040,NO,ORDINARIO
3,FA366704D9E9F6FB5E5F55C1FB0CEEE973C626A5616F55...,SEBASTIAN SALAZAR BONDY,LIMA,LIMA,SANTA ANITA,PERÚ,2018,INGENIERÍA ELECTRÓNICA,2021,1,...,SANTA ANITA,2002,PERÚ,LIMA,LIMA,LIMA,MASCULINO,10.820,NO,EXTRAORDINARIO2 – INGRESO DIRECTO CEPRE
4,E31CF8F30F3AE60B3D8A14F6E1020E9AD26EE975F0823B...,TRILCE LOS OLIVOS,LIMA,LIMA,SAN MARTÍN DE PORRES,PERÚ,2020,ARQUITECTURA,2021,1,...,INDEPENDENCIA,2004,PERÚ,LIMA,LIMA,COMAS,FEMENINO,6.210,NO,ORDINARIO
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
42511,370728AB03E7ECDE69265AC64B0A682887B0BA3E40644F...,BARTOLOME HERRERA,LIMA,LIMA,SAN MIGUEL,,2019,INGENIERÍA CIVIL,2023,1,...,LA PERLA,2002,PERÚ,CALLAO,PROV CONST DEL CALLAO,BELLAVISTA,MASCULINO,5.906,NO,ORDINARIO
42512,C03C7AC74210DA0F4862BFEDAE45CF3BB5AE9813FCF409...,FE Y ALEGRIA 59,CALLAO,PROV CONST DEL CALLAO,VENTANILLA,,2021,INGENIERÍA CIVIL,2023,1,...,VENTANILLA,2004,PERÚ,CALLAO,PROV CONST DEL CALLAO,CALLAO,FEMENINO,2.621,NO,ORDINARIO
42513,E6337F43BAEF0F59EDF11F6F16A47A908717DE288B7886...,CIENCIAS,AYACUCHO,HUAMANGA,SAN JUAN BAUTISTA,,2022,ARQUITECTURA,2023,1,...,AYACUCHO,2006,PERÚ,AYACUCHO,HUAMANGA,AYACUCHO,FEMENINO,7.974,NO,ORDINARIO
42514,13F7CD09C661B02F61218445885DA7C4FDBD87392F7522...,SAN CARLOS,LIMA,LIMA,LURIGANCHO,,2021,ARQUITECTURA,2023,1,...,LURIGANCHO,2004,PERÚ,LIMA,LIMA,MIRAFLORES,FEMENINO,9.477,NO,ORDINARIO


In [None]:
cond = df['COLEGIO_DEPA'] == 'LIMA'
# explora qué bota el cond.

df[cond]
df[cond].reset_index(drop = True) # drop = True sirve para q no se quede ennuewtro  dataframe



In [None]:
cond_1 = df['COLEGIO_DEPA'] == "LIMA"
cond_2 = df['INGRESO'] == "NO"

cond_filtrado_and = df[cond_1 & cond_2] ## Pregunta: por qué no usamos el and y or, como habíamos visto antes?

cond_filtrado_or = df[cond_1 | cond_2]

## equivalente a:
df[(df['COLEGIO_DEPA'] == "LIMA") & (df['INGRESO'] == "NO")] ## necesitamos cerrarlo en paréntesis.

df[(df['COLEGIO_DEPA'] == "LIMA") | (df['INGRESO'] == "NO")]

# Nota1: Si queremos hacer un filtro con más de una condición, necesitamos cerrar cada condición en paréntesis.
# Nota2: Podemos almacenar el resultado como una variable, que será un dataframe nuevo.

In [66]:
cond_1 = df['COLEGIO_DEPA'] == "LIMA"
cond_2 = df['INGRESO'] == "NO"

cond_filtrado_and = df[cond_1 & cond_2]

cond_filtrado_and

Unnamed: 0,IDHASH,COLEGIO,COLEGIO_DEPA,COLEGIO_PROV,COLEGIO_DIST,COLEGIO_PAIS,COLEGIO_ANIO_EGRESO,ESPECIALIDAD,ANIO_POSTULA,CICLO_POSTULA,...,DOMICILIO_DIST,ANIO_NACIMIENTO,NACIMIENTO_PAIS,NACIMIENTO_DEPA,NACIMIENTO_PROV,NACIMIENTO_DIST,SEXO,CALIF_FINAL,INGRESO,MODALIDAD
0,E4287C2FE19F63C5E6641955147E36684A5A2FF8064676...,LA DIVINA PROVIDENCIA,LIMA,LIMA,SURQUILLO,PERÚ,2020,INGENIERÍA DE SISTEMAS,2021,1,...,SAN JUAN DE MIRAFLORES,2004,PERÚ,LIMA,LIMA,VILLA EL SALVADOR,MASCULINO,3.110,NO,EXTRAORDINARIO1 - DEPORTISTAS CALIFICADOS DE A...
2,3B8677B90781D7BB8F2F967C05FA2DBBE153BBB682DF05...,0113 DANIEL ALOMIAS ROBLES,LIMA,LIMA,SAN JUAN DE LURIGANCHO,PERÚ,2016,INGENIERÍA MECÁNICA,2021,1,...,SAN JUAN DE LURIGANCHO,2000,PERÚ,LIMA,LIMA,JESÚS MARÍA,MASCULINO,8.040,NO,ORDINARIO
3,FA366704D9E9F6FB5E5F55C1FB0CEEE973C626A5616F55...,SEBASTIAN SALAZAR BONDY,LIMA,LIMA,SANTA ANITA,PERÚ,2018,INGENIERÍA ELECTRÓNICA,2021,1,...,SANTA ANITA,2002,PERÚ,LIMA,LIMA,LIMA,MASCULINO,10.820,NO,EXTRAORDINARIO2 – INGRESO DIRECTO CEPRE
4,E31CF8F30F3AE60B3D8A14F6E1020E9AD26EE975F0823B...,TRILCE LOS OLIVOS,LIMA,LIMA,SAN MARTÍN DE PORRES,PERÚ,2020,ARQUITECTURA,2021,1,...,INDEPENDENCIA,2004,PERÚ,LIMA,LIMA,COMAS,FEMENINO,6.210,NO,ORDINARIO
6,740625EEB5D80EFBCAA4E16DC690BA65594321F2EFE666...,NUESTRA SEÑORA DE LA MERCED,LIMA,LIMA,VILLA EL SALVADOR,PERÚ,2019,INGENIERÍA CIVIL,2021,1,...,LIMA,2002,PERÚ,LIMA,LIMA,LIMA,MASCULINO,4.450,NO,ORDINARIO
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
42508,5E35AC40B02D7C8E47EA088641791B7010FCCDD958B948...,1168 HEROES DEL CENEPA,LIMA,LIMA,LIMA,,2020,CIENCIA DE LA COMPUTACIÓN,2023,1,...,EL AGUSTINO,2004,PERÚ,LIMA,LIMA,LA VICTORIA,MASCULINO,7.350,NO,ORDINARIO
42510,B72BBA63F1DD27BB1619F02203A83B65CF8C139797E800...,INNOVA SCHOOLS,LIMA,LIMA,SAN JUAN DE MIRAFLORES,,2019,INGENIERÍA DE SISTEMAS,2023,1,...,VILLA MARIA DEL TRIUNFO,2003,PERÚ,LIMA,LIMA,LIMA,MASCULINO,6.277,NO,ORDINARIO
42511,370728AB03E7ECDE69265AC64B0A682887B0BA3E40644F...,BARTOLOME HERRERA,LIMA,LIMA,SAN MIGUEL,,2019,INGENIERÍA CIVIL,2023,1,...,LA PERLA,2002,PERÚ,CALLAO,PROV CONST DEL CALLAO,BELLAVISTA,MASCULINO,5.906,NO,ORDINARIO
42514,13F7CD09C661B02F61218445885DA7C4FDBD87392F7522...,SAN CARLOS,LIMA,LIMA,LURIGANCHO,,2021,ARQUITECTURA,2023,1,...,LURIGANCHO,2004,PERÚ,LIMA,LIMA,MIRAFLORES,FEMENINO,9.477,NO,ORDINARIO


In [None]:
## Ejercicio: Filtra el dataframe para que solo te quedes con las observaciones que sean de Lima y que hayan ingresado.

In [None]:
#df.query('ANIO_POSTULA > 2020')

In [70]:
#df.query('ANIO_POSTULA > 2020')

In [None]:
df[~df['COLEGIO_DEPA'].isin(['LIMA', 'CALLAO'])]

In [None]:
df[df['COLEGIO_DEPA'].isin(['LIMA', 'CALLAO'])]

En general, Pandas tiene una serie de métodos para filtrar información.
Vamos viendo cuándo aplicar cada uno:


| Método         | Ejemplo de uso                                                                                                        |
|----------------|-----------------------------------------------------------------------------------------------------------------------|
| `loc`          | `df.loc[(df['ANIO_POSTULA'] > 2020) & (df['ANIO_NACIMIENTO'] < 2000), 'ANIO_NACIMIENTO']`    |
| `iloc`         | `df.iloc[0:5, 0:2]` Accede a las primeras 5 filas y primeras 2 columnas.                                                |
| `query`        | `df.query('(ANIO_POSTULA > 2020) & (ANIO_NACIMIENTO < 2000)')`
| `filter`       | `df.filter(items=['ANIO_NACIMIENTO', 'ANIO_POSTULA'])`                                          |
| `where`        | `df.where((df['ANIO_POSTULA'] > 2020) & (df['ANIO_NACIMIENTO'] < 2000))` Preserva shape pero rellena con Nan     |
| `mask`         | `df.mask((df['ANIO_POSTULA'] > 2020) & (df['ANIO_NACIMIENTO'] < 2000))` Cambia a NaN los valores donde 'ANIO_POSTULA' > 2020 y 'ANIO_NACIMIENTO' < 2000.                            |
| `isin`         | `df[df['ANIO_NACIMIENTO'].isin([2000, 2001])]`

In [72]:
df.loc[
(df['ANIO_POSTULA'] > 2020
) & (
    df['ANIO_NACIMIENTO'] < 2000
), :]

Unnamed: 0,IDHASH
7,922382307F9D6F9F5BABC2C815528642B93E83527224EC...
15,1797D2A80BAB7378A3A88E4DAA2AD1EA14B7826EA2C088...
83,8B5EF615D131BA731AB3F0D9401708B798B780A4BE7BCD...
114,3A4C3DEB55F97A3E6CEE7C01650D4FD74C393F1732260E...
138,C72577E64EA58227B61673148CA343C7BEE561FB072310...
...,...
42408,87949A113B8ADF30820065058B2F4A77929E45D26B988A...
42421,702280F15AAD42C6B18030AC3465B3C0B7F16A56073B53...
42444,98A7693D745E4404E75FE930DBCA0F3AF7E15300214A90...
42449,42095898DC500CFC8ABDC3291485D2FE841C0BB3D2D9DC...


## Ejercicio:
1. Filtra el dataframe y quédate con quienes postularon a la 'ESPECIALIDAD' de INGENIERÍA MECATRÓNICA y cuyo lugar de nacimiento sea Callao.
2. Filtra el dataframe y quédate con los postulantes cuyo país de estudio no haya sido Perú.
3. Filtra el dataframe y quédate con los postulantes de nacieron en Cajamarca y sí ingresaron.
4. Filtra el dataframe y quédate con los postulantes que obtuvieron una calificación final mayor a 17 e ingresaron por modalidad ordinario.
