# Seleccionando y consultando datos


Hay varias maneras de consultar los valores de un **df**. En general se agrupan en selección por **linea**, por **columna** o indicaciones para acceder una **celda**.

Comenzamos cargando algunos datos como ejemplo:

In [1]:
import pandas as pd

tipos = {'Numero':'int', 'Expediente':'str', 'Nombre':'str', 'Apellido':'str',
         'Plan':'str', 'Tarea1':'float', 'Examen1':'float', 'Tarea2':'float',
         'Examen2':'float', 'Tarea3':'float', 'Examen3':'float'}

df = pd.read_csv('ListaAlumnos.csv', index_col='Expediente', dtype=tipos)
len(df)

16

### Consultas por línea (observación)

Es muy común, para poder verificar los datos, que queramos visualizar las primeras o últimas filas de un _dataframe_. El objeto _dataframe_ tiene los métodos `head()` y `tail()`. Estos _métodos_ por defecto regresan 5 registros, pero si pasamos un argumento `int` nos regresarán ese número de registros.

In [2]:
df.head()

Unnamed: 0_level_0,Numero,Nombre,Apellido,Plan,Tarea1,Examen1,Tarea2,Examen2,Tarea3,Examen3
Expediente,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
297613,1,Margarita,Duarte,LIM2014,100.0,100.0,100.0,100.0,100.0,75.0
261301,2,Manolo,Garcia,LIM2014,100.0,27.0,100.0,60.0,50.0,13.0
262979,3,Tomas,Gomez,LIM2014,67.0,57.0,100.0,100.0,100.0,50.0
223867,4,Susana,Gonzalez,LIM2014,100.0,60.0,33.0,100.0,100.0,38.0
200389,5,Itzel,Hernandez,LIM2014,100.0,75.0,67.0,100.0,100.0,50.0


In [3]:
df.tail(7)

Unnamed: 0_level_0,Numero,Nombre,Apellido,Plan,Tarea1,Examen1,Tarea2,Examen2,Tarea3,Examen3
Expediente,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
262959,10,Gustavo,Ramirez,LIM2014,100.0,87.0,100.0,100.0,100.0,100.0
273339,11,Pedro,Romero,LIM2014,67.0,67.0,100.0,100.0,50.0,25.0
226660,12,Hector,Sanchez,LIM2014,100.0,69.0,100.0,95.0,100.0,13.0
293143,13,Amanda,Sosa,LIM2014,33.0,69.0,100.0,95.0,100.0,50.0
254011,14,Miguel,Torres,LIM2014,67.0,72.0,67.0,90.0,100.0,100.0
276772,15,Alberto,Vazquez,LIM2014,100.0,69.0,100.0,100.0,100.0,0.0
252165,16,Carlos,Vera,LIM2014,100.0,84.0,67.0,100.0,100.0,25.0


Para acceder a una **linea** de nuestro _dataframe_ usamos `iloc` (de localizar por número consecutivo):

In [4]:
df.iloc[1]

Numero            2
Nombre       Manolo
Apellido     Garcia
Plan        LIM2014
Tarea1        100.0
Examen1        27.0
Tarea2        100.0
Examen2        60.0
Tarea3         50.0
Examen3        13.0
Name: 261301, dtype: object

Obsérvese que el resultado también es una serie, donde los índices son los nombres de las columnas

`iloc` permite diversos tipos de entrada entre los que se encuentran:

* _Slices_:

In [5]:
df.iloc[4:7]

Unnamed: 0_level_0,Numero,Nombre,Apellido,Plan,Tarea1,Examen1,Tarea2,Examen2,Tarea3,Examen3
Expediente,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
200389,5,Itzel,Hernandez,LIM2014,100.0,75.0,67.0,100.0,100.0,50.0
270819,6,David,Hernandez,LIM2014,100.0,63.0,100.0,95.0,100.0,50.0
203004,7,Francisco,Jimenez,LIM2014,33.0,23.0,100.0,60.0,50.0,0.0


* Listas con los índices.

In [6]:
df.iloc[[0,2,3,9]]

Unnamed: 0_level_0,Numero,Nombre,Apellido,Plan,Tarea1,Examen1,Tarea2,Examen2,Tarea3,Examen3
Expediente,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
297613,1,Margarita,Duarte,LIM2014,100.0,100.0,100.0,100.0,100.0,75.0
262979,3,Tomas,Gomez,LIM2014,67.0,57.0,100.0,100.0,100.0,50.0
223867,4,Susana,Gonzalez,LIM2014,100.0,60.0,33.0,100.0,100.0,38.0
262959,10,Gustavo,Ramirez,LIM2014,100.0,87.0,100.0,100.0,100.0,100.0


* Lista con valores binarios

In [7]:
df.iloc[[False, True, True, False, False, False, True, False,
         True, True, False, False, False, False, False, False]]

Unnamed: 0_level_0,Numero,Nombre,Apellido,Plan,Tarea1,Examen1,Tarea2,Examen2,Tarea3,Examen3
Expediente,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
261301,2,Manolo,Garcia,LIM2014,100.0,27.0,100.0,60.0,50.0,13.0
262979,3,Tomas,Gomez,LIM2014,67.0,57.0,100.0,100.0,100.0,50.0
203004,7,Francisco,Jimenez,LIM2014,33.0,23.0,100.0,60.0,50.0,0.0
276809,9,Helena,Perez,LIM2014,100.0,95.0,100.0,90.0,100.0,88.0
262959,10,Gustavo,Ramirez,LIM2014,100.0,87.0,100.0,100.0,100.0,100.0


* Funciones

In [8]:
df.iloc[lambda x: x.Examen1.array >= 90.0]

Unnamed: 0_level_0,Numero,Nombre,Apellido,Plan,Tarea1,Examen1,Tarea2,Examen2,Tarea3,Examen3
Expediente,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
297613,1,Margarita,Duarte,LIM2014,100.0,100.0,100.0,100.0,100.0,75.0
276809,9,Helena,Perez,LIM2014,100.0,95.0,100.0,90.0,100.0,88.0


 (__Nota__: esta no es la manera más común de hacer este tipo de filtro)

### Filtrado de __lineas__ según ciertas características.

La manera más común de hacer una selección de las lineas según sus características es usando `[]`, donde en el interior se coloca(n) la(s) condición(es) correspondientes:

In [9]:
df[df.Examen1 >= 90.0]

Unnamed: 0_level_0,Numero,Nombre,Apellido,Plan,Tarea1,Examen1,Tarea2,Examen2,Tarea3,Examen3
Expediente,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
297613,1,Margarita,Duarte,LIM2014,100.0,100.0,100.0,100.0,100.0,75.0
276809,9,Helena,Perez,LIM2014,100.0,95.0,100.0,90.0,100.0,88.0


Para incluir varias condiciones cada una se debe de colocar dentro de un paréntesis `()`, utilizando los operadores lógicos `&` y `|`:

In [10]:
df[(df.Examen1 <= 70.0) & (df.Examen2 >= 90.0)]

Unnamed: 0_level_0,Numero,Nombre,Apellido,Plan,Tarea1,Examen1,Tarea2,Examen2,Tarea3,Examen3
Expediente,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
262979,3,Tomas,Gomez,LIM2014,67.0,57.0,100.0,100.0,100.0,50.0
223867,4,Susana,Gonzalez,LIM2014,100.0,60.0,33.0,100.0,100.0,38.0
270819,6,David,Hernandez,LIM2014,100.0,63.0,100.0,95.0,100.0,50.0
273339,11,Pedro,Romero,LIM2014,67.0,67.0,100.0,100.0,50.0,25.0
226660,12,Hector,Sanchez,LIM2014,100.0,69.0,100.0,95.0,100.0,13.0
293143,13,Amanda,Sosa,LIM2014,33.0,69.0,100.0,95.0,100.0,50.0
276772,15,Alberto,Vazquez,LIM2014,100.0,69.0,100.0,100.0,100.0,0.0


In [11]:
df[(df.Examen1 < 60.0) | (df.Examen2 < 60) | (df.Examen3 < 60)]

Unnamed: 0_level_0,Numero,Nombre,Apellido,Plan,Tarea1,Examen1,Tarea2,Examen2,Tarea3,Examen3
Expediente,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
261301,2,Manolo,Garcia,LIM2014,100.0,27.0,100.0,60.0,50.0,13.0
262979,3,Tomas,Gomez,LIM2014,67.0,57.0,100.0,100.0,100.0,50.0
223867,4,Susana,Gonzalez,LIM2014,100.0,60.0,33.0,100.0,100.0,38.0
200389,5,Itzel,Hernandez,LIM2014,100.0,75.0,67.0,100.0,100.0,50.0
270819,6,David,Hernandez,LIM2014,100.0,63.0,100.0,95.0,100.0,50.0
203004,7,Francisco,Jimenez,LIM2014,33.0,23.0,100.0,60.0,50.0,0.0
273339,11,Pedro,Romero,LIM2014,67.0,67.0,100.0,100.0,50.0,25.0
226660,12,Hector,Sanchez,LIM2014,100.0,69.0,100.0,95.0,100.0,13.0
293143,13,Amanda,Sosa,LIM2014,33.0,69.0,100.0,95.0,100.0,50.0
276772,15,Alberto,Vazquez,LIM2014,100.0,69.0,100.0,100.0,100.0,0.0


### Muestreo aleatorio:

Pandas nos permite hacer un muestreo aleatorio, ya sea diciendo el número (`n=`) o la fracción (`frac=`):

In [12]:
df.sample(n=3)

Unnamed: 0_level_0,Numero,Nombre,Apellido,Plan,Tarea1,Examen1,Tarea2,Examen2,Tarea3,Examen3
Expediente,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
276809,9,Helena,Perez,LIM2014,100.0,95.0,100.0,90.0,100.0,88.0
200389,5,Itzel,Hernandez,LIM2014,100.0,75.0,67.0,100.0,100.0,50.0
293143,13,Amanda,Sosa,LIM2014,33.0,69.0,100.0,95.0,100.0,50.0


In [13]:
df.sample(frac=0.25) # 25%

Unnamed: 0_level_0,Numero,Nombre,Apellido,Plan,Tarea1,Examen1,Tarea2,Examen2,Tarea3,Examen3
Expediente,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
273339,11,Pedro,Romero,LIM2014,67.0,67.0,100.0,100.0,50.0,25.0
297471,8,Juan,Nuñez,LIM2014,67.0,77.0,67.0,97.5,100.0,75.0
226660,12,Hector,Sanchez,LIM2014,100.0,69.0,100.0,95.0,100.0,13.0
262979,3,Tomas,Gomez,LIM2014,67.0,57.0,100.0,100.0,100.0,50.0


### Mayores y menores

También es posible revisar las líneas con los __mayores__ o __menores__ valores en una columna con `nlargest()` y `nsmallest()`:

In [14]:
df.nlargest(5, 'Examen1')

Unnamed: 0_level_0,Numero,Nombre,Apellido,Plan,Tarea1,Examen1,Tarea2,Examen2,Tarea3,Examen3
Expediente,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
297613,1,Margarita,Duarte,LIM2014,100.0,100.0,100.0,100.0,100.0,75.0
276809,9,Helena,Perez,LIM2014,100.0,95.0,100.0,90.0,100.0,88.0
262959,10,Gustavo,Ramirez,LIM2014,100.0,87.0,100.0,100.0,100.0,100.0
252165,16,Carlos,Vera,LIM2014,100.0,84.0,67.0,100.0,100.0,25.0
297471,8,Juan,Nuñez,LIM2014,67.0,77.0,67.0,97.5,100.0,75.0


In [15]:
df.nsmallest(3, 'Tarea1')

Unnamed: 0_level_0,Numero,Nombre,Apellido,Plan,Tarea1,Examen1,Tarea2,Examen2,Tarea3,Examen3
Expediente,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
203004,7,Francisco,Jimenez,LIM2014,33.0,23.0,100.0,60.0,50.0,0.0
293143,13,Amanda,Sosa,LIM2014,33.0,69.0,100.0,95.0,100.0,50.0
262979,3,Tomas,Gomez,LIM2014,67.0,57.0,100.0,100.0,100.0,50.0


### Cálculos estadísticos

El objeto _dataframe_ incluye el cálculo automático de los descriptores estadísticos, usando `describe()`

In [16]:
df.describe()

Unnamed: 0,Numero,Tarea1,Examen1,Tarea2,Examen2,Tarea3,Examen3
count,16.0,16.0,16.0,16.0,16.0,16.0,16.0
mean,8.5,83.375,68.375,87.5625,92.65625,90.625,47.0
std,4.760952,24.374509,20.710303,20.607341,13.212013,20.155644,33.348663
min,1.0,33.0,23.0,33.0,60.0,50.0,0.0
25%,4.75,67.0,62.25,67.0,93.75,100.0,22.0
50%,8.5,100.0,69.0,100.0,98.75,100.0,50.0
75%,12.25,100.0,78.75,100.0,100.0,100.0,75.0
max,16.0,100.0,100.0,100.0,100.0,100.0,100.0


También hace, usando `corr()`, un cálculo de la correlación de las variables numéricas:

In [17]:
df.corr(numeric_only=True)

Unnamed: 0,Numero,Tarea1,Examen1,Tarea2,Examen2,Tarea3,Examen3
Numero,1.0,-0.153388,0.250167,0.003058,0.247741,0.191052,-0.069702
Tarea1,-0.153388,1.0,0.398142,-0.150028,0.305154,0.340095,0.073978
Examen1,0.250167,0.398142,1.0,-0.09019,0.77151,0.703712,0.639001
Tarea2,0.003058,-0.150028,-0.09019,1.0,-0.256835,-0.299443,-0.139983
Examen2,0.247741,0.305154,0.77151,-0.256835,1.0,0.725616,0.358599
Tarea3,0.191052,0.340095,0.703712,-0.299443,0.725616,1.0,0.510788
Examen3,-0.069702,0.073978,0.639001,-0.139983,0.358599,0.510788,1.0


### Selección por Columna

Para hacer una selección por __columna__ se puede usar el modo simplificado:

In [18]:
df.Examen3

Expediente
297613     75.0
261301     13.0
262979     50.0
223867     38.0
200389     50.0
270819     50.0
203004      0.0
297471     75.0
276809     88.0
262959    100.0
273339     25.0
226660     13.0
293143     50.0
254011    100.0
276772      0.0
252165     25.0
Name: Examen3, dtype: float64

Este modo está limitado a la selección de __una sola columna__ y para columnas que __no tienen espacios en sus nombres__. Para los otros casos podemos usar la notación de `[]` utilizada en Python para acceder un elemento:

In [19]:
df['Examen3']

Expediente
297613     75.0
261301     13.0
262979     50.0
223867     38.0
200389     50.0
270819     50.0
203004      0.0
297471     75.0
276809     88.0
262959    100.0
273339     25.0
226660     13.0
293143     50.0
254011    100.0
276772      0.0
252165     25.0
Name: Examen3, dtype: float64

Para extraer **más de una columna** (como _dataframe_) utilizamos la notación con doble `[[]]`. De esta forma los nombres de las columnas son pasados como una lista a nuestro _dataframe_

In [20]:
df[['Tarea1','Tarea2', 'Tarea3']]

Unnamed: 0_level_0,Tarea1,Tarea2,Tarea3
Expediente,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
297613,100.0,100.0,100.0
261301,100.0,100.0,50.0
262979,67.0,100.0,100.0
223867,100.0,33.0,100.0
200389,100.0,67.0,100.0
270819,100.0,100.0,100.0
203004,33.0,100.0,50.0
297471,67.0,67.0,100.0
276809,100.0,100.0,100.0
262959,100.0,100.0,100.0


### Acceso de datos puntuales

__Pandas__ nos permite acceder (leer y modificar) un dato puntual usando:

In [21]:
df.loc['203004','Examen1']

23.0

In [22]:
df.loc['203004','Examen1'] = 35

In [23]:
df.loc['203004','Examen1']

35.0

In [24]:
df

Unnamed: 0_level_0,Numero,Nombre,Apellido,Plan,Tarea1,Examen1,Tarea2,Examen2,Tarea3,Examen3
Expediente,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
297613,1,Margarita,Duarte,LIM2014,100.0,100.0,100.0,100.0,100.0,75.0
261301,2,Manolo,Garcia,LIM2014,100.0,27.0,100.0,60.0,50.0,13.0
262979,3,Tomas,Gomez,LIM2014,67.0,57.0,100.0,100.0,100.0,50.0
223867,4,Susana,Gonzalez,LIM2014,100.0,60.0,33.0,100.0,100.0,38.0
200389,5,Itzel,Hernandez,LIM2014,100.0,75.0,67.0,100.0,100.0,50.0
270819,6,David,Hernandez,LIM2014,100.0,63.0,100.0,95.0,100.0,50.0
203004,7,Francisco,Jimenez,LIM2014,33.0,35.0,100.0,60.0,50.0,0.0
297471,8,Juan,Nuñez,LIM2014,67.0,77.0,67.0,97.5,100.0,75.0
276809,9,Helena,Perez,LIM2014,100.0,95.0,100.0,90.0,100.0,88.0
262959,10,Gustavo,Ramirez,LIM2014,100.0,87.0,100.0,100.0,100.0,100.0
