# Explorando datos tabulares con Pandas

NumPy proporciona muchas de las funciones y herramientas que necesita para trabajar con números, como matrices de valores numéricos. Sin embargo, cuando comienza a manejar tablas de datos bidimensionales, el paquete Pandas ofrece una estructura más conveniente para trabajar: el DataFrame.

Ejecute la siguiente celda para importar la biblioteca de Pandas y cree un DataFrame con tres columnas. La primera columna es una lista de nombres de estudiantes, y la segunda y tercera columnas son las matrices NumPy que contienen el tiempo de estudio y los datos de calificaciones.

In [4]:
import numpy as np

study_hours = [10.0,11.5,9.0,16.0,9.25,1.0,11.5,9.0,8.5,14.5,15.5,
               13.75,9.0,8.0,15.5,8.0,9.0,6.0,10.0,12.0,12.5,12.0]
grades = [50,50,47,97,49,3,53,42,26,74,82,62,37,15,70,27,36,35,48,52,63,64]

student_data = np.array([study_hours, grades])

student_data

array([[10.  , 11.5 ,  9.  , 16.  ,  9.25,  1.  , 11.5 ,  9.  ,  8.5 ,
        14.5 , 15.5 , 13.75,  9.  ,  8.  , 15.5 ,  8.  ,  9.  ,  6.  ,
        10.  , 12.  , 12.5 , 12.  ],
       [50.  , 50.  , 47.  , 97.  , 49.  ,  3.  , 53.  , 42.  , 26.  ,
        74.  , 82.  , 62.  , 37.  , 15.  , 70.  , 27.  , 36.  , 35.  ,
        48.  , 52.  , 63.  , 64.  ]])

In [5]:
import pandas as pd

df_students = pd.DataFrame({'Name': ['Dan', 'Joann', 'Pedro', 'Rosie', 'Ethan', 'Vicky', 'Frederic', 'Jimmie', 
                                     'Rhonda', 'Giovanni', 'Francesca', 'Rajab', 'Naiyana', 'Kian', 'Jenny',
                                     'Jakeem','Helena','Ismat','Anila','Skye','Daniel','Aisha'],
                            'StudyHours':student_data[0],
                            'Grade':student_data[1]})

df_students 

Unnamed: 0,Name,StudyHours,Grade
0,Dan,10.0,50.0
1,Joann,11.5,50.0
2,Pedro,9.0,47.0
3,Rosie,16.0,97.0
4,Ethan,9.25,49.0
5,Vicky,1.0,3.0
6,Frederic,11.5,53.0
7,Jimmie,9.0,42.0
8,Rhonda,8.5,26.0
9,Giovanni,14.5,74.0


Tenga en cuenta que, además de las columnas que especificó, el DataFrame incluye un índice para identificar de forma única cada fila. Podríamos haber especificado el índice explícitamente y asignado cualquier tipo de valor apropiado (por ejemplo, una dirección de correo electrónico). Sin embargo, debido a que no especificamos un índice, se creó uno con un valor entero único para cada fila.

# Encontrar y filtrar datos en un DataFrame

Puede usar el método loc de DataFrame para recuperar datos para un valor de índice específico, como este.

In [6]:
# Get the data for index value 5
df_students.loc[5]

Name          Vicky
StudyHours      1.0
Grade           3.0
Name: 5, dtype: object

También puede obtener los datos en un rango de valores de índice, como este:

In [10]:
df_students.iloc[0:5]


Unnamed: 0,Name,StudyHours,Grade
0,Dan,10.0,50.0
1,Joann,11.5,50.0
2,Pedro,9.0,47.0
3,Rosie,16.0,97.0
4,Ethan,9.25,49.0


Mire cuidadosamente los resultados de iloc[0:5] y compárelos con los resultados de loc[0:5] que obtuvo anteriormente. 

El método loc devolvió filas con etiqueta de índice en la lista de valores de 0 a 5, que incluye 0, 1, 2, 3, 4 y 5 (seis filas). Sin embargo, el método iloc devuelve las filas en las posiciones incluidas en el rango de 0 a 5. Dado que los rangos de enteros no incluyen el valor del límite superior, esto incluye las posiciones 0, 1, 2, 3 y 4 (cinco filas).

iloc identifica valores de datos en un DataFrame por posición, que se extiende más allá de las filas a las columnas. Entonces, por ejemplo, puede usarlo para encontrar los valores de las columnas en las posiciones 1 y 2 en la fila 0, así:

In [11]:
df_students.iloc[0,[1,2]]

StudyHours    10.0
Grade         50.0
Name: 0, dtype: object

Volvamos al método loc y veamos cómo funciona con las columnas. Recuerde que usa loc para ubicar elementos de datos en función de valores de índice en lugar de posiciones. En ausencia de una columna de índice explícita, las filas en nuestro DataFrame se indexan como valores enteros, pero las columnas se identifican por nombre:

In [12]:
df_students.loc[0,'Grade']

50.0

Aquí hay otro truco útil. Puede usar el método loc para encontrar filas indexadas en función de una expresión de filtrado que hace referencia a columnas nombradas distintas del índice, esto se pued

In [13]:
df_students.loc[df_students['Name']=='Aisha']

Unnamed: 0,Name,StudyHours,Grade
21,Aisha,12.0,64.0


En realidad, no necesita usar explícitamente el método loc para hacer esto. Simplemente puede aplicar una expresión de filtrado de DataFrame, como esta:

In [14]:
df_students[df_students['Name']=='Aisha']

Unnamed: 0,Name,StudyHours,Grade
21,Aisha,12.0,64.0


Y en buena medida, puede lograr los mismos resultados utilizando el método **consulta** de DataFrame, así:

In [15]:
df_students.query('Name=="Aisha"')

Unnamed: 0,Name,StudyHours,Grade
21,Aisha,12.0,64.0


Los tres ejemplos anteriores subrayan una verdad confusa sobre trabajar con Pandas. A menudo, hay varias formas de lograr los mismos resultados. Otro ejemplo de esto es la forma en que se refiere a un nombre de columna de DataFrame. Puede especificar el nombre de la columna como un valor de índice con nombre (como en los ejemplos de df_students['Name'] que hemos visto hasta ahora), o puede usar la columna como una propiedad del DataFrame, así:

In [16]:
df_students[df_students.Name == 'Aisha']

Unnamed: 0,Name,StudyHours,Grade
21,Aisha,12.0,64.0
