# <a style="color:blue;"> <b> Selección de datos en DataFrame </b> </a> 

Recuerde que a <a style="color:red;"> <b> DataFrame </b> </a> actúa en muchos sentidos como una matriz estructurada o bidimensional y, en otros, como un diccionario de <a style="color:red;"> <b> Series </b> </a> estructuras que comparten el mismo índice. Puede ser útil tener en cuenta estas analogías a medida que exploramos la selección de datos dentro de esta estructura.

# Marco de datos como diccionario
La primera analogía que consideraremos es la <a style="color:red;"> <b> DataFrame </b> </a> de un diccionario de <a style="color:red;"> <b> Series </b> </a> objetos relacionados. Volvamos a nuestro ejemplo de áreas y poblaciones de estados

In [10]:
import pandas as pd
area = pd.Series({'California': 423967, 'Texas': 695662,
                          'New York': 141297, 'Florida': 170312,
                          'Illinois': 149995,'Houston':141456})
print(f"Area\n \n{area}")
pop = pd.Series({'California': 38332521, 'Texas': 26448193,
                         'New York': 19651127, 'Florida': 19552860,
                         'Illinois': 12882135})
print(f"\npop\n \n{pop}")

Area
 
California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Houston       141456
dtype: int64

pop
 
California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64


In [23]:
data = pd.DataFrame({'Area':area, 'pop':pop})
data

Unnamed: 0,Area,pop
California,423967,38332521.0
Florida,170312,19552860.0
Houston,141456,
Illinois,149995,12882135.0
New York,141297,19651127.0
Texas,695662,26448193.0


Se puede acceder a las personas <a style="color:red;"> <b> Series </b> </a> que componen las columnas mediante la indexación del nombre de la columna al estilo de un diccionario: <a style="color:red;"> <b> DataFrame </b> </a>

In [12]:
data['Area']

California    423967
Florida       170312
Houston       141456
Illinois      149995
New York      141297
Texas         695662
Name: Area, dtype: int64

De manera equivalente, podemos usar el acceso de estilo de atributo con nombres de columna que sean cadenas:

In [13]:
data.Area

California    423967
Florida       170312
Houston       141456
Illinois      149995
New York      141297
Texas         695662
Name: Area, dtype: int64

Este acceso a la columna de estilo de atributo en realidad accede exactamente al mismo objeto que el acceso de estilo de diccionario:

In [15]:
data.Area is data['Area']

True

Aunque esta es una abreviatura útil, tenga en cuenta que no funciona en todos los casos. Por ejemplo, si los nombres de las columnas no son cadenas, o si los nombres de las columnas entran en conflicto con los métodos de <a style="color:red;"> <b> DataFrame </b> </a>, este acceso de estilo de atributo no es posible.Por ejemplo, <a style="color:red;"> <b> DataFrame </b> </a> tiene un método <a style="color:red;"> <b> pop() </b> </a>, por lo que data.pop apuntará a esto en lugar de a la columna  "pop":

In [17]:
data.pop is data['pop']

False

Al igual que con los objetos <a style="color:red;"> <b> Series</b> </a>  discutidos anteriormente, esta sintaxis estilo diccionario también se puede usar para modificar el objeto, en este caso para agregar una nueva columna

In [24]:
data['Density'] = data['pop'] / data['Area']
data

Unnamed: 0,Area,pop,Density
California,423967,38332521.0,90.413926
Florida,170312,19552860.0,114.806121
Houston,141456,,
Illinois,149995,12882135.0,85.883763
New York,141297,19651127.0,139.076746
Texas,695662,26448193.0,38.01874


# DataFrame como matriz bidimensional
Como se mencionó anteriormente, también podemos verlo <a style="color:red;"> <b> DataFrame </b> </a>  como una matriz bidimensional mejorada. Podemos examinar la matriz de datos subyacente sin procesar usando el <a style="color:red;"> <b> values</b> </a>  atributo:

In [27]:
Matriz = data.values
Matriz

array([[4.23967000e+05, 3.83325210e+07, 9.04139261e+01],
       [1.70312000e+05, 1.95528600e+07, 1.14806121e+02],
       [1.41456000e+05,            nan,            nan],
       [1.49995000e+05, 1.28821350e+07, 8.58837628e+01],
       [1.41297000e+05, 1.96511270e+07, 1.39076746e+02],
       [6.95662000e+05, 2.64481930e+07, 3.80187404e+01]])

Con esta imagen en mente, podemos hacer muchas observaciones familiares en forma de matrices sobre sí <a style="color:red;"> <b> DataFrame </b> </a> mismo. Por ejemplo, podemos transponer el completo <a style="color:red;"> <b> DataFrame </b> </a> para intercambiar filas y columnas:

In [28]:
Matriz.T

array([[4.23967000e+05, 1.70312000e+05, 1.41456000e+05, 1.49995000e+05,
        1.41297000e+05, 6.95662000e+05],
       [3.83325210e+07, 1.95528600e+07,            nan, 1.28821350e+07,
        1.96511270e+07, 2.64481930e+07],
       [9.04139261e+01, 1.14806121e+02,            nan, 8.58837628e+01,
        1.39076746e+02, 3.80187404e+01]])

Usando el <a style="color:red;"> <b> iloc </b> </a> indexador, podemos indexar la matriz subyacente como si fuera una matriz NumPy simple (usando el índice implícito de estilo Python), pero las DataFrame etiquetas de índice y columna se mantienen en el resultado:

In [29]:
data

Unnamed: 0,Area,pop,Density
California,423967,38332521.0,90.413926
Florida,170312,19552860.0,114.806121
Houston,141456,,
Illinois,149995,12882135.0,85.883763
New York,141297,19651127.0,139.076746
Texas,695662,26448193.0,38.01874


In [31]:
data.iloc[:3, :2]#Fila de la posición 0 a la 2, columna de la posición 0 a la 1 (python cuenta desde 0)

Unnamed: 0,Area,pop
California,423967,38332521.0
Florida,170312,19552860.0
Houston,141456,


In [35]:
data.iloc[2:5, :-1]#Fila de la posición 2 a la 4, columna de -1 a 0 

Unnamed: 0,Area,pop
Houston,141456,
Illinois,149995,12882135.0
New York,141297,19651127.0


In [65]:
# Acceso a una fila mediante el número del índice del registro
data.iloc[1]

Area       1.703120e+05
pop        1.955286e+07
Density    1.148061e+02
Name: Florida, dtype: float64

In [64]:
# Acceso a una fila mediante el nombre del ínice del registro
data.loc[["Florida","New York"]]

Unnamed: 0,Area,pop,Density
Florida,170312,19552860.0,114.806121
New York,141297,19651127.0,139.076746


In [66]:
# Acceso a ciertas columnas y ciertas filas.
data.loc[["Texas","California"]][["Area","Density"]]

Unnamed: 0,Area,Density
Texas,695662,38.01874
California,423967,90.413926


In [38]:
data.loc['Florida':'Illinois', 'pop':]#Empieza desde la fila Florida hasta Illinois, columna empieza desde pop 

Unnamed: 0,pop,Density
Florida,19552860.0,114.806121
Houston,,
Illinois,12882135.0,85.883763


Cualquiera de los patrones familiares de acceso a datos de estilo NumPy se puede utilizar dentro de estos indexadores. Por ejemplo, en el locindexador podemos combinar enmascaramiento e indexación elegante como se muestra a continuación:

In [50]:
data.loc[(data.Density > 100) & (data.Area > 170000) , ['Area', 'Density']]

Unnamed: 0,Area,Density
Florida,170312,114.806121


In [51]:
data

Unnamed: 0,Area,pop,Density
California,423967,38332521.0,90.413926
Florida,170312,19552860.0,114.806121
Houston,141456,,
Illinois,149995,12882135.0,85.883763
New York,141297,19651127.0,139.076746
Texas,695662,26448193.0,38.01874


Cualquiera de estas convenciones de indexación también se puede utilizar para establecer o modificar valores; Esto se hace de la forma estándar a la que quizás esté acostumbrado al trabajar con NumPy:

In [54]:
print(data.iloc[2,1])

nan


In [55]:
data.iloc[2,1] = 12412411 #se reemplaza el valor que se encuentra en la fila 2 y la columna 1

In [56]:
data

Unnamed: 0,Area,pop,Density
California,423967,38332521.0,90.413926
Florida,170312,19552860.0,114.806121
Houston,141456,12412411.0,
Illinois,149995,12882135.0,85.883763
New York,141297,19651127.0,139.076746
Texas,695662,26448193.0,38.01874


# Convenciones de indexación adicionales
Hay un par de convenciones de indexación adicionales que pueden parecer contradictorias con la discusión anterior, pero que, sin embargo, pueden resultar muy útiles en la práctica.Primero, mientras que la indexación se refiere a columnas, la división se refiere a filas:


In [58]:
data['Houston':'New York'] 

Unnamed: 0,Area,pop,Density
Houston,141456,12412411.0,
Illinois,149995,12882135.0,85.883763
New York,141297,19651127.0,139.076746


Estos sectores también pueden referirse a filas por número en lugar de por índice:

In [60]:
data[2:5]

Unnamed: 0,Area,pop,Density
Houston,141456,12412411.0,
Illinois,149995,12882135.0,85.883763
New York,141297,19651127.0,139.076746


De manera similar, las operaciones de enmascaramiento directo también se interpretan por filas en lugar de por columnas:

In [63]:
data[(data.Density > 90) & (data.Density <1500)]

Unnamed: 0,Area,pop,Density
California,423967,38332521.0,90.413926
Florida,170312,19552860.0,114.806121
New York,141297,19651127.0,139.076746
