## Selección en DataFrame (I)

Recuerda que un **DataFrame** actúa en muchos aspectos como una  
matriz bidimensional o estructurada, y en otros aspectos como un  
diccionario de estructuras **Series** que comparten el mismo índice.  
Estas analogías pueden ser útiles para tener en cuenta mientras  
exploramos la selección de datos dentro de esta estructura.

## DataFrames como un diccionario

In [1]:
import pandas as pd

In [2]:
area_dict = {"California":423967, 
            "Texas":695692,
            "New York":141297,
            "Florida":170312,
            "Illinois":149995
            }
area=pd.Series(area_dict)
area

California    423967
Texas         695692
New York      141297
Florida       170312
Illinois      149995
dtype: int64

In [3]:
population_dict = {"California":38332521, 
                   "Texas":26448193,
                   "New York":19651127,
                   "Florida":19552860,
                   "Illinois":12882125}
population = pd.Series(population_dict)
population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882125
dtype: int64

In [11]:
data = pd.DataFrame({"area":area,"pob":population})
data

Unnamed: 0,area,pob
California,423967,38332521
Texas,695692,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882125


In [13]:
data["area"]

California    423967
Texas         695692
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

In [14]:
area_var = data["area"]
print(area_var)

California    423967
Texas         695692
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64


Este acceso a la columna de estilo atributo accede en realidad al mismo objeto que el acceso de estilo diccionario 

In [18]:
data.pob

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882125
Name: pob, dtype: int64

In [20]:
data["pob"]

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882125
Name: pob, dtype: int64

In [21]:
data.pob is data["pob"]

True

In [26]:
var = data.pob
var_2 = data.pob
var["Kansas"] = 123000
print(var)

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882125
Kansas          123000
Name: pob, dtype: int64


In [27]:
data["densidad"] = data["pob"]/data["area"]

In [28]:
data

Unnamed: 0,area,pob,densidad
California,423967,38332521,90.413926
Texas,695692,26448193,38.017101
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882125,85.883696


En general, es mejor evitar la tentación de intentar la asignación de columnas a través de atributos (es decir, usa `datos['pob'] = z` en lugar de `datos.pob = z`).

In [30]:
nombres_cortos = ["CA","TX","NY","FL","IL"]

In [32]:
data["nombres cortos"] = nombres_cortos

data

Unnamed: 0,area,pob,densidad,nombres cortos
California,423967,38332521,90.413926,CA
Texas,695692,26448193,38.017101,TX
New York,141297,19651127,139.076746,NY
Florida,170312,19552860,114.806121,FL
Illinois,149995,12882125,85.883696,IL


In [33]:
data["nombres cortos"] 

California    CA
Texas         TX
New York      NY
Florida       FL
Illinois      IL
Name: nombres cortos, dtype: object

## Selección en DataFrame (II)

## DataFrame como un array bidimensional

Como se ha mencionado en otras sesiones, también podemos ver el  
**DataFrame** como un array bidimensional mejorado. Podemos  
examinar la matriz de datos subyacente utilizando el atributo  
`values`:

In [78]:
poblacion = pd.Series({"California":38332521, 
                   "Texas":26448193,
                   "New York":19651127,
                   "Florida":19552860,
                   "Illinois":12882125})
superficie = pd.Series ({"California":423967, 
            "Texas":695692,
            "New York":141297,
            "Florida":170312,
            "Illinois":149995})

data= pd.DataFrame({"area":superficie,"pob":poblacion})
data["densidad"]= data.pob/data.area

data

Unnamed: 0,area,pob,densidad
California,423967,38332521,90.413926
Texas,695692,26448193,38.017101
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882125,85.883696


Se pueden hacer muchas operaciones del tipo array numpy en el propio Data Frame.
Por ejemplo, transponer el Data Frame completo  para intercambiar filas y columnas:

In [79]:
data.values 

array([[4.23967000e+05, 3.83325210e+07, 9.04139261e+01],
       [6.95692000e+05, 2.64481930e+07, 3.80171010e+01],
       [1.41297000e+05, 1.96511270e+07, 1.39076746e+02],
       [1.70312000e+05, 1.95528600e+07, 1.14806121e+02],
       [1.49995000e+05, 1.28821250e+07, 8.58836961e+01]])

In [80]:
data.T

Unnamed: 0,California,Texas,New York,Florida,Illinois
area,423967.0,695692.0,141297.0,170312.0,149995.0
pob,38332520.0,26448190.0,19651130.0,19552860.0,12882120.0
densidad,90.41393,38.0171,139.0767,114.8061,85.8837


Por lo tanto, para la indexación estilo array, necesitamos otra convención. Aquí Pandas vuelve a utilizar los indexadores `loc` e `iloc` mencionados al hablar de la selección e indexado en Series.

Usando el indexador `iloc`, podemos indexar el array subyacente como si fuera un simple array de NumPy (usando el índice implícito de estilo Python), pero el índice `DataFrame` y las etiquetas de las columnas se mantienen en el resultado:

In [81]:
data

Unnamed: 0,area,pob,densidad
California,423967,38332521,90.413926
Texas,695692,26448193,38.017101
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882125,85.883696


In [82]:
data.iloc[1,2]

np.float64(38.01710095847013)

In [83]:
data.iloc[:3,0:2] ### Data iloc selector posicional de filas, el selector posicional de columnas

Unnamed: 0,area,pob
California,423967,38332521
Texas,695692,26448193
New York,141297,19651127


In [84]:
data.iloc[-1,-1]

np.float64(85.8836961232041)

Del mismo modo, utilizando el indexador `loc` podemos indexar los datos subyacentes en un estilo similar al de los arrays pero utilizando el índice explícito y los nombres de las columnas:

In [85]:
data.loc["Texas":"Florida"]

Unnamed: 0,area,pob,densidad
Texas,695692,26448193,38.017101
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121


In [86]:
data.loc["Texas":"Florida","pob":"densidad"]

Unnamed: 0,pob,densidad
Texas,26448193,38.017101
New York,19651127,139.076746
Florida,19552860,114.806121


In [87]:
data.loc[:,"pob":"densidad"]

Unnamed: 0,pob,densidad
California,38332521,90.413926
Texas,26448193,38.017101
New York,19651127,139.076746
Florida,19552860,114.806121
Illinois,12882125,85.883696


In [88]:
data[["pob","area"]]

Unnamed: 0,pob,area
California,38332521,423967
Texas,26448193,695692
New York,19651127,141297
Florida,19552860,170312
Illinois,12882125,149995


In [74]:
data.loc["Florida":,["pob","area"]]

Unnamed: 0,pob,area
Florida,19552860,170312
Illinois,12882125,149995


Cualquiera de los patrones de acceso a los datos de estilo NumPy puede ser utilizado dentro de estos indexadores. Por ejemplo, en el **indexador loc** podemos combinar el enmascaramiento y la **indexación "de fantasía"** (o selectiva) como en lo siguiente:

In [59]:
### Loc con condiciones ###

In [90]:
data.loc[data.pob>20000000,"densidad"]

California    90.413926
Texas         38.017101
Name: densidad, dtype: float64

In [95]:
data.loc[data.pob>20000000, ["area","densidad"]]

Unnamed: 0,area,densidad
California,423967,90.413926
Texas,695692,38.017101


In [100]:
data.loc[data["pob"]<20000000,"pob":"densidad"]

Unnamed: 0,pob,densidad
New York,19651127,139.076746
Florida,19552860,114.806121
Illinois,12882125,85.883696


In [None]:
### Cambiar un dato en especifico del Dta Frame, puedo hacerlo con el iloc

In [102]:
data.iloc[3,2]=10000
data

Unnamed: 0,area,pob,densidad
California,423967,38332521,90.413926
Texas,695692,26448193,38.017101
New York,141297,19651127,139.076746
Florida,170312,19552860,10000.0
Illinois,149995,12882125,85.883696


In [104]:
### Cambiar valores con condicionales a través del data loc
data.loc[data["pob"]>20000000,"densidad"]=12
data

Unnamed: 0,area,pob,densidad
California,423967,38332521,12.0
Texas,695692,26448193,12.0
New York,141297,19651127,139.076746
Florida,170312,19552860,10000.0
Illinois,149995,12882125,85.883696
