# Data Indexing and Selection

We looked in detail at methods and tools to access, set, and modify values in NumPy arrays.
These included indexing (e.g., ``arr[2, 1]``), slicing (e.g., ``arr[:, 1:5]``), masking (e.g., ``arr[arr > 0]``), fancy indexing (e.g., ``arr[0, [1, 5]]``), and combinations thereof (e.g., ``arr[:, [1, 5]]``).
Here we'll look at similar means of accessing and modifying values in Pandas ``Series`` and ``DataFrame`` objects.
If you have used the NumPy patterns, the corresponding patterns in Pandas will feel very familiar, though there are a few quirks to be aware of.

We'll start with the simple case of the one-dimensional ``Series`` object, and then move on to the more complicated two-dimesnional ``DataFrame`` object.


Analizamos en detalle los métodos y herramientas para acceder, establecer y modificar valores en matrices NumPy. Estos incluyeron indexación (p. Ej., Arr [2, 1]), segmentación (p. Ej., Arr [:, 1: 5]), enmascaramiento (p. Ej., Arr [arr> 0]), indexación elegante (p. Ej., Arr [0, [ 1, 5]]), y sus combinaciones (por ejemplo, arr [:, [1, 5]]). Aquí veremos medios similares para acceder y modificar valores en los objetos Pandas Series y DataFrame. Si ha utilizado los patrones NumPy, los patrones correspondientes en Pandas le resultarán muy familiares, aunque hay algunas peculiaridades a tener en cuenta.

Comenzaremos con el caso simple del objeto de serie unidimensional y luego pasaremos al objeto de marco de datos bidimensional más complicado.

## Data Selection in Series

As we saw in the previous section, a ``Series`` object acts in many ways like a one-dimensional NumPy array, and in many ways like a standard Python dictionary.
If we keep these two overlapping analogies in mind, it will help us to understand the patterns of data indexing and selection in these arrays.

In [38]:

Como vimos en la sección anterior, un objeto Serie actúa de muchas maneras como una matriz NumPy unidimensional y de muchas maneras como un diccionario Python estándar. Si tenemos en cuenta estas dos analogías superpuestas, nos ayudará a comprender los patrones de indexación y selección de datos en estas matrices.

SyntaxError: invalid syntax (<ipython-input-38-76e78e512ec6>, line 1)

### Series as dictionary

Like a dictionary, the ``Series`` object provides a mapping from a collection of keys to a collection of values:


Al igual que un diccionario, el objeto Serie proporciona una asignación de una colección de claves a una colección de valores:

In [39]:
import pandas as pd
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [40]:
data['b']

0.5

We can also use dictionary-like Python expressions and methods to examine the keys/indices and values:
También podemos usar expresiones y métodos de Python tipo diccionario para examinar las claves / índices y valores:


In [41]:
'a' in data

True

In [42]:
data.keys()

Index(['a', 'b', 'c', 'd'], dtype='object')

In [43]:
list(data.items())

[('a', 0.25), ('b', 0.5), ('c', 0.75), ('d', 1.0)]

``Series`` objects can even be modified with a dictionary-like syntax.
Just as you can extend a dictionary by assigning to a new key, you can extend a ``Series`` by assigning to a new index value:

Los objetos en serie incluso se pueden modificar con una sintaxis similar a un diccionario. Del mismo modo que puede extender un diccionario mediante la asignación a una nueva clave, puede extender una Serie al asignar a un nuevo valor de índice:


In [44]:
data['e'] = 1.25
data

a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64

This easy mutability of the objects is a convenient feature: under the hood, Pandas is making decisions about memory layout and data copying that might need to take place; the user generally does not need to worry about these issues.


Esta fácil mutabilidad de los objetos es una característica conveniente: bajo el capó, Pandas está tomando decisiones sobre el diseño de la memoria y la copia de datos que podrían necesitarse; el usuario generalmente no necesita preocuparse por estos problemas.

### Series as one-dimensional array

A ``Series`` builds on this dictionary-like interface and provides array-style item selection via the same basic mechanisms as NumPy arrays – that is, *slices*, *masking*, and *fancy indexing*.
Examples of these are as follows:


Una serie se basa en esta interfaz tipo diccionario y proporciona una selección de elementos de estilo matriz a través de los mismos mecanismos básicos que las matrices NumPy, es decir, cortes, enmascaramiento e indexación elegante. Ejemplos de estos son los siguientes:

In [45]:
# slicing by explicit index
data['a':'c']

a    0.25
b    0.50
c    0.75
dtype: float64

In [46]:
# slicing by implicit integer index
data[0:2]

a    0.25
b    0.50
dtype: float64

In [47]:
# masking
data[(data > 0.3) & (data < 0.8)]

b    0.50
c    0.75
dtype: float64

In [48]:
# fancy indexing
data[['a', 'e']]

a    0.25
e    1.25
dtype: float64

Among these, slicing may be the source of the most confusion.
Notice that when slicing with an explicit index (i.e., ``data['a':'c']``), the final index is *included* in the slice, while when slicing with an implicit index (i.e., ``data[0:2]``), the final index is *excluded* from the slice.


Entre estos, el corte puede ser la fuente de la mayor confusión. Tenga en cuenta que al dividir con un índice explícito (es decir, datos ['a': 'c']), el índice final se incluye en el segmento, mientras que al dividir con un índice implícito (es decir, datos [0: 2]), el índice final se excluye del segmento.

### Indexers: loc, iloc, and ix

These slicing and indexing conventions can be a source of confusion.
For example, if your ``Series`` has an explicit integer index, an indexing operation such as ``data[1]`` will use the explicit indices, while a slicing operation like ``data[1:3]`` will use the implicit Python-style index.


Indizadores: loc, iloc e ix
Estas convenciones de corte e indexación pueden ser una fuente de confusión. Por ejemplo, si su Serie tiene un índice entero explícito, una operación de indexación como data [1] usará los índices explícitos, mientras que una operación de segmentación como data [1: 3] usará el índice implícito de estilo Python.

In [49]:
data = pd.Series(['a', 'b', 'c'], index=[1, 3, 5])
data

1    a
3    b
5    c
dtype: object

In [50]:
# explicit index when indexing; el indice final se incluiria en el segmento al ser implicito
data[1]

'a'

In [51]:
# implicit index when slicing; el indice final se excluiria en el segmento al ser explicito
data[1:3]

3    b
5    c
dtype: object

Because of this potential confusion in the case of integer indexes, Pandas provides some special *indexer* attributes that explicitly expose certain indexing schemes.
These are not functional methods, but attributes that expose a particular slicing interface to the data in the ``Series``.

First, the ``loc`` attribute allows indexing and slicing that always references the explicit index:

Debido a esta posible confusión en el caso de los índices enteros, Pandas proporciona algunos atributos especiales del indexador que exponen explícitamente ciertos esquemas de indexación. Estos no son métodos funcionales, sino atributos que exponen una interfaz de corte particular a los datos de la Serie.

Primero, el atributo loc permite la indexación y el corte que siempre hace referencia al índice explícito:

In [52]:
data.loc[1]

'a'

In [53]:
data.loc[1:3]  #imprime el numero que ponemos= al del indice

1    a
3    b
dtype: object

The ``iloc`` attribute allows indexing and slicing that always references the implicit Python-style index:
El atributo iloc permite la indexación y el corte que siempre hace referencia al índice implícito de estilo Python:

El atributo iloc permite la indexación y el corte que siempre hace referencia al índice implícito de estilo Python: 

In [54]:
data.iloc[1]

'b'

In [55]:
data.iloc[1:3]  #Imprime tomando el indice como en python en este caso de pos 1 a pos 2

3    b
5    c
dtype: object

A third indexing attribute, ``ix``, is a hybrid of the two, and for ``Series`` objects is equivalent to standard ``[]``-based indexing.
The purpose of the ``ix`` indexer will become more apparent in the context of ``DataFrame`` objects, which we will discuss in a moment.

One guiding principle of Python code is that "explicit is better than implicit."
The explicit nature of ``loc`` and ``iloc`` make them very useful in maintaining clean and readable code; especially in the case of integer indexes, I recommend using these both to make code easier to read and understand, and to prevent subtle bugs due to the mixed indexing/slicing convention.


Un tercer atributo de indexación, ix, es un híbrido de los dos, y para los objetos Series es equivalente a la indexación basada en estándar []. El propósito del indexador ix será más evidente en el contexto de los objetos DataFrame, que discutiremos en un momento.

Un principio rector del código Python es que "explícito es mejor que implícito". La naturaleza explícita de loc e iloc los hace muy útiles para mantener un código limpio y legible; especialmente en el caso de los índices enteros, recomiendo usar ambos para hacer que el código sea más fácil de leer y comprender, y para evitar errores sutiles debido a la convención mixta de indexación / corte.

## Data Selection in DataFrame

Recall that a ``DataFrame`` acts in many ways like a two-dimensional or structured array, and in other ways like a dictionary of ``Series`` structures sharing the same index.
These analogies can be helpful to keep in mind as we explore data selection within this structure.

#Recuerde que un DataFrame actúa de muchas maneras, como una matriz bidimensional o estructurada, y de otras maneras, como un diccionario de estructuras de la Serie que comparten el mismo índice. Estas analogías pueden ser útiles para tener en cuenta a medida que exploramos la selección de datos dentro de esta estructura.

### DataFrame as a dictionary

The first analogy we will consider is the ``DataFrame`` as a dictionary of related ``Series`` objects.
Let's return to our examp
La primera analogía que consideraremos es el DataFrame como un diccionario de objetos de la Serie relacionados. Volvamos a nuestro ejemplo de áreas y poblaciones de estados:le of areas and populations of states:


In [56]:
area = pd.Series({'California': 423967, 'Texas': 695662,
                  'New York': 141297, 'Florida': 170312,
                  'Illinois': 149995})
pop = pd.Series({'California': 38332521, 'Texas': 26448193,
                 'New York': 19651127, 'Florida': 19552860,
                 'Illinois': 12882135})
data = pd.DataFrame({'area':area, 'pop':pop})
data

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


The individual ``Series`` that make up the columns of the ``DataFrame`` can be accessed via dictionary-style indexing of the column name:


Se puede acceder a las Series individuales que componen las columnas del DataFrame a través de la indexación de estilo de diccionario del nombre de la columna:

In [57]:
data['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

Equivalently, we can use attribute-style access with column names that are strings:

De manera equivalente, podemos usar el acceso de estilo de atributo con nombres de columna que son cadenas:

In [58]:
data.area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

This attribute-style column access actually accesses the exact same object as the dictionary-style access:

In [59]:
data.area is data['area']

True

Though this is a useful shorthand, keep in mind that it does not work for all cases!
For example, if the column names are not strings, or if the column names conflict with methods of the ``DataFrame``, this attribute-style access is not possible.
For example, the ``DataFrame`` has a ``pop()`` method, so ``data.pop`` will point to this rather than the ``"pop"`` column:


Aunque esta es una taquigrafía útil, tenga en cuenta que no funciona en todos los casos. Por ejemplo, si los nombres de columna no son cadenas, o si los nombres de columna entran en conflicto con los métodos del Marco de datos, este acceso de estilo de atributo no es posible. Por ejemplo, el DataFrame tiene un método pop (), por lo que data.pop apuntará a esto en lugar de a la columna "pop":

In [60]:
data.pop is data['pop']

False

In particular, you should avoid the temptation to try column assignment via attribute (i.e., use ``data['pop'] = z`` rather than ``data.pop = z``).

Like with the ``Series`` objects discussed earlier, this dictionary-style syntax can also be used to modify the object, in this case adding a new column:


En particular, debe evitar la tentación de intentar la asignación de columnas mediante un atributo (es decir, use data ['pop'] = z en lugar de data.pop = z).

Al igual que con los objetos de la Serie discutidos anteriormente, esta sintaxis de estilo de diccionario también se puede usar para modificar el objeto, en este caso agregando una nueva columna:

In [61]:
data['density'] = data['pop'] / data['area']
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.413926
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


This shows a preview of the straightforward syntax of element-by-element arithmetic between ``Series`` objects; we'll dig into this further in [Operating on Data in Pandas](03.03-Operations-in-Pandas.ipynb).

Esto muestra una vista previa de la sintaxis directa de la aritmética elemento por elemento entre los objetos de la Serie; profundizaremos en esto en Operación de datos en pandas.

### DataFrame as two-dimensional array

As mentioned previously, we can also view the ``DataFrame`` as an enhanced two-dimensional array.
We can examine the raw underlying data array using the ``values`` attribute:


DataFrame como matriz bidimensional
Como se mencionó anteriormente, también podemos ver el DataFrame como una matriz bidimensional mejorada. Podemos examinar la matriz de datos subyacente sin procesar utilizando el atributo de valores:

In [62]:
data.values

array([[4.23967000e+05, 3.83325210e+07, 9.04139261e+01],
       [6.95662000e+05, 2.64481930e+07, 3.80187404e+01],
       [1.41297000e+05, 1.96511270e+07, 1.39076746e+02],
       [1.70312000e+05, 1.95528600e+07, 1.14806121e+02],
       [1.49995000e+05, 1.28821350e+07, 8.58837628e+01]])

With this picture in mind, many familiar array-like observations can be done on the ``DataFrame`` itself.
For example, we can transpose the full ``DataFrame`` to swap rows and columns:

Teniendo en cuenta esta imagen, se pueden realizar muchas observaciones familiares similares a una matriz en el propio DataFrame. Por ejemplo, podemos transponer el DataFrame completo para intercambiar filas y columnas:
Abrir en el Traductor de Google	
Enviar comentarios
Resultados web


In [63]:
data.T

Unnamed: 0,California,Texas,New York,Florida,Illinois
area,423967.0,695662.0,141297.0,170312.0,149995.0
pop,38332520.0,26448190.0,19651130.0,19552860.0,12882140.0
density,90.41393,38.01874,139.0767,114.8061,85.88376


When it comes to indexing of ``DataFrame`` objects, however, it is clear that the dictionary-style indexing of columns precludes our ability to simply treat it as a NumPy array.
In particular, passing a single index to an array accesses a row:


Sin embargo, cuando se trata de indexar objetos DataFrame, está claro que la indexación de columnas al estilo de diccionario impide nuestra capacidad de tratarlo simplemente como una matriz NumPy. En particular, pasar un solo índice a una matriz accede a una fila:

In [64]:
data.values[0]

array([4.23967000e+05, 3.83325210e+07, 9.04139261e+01])

and passing a single "index" to a ``DataFrame`` accesses a column:


y pasar un solo "índice" a un DataFrame accede a una columna:

In [65]:
data['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

Thus for array-style indexing, we need another convention.
Here Pandas again uses the ``loc``, ``iloc``, and ``ix`` indexers mentioned earlier.
Using the ``iloc`` indexer, we can index the underlying array as if it is a simple NumPy array (using the implicit Python-style index), but the ``DataFrame`` index and column labels are maintained in the result:

Por lo tanto, para la indexación de estilo de matriz, necesitamos otra convención. Aquí Pandas nuevamente usa los indexadores loc, iloc e ix mencionados anteriormente. Usando el indexador iloc, podemos indexar la matriz subyacente como si fuera una simple matriz NumPy (usando el índice implícito de estilo Python), pero el índice DataFrame y las etiquetas de columna se mantienen en el resultado:

In [66]:
data.iloc[:3, :2]

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127


Similarly, using the ``loc`` indexer we can index the underlying data in an array-like style but using the explicit index and column names:

In [67]:
data.loc[:'Illinois', :'pop']

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


The ``ix`` indexer allows a hybrid of these two approaches:
El indexador ix permite un híbrido de estos dos enfoques

In [68]:
data.ix[:3, :'pop']

AttributeError: 'DataFrame' object has no attribute 'ix'

Keep in mind that for integer indices, the ``ix`` indexer is subject to the same potential sources of confusion as discussed for integer-indexed ``Series`` objects.

Any of the familiar NumPy-style data access patterns can be used within these indexers.
For example, in the ``loc`` indexer we can combine masking and fancy indexing as in the following:

Tenga en cuenta que para los índices enteros, el indexador ix está sujeto a las mismas fuentes potenciales de confusión que se analizan para los objetos de la serie indexados con enteros.

Cualquiera de los patrones familiares de acceso a datos estilo NumPy se puede usar dentro de estos indexadores. Por ejemplo, en el indexador loc podemos combinar el enmascaramiento y la indexación elegante como se muestra a continuación:

In [69]:
data.loc[data.density > 100, ['pop', 'density']]

Unnamed: 0,pop,density
New York,19651127,139.076746
Florida,19552860,114.806121


Any of these indexing conventions may also be used to set or modify values; this is done in the standard way that you might be accustomed to from working with NumPy:

Cualquiera de estas convenciones de indexación también se puede usar para establecer o modificar valores; Esto se hace de la manera estándar a la que podría estar acostumbrado de trabajar con NumPy:

In [70]:
data.iloc[0, 2] = 90
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.0
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


To build up your fluency in Pandas data manipulation, I suggest spending some time with a simple ``DataFrame`` and exploring the types of indexing, slicing, masking, and fancy indexing that are allowed by these various indexing approaches.
Para aumentar su fluidez en la manipulación de datos de Pandas, sugiero pasar un tiempo con un simple DataFrame y explorar los tipos de indexación, segmentación, enmascaramiento e indexación de fantasía que permiten estos diversos enfoques de indexación.

### Additional indexing conventions

There are a couple extra indexing conventions that might seem at odds with the preceding discussion, but nevertheless can be very useful in practice.
First, while *indexing* refers to columns, *slicing* refers to rows:

Convenciones de indexación adicionales
Hay un par de convenciones de indexación adicionales que pueden parecer incompatibles con la discusión anterior, pero que, sin embargo, pueden ser muy útiles en la práctica. Primero, mientras que la indexación se refiere a columnas, la división se refiere a filas:

In [71]:
data['Florida':'Illinois']

Unnamed: 0,area,pop,density
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


Such slices can also refer to rows by number rather than by index:

Dichos sectores también pueden referirse a filas por número en lugar de por índice:

In [72]:
data[1:3]

Unnamed: 0,area,pop,density
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746


Similarly, direct masking operations are also interpreted row-wise rather than column-wise:
Del mismo modo, las operaciones de enmascaramiento directo también se interpretan a nivel de fila en lugar de a nivel de columna:

In [73]:
data[data.density > 100]

Unnamed: 0,area,pop,density
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121


These two conventions are syntactically similar to those on a NumPy array, and while these may not precisely fit the mold of the Pandas conventions, they are nevertheless quite useful in practice.


Estas dos convenciones son sintácticamente similares a las de una matriz NumPy, y aunque pueden no ajustarse con precisión al molde de las convenciones de Pandas, sin embargo son bastante útiles en la práctica.