# Introducing Pandas Objects

At the very basic level, Pandas objects can be thought of as enhanced versions of NumPy structured arrays in which the rows and columns are identified with labels rather than simple integer indices.
As we will see during the course of this chapter, Pandas provides a host of useful tools, methods, and functionality on top of the basic data structures, but nearly everything that follows will require an understanding of what these structures are.
Thus, before we go any further, let's introduce these three fundamental Pandas data structures: the ``Series``, ``DataFrame``, and ``Index``.

We will start our code sessions with the standard NumPy and Pandas imports:


En el nivel más básico, los objetos Pandas pueden considerarse como versiones mejoradas de matrices estructuradas NumPy en las que las filas y columnas se identifican con etiquetas en lugar de simples índices enteros. Como veremos durante el curso de este capítulo, Pandas proporciona una serie de herramientas, métodos y funcionalidades útiles además de las estructuras de datos básicas, pero casi todo lo que sigue requerirá una comprensión de cuáles son estas estructuras. Por lo tanto, antes de continuar, introduzcamos estas tres estructuras de datos fundamentales de Pandas: Series, DataFrame e Index.

Comenzaremos nuestras sesiones de código con las importaciones estándar de NumPy y Pandas:

In [1]:
import numpy as np
import pandas as pd

## The Pandas Series Object

A Pandas ``Series`` is a one-dimensional array of indexed data.
It can be created from a list or array as follows:


Una serie Pandas es una matriz unidimensional de datos indexados. Se puede crear a partir de una lista o matriz de la siguiente manera:

In [2]:
data = pd.Series([0.25, 0.5, 0.75, 1.0]) #crea una matriz unidimensional
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

As we see in the output, the ``Series`` wraps both a sequence of values and a sequence of indices, which we can access with the ``values`` and ``index`` attributes.
The ``values`` are simply a familiar NumPy array:

Como vemos en la salida, la Serie envuelve tanto una secuencia de valores como una secuencia de índices, a los que podemos acceder con los valores y los atributos del índice. Los valores son simplemente una matriz familiar de NumPy:

In [3]:
data.values

array([0.25, 0.5 , 0.75, 1.  ])

The ``index`` is an array-like object of type ``pd.Index``, which we'll discuss in more detail momentarily.


El índice es un objeto tipo matriz de tipo pd.Index, que discutiremos con más detalle en un momento.

In [4]:
data.index

RangeIndex(start=0, stop=4, step=1)

Like with a NumPy array, data can be accessed by the associated index via the familiar Python square-bracket notation:

Al igual que con una matriz NumPy, el índice asociado puede acceder a los datos a través de la notación familiar de corchetes de Python:

In [5]:
data[1]

0.5

In [6]:
data[1:3]

1    0.50
2    0.75
dtype: float64

As we will see, though, the Pandas ``Series`` is much more general and flexible than the one-dimensional NumPy array that it emulates.


Sin embargo, como veremos, la serie Pandas es mucho más general y flexible que la matriz unidimensional NumPy que emula.

### ``Series`` as generalized NumPy array

From what we've seen so far, it may look like the ``Series`` object is basically interchangeable with a one-dimensional NumPy array.
The essential difference is the presence of the index: while the Numpy Array has an *implicitly defined* integer index used to access the values, the Pandas ``Series`` has an *explicitly defined* index associated with the values.

This explicit index definition gives the ``Series`` object additional capabilities. For example, the index need not be an integer, but can consist of values of any desired type.
For example, if we wish, we can use strings as an index:

Serie como matriz NumPy generalizada
Por lo que hemos visto hasta ahora, puede parecer que el objeto Serie es básicamente intercambiable con una matriz NumPy unidimensional. La diferencia esencial es la presencia del índice: mientras el Numpy Array tiene un índice entero definido implícitamente utilizado para acceder a los valores, la Serie Pandas tiene un índice explícitamente asociado asociado con los valores.

Esta definición de índice explícito le da al objeto Serie capacidades adicionales. Por ejemplo, el índice no necesita ser un número entero, sino que puede consistir en valores de cualquier tipo deseado. Por ejemplo, si lo deseamos, podemos usar cadenas como índice:


In [7]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

And the item access works as expected:

Y el acceso al elemento funciona como se esperaba:

In [8]:
data['b']

0.5

We can even use non-contiguous or non-sequential indices:

In [9]:

Incluso podemos usar índices no contiguos o no secuenciales:

SyntaxError: invalid syntax (<ipython-input-9-1eb329fe0351>, line 1)

In [10]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=[2, 5, 3, 7])
data

2    0.25
5    0.50
3    0.75
7    1.00
dtype: float64

In [11]:
data[5]

0.5

### Series as specialized dictionary

In this way, you can think of a Pandas ``Series`` a bit like a specialization of a Python dictionary.
A dictionary is a structure that maps arbitrary keys to a set of arbitrary values, and a ``Series`` is a structure which maps typed keys to a set of typed values.
This typing is important: just as the type-specific compiled code behind a NumPy array makes it more efficient than a Python list for certain operations, the type information of a Pandas ``Series`` makes it much more efficient than Python dictionaries for certain operations.

The ``Series``-as-dictionary analogy can be made even more clear by constructing a ``Series`` object directly from a Python dictionary:


Serie como diccionario especializado
De esta manera, puede pensar en una Serie Pandas un poco como una especialización de un diccionario Python. Un diccionario es una estructura que asigna claves arbitrarias a un conjunto de valores arbitrarios, y una serie es una estructura que asigna claves escritas a un conjunto de valores escritos. Esta tipificación es importante: así como el código compilado específico del tipo detrás de una matriz NumPy lo hace más eficiente que una lista de Python para ciertas operaciones, la información de tipo de una Serie Pandas lo hace mucho más eficiente que los diccionarios de Python para ciertas operaciones.

La analogía de la serie como diccionario se puede hacer aún más clara al construir un objeto de serie directamente desde un diccionario de Python:

In [12]:
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}
population = pd.Series(population_dict)
population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

By default, a ``Series`` will be created where the index is drawn from the sorted keys.
From here, typical dictionary-style item access can be performed:


Por defecto, se creará una Serie donde el índice se extrae de las claves ordenadas. Desde aquí, se puede realizar el acceso típico a elementos de estilo de diccionario:

In [13]:
population['California']

38332521

Unlike a dictionary, though, the ``Series`` also supports array-style operations such as slicing:

Sin embargo, a diferencia de un diccionario, la serie también admite operaciones de estilo de matriz como el corte:

In [14]:
population['California':'Illinois']

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

We'll discuss some of the quirks of Pandas indexing and slicing in [Data Indexing and Selection](03.02-Data-Indexing-and-Selection.ipynb).


Analizaremos algunas de las peculiaridades de la indexación y el corte de Pandas en la Indización y selección de datos

### Constructing Series objects

We've already seen a few ways of constructing a Pandas ``Series`` from scratch; all of them are some version of the following:

```python
>>> pd.Series(data, index=index)
```

where ``index`` is an optional argument, and ``data`` can be one of many entities.

For example, ``data`` can be a list or NumPy array, in which case ``index`` defaults to an integer sequence:

Construyendo objetos de la serie
Ya hemos visto algunas formas de construir una Serie Pandas desde cero; todos ellos son alguna versión de lo siguiente:

>>> pd.Series (datos, índice = índice)
donde index es un argumento opcional, y los datos pueden ser una de muchas entidades.

Por ejemplo, los datos pueden ser una lista o una matriz NumPy, en cuyo caso el índice se predetermina a una secuencia entera:

In [15]:
pd.Series([2, 4, 6])

0    2
1    4
2    6
dtype: int64

``data`` can be a scalar, which is repeated to fill the specified index:


los datos pueden ser escalares, que se repiten para completar el índice especificado

In [16]:
pd.Series(5, index=[100, 200, 300])

100    5
200    5
300    5
dtype: int64

``data`` can be a dictionary, in which ``index`` defaults to the sorted dictionary keys:

los datos pueden ser un diccionario, en el que el índice se predetermina a las claves de diccionario ordenadas

In [17]:
pd.Series({2:'a', 1:'b', 3:'c'})

2    a
1    b
3    c
dtype: object

In each case, the index can be explicitly set if a different result is preferred:

En cada caso, el índice se puede establecer explícitamente si se prefiere un resultado diferente:

In [18]:
pd.Series({2:'a', 1:'b', 3:'c'}, index=[3, 2])
 #las claves del diccionario es lo que toma como indice siempre

3    c
2    a
dtype: object

Notice that in this case, the ``Series`` is populated only with the explicitly identified keys.

Tenga en cuenta que en este caso, la Serie se rellena solo con las claves identificadas explícitamente

## The Pandas DataFrame Object

The next fundamental structure in Pandas is the ``DataFrame``.
Like the ``Series`` object discussed in the previous section, the ``DataFrame`` can be thought of either as a generalization of a NumPy array, or as a specialization of a Python dictionary.
We'll now take a look at each of these perspectives.


El objeto Pandas DataFrame
La siguiente estructura fundamental en Pandas es el DataFrame. Al igual que el objeto Serie discutido en la sección anterior, el DataFrame puede considerarse como una generalización de una matriz NumPy o como una especialización de un diccionario Python. Ahora veremos cada una de estas perspectivas.

### DataFrame as a generalized NumPy array
If a ``Series`` is an analog of a one-dimensional array with flexible indices, a ``DataFrame`` is an analog of a two-dimensional array with both flexible row indices and flexible column names.
Just as you might think of a two-dimensional array as an ordered sequence of aligned one-dimensional columns, you can think of a ``DataFrame`` as a sequence of aligned ``Series`` objects.
Here, by "aligned" we mean that they share the same index.

To demonstrate this, let's first construct a new ``Series`` listing the area of each of the five states discussed in the previous section:


DataFrame como una matriz NumPy generalizada.
Si una serie es un análogo de una matriz unidimensional con índices flexibles, un DataFrame es un análogo de una matriz bidimensional con índices de fila flexibles y nombres de columna flexibles. Del mismo modo que podría pensar en una matriz bidimensional como una secuencia ordenada de columnas unidimensionales alineadas, puede pensar en un DataFrame como una secuencia de objetos Series alineados. Aquí, por "alineado" queremos decir que comparten el mismo índice.

Para demostrar esto, primero construyamos una nueva Serie que enumere el área de cada uno de los cinco estados discutidos en la sección anterior

In [19]:
area_dict = {'California': 423967, 'Texas': 695662, 'New York': 141297,
             'Florida': 170312, 'Illinois': 149995}
area = pd.Series(area_dict)
area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
dtype: int64

Now that we have this along with the ``population`` Series from before, we can use a dictionary to construct a single two-dimensional object containing this information:


Ahora que tenemos esto junto con la Serie de población de antes, podemos usar un diccionario para construir un único objeto bidimensional que contenga esta información:

In [20]:
states = pd.DataFrame({'population': population,
                       'area': area})
states

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


Like the ``Series`` object, the ``DataFrame`` has an ``index`` attribute that gives access to the index labels:


Al igual que el objeto Series, el DataFrame tiene un atributo de índice que da acceso a las etiquetas de índice:

In [21]:
states.index

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

Additionally, the ``DataFrame`` has a ``columns`` attribute, which is an ``Index`` object holding the column labels:


Además, el DataFrame tiene un atributo de columnas, que es un objeto Index que contiene las etiquetas de las columnas:

In [22]:
states.columns

Index(['population', 'area'], dtype='object')

Thus the ``DataFrame`` can be thought of as a generalization of a two-dimensional NumPy array, where both the rows and columns have a generalized index for accessing the data.


Por lo tanto, el DataFrame puede considerarse como una generalización de una matriz NumPy bidimensional, donde tanto las filas como las columnas tienen un índice generalizado para acceder a los datos.

### DataFrame as specialized dictionary

Similarly, we can also think of a ``DataFrame`` as a specialization of a dictionary.
Where a dictionary maps a key to a value, a ``DataFrame`` maps a column name to a ``Series`` of column data.
For example, asking for the ``'area'`` attribute returns the ``Series`` object containing the areas we saw earlier:


DataFrame como diccionario especializado
Del mismo modo, también podemos pensar en un DataFrame como una especialización de un diccionario. Cuando un diccionario asigna una clave a un valor, un DataFrame asigna un nombre de columna a una Serie de datos de columna. Por ejemplo, al solicitar el atributo 'área' se devuelve el objeto Serie que contiene las áreas que vimos anteriormente:
Abrir en el Traductor de Google	

In [23]:
states['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

Notice the potential point of confusion here: in a two-dimesnional NumPy array, ``data[0]`` will return the first *row*. For a ``DataFrame``, ``data['col0']`` will return the first *column*.
Because of this, it is probably better to think about ``DataFrame``s as generalized dictionaries rather than generalized arrays, though both ways of looking at the situation can be useful.
We'll explore more flexible means of indexing ``DataFrame``s in [Data Indexing and Selection](03.02-Data-Indexing-and-Selection.ipynb).

Observe el posible punto de confusión aquí: en una matriz NumPy de dos dimensiones, los datos [0] devolverán la primera fila. Para un DataFrame, los datos ['col0'] devolverán la primera columna. Debido a esto, probablemente sea mejor pensar en DataFrames como diccionarios generalizados en lugar de matrices generalizadas, aunque ambas formas de ver la situación pueden ser útiles. Exploraremos medios más flexibles para indexar DataFrames en Data Indexing and Selection.

### Constructing DataFrame objects

A Pandas ``DataFrame`` can be constructed in a variety of ways.
Here we'll give several examples.


Construyendo objetos DataFrame
Un DataFrame de Pandas se puede construir de varias maneras. Aquí daremos varios ejemplos.

#### From a single Series object

A ``DataFrame`` is a collection of ``Series`` objects, and a single-column ``DataFrame`` can be constructed from a single ``Series``:


De un solo objeto de la serie
Un DataFrame es una colección de objetos de la Serie, y un DataFrame de una sola columna se puede construir a partir de una sola Serie

In [24]:
pd.DataFrame(population, columns=['population'])

Unnamed: 0,population
California,38332521
Texas,26448193
New York,19651127
Florida,19552860
Illinois,12882135


#### From a list of dicts

Any list of dictionaries can be made into a ``DataFrame``.
We'll use a simple list comprehension to create some data:


De una lista de dictados
Cualquier lista de diccionarios se puede convertir en un DataFrame. Usaremos una simple lista de comprensión para crear algunos datos:

In [25]:
data = [{'a': i, 'b': 2 * i}
        for i in range(3)]      #calcula 3 veces, pos 0,1 y 2 y le asocia a "a" "b"
pd.DataFrame(data)              # si falta alguna clave la asigna por defecto 

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


Even if some keys in the dictionary are missing, Pandas will fill them in with ``NaN`` (i.e., "not a number") values:


Incluso si faltan algunas claves en el diccionario, Pandas las completará con valores de NaN (es decir, "no un número")

In [26]:
pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}])

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


#### From a dictionary of Series objects

As we saw before, a ``DataFrame`` can be constructed from a dictionary of ``Series`` objects as well:


Como vimos antes, también se puede construir un DataFrame a partir de un diccionario de objetos de la Serie:

In [27]:
pd.DataFrame({'population': population,
              'area': area})

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


#### From a two-dimensional NumPy array

Given a two-dimensional array of data, we can create a ``DataFrame`` with any specified column and index names.
If omitted, an integer index will be used for each:


Desde una matriz bidimensional NumPy
Dada una matriz de datos bidimensional, podemos crear un DataFrame con cualquier columna especificada y nombres de índice. Si se omite, se usará un índice entero para cada:

In [28]:
pd.DataFrame(np.random.rand(3, 2),      #random genera valores aleatorios 3 filas 2 colum
             columns=['foo', 'bar'],
             index=['a', 'b', 'c'])

Unnamed: 0,foo,bar
a,0.73175,0.04282
b,0.3349,0.709126
c,0.155548,0.514068


#### From a NumPy structured array

We covered structured arrays in [Structured Data: NumPy's Structured Arrays](02.09-Structured-Data-NumPy.ipynb).
A Pandas ``DataFrame`` operates much like a structured array, and can be created directly from one:


Desde una matriz estructurada NumPy
Cubrimos matrices estructuradas en datos estructurados: matrices estructuradas de NumPy. Un Pandas DataFrame funciona de manera muy similar a una matriz estructurada y se puede crear directamente desde uno:


In [29]:
import numpy as np
A = np.zeros(3, dtype=[('A', 'i8'), ('B', 'f8')])
A

array([(0, 0.), (0, 0.), (0, 0.)], dtype=[('A', '<i8'), ('B', '<f8')])

In [30]:
l = [598898989852958923589285929.8988787878978958295893424342424234924928948239849289482398489285928592895989898989899787787887687678878789789582958934243424242349249289482398492894823984892859285928959898989898997877878876876788787897895829589342434242423492492894823984928948239848928592859289598989898989978778788768767887878978958295893424342424234924928948239849289482398489285928592895989898989899787787887687678878789789582958934243424242349249289482398492894823984892859285928959898989898997877878876876786898878787897895829589342434242423492492894823984928948239848928592859289598989898989978778788768767887878978958295893424342424234924928948239849289482398489285928592895989898989899787787887687678878789789582958934243424242349249289482398492894823984892859285928959898989898997877878876876788787897895829589342434242423492492894823984928948239848928592859289598989898989978778788768767887878978958295893424342424234924928948239849289482398489285928592895989898989899787787887687678689887878789789582958934243424242349249289482398492894823984892859285928959898989898997877878876876788787897895829589342434242423492492894823984928948239848928592859289598989898989978778788768767887878978958295893424342424234924928948239849289482398489285928592895989898989899787787887687678878789789582958934243424242349249289482398492894823984892859285928959898989898997877878876876788787897895829589342434242423492492894823984928948239848928592859289598989898989978778788768767868988787878978958295893424342424234924928948239849289482398489285928592895989898989899787787887687678878789789582958934243424242349249289482398492894823984892859285928959898989898997877878876876788787897895829589342434242423492492894823984928948239848928592859289598989898989978778788768767887878978958295893424342424234924928948239849289482398489285928592895989898989899787787887687678878789789582958934243424242349249289482398492894823984892859285928959898989898997877878876876786898878787897895829589342434242423492492894823984928948239848928592859289598989898989978778788768767887878978958295893424342424234924928948239849289482398489285928592895989898989899787787887687678878789789582958934243424242349249289482398492894823984892859285928959898989898997877878876876788787897895829589342434242423492492894823984928948239848928592859289598989898989978778788768767887878978958295893424342424234924928948239849289482398489285928592895989898989899787787887687678689887878789789582958934243424242349249289482398492894823984892859285928959898989898997877878876876788787897895829589342434242423492492894823984928948239848928592859289598989898989978778788768767887878978958295893424342424234924928948239849289482398489285928592895989898989899787787887687678878789789582958934243424242349249289482398492894823984892859285928959898989898997877878876876788787897895829589342434242423492492894823984928948239848928592859289598989898989978778788768767868988787878978958295893424342424234924928948239849289482398489285928592895989898989899787787887687678878789789582958934243424242349249289482398492894823984892859285928959898989898997877878876876788787897895829589342434242423492492894823984928948239848928592859289598989898989978778788768767887878978958295893424342424234924928948239849289482398489285928592895989898989899787787887687678878789789582958934243424242349249289482398492894823984892859285928959898989898997877878876876786]
l2 = np.array(l)
type(l2[0])

numpy.float64

In [31]:
l2[0]

5.9889898985295895e+26

In [32]:
pd.DataFrame(A)

Unnamed: 0,A,B
0,0,0.0
1,0,0.0
2,0,0.0


## The Pandas Index Object

We have seen here that both the ``Series`` and ``DataFrame`` objects contain an explicit *index* that lets you reference and modify data.
This ``Index`` object is an interesting structure in itself, and it can be thought of either as an *immutable array* or as an *ordered set* (technically a multi-set, as ``Index`` objects may contain repeated values).
Those views have some interesting consequences in the operations available on ``Index`` objects.
As a simple example, let's construct an ``Index`` from a list of integers:


Hemos visto aquí que tanto los objetos Series como DataFrame contienen un índice explícito que le permite hacer referencia y modificar datos. Este objeto Index es una estructura interesante en sí mismo, y puede considerarse como una matriz inmutable o como un conjunto ordenado (técnicamente un conjunto múltiple, ya que los objetos Index pueden contener valores repetidos). Esas vistas tienen algunas consecuencias interesantes en las operaciones disponibles en objetos Index. Como ejemplo simple, construyamos un índice a partir de una lista de enteros

In [33]:
ind = pd.Index([2, 3, 5, 7, 11]) #construimos un indice
ind

Int64Index([2, 3, 5, 7, 11], dtype='int64')

### Index as immutable array

The ``Index`` in many ways operates like an array.
For example, we can use standard Python indexing notation to retrieve values or slices:


El índice de muchas maneras opera como una matriz. Por ejemplo, podemos usar la notación de indexación Python estándar para recuperar valores o sectores:

In [34]:
ind[1]

3

In [35]:
ind[::2]

Int64Index([2, 5, 11], dtype='int64')

``Index`` objects also have many of the attributes familiar from NumPy arrays:

In [36]:
print(ind.size, ind.shape, ind.ndim, ind.dtype)

5 (5,) 1 int64


One difference between ``Index`` objects and NumPy arrays is that indices are immutable–that is, they cannot be modified via the normal means:


Una diferencia entre los objetos Index y las matrices NumPy es que los índices son inmutables, es decir, no pueden modificarse por los medios normales:

In [42]:
ind[1] = 0

TypeError: Index does not support mutable operations

This immutability makes it safer to share indices between multiple ``DataFrame``s and arrays, without the potential for side effects from inadvertent index modification.


Esta inmutabilidad hace que sea más seguro compartir índices entre múltiples DataFrames y matrices, sin la posibilidad de efectos secundarios por la modificación involuntaria del índice.

### Index as ordered set

Pandas objects are designed to facilitate operations such as joins across datasets, which depend on many aspects of set arithmetic.
The ``Index`` object follows many of the conventions used by Python's built-in ``set`` data structure, so that unions, intersections, differences, and other combinations can be computed in a familiar way:

Los objetos Pandas están diseñados para facilitar operaciones tales como uniones entre conjuntos de datos, que dependen de muchos aspectos de la aritmética de conjuntos. El objeto Index sigue muchas de las convenciones utilizadas por la estructura de datos de conjunto incorporada de Python, de modo que las uniones, intersecciones, diferencias y otras combinaciones se pueden calcular de una manera familiar:

In [38]:
indA = pd.Index([1, 3, 5, 7, 9])
indB = pd.Index([2, 3, 5, 7, 11])

In [39]:
indA & indB  # intersection, elementos que coinciden en los dos indices

Int64Index([3, 5, 7], dtype='int64')

In [40]:
indA | indB  # union de los dos indices en uno

Int64Index([1, 2, 3, 5, 7, 9, 11], dtype='int64')

In [41]:
indA ^ indB  # symmetric difference, los elementos que no coinciden en los dos indices.

Int64Index([1, 2, 9, 11], dtype='int64')

These operations may also be accessed via object methods, for example ``indA.intersection(indB)``.