# Introducción a pandas



[Pandas](http://pandas.pydata.org/) es una biblioteca de alto rendimiento que proporciona un conjunto completo de estructuras de datos para manipular datos tabulares, proporcionar  indexación de alto rendimiento, alineación automática, remodelación, agrupación, uniones  y capacidades de análisis estadístico.

![](pandas)

Las dos estructuras de datos principales en pandas son los objetos **Series** y **DataFrame**. El objeto Series se basa en las características de un `ndarray` de NumPy por lo que proporciona operaciones tales como indexación, etiquetado de ejes, alineación, etc.

## El objeto Series 

El objeto  `Series` es uno de los  bloques de construcción principal  de pandas. Este objeto  representa una matriz indexada,  etiquetada, unidimensional basada en el  objeto `ndarray` de NumPy. Al igual que una matriz, el objeto `Series` puede contener cero o más valores de algún tipo de dato.

`Series` de pandas se diferencia  de las matrices NumPy, por la adición de un conjunto asociado de etiquetas que se utilizan para indexar y acceder  a los elementos de la matriz por valores de etiquetas en lugar de acceder por la posición de un número entero. Este índice etiquetado es una característica de `Series`  y agrega  mayor poder para acceder a los elementos de `Series` que una matriz de   NumPy.


Un objeto `Series` siempre tiene un índice por defecto si no se especifica uno. En este caso predeterminado, pandas creará un índice que consiste en enteros secuenciales a partir de cero. Este comportamiento predeterminado hará que `Series ` inicialmente parezca  a una matriz NumPy. Esto es por diseño, ya que `Series` se derivó de una matriz NumPy. Esto permite aun  que el objeto `Series` sea utilizado por el código de NumPy existente que usa la búsqueda de posición basada en enteros. En versiones recientes de pandas, esta derivación desde `ndarray` ha sido eliminada, pero `Series` sigue siendo compatible con el  API de Numpy.

A pesar de que `Series` con un índice entero  por defecto parece idéntico a una matriz de NumPy, el acceso a los elementos no se da por la posición de un número entero, sino  utilizando valores en el índice (denominado etiquetas). La librería  pandas usará las etiquetas proporcionadas para realizar una búsqueda de valores para esas etiquetas.
A diferencia de una matriz, las etiquetas de índice no necesitan ser números enteros, pueden tener  etiquetas repetidas,  tener conjuntos jerárquicos de etiquetas y se utilizan  en un concepto de pandas, conocido como alineación automática de valores por etiqueta de índice.

Esta alineación automática es el cambio más significativo que `Series` hace sobre `ndarray`. Las operaciones aplicadas a través de múltiples objetos pandas (un ejemplo simple puede ser la adición) no se aplican  a los valores en orden por posición en el objeto `Series`. La biblioteca pandas primero alineará los dos objetos pandas mediante las etiquetas de índice y luego aplicará los valores de operación con etiquetas alineadas. Esto es en cierto modo, un tipo simple de unión y le permite asociar datos con etiquetas de índice comunes sin ningún esfuerzo.

Un índice de pandas es un componente de primera clase de pandas. pandas proporciona diversas especializaciones de índices para diferentes tipos de datos, cada uno de ellos altamente optimizado para esos tipos de datos, ya sean enteros, flotantes, cadenas, fecha y hora o cualquier otro tipo de objeto de pandas. Además,  `Series` puede reindexarse en otros tipos de índices, proporcionando de manera efectiva diferentes vistas en el objeto `Series` utilizando diferentes índices.

Esta capacidad de construir dinámicamente vistas alternativas sobre datos utilizando índices  establece un entorno para la manipulación interactiva de datos, donde los datos pueden permanecer en una estructura única pero que pueden ser fácilmente transformados en vistas diferentes. Esto facilita la creación de un entorno muy interactivo para jugar con la información sin tener que verse  sobrecargado por la estructura, como sucede con las herramientas relacionales como SQL.

In [1]:
import numpy as np
import pandas as pd

Definimos un objeto  `Series`  instanciando un objeto `Series` de pandas con una lista. También se pueden  usar otros objetos de datos, como diccionarios y matrices de  Numpy para instanciar un objeto `Series`.

In [2]:
s1 = pd.Series([1, 2, 3, 4, 5])
s1

0    1
1    2
2    3
3    4
4    5
dtype: int64

No hemos definido un índice en nuestro ejemplo, pero vemos dos columnas en nuestra salida: La columna derecha contiene nuestros datos, mientras que la columna izquierda contiene el índice. Pandas creó un índice por defecto comenzando con 0 pasando a 5, que es la longitud de los datos menos 1. Podemos acceder directamente al índice y a los valores de `S`, de la siguiente manera:

In [4]:
print(s1.index)

RangeIndex(start=0, stop=5, step=1)


In [5]:
print(s1.values)

[1 2 3 4 5]


Si comparamos esto con creando  una matriz en Numpy, todavía hay muchas similitudes:

In [6]:
X = np.array([11, 28, 72, 3, 5, 8])
print(X)
print(s1.values)

# Ambos son del mismo tipo:

print(type(s1.values), type(X))

[11 28 72  3  5  8]
[1 2 3 4 5]
<class 'numpy.ndarray'> <class 'numpy.ndarray'>


Hasta ahora `Series` no ha sido muy diferente a  `ndarrays` de Numpy. Esto cambia, tan pronto como empezamos a definir objetos `Series` con índices individuales:

In [7]:
lenguajes = ['python', 'R', 'C', 'C++']
nivel = [2, 12, 1, 3]
s2 = pd.Series(nivel, index=lenguajes)
s2

python     2
R         12
C          1
C++        3
dtype: int64

Una gran ventaja sobre las matrices  NumPy es obvia del ejemplo anterior: Podemos usar índices arbitrarios.Si agregamos dos `Series` con los mismos índices, obtendremos un objeto `Series` con el mismo índice y se añadirán los valores correspondientes:

In [10]:
frutas = ['pera', 'naranja', 'cereza', 'papaya']
s3 = pd.Series([20, 33, 52, 10], index=frutas)
s4 = pd.Series([17, 13, 31, 32], index=frutas)
print(s3 + s4)
print("suma de s3: ", sum(s3))

pera       37
naranja    46
cereza     83
papaya     42
dtype: int64
suma de s3:  115
