# Pandas
En el nivel más básico, los objetos Pandas se pueden considerar como versiones mejoradas de matrices estructuradas NumPy en las que las filas y columnas se identifican con etiquetas en lugar de simples índices enteros. Pandas proporciona una gran cantidad de herramientas, métodos y funcionalidades útiles además de las estructuras de datos básicas, pero casi todo lo que sigue requerirá una comprensión de qué son estas estructuras. Por lo tanto, antes de continuar, introduzcamos estas tres estructuras de datos fundamentales de Pandas: la serie, el marco de datos y el índice.

Comenzaremos nuestras sesiones de código con las importaciones estándar de NumPy y Pandas:

In [1]:
import numpy as np
import pandas as pd


Una serie Pandas es una matriz unidimensional de datos indexados. Se puede crear a partir de una lista o matriz de la siguiente manera:

In [2]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

Como vemos en la salida, la Serie envuelve tanto una secuencia de valores como una secuencia de índices, a la que podemos acceder con los valores y atributos de índice. Los valores son simplemente una matriz NumPy familiar:

In [3]:
data.values

array([0.25, 0.5 , 0.75, 1.  ])

El índice es un objeto similar a una matriz de tipo pd.Index


In [4]:
data.index

RangeIndex(start=0, stop=4, step=1)

Al igual que con una matriz NumPy, se puede acceder a los datos mediante el índice asociado a través de la conocida notación de corchetes de Python:

In [5]:
data[1]

0.5

In [6]:
data[1:3]

1    0.50
2    0.75
dtype: float64

Por lo que hemos visto hasta ahora, puede parecer que el objeto Series es básicamente intercambiable con una matriz NumPy unidimensional. La diferencia esencial es la presencia del índice: mientras que Numpy Array tiene un índice entero definido implícitamente que se utiliza para acceder a los valores, la serie Pandas tiene un índice definido explícitamente asociado con los valores.

Esta definición de índice explícita le da al objeto Serie capacidades adicionales. Por ejemplo, no es necesario que el índice sea un número entero, pero puede constar de valores de cualquier tipo deseado. Por ejemplo, si lo deseamos, podemos usar cadenas como índice:

In [7]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [8]:
data['b']

0.5

**Serie como diccionario especializado**
De esta manera, puede pensar en una serie Pandas como una especialización de un diccionario de Python. Un diccionario es una estructura que asigna claves arbitrarias a un conjunto de valores arbitrarios, y una Serie es una estructura que asigna claves escritas a un conjunto de valores escritos. Esta escritura es importante: así como el código compilado específico del tipo detrás de una matriz NumPy lo hace más eficiente que una lista de Python para ciertas operaciones, la información de tipo de una serie Pandas lo hace mucho más eficiente que los diccionarios de Python para ciertas operaciones.

La analogía de Series como diccionario se puede aclarar aún más si se construye un objeto Series directamente desde un diccionario de Python:

In [17]:
mass_dict = {'Sol': "1.989 × 10^30 kg",
                   'Mercurio': "3.285 × 10^23 kg",
                   'Venus': "4.867 × 10^24 kg",
                   'Tierra': "5.972 × 10^24 kg",
                   'Marte': "6.39 × 10^23 kg"}
mass = pd.Series(mass_dict)
mass

Sol         1.989 × 10^30 kg
Mercurio    3.285 × 10^23 kg
Venus       4.867 × 10^24 kg
Tierra      5.972 × 10^24 kg
Marte        6.39 × 10^23 kg
dtype: object

Sin embargo, a diferencia de un diccionario, la Serie también admite operaciones de estilo de matriz, como slice:

In [18]:
mass['Mercurio':'Tierra']

Mercurio    3.285 × 10^23 kg
Venus       4.867 × 10^24 kg
Tierra      5.972 × 10^24 kg
dtype: object

**El objeto Pandas DataFrame**

La siguiente estructura fundamental en Pandas es el DataFrame. Al igual que el objeto Series analizado en la sección anterior, el DataFrame se puede considerar como una generalización de una matriz NumPy o como una especialización de un diccionario de Python. Ahora echaremos un vistazo a cada una de estas perspectivas.

DataFrame como una matriz NumPy generalizada
Si una serie es un análogo de una matriz unidimensional con índices flexibles, un DataFrame es un análogo de una matriz bidimensional con índices de fila flexibles y nombres de columna flexibles. Así como podría pensar en una matriz bidimensional como una secuencia ordenada de columnas unidimensionales alineadas, puede pensar en un DataFrame como una secuencia de objetos Series alineados. Aquí, por "alineados" queremos decir que comparten el mismo índice.

Para demostrar esto, construyamos primero una nueva Serie que enumere el área de cada uno de los cinco estados discutidos en la sección anterior:

In [19]:
gravedad_dict = {'Sol': "274 m/s²", 'Mercurio': "3.7 m/s²", 'Venus': "8.87 m/s²",
             'Tierra': "9.807 m/s²", 'Marte': "3.721 m/s²"}
gravedad = pd.Series(gravedad_dict)
gravedad

Sol           274 m/s²
Mercurio      3.7 m/s²
Venus        8.87 m/s²
Tierra      9.807 m/s²
Marte       3.721 m/s²
dtype: object

Ahora que tenemos esto junto con la serie de mass de antes, podemos usar un diccionario para construir un solo objeto bidimensional que contenga esta información:

In [20]:
objetos = pd.DataFrame({'masa': mass,
                       'gravedad': gravedad})
objetos

Unnamed: 0,masa,gravedad
Sol,1.989 × 10^30 kg,274 m/s²
Mercurio,3.285 × 10^23 kg,3.7 m/s²
Venus,4.867 × 10^24 kg,8.87 m/s²
Tierra,5.972 × 10^24 kg,9.807 m/s²
Marte,6.39 × 10^23 kg,3.721 m/s²


Al igual que el objeto Series, el DataFrame tiene un atributo de índice que da acceso a las etiquetas de índice:

In [21]:
objetos.index

Index(['Sol', 'Mercurio', 'Venus', 'Tierra', 'Marte'], dtype='object')

Además, el DataFrame tiene un atributo de columnas, que es un objeto de índice que contiene las etiquetas de las columnas:

In [22]:
objetos.columns

Index(['masa', 'gravedad'], dtype='object')

De manera similar, también podemos pensar en un DataFrame como una especialización de un diccionario. Cuando un diccionario asigna una clave a un valor, un DataFrame asigna un nombre de columna a una serie de datos de columna. Por ejemplo, pedir el atributo 'área' devuelve el objeto Serie que contiene las áreas que vimos anteriormente:

In [23]:
objetos['gravedad']

Sol           274 m/s²
Mercurio      3.7 m/s²
Venus        8.87 m/s²
Tierra      9.807 m/s²
Marte       3.721 m/s²
Name: gravedad, dtype: object

Observe el punto potencial de confusión aquí: en una matriz NumPy bidimensional, los datos [0] devolverán la primera fila. Para un DataFrame, los datos ['col0'] devolverán la primera columna. Debido a esto, probablemente sea mejor pensar en DataFrames como diccionarios generalizados en lugar de matrices generalizadas, aunque ambas formas de ver la situación pueden ser útiles. Exploraremos medios más flexibles de indexar DataFrames en la indexación y selección de datos.

In [25]:
#Construir un dataframe
pd.DataFrame(mass, columns=['masa'])

Unnamed: 0,masa
Sol,1.989 × 10^30 kg
Mercurio,3.285 × 10^23 kg
Venus,4.867 × 10^24 kg
Tierra,5.972 × 10^24 kg
Marte,6.39 × 10^23 kg


# Operaciones en DataFrames

Una de las piezas esenciales de NumPy es la capacidad de realizar operaciones rápidas de elementos, tanto con aritmética básica (suma, resta, multiplicación, etc.) como con operaciones más sofisticadas (funciones trigonométricas, funciones exponenciales y logarítmicas, etc.). Pandas hereda gran parte de esta funcionalidad de NumPy, y las ufuncs que presentamos en Computation on NumPy Arrays: las funciones universales son clave para esto.

Sin embargo, Pandas incluye un par de giros útiles: para operaciones unarias como funciones de negación y trigonométricas, estos ufuncs conservarán etiquetas de índice y columna en la salida, y para operaciones binarias como suma y multiplicación, Pandas alineará automáticamente los índices al pasar los objetos el ufunc. Esto significa que mantener el contexto de los datos y combinar datos de diferentes fuentes, ambas tareas potencialmente propensas a errores con matrices NumPy sin procesar, se vuelven esencialmente infalibles con Pandas. Además, veremos que hay operaciones bien definidas entre estructuras de Series unidimensionales y estructuras de DataFrame bidimensionales.

Ufuncs: preservación del índice
Debido a que Pandas está diseñado para funcionar con NumPy, cualquier ufunc de NumPy funcionará en objetos Pandas Series y DataFrame.

In [26]:
rng = np.random.RandomState(42)
ser = pd.Series(rng.randint(0, 10, 4))
ser

0    6
1    3
2    7
3    4
dtype: int32

In [27]:
df = pd.DataFrame(rng.randint(0, 10, (3, 4)),
                  columns=['A', 'B', 'C', 'D'])
df

Unnamed: 0,A,B,C,D
0,6,9,2,6
1,7,4,3,7
2,7,2,5,4


Si aplicamos un ufunc NumPy en cualquiera de estos objetos, el resultado será otro objeto Pandas con los índices preservados:

In [43]:
#exp calcula e a la x , donde x es cada elemento de nuestro array
np.exp(ser)

0     403.428793
1      20.085537
2    1096.633158
3      54.598150
dtype: float64

O si hacemos un calculo más complejo:

In [45]:
#calculamos el seno de cada valor en el df multiplicado por pi dividido entre 4 
np.sin(df * np.pi / 4)

Unnamed: 0,A,B,C,D
0,-1.0,0.7071068,1.0,-1.0
1,-0.707107,1.224647e-16,0.707107,-0.7071068
2,-0.707107,1.0,-0.707107,1.224647e-16


    UFuncs: alineación de índices
Para operaciones binarias en dos objetos Series o DataFrame, Pandas alineará índices en el proceso de realizar la operación. Esto es muy conveniente cuando se trabaja con datos incompletos, como veremos en algunos de los ejemplos que siguen.

    Alineación de índices en serie
Como ejemplo, suponga que estamos combinando dos fuentes de datos diferentes (mass y gravedad) y encontramos solo los tres estados principales de EE. UU. Por área y los tres estados de EE. UU. Principales por población:

In [56]:
area = pd.Series({'Alaska': 1723337, 'Texas': 695662,
                  'California': 423967}, name='area')
population = pd.Series({'California': 38332521, 'Texas': 26448193,
                        'New York': 19651127}, name='population')

Veamos qué sucede cuando dividimos estos para calcular la densidad de población:

In [52]:
population/area

Alaska              NaN
California    90.413926
New York            NaN
Texas         38.018740
dtype: float64

La matriz resultante contiene la unión de índices de las dos matrices de entrada, que podrían determinarse utilizando la aritmética de conjuntos estándar de Python en estos índices:

In [53]:
area.index | population.index

Index(['Alaska', 'California', 'New York', 'Texas'], dtype='object')

Cualquier elemento para el que uno u otro no tenga una entrada se marca con NaN, o "No es un número", que es la forma en que Pandas marca los datos faltantes (consulte más información sobre los datos faltantes en Manejo de datos faltantes). Esta coincidencia de índices se implementa de esta manera para cualquiera de las expresiones aritméticas integradas de Python; los valores faltantes se rellenan con NaN de forma predeterminada:

In [33]:
A = pd.Series([2, 4, 6], index=[0, 1, 2])
B = pd.Series([1, 3, 5], index=[1, 2, 3])
A + B

0    NaN
1    5.0
2    9.0
3    NaN
dtype: float64

# Manejo de valores nulos o vacios

La diferencia entre los datos que se encuentran en muchos tutoriales y los datos del mundo real es que los datos del mundo real rara vez son limpios y homogéneos. En particular, a muchos conjuntos de datos interesantes les faltará cierta cantidad de datos. Para complicar aún más las cosas, diferentes fuentes de datos pueden indicar datos faltantes de diferentes maneras.

En esta sección, discutiremos algunas consideraciones generales para los datos faltantes, discutiremos cómo Pandas elige representarlos y demostraremos algunas herramientas integradas de Pandas para manejar los datos faltantes en Python. Aquí y en todo el libro, nos referiremos a los datos faltantes en general como valores nulos, NaN o NA.

    NaN y none en Pandas
NaN y None tienen su lugar, y Pandas está diseñado para manejarlos a los dos de manera casi intercambiable, convirtiéndose entre ellos cuando sea apropiado:

In [None]:
pd.Series([1, np.nan, 2, None])

Para los tipos que no tienen un valor centinela disponible, Pandas escribe automáticamente cuando los valores NA están presentes. Por ejemplo, si establecemos un valor en una matriz de enteros en np.nan, automáticamente se convertirá en un tipo de punto flotante para acomodar el NA:

In [34]:
x = pd.Series(range(2), dtype=int)
x

0    0
1    1
dtype: int32

In [35]:
x[0] = None
x

0    NaN
1    1.0
dtype: float64

Tenga en cuenta que, además de convertir la matriz de enteros en punto flotante, Pandas convierte automáticamente el valor Ninguno en un valor NaN. (Tenga en cuenta que existe una propuesta para agregar un entero nativo NA a Pandas en el futuro; al momento de escribir este artículo, no se ha incluido).

Si bien este tipo de magia puede parecer un poco pirateada en comparación con el enfoque más unificado de los valores de NA en lenguajes específicos de dominio como R, el enfoque centinela / casting de Pandas funciona bastante bien en la práctica y, en mi experiencia, solo rara vez causa problemas.

La siguiente tabla enumera las convenciones de upcasting en Pandas cuando se introducen valores NA:

Conversión de clases de tipo al almacenar NA Valor centinela de NA:

        float Sin cambio = np.nan
        object Sin cambios = none o np.nan
        integer cambia float64 = np.nan
        booleano cambia a object = none o np.nan
        
 Tenga en cuenta que en Pandas, los datos de cadena siempre se almacenan con un dtype object.

# Operar con valores nulos

Como hemos visto, Pandas trata None y NaN como esencialmente intercambiables para indicar valores faltantes o nulos. Para facilitar esta convención, existen varios métodos útiles para detectar, eliminar y reemplazar valores nulos en las estructuras de datos de Pandas:

    isnull (): genera una máscara booleana que indica los valores faltantes
    notnull (): opuesto a isnull ()
    dropna (): devuelve una versión filtrada de los datos
    fillna (): devuelve una copia de los datos con los valores faltantes rellenos o imputados
 
Concluiremos esta sección con una breve exploración y demostración de estas rutinas.

In [36]:
data = pd.Series([1, np.nan, 'hello', None])

In [37]:
data.isnull()

0    False
1     True
2    False
3     True
dtype: bool

In [38]:
data[data.notnull()]

0        1
2    hello
dtype: object

In [39]:
data.dropna()

0        1
2    hello
dtype: object

In [40]:
data.fillna(0)

0        1
1        0
2    hello
3        0
dtype: object

In [41]:
# forward-fill
data.fillna(method='ffill')

0        1
1        1
2    hello
3    hello
dtype: object

In [42]:
# back-fill
data.fillna(method='bfill')

0        1
1    hello
2    hello
3     None
dtype: object