# Pandas

Pandas es un paquete bien diseñado para almacenar, administrar y manipular datos en Python. Vamos a discutir los dos objetos más importantes proporcionados por pandas: series y DataFrames. 


## Y esto pa que sirve?

Pandas introduce dos objetos clave en Python, series y DataFrames, siendo este último el más útil, pero los pandas DataFrames se pueden considerar como series unidas entre sí. Una serie es una secuencia de datos, como una lista en Python básico o una matriz 1D NumPy. Y, al igual que la matriz NumPy, una serie tiene un solo tipo de datos, pero la indexación con una serie es diferente. Con NumPy no hay mucho control sobre los índices de fila y columna; pero con una serie, cada elemento de la serie debe tener un índice, nombre, clave únicos, sin embargo, usted quiere pensar en ello. El índice podría consistir en cadenas, como ciudades en una nación, con los elementos correspondientes de la serie que denotan algún valor estadístico, como la población de la ciudad; o fechas, como los días de negociación para una serie de acciones.

Un DataFrame se puede considerar como varias series de longitud común, con un índice común, unidas en un solo objeto tabular. Este objeto se parece a un ndarray NumPy 2D, pero no es lo mismo. No todas las columnas deben ser del mismo tipo de datos. Volviendo al ejemplo de ciudades, podríamos tener una columna que contenga población y otra que contenga el estado o provincia en la que se encuentra la ciudad, y otra columna que contenga valores booleanos para identificar si la ciudad es una capital estatal o provincial: una hazaña difícil. para arrancar solo con NumPy. Es probable que cada una de estas columnas tenga un nombre único, una cadena para identificar la información que contienen; Tal vez esto se puede considerar como una variable. Con este objeto, podemos almacenar, acceder y manipular nuestros datos de manera fácil y eficiente.

Ejemplos:

In [None]:
import numpy as np
import pandas as pd
from pandas import Series, DataFrame
import random

Vamos a cargar un CSV tanto en NumPy como en Pandas. De hecho, podemos cargar archivos CSV en NumPy, y pueden tener diferentes tipos de datos, pero para administrar dichos archivos, debe crear un tipo de dato personalizado para parecerse a dichos datos. Así que aquí tenemos un archivo CSV, iris.csv, que contiene el conjunto de datos Iris.

Ahora, si deseamos cargar esto, debemos tener en cuenta el hecho de que cada fila tiene datos que no son necesariamente del mismo tipo. En particular, la última columna es para especies, y esto no es numérico sino un string. Entonces necesitamos crear un dtype personalizado, lo que hacemos aquí, llamando a este nuevo esquema de dtype:

In [None]:
schema = np.dtype([('sepal_length', np.float16),    # Necesitamos definir un dtype customizado para leer un CSV de tipos de datos mixtos                   ('sepal_width',  np.float16),
                   ('petal_length', np.float16),
                   ('petal_width',  np.float16),
                   ('species',      '<U16')])

Podemos cargar en este conjunto de datos con la función NumPy loadtxt, dando el tipo de dtype como el objeto de esquema, y configurando el delimitador a coma para indicar que es un archivo CSV. De hecho, podemos leer este conjunto de datos en:

In [None]:
np_data = np.loadtxt("./data/iris.csv", skiprows=1, dtype=schema, delimiter=',')

Tenga en cuenta que este dataset debe estar en su directorio de trabajo. Si exploramos el dataset, esto es lo que vamos a observar:

In [None]:
np_data

In [None]:
type(np_data)

Seleccionamos las primeras cinco filas con el siguiente comando:

In [None]:
np_data[:5] # Operaciones de Slicing

Podemos seleccionar las primeras cinco filas y especificar que queremos trabajar solo con longitudes de sépalos, que son los primeros elementos de cada fila:

In [None]:
np_data[:5]['sepal_length']

E incluso podemos seleccionar la longitud del pétalo y la especie:

In [None]:
np_data[:5][['petal_length', 'species']]

Pero hay una mejor manera de hacer esto con Pandas. En pandas, lo que haremos es usar la función read_csv, que automáticamente analizará el archivo CSV correctamente:

In [None]:
pd_data = pd.read_csv("./data/iris.csv")

In [None]:
pd_data

Miremos este dataset y observemos que esto es un DataFrame de pandas:

In [None]:
type(pd_data)

Las primeras cinco filas se pueden ver usando la función head:

In [None]:
pd_data.head()

También podemos ver la longitud del sépalo, especificándolo como si fuera un atributo de este DataFrame:

In [None]:
pd_data.head().sepal_length

Lo que obtenemos es en realidad una serie. Podemos seleccionar un subconjunto de este DataFrame, yendo de nuevo con las primeras cinco filas y seleccionando las columnas petal_length y especies:

In [None]:
pd_data.head().loc[:, ['petal_length', 'species']]

In [None]:
type(pd_data.sepal_length)

Dicho esto, los pandas, en su núcleo, están construidos sobre NumPy. De hecho, podemos ver el objeto NumPy que usan los pandas para describir su contenido:

In [None]:
pd_data.values

Y, de hecho, ese objeto NumPy que creamos anteriormente se puede usar para construir un DataFrame de pandas:

In [None]:
np_pd_data = pd.DataFrame(np_data)    # Converting to a DataFrame
np_pd_data

Ahora es el momento de echar un vistazo a las series de pandas y a los DataFrames.

### Objetos de Series y DataFrames

Vamos a empezar a mirar las series de pandas y los objetos DataFrame. En esta sección, comenzaremos a familiarizarnos con las series de pandas y DataFrames al observar cómo se crean. Comenzaremos con las series ya que son el bloque de construcción de DataFrames. Las series son objetos unidimensionales de tipo matriz que contienen datos de un solo tipo. Solo por este hecho, con razón concluiría que son muy similares a los arreglos NumPy unidimensionales, pero las series tienen métodos diferentes a los arreglos NumPy que los hacen más ideales para administrar datos. Se pueden crear con un índice, que es metadatos que identifican los contenidos de la serie. Las series pueden manejar datos faltantes; lo hacen representando los datos faltantes con el NaN de NumPy.

### Creando series

Podemos crear series a partir de objetos de tipo matriz; estos incluyen listas, tuplas y objetos Numdar ndarray. También podemos crear una serie a partir de un dict de Python. Otra forma de agregar un índice a una serie es crear uno pasando un índice o un objeto similar a una matriz de valores hashables únicos al argumento de índice del método de creación de la serie.

También podemos crear un índice por separado. Crear un índice es muy parecido a crear una serie, pero requerimos que todos los valores sean únicos. Cada serie tiene un índice; Si no asignamos un índice, se utilizará como índice una secuencia numérica simple que comienza desde 0. Podemos dar un nombre a una serie pasando una cadena al argumento de nombre del método de creación de la serie. Hacemos esto para que, si tuviéramos que crear un DataFrame usando esta serie, podamos asignar automáticamente un nombre de columna o fila a la serie, y así podamos decir qué fecha describe la serie.

En otras palabras, el nombre proporciona metadatos útiles, y recomendaría establecer este argumento siempre que sea posible, dentro de lo razonable. Veamos un ejemplo de trabajo. Tenga en cuenta que importamos las series y los objetos DataFrame directamente en el espacio de nombres.

Lo hacemos con mucha frecuencia porque estos objetos se utilizan de forma exhaustiva. Aquí, creamos dos series, una consistente en los números 1, 2, 3, 4 y otra consistente en las letras a, b y c:

In [None]:
ser1 = Series([1, 2, 3, 4])
ser2 = Series(['a', 'b', 'c'])
print(ser1)

In [None]:
print(ser2)

Observe que un índice se asignó automáticamente a estas dos series.

Vamos a crear un índice; este índice consiste en nombres de ciudades en los Estados Unidos:

In [None]:
# Create a pandas Index
idx = pd.Index(["New York", "Los Angeles", "Chicago",
                "Houston", "Philadelphia", "Phoenix", "San Antonio",
                "San Diego", "Dallas"])
print(idx)

Vamos a crear una nueva serie que consiste en números llamados pops, y asignaremos este índice a la serie que creamos. La población de estas ciudades es de miles. Obtuve estos datos de Wikipedia. También asignamos el nombre de Población a esta serie. Este es el resultado:

In [None]:
pops = Series([8550, 3972, 2721, 2296, 1567, np.nan, 1470, 1395, 1300],
              index=idx, name="Population")
print(pops)

Observe que inserté un valor faltante; Esta es la población de Phoenix, lo que sí sabemos, pero sentí que quería agregar un poco más solo para demostrar. También podemos crear una serie utilizando un diccionario. En este caso, las claves del diccionario serán el índice de la serie resultante, y los valores serán los valores de la serie resultante. Así que aquí, agregamos nombres de estados:

In [None]:
state = Series({"New York": "New York", "Los Angeles": "California", "Phoenix": "Arizona", "San Antonio": "Texas",
                "San Diego": "California", "Dallas": "Texas"}, name = "State")
print(state)

También creo una serie utilizando un diccionario y la coloco en las áreas de estas ciudades respectivas:

In [None]:
area = Series({"New York": 302.6, "Los Angeles": 468.7, "Philadelphia": 134.1, "Phoenix": 516.7, "Austin": 322.48},
              name = "Area")
print(area)

Ahora me gustaría llamar su atención sobre el hecho de que estas series no tienen la misma longitud y, además, no todas contienen las mismas claves. No todos contienen los mismos índices. Vamos a usar estas series más tarde, así que ten esto en cuenta.

### Creando DataFrames

Las series son interesantes, principalmente porque se usan para construir marcos de datos de pandas. Podemos pensar en un marco de datos de pandas como la combinación de series para formar un objeto tabular, con filas y columnas como la serie. Podemos crear DataFrames de varias maneras y demostraremos algunos aquí. Podemos darle un índice a un DataFrame. También podemos especificar manualmente los nombres de las columnas estableciendo el argumento de las columnas. La elección de nombres de columna sigue las mismas reglas que la selección de nombres de índice.

Veamos algunas de las formas en que podemos crear DataFrames. Lo primero que haremos es crear DataFrames, y no nos preocuparemos demasiado por sus índices. Podemos crear un DataFrame desde una matriz NumPy:

In [None]:
# Desde una matriz NumPy
mat = np.arange(0,9).reshape(3, 3)
print(mat)

In [None]:
print(DataFrame(mat))

In [None]:
# ponemos labels
print(DataFrame(mat, index=['a', 'b', 'c'], columns = ['alpha', 'beta', 'gamma']))

In [None]:
# What amounts to a 2D array (each tuple a row)
arr = [(1, 'a'), (2, 'b'), (3, 'c')]
print(arr)

In [None]:
print(DataFrame(arr, columns = ["Numbers", "Letters"]))

In [None]:
# Creando desde un diccionario
print(DataFrame({"Numbers": [1, 2, 3], "Letters": ['a', 'b', 'c']}))

In [None]:
# Y si las listas no son de la misma longitud
# tenemos un error
print(DataFrame({"Numbers": [1, 2, 3, 4], "Letters": ['a', 'b', 'c']}))

In [None]:
# Nos marcara error?
DataFrame({"Numbers": ser1, "Letters": ser2})    # nan llena informacion faltante

In [None]:
# When passed as a list, series are treated as rows
# Notice that these Series are not the same length nor all have the same entries; nan will be generated
print(DataFrame([pops, state, area]))

In [None]:
print(DataFrame({"Population": pops, "State": state, "Area": area}))

In [None]:
# Or, we could use DataFrame's T (transpose) method
print(DataFrame([pops, state, area]).T)

In [None]:
# Let's append new data to each Series
pops.append(Series({"Seattle": 684, "Denver": 683}))     # Not done in place

In [None]:
df = DataFrame([pops, state, area]).T
df.append(DataFrame({"Population": Series({"Seattle": 684, "Denver": 683}),
                     "State": Series({"Seattle": "Washington", "Denver": "Colorado"}),
                     "Area": Series({"Seattle": np.nan, "Denver": np.nan})}))

In [None]:
pd.concat([df, DataFrame({"Numbers": Series(np.arange(9), index=pops.index),
                         "Letters": Series(['a', 'c', 'd', 'h', 'l', 'n', 'p', 'p', 's'], index=pops.index)})],
         axis=1, sort=True)

In [None]:
df = DataFrame([pops, state, area]).T
# Saving data to csv file
df.to_csv("./data/cities.csv")

### Subconjunto de datos

In [None]:
srs = Series(np.arange(5),
             index=["alpha", "beta", "gamma", "delta", "epsilon"])
srs

In [None]:
srs[:2]

In [None]:
srs[["beta", "delta"]]

In [None]:
srs["beta":"delta"]     # Select everything BETWEEN (and
                        # including) beta and delta

In [None]:
srs[srs > 3]    # Select elements of srs greater than 3

In [None]:
srs > 3    # A look at the indexing object

In [None]:
srs2 = Series(["zero", "one", "two", "three", "four"],
              index=[3, 2, 4, 0, 1])

srs2

In [None]:
srs2[2:4]    # Ambiguous

In [None]:
srs2.iloc[2:4]

In [None]:
srs2.loc[2:4]

In [None]:
df = DataFrame(np.arange(21).reshape(7, 3),
               columns=['AAA', 'BBB', 'CCC'],
               index=["alpha", "beta", "gamma", "delta",
                      "epsilon", "zeta", "eta"])
df

In [None]:
df.AAA

In [None]:
df['AAA']

In [None]:
df[['BBB', 'CCC']]

In [None]:
df.iloc[1:3, 1:2]

In [None]:
df.loc['beta':'delta', 'BBB':'CCC']

In [None]:
df.iloc[:, 1:3]

In [None]:
df.iloc[:, 1:3].loc[['alpha', 'gamma', 'zeta']]    # Mixing

In [None]:
df2 = df.iloc[:, 1:3].loc[['alpha', 'gamma', 'zeta']].copy()

df2

In [None]:
df2['CCC'] = Series({'alpha': 11, 'gamma': 18, 'zeta': 5})

df2

In [None]:
df2.iloc[1, 1] = 2
df2

In [None]:
df2.iloc[:, 1] = 0
df2

### Aritmética, Aplicación de Funciones, Mapeo con pandas.

In [None]:
srs1 = Series([1, 9, -4, 3, 3])
srs2 = Series([2, 3, 4, 5, 10], index=[0, 1, 2, 3, 5])
print(srs1)

In [None]:
print(srs2)

In [None]:
srs1 + srs2

In [None]:
srs1 * srs2

In [None]:
srs1 ** srs2

In [None]:
# Boolean arithmetic is different
srs1 > srs2

In [None]:
srs1 <= srs2    # Opposite of above

In [None]:
srs1 > Series([1, 2, 3, 4, 5], index = [4, 3, 2, 1, 0])

In [None]:
np.sqrt(srs2)

In [None]:
np.abs(srs1)

In [None]:
type(np.abs(srs1))

In [None]:
# Define a cusom ufunc: notice the decorator notation?
@np.vectorize
def trunc(x):
    return x if x > 0 else 0

trunc(np.array([-1, 5, 4, -3, 0]))

In [None]:
trunc(srs1)

In [None]:
type(trunc(srs1))

Métodos para las series y aplicación de funciones

In [None]:
# Mean of a series
srs1.mean()

In [None]:
srs1.std()

In [None]:
srs1.max()

In [None]:
srs1.idxmax()   # Returns the index where the maximum is

In [None]:
srs1

In [None]:
srs1.cumsum()

In [None]:
srs1.abs()    # An alternative to the abs function in NumPy

La palabra clave lambda en Python proporciona un acceso directo para declarar pequeñas funciones anónimas. Las funciones Lambda se comportan como funciones regulares declaradas con la palabra clave def. Se pueden utilizar siempre que se requieran objetos de función.

In [None]:
srs1

In [None]:
srs1.apply(lambda x: x if x > 2 else 2)

In [None]:
srs3 = Series(['alpha', 'beta', 'gamma', 'delta'], index = ['a', 'b', 'c', 'd'])
print(srs3)

In [None]:
obj = {"alpha": 1, "beta": 2, "gamma": -1, "delta": -3}
srs3.map(obj)

In [None]:
srs4 = Series(obj)
print(srs4)

In [None]:
srs3.map(srs4)

In [None]:
srs1.map(lambda x: x if x > 2 else 2)    # Works like apply

### DataFrames

In [None]:
df = DataFrame(np.arange(15).reshape(5, 3), columns=["AAA", "BBB", "CCC"])
print(df)

In [None]:
# Should get 0's, and CCC gets NaN because no match
df - df.loc[:,["AAA", "BBB"]]

In [None]:
df.mean()

In [None]:
df.std()

In [None]:
# This is known as standardization
(df - df.mean())/df.std()

In [None]:
np.sqrt(df)

In [None]:
# trunc is a custom ufunc: does not give a DataFrame
trunc(df)

In [None]:
# Mixed data
df2 = DataFrame({"AAA": [1, 2, 3, 4], "BBB": [0, -9, 9, 3], "CCC": ["Bob", "Terry", "Matt", "Simon"]})
print(df2)

In [None]:
# Produces an error
np.sqrt(df2)

In [None]:
# Let's select JUST numeric data
# The select_dtypes() method selects columns based on their dtype
# np.number indicates numeric dtypes
# Here we select columns only with numeric data
df2.select_dtypes([np.number])

In [None]:
np.sqrt(df2.select_dtypes([np.number]))

In [None]:
# Define a function for the geometric mean
def geomean(srs):
    return srs.prod() ** (1 / len(srs))   # prod method is product of all elements of srs

# Demo
geomean(Series([2, 3, 4]))

In [None]:
df

In [None]:
df.apply(geomean)

In [None]:
df.apply(geomean, axis='columns')

In [None]:
df

In [None]:
# Apply a truncation function to each element of df
df.applymap(lambda x: x if x > 3 else 3)

## Manejando datos faltantes en un DataFrame

In [None]:
vals = np.random.randn(21)
vals[random.sample([i for i in range(21)], 5)] = np.nan
df = DataFrame(vals.reshape(7, 3), columns = ["AAA", "BBB", "CCC"])
df

In [None]:
srs = Series([2, 3, 3, 9, 8, np.nan, 8, np.nan, 4, 4, 5])
print(srs)

In [None]:
np.isnan(df)

In [None]:
df.isnull()

In [None]:
df.notnull()    # Opposite of isnull() and isnan()

In [None]:
df

In [None]:
df.dropna()

In [None]:
srs

In [None]:
print(srs.dropna())

In [None]:
xbar = srs.mean()    # By default, ignores nan
print(xbar)

In [None]:
print(srs.fillna(5))

In [None]:
print(srs.fillna(xbar))

In [None]:
# How does the mean of this data compare to before?
srs.fillna(xbar).mean()

In [None]:
# What about the standard deviation (a measure of how dispersed data is)?
srs.std()

In [None]:
srs.fillna(xbar).std()

In [None]:
s = srs.std()
# Generate a NumPy ndarray filled with randomly generated data, of the same length as the missing data
rep = Series(np.random.choice(srs[srs.notnull()], size=2), index=[5, 7])
print(rep)

In [None]:
srs.fillna(rep)

In [None]:
srs.fillna(rep).mean()

In [None]:
srs.fillna(rep).std()

In [None]:
df

In [None]:
df.fillna(0)

In [None]:
df.mean()

In [None]:
df

In [None]:
df.fillna(df.mean())

In [None]:
df.std()

In [None]:
df.fillna(df.mean()).std()    # All standard deviations go down

In [None]:
col='AAA'
df[col][df[col].notnull()]

In [None]:
# We will fill missing data via a dict
rep_df = {col: Series(np.random.choice(df[col][df[col].notnull()],    # Create a Series of random values from col...
                                       size=df.isnull()[col].value_counts()[True]),     # ... as many as there are missing values
                                                                                        # in col...
                      index=df[col][df[col].isnull()].index)    # ... and having an index corresponding to the missing values
                                                                # in the column col of df ...
          for col in df}    # ... for each column in df
rep_df

In [None]:
df.fillna(rep_df)

In [None]:
df.fillna(rep_df).mean()

In [None]:
df.fillna(rep_df).std()

### Sorting & Ranking

In [None]:
df = DataFrame(np.round(np.random.randn(7, 3) * 10),
               columns=["AAA", "BBB", "CCC"],
               index=list("defcabg"))
df

In [None]:
df.sort_index()

In [None]:
df.sort_index(axis=1, ascending=False)    # Sorting columns by
                                          # index, opposite
                                          # order

In [None]:
df.sort_values(by='AAA')    # According to contents of AAA

In [None]:
df.sort_values(by=['BBB', 'CCC'])    # Arrange first by BBB,
                                     # breaking ties with CCC

In [None]:
df

In [None]:
df.rank()

In [None]:
df.rank(method="max")

### Indexación jerárquica

In [None]:
# Directly with MultiIndex
midx = pd.MultiIndex([['a', 'b'], ['alpha', 'beta'], [1, 2]],
                     [[0, 0, 0, 0, 1, 1, 1, 1],
                      [0, 0, 1, 1, 0, 0, 1, 1],
                      [0, 1, 0, 1, 0, 1, 0, 1]])
Series(np.arange(8), index=midx)

In [None]:
# In the Series creation
srs = Series(np.arange(8),
             index=[['a', 'a', 'a', 'a', 'b', 'b', 'b', 'b'],
                    ['alpha', 'alpha', 'beta', 'beta',
                     'alpha', 'alpha', 'beta', 'beta'],
                    [1, 2, 1, 2, 1, 2, 1, 2]])
srs

In [None]:
srs.loc['b']

In [None]:
srs.loc['b', 'alpha']    # The following won't work for DataFrames

In [None]:
srs.loc['b', 'alpha', 1]

In [None]:
srs.loc['a', :, 1]

In [None]:
df = DataFrame(np.random.randn(8, 3), index=midx,
               columns=['AAA', 'BBB', 'CCC'])
df.loc['b']

In [None]:
df.loc[('b', 'alpha')]    # Must use a tuple here

In [None]:
df.loc[('b', 'alpha', 1)]

In [None]:
df.loc[('b', slice(None), 1), :]    # Don't treat : as optional

In [None]:
df.loc[(slice(None, 'b'), slice(None), 1), ['AAA', 'BBB']]    # :'b'

In [None]:
df.loc[(slice(None), slice(None), 1), 'CCC']