# Introducción a Pandas

Pandas es una biblioteca que construye sobre NumPy y provee una implementación eficiente de *DataFrames* un tipo de objetos de Python similar a una tabla que permite una conveniente manipulación de columnas y renglones, así como mecanismos para trabajar con valores faltantes e índices más complejos que los usuales (por ejemplo, fechas o instantes de tiempo).

En esta libreta veremos cómo utilizar los tipos `Series` y `DataFrame` de Pandas. Pero primero asegúrate de haber instalado la biblioteca:
1. Activa tu entorno de trabajo.
2. Ejecuta el comando en la consola: `pip install pandas`.

In [1]:
import numpy as np
import pandas as pd

In [None]:
pd.__version__

## Series

El tipo `Series` representa arreglos unidimensionales de datos indexados. Puede ser creado a partir de una secuencia:

In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

Observemos que un objeto `Series` contempla tanto la secuencia de valores como la secuencia de índices. Los valores se almacenan internamente como un arreglo de NumPy:

In [None]:
data.values

Los índices se almacenan internamente como un objeto parecido a arreglo de tipo `pd.Index`:

In [None]:
data.index

Podemos usar operaciones similares a los arreglos de NumPy, pero para objetos `Series`.

In [None]:
data[1]

In [None]:
data[1:3]

In [None]:
data

Al calcular un subarreglo, los índices siguen correspondiendo a los valores del arreglo original.

Podemos pensar en los objetos `Series` como arreglos de NumPy generalizados. La inclusión de los índices de forma explícita en la estructura de los objetos nos permite, por ejemplo, usar otros tipos de valores no numéricos.

---

In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
data

In [None]:
data['b']

In [None]:
data.index

---

In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=[2, 5, 3, 7])
data

In [None]:
data[5]

---

Podemos utilizar `Series` como una forma de diccionario:

In [None]:
población = pd.Series({
    'Sonora': 2945000,
    'Chihuahua': 3742000,
    'Sinaloa': 3027000,
    'La Habana': 3265832,
    'Santiago de Cuba': 2286360,
})
población

En este ejemplo constuimos un objeto `Series` a partir de un diccionario, el índice se obtiene se las llaves del diccionario y los valores... de los valores.

In [None]:
población['Sonora']

In [None]:
población['Chihuahua':'La Habana']

In [None]:
población['La Habana':'Chihuahua']

**Problema 1:** Determina qué ocurre cuando creamos un objeto `Series` a partir de un diccionario, pero adicionalmente proveemos el argumento opcional `index`. ¿De qué forma podemos utilizar esta propiedad?

**Problema 2:** Determina qué ocurre cuando creamos un objeto `Series` a partir de un valor numérico, pero adicionalmente proveemos el argumento opcional `index`. ¿De qué forma podemos utilizar esta propiedad?

## DataFrame

Recordemos la serie de población:

In [None]:
población

Definamos ahora una serie similar, pero con la supericie de los territorios medida en kilómetros cuadrados:

In [None]:
superficie = pd.Series({
    'La Habana': 728,
    'Sinaloa': 58200,
    'Santiago de Cuba': 6243,
    'Sonora': 179355,
    'Chihuahua': 247455,
})
superficie

Ahora vamos a crear una tabla (`DataFrame`) que contenga estas dos valiosas piezas de información:

In [None]:
territorios = pd.DataFrame({
    'población': población,
    'superficie': superficie,
})
territorios

Los DataFrames, al igual que las Series, tienen un atributo `index` con el índice de la tabla:

In [None]:
pruebita = pd.Series([5, 10, 2, 4, 6])

In [None]:
pruebita

In [None]:
pruebita.sort_values()

In [None]:
territorios.index

Cuando escuchamos índice de una tabla, pensemos en sus renglones. En este caso, cada renglón representa un territorio.

También tenemos el atributo `columns` (columnas). En este caso, cada columna corresponde a cada medición asociada a los territorios.

In [None]:
territorios.columns

El tipo de objeto para las columnas también es `pd.Index`. Podemos pensar las tablas como arreglos bidimensionales de NumPy.

Observemos también que al construir la tabla, las serie población y la serie superficie tenían los mismos índices pero en orden distinto. Pandas se encarga de crear la tabla emparejando correctamente las mediciones de acuerdo al *valor* de su índice, no la *posición* de este.

---

In [None]:
territorios['superficie']

In [None]:
territorios['población']

---

Distinta formas de crear DataFrames:

In [None]:
# A partir de una Serie
pd.DataFrame(población, columns=['población'])

In [None]:
# A partir de una lista de diccionarios
pd.DataFrame([{'a': i, 'b': 2 * i} for i in range(3)])

In [None]:
pd.DataFrame([
    {'a': 1, 'b': 2},
    {'b': 3, 'c': 4},
])

In [None]:
# A partir de un diccionario con Series como valores
pd.DataFrame({
    'población': población,
    'superficie': superficie,
})

In [3]:
# A partir de una arreglo bidimensional de NumPy
A = np.zeros(3, dtype=[('A', 'i8'), ('B', 'f8')])
pd.DataFrame(A)

array([(0, 0.), (0, 0.), (0, 0.)], dtype=[('A', '<i8'), ('B', '<f8')])

**Problema 3:** El ejemplo anterior utiliza un concepto llamado *Structured Arrays* de NumPy. Investiga para qué pueden ser utilizados este tipo de arreglos.

## Index

Tanto los objetos DataFrame como Series contienen índices explícitos que nos permiten hacer referencia a la información que contienen.

La estructura de los índices podemos pensarla como un arreglo inmutable (no podemos modificar sus valores) o como un conjunto ordenado (o multiconjunto ya que un índice puede tener valores repetidos).

In [None]:
ind = pd.Index([2, 3, 5, 7, 11])
ind

In [None]:
ind[1]

In [None]:
ind[::2]

In [None]:
ind.size

In [None]:
ind.shape

In [None]:
ind.ndim

In [None]:
ind.dtype

In [None]:
ind[1] = 0

In [None]:
indA = pd.Index([1, 3, 5, 7, 9])
indB = pd.Index([2, 3, 5, 7, 11])

In [None]:
indA.intersection(indB)

In [None]:
indA.union(indB)

In [None]:
indA.symmetric_difference(indB)

## Indexando y seleccionando datos

In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
data

In [None]:
data['b']

In [None]:
'a' in data

In [None]:
list(data.keys())

In [None]:
list(data.items())

In [None]:
data['e'] = 1.25

In [None]:
data

In [None]:
data['a':'c']

In [None]:
data[0:2]

In [None]:
data[(data > 0.3) & (data < 0.8)]

In [None]:
(data > 0.3) & (data < 0.8)

In [None]:
data[['a', 'e']]

In [None]:
data = pd.Series(['a', 'b', 'c'], index=[1, 3, 5])
data

In [None]:
data[1]

In [None]:
data[1:3]

In [None]:
data.loc[1]

In [None]:
data.loc[1:3]

In [None]:
data.iloc[1]

In [None]:
data.iloc[1:3]

In [None]:
territorios

In [None]:
territorios['población']

In [None]:
territorios['superficie']

In [None]:
territorios.superficie is territorios['superficie']

In [None]:
territorios.población is territorios['población']

In [None]:
territorios['densidad'] = territorios['población'] / territorios['superficie']

In [None]:
territorios

In [None]:
territorios.values

In [None]:
territorios.T

In [None]:
territorios.values[0]

In [None]:
territorios['superficie']

In [None]:
territorios.iloc[:3,:2]

In [None]:
territorios.loc[:'Santiago de Cuba', :'superficie']

In [None]:
territorios.loc[territorios.densidad > 100, ['población', 'densidad']]

In [None]:
territorios

In [None]:
territorios.iloc[0, 2]

In [None]:
territorios.iloc[0, 2] = 90

In [None]:
territorios

In [None]:
territorios[territorios.densidad > 100]

In [None]:
territorios.densidad > 100

## Operando sobre datos

In [None]:
ran = np.random.RandomState(42)
ser = pd.Series(ran.randint(0, 10, 4))
ser

In [None]:
df = pd.DataFrame(ran.randint(0, 10, (3,4)),
                  columns=['A', 'B', 'C', 'D'])
df

In [None]:
np.exp(ser)

In [None]:
np.sin(df * np.pi / 4)

In [None]:
superficie = pd.Series({
    'Alaska': 1723337, 
    'Texas': 695662,
    'California': 423967
}, name='superficie')

población = pd.Series({
    'California': 38332521, 
    'Texas': 26448193,
    'New York': 19651127
}, name='población')

In [None]:
población / superficie

In [None]:
A = pd.Series([2, 4, 6], index=[0, 1, 2])
B = pd.Series([1, 3, 5], index=[1, 2, 3])
A + B

In [None]:
A.add(B, fill_value=0)

In [None]:
A = pd.DataFrame(ran.randint(0, 20, (2,2)),
                 columns=list('AB'))
A

In [None]:
B = pd.DataFrame(ran.randint(0, 10, (3,3)),
                 columns=list('BAC'))
B

In [None]:
A + B

In [None]:
A

In [None]:
A.stack()

In [None]:
A.stack().mean()

In [None]:
fill = A.stack().mean()

In [None]:
A.add(B, fill_value=fill)

In [None]:
A = ran.randint(10, size=(3,4))
A

In [None]:
df = pd.DataFrame(A, columns=list('QRST'))
df

In [None]:
df - df.iloc[0]

In [None]:
df

In [None]:
df.subtract(df['R'], axis=0)

In [None]:
df.subtract(df['R'], axis='rows')

In [None]:
df

In [None]:
halfrow = df.iloc[0, ::2]
halfrow

In [None]:
df - halfrow

## Manejo de datos faltantes

In [None]:
vals1 = np.array([1, None, 3, 4])
vals1

In [None]:
for dtype in ['object', 'int']:
    print('dtype =', dtype)
    %timeit np.arange(1e6, dtype=dtype).sum()
    print()

In [None]:
vals1

In [None]:
vals1.sum()

In [None]:
vals2 = np.array([1, np.nan, 3, 4])
vals2

In [None]:
vals2.dtype

In [None]:
1 + np.nan

In [None]:
0 * np.nan

In [None]:
vals2.sum()

In [None]:
vals2.min()

In [None]:
vals2.max()

In [None]:
np.nansum(vals2)

In [None]:
np.nanmin(vals2)

In [None]:
np.nanmax(vals2)

In [None]:
pd.Series([1, np.nan, 2, None])

In [None]:
x = pd.Series(range(2), dtype=int)
x

In [None]:
x[0] = None

In [None]:
x

**Problema 4:** Investiga las operaciones `isnull`, `notnull`, `dropna` y `fillna` de Pandas, así como el valor `pd.NA`. Puedes apoyarte de [la documentación](https://pandas.pydata.org/docs/user_guide/missing_data.html)

---

**Problema 5:** Pandas incluye funciones para la lectura de archivos CSV o Excel. Consulta los sitios de datos abiertos de algúna institución pública o gubernamental, descarga un dataset en formato CSV, otro en Excel y carga los datos en un DataFrame de Pandas. El DataFrame resultante debe tener asociada a cada columna el tipo de dato adecuado para trabajar.