# Introducción a Pandas
Alan Badillo Salas (badillo.soft@hotmail.com)

Pandas es una librería para el análisis de datos para Python, la cuál nos va a permitir retener datos en memoria bajo dos estructuras básicas llamadas la `Serie` y el `DataFrame`. Los datos en el fondo son almacenados en arreglos n-dimesionales de numpy. Pandas nos permite cargar fácilmente archivos `csv` de nuestra computadora o internet para trabajarlos como `DataFrames`.

## Series

Una serie es un arreglo unidimensional opcionalmente nombrado e indexado automáticamente o manualmente. La serie se corresponde con un arreglo 1-D de numpy.

In [1]:
import pandas as pd

s1 = pd.Series([1, 2, 3, 4, 5])

print(s1)

0    1
1    2
2    3
3    4
4    5
dtype: int64


Podemos recuperar el arreglo de numpy mediante `s1.values`.

In [2]:
print(s1.values)

[1 2 3 4 5]


Las series pueden ser modificadas como cualquier arreglo de numpy.

In [4]:
s2 = 2 * s1 + 10

print(s2)

0    12
1    14
2    16
3    18
4    20
dtype: int64


Podemos también aplicar tranformaciones con funciones de numpy o condicionales.

In [5]:
s3 = s2 > 16

print(s3)

0    False
1    False
2    False
3     True
4     True
dtype: bool


Podemos crear series a partir de arreglos de numpy, listas de python o constantes.

In [7]:
s1 = pd.Series(5, index=range(10))

print(s1)

0    5
1    5
2    5
3    5
4    5
5    5
6    5
7    5
8    5
9    5
dtype: int64


Finalmente algo muy útil es poder crear series con índices específicos.

In [8]:
s2 = pd.Series([1, 10, 2], index=["A", "B", "C"])

print(s2)

A     1
B    10
C     2
dtype: int64


## Operaciones entre Series

Ya vimos que las series las podemos transformar como a los arreglos en numpy (multiplicando y sumando constantes). Pero también podemos realizar sumas y restas entre series.

In [9]:
s1 = pd.Series([1, 3, 5, 7, 9])
s2 = pd.Series([2, 4, 6, 8, 10])

s3 = s1 + s2

print(s3)

0     3
1     7
2    11
3    15
4    19
dtype: int64


In [10]:
s1 = pd.Series([1, 2, 3])
s2 = pd.Series([2, 4, 6, 8, 10])

s3 = s1 + s2

print(s3)

0    3.0
1    6.0
2    9.0
3    NaN
4    NaN
dtype: float64


In [15]:
s1 = pd.Series([1, 2, 3], index=["a", "b", "c"])
s2 = pd.Series([2, 4, 6, 8], index=["a", "b", "x", "y"])

s3 = s1 + s2

print(s3)

a    3.0
b    6.0
c    NaN
x    NaN
y    NaN
dtype: float64


## DataFrames

Un `DataFrame` es similar al concepto de tabla, dónde las filas representan los valores en el índice y las columnas representan las series. El `DataFrame` se indexa de acuerdo a las series con las que se forme.

Podemos construir un `DataFrame` a partir de una matriz de python.

In [16]:
d1 = pd.DataFrame([
    [1, 2, 3],
    [4, 5, 6]
])

print(d1)

   0  1  2
0  1  2  3
1  4  5  6


Los índeces para las filas y los índices para las columnas están generados automáticamente.

Podemos crear también un `DataFrame` a partir de diccionarios de python, dónde cada clave del diccionario es una columna en el `DataFrame` y los valores pueden ser una lista de python o una `Serie` de pandas.

In [17]:
d2 = pd.DataFrame({
    "A": [1, 2, 3, 4],
    "B": ["Manzana", "Pera", "Mango", "Piña"]
})

print(d2)

   A        B
0  1  Manzana
1  2     Pera
2  3    Mango
3  4     Piña


Podemos también crear un `DataFrame` a partir de series.

In [21]:
s1 = pd.Series([21, 78, 25, 32, 64, 23, 16])
s2 = pd.Series(["Ana", "Beto", "Carla", "Daniel", "Eduardo", "Fernanda", "Gerardo"])

df = pd.DataFrame({
    "edad": s1,
    "nombre": s2
})

print(df)

   edad    nombre
0    21       Ana
1    78      Beto
2    25     Carla
3    32    Daniel
4    64   Eduardo
5    23  Fernanda
6    16   Gerardo


Lo más común para crear un `DataFrame` es cargar sus datos desde un archivo `csv`.

Lo primero es definir el archivo `csv` con sus valores y generalmente la primer línea del `csv` son las cabeceras que serán utilizadas como los nombres de las columnas tal cual.

In [24]:
df = pd.read_csv("data/prueba.csv")

print(df)

   A   B   C   D
0  1   2   3   4
1  5   6   7   8
2  9  10  11  12


## Operaciones con DataFrames

Una de las operación mñas importantes es recuperar una `Serie` a partir de una columna de un `DataFrame`.

In [25]:
df = pd.read_csv("data/personas.csv")

print(df)

   nombre  edad genero
0     Ana    23      M
1    Beto    25      H
2   Carla    29      M
3  Daniel    35      H


Podemos recuperar cada columna independiente y tratarla como una serie.

In [26]:
nombres = df["nombre"]
edades = df["edad"]
generos = df["genero"]

print(nombres)
print(edades)
print(generos)

0       Ana
1      Beto
2     Carla
3    Daniel
Name: nombre, dtype: object
0    23
1    25
2    29
3    35
Name: edad, dtype: int64
0    M
1    H
2    M
3    H
Name: genero, dtype: object


Podemos generar una columna a partir del mapeo de una serie.

In [28]:
cat_generos = generos.map(lambda g: 1 if g == "M" else 2)

print(generos)
print(cat_generos)

0    M
1    H
2    M
3    H
Name: genero, dtype: object
0    1
1    2
2    1
3    2
Name: genero, dtype: int64


El código anterior utiliza una función `lambda` la cuál es una función de una línea. Sería equivalente a definir una función de mapeo que transforme cada genero en valores categóricos.

In [29]:
def transforma_genero(g):
    if g == "M":
        return 1
    else:
        return 2
    
cat_generos = generos.map(transforma_genero)

print(cat_generos)

0    1
1    2
2    1
3    2
Name: genero, dtype: int64


Adicionalmente podemos definir un diccionario de transformación para calcular el valor mapeado de nuestra serie.

In [30]:
cat_generos = generos.map({
    "M": 1,
    "H": 2
})

print(cat_generos)

0    1
1    2
2    1
3    2
Name: genero, dtype: int64


Una vez que tenemos una nueva serie, podemos reemplazar una columna del `DataFrame` o crear una columna, si el nombre de la columna que asignamos ya existe, entonces reemplazará la serie y sino creará una nueva columna con la serie.

In [31]:
print(df)

   nombre  edad genero
0     Ana    23      M
1    Beto    25      H
2   Carla    29      M
3  Daniel    35      H


In [32]:
df["cat_genero"] = cat_generos

print(df)

   nombre  edad genero  cat_genero
0     Ana    23      M           1
1    Beto    25      H           2
2   Carla    29      M           1
3  Daniel    35      H           2


De forma compacta, podemos crear columnas sin variables intermedias.

In [33]:
df["cat_genero"] = df["genero"].map({ "M": 2, "H": 1 })
df["indicador_1"] = df["edad"] * df["cat_genero"]

print(df)

   nombre  edad genero  cat_genero  indicador_1
0     Ana    23      M           2           46
1    Beto    25      H           1           25
2   Carla    29      M           2           58
3  Daniel    35      H           1           35


In [34]:
df["nombre"] = df["nombre"].map(lambda n: n.lower())

print(df)

   nombre  edad genero  cat_genero  indicador_1
0     ana    23      M           2           46
1    beto    25      H           1           25
2   carla    29      M           2           58
3  daniel    35      H           1           35


## Filtrado y Selección de datos

En pandas podemos filtrar datos basados en una condición y también podemos seleccionar datos basados en un `query`.

In [37]:
df_mujeres = df.query("genero == 'M'")

print(df_mujeres)

  nombre  edad genero  cat_genero  indicador_1
0    ana    23      M           2           46
2  carla    29      M           2           58


In [38]:
df_h_25_30 = df.query("genero == 'H' and edad >= 25 and edad <= 30")

print(df_h_25_30)

  nombre  edad genero  cat_genero  indicador_1
1   beto    25      H           1           25


Podemos filtrar las columnas que necesitamos para reducir el dataframe y hacerlo más manipulable.

In [39]:
x = df.filter(items=["edad", "cat_genero"])

print(x)

   edad  cat_genero
0    23           2
1    25           1
2    29           2
3    35           1


Lo anterior es muy útil para recuperar la matriz de datos que podemos utilizar como datos de entrenamiento en una red neuronal.

In [40]:
print(x.values)

[[23  2]
 [25  1]
 [29  2]
 [35  1]]


## Joins entre DataFrames

Un `Join` es una extensión entre una tabla principal y una tabla secundaria, cuándo los datos en una columna se cruzan.

En el siguiente ejemplo, tenemos un DataFrame con la información de los tiendas y en otro dataframe tenemos la información de productos. Entonces queremos extender el dataframe de productos, para poder saber a que tienda pertenece.

In [57]:
tiendas = pd.read_csv("data/tiendas.csv")
print(tiendas)

   id     nombre   direccion
0   1    walmart     polanco
1   2   sanborns     condesa
2   3  starbucks  roma norte


In [58]:
productos = pd.read_csv("data/productos.csv")

print(productos)

   id   nombre  id_tienda  stock
0   1     cafe          3     10
1   2  shampoo          1    100
2   3    libro          2     30
3   4    crema          1    200


In [79]:
producto_tienda = productos.set_index("id_tienda").join(tiendas.set_index("id"), lsuffix="_produto", rsuffix="_tienda")

print(producto_tienda)

   id nombre_produto  stock nombre_tienda   direccion
1   2        shampoo    100       walmart     polanco
1   4          crema    200       walmart     polanco
2   3          libro     30      sanborns     condesa
3   1           cafe     10     starbucks  roma norte


In [81]:
tienda_producto = tiendas.set_index("id").join(productos.set_index("id_tienda"), lsuffix="_tienda", rsuffix="_producto")

print(tienda_producto)

  nombre_tienda   direccion  id nombre_producto  stock
1       walmart     polanco   2         shampoo    100
1       walmart     polanco   4           crema    200
2      sanborns     condesa   3           libro     30
3     starbucks  roma norte   1            cafe     10


Para joins más complejos podemos consultar: https://pandas.pydata.org/pandas-docs/stable/merging.html