<h1 style="color:#872325"> Pandas </h1>

In [1]:
import pandas as pd

Pandas tiene dos estructuras principales para trabajar con la información: `pandas.Series` y `pandas.DataFrame`. Los `pandas.Series` es un arreglo matricial con $n$ elementos del mismo tipo, por otro lado, los `pandas.DataFrame` es una colección de $m$ `pandas.Series` no necesariamente del mismo tipo, pero sí con el mismo número $n$ de elementos.

### ¿Cómo crear un Series y un DataFrame desde Python?

In [6]:
# Creando un Series
some_data = [i ** i for i in range(5)]
print(some_data)
pd.Series(some_data)

[1, 1, 4, 27, 256]


0      1
1      1
2      4
3     27
4    256
dtype: int64

In [5]:
# Creando un Series y agregando información sobre los datos a trabajar
some_data = [i ** i for i in range(5)]
pd.Series(some_data, name="x_to_x")

0      1
1      1
2      4
3     27
4    256
Name: x_to_x, dtype: int64

In [7]:
# Creando un Series y agregando información sobre cada índice y el nombre
# de los datos a trabajar
ages = [21, 23, 30, 19, 3]
names = ["John", "Timmy", "Kenny", "Isaac", "Yann"]
pd.Series(ages, index=names, name="people")

John     21
Timmy    23
Kenny    30
Isaac    19
Yann      3
Name: people, dtype: int64

In [8]:
mi_serie = pd.Series(ages, index=names, name="people")

In [10]:
mi_serie.values

array([21, 23, 30, 19,  3], dtype=int64)

In [11]:
mi_serie.index

Index(['John', 'Timmy', 'Kenny', 'Isaac', 'Yann'], dtype='object')

**¿Cuándo usar un `np.array` y cuando un `pd.Series`?**

Dependiendo de la estrucutura de los datos con los que estémos trabajando se decidirá si usar un numpy array o un pandas' Series. 

**¿Qué propiedades(métodos) contiene un Series?**

In [None]:
names = ["John", "Timmy", "Kenny", "Yann", "Isaac"]
ages = [21, 23, 23, 19, 3]
personas_edades = pd.Series(ages, index=names, name="people")

In [None]:
# Al igual que un numpy array, podemos conocer la dimension de un Series
personas_edades.shape

In [None]:
personas_edades.sort_index()

In [None]:
# Acceder nombres
personas_edades["Yann"]

In [None]:
# Modificar valores
personas_edades["Yann"] += 1
personas_edades["Yann"]

In [None]:
# Estádisticos básicos
personas_edades.describe()

In [None]:
# otros estadísticos
personas_edades.kurtosis()

In [None]:
# Tabla de frecuencias
personas_edades.value_counts()

**Creando un primer Pandas DataFrame**

In [None]:
names = ["John", "Timmy", "Kenny", "Yann", "Isaac"]
ages_list = [21, 23, 23, 19, 3]
colors_list = ["teal", "black", "crimson", "yellow", "white"]
amount_list = [10_000, 100_000, 23_000, 5_000, 11_000]

personas = pd.DataFrame({"ages": ages_list,
                         "colors": colors_list,
                         "bank": amount_list}, index=names)
personas.shape

In [None]:
personas

**Accediendo a los elementos del `DataFrame`**

In [None]:
# Tomando una columna como un pd.Series
personas["ages"]

In [None]:
# Tomando una columna como un pd.Series, tomando una fila como el índice del Series
personas["ages"]["Isaac"]

In [None]:
# Existe otra manera de acceder a una columna de un DataFrame
# considerando el nombre de la columna como un atributo
# del DF. Eso aplica si y solo si el nombre no contiene espacios
# o puntos dentro del nombre
personas.ages

In [None]:
# Tomando una columna como un pd.DataFrame (subset)
personas[["ages"]]

In [None]:
# Tomando una columna como un pd.DataFrame
personas[["ages","colors"]]

In [None]:
# Podemos considerar todo menos una columna con el
# método 'drop'. 'axis=1' implica que el vector
# a remover es una columna
personas.drop("colors", axis=1)

In [None]:
# Podemos considerar todo menos una fila con el
# método 'drop', 'axis=0' implica que el vector
# a remover es una fila
personas.drop("Timmy", axis=0)

In [None]:
# Regresar el valor de una columna como un numpy array
personas.ages.values

**A veces, es necesario conseguir el valor de una fila. En dichas ocasiones, usamos las propiedades `loc` y `iloc`**

`.loc`

In [None]:
# Indice basado en el nombre; no en la posicion
personas.loc["John"]

In [None]:
# Indice basado en el nombre; no en la posicion
personas.loc["John", "bank"]

In [None]:
# Indice basado en el nombre; no en la posicion
personas.loc["John", ["bank", "colors"]]

`.iloc`

In [None]:
# Indice basado en el índice; no en el nombre
personas.iloc[0]

In [None]:
# Indice basado en el índice; no en el nombre
personas.iloc[0, 1]

In [None]:
# Indice basado en el índice; no en el nombre
personas.iloc[0, [1,2]]

## Mergers and joins
¿Qué pasa cuando queremos juntar dos DataFrames?

In [None]:
names = ["John", "Timmy", "Kenny", "Yann", "Isaac"]
ages_list = [21, 23, 23, 19, 3]
colors_list = ["teal", "black", "crimson", "yellow", "white"]
amount_list = [10_000, 100_000, 23_000, 5_000, 11_000]

personas = pd.DataFrame({"ages": ages_list,
                         "colors": colors_list}, index=names)
personas_bank = pd.DataFrame({"bank": amount_list}, index=names)

In [None]:
personas

In [None]:
personas_bank

**Juntando DataFrames con `join`**

Nota: usamos un `join` en pandas cuando sabemos que ambos `DataFrames` comparten, al menos, un elemento en el índice

In [None]:
personas.join(personas_bank)

¿Qué pasa cuando no tenemos el mismo número de índices?

In [None]:
personas = pd.DataFrame({"ages": ages_list,
                         "colors": colors_list}, index=names)
personas_bank = pd.DataFrame({"bank": amount_list[:-1]}, index=names[:-1])

In [None]:
personas_bank

In [None]:
personas

In [None]:
# En tal caso, pandas se encarga de llenar los valores vacíos por nosotros
personas.join(personas_bank)

**Juntando DataFrames con `merge`**

Usamos un `merge` cuando la colúmna de referencia sobre la cuál uniremos no se encuentra en el índice.

In [None]:
personas = pd.DataFrame({"ages": ages_list,
                         "colors": colors_list,
                         "names_person": names})

personas_bank = pd.DataFrame({"bank": amount_list,
                              "person_names": names})

In [None]:
personas

In [None]:
personas_bank

In [None]:
personas_bank.merge(personas, right_on="names_person", left_on="person_names")

### Agregando filas con `append` 

In [None]:
names1 = ["John", "Timmy", "Kenny", "Yann", "Isaac"]
amount_list1 = [10_000, 100_000, 23_000, 5_000, 11_000]

names2 = ["Gerardo", "Luis"]
amount_list2 = [1e6, 10e6]

personas_bank1 = pd.DataFrame({"bank": amount_list1}, index=names1)
personas_bank2 = pd.DataFrame({"bank": amount_list2}, index=names2)

In [None]:
personas_bank1

In [None]:
personas_bank2

In [None]:
personas_bank1.append(personas_bank2)

## Pivot Tables and DataFrame manipulations 

In [None]:
from pydataset import data
import matplotlib.pyplot as plt

In [None]:
iris = data("iris")

In [None]:
iris.head()

In [None]:
iris.describe()

In [None]:
iris.Species.value_counts()

In [None]:
color_map = {"setosa": "crimson",
             "virginica": "royalblue",
             "versicolor": "limegreen"}
colors = [color_map[c] for c in iris.Species]
iris.plot(x="Sepal.Length", y="Sepal.Width", kind="scatter", c=colors)
plt.show()

In [None]:
import seaborn as sns
sns.pairplot(iris, hue="Species")
plt.show()

**Creando nuevos features (propiedades) sobre la información**

Para la base de datos `iris`, conocemos el largo y el ancho tanto del tallo tanto del pétalo como del tallo. Crearemos entonces una nueva columna con el área de cada una de estas partes

In [None]:
iris["Sepal.Area"] = iris["Sepal.Length"] * iris["Sepal.Width"]
iris["Petal.Area"] = iris["Petal.Length"] * iris["Petal.Width"]
iris.head()

In [None]:
color_map = {"setosa": "crimson",
             "virginica": "royalblue",
             "versicolor": "limegreen"}
colors = [color_map[c] for c in iris.Species]
iris.plot(x="Petal.Area", y="Sepal.Area", kind="scatter", c=colors)
plt.show()

¿Cómo resumir los datos que tenemos?

Tablas dinámicas

In [None]:
iris.pivot_table(index="Species", aggfunc="mean")

In [None]:
iris.head()

---------
### Un segundo ejemplo

In [None]:
cars = data("mtcars")

In [None]:
cars.head()

In [None]:
cars.pivot_table(index="cyl", columns="am", values=["hp", "mpg"])

## Queries

In [None]:
titanic = data("Titanic")
titanic.head()

**Haciendo `maps` para acceder filtrar columnas**

In [None]:
titanic["Class"] == "1st"

In [None]:
titanic[titanic["Class"] == "1st"]

In [None]:
titanic[titanic["Survived"] == "Yes"]

**Usando `.query` podemos realizar esta misma operación**

In [None]:
titanic.query("Class == '1st'")

In [None]:
titanic.query("Survived == 'Yes'")

## Exportando información

In [None]:
irispv = iris.pivot_table(index="Species", aggfunc="mean")
irispv

In [None]:
irispv.to_csv("iris_td.csv")

In [None]:
irispv.to_clipboard()

In [None]:
irispv.to_excel("iris_td.xlsx", sheet_name="tabla_din")