
# **Introducción a Pandas**

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/e/ed/Pandas_logo.svg/1200px-Pandas_logo.svg.png" width=600px>

*La Biblioteca `pandas` proporciona estructuras de datos y herramientas de análisis de datos de alto rendimiento y fáciles de usar. La principal estructura de datos es el `DataFrame`, que puede considerarse como una tabla 2D en memoria (como una hoja de cálculo, con nombres de columnas y etiquetas de filas).*

En primer lugar, vamos a importar `pandas`. por convención se lo importa como `pd`:

In [None]:
import pandas as pd

# **Tipos de datos**

En `pandas` hay dos tipos de datos fundamentales:

- Las [Series](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html#pandas.Series)
- Los [DataFrame](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html)

# <mark>Objetos tipo `Series`</mark>
La librería `pandas` contiene las siguientes estructuras de datos útiles:
* Objetos `Series`. Un objeto `Series` es un array 1D, similar a una columna en una hoja de cálculo (con un nombre de columna y etiquetas de fila).
* Objetos `DataFrame`. Es una tabla 2D, similar a una hoja de cálculo (con nombres de columna y etiquetas de fila).


## `Series`
- son parecidas a un vector, con el agregado de un índice
- los datos son homogéneos (del mismo tipo)
- el índice no necesita ser numérico y puede tener identificadores repetidos

Empecemos por crear nuestro primer objeto `Series`.

In [None]:
s = pd.Series([2,-1,3,5])
s

## Similar a un `ndarray` 1D
Los objetos `Series` se comportan como `ndarray`s unidimensionales de NumPy, y a menudo se pueden pasar como parámetros a funciones NumPy:

In [None]:
import numpy as np
np.exp(s)

Las operaciones aritméticas sobre `Series` también son posibles, y se aplican *elemento a elemento*, igual que en los `ndarray`s:

In [None]:
s + [1000,2000,3000,4000]

Si se suma un único número a una `Serie`, ese número se suma a todos los elementos de la `Serie`. Esto también ocurre en los arrays de Numpy

In [None]:
s + 1000

Lo mismo ocurre con todas las operaciones binarias como `*` o `/`, e incluso con las operaciones condicionales:

In [None]:
s < 0

## Index labels
Cada elemento de un objeto `Series` tiene un identificador único llamado *etiqueta de índice o fila*. Por defecto, es simplemente la posición del elemento en la `Serie` (empezando en `0`) pero también puedes establecer las etiquetas manualmente:

In [None]:
s2 = pd.Series([68, 83, 112, 68], index=["alice", "bob", "charles", "darwin"])
s2

Puede utilizar las `Series` como si fueran `dict` (diccionarios):

In [None]:
s2["bob"]

Puede acceder a los elementos mediante índice, como en un array normal:

In [None]:
s2[1]

⚠️ <mark>Para ser más explícito cuándo se accede por etiqueta o por índice, se recomienda utilizar siempre el atributo `loc` cuando se acceda por etiqueta, y el atributo `iloc` cuando se acceda por índice</mark>:

In [None]:
s2.loc["bob"]

In [None]:
s2.iloc[1]

Un slicing sobre una `Series` se aplica sobre las etiquetas de las filas:

In [None]:
s2.iloc[1:3]

Esto puede conducir a resultados inesperados cuando se utilizan las etiquetas numéricas por defecto, ser cuidadoso!!:

In [None]:
sorpresa = pd.Series([1000, 1001, 1002, 1003])
sorpresa

In [None]:
slice_sorpresa = sorpresa[2:]
slice_sorpresa

¡Ojo! El primer elemento tiene el índice `2`. El elemento con etiqueta de índice `0` fue extraído de esta parte:

In [None]:
try:
    slice_sorpresa[0]
except KeyError as e:
    print("Key error:", e)

✅
Pero recuerda que puedes acceder a los elementos mediante índice utilizando el atributo `iloc`. Esto demuestra otra razón por la que siempre es mejor utilizar `loc` y `iloc` para acceder a los objetos `Series`:

In [None]:
slice_sorpresa.iloc[0]

## <mark>Inicializar una serie desde un `dict`</mark>
Puede crear un objeto `Series` a partir de un `dict`. Las claves se utilizarán como etiquetas de índice:

In [None]:
weights = {"alice": 68, "bob": 83, "colin": 86, "darwin": 68}
s3 = pd.Series(weights)
s3

Se puede controlar qué elementos incluir en la `Serie` y en qué orden especificando explícitamente el `índice` deseado:

In [None]:
s4 = pd.Series(weights, index = ["colin", "alice"])
s4

## Alineación automática
Cuando una operación implica varios objetos `Series`, `pandas` alinea automáticamente los elementos haciendo coincidir las etiquetas de índice.

In [None]:
print(s2)
print()
print(s3)
print()
s2 + s3

La `Serie` resultante contiene la unión de las etiquetas de índice de `s2` y `s3`. Dado que `"colin"` no aparece en `s2` y `"charles"` en `s3`, estos elementos tienen un valor de resultado `NaN` (Not-a-Number significa *dato faltante*).

La alineación automática es muy útil cuando se trabaja con datos que proceden de diversas fuentes con estructura variable y datos faltantes. Pero si te olvidas de establecer las etiquetas de índice correctas, se puede tener resultados no deseados:

In [None]:
s5 = pd.Series([1000,1000,1000,1000])
print("s2 =", s2.values)
print("s5 =", s5.values)

s2 + s5

## Inicializar con un escalar
También se puede inicializar una `Series` utilizando un escalar y una lista de etiquetas de índice: todos los elementos tendrán el mismo valor del escalar.

In [None]:
meaning = pd.Series(42, ["life", "universe", "everything"])
meaning

## nombre de `Series`

In [None]:
s6 = pd.Series([83, 68], index=["bob", "alice"], name="weights")
s6

## Graficar una `Series`
Pandas hace simple graficar `Series` utilizando matplotlib. Sólo tiene que importar matplotlib y llamar al método `plot()`:

In [None]:
import matplotlib.pyplot as plt
temperatures = [4.4,5.1,6.1,6.2,6.1,6.1,5.7,5.2,4.7,4.1,3.9,3.5]
s7 = pd.Series(temperatures, name="Temperature")
s7.plot()
plt.show()

Existen *muchas* opciones para representar los datos. Si necesita un tipo particular de gráfico (histogramas, gráficos circulares, etc.), se puede ir a la sección [Visualization](https://pandas.pydata.org/pandas-docs/stable/user_guide/visualization.html) de la documentación de pandas, y ver el código de ejemplo.

# <mark>Objetos `DataFrame`</mark>
- son parecidos a una tabla, con índice (nombre de los renglones) y encabezados (nombres de las columnas)
- cada columna tiene un tipo de dato homogéneo. El `DataFrame` puede ser heterogéneo (por columnas)
- cada columna de un `DataFrame` vendría a ser una `Series`
- tanto el índice como los nombres de las columnas no necesitan ser numéricos

Se pueden definir expresiones para calcular columnas basándose en otras columnas, crear tablas dinámicas, agrupar filas, dibujar gráficos, etc. Se puede pensar un `DataFrame` como un diccionario de `Series`.

## Creación de un `DataFrame`
Se puede crear un DataFrame mediante un diccionario de `Series`:

In [None]:
people_dict = {
    "weight": pd.Series([68, 83, 112], index=["alice", "bob", "charles"]),
    "birthyear": pd.Series([1984, 1985, 1992], index=["bob", "alice", "charles"], name="year"),
    "children": pd.Series([0, 3], index=["charles", "bob"]),
    "hobby": pd.Series(["Biking", "Dancing"], index=["alice", "bob"]),
}
people = pd.DataFrame(people_dict)
people

Algunas cosas a tener en cuenta:
* Las "series" se alinean automáticamente según el índice,
* los valores faltantes se representan como "NaN",
* Los nombres de las series se ignoran (el nombre "year" se eliminó).

Se puede acceder a las columnas usando los nombres de las mismas. Se devuelven como objetos `Series`:

In [None]:
people["birthyear"]

Se pueden acceder varias columnas a la vez:

In [None]:
people[["birthyear", "hobby"]]

Si se pasa una lista de columnas y/o etiquetas de filas al constructor `DataFrame`, se garantizará que estas columnas y/o filas existirán, en ese orden, y no existirá ninguna otra columna/fila. Por ejemplo:

In [None]:
d2 = pd.DataFrame(
        people_dict,
        columns=["birthyear", "weight", "height"],
        index=["bob", "alice", "eugene"]
     )
d2

Otra forma de crear un `DataFrame` es pasar todos los valores al constructor como un `ndarray`, o una lista de listas, y especificar los nombres de las columnas y las etiquetas de las filas por separado:

In [None]:
values = [
            [1985, np.nan, "Biking",   68],
            [1984, 3,      "Dancing",  83],
            [1992, 0,      np.nan,    112]
         ]
d3 = pd.DataFrame(
        values,
        columns=["birthyear", "children", "hobby", "weight"],
        index=["alice", "bob", "charles"]
     )
d3

En lugar de un `ndarray`, también se puede pasar un objeto `DataFrame`:

In [None]:
d4 = pd.DataFrame(
         d3,
         columns=["hobby", "children"],
         index=["alice", "bob"]
     )
d4

También es posible crear un `DataFrame` con un diccionario (o lista) de diccionarios (o listas):

In [None]:
people = pd.DataFrame(
    {
        "birthyear": {"alice": 1985, "bob": 1984, "charles": 1992},
        "hobby": {"alice": "Biking", "bob": "Dancing"},
        "weight": {"alice": 68, "bob": 83, "charles": 112},
        "children": {"bob": 3, "charles": 0}
    }
)
people

## Multi-indexación
Si todas las columnas son tuplas del mismo tamaño, entonces se consideran como índices múltiples. Lo mismo ocurre con las etiquetas de fila. Por ejemplo:

In [None]:
d5 = pd.DataFrame(
  {
    ("public", "birthyear"):
        {("Paris","alice"): 1985, ("Paris","bob"): 1984, ("London","charles"): 1992},
    ("public", "hobby"):
        {("Paris","alice"): "Biking", ("Paris","bob"): "Dancing"},
    ("private", "weight"):
        {("Paris","alice"): 68, ("Paris","bob"): 83, ("London","charles"): 112},
    ("private", "children"):
        {("Paris", "alice"): np.nan, ("Paris","bob"): 3, ("London","charles"): 0}
  }
)
d5

Ahora se puede obtener un `DataFrame` que contenga todas las columnas `"public"` de forma muy sencilla:

In [None]:
d5["public"]

In [None]:
d5["public", "hobby"]  # d5["public"]["hobby"]

## Eliminar un nivel

In [None]:
d5

Existen dos niveles de columnas y dos niveles de índices. Podemos eliminar un nivel en las columnas llamando a `droplevel()` (lo mismo con los índices):

In [None]:
d5.columns = d5.columns.droplevel(level = 0)
d5

## <mark>Accediendo a las filas</mark>


In [None]:
people

El atributo `loc` permite acceder a las filas en lugar de a las columnas. El resultado es un objeto `Series` en el que los nombres de columna del `DataFrame` se asignan como etiquetas de fila:

In [None]:
people.loc["charles"]

También puede acceder a las filas mediante índices utilizando el atributo `iloc`:

In [None]:
people.iloc[2]

También se puede hacer un slice de las filas, y esto devuelve un objeto `DataFrame`:

In [None]:
people.iloc[1:3]

**Usando el segundo eje, accedemos a las columnas**

In [None]:
people.loc["alice":"bob", "birthyear":"weight"]

In [None]:
people.iloc[[0,2], [0,3]]

**más rápido cuando se quiere un único valor**

In [None]:
people.at["bob", "hobby"]

In [None]:
people.iat[1,1]

Se puede pasar una matriz booleana para obtener las filas coincidentes:

In [None]:
people[np.array([True, False, True])]

✅ Esto resulta muy útil cuando se combina con expresiones booleanas:

In [None]:
people[people["birthyear"] < 1990]

## <mark>Agregar y remover columnas</mark>


In [None]:
people

In [None]:
people["age"] = 2018 - people["birthyear"]  # agrega una nueva columna "age"
people["over 30"] = people["age"] > 30      # agrega otra columna "over 30"
birthyears = people.pop("birthyear")
del people["children"]

people

In [None]:
birthyears

Cuando se añade una nueva columna, ésta debe tener el mismo número de filas. Las filas que faltan se rellenan con NaN y las que sobran se ignoran:

In [None]:
people["pets"] = pd.Series({"bob": 0, "charles": 5, "eugene": 1})  # alice no está, eugene es ignorado
people

Al añadir una nueva columna, por defecto se añade al final (a la derecha). También se puede insertar una columna en cualquier otro lugar utilizando el método `insert()`:

In [None]:
people.insert(1, "height", [172, 181, 185])
people

## <mark>Asignando nuevas columnas</mark>
También se pueden crear nuevas columnas usando el método `assign()`. Tenga en cuenta que esto devuelve un nuevo objeto `DataFrame`, el original no se modifica:

In [None]:
people.assign(
    body_mass_index = people["weight"] / (people["height"] / 100) ** 2,
    has_pets = people["pets"] > 0
)

Tenga en cuenta que no puede acceder a columnas creadas dentro de la misma asignación:

In [None]:
try:
    people.assign(
        body_mass_index = people["weight"] / (people["height"] / 100) ** 2,
        overweight = people["body_mass_index"] > 25
    )
except KeyError as e:
    print("Key error:", e)

La solución es dividir esta tarea en dos consecutivas:

In [None]:
d6 = people.assign(body_mass_index = people["weight"] / (people["height"] / 100) ** 2)
d6.assign(overweight = d6["body_mass_index"] > 25)

## Asignando valores


In [None]:
nueva_col = pd.Series([True, False, True], index=["alice","bob","charles"]) # Serie para asignar a nueva columna
d6['smoke'] = nueva_col # La etiqueta de la columna se define en la asignación
d6

In [None]:
d6.loc[:, 'jobs'] = np.array([2, 1, 3]) #La columna se asigna a partir de un array de numpy
d6

In [None]:
d6.at[ 'alice', "jobs"] = 0 #Asignar un valor usando las etiquetas (.at)
d6

In [None]:
d6.iat[0, 8] = 2 #Asignar un valor usando la posición (.iat)
d6

## Evaluando expresiones
Una gran característica soportada por pandas es la evaluación de expresiones. Se basa en la biblioteca `numexpr` que debe ser instalada.

In [None]:
people.eval("weight / (height/100) ** 2 > 25")

Las expresiones de asignación también son posibles. Establezcamos `inplace=True` para modificar directamente el `DataFrame` en lugar de obtener una copia modificada:

In [None]:
people

In [None]:
people.eval("body_mass_index = weight / (height/100) ** 2", inplace=True)
people

Se puede utilizar una variable local o global en una expresión anteponiéndole `'@'`:

In [None]:
overweight_threshold = 30
people.eval("overweight = body_mass_index > @overweight_threshold", inplace=True)
people

## Hacer consultas en un`DataFrame`
El método `query()` permite filtrar un `DataFrame` basándose en una expresión de consulta:

In [None]:
people.query("age > 30 and pets == 0")

## <mark>Ordenar un `DataFrame`</mark>
Se puede ordenar un `DataFrame` llamando a su método `sort_index`. Por defecto, ordena las filas por su etiqueta de índice, en orden ascendente, pero a continuación, vamos a invertir el orden:

In [None]:
people.sort_index(ascending=False)

Ten en cuenta que `sort_index` devuelve una *copia* ordenada del `DataFrame`. Para modificar `people` directamente, podemos setear el argumento `inplace` a `True`. Además, podemos ordenar las columnas en lugar de las filas estableciendo `axis=1`:

In [None]:
people.sort_index(axis=1, inplace=True)
people

Para ordenar el `DataFrame` por sus valores en lugar de sus etiquetas, podemos utilizar `sort_values` y especificar la columna por la cual ordenar:

In [None]:
people.sort_values(by="age", inplace=True)
people

## Graficar un `DataFrame`
Al igual que las `Series`, pandas hace que sea fácil crear lindos gráficos basados en un `DataFrame`.

Por ejemplo, es muy simple crear un gráfico de líneas a partir de los datos de un `DataFrame` llamando a su método `plot`:

In [None]:
people.sort_values(by="body_mass_index", inplace=True)
people.plot(kind="line", x="body_mass_index", y=["height", "weight"])
plt.show()

De nuevo, hay muchas opciones para graficar, se puede visitar la página  [Visualization](https://pandas.pydata.org/pandas-docs/stable/user_guide/visualization.html) en la documentación de pandas.

## Operaciones con `DataFrame`s


In [None]:
grades_array = np.array([[8, 8, 9], [10, 9, 9], [4, 8, 2], [9, 10, 10]])
grades = pd.DataFrame(grades_array, columns=["sep", "oct", "nov"], index=["alice", "bob", "charles", "darwin"])
grades

Se pueden aplicar funciones matemáticas NumPy en un `DataFrame`: la función se aplica a todos los valores:

In [None]:
np.sqrt(grades)

Al sumar un único valor a un `DataFrame` se suma ese valor a todos los elementos del `DataFrame`.

In [None]:
grades + 1

Por supuesto, lo mismo ocurre con el resto de operaciones binarias, incluidas las operaciones aritméticas (`*`,`/`,`**`...) y condicionales (`>`, `==`...):

In [None]:
grades >= 5

Las operaciones de agregación como calcular el `máximo`, la `suma` o la `media` de un `DataFrame`, se aplican a cada columna, y se obtiene un objeto `Series`:

In [None]:
grades.mean()

El método `all` también es una operación de agregación: comprueba si *todos* los valores son `True` o no. Veamos durante qué meses todos los alumnos obtuvieron una nota superior a `5`:

In [None]:
(grades > 5).all()

✅ La mayoría de estas funciones toman un parámetro opcional `axis` que permite especificar a lo largo de qué eje del `DataFrame` desea que se ejecute la operación. El valor por defecto es `axis=0`, lo que significa que la operación se ejecuta en cada columna. Puede establecer `axis=1` para aplicar la operación horizontalmente (en cada fila). Por ejemplo, averigüemos qué alumnos tienen todas las notas superiores a `5`:


In [None]:
(grades > 5).all(axis=1)

El método `any` devuelve `True` si algún valor es True. Veamos quién tiene al menos una nota 10:

In [None]:
(grades == 10).any(axis=1)

Si se suma o resta un objeto `Series` a un `DataFrame` (o se aplica cualquier otra operación binaria), pandas intenta aplicar la operación a todas las *filas* del `DataFrame`. Esto sólo funciona si la `Serie` tiene el mismo tamaño que las filas del `DataFrame`. Por ejemplo, vamos a restar la media del `DataFrame` (un objeto `Series`) al `DataFrame`:

In [None]:
grades - grades.mean()  # grades - [7.75, 8.75, 7.50]

Restamos `7,75` a todas las notas de septiembre, `8,75` a las de octubre y `7,50` a las de noviembre.

Si se quiere restar la media global a cada nota, se tiene la siguiente forma de hacerlo:

In [None]:
grades - grades.values.mean()

## Alineación automática
De forma similar a las `Series`, cuando se opera sobre múltiples `DataFrame`s, pandas los alinea automáticamente por la etiqueta de fila, pero también por nombres de columna. Vamos a crear un `DataFrame` con puntos extra para cada persona de octubre a diciembre:

In [None]:
bonus_array = np.array([[0, np.nan, 2], [np.nan, 1, 0], [0, 1, 0], [3, 3, 0]])
bonus_points = pd.DataFrame(bonus_array, columns=["oct", "nov", "dec"], index=["bob", "colin", "darwin", "charles"])
bonus_points

In [None]:
grades + bonus_points

Parece que la suma funcionó en algunos casos, pero muchos elementos están ahora vacíos. Esto se debe a que al alinear los `DataFrame`s, algunas columnas y filas sólo estaban presentes en un dataframe, por lo que se consideró que faltaban en el otro (`NaN`).

## <mark>Manejo de datos faltantes</mark>
Tratar con datos faltantes es una tarea frecuente cuando se trabaja con datos reales. Pandas ofrece algunas herramientas para manejar estos datos.

Intentemos solucionar el problema anterior. Por ejemplo, podemos decidir que los datos que falten den como resultado un cero, en lugar de `NaN`. Podemos sustituir todos los valores `NaN` por cualquier valor utilizando el método `fillna()`:

In [None]:
(grades + bonus_points).fillna(0)

Sin embargo, es un poco injusto que pongamos las notas a cero en septiembre. Quizá deberíamos decidir que las notas que faltan son notas faltantes, pero los puntos extra que faltan deberían sustituirse por ceros:

In [None]:
fixed_bonus_points = bonus_points.fillna(0)
fixed_bonus_points.insert(0, "sep", 0)
fixed_bonus_points.loc["alice"] = 0
grades + fixed_bonus_points

Eso está mucho mejor: aunque inventamos algunos datos, no fuimos injustos.

Otra forma de manejar los datos que faltan es interpolar. Veamos de nuevo el DataFrame `bonus_points`:

In [None]:
bonus_points

Ahora usemos el método `interpolate`. Por defecto, interpola verticalmente (`axis=0`), así que vamos a decirle que interpole horizontalmente (`axis=1`).

In [None]:
bonus_points.interpolate(axis=1)

Bob obtuvo 0 puntos extra en octubre y 2 en diciembre. Cuando interpolamos para obtener un valor en noviembre, obtenemos la media: 1 punto extra.

Colin obtuvo 1 punto de bonificación en noviembre, pero no sabemos cuántos puntos de bonificación tuvo en septiembre, así que no podemos interpolar, por eso sigue faltando un valor en octubre después de la interpolación.

Para solucionarlo, podemos setear los puntos de bonificación de septiembre en 0 antes de la interpolación.


In [None]:
better_bonus_points = bonus_points.copy()
better_bonus_points.insert(0, "sep", 0)
better_bonus_points.loc["alice"] = 0
better_bonus_points = better_bonus_points.interpolate(axis=1)
better_bonus_points

In [None]:
grades + better_bonus_points

Es algo molesto que la columna de septiembre termine a la derecha. Esto se debe a que los `DataFrame`s que estamos añadiendo no tienen exactamente las mismas columnas (al `DataFrame` de `grades` le falta la columna `"dec"`), así que para hacer las cosas predecibles, pandas ordena las columnas finales alfabéticamente. Para arreglar esto, podemos simplemente añadir la columna que falta antes de sumar:


In [None]:
grades["dec"] = np.nan
final_grades = grades + better_bonus_points
final_grades

No hay mucho que podamos hacer con respecto a diciembre y Colin: ya es bastante malo que estemos inventando puntos extra, pero no podemos inventar calificaciones. Vamos a llamar al método `dropna()` para deshacernos de las filas que tienen sólo datos faltantes:

In [None]:
final_grades_clean = final_grades.dropna(how="all")
final_grades_clean

Ahora vamos a eliminar las columnas `NaN`s fijado el argumento `axis` a `1`:

In [None]:
final_grades_clean = final_grades_clean.dropna(axis=1, how="all")
final_grades_clean

## Agrupando con `groupby`
Pandas permite agrupar los datos en grupos para realizar cálculos sobre cada grupo.

Primero, vamos a añadir algunos datos extra sobre cada persona para poder agruparlos, tomemos el `DataFrame` de `final_grades` para poder ver cómo se manejan los valores `NaN`:

In [None]:
final_grades["hobby"] = ["Biking", "Dancing", np.nan, "Dancing", "Biking"]
final_grades

Ahora vamos a agrupar los datos en este `DataFrame` por hobby:

In [None]:
grouped_grades = final_grades.groupby("hobby")
grouped_grades

Ahora podemos calcular la nota media por hobby:

In [None]:
grouped_grades.mean()

Súper simple!. Notar que los valores `NaN` simplemente se han omitido al calcular las medias.

## Vista general de un Dataframe
Cuando se trabaja con `DataFrames` grandes, es útil obtener una visión rápida de su contenido. Pandas ofrece algunas funciones para ello. En primer lugar, vamos a crear un `DataFrame` grande con una mezcla de valores numéricos, valores faltantes y texto. Observa cómo se muestran sólo los extremos del `DataFrame`:

In [None]:
much_data = np.fromfunction( lambda x,y: (x+y*y)%17*11, (10000, 26) )
large_df = pd.DataFrame(much_data, columns=list("ABCDEFGHIJKLMNOPQRSTUVWXYZ"))
large_df[large_df % 16 == 0] = np.nan
large_df.insert(3, "some_text", "Blabla")
large_df

El método `head()` devuelve las 5 primeras filas:

In [None]:
large_df.head()

Por supuesto, también hay una función `tail()` para ver las 5 filas inferiores o se pueden pasar el número de filas que se quieran visualizar (tambien funciona con `head()`):

In [None]:
large_df.tail(n=2)

El método `info()` muestra un resumen del contenido de cada columna:

In [None]:
large_df.info()

Por último, el método `describe()` ofrece una visión general de todos los valores en cada columna:
* `count`: número de valores no nulos (no NaN)
* `mean`: media de valores no nulos
* `std`: [desviación estándar](https://en.wikipedia.org/wiki/Standard_deviation) de valores no nulos
* `min`: mínimo de valores no nulos
* `25%`, `50%`, `75%`: [percentil] 25, 50 y 75 (https://en.wikipedia.org/wiki/Percentile) de valores no nulos
* `max`: máximo de valores no nulos

In [None]:
large_df.describe()

# Guardar y cargar dataframes

In [None]:
my_df = pd.DataFrame(
    [["Biking", 68.5, 1985, np.nan], ["Dancing", 83.1, 1984, 3]],
    columns=["hobby", "weight", "birthyear", "children"],
    index=["alice", "bob"]
)
my_df

## Guardar
Vamos a guardarlo en CSV, HTML y JSON:


In [None]:
my_df.to_csv("./data/my_df.csv")
my_df.to_html("./data/my_df.html")
my_df.to_json("./data/my_df.json")

Ahora miremos lo que se guardó:

In [None]:
for filename in ("./data/my_df.csv", "./data/my_df.html", "./data/my_df.json"):
    print("#", filename)
    with open(filename, "rt") as f:
        print(f.read())
        print()


Tenga en cuenta que el índice se guarda como la primera columna (sin nombre) en un archivo CSV, como etiquetas `<th>` en HTML y como claves en JSON.



## Cargar un dataframe
Ahora vamos a cargar nuestro archivo CSV de nuevo en un `DataFrame`:

In [None]:
my_df_loaded = pd.read_csv("./data/my_df.csv", index_col=0)
my_df_loaded

También existen funciones similares `read_json`, `read_html`.  Podemos leer datos directamente de Internet. Por ejemplo, vamos a cargar las 1.000 principales ciudades de EE.UU. desde GitHub:

In [None]:
us_cities = None
try:
    csv_url = "https://raw.githubusercontent.com/plotly/datasets/master/us-cities-top-1k.csv"
    us_cities = pd.read_csv(csv_url, index_col=0)
    us_cities = us_cities.head()
except IOError as e:
    print(e)
us_cities

## Concatenación de `DataFrames`

In [None]:
city_loc = pd.DataFrame(
    [
        ["CA", "San Francisco", 37.781334, -122.416728],
        ["NY", "New York", 40.705649, -74.008344],
        ["FL", "Miami", 25.791100, -80.320733],
        ["OH", "Cleveland", 41.473508, -81.739791],
        ["UT", "Salt Lake City", 40.755851, -111.896657]
    ], columns=["state", "city", "lat", "lng"])
city_loc

In [None]:
city_pop = pd.DataFrame(
    [
        [808976, "San Francisco", "California"],
        [8363710, "New York", "New-York"],
        [413201, "Miami", "Florida"],
        [2242193, "Houston", "Texas"]
    ], index=[3,4,5,6], columns=["population", "city", "state"])
city_pop

In [None]:
result_concat = pd.concat([city_loc, city_pop])
result_concat

Observe que esta operación alinea los datos horizontalmente (por columnas) pero no verticalmente (por filas). En este ejemplo, acabamos con varias filas que tienen el mismo índice (por ejemplo, 3).

In [None]:
result_concat.loc[3]

O podemos decirle a pandas que ignore el índice:

In [None]:
pd.concat([city_loc, city_pop], ignore_index=True)

Observe que cuando una columna no existe en un `DataFrame`, es como si estuviera lleno de valores `NaN`. Si establecemos `join="inner"`, sólo se devolverán las columnas que existan en ambos `DataFrame`:

In [None]:
pd.concat([city_loc, city_pop], join="inner")

Se pueden concatenar `DataFrame`s horizontalmente en lugar de verticalmente estableciendo `axis=1`:

In [None]:
pd.concat([city_loc, city_pop], axis=1)

En este caso no tiene mucho sentido porque los índices no se alinean bien (por ejemplo, Cleveland y San Francisco acaban en la misma fila, porque compartían la etiqueta de índice `3`). Así que vamos a reindexar el `DataFrame` por nombre de ciudad antes de concatenar:

In [None]:
pd.concat([city_loc.set_index("city"), city_pop.set_index("city")], axis=1)

## Series temporales

Es un tipo de dato auxiliar que permite operar muy fácil con fechas y horas. Al usar las series temporales como índice, hay tareas que se hacen muy simples y eficientemente. Por ejemplo, cambiar la frecuencia de los datos.

Para más detalles ver [Time Series](https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#timeseries)

In [None]:
import pandas as pd
import numpy as np
rng = pd.date_range('9/1/2019', periods=1000, freq='S')  # 1000 segundos a partir del 01/09/19
rng[-5:]

In [None]:
ts = pd.Series(np.random.randint(0, 500, len(rng)), index=rng)  # Usa la serie temporal como índice
ts

In [None]:
ts.resample('5Min').sum()  # Obtiene una nueva Series, con el periodo indicado

### Convertir la representación del dato temporal

https://stackoverflow.com/questions/35339139/what-values-are-valid-in-pandas-freq-tags

In [None]:
rng = pd.date_range('2/1/2019', periods=5, freq='MS', inclusive='left')
ts = pd.Series(np.random.randn(len(rng)), index=rng)
ts

Convierte el dato de acuerdo al periodo definido originalmente:

In [None]:
ps = ts.to_period()  # Probar cambiar M por S o D al definir el rango de fechas
ps

Para volver al tipo de dato original:

In [None]:
ps.to_timestamp()