### Biblioteca [**Pandas**](https://pandas.pydata.org/docs/) 🐼
<br>
<center><img src="https://upload.wikimedia.org/wikipedia/commons/e/ed/Pandas_logo.svg" width = 400></center>

*La Biblioteca `pandas` proporciona estructuras de datos y herramientas de análisis de datos de alto rendimiento y fáciles de usar. La principal estructura de datos es el `DataFrame`, que puede considerarse como una tabla 2D en memoria (como una hoja de cálculo, con nombres de columnas y etiquetas de filas).*

# **Tipos de datos**

En `pandas` hay dos tipos de datos fundamentales:

- Las [Series](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html#pandas.Series)
- Los [DataFrame](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html)

La librería `pandas` contiene las siguientes estructuras de datos útiles:
* Objetos `Series`. Un objeto `Series` es un array 1D, similar a una columna en una hoja de cálculo (con un nombre de columna y etiquetas de fila).
* Objetos `DataFrame`. Es una tabla 2D, similar a una hoja de cálculo (con nombres de columna y etiquetas de fila).


In [None]:
import pandas as pd

## `Series`

In [None]:
s = pd.Series([2,-1,3,5])
s

## Etiqueta de índice (Index labels)
Cada elemento de un objeto `Series` tiene un identificador único llamado *etiqueta de índice*. Por defecto, es simplemente la posición del elemento en la `Serie` (empezando en `0`) pero también puedes establecer las etiquetas manualmente:

In [None]:
s2 = pd.Series([68, 83, 112, 68], index=["alice", "bob", "charles", "darwin"])
s2

Se puede utilizar las `Series` de forma similar a un diccionario:

In [None]:
s2["bob"]

Se puede acceder a los elementos mediante índices, como en un arreglo:

In [None]:
s2[1]

Un slicing sobre una `Series` se aplica sobre las etiquetas de las filas:

In [None]:
s2.iloc[1:3]

⚠️ Para ser más explícito cuándo se accede por etiqueta o por índice, se recomienda utilizar siempre el atributo `loc` cuando se acceda por etiqueta, y el atributo `iloc` cuando se acceda por índice:

In [None]:
s2.loc["bob"]

In [None]:
s2.iloc[1]

Se pueden tener resultados inesperados cuando se utilizan las etiquetas numéricas por defecto, ser cuidadoso!!:

In [None]:
s3 = pd.Series([1000, 1001, 1002, 1003])
s3

In [None]:
slice_s3 = s3[2:]
slice_s3

In [None]:
slice_s3[0]

¡Ojo! El primer elemento tiene el índice `2`. El elemento con etiqueta de índice `0` fue extraído de esta parte:

✅ Pero recuerda que puedes acceder a los elementos mediante índice utilizando el atributo `iloc`. Esto demuestra la razón por la que siempre es mejor utilizar `loc` y `iloc` para acceder a los elementos:

In [None]:
slice_s3.iloc[0]

## Inicializar una serie desde un `dict`
Las claves del diccionario se utilizan como etiquetas de índice:

In [None]:
pesos = {"alice": 68, "bob": 83, "colin": 86, "darwin": 68}
s3 = pd.Series(pesos)
s3

Se puede controlar qué elementos incluir en la `Serie` y en qué orden, especificando explícitamente el `índice` deseado:

In [None]:
s4 = pd.Series(pesos, index = ["colin", "alice"])
s4

##`DataFrame`
- son parecidos a una tabla, con etiquetas de fila (nombre de las filas) y encabezados (nombres de las columnas)
- cada columna tiene un tipo de dato homogéneo. El `DataFrame` puede ser heterogéneo (por columnas)
- cada columna de un `DataFrame` vendría a ser una `Series`
- tanto las etiquetas de las filas como los encabezados no necesitan ser numéricos

Se puede pensar un `DataFrame` como un diccionario de `Series`.

## Creación de un `DataFrame`
Se puede crear un DataFrame mediante un diccionario de `Series`:

In [None]:
diccionario_personas = {
    "peso": pd.Series([68, 83, 112], index=["alice", "bob", "charles"]),
    "cumpleaños": pd.Series([1984, 1985, 1992], index=["bob", "alice", "charles"]),
    "hijos": pd.Series([0, 3], index=["charles", "bob"]),
    "hobby": pd.Series(["Pintura", "Baile"], index=["alice", "bob"]),
}
personas = pd.DataFrame(diccionario_personas)
personas

Se puede acceder a las columnas usando los nombres de las mismas. Se devuelven como objetos `Series`:

In [None]:
personas["cumpleaños"]

Se pueden acceder varias columnas a la vez:

In [None]:
personas[["cumpleaños", "hobby"]]

Si se pasa una lista de columnas y/o etiquetas de filas al constructor `DataFrame`, se garantizará que estas columnas y/o filas existirán, en ese orden, y no existirá ninguna otra columna/fila. Por ejemplo:

In [None]:
d2 = pd.DataFrame(
        diccionario_personas,
        columns=["cumpleaños", "peso", "altura"],
        index=["bob", "alice", "eugene"]
     )
d2

Otra forma de crear un `DataFrame` es pasar todos los valores al constructor como un `ndarray`, o una lista de listas, y especificar los nombres de las columnas y las etiquetas de las filas por separado:

In [None]:
import numpy as np

values = [
            [1985, np.nan, "Pintura",   68],
            [1984, 3,      "Baile",  83],
            [1992, 0,      np.nan,    112]
         ]
d3 = pd.DataFrame(
        values,
        columns=["cumpleaños", "hijos", "hobby", "peso"],
        index=["alice", "bob", "charles"]
     )
d3

También se puede crear a partir de otro `DataFrame`:

In [None]:
d4 = pd.DataFrame(
         d3,
         columns=["hobby", "hijos"],
         index=["alice", "bob"]
     )
d4

También es posible crear un `DataFrame` con un diccionario de diccionarios:

In [None]:
personas = pd.DataFrame({
    "cumpleaños": {"alice": 1985, "bob": 1984, "charles": 1992},
    "hobby": {"alice": "Pintura", "bob": "Baile"},
    "peso": {"alice": 68, "bob": 83, "charles": 112},
    "hijos": {"bob": 3, "charles": 0}
})
personas

## Acceso a los elementos


In [None]:
personas

El atributo `loc` permite acceder a las filas en lugar de a las columnas. El resultado es un objeto `Series` en el que los nombres de columna del `DataFrame` se asignan como etiquetas de fila:

In [None]:
personas.loc["charles"]

También puede acceder a las filas mediante índices utilizando el atributo `iloc`:

In [None]:
personas.iloc[2]

También se puede hacer un slice de las filas, y esto devuelve un objeto `DataFrame`:

In [None]:
personas.iloc[1:3]

**Usando el segundo eje, accedemos a las columnas**

In [None]:
personas.loc["alice":"bob", "cumpleaños":"peso"]

In [None]:
personas.iloc[[0,2], [0,3]]

**más rápido cuando se quiere un único valor**

In [None]:
personas.at["bob", "hobby"]

In [None]:
personas.iat[1,1]

## Agregar y remover columnas


In [None]:
personas

In [None]:
personas["edad"] = 2024 - personas["cumpleaños"]

In [None]:
personas["mayores a 35"] = personas["edad"] > 35
personas

In [None]:
cumples = personas.pop("cumpleaños")
cumples

In [None]:
personas

Cuando se añade una nueva columna, ésta debe tener el mismo número de filas. Las filas que faltan se rellenan con NaN y las que sobran se ignoran:

In [None]:
personas["mascotas"] = pd.Series({"bob": 0, "charles": 5, "eugene": 1})
personas

Al añadir una nueva columna, por defecto se añade al final (a la derecha). También se puede insertar una columna en cualquier otro lugar utilizando el método `insert()`:

In [None]:
personas.insert(1, "altura", [172, 181, 185])
personas

## Asignando valores


In [None]:
nueva_columna = pd.Series([True, False, True], index=["alice","bob","charles"])
personas['fumador'] = nueva_columna # La etiqueta de la columna se define en la asignación
personas

In [None]:
personas.loc[:, 'nro_trabajos'] = np.array([2, 1, 3])
personas

### Cuidado

In [None]:
nueva_columna2 = pd.Series([True, False, True])
personas['gimnasio'] = nueva_columna2 # La etiqueta de la columna se define en la asignación
personas

In [None]:
personas.pop("jobs")

In [None]:
personas.at[ 'alice', "nro_trabajos"] = 1
personas

In [None]:
personas.iat[0, 8] = 2
personas

#### Filtrar datos usando expresiones lógicas

In [None]:
personas

In [None]:
personas[personas['hobby'] == 'Baile']

In [None]:
personas[(personas['hobby'] == 'Baile') | (personas['hobby'] == 'Pintura')]

In [None]:
personas[personas['edad'] > 35]

## Ordenar un `DataFrame`
Se puede ordenar un `DataFrame` llamando a su método `sort_index`. Por defecto, ordena las filas mediante sus etiquetas, en orden ascendente:

In [None]:
personas

In [None]:
personas.sort_index(ascending=False)

`sort_index` devuelve una *copia* ordenada del `DataFrame`. Para modificar el dataframe `personas` directamente, podemos fijar el parámetro `inplace` a `True`. Además, podemos ordenar las columnas en lugar de las filas estableciendo `axis=1`:

In [None]:
personas.sort_index(axis=1, inplace=True)
personas

Para ordenar el `DataFrame` por los valores en lugar de sus etiquetas, podemos utilizar `sort_values` y especificar la columna por la cual ordenar:

In [None]:
personas.sort_values(by="edad", inplace=True)
personas

## Operaciones con `DataFrame`s


In [None]:
arreglo_notas = np.array([[8, 8, 9], [10, 9, 9], [4, 8, 2], [9, 10, 10]])
notas = pd.DataFrame(arreglo_notas, columns=["sep", "oct", "nov"], index=["alice", "bob", "charles", "darwin"])
notas

Se pueden aplicar funciones matemáticas de NumPy en un `DataFrame`: la función se aplica a todos los valores:

In [None]:
np.sqrt(notas)

Al sumar un único valor a un `DataFrame` se suma ese valor a todos los elementos del `DataFrame`.

In [None]:
notas + 1

Por supuesto, lo mismo ocurre con el resto de operaciones binarias, incluidas las operaciones aritméticas (`*`,`/`,`**`...) y condicionales (`>`, `==`)

In [None]:
notas >= 5

In [None]:
notas

Las operaciones de agregación como calcular el `máximo`, la `suma` o la `media` de un `DataFrame`, se aplican a cada columna, y se obtiene un objeto `Series`:

In [None]:
notas.mean()

El método `all` también es una operación de agregación: comprueba si *todos* los valores son `True` o no. Veamos durante qué meses todos los alumnos obtuvieron una nota superior a `5`:

In [None]:
(notas > 5).all()

✅ La mayoría de estas funciones toman un parámetro opcional `axis` que permite especificar a lo largo de qué eje del `DataFrame` desea que se ejecute la operación. El valor por defecto es `axis=0`, lo que significa que la operación se ejecuta en cada columna. Puede establecer `axis=1` para aplicar la operación horizontalmente (en cada fila). Por ejemplo, averigüemos qué alumnos tienen todas las notas superiores a `5`:


In [None]:
(notas > 5).all(axis=1)

El método `any` devuelve `True` si algún valor es True. Veamos quién tiene al menos una nota 10:

In [None]:
(notas == 10).any(axis=1)

Si se suma o resta un objeto `Series` a un `DataFrame` (o se aplica cualquier otra operación binaria), pandas intenta aplicar la operación a todas las *filas* del `DataFrame`. Esto sólo funciona si la `Serie` tiene el mismo tamaño que las filas del `DataFrame`. Por ejemplo, vamos a restar la media del `DataFrame` (un objeto `Series`) al `DataFrame`:

In [None]:
notas - notas.mean()  # notas - [7.75, 8.75, 7.50]

Restamos `7,75` a todas las notas de septiembre, `8,75` a las de octubre y `7,50` a las de noviembre.

## Manejo de datos faltantes
Tratar con datos faltantes es una tarea frecuente cuando se trabaja con datos reales. Pandas ofrece algunas herramientas para manejar estos datos.

Intentemos solucionar el problema anterior. Por ejemplo, podemos decidir que los datos que falten den como resultado un cero, en lugar de `NaN`. Podemos sustituir todos los valores `NaN` por cualquier valor utilizando el método `fillna()`:

In [None]:
notas

In [None]:
arreglo_bonus = np.array([[0, np.nan, 2], [np.nan, 1, 0], [0, 1, 0], [3, 3, 0]])
bonus = pd.DataFrame(arreglo_bonus, columns=["oct", "nov", "dec"], index=["bob", "colin", "darwin", "charles"])
bonus

In [None]:
notas + bonus

In [None]:
(notas + bonus).fillna(0)

Sin embargo, es un poco injusto que pongamos las notas a cero en septiembre. Quizá deberíamos decidir que las notas que faltan son notas faltantes, pero los puntos extra que faltan deberían sustituirse por ceros:

In [None]:
puntos_bonus = bonus.fillna(0)
puntos_bonus.insert(0, "sep", 0)
puntos_bonus

In [None]:
notas

In [None]:
puntos_bonus.loc["alice"] = 0
notas + puntos_bonus

Eso está mucho mejor: aunque inventamos algunos datos, no fuimos injustos.

## Concatenación de `DataFrames`

In [None]:
ciudades = pd.DataFrame(
    [
        ["CA", "San Francisco", 37.781334, -122.416728],
        ["NY", "New York", 40.705649, -74.008344],
        ["FL", "Miami", 25.791100, -80.320733],
        ["OH", "Cleveland", 41.473508, -81.739791],
        ["UT", "Salt Lake City", 40.755851, -111.896657]
    ], columns=["estado", "ciudad", "lat", "lng"])
ciudades

In [None]:
ciudades_2 = pd.DataFrame(
    [
        [808976, "San Francisco", "California"],
        [8363710, "New York", "New-York"],
        [413201, "Miami", "Florida"],
        [2242193, "Houston", "Texas"]
    ], index=[3,4,5,6], columns=["poblacion", "ciudad", "estado"])
ciudades_2

In [None]:
ciudades_concat = pd.concat([ciudades, ciudades_2])
ciudades_concat

Observe que esta operación alinea los datos horizontalmente (por columnas) pero no verticalmente (por filas). En este ejemplo, acabamos con varias filas que tienen el mismo índice (por ejemplo, 3).

In [None]:
ciudades_concat.loc[3]

O podemos decirle a pandas que ignore el índice:

In [None]:
pd.concat([ciudades, ciudades_2], ignore_index=True)

Observe que cuando una columna no existe en un `DataFrame`, es como si estuviera lleno de valores `NaN`. Si establecemos `join="inner"`, sólo se devolverán las columnas que existan en ambos `DataFrame`:

In [None]:
pd.concat([ciudades, ciudades_2], join="inner")

Se pueden concatenar `DataFrame`s horizontalmente en lugar de verticalmente estableciendo `axis=1`:

In [None]:
pd.concat([ciudades, ciudades_2], axis=1)

En este caso no tiene mucho sentido porque los índices no se alinean bien (por ejemplo, Cleveland y San Francisco acaban en la misma fila, porque compartían la etiqueta de índice `3`). Así que vamos a reindexar el `DataFrame` por nombre de ciudad antes de concatenar:

In [None]:
ciudades.set_index("ciudad")

In [None]:
pd.concat([ciudades.set_index("ciudad"), ciudades_2.set_index("ciudad")], axis=1)

## Guardar y cargar dataframes

In [None]:
import sys
if 'google.colab' in sys.modules:
    from google.colab import drive
    drive.mount('/content/drive')
    %cd '/content/drive/MyDrive/Inteligencia Artificial/IA - Clases de Práctica/ContenidosPorTemas'
    print('google.colab')

podemos guardarlo en CSV, HTML y JSON:

In [None]:
ciudades.to_csv("./1_datos/ciudades.csv")
ciudades.to_html("./1_datos/ciudades.html")
ciudades.to_json("./1_datos/ciudades.json")

Para cagarlo desde un csv

In [None]:
df = pd.read_csv("./1_datos/ciudades.csv", index_col=0)
df