<a href="https://colab.research.google.com/github/CatoXP/Pandas/blob/main/Introducci%C3%B3n_a_Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Introducción a Pandas

[Pandas](https://pandas.pydata.org/about/index.html) es una librería que proporciona estructuras de datos y herramientas de análisis de datos de alto rendimiento y fáciles de usar.
* La estructura de datos principal es el DataFrame, que puede considerarse como una tabla 2D en memoria (como una hoja de cálculo, con nombres de columna y etiquetas de fila).
* Muchas funciones disponibles en Excel están disponibles mediante programación, como crear tablas dinámicas, calcular columnas basadas en otras columnas, trazar gráficos, etc.
* Proporciona un alto rendimiento para manipular (unir, dividir, modificar…) grandes conjuntos de datos

## Import

In [None]:
import pandas as pd

## Estructuras de datos en Pandas

La librería Pandas, de manera genérica, contiene las siguientes estructuras de datos:
* **Series**: Array de una dimensión
* **DataFrame**: Se corresponde con una tabla de 2 dimensiones
* **Panel**: Similar a un diccionario de DataFrames

## Creación del objeto Series

In [None]:
# Creacion de un objeto Series
s = pd.Series([2, 4, 6, 8, 10])
print(s)

In [None]:
# Creación de un objeto Series inicializándolo con un diccionario de Python
altura = {"Santiago": 187, "Pedro": 178, "Julia": 170, "Ana": 165}
s = pd.Series(altura)
print(s)

In [None]:
# Creación de un objeto Series inicializándolo con algunos
# de los elementos de un diccionario de Python
altura = {"Santiago": 187, "Pedro": 178, "Julia": 170, "Ana": 165}
s = pd.Series(altura, index = ["Pedro", "Julia"])
print(s)

In [None]:
# Creación de un objeto Series inicializandolo con un escalar
s = pd.Series([32,33,34], ["test1", "test2", "test3"])
print(s)

## Acceso a los elementos de un objeto Series

Cada elemento en un objeto Series tiene un identificador único que se denomina **_index label_**.

In [None]:
# Creación de un objeto Series
s = pd.Series([2, 4, 6, 8], index=["num1", "num2", "num3", "num4"])
print(s)

In [None]:
# Accediendo al tercer elemento del objeto
s["num3"]

In [None]:
# Tambien se puede acceder al elemento por posición
s[2]

In [None]:
# loc es la forma estándar de acceder a un elemento de un objeto Series por atributo
s.loc["num3"]

In [None]:
# iloc es la forma estándar de acceder a un elemento de un objeto Series por posición
s.iloc[2]

In [None]:
# Accediendo al segundo y tercer elemento por posición
s.iloc[0:4]

## Operaciones aritméticas con Series

In [None]:
# Creacion de un objeto Series
s = pd.Series([2, 4, 6, 8, 10],index=[1,2,3,4,5])
print(s)

In [None]:
# Los objeto Series son similares y compatibles con los Arrays de Numpy
import numpy as np
# Ufunc de Numpy para sumar los elementos de un Array
np.sum(s)

In [None]:
np.std (s)

In [None]:
np.var(s)

8.0

In [None]:
# El resto de operaciones aritméticas de Numpy sobre Arrays también son posibles
s * 2

## Representación gráfica de un objeto Series

In [None]:
# Creación de un objeto Series denominado Temperaturas
temperaturas = [4.4, 5.1, 6.1, 6.2, 6.1, 6.1, 5.7, 5.2, 4.7, 4.1, 3.9]
s = pd.Series(temperaturas, name="Temperaturas")
s


In [None]:
# Representación gráfica del objeto Series
%matplotlib inline
import matplotlib.pyplot as plt

s.plot()
plt.show()

## Creación de un objeto DataFrame

In [None]:
# Creación de un DataFrame inicializándolo con un diccionario de objetios Series
personas = {
    "peso": pd.Series([84, 90, 56, 64], ["Santiago","Pedro", "Ana", "Julia"]),
    "altura": pd.Series({"Santiago": 187, "Pedro": 178, "Julia": 170, "Ana": 165}),
    "hijos": pd.Series([2, 3], ["Pedro", "Julia"])
}

df = pd.DataFrame(personas)
df

Puede forzarse al DataFrame a que presente unas columnas determinadas y en un orden determinado

In [None]:
# Creación de un DataFrame inicializándolo con algunos elementos de un diccionario
# de objetos Series
personas = {
    "peso": pd.Series([84, 90, 56, 64], ["Santiago","Pedro", "Ana", "Julia"]),
    "altura": pd.Series({"Santiago": 187, "Pedro": 178, "Julia": 170, "Ana": 165}),
    "hijos": pd.Series([2, 3], ["Pedro", "Julia"])
}

df = pd.DataFrame(
        personas,
        columns = ["altura", "peso"],
        index = ["Ana", "Julia", "Santiago"])
df

In [None]:
# Creación de un DataFrame inicializándolo con una lista de listas de Python
# Importante: Deben especificarse las columnas e indices por separado
valores = [
    [185, 4, 76],
    [170, 0, 65],
    [190, 1, 89]
]

df = pd.DataFrame(
        valores,
        columns = ["altura", "hijos", "peso"],
        index = ["Pedro", "Ana", "Juan"])
df

In [None]:
# Creación de un DataFrame inicializándolo con un diccionario de Python
personas = {
    "altura": {"Santiago": 187, "Pedro": 178, "Julia": 170, "Ana": 165},
    "peso": {"Santiago": 87, "Pedro": 78, "Julia": 70, "Ana": 65}}

df = pd.DataFrame(personas)
df

## Acceso a los elementos de un DataFrame

In [None]:
# Creación de un DataFrame inicializándolo con un diccionario de objetios Series
personas = {
    "peso": pd.Series([84, 90, 56, 64], ["Santiago","Pedro", "Ana", "Julia"]),
    "altura": pd.Series({"Santiago": 187, "Pedro": 178, "Julia": 170, "Ana": 165}),
    "hijos": pd.Series([2, 3], ["Pedro", "Julia"])
}

df = pd.DataFrame(personas)
df

In [None]:
df.iloc[1,2]

In [None]:
df.loc['Julia','hijos']

### Acceso a los elementos de las columnas del DataFrame

In [None]:
df["peso"]

In [None]:
df[["peso", "altura"]]

In [None]:
# Pueden combinarse los metodos anteriores con expresiones booleanas
df["peso"] > 80

In [None]:
# Pueden combinarse los metodos anteriores con expresiones booleanas
df[df["peso"] > 80]

### Acceso a los elementos de las filas del DataFrame

In [None]:
# Mostrar el DataFrame
df

In [None]:
df.loc["Pedro"]

In [None]:
df.iloc[2]

In [None]:
df.iloc[1:3]

### Consulta avanzada de los elementos de un DataFrame

In [None]:
# Mostrar el DataFrame
df

In [None]:
df.query("altura >= 170 and peso > 60")

## Copiar un DataFrame

In [None]:
# Creación de un DataFrame inicializándolo con un diccionario de objetios Series
personas = {
    "peso": pd.Series([84, 90, 56, 64], ["Santiago","Pedro", "Ana", "Julia"]),
    "altura": pd.Series({"Santiago": 187, "Pedro": 178, "Julia": 170, "Ana": 165}),
    "hijos": pd.Series([2, 3], ["Pedro", "Julia"])
}

df = pd.DataFrame(personas)
df

In [None]:
# Copia del DataFrame df en df_copy
# Importante: Al modificar un elemento de df_copy no se modifica df
df_copy = df.copy()

## Modificación de un DataFrame

In [None]:
import pandas as pd
# Creación de un DataFrame inicializándolo con un diccionario de objetios Series
personas = {
    "peso": pd.Series([84, 90, 56, 64], ["Santiago","Pedro", "Ana", "Julia"]),
    "altura": pd.Series({"Santiago": 187, "Pedro": 178, "Julia": 170, "Ana": 165}),
    "hijos": pd.Series([2, 3], ["Pedro", "Julia"])
}

df = pd.DataFrame(personas)
df

In [None]:
# Añadir una nueva columna al DataFrame
df["año de nacimiento"] = [1990, 1987, 1980, 1994]
df

In [None]:
# Añadir una nueva columna calculada al DataFrame
df["años"] = 2024 - df["año de nacimiento"]
df

In [None]:
# Añadir una nueva columna creando un DataFrame nuevo
df_mod = df.assign(mascotas = [1, 3, 0, 0])
df_mod

In [None]:
df

In [None]:
# Eliminar una columna existente del DataFrame
del df["peso"]
df

In [None]:
# Eliminar una columna existente devolviendo una copia del DataFrame resultante
df_mod = df.drop(["hijos"], axis=1)
df_mod

In [None]:
df

## Evaluación de expresiones sobre un DataFrame

In [None]:
# Creación de un DataFrame inicializándolo con un diccionario de objetios Series
personas = {
    "peso": pd.Series([84, 90, 56, 64], ["Santiago","Pedro", "Ana", "Julia"]),
    "altura": pd.Series({"Santiago": 187, "Pedro": 178, "Julia": 170, "Ana": 165}),
    "hijos": pd.Series([2, 3], ["Pedro", "Julia"])
}

df = pd.DataFrame(personas)
df

In [None]:
# Evaluar una función sobre una columna del DataFrame
df.eval("altura / 2")

In [None]:
# Asignar el valor resultante como una nueva columna
df.eval("media_altura = altura / 2", inplace=True)
df

In [None]:
# Evaluar una función utilizando una variable local
max_altura = 180
df.eval("altura > @max_altura")

In [None]:
# Aplicar una función externa a una columna del DataFrame
def func(x):
    return x + 2

df["peso"].apply(func)

In [None]:
df

## Guardar y Cargar el DataFrame

In [None]:
# Creación de un DataFrame inicializándolo con un diccionario de objetios Series
personas = {
    "peso": pd.Series([84, 90, 56, 64], ["Santiago","Pedro", "Ana", "Julia"]),
    "altura": pd.Series({"Santiago": 187, "Pedro": 178, "Julia": 170, "Ana": 165}),
    "hijos": pd.Series([2, 3], ["Pedro", "Julia"])
}

df = pd.DataFrame(personas)
df

In [None]:
# Guardar el DataFrame como CSV, HTML y JSON
df.to_csv("df_personas.csv")
#df.to_html("df_personas.html")
#df.to_json("df_personas.json")

In [None]:
# Cargar el DataFrame en Jupyter
df2 = pd.read_csv("df_personas.csv")

In [None]:
df2

In [None]:
# Cargar el DataFrame con la primera columna correctamente asignada
df2 = pd.read_csv("df_personas.csv", index_col=0)
df2