# 10 Minutos con pandas

Esta es una breve introducción a pandas, dirigida principalmente a nuevos usuarios. Puedes ver recetas más complejas en el [Libro de Recetas](https://pandas.pydata.org/pandas-docs/stable/user_guide/cookbook.html#cookbook).

In [None]:
import numpy as np
import pandas as pd

## Creación de Objetos

Consulta la [sección de Introducción a Estructuras de Datos](https://pandas.pydata.org/pandas-docs/stable/user_guide/dsintro.html#dsintro).

Creando una `Series` pasando una lista de valores, permitiendo que pandas cree un índice entero predeterminado:

In [None]:
s = pd.Series([1, 3, 5, np.nan, 6, 8])
s

Creando un `DataFrame` pasando un arreglo de NumPy, con un índice de fecha y columnas etiquetadas:

In [None]:
dates = pd.date_range("20130101", periods=6)
dates
df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list("ABCD"))
df

Creando un `DataFrame` pasando un diccionario de objetos que se pueden convertir en una estructura similar a una serie:

In [None]:
df2 = pd.DataFrame(
    {
        "A": 1.0,
        "B": pd.Timestamp("20130102"),
        "C": pd.Series(1, index=list(range(4)), dtype="float32"),
        "D": np.array([3] * 4, dtype="int32"),
        "E": pd.Categorical(["test", "train", "test", "train"]),
        "F": "foo",
    }
)
df2

Las columnas del DataFrame resultante tienen diferentes tipos de datos (dtypes).

In [None]:
df2.dtypes

## Visualización de Datos

Consulta la [sección de Conceptos Básicos](https://pandas.pydata.org/pandas-docs/stable/user_guide/basics.html#basics).

Aquí se muestra cómo ver las filas superiores e inferiores del marco de datos:

In [None]:
df.head()

In [None]:
df.tail(3)

Mostrar el índice y las columnas:

In [None]:
df.index

In [None]:
df.columns

`DataFrame.to_numpy()` proporciona una representación en NumPy de los datos subyacentes. Ten en cuenta que esta operación puede ser costosa cuando tu DataFrame tiene columnas con diferentes tipos de datos, lo que conlleva una diferencia fundamental entre pandas y NumPy: **Los arreglos de NumPy tienen un solo tipo de dato (dtype) para todo el arreglo, mientras que los DataFrames de pandas tienen un tipo de dato por columna**.

In [None]:
df.to_numpy()

`describe()` muestra un resumen estadístico rápido de tus datos:

In [None]:
df.describe()

Transponiendo tus datos:

In [None]:
df.T

Ordenando por un eje:

In [None]:
df.sort_index(axis=1, ascending=False)

Ordenando por valores:

In [None]:
df.sort_values(by="B")

## Selección

**Nota:** Aunque las expresiones estándar de Python / NumPy para seleccionar y asignar son intuitivas y útiles para el trabajo interactivo, para el código de producción recomendamos los métodos de acceso a datos optimizados de pandas: `.at`, `.iat`, `.loc` e `.iloc`.

Consulta la documentación sobre indexación [Indexación y Selección de Datos](https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#indexing) y [MultiÍndice / Indexación Avanzada](https://pandas.pydata.org/pandas-docs/stable/user_guide/advanced.html#advanced).

### Obtención (Getting)

Seleccionando una sola columna, lo que produce una `Series`, equivalente a `df.A`:

In [None]:
df["A"]

Seleccionando mediante `[]`, lo que recorta las filas:

In [None]:
df[0:3]

In [None]:
df["20130102":"20130104"]

### Selección por Etiqueta

Consulta más en [Selección por Etiqueta](https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#indexing-label).

Para obtener una sección transversal usando una etiqueta:

In [None]:
df.loc[dates[0]]

Seleccionando en múltiples ejes por etiqueta:

In [None]:
df.loc[:, ["A", "B"]]

Mostrando recorte por etiquetas, ambos extremos están incluidos:

In [None]:
df.loc["20130102":"20130104", ["A", "B"]]

Reducción en las dimensiones del objeto devuelto:

In [None]:
df.loc["20130102", ["A", "B"]]

Para obtener un valor escalar:

In [None]:
df.loc[dates[0], "A"]

Para obtener acceso rápido a un escalar (equivalente al método anterior):

In [None]:
df.at[dates[0], "A"]

### Selección por Posición

Consulta más en [Selección por Posición](https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#indexing-integer).

Selecciona mediante la posición de los enteros pasados:

In [None]:
df.iloc[3]

Mediante recortes de enteros, actuando de forma similar a numpy/python:

In [None]:
df.iloc[3:5, 0:2]

Mediante listas de ubicaciones de posiciones enteras, similar al estilo de numpy/python:

In [None]:
df.iloc[[1, 2, 4], [0, 2]]

Para recortar filas explícitamente:

In [None]:
df.iloc[1:3, :]

Para recortar columnas explícitamente:

In [None]:
df.iloc[:, 1:3]

Para obtener un valor explícitamente:

In [None]:
df.iloc[1, 1]

Para obtener acceso rápido a un escalar (equivalente al método anterior):

In [None]:
df.iat[1, 1]

### Indexación Booleana

Usando los valores de una sola columna para seleccionar datos.

In [None]:
df[df["A"] > 0]

Seleccionando valores de un DataFrame donde se cumple una condición booleana.

In [None]:
df[df > 0]

Usando el método `isin()` para filtrar:

In [None]:
df2 = df.copy()
df2["E"] = ["one", "one", "two", "three", "four", "three"]
df2[df2["E"].isin(["two", "four"])]

### Asignación (Setting)

Asignar una nueva columna alinea automáticamente los datos por los índices.

In [None]:
s1 = pd.Series([1, 2, 3, 4, 5, 6], index=pd.date_range("20130102", periods=6))
s1
df["F"] = s1

Asignando valores por etiqueta:

In [None]:
df.at[dates[0], "A"] = 0

Asignando valores por posición:

In [None]:
df.iat[0, 1] = 0

Asignando mediante un arreglo de NumPy:

In [None]:
df.loc[:, "D"] = np.array([5] * len(df))

El resultado de las operaciones de asignación anteriores:

In [None]:
df

Una operación `where` con asignación.

In [None]:
df2 = df.copy()
df2[df2 > 0] = -df2
df2

## Datos Faltantes

pandas utiliza principalmente el valor `np.nan` para representar datos faltantes. Por defecto, no se incluye en los cálculos. Consulta la [sección de Datos Faltantes](https://pandas.pydata.org/pandas-docs/stable/user_guide/missing_data.html#missing-data).

La reindexación permite cambiar/agregar/eliminar el índice en un eje especificado. Esto devuelve una copia de los datos.

In [None]:
df1 = df.reindex(index=dates[0:4], columns=list(df.columns) + ["E"])
df1.loc[dates[0] : dates[1], "E"] = 1
df1

Para eliminar cualquier fila que tenga datos faltantes.

In [None]:
df1.dropna(how="any")

Llenando datos faltantes.

In [None]:
df1.fillna(value=5)

Para obtener la máscara booleana donde los valores son `nan`.

In [None]:
pd.isna(df1)

## Operaciones

Consulta la [sección Básica sobre Operaciones Binarias](https://pandas.pydata.org/pandas-docs/stable/user_guide/basics.html#basics-binop).

### Estadísticas

Las operaciones en general excluyen los datos faltantes.

Realizando una estadística descriptiva:

In [None]:
df.mean()

Misma operación en el otro eje:

In [None]:
df.mean(axis=1)

Operando con objetos que tienen diferente dimensionalidad y necesitan alineación. Además, pandas realiza transmisión (broadcasting) automáticamente a lo largo de la dimensión especificada.

In [None]:
s = pd.Series([1, 3, 5, np.nan, 6, 8], index=dates).shift(2)
s
df.sub(s, axis="index")

### Aplicación (Apply)

Aplicando funciones a los datos:

In [None]:
df.agg(lambda x: np.mean(x) * 5.6)

In [None]:
df.transform(lambda x: x * 101.2)

### Histogramas

Consulta más en [Histogramas y Discretización](https://pandas.pydata.org/pandas-docs/stable/user_guide/basics.html#basics-discretization).

In [None]:
s = pd.Series(np.random.randint(0, 7, size=10))
s
s.value_counts()

### Métodos de Cadena (String Methods)

Series está equipada con un conjunto de métodos de procesamiento de cadenas en el atributo `str` que facilitan operar en cada elemento del arreglo, como en el fragmento de código a continuación. Ten en cuenta que la coincidencia de patrones en `str` generalmente usa [expresiones regulares](https://docs.python.org/3/library/re.html) por defecto (y en algunos casos siempre las usa). Consulta más en [Métodos Vectorizados de Cadena](https://pandas.pydata.org/pandas-docs/stable/user_guide/text.html#text-string-methods).

In [None]:
s = pd.Series(["A", "B", "C", "Aaba", "Baca", np.nan, "CABA", "dog", "cat"])
s.str.lower()

## Combinar (Merge)

### Concatenar (Concat)

pandas proporciona varias utilidades para combinar fácilmente objetos Series y DataFrame con varios tipos de lógica de conjuntos para los índices y funcionalidad de álgebra relacional en el caso de operaciones de tipo join / merge.

Consulta la [sección de Combinación](https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html#merging).

In [None]:
df = pd.DataFrame(np.random.randn(10, 4))
df
# dividirlo en piezas
pieces = [df[:3], df[3:7], df[7:]]
pd.concat(pieces)

### Unir (Join)

Fusiones estilo SQL. Consulta la [sección de unión estilo base de datos](https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html#merging-join).

In [None]:
left = pd.DataFrame({"key": ["foo", "foo"], "lval": [1, 2]})
right = pd.DataFrame({"key": ["foo", "foo"], "rval": [4, 5]})
left
right
pd.merge(left, right, on="key")

Otro ejemplo que se puede dar es:

In [None]:
left = pd.DataFrame({"key": ["foo", "bar"], "lval": [1, 2]})
right = pd.DataFrame({"key": ["foo", "bar"], "rval": [4, 5]})
left
right
pd.merge(left, right, on="key")

## Agrupamiento (Grouping)

Por "group by" (agrupar por) nos referimos a un proceso que involucra uno o más de los siguientes pasos:

- **Dividir** los datos en grupos basados en algún criterio
- **Aplicar** una función a cada grupo de forma independiente
- **Combinar** los resultados en una estructura de datos

Consulta la [sección de Agrupamiento](https://pandas.pydata.org/pandas-docs/stable/user_guide/groupby.html#groupby).

In [None]:
df = pd.DataFrame(
    {
        "A": ["foo", "bar", "foo", "bar", "foo", "bar", "foo", "foo"],
        "B": ["one", "one", "two", "three", "two", "two", "one", "three"],
        "C": np.random.randn(8),
        "D": np.random.randn(8),
    }
)
df

Agrupando y luego aplicando la función [`sum()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.core.groupby.DataFrameGroupBy.sum.html#pandas.core.groupby.DataFrameGroupBy.sum) a los grupos resultantes.

In [None]:
df.groupby("A")[["C", "D"]].sum()

Agrupar por múltiples columnas forma un índice jerárquico, y nuevamente podemos aplicar la función `sum()`.

In [None]:
df.groupby(["A", "B"]).sum()

## Remodelación (Reshaping)

Consulta las secciones sobre [Indexación Jerárquica](https://pandas.pydata.org/pandas-docs/stable/user_guide/advanced.html#advanced-hierarchical) y [Remodelación](https://pandas.pydata.org/pandas-docs/stable/user_guide/reshaping.html#reshaping-stacking).

### Pila (Stack)

In [None]:
arrays = [
    ["bar", "bar", "baz", "baz", "foo", "foo", "qux", "qux"],
    ["one", "two", "one", "two", "one", "two", "one", "two"],
]
index = pd.MultiIndex.from_arrays(arrays, names=["first", "second"])
df = pd.DataFrame(np.random.randn(8, 2), index=index, columns=["A", "B"])
df2 = df[:4]
df2

El método [`stack()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.stack.html#pandas.DataFrame.stack) "comprime" un nivel en las columnas del DataFrame.

In [None]:
stacked = df2.stack()
stacked

Con un DataFrame o Series "apilado" (teniendo un `MultiIndex` como el `index`), la operación inversa de `stack()` es [`unstack()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.unstack.html#pandas.DataFrame.unstack), que por defecto desapila el **último nivel**:

In [None]:
stacked.unstack()

In [None]:
stacked.unstack(1)

In [None]:
stacked.unstack(0)

### Tablas Dinámicas (Pivot Tables)

Consulta la sección sobre [Tablas Dinámicas](https://pandas.pydata.org/pandas-docs/stable/user_guide/reshaping.html#reshaping-pivot).

In [None]:
df = pd.DataFrame(
    {
        "A": ["one", "one", "two", "three"] * 3,
        "B": ["A", "B", "C"] * 4,
        "C": ["foo", "foo", "foo", "bar", "bar", "bar"] * 2,
        "D": np.random.randn(12),
        "E": np.random.randn(12),
    }
)
df

Podemos producir tablas dinámicas a partir de estos datos muy fácilmente:

In [None]:
pd.pivot_table(df, values="D", index=["A", "B"], columns=["C"])

## Series de Tiempo (Time Series)

pandas tiene una funcionalidad simple, potente y eficiente para realizar operaciones de remuestreo durante la conversión de frecuencia (por ejemplo, convertir datos de segundos a datos de 5 minutos). Esto es extremadamente común en, pero no limitado a, aplicaciones financieras. Consulta la [sección de Series de Tiempo](https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#timeseries).

In [None]:
rng = pd.date_range("1/1/2012", periods=100, freq="S")
ts = pd.Series(np.random.randint(0, 500, len(rng)), index=rng)
ts.resample("5Min").sum()

Representación de zona horaria:

In [None]:
rng = pd.date_range("3/6/2012 00:00", periods=5, freq="D")
ts = pd.Series(np.random.randn(len(rng)), rng)
ts
ts_utc = ts.tz_localize("UTC")
ts_utc

Convirtiendo a otra zona horaria:

In [None]:
ts_utc.tz_convert("US/Eastern")

Convirtiendo entre representaciones de lapso de tiempo:

In [None]:
rng = pd.date_range("1/1/2012", periods=5, freq="M")
ts = pd.Series(np.random.randn(len(rng)), index=rng)
ts
ps = ts.to_period()
ps
ps.to_timestamp()

La conversión entre período y marca de tiempo permite utilizar algunas funciones aritméticas convenientes. En el siguiente ejemplo, convertimos una frecuencia trimestral con año que termina en noviembre a las 9 am del final del mes siguiente al final del trimestre:

In [None]:
prng = pd.period_range("1990Q1", "2000Q4", freq="Q-NOV")
ts = pd.Series(np.random.randn(len(prng)), prng)
ts.index = (prng.asfreq("M", "e") + 1).asfreq("H", "s") + 9
ts.head()

## Categóricos

pandas puede incluir datos categóricos en un DataFrame. Para obtener la documentación completa, consulta la [introducción a categóricos](https://pandas.pydata.org/pandas-docs/stable/user_guide/categorical.html#categorical) y la [documentación de la API](https://pandas.pydata.org/pandas-docs/stable/reference/arrays.html#api-arrays-categorical).

In [None]:
df = pd.DataFrame(
    {"id": [1, 2, 3, 4, 5, 6], "raw_grade": ["a", "b", "b", "a", "a", "e"]}
)

Convertir los grados sin procesar a un tipo de dato categórico.

In [None]:
df["grade"] = df["raw_grade"].astype("category")
df["grade"]

Renombrar las categorías a nombres más significativos (¡asignar a `Series.cat.categories` es in-place!).

In [None]:
df["grade"] = df["grade"].cat.rename_categories(["very good", "good", "very bad"])

Reordenar las categorías y simultáneamente agregar las categorías faltantes (los métodos bajo `Series.cat` devuelven una nueva `Series` por defecto).

In [None]:
df["grade"] = df["grade"].cat.set_categories(
    ["very bad", "bad", "medium", "good", "very good"]
)
df["grade"]

El ordenamiento es por orden en las categorías, no por orden léxico.

In [None]:
df.sort_values(by="grade")

Agrupar por una columna categórica con `observed=False` también muestra categorías vacías.

In [None]:
df.groupby("grade", observed=False).size()

## Gráficas (Plotting)

Consulta la [sección de Gráficas](https://pandas.pydata.org/pandas-docs/stable/user_guide/visualization.html#visualization).

Usamos la convención estándar para hacer referencia a la API de matplotlib:

In [None]:
import matplotlib.pyplot as plt

plt.close("all")

El método `plt.close` se usa para cerrar una ventana de figura.

In [None]:
ts = pd.Series(np.random.randn(1000), index=pd.date_range("1/1/2000", periods=1000))
ts = ts.cumsum()
ts.plot()

En un DataFrame, el método [`plot()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.plot.html#pandas.DataFrame.plot) es una conveniencia para graficar todas las columnas con etiquetas:

In [None]:
df = pd.DataFrame(
    np.random.randn(1000, 4), index=ts.index, columns=["A", "B", "C", "D"]
)
df = df.cumsum()
plt.figure()
df.plot()
plt.legend(loc='best')

## Importación y Exportación de Datos

### CSV

[Escribir en un archivo csv.](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html#io-store-in-csv)

In [None]:
df.to_csv("foo.csv")

[Leer desde un archivo csv.](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html#io-read-csv-table)

In [None]:
pd.read_csv("foo.csv")

### Parquet

Escribir en un archivo Parquet:

In [None]:
df.to_parquet("foo.parquet")

Leer desde un archivo Parquet:

In [None]:
pd.read_parquet("foo.parquet")

### Excel

Leer y escribir en [Excel](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html#io-excel).

Escribir en un archivo de excel:

In [None]:
df.to_excel("foo.xlsx", sheet_name="Sheet1")

Leer desde un archivo de excel:

In [None]:
pd.read_excel("foo.xlsx", "Sheet1", index_col=None, na_values=["NA"])