Traducción libre de la sección 2.1 de la [guía de usuarios de pandas](https://pandas.pydata.org/pandas-docs/stable/user_guide/10min.html) (Versión PDF [Acá](https://pandas.pydata.org/pandas-docs/stable/pandas.pdf)).

# Pandas en 10 min

Esta es una breve introducción a pandas, dirigida principalmente a nuevos usuarios. Puede ver recetas más complejas en el [Cookbook](https://pandas.pydata.org/pandas-docs/stable/user_guide/cookbook.html#cookbook).

Habitualmente, importamos de la siguiente manera:

In [1]:
import pandas as pd
import numpy as np

## 1. Creación de Objetos

Consulte la sección [Introducción a las estructuras de datos](https://pandas.pydata.org/pandas-docs/stable/user_guide/dsintro.html#dsintro).

### Creando una serie pasando una lista de valores, permitiendo que pandas cree un índice entero predeterminado:

In [27]:
s = pd.Series([1,3, 5, np.nan, 6,8])
s

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

### Crear un DataFrame pasando una matriz NumPy, con un índice de fecha y hora y columnas etiquetadas:

In [3]:
dates = pd.date_range("20130101", periods=6)
dates

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')

In [4]:
df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list("ABCD"))
df

Unnamed: 0,A,B,C,D
2013-01-01,-1.126996,-0.111826,-0.448395,0.814763
2013-01-02,-0.801506,-0.552669,-0.289312,-0.37725
2013-01-03,1.070317,-0.547075,-0.353546,-2.19782
2013-01-04,0.70815,0.552237,-0.850835,0.216003
2013-01-05,0.737541,1.071212,-0.120565,-0.592298
2013-01-06,-1.984944,0.822686,0.441561,-0.359806


### Crear un DataFrame pasando un diccionario de objetos que se pueden convertir en una estructura similar a una serie:

In [5]:
df2 = pd.DataFrame(
    {
        "A": 1.0,
        "B": pd.Timestamp("20130102"),
        "C": pd.Series(1, index=list(range(4)), dtype="float32"),
        "D": np.array([3]*4, dtype="int32"),
        "E": pd.Categorical(["test", "train", "test", "train"]),
        "F": "foo",
    }
)
df2

Unnamed: 0,A,B,C,D,E,F
0,1.0,2013-01-02,1.0,3,test,foo
1,1.0,2013-01-02,1.0,3,train,foo
2,1.0,2013-01-02,1.0,3,test,foo
3,1.0,2013-01-02,1.0,3,train,foo


*Observaciones*

Las columnas del DataFrame resultante tienen diferentes dtypes:

In [6]:
df2.dtypes

A           float64
B    datetime64[ns]
C           float32
D             int32
E          category
F            object
dtype: object

*Observaciones*

Si está utilizando IPython, la finalización de pestañas para los nombres de las columnas (así como los atributos públicos) se habilita automáticamente. Aquí hay un subconjunto de los atributos que se completarán:

In [31]:
#df2.<TAB>
[
    method_name
    for method_name in dir(df2)
    if not method_name.startswith("_")
]

['A',
 'B',
 'C',
 'D',
 'E',
 'F',
 'T',
 'abs',
 'add',
 'add_prefix',
 'add_suffix',
 'agg',
 'aggregate',
 'align',
 'all',
 'any',
 'append',
 'apply',
 'applymap',
 'asfreq',
 'asof',
 'assign',
 'astype',
 'at',
 'at_time',
 'attrs',
 'axes',
 'backfill',
 'between_time',
 'bfill',
 'bool',
 'boxplot',
 'clip',
 'columns',
 'combine',
 'combine_first',
 'compare',
 'convert_dtypes',
 'copy',
 'corr',
 'corrwith',
 'count',
 'cov',
 'cummax',
 'cummin',
 'cumprod',
 'cumsum',
 'describe',
 'diff',
 'div',
 'divide',
 'dot',
 'drop',
 'drop_duplicates',
 'droplevel',
 'dropna',
 'dtypes',
 'duplicated',
 'empty',
 'eq',
 'equals',
 'eval',
 'ewm',
 'expanding',
 'explode',
 'ffill',
 'fillna',
 'filter',
 'first',
 'first_valid_index',
 'flags',
 'floordiv',
 'from_dict',
 'from_records',
 'ge',
 'get',
 'groupby',
 'gt',
 'head',
 'hist',
 'iat',
 'idxmax',
 'idxmin',
 'iloc',
 'index',
 'infer_objects',
 'info',
 'insert',
 'interpolate',
 'isin',
 'isna',
 'isnull',
 'items',
 

*Observaciones*

Como puede ver, las columnas A, B, C y D se completan automáticamente con tabulaciones. E y F también están ahí; el resto de los atributos se han truncado por brevedad.

## 2. Ver datos

Consulte la sección [Conceptos básicos](https://pandas.pydata.org/pandas-docs/stable/user_guide/basics.html#basics).

Aquí se muestra cómo ver las filas superior e inferior del marco:

In [8]:
df.head()

Unnamed: 0,A,B,C,D
2013-01-01,-1.126996,-0.111826,-0.448395,0.814763
2013-01-02,-0.801506,-0.552669,-0.289312,-0.37725
2013-01-03,1.070317,-0.547075,-0.353546,-2.19782
2013-01-04,0.70815,0.552237,-0.850835,0.216003
2013-01-05,0.737541,1.071212,-0.120565,-0.592298


In [9]:
df.tail(3)

Unnamed: 0,A,B,C,D
2013-01-04,0.70815,0.552237,-0.850835,0.216003
2013-01-05,0.737541,1.071212,-0.120565,-0.592298
2013-01-06,-1.984944,0.822686,0.441561,-0.359806


*Observaciones*

Mostrar el índice, columnas:

In [10]:
df.index

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')

In [11]:
df.columns

Index(['A', 'B', 'C', 'D'], dtype='object')

*Observaciones*

DataFrame.to_numpy() proporciona una representación NumPy de los datos subyacentes. Tenga en cuenta que esta puede ser una operación costosa cuando su DataFrame tiene columnas con diferentes tipos de datos, lo que se reduce a una diferencia fundamental entre pandas y NumPy: las matrices NumPy tienen un dtype para toda la matriz, mientras que los DataFrames de pandas tienen un dtype por columna. Cuando llamas a DataFrame.to_numpy(), pandas encontrará el dtype NumPy que puede contener todos los dtypes en el DataFrame. Esto puede terminar siendo un objeto, lo que requiere convertir todos los valores en un objeto de Python.

Para df, nuestro DataFrame de todos los valores de punto flotante, DataFrame.to_numpy() es rápido y no requiere copiar datos:

In [12]:
df.to_numpy()

array([[-1.12699611, -0.11182595, -0.44839532,  0.81476267],
       [-0.8015063 , -0.55266897, -0.28931227, -0.37725003],
       [ 1.07031684, -0.54707467, -0.35354638, -2.1978205 ],
       [ 0.70815041,  0.55223676, -0.85083481,  0.21600302],
       [ 0.7375413 ,  1.07121168, -0.1205655 , -0.5922983 ],
       [-1.98494383,  0.82268553,  0.44156059, -0.35980644]])

> Nota: DataFrame.to_numpy() no incluye las etiquetas de índice o columna en la salida.

`describe()` muestra un resumen estadístico rápido de sus datos:

In [13]:
df.describe()

Unnamed: 0,A,B,C,D
count,6.0,6.0,6.0,6.0
mean,-0.232906,0.205761,-0.270182,-0.416068
std,1.242424,0.706043,0.425487,1.012406
min,-1.984944,-0.552669,-0.850835,-2.19782
25%,-1.045624,-0.438262,-0.424683,-0.538536
50%,-0.046678,0.220205,-0.321429,-0.368528
75%,0.730194,0.755073,-0.162752,0.072051
max,1.070317,1.071212,0.441561,0.814763


*Observaciones*

Transponiendo sus datos:

In [14]:
df.T

Unnamed: 0,2013-01-01,2013-01-02,2013-01-03,2013-01-04,2013-01-05,2013-01-06
A,-1.126996,-0.801506,1.070317,0.70815,0.737541,-1.984944
B,-0.111826,-0.552669,-0.547075,0.552237,1.071212,0.822686
C,-0.448395,-0.289312,-0.353546,-0.850835,-0.120565,0.441561
D,0.814763,-0.37725,-2.19782,0.216003,-0.592298,-0.359806


*Observaciones*

Ordenar por un eje:

In [15]:
df.sort_index(axis=1, ascending=False)

Unnamed: 0,D,C,B,A
2013-01-01,0.814763,-0.448395,-0.111826,-1.126996
2013-01-02,-0.37725,-0.289312,-0.552669,-0.801506
2013-01-03,-2.19782,-0.353546,-0.547075,1.070317
2013-01-04,0.216003,-0.850835,0.552237,0.70815
2013-01-05,-0.592298,-0.120565,1.071212,0.737541
2013-01-06,-0.359806,0.441561,0.822686,-1.984944


*Observaciones*

Clasificación por valores:

In [16]:
df.sort_values(by="B")

Unnamed: 0,A,B,C,D
2013-01-02,-0.801506,-0.552669,-0.289312,-0.37725
2013-01-03,1.070317,-0.547075,-0.353546,-2.19782
2013-01-01,-1.126996,-0.111826,-0.448395,0.814763
2013-01-04,0.70815,0.552237,-0.850835,0.216003
2013-01-06,-1.984944,0.822686,0.441561,-0.359806
2013-01-05,0.737541,1.071212,-0.120565,-0.592298


## 3. Selección

> Nota: Si bien las expresiones estándar de Python/NumPy para seleccionar y configurar son intuitivas y resultan útiles para el trabajo interactivo, para el código de producción, recomendamos los métodos de acceso a datos de pandas optimizados, `.at, .iat, .loc` y `.iloc`.

Consulte la documentación [Indexación y selección de datos](https://pandas.pydata.org/docs/user_guide/indexing.html#indexing) y [MultiIndex / Indexación avanzada](https://pandas.pydata.org/docs/user_guide/advanced.html#advanced).

### Consiguiendo

Seleccionando una sola columna, que produce una Serie, equivalente a `df.A`:

In [18]:
df["A"]

2013-01-01   -1.126996
2013-01-02   -0.801506
2013-01-03    1.070317
2013-01-04    0.708150
2013-01-05    0.737541
2013-01-06   -1.984944
Freq: D, Name: A, dtype: float64

*Observaciones*

Seleccionando a través de `[]`, que corta las filas:

In [19]:
df[0:3]

Unnamed: 0,A,B,C,D
2013-01-01,-1.126996,-0.111826,-0.448395,0.814763
2013-01-02,-0.801506,-0.552669,-0.289312,-0.37725
2013-01-03,1.070317,-0.547075,-0.353546,-2.19782


In [20]:
df["20130102": "20130104"]

Unnamed: 0,A,B,C,D
2013-01-02,-0.801506,-0.552669,-0.289312,-0.37725
2013-01-03,1.070317,-0.547075,-0.353546,-2.19782
2013-01-04,0.70815,0.552237,-0.850835,0.216003


### Selección por etiqueta

Ver más en [Selección por Etiqueta](https://pandas.pydata.org/docs/user_guide/indexing.html#indexing-label).

Para obtener una sección transversal usando una etiqueta:

In [21]:
df.loc[dates[0]]

A   -1.126996
B   -0.111826
C   -0.448395
D    0.814763
Name: 2013-01-01 00:00:00, dtype: float64

*Observaciones*

Seleccionando en un eje múltiple por etiqueta:

In [34]:
df.loc[:, ["A", "B"]]

Unnamed: 0,A,B
2013-01-01,-1.126996,-0.111826
2013-01-02,-0.801506,-0.552669
2013-01-03,1.070317,-0.547075
2013-01-04,0.70815,0.552237
2013-01-05,0.737541,1.071212
2013-01-06,-1.984944,0.822686


*Observaciones*

Mostrando el corte de etiquetas, se incluyen ambos extremos:

In [39]:
df.loc["20130102":"20130104", ["A", "B"]]

Unnamed: 0,A,B
2013-01-02,-0.801506,-0.552669
2013-01-03,1.070317,-0.547075
2013-01-04,0.70815,0.552237


*Observaciones*

Reducción de las dimensiones del objeto devuelto:

In [24]:
df.loc["20130102", ["A","B"]]

A   -0.801506
B   -0.552669
Name: 2013-01-02 00:00:00, dtype: float64

*Observaciones*

Para obtener un valor escalar:

In [25]:
df.loc[dates[0], "A"]

-1.1269961071731638

*Observaciones*

Para obtener acceso rápido a un escalar (equivalente al método anterior):

In [26]:
df.at[dates[0], "A"]

-1.1269961071731638

### Selección por posición

Ver más en [Selección por Posición](https://pandas.pydata.org/docs/user_guide/indexing.html#indexing-integer).

Seleccione a través de la posición de los enteros pasados:

In [44]:
df.iloc[3]

A    0.708150
B    0.552237
C   -0.850835
D    0.216003
Name: 2013-01-04 00:00:00, dtype: float64

*Observaciones*

Por rebanadas enteras, actuando de manera similar a NumPy/Python:

In [45]:
df.iloc[3:5, 0:2]

Unnamed: 0,A,B
2013-01-04,0.70815,0.552237
2013-01-05,0.737541,1.071212


*Observaciones*

Por listas de ubicaciones de posición de enteros, similar al estilo NumPy/Python:

In [47]:
df.iloc[[1,2,4], [0,2]]

Unnamed: 0,A,C
2013-01-02,-0.801506,-0.289312
2013-01-03,1.070317,-0.353546
2013-01-05,0.737541,-0.120565


*Observaciones*

Para cortar filas explícitamente:

In [48]:
df.iloc[1:3, :]

Unnamed: 0,A,B,C,D
2013-01-02,-0.801506,-0.552669,-0.289312,-0.37725
2013-01-03,1.070317,-0.547075,-0.353546,-2.19782


*Observaciones*

Para cortar columnas explícitamente:

In [49]:
df.iloc[:, 1:3]

Unnamed: 0,B,C
2013-01-01,-0.111826,-0.448395
2013-01-02,-0.552669,-0.289312
2013-01-03,-0.547075,-0.353546
2013-01-04,0.552237,-0.850835
2013-01-05,1.071212,-0.120565
2013-01-06,0.822686,0.441561


*Observaciones*

Para obtener un valor explícitamente:

In [59]:
df.iloc[1,1]

-0.5526689738653882

*Observaciones*

Para obtener acceso rápido a un escalar (equivalente al método anterior):

In [58]:
df.iat[1,1]

-0.5526689738653882

### Indexación booleana

### Entorno

## 4. Datos perdidos

## 5. Operations

### Estadísticas

### Aplicar

### Histograma

### Métodos de cadena¶

## 5. Unir

### Concatenar

### Juntar

## 6. Agrupamiento

Por "agrupar por" nos referimos a un proceso que implica uno o más de los siguientes pasos:

* Dividir los datos en grupos según algunos criterios
* Aplicar una función a cada grupo de forma independiente
* Combinar los resultados en una estructura de datos

Consulte la [sección Agrupación](https://pandas.pydata.org/docs/user_guide/groupby.html#groupby).

In [60]:
df = pd.DataFrame(
    {
        "A": ["foo", "bar", "foo", "bar", "foo", "bar", "foo", "foo"],
        "B": ["one", "one", "two", "three", "two", "two", "one", "three"],
        "C": np.random.randn(8),
        "D": np.random.randn(8),
    }
)
df

Unnamed: 0,A,B,C,D
0,foo,one,0.462648,0.568496
1,bar,one,-0.265107,-0.255931
2,foo,two,-1.550757,0.180092
3,bar,three,1.431757,1.039502
4,foo,two,-0.919196,-0.846224
5,bar,two,-0.098885,-0.402824
6,foo,one,0.866595,-0.431908
7,foo,three,-0.848385,0.23725


*Observaciones*

Agrupando y luego aplicando la función `sum()` a los grupos resultantes:

In [65]:
df.groupby("B").sum()

Unnamed: 0_level_0,C,D
B,Unnamed: 1_level_1,Unnamed: 2_level_1
one,1.064135,-0.119344
three,0.583372,1.276752
two,-2.568838,-1.068955


*Observaciones*

La agrupación por múltiples columnas forma un índice jerárquico, y nuevamente podemos aplicar la función `sum()`:

In [62]:
df.groupby(["A", "B"]).sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,C,D
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,-0.265107,-0.255931
bar,three,1.431757,1.039502
bar,two,-0.098885,-0.402824
foo,one,1.329242,0.136587
foo,three,-0.848385,0.23725
foo,two,-2.469953,-0.666132


## 7. Reorganización

### Pila

### Pivot tables

## 8. Time series

## 9. Categóricos

## 10. Graficando

## 11. Entrada/salida de datos

### CSV

### HDF5

### Excel

## 12. Trampas