<img src="../files/misc/logo.png" width=300/>
<h1 style="color:#872325"> Pandas </h1>

![pandas-logo](http://pandas.pydata.org/_static/pandas_logo.png)

In [1]:
import pandas as pd
import numpy as np

Pandas tiene dos estructuras principales para trabajar con la información: `pandas.Series` y `pandas.DataFrame`.

* Un `pandas.Series` es un arreglo matricial con $n$ elementos del mismo tipo, por otro lado,
* un `pandas.DataFrame` es una colección de $m$ `pandas.Series` no necesariamente del mismo tipo, pero sí con el mismo número $n$ de elementos.

## ¿Cómo crear un Series y un DataFrame desde Python?
### Pandas Series

In [2]:
# Creando un Series
some_data = [i ** i for i in range(5)]
pd.Series(some_data)

0      1
1      1
2      4
3     27
4    256
dtype: int64

In [3]:
# Creando un Series y agregando información sobre los datos a trabajar
some_data = [i ** i for i in range(5)]
pd.Series(some_data, name="x_to_x")

0      1
1      1
2      4
3     27
4    256
Name: x_to_x, dtype: int64

In [4]:
# Creando un Series y agregando información sobre cada índice y el nombre
# de los datos a trabajar
ages = [21, 23, 30, 19, 3]
names = ["John", "Timmy", "Kenny", "Isaac", "Yann"]
ages = pd.Series(ages, index=names, name="people")
ages

John     21
Timmy    23
Kenny    30
Isaac    19
Yann      3
Name: people, dtype: int64

Al igual que un numpy array, un `Series` contiene información sobre

* El número de dimensiones para un Series (siempre 1)
* El tamaño de cada dimensión (`shape`)
* La clase de objeto que contiene el numpy array

In [5]:
ages.ndim

1

In [6]:
ages.shape

(5,)

In [7]:
ages.dtype

dtype('int64')

Adicional a estas propiedades, un `Series` contiene el **nombre** de la serie y los **valores** sobres los cuáles se le puede indexar.

In [8]:
# Nombre de la serie
ages.name

'people'

In [9]:
# Valores a indexar de la serie
ages.index

Index(['John', 'Timmy', 'Kenny', 'Isaac', 'Yann'], dtype='object')

Al ser un `Series` un objeto vectorizable, podemos aplicar operaciones de manera vectorial

In [10]:
ages / 2

John     10.5
Timmy    11.5
Kenny    15.0
Isaac     9.5
Yann      1.5
Name: people, dtype: float64

In [11]:
np.sqrt(ages)

John     4.582576
Timmy    4.795832
Kenny    5.477226
Isaac    4.358899
Yann     1.732051
Name: people, dtype: float64

In [12]:
np.maximum(ages, 20)

John     21
Timmy    23
Kenny    30
Isaac    20
Yann     20
Name: people, dtype: int64

In [13]:
ages > 10

John      True
Timmy     True
Kenny     True
Isaac     True
Yann     False
Name: people, dtype: bool

### Pandas DataFrame
Como se mencionó anteriormente, un pandas `DataFrame` es una colección de $m$ pandas `Series`

In [14]:
names = ["John", "Timmy", "Kenny", "Yann", "Isaac"]
ages_list = [21, 23, 23, 19, 3]
colors_list = ["teal", "black", "crimson", "yellow", "white"]
amount_list = [10_000, 100_000, 23_000, 5_000, 11_000]

personas = pd.DataFrame({"ages": ages_list,
                         "colors": colors_list,
                         "bank": amount_list}, index=names)
personas

Unnamed: 0,ages,colors,bank
John,21,teal,10000
Timmy,23,black,100000
Kenny,23,crimson,23000
Yann,19,yellow,5000
Isaac,3,white,11000


# Cargando Información

En la mayoría de la ocasiones cargamos información desde un archivo o base de datos. Pandas cuenta con diversas funciones para cargar información:

```
pd.read_clipboard
pd.read_csv
pd.read_excel
pd.read_feather
pd.read_fwf
pd.read_gbq
pd.read_hdf
pd.read_html
pd.read_json
pd.read_msgpack
pd.read_parquet
pd.read_pickle
pd.read_sas
pd.read_spss
pd.read_sql
pd.read_sql_query
pd.read_sql_table
pd.read_stata
pd.read_table
```

En el resto de esta sección trabajaremos con datos existentes en archivos y bases de datos.

In [20]:
from sqlalchemy import create_engine
engstr = f"mysql+pymysql://nabla123:{passw}@db4free.net:3306/nabla_python"
engine = create_engine(engstr)
conn = engine.connect()

In [21]:
query = "SELECT * FROM customers"
customers = pd.read_sql(query, conn, index_col="customerNumber")

## Métodos Básicos

In [22]:
# Observamos los primeros 5 valores
customers.head()

Unnamed: 0_level_0,customerName,contactLastName,contactFirstName,phone,addressLine1,addressLine2,city,state,postalCode,country,salesRepEmployeeNumber,creditLimit
customerNumber,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
103,Atelier graphique,Schmitt,Carine,40.32.2555,"54, rue Royale",,Nantes,,44000,France,1370.0,21000.0
112,Signal Gift Stores,King,Jean,7025551838,8489 Strong St.,,Las Vegas,NV,83030,USA,1166.0,71800.0
114,"Australian Collectors, Co.",Ferguson,Peter,03 9520 4555,636 St Kilda Road,Level 3,Melbourne,Victoria,3004,Australia,1611.0,117300.0
119,La Rochelle Gifts,Labrune,Janine,40.67.8555,"67, rue des Cinquante Otages",,Nantes,,44000,France,1370.0,118200.0
121,Baane Mini Imports,Bergulfsen,Jonas,07-98 9555,Erling Skakkes gate 78,,Stavern,,4110,Norway,1504.0,81700.0


In [23]:
# Observamos los últimos 5 valores
customers.tail()

Unnamed: 0_level_0,customerName,contactLastName,contactFirstName,phone,addressLine1,addressLine2,city,state,postalCode,country,salesRepEmployeeNumber,creditLimit
customerNumber,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
486,Motor Mint Distributors Inc.,Salazar,Rosa,2155559857,11328 Douglas Av.,,Philadelphia,PA,71270,USA,1323.0,72600.0
487,Signal Collectibles Ltd.,Taylor,Sue,4155554312,2793 Furth Circle,,Brisbane,CA,94217,USA,1165.0,60300.0
489,"Double Decker Gift Stores, Ltd",Smith,Thomas,(171) 555-7555,120 Hanover Sq.,,London,,WA1 1DP,UK,1501.0,43300.0
495,Diecast Collectables,Franco,Valarie,6175552555,6251 Ingle Ln.,,Boston,MA,51003,USA,1188.0,85100.0
496,Kelly's Gift Shop,Snowden,Tony,+64 9 5555500,Arenales 1938 3'A',,Auckland,,,New Zealand,1612.0,110000.0


In [24]:
# Estadísticos básicos
customers.describe()

Unnamed: 0,salesRepEmployeeNumber,creditLimit
count,100.0,122.0
mean,1395.94,67659.016393
std,165.67193,45043.370751
min,1165.0,0.0
25%,1286.0,42175.0
50%,1370.0,76700.0
75%,1504.0,95075.0
max,1702.0,227600.0


In [25]:
# .assign regresa una copia del dataframe con una nueva columa
# de la transformación de una o más columnas
def full_name(df):
    full_name = df['contactFirstName'].str.strip()
    full_name = full_name + df['contactLastName']
    return full_name
customers.assign(contact_full_name=full_name)

Unnamed: 0_level_0,customerName,contactLastName,contactFirstName,phone,addressLine1,addressLine2,city,state,postalCode,country,salesRepEmployeeNumber,creditLimit,contact_full_name
customerNumber,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
103,Atelier graphique,Schmitt,Carine,40.32.2555,"54, rue Royale",,Nantes,,44000,France,1370.0,21000.0,CarineSchmitt
112,Signal Gift Stores,King,Jean,7025551838,8489 Strong St.,,Las Vegas,NV,83030,USA,1166.0,71800.0,JeanKing
114,"Australian Collectors, Co.",Ferguson,Peter,03 9520 4555,636 St Kilda Road,Level 3,Melbourne,Victoria,3004,Australia,1611.0,117300.0,PeterFerguson
119,La Rochelle Gifts,Labrune,Janine,40.67.8555,"67, rue des Cinquante Otages",,Nantes,,44000,France,1370.0,118200.0,JanineLabrune
121,Baane Mini Imports,Bergulfsen,Jonas,07-98 9555,Erling Skakkes gate 78,,Stavern,,4110,Norway,1504.0,81700.0,JonasBergulfsen
...,...,...,...,...,...,...,...,...,...,...,...,...,...
486,Motor Mint Distributors Inc.,Salazar,Rosa,2155559857,11328 Douglas Av.,,Philadelphia,PA,71270,USA,1323.0,72600.0,RosaSalazar
487,Signal Collectibles Ltd.,Taylor,Sue,4155554312,2793 Furth Circle,,Brisbane,CA,94217,USA,1165.0,60300.0,SueTaylor
489,"Double Decker Gift Stores, Ltd",Smith,Thomas,(171) 555-7555,120 Hanover Sq.,,London,,WA1 1DP,UK,1501.0,43300.0,ThomasSmith
495,Diecast Collectables,Franco,Valarie,6175552555,6251 Ingle Ln.,,Boston,MA,51003,USA,1188.0,85100.0,ValarieFranco


## Indexando

### Indexando una columna
Al igual que con los objetos básicos de Python (`lists`, `tuples`, `dict`, ...), usamos corchetes (`[]`) para indexar un valor.

* En el caso de un DataFrame, la selección se hace sobre las columas
* En el caso de un Series, la selección se hace sobre los índices

In [26]:
# Accediendo a la columna 'city'
customers["city"]

customerNumber
103          Nantes
112       Las Vegas
114       Melbourne
119          Nantes
121         Stavern
           ...     
486    Philadelphia
487        Brisbane
489          London
495          Boston
496      Auckland  
Name: city, Length: 122, dtype: object

In [27]:
# Accediendo a la columna 'city' (De DataFrame a Series)
#    accedemos posteriormente al índice 486
customers["city"][486]

'Philadelphia'

**Nota**: Si la columna a indexar cuenta únicamente con carácteres alfanuméricos y/o guiónes bajos, podemos acceder a la columna de dos manera:

```python
df.nombre_columna
df["nombre_columna"]
```

### Indexando múltiples columnas
Para indexar múltples columnas de un pandas DataFrame, es necesario indexar sobre una lista con el nombre de las columnas a indexar.

```python
    df[["c0", "c1", ..., "cN"]]
```

In [28]:
customers[["contactLastName", "contactFirstName"]].head()

Unnamed: 0_level_0,contactLastName,contactFirstName
customerNumber,Unnamed: 1_level_1,Unnamed: 2_level_1
103,Schmitt,Carine
112,King,Jean
114,Ferguson,Peter
119,Labrune,Janine
121,Bergulfsen,Jonas


### Deseleccionando Columnas

Para obtener una copia de un DataFrame exceptuando una columna, hacemos uso de método `.drop`

```python
    df.drop("ci", axis=1)
```

Si queremos la copia de un DataFrame exceptuando más de una columna, hacemos una llamada al método `.drop` con `labels` igual a una lista de las columnas a deseleccionar.

```python
    df.drop(["ci", "cj"], axis=1)
```



In [29]:
customers.head(2)

Unnamed: 0_level_0,customerName,contactLastName,contactFirstName,phone,addressLine1,addressLine2,city,state,postalCode,country,salesRepEmployeeNumber,creditLimit
customerNumber,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
103,Atelier graphique,Schmitt,Carine,40.32.2555,"54, rue Royale",,Nantes,,44000,France,1370.0,21000.0
112,Signal Gift Stores,King,Jean,7025551838,8489 Strong St.,,Las Vegas,NV,83030,USA,1166.0,71800.0


In [30]:
customers.drop("contactLastName", axis=1).head(2)

Unnamed: 0_level_0,customerName,contactFirstName,phone,addressLine1,addressLine2,city,state,postalCode,country,salesRepEmployeeNumber,creditLimit
customerNumber,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
103,Atelier graphique,Carine,40.32.2555,"54, rue Royale",,Nantes,,44000,France,1370.0,21000.0
112,Signal Gift Stores,Jean,7025551838,8489 Strong St.,,Las Vegas,NV,83030,USA,1166.0,71800.0


In [31]:
customers.drop(["contactLastName", "contactFirstName"], axis=1).head(2)

Unnamed: 0_level_0,customerName,phone,addressLine1,addressLine2,city,state,postalCode,country,salesRepEmployeeNumber,creditLimit
customerNumber,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
103,Atelier graphique,40.32.2555,"54, rue Royale",,Nantes,,44000,France,1370.0,21000.0
112,Signal Gift Stores,7025551838,8489 Strong St.,,Las Vegas,NV,83030,USA,1166.0,71800.0


### Otras Maneras de Indexar

Para indexar un DataFrame sobre sus filas hacemos uso de los operadores `loc` y `iloc`. Estos operadores nos permiten seleccionar un subconjunto de valores tanto de filas como de columnas.

* `loc`: Selección por nombre de los ejes
* `iloc`: Selección por posición de los ejes

In [32]:
# Seleccionamos al cliente con id = 112
customers.loc[112]

customerName              Signal Gift Stores
contactLastName                         King
contactFirstName                        Jean
phone                             7025551838
addressLine1                 8489 Strong St.
addressLine2                            None
city                               Las Vegas
state                                     NV
postalCode                             83030
country                                  USA
salesRepEmployeeNumber                  1166
creditLimit                            71800
Name: 112, dtype: object

In [33]:
# Seleccionamos al cliente dentro de la posición 112 (id = 475)
customers.iloc[112]

customerName              West Coast Collectables Co.
contactLastName                              Thompson
contactFirstName                                Steve
phone                                      3105553722
addressLine1                        3675 Furth Circle
addressLine2                                     None
city                                          Burbank
state                                              CA
postalCode                                      94019
country                                           USA
salesRepEmployeeNumber                           1166
creditLimit                                     55400
Name: 475, dtype: object

### Otros Ejemplos con `loc` y `iloc`

In [34]:
# Seleccionando clientes con id 103 y 112
customers.loc[[103, 112]]

Unnamed: 0_level_0,customerName,contactLastName,contactFirstName,phone,addressLine1,addressLine2,city,state,postalCode,country,salesRepEmployeeNumber,creditLimit
customerNumber,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
103,Atelier graphique,Schmitt,Carine,40.32.2555,"54, rue Royale",,Nantes,,44000,France,1370.0,21000.0
112,Signal Gift Stores,King,Jean,7025551838,8489 Strong St.,,Las Vegas,NV,83030,USA,1166.0,71800.0


In [35]:
# Seleccionando el nombre de los clientes con id 103 y 112;
customers.loc[[103, 112], "contactFirstName"]

customerNumber
103    Carine 
112       Jean
Name: contactFirstName, dtype: object

In [36]:
# Seleccionando el nombre y apellido de clientes con id 103 y 112
# SELECT customerNumber, contactFirstName, contactLastName
# FROM customers
# where customerNumber = 103 or customerNumber = 112;
customers.loc[[103, 112], ["contactFirstName", "contactLastName"]]

Unnamed: 0_level_0,contactFirstName,contactLastName
customerNumber,Unnamed: 1_level_1,Unnamed: 2_level_1
103,Carine,Schmitt
112,Jean,King


### Indexando condicionalmente

In [37]:
customers[customers["creditLimit"] < 21e3].head()

Unnamed: 0_level_0,customerName,contactLastName,contactFirstName,phone,addressLine1,addressLine2,city,state,postalCode,country,salesRepEmployeeNumber,creditLimit
customerNumber,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
125,Havel & Zbyszek Co,Piestrzeniewicz,Zbyszek,(26) 642-7555,ul. Filtrowa 68,,Warszawa,,01-012,Poland,,0.0
168,American Souvenirs Inc,Franco,Keith,2035557845,149 Spinnaker Dr.,Suite 101,New Haven,CT,97823,USA,1286.0,0.0
169,Porto Imports Co.,de Castro,Isabel,(1) 356-5555,Estrada da saúde n. 58,,Lisboa,,1756,Portugal,,0.0
206,"Asian Shopping Network, Co",Walker,Brydey,+612 9411 1555,Suntec Tower Three,8 Temasek,Singapore,,038988,Singapore,,0.0
219,Boards & Toys Co.,Young,Mary,3105552373,4097 Douglas Av.,,Glendale,CA,92561,USA,1166.0,11000.0


In [38]:
customers.loc[customers["creditLimit"] < 21e3, ["country", "city"]].head()

Unnamed: 0_level_0,country,city
customerNumber,Unnamed: 1_level_1,Unnamed: 2_level_1
125,Poland,Warszawa
168,USA,New Haven
169,Portugal,Lisboa
206,Singapore,Singapore
219,USA,Glendale


Usando el método `query`

In [39]:
customers.query("country == 'USA' & state == 'NY'")[["customerName"]]

Unnamed: 0_level_0,customerName
customerNumber,Unnamed: 1_level_1
131,Land of Toys Inc.
151,Muscle Machine Inc
181,Vitachrome Inc.
319,Mini Classics
424,Classic Legends Inc.
456,Microscale Inc.


## Operaciones por agrupación

La agrupación de información es una parte esencial en cualquier proceso de análisis de datos para la visualización de información, creación de reportes y búsqueda de patrones.

In [40]:
query = "SELECT * FROM payments"
payments = pd.read_sql(query, conn, index_col="checkNumber")
payments.head()

Unnamed: 0_level_0,customerNumber,paymentDate,amount
checkNumber,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
HQ336336,103,2004-10-19,6066.78
JM555205,103,2003-06-05,14571.44
OM314933,103,2004-12-18,1676.14
BO864823,112,2004-12-17,14191.12
HQ55022,112,2003-06-06,32641.98


### `Groupby`: split-apply-combine

Una primera manera de hacer un resumen de la información es por medio del método `groupby`. La manera más sencilla de usar `groupby` es seleccionando el nombre de la columna sobre la cuál se hará la agrupación

In [41]:
# Split: Seleccionamos la columa sobre la cuál
#        estaremos agrupando información.
payments.groupby("customerNumber")

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x11e68bd10>

Al hacer un `groupby`, pandas se prepara para realizar la agrupación de información, mas no la hace hasta aplicar la operación.

* count
* sum
* mean
* median
* min
* max
* var
* std
* prod

In [42]:
payments.groupby("customerNumber").mean()

Unnamed: 0_level_0,amount
customerNumber,Unnamed: 1_level_1
103,7438.120000
112,26726.993333
114,45146.267500
119,38983.226667
121,26056.197500
...,...
486,25908.863333
487,21285.185000
489,14793.075000
495,32770.870000


### Agrupando múltiples operaciones (`.agg`)

In [43]:
from datetime import datetime
def years(dates, fmt="%Y/%m/%d"):
    return list(dates.values.astype("datetime64[Y]"))

payments.groupby("customerNumber").agg({"amount": ["mean", "std"],
                                        "paymentDate": years})

Unnamed: 0_level_0,amount,amount,paymentDate
Unnamed: 0_level_1,mean,std,years
customerNumber,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
103,7438.120000,6556.113221,"[2004, 2003, 2004]"
112,26726.993333,10862.120597,"[2004, 2003, 2004]"
114,45146.267500,30498.326741,"[2003, 2004, 2003, 2004]"
119,38983.226667,16890.337130,"[2004, 2004, 2005]"
121,26056.197500,21038.290490,"[2003, 2003, 2004, 2004]"
...,...,...,...
486,25908.863333,20047.452259,"[2004, 2004, 2003]"
487,21285.185000,12320.494205,"[2003, 2004]"
489,14793.075000,10582.072184,"[2003, 2004]"
495,32770.870000,37468.555959,"[2003, 2004]"


Groupby nos permite agrupar por más de una columna. En este caso, el resultado es un `MultiIndex` pandas DataFrame.

In [44]:
customers.groupby(["salesRepEmployeeNumber", "country"]).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,creditLimit
salesRepEmployeeNumber,country,Unnamed: 2_level_1
1165.0,USA,100433.333333
1166.0,USA,65266.666667
1188.0,USA,73916.666667
1216.0,USA,81533.333333
1286.0,Canada,48700.0
1286.0,USA,69600.0
1323.0,Canada,89950.0
1323.0,USA,77866.666667
1337.0,France,86233.333333
1370.0,France,69150.0


### Tablas Dinámicas

Otra manera de agrupar información es por medio de un tabla dinámica (*pivot table*). Una tabla dinámica hace un resumen de la información tomando en cuenta columnas, índices y valores a agrupar

In [64]:
(payments.assign(year=lambda v: v["paymentDate"].astype("datetime64[Y]"))
         .pivot_table(index="customerNumber", columns="year"))

Unnamed: 0_level_0,amount,amount,amount
year,2003-01-01,2004-01-01,2005-01-01
customerNumber,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
103,14571.440,3871.460,
112,32641.980,23769.500,
114,26714.555,63577.980,
119,,33713.005,49523.67
121,25855.165,26257.230,
...,...,...,...
486,25833.140,25946.725,
487,29997.090,12573.280,
489,22275.730,7310.420,
495,59265.140,6276.600,


## Agrupando DataFrames: join y merge

En ocasiones en las que sea necesario agrupar dos DataFrames, pandas ofrece dos alternativas para relacionar los dataframes: `merge` y `join`. Su uso es muy similar a un `join` en SQL.

`merge` y `join` unen columnas con otros DataFrames.

In [80]:
df1 = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3', 'K4', 'K5'],
                   'A': ['A0', 'A1', 'A2', 'A3', 'A4', 'A5']})

df2 = pd.DataFrame({'key': ['K0', 'K1', 'K2'],
                      'B': ['B0', 'B1', 'B2']})

# Pandas para series de tiempo

In [45]:
walmex = pd.read_csv("../files/lec02/walmex_price.csv")
walmex.head()

Unnamed: 0,date,PX_HIGH,PX_LAST,PX_LOW,PX_MID,PX_OPEN
0,2000-01-03,5.14,4.9,4.75,4.89,4.78
1,2000-01-04,4.83,4.82,4.73,4.83,4.8
2,2000-01-05,5.25,5.21,4.7,5.3,4.8
3,2000-01-06,5.34,5.18,5.13,5.18,5.24
4,2000-01-07,5.63,5.51,5.19,5.69,5.19


In [41]:
# Seleccionamos la columna perteneciente al índice
walmex = pd.read_csv("../files/lec02/walmex_price.csv", index_col=0)
walmex.head()

Unnamed: 0_level_0,PX_HIGH,PX_LAST,PX_LOW,PX_MID,PX_OPEN
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2000-01-03,5.14,4.9,4.75,4.89,4.78
2000-01-04,4.83,4.82,4.73,4.83,4.8
2000-01-05,5.25,5.21,4.7,5.3,4.8
2000-01-06,5.34,5.18,5.13,5.18,5.24
2000-01-07,5.63,5.51,5.19,5.69,5.19


### Seleccionando Columnas

Seleccionamos una columna de un DataFrame indexándolo por el nombre de la columna

In [8]:
walmex["PX_MID"]

date
2000-01-03     4.89
2000-01-04     4.83
2000-01-05     5.30
2000-01-06     5.18
2000-01-07     5.69
              ...  
2019-09-20    54.97
2019-09-23    55.24
2019-09-24    55.17
2019-09-25    55.72
2019-09-26    57.05
Name: PX_MID, Length: 4969, dtype: float64

Si el nombre de la columna contiene únicamente carácteres alfanuméricos y/o guiones bajos, podemos acceder al nombre de la columna de la siguiente manera:

```python
df.nombre_columna
```

In [9]:
walmex.PX_MID

date
2000-01-03     4.89
2000-01-04     4.83
2000-01-05     5.30
2000-01-06     5.18
2000-01-07     5.69
              ...  
2019-09-20    54.97
2019-09-23    55.24
2019-09-24    55.17
2019-09-25    55.72
2019-09-26    57.05
Name: PX_MID, Length: 4969, dtype: float64

El resultado de seleccionar una única columna de un pandas DataFrame es un `pandas.Series`

In [29]:
type(walmex["PX_MID"])

pandas.core.series.Series

De igual manera podemos seleccionar un subconjunto de columnas indexando sobre una **lista** de nombres de columnas. En este caso, el resultado es un `pandas.DataFrame`

In [10]:
walmex[["PX_OPEN", "PX_LAST"]].head()

Unnamed: 0_level_0,PX_OPEN,PX_LAST
date,Unnamed: 1_level_1,Unnamed: 2_level_1
2000-01-03,4.78,4.9
2000-01-04,4.8,4.82
2000-01-05,4.8,5.21
2000-01-06,5.24,5.18
2000-01-07,5.19,5.51


Adicionalmente, si contamos con un dataframe del cual no queremos considerar una o más columnas, podemos hacer uso del método `.drop` con parámetro `axis=1`

In [11]:
walmex.drop("PX_MID", axis=1)

Unnamed: 0_level_0,PX_HIGH,PX_LAST,PX_LOW,PX_OPEN
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2000-01-03,5.14,4.90,4.75,4.78
2000-01-04,4.83,4.82,4.73,4.80
2000-01-05,5.25,5.21,4.70,4.80
2000-01-06,5.34,5.18,5.13,5.24
2000-01-07,5.63,5.51,5.19,5.19
...,...,...,...,...
2019-09-20,55.62,55.01,54.74,55.32
2019-09-23,55.48,55.16,54.92,55.09
2019-09-24,55.73,55.19,55.10,55.23
2019-09-25,55.89,55.70,54.21,55.02


In [46]:
walmex

Unnamed: 0,date,PX_HIGH,PX_LAST,PX_LOW,PX_MID,PX_OPEN
0,2000-01-03,5.14,4.90,4.75,4.89,4.78
1,2000-01-04,4.83,4.82,4.73,4.83,4.80
2,2000-01-05,5.25,5.21,4.70,5.30,4.80
3,2000-01-06,5.34,5.18,5.13,5.18,5.24
4,2000-01-07,5.63,5.51,5.19,5.69,5.19
...,...,...,...,...,...,...
4964,2019-09-20,55.62,55.01,54.74,54.97,55.32
4965,2019-09-23,55.48,55.16,54.92,55.24,55.09
4966,2019-09-24,55.73,55.19,55.10,55.17,55.23
4967,2019-09-25,55.89,55.70,54.21,55.72,55.02


<h1 style="color:crimson">Ejercicios</h1>

1. Considerando el DataFrame `payments`, calcula el valor promedio de la columna `amount` agrupado por `customerNumber` y el año de la compra. **hint:** Considera crear una nueva columna con los años.
1. Considerando el DataFrame walmex definido anteriormente, crea un nuevo DataFrame que no considere las columnas `PX_OPEN` y `PX_LAST`

## Referencias

1. McKinney, Wes. [Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython](https://www.oreilly.com/library/view/python-for-data/9781491957653/). O'Reilly Media, Inc., 2018.
2. http://pandas.pydata.org/pandas-docs/stable/