<a href="https://colab.research.google.com/github/jhermosillo/DIPLOMADO_CDP/blob/main/Copia_de_Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Pandas

Pandas es un paquete de Python que provee dos estructuras de datos para el análisis de datos "relacionales" de manera rápida, flexible y expresiva. Pandas está construido sobre Numpy, por lo que muchas de las ventajas de utilizar Numpy se trasladan a Pandas.

Pandas puede ser utilizado para trabajar con diferentes tipos de datos:

* Tabulares, con datos en columnas que comparten un mismo tipo (por ejemplo, tablas de una base de datos y hojas de Excel).
* Series de tiempo.
* Matrices con columnas y filas etiquetadas.
* Datos de experimentos estadísticos en general.


In [1]:
#pd es el alias comun de pandas
import pandas as pd
import numpy as np

# Estructuras

## Series

La primera estructura de datos de Pandas son las [Series](https://pandas.pydata.org/pandas-docs/stable/reference/series.html#series). Una Serie es utilizada para arreglos 1D etiquetados con un mismo tipo de dato en todos sus elementos. Una serie es un arreglo 1D donde cada elemento tiene asignado un índice:


| index   || |
|---||----|
| a || s1 |
| b || s2 |
| c || s3 |
| ... || ... |

In [None]:
#un objeto series desde una lista
s1 = pd.Series(data=[1, 1, 2, 3, 5], index=["a", "b", "c", "d", "e"])
s1

## Dataframe

Los [Dataframes](https://pandas.pydata.org/pandas-docs/stable/reference/frame.html#dataframe) son la segunda estructura en Pandas, éstos son utilizados para datos 2D etiquetados (columnas con nombres generalmente). Las columnas de un Dataframe pueden tener tipos de dato diferentes. Puedes pensar en un Dataframe  como un contenedor de Series, donde cada columna es una Serie (arreglo 1D con etiquetas). Un Dataframe puede representarse como una tabla donde cada fila tiene asignado un índice y cada columna un nombre:

| index\columns  || A  | B  | C  | D  |
|---||----|----|----|----|
| 1 || a1 | b1 | c1 | d1 |
| 2 || a2 | b2 | c2 | d2 |
| 3 || a3 | b3 | c3 | d3 |

In [None]:
#un dataframe aleatorio con numpy random
df = pd.DataFrame(np.random.randn(6, 4), columns=["A", "B", "C", "D"])
df

### Axes

Recuerda que los axes de un Dataframe (una tabla 2D), son los siguientes:

![Numpy/Pandas axes](https://raw.githubusercontent.com/jhermosillo/DIPLOMADO_CDP/main/01%20Programaci%C3%B3n%20en%20Python/images/axes.png)

# Creación y almacenamiento

## Creación desde diccionarios de listas

In [None]:
#Un diccionario de python
dict1 = {'pais': ['Mexico',
'EUA', "Francia"], 'continente': ["America", "America", "Europa"], 'poblacion': [129, 325, 67]}

paises = pd.DataFrame(dict1)
paises

## Creación desde diccionario anidado

In [None]:
#Un diccionario anidado de python
#las claves anidadas especifican el indice de las filas
dict2 = {'pais': {"p1": 'Mexico',
"p2": 'EUA', "p3": "Francia"}, 'continente': {"p1": "America", "p2": "America", "p3": "Europa"}, 'poblacion': {"p1": 129, "p2": 325, "p3": 67}}

paises = pd.DataFrame(dict2)
paises

## Creación desde archivos csv

In [16]:
!ls sample_data/

anscombe.json		      mnist_test.csv
california_housing_test.csv   mnist_train_small.csv
california_housing_train.csv  README.md


In [23]:
#leamos un archivo csv almacenado por colab
cali_housing = pd.read_csv("sample_data/california_housing_test.csv", nrows=10)
cali_housing

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
0,-122.05,37.37,27.0,3885.0,661.0,1537.0,606.0,6.6085,344700.0
1,-118.3,34.26,43.0,1510.0,310.0,809.0,277.0,3.599,176500.0
2,-117.81,33.78,27.0,3589.0,507.0,1484.0,495.0,5.7934,270500.0
3,-118.36,33.82,28.0,67.0,15.0,49.0,11.0,6.1359,330000.0
4,-119.67,36.33,19.0,1241.0,244.0,850.0,237.0,2.9375,81700.0
5,-119.56,36.51,37.0,1018.0,213.0,663.0,204.0,1.6635,67000.0
6,-121.43,38.63,43.0,1009.0,225.0,604.0,218.0,1.6641,67000.0
7,-120.65,35.48,19.0,2310.0,471.0,1341.0,441.0,3.225,166900.0
8,-122.84,38.4,15.0,3080.0,617.0,1446.0,599.0,3.6696,194400.0
9,-118.02,34.08,31.0,2402.0,632.0,2830.0,603.0,2.3333,164200.0


## Creación desde archivos excel

In [18]:
# Cargar un archivo de excel a colab desde github
!apt-get install subversion
!svn checkout "https://github.com/jhermosillo/DIPLOMADO_CDP/trunk/01%20Programaci%C3%B3n%20en%20Python/data/"

Reading package lists... Done
Building dependency tree       
Reading state information... Done
subversion is already the newest version (1.9.7-4ubuntu1).
0 upgraded, 0 newly installed, 0 to remove and 13 not upgraded.
Checked out revision 23.


In [24]:
#cargar el archivo en formato xls a un pandas dataframe
cali_housing = pd.read_excel("data/california_housing_test.xlsx", index_col=0, nrows=10)
cali_housing

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
0,-122.05,37.37,27,3885,661,1537,606,6.6085,344700
1,-118.3,34.26,43,1510,310,809,277,3.599,176500
2,-117.81,33.78,27,3589,507,1484,495,5.7934,270500
3,-118.36,33.82,28,67,15,49,11,6.1359,330000
4,-119.67,36.33,19,1241,244,850,237,2.9375,81700
5,-119.56,36.51,37,1018,213,663,204,1.6635,67000
6,-121.43,38.63,43,1009,225,604,218,1.6641,67000
7,-120.65,35.48,19,2310,471,1341,441,3.225,166900
8,-122.84,38.4,15,3080,617,1446,599,3.6696,194400
9,-118.02,34.08,31,2402,632,2830,603,2.3333,164200


## Persistencia a disco

In [20]:
cali_housing.to_csv("cali_housing.csv")
#o en formato de excel:
cali_housing.to_excel("cali_housing.xlsx")

Ahora se crearon dos archivos en colab

In [21]:
!ls

cali_housing.csv  cali_housing.xlsx  data  sample_data


## Otros formatos

Además de los ya mencionados, Pandas permite leer y escribir en formatos comúnes como:

* JSON
* HTML
* Parquet
* SQL
* BigQuery

Puedes ver la lista completa en la [documentación de Pandas](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html#io-tools-text-csv-hdf5).

# Accediendo a los datos

## info()

El método [```info()```](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.info.html) puede usarse para mostrar la información general del objeto de Pandas, como el índice y los tipos de datos usados.

In [6]:
cali_housing.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 3000 entries, 0 to 2999
Data columns (total 9 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   longitude           3000 non-null   float64
 1   latitude            3000 non-null   float64
 2   housing_median_age  3000 non-null   int64  
 3   total_rooms         3000 non-null   int64  
 4   total_bedrooms      3000 non-null   int64  
 5   population          3000 non-null   int64  
 6   households          3000 non-null   int64  
 7   median_income       3000 non-null   float64
 8   median_house_value  3000 non-null   int64  
dtypes: float64(3), int64(6)
memory usage: 234.4 KB


## head() y tail()

Los métodos [```head()```](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.head.html) y [```tail()```](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.tail.html#pandas.DataFrame.tail) devuelven una pequeña muestra de los primeros o últimos elementos de un objeto Series o Dataframe. Ambas pueden recibir como parámetro el número de elementos que se desean visualizar, por defecto es igual a 5.

In [None]:
cali_housing.head()

In [None]:
cali_housing.tail(3)

## sample()

[```df.sample()```](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sample.html) retorna una muestra aleatoria del objeto.

In [None]:
cali_housing.sample(n=3)

## index

El atributo [```df.index```](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.index.html) regresa el índice del objeto de Pandas.

In [None]:
cali_housing.index

## df.columns

El atributo [```df.columns```](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.columns.html) de un DataFrame devuelve las columnas del mismo.

In [None]:
cali_housing.columns

## df.describe()

El método [```describe()```](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.describe.html) regresa un resúmen estadístico del objeto.

In [None]:
cali_housing.describe()

# Selección - asignación

## Seleccionando columnas

Puedes usar dos notaciones para seleccionar una columna de un DataFrame, cualquiera de éstas devolverá un objeto Series.



```
df.["A"]
```

o



```
df.A
```





In [None]:
#seleccionar la columna devuelve un objeto Series
cali_housing["latitude"]

In [None]:
#usa segunda opcion para seleccionar columnas
cali_housing.latitude

In [None]:
#seleccionando una columna como un dataframe
cali_housing[["latitude"]]

Seleccionando múltiples columnas



```
df[["A", ...]]
```



In [None]:
cali_housing[["longitude", "latitude"]]

## Seleccionando filas con slicing

In [None]:
cali_housing[0:3]

## Selección con etiquetas loc

In [None]:
cali_housing.loc[:, "total_rooms":"households"]

## Selección con enteros iloc

In [None]:
cali_housing.iloc[:, 6:]

## Asignación por rango

In [None]:
#primero agregamos una columna random inicializada a 0
cali_housing["random"] = 0.0
#reasignamos usando np.random
cali_housing.loc[:, "random"] = np.random.randn(cali_housing.shape[0])
cali_housing

## Selección con indexación booleana

In [None]:
cali_housing[cali_housing["population"] > 1000]

## Selección de celdas con at y iat

[```at```](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.at.html) utiliza etiquetas para seleccionar elementos:

In [None]:
cali_housing.at[0, "housing_median_age"]

[```iat```](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.iat.html#pandas.DataFrame.iat) utiliza enteros para seleccionar elementos:

In [None]:
cali_housing.iat[1, 4]

## Asignación elemento

También puedes cambir el contenido de las celdas directamente mediante asignación:

In [None]:
cali_housing.iat[1, 4] = 200.0
cali_housing

## Otros
Otros métodos de selección que podrían ser útiles:

* [```idxmax()```](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.idxmax.html)
* [```idxmin()```](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.idxmin.html#pandas.DataFrame.idxmin)
* [```filter()```](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.filter.html)
* [```take()```](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.take.html)
* [```truncate()```](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.truncate.html)

Puedes ver la lista completa de métodos para la selección, re-indexado y manipulación de etiquetas en la [documentación de Pandas](https://pandas.pydata.org/docs/reference/frame.html#reindexing-selection-label-manipulation).

# Atributos

* [```df.T```](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.T.html)
* [```df.axes```](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.axes.html#pandas.DataFrame.axes)
* [```df.dtypes```](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.dtypes.html#pandas.DataFrame.dtypes)
* [```df.shape```](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.shape.html#pandas.DataFrame.shape)
* [```df.size```](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.size.html#pandas.DataFrame.size)
* [```df.values```](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.values.html#pandas.DataFrame.values)

## df.T

La transpuesta de df (filas y columnas intercambiadas):

In [None]:
#Los indices pasan a ser los nombres de las columnas, las columnas a indices
cali_housing.T

## df.axes

Retorna información sobre los axes que componen al objeto:


In [None]:
cali_housing.axes

## df.dtypes

Retorna los tipos de datos utilizados por el objeto:

In [None]:
cali_housing.dtypes

## df.shape

La forma del objeto (número de filas y columnas en un DataFrame):

In [None]:
cali_housing.shape

## df.size

El número de elementos en el objeto (número de celdas en un DataFrame):

In [None]:
cali_housing.size

## df.values

Retorna el objeto de Pandas como un arreglo de Numpy:

In [None]:
df.values

# Eliminación


## Remover filas o columnas con df.drop()

El método [```drop()```](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.drop.html) permite eliminar filas o columnas al especificar el axis correspondiente, puedes eliminar más de una usando una lista como parámetro:

In [None]:
#primero agregamos dos nuevas columnas
cali_housing["temp"] = "temp"
cali_housing["temp2"] = cali_housing["temp"] + "2"
cali_housing

Eliminar columnas con axis = 1

In [None]:
#drop devuelve un nuevo dataframe sin la columna
df = cali_housing.drop(["temp", "temp2"], axis=1)
df

Eliminar filas con axis = 0

In [None]:
#drop devuelve un nuevo dataframe sin la fila
df = cali_housing.drop([5,7,9], axis=0)
df

## Remover columnas con ```del```

Puedes usar la notación _del df[col_name]_ para eliminar una columna directamente de un DataFrame:

In [None]:
#el dataframe original no ha sido alterado
#aun contiene las columnas temporales
cali_housing

In [None]:
#eliminamos la nueva columna temp con del directamente en el df
del cali_housing["temp"]
cali_housing

In [None]:
#del elimina una columna a la vez
# llamemos del una segunda vez para eliminar temp2
del cali_housing["temp2"]
cali_housing

# Datos faltantes

En Pandas, los [```valores faltantes```](https://pandas.pydata.org/pandas-docs/stable/user_guide/missing_data.html) son representado con el valor NaN (de Not a Number). Cuando existen valores faltantes, muchas veces es necesario eliminarlar las entradas que los contienen o reemplazarlos por valores antes de empezar a trabajar con los datos. Pandas provee algunos métodos para realizar este tipo de tareas.

In [None]:
#creando un dataframe con datos faltantes
df = pd.DataFrame(np.random.randn(5, 3), index=['a', 'c', 'e', 'f', 'h'], columns=['A', 'B', 'C'])
df['D'] = df['A'] > 0
df = df.reindex(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h'])
df

## df.isna()

El método [```df.isna()```](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.isna.html) funciona para conocer si el objeto contiene valores faltantes. Regresa un objeto con elementos booleanos que indican la existencia de datos faltantes.

In [None]:
df.isna()

## df.dropna()

El método [```dropna()```](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.dropna.html) permite eliminar del DataFrame las filas o columnas que contienen uno o más elementos NaN.

Los principales parámetros de dropna():

```
axis : {0 o 'index', 1 o 'columns'}, por defecto 0
        Determina si elimina filas o columnas que contienen
        valores faltantes.
    
how : {'any', 'all'}, por defecto 'any'
    Determina si se elimina la fila o columna cuando contiene al menos un valor faltante o solo si todos sus valores son faltantes.

    * 'any' : Si hay un valor faltante, elimina la fila o columna.
    * 'all' : Si todos los valores son faltantes, elimina la fila o columna.
    
thresh : int, opcional
    Requirir al menos ese número de valores faltantes para eliminar la fila o columna.
```



In [None]:
df.dropna(axis=0, how='any')

In [None]:
#insertando un nuevo nan
df.iat[0, 0] = np.nan

Usando ```all``` con ```axis=0``` elimina filas donde todos los elementos faltan:

In [None]:
df.dropna(axis = 0, how='all')

Usando ```any``` con axis=0, elimina las filas con uno o más faltantes:

In [None]:
df.dropna(axis=0, how="any")

Agregamos una nueva columna con todos los elementos ```NaN```:

In [None]:
df["empty_col"] = np.nan
df

Eliminando la columna con ```axis=1``` y ```how=all```:

In [None]:
# La columna con solo ```NaN``` sera eliminada por completo
df.dropna(axis=1, how="all")

## df.fillna()

El método [```df.fillna()```](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.fillna.html) permite reemplazar los valores faltantes en un DataFrame por otro valor.

Los principales parámetros de fillna():

```
value : escalar, diccionario, Series, o un DataFrame
    El valor utilizado para reemplazar los faltantes.
    Si es un diccionario, una serie o un dataframe, entonces
    se utiliza el valor asociado a la clave, indice o columna asociada.

method : {'backfill', 'bfill', 'pad', 'ffill', None}, por defecto None
    El método utilizado para rellenar los espacios vacios.
    * pad / ffill: usa el ultimo valor valido para rellenar 
    hacia adelante hasta el siguiente valor valido.
    * backfill / bfill: utilizar la siguiente observacion 
    valida para rellenar.

axis : {0 or 'index', 1 or 'columns'}
```



Reemplazar todos los faltantes por un escalar:

In [None]:
# fillna con escalar
df.fillna(0.0)

Reemplazar usando un dicccionario para las columnas de un Dataframe:

In [None]:
# usando un diccionario para reemplazar con un valor diferente cada columna
df.fillna({'A': 0.0, 'B': 0.0, 'C': 0.0, 'D': False})

Con un diccionario para los índices de una Serie:

In [None]:
df["A"].fillna({'a':0.0, 'b':1.0, 'c':2.0})

Forward Fill:

```axis = 0``` por defecto (por columnas, siguiendo el index):

In [None]:
df.fillna(method='ffill',)

```axis=1``` (por filas):

In [None]:
# un nuevo elemento faltante en la fila c columnas C
df.iat[2, 2] = np.NaN
df

In [None]:
# rellenando de izq a der por filas
df.fillna(method='ffill', axis=1)

Back Fill:

```axis=0``` por defecto (por columnas):

In [None]:
# rellena de abajo hacia arriba por columnas
df.fillna(method='bfill')

```axis=1``` (por filas):

In [None]:
# rellena de der a izq por filas
df.fillna(method='bfill', axis=1)

# Métodos Utilitarios

* [```df.copy()```](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.copy.html)
* [```df.sort_values([ascending=True|False])```](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sort_values.html)
* [```df.sort_index([ascending=True|False])```](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sort_index.html#pandas.DataFrame.sort_index)

## df.copy()

Crea una copia profunda (por defecto) del objeto:

In [None]:
df = cali_housing.copy()
df.head()

Ahora modificar ```df``` no afectará a ```cali_housing``` y viceversa.

## df.sort_values()

Ordenar usando los valores en el Dataframe:

In [None]:
df.sort_values("housing_median_age")

Ordenar usando más de una columna:

In [None]:
df.sort_values(["housing_median_age", "households"])

## df.sort_index()

Ordenar usando los índices del Dataframe/Series:

In [None]:
#una muestra aleatoria
df = cali_housing.sample(5)
df

In [None]:
# ordenar por index
df.sort_index()

Para un objeto Series:

In [None]:
s = cali_housing["total_rooms"].sample(5)
s

In [None]:
s.sort_index()

# Métodos matemáticos

[Operaciones binarias](https://pandas.pydata.org/docs/reference/frame.html#binary-operator-functions):

* [```add(other)```](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.add.html), suma elemento por elemento un DataFrames/Series y other.
* [```sub(other)```](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sub.html#pandas.DataFrame.sub), resta elemento por elemento un DataFrames/Series y other.
* [```mul(other)```](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.mul.html#pandas.DataFrame.mul), multiplicación elemento por elemento de un DataFrames/Series por other.
* [```div(other)```](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.div.html#pandas.DataFrame.div), divide elemento por elemento un DataFrames/Series entre other.
* [```mod(other)```](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.mod.html#pandas.DataFrame.mod), calcula el módulo de un DataFrame/Series usando other.
* [```pow(other)```](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.pow.html#pandas.DataFrame.pow), calcula el exponente elemento por elemento de un DataFrame/Series elevado a la potencia de other.
* [```dot(other)```](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.dot.html), producto punto o de matrices entre dos Series/DataFrames respectivamente.

_Las operaciones binarias pueden utilizar broadcasting, entonces pueden recibir escalares, Dataframes o Series._


[Operaciones estadísticas](https://pandas.pydata.org/docs/reference/frame.html#computations-descriptive-stats):
* [```abs()```](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.abs.html), valor absoluto de los elementos.
* [```count(axis)```](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.count.html), cuenta el número de elementos no-nulos en las filas o columnas. 
* [```max(axis)```](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.max.html), retorna el valor máximo encontrado por filas o columnas.
* [```min(axis)```](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.min.html#pandas.DataFrame.min), retorna el valor mínimo encontrado por filas o columnas.
* [```mean(axis)```](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.mean.html), retorna la media de los elementos por filas o columnas.
* [```median(axis)```](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.median.html), retorna la mediana de los elementos de las filas o columnas.
* [```sum(axis)```](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sum.html), retorna la suma de todos los elementos de las filas o columnas.
* [```std(axis)```](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.std.html), retorna la desviación estándar de las filas o columnas.
* [```var(axis)```](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.var.html),retorna la varianza de las filas o columnas.

## Operaciones binarias

In [None]:
#creamos un dataframe para ejemplificar las funciones
df = pd.DataFrame({'angles': [0, 3, 4], 'degrees': [360, 180, 360]}, index=['circle', 'triangle', 'rectangle'])
df

### add(), sub(), mul() y div()

In [None]:
df.add(1)

o

In [None]:
df + 1

In [None]:
df.mul(2)

o

In [None]:
df * 2

In [None]:
df.div(2)

o

In [None]:
df / 2

### mod() y pow()

In [None]:
df.mod(2)

o

In [None]:
df % 2

In [None]:
df.pow(3)

o

In [None]:
df ** 3

### dot()

In [None]:
#un nuevo dataframe para ejemplificar dot
df = pd.DataFrame([[0, 1, -2, -1], [1, 1, 1, 1]])
df

In [None]:
#dot usando una serie
s = pd.Series([1, 1, 2, 1])
df.dot(s)

In [None]:
#dot de dos matrices
other = pd.DataFrame([[0, 1], [1, 2], [-1, -1], [2, 0]])
df.dot(other)

*Nota: Las operaciones binarias pueden aplicarse usando escalares, series u otros dataframes.*

## Operaciones estadísticas

### abs()

In [None]:
#un df con valores negativos
df = pd.DataFrame({'a': [4, -5, -6, 7], 'b': [-10, 20, 30, -40], 'c': [100, 50, -30, -50]})
df

In [None]:
df.abs()

### count()

In [None]:
#un dataframe con valores no-nulos y nuelos
df = pd.DataFrame({"Person":["John", "Myla", "Lewis", "John", "Myla"],
                    "Age": [24., np.nan, 21., 33, 26],
                    "Single": [False, True, True, np.nan, np.nan]})
df

Count para cada columna (por defecto ```axis=0```):

In [None]:
df.count()

Count para cada fila (```axis=1```)

In [None]:
df.count(axis=1)

### max() y min()

In [None]:
#creamos un dataframe para ejemplificar las funciones
df = pd.DataFrame({'angles': [0, 3, 4], 'degrees': [360, 180, 360]}, index=['circle', 'triangle', 'rectangle'])
df

Para cada columna (por defecto ```axis=0```):

In [None]:
df.max(axis=0)

In [None]:
# axis = 0 por defecto
df.min()

Para cada fila (```axis=1```):

In [None]:
df.max(axis=1)

In [None]:
df.min(axis=1)

### mean() y median()

Para cada columna (por defecto ```axis=0```)

In [None]:
df.mean()

In [None]:
df.median()

Para cada fila (```axis=1```):

In [None]:
df.mean(axis=1)

In [None]:
df.median(axis=1)

### sum()

Para cada columna columna (por defecto ```axis=0```):

In [None]:
df.sum()

Para cada fila (```axis=1```):

In [None]:
df.sum(axis=1)

### std() y var()

Para cada columna (por defecto ```axis=0```):

In [None]:
df.std()

In [None]:
df.var()

Para cada fila (```axis=1```):

In [None]:
df.std(axis=1)

In [None]:
df.var(axis=1)

# Aplicando funciones propias

## apply()

[```df.apply()```](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.apply.html) recibe una función y la aplica a todas las filas o columnas según el axis indicado.

```axis=0``` aplica la función por columnas:

In [25]:
f = lambda x: (x - x.mean())/x.var()

#aplica la funcion a todas las columnas
cali_housing.apply(f, axis=0)

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
0,-0.673091,0.430967,-0.019771,0.001205,0.005674,0.000655,0.005481,0.861876,1.528686e-05
1,0.484218,-0.460195,0.146722,-0.000322,-0.001661,-0.000614,-0.002131,-0.049668,-9.447532e-07
2,0.63544,-0.597737,-0.019771,0.001014,0.002455,0.000563,0.002913,0.614991,8.126422e-06
3,0.465701,-0.586276,-0.009365,-0.00125,-0.007826,-0.00194,-0.008286,0.718731,1.386828e-05
4,0.061415,0.132958,-0.103018,-0.000495,-0.003041,-0.000543,-0.003057,-0.250029,-1.009313e-05
5,0.095362,0.184536,0.084287,-0.000638,-0.003688,-0.000869,-0.00382,-0.635909,-1.151171e-05
6,-0.481749,0.792016,0.146722,-0.000644,-0.003438,-0.000972,-0.003496,-0.635727,-1.151171e-05
7,-0.241029,-0.110607,-0.103018,0.000192,0.001703,0.000313,0.001664,-0.162948,-1.871171e-06
8,-0.916897,0.726111,-0.144641,0.000687,0.004754,0.000497,0.00532,-0.028284,7.826301e-07
9,0.57063,-0.511773,0.021852,0.000251,0.005068,0.00291,0.005412,-0.433034,-2.131726e-06


In [27]:
x=cali_housing.longitude.values
promedio = x.mean()
varianza = x.var()
print((x - x.mean())/x.var())

# Otra fórmula para calcular la varianza: s^2 = 1/(n-1)*Sum_{x}(x-promedio(x))^2
nueva_varianza = 1/(x.size-1)*np.sum((x-x.mean())**2)
print((x - x.mean())/nueva_varianza)

[-0.74787852  0.5380199   0.70604396  0.51744553  0.06823834  0.10595803
 -0.53527665 -0.26780978 -1.01877446  0.63403365]
[-0.67309067  0.48421791  0.63543957  0.46570097  0.06141451  0.09536223
 -0.48174899 -0.2410288  -0.91689701  0.57063029]


```axis = 1``` aplica la función por filas:

In [28]:
#aplica la funcion a todas las filas
cali_housing.apply(f, axis=1)

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
0,-3e-06,-3e-06,-3e-06,-3e-06,-3e-06,-3e-06,-3e-06,-3e-06,2.3e-05
1,-6e-06,-6e-06,-6e-06,-5e-06,-6e-06,-6e-06,-6e-06,-6e-06,4.5e-05
2,-4e-06,-4e-06,-4e-06,-3e-06,-4e-06,-4e-06,-4e-06,-4e-06,3e-05
3,-3e-06,-3e-06,-3e-06,-3e-06,-3e-06,-3e-06,-3e-06,-3e-06,2.4e-05
4,-1.3e-05,-1.3e-05,-1.3e-05,-1.1e-05,-1.2e-05,-1.2e-05,-1.2e-05,-1.3e-05,9.8e-05
5,-1.6e-05,-1.5e-05,-1.5e-05,-1.3e-05,-1.5e-05,-1.4e-05,-1.5e-05,-1.5e-05,0.00012
6,-1.6e-05,-1.5e-05,-1.5e-05,-1.3e-05,-1.5e-05,-1.4e-05,-1.5e-05,-1.5e-05,0.00012
7,-6e-06,-6e-06,-6e-06,-5e-06,-6e-06,-6e-06,-6e-06,-6e-06,4.8e-05
8,-5e-06,-5e-06,-5e-06,-5e-06,-5e-06,-5e-06,-5e-06,-5e-06,4.1e-05
9,-6e-06,-6e-06,-6e-06,-6e-06,-6e-06,-5e-06,-6e-06,-6e-06,4.9e-05


## applymap()

[```df.applymap()```](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.applymap.html#pandas.DataFrame.applymap) aplica una función elemento por elemento al objeto de Pandas.

In [29]:
f = lambda x: round(x)

#aplica la funcion a todos los elementos
cali_housing.applymap(f)

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
0,-122,37,27,3885,661,1537,606,7,344700
1,-118,34,43,1510,310,809,277,4,176500
2,-118,34,27,3589,507,1484,495,6,270500
3,-118,34,28,67,15,49,11,6,330000
4,-120,36,19,1241,244,850,237,3,81700
5,-120,37,37,1018,213,663,204,2,67000
6,-121,39,43,1009,225,604,218,2,67000
7,-121,35,19,2310,471,1341,441,3,166900
8,-123,38,15,3080,617,1446,599,4,194400
9,-118,34,31,2402,632,2830,603,2,164200


# Operaciones en columnas

Puedes realizar operaciones directamente en las columnas de un DataFrame para obtener resultados como una Serie o para crear nuevas columnas.  Por ejemplo:

* Relizar operaciones binarias entre columnas. (suma, resta, multiplicación, etc.).
* Aplicar métodos estadísticos en las columnas. (sum(), mean(), var(), etc.).
* Una mezcla de operaciones binarias y métodos.

In [30]:
#creando un dataframe
df = pd.DataFrame({"A":[1, 2, 3], "B":[2, 2, 2]})
df

Unnamed: 0,A,B
0,1,2
1,2,2
2,3,2


In [31]:
#operaciones entre columna regresan una serie
df["A"] * df["B"]

0    2
1    4
2    6
dtype: int64

In [32]:
#generar una nueva columna desde una operacion
df["A^B"] = df["A"].pow(df["B"])
df 

Unnamed: 0,A,B,A^B
0,1,2,1
1,2,2,4
2,3,2,9


In [33]:
#aplicar un metodo estadistico a una columna genera un valor
df["A"].sum()

6

In [34]:
#generando una nueva columna con la suma de las filas
df["suma"] = df.sum(axis=1)
df

Unnamed: 0,A,B,A^B,suma
0,1,2,1,4
1,2,2,4,8
2,3,2,9,14


# Funciones por grupos y agregación

## aggregate()/agg()

La agregación de datos es una transformación que produce un valor escalar a partir de un arreglo, por ejemplo, las funciones/métodos "sum" y "mean". Los métodos [```aggregate()```](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.aggregate.html) y su alias [```agg()```](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.agg.html) permiten aplicar una o más funciones de agregación a los objetos de Pandas. 

Los parámetros principales son:



```
func : funcion, str, list o dict
  La funcion o funciones utilizada spara la agregacion de los datos.

  Las combinaciones aceptadas:

  funcion
  cadena con el nombre de la funcion
  lista de funciones y/o nombre de las funciones (ej, [np.sum, 'mean'])
  diccionario de etiquetas del axis que mapean a:
  - las funciones.
  - nombre de funciones.
  - lista de funciones.

axis : {0 or ‘index’, 1 or ‘columns’}, por defecto 0
  Si axis=0 o ‘index’: aplica la funcion a cada columna.
  Si axis=1 o ‘columns’: aplica la funcion a cada fila.
```



In [35]:
df = pd.DataFrame([[1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9]],
                  columns=['A', 'B', 'C'])
df

Unnamed: 0,A,B,C
0,1,2,3
1,4,5,6
2,7,8,9


Por columna (por defecto axis=0):

In [36]:
#funcion de agregacion para calcular varios estadisticos a las columnas
df.agg(["min", "max"])

Unnamed: 0,A,B,C
min,1,2,3
max,7,8,9


Por filas (axis=1):

In [37]:
#funcion de agregacion para calcular varios estadisticos a las filas
df.agg(["min", "max"], axis=1)

Unnamed: 0,min,max
0,1,3
1,4,6
2,7,9


Usando un diccionario como parámetro:

In [38]:
df.agg({"A": np.min, "B": np.max, "C": [np.mean, np.std]})

Unnamed: 0,A,B,C
amax,,8.0,
amin,1.0,,
mean,,,6.0
std,,,3.0


## groupby()

El método [```df.groupby()```](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html) permite generar grupos de datos usando una o más columnas para aplicar funciones de transformación o de agregación. 

Groupby es útil para contestar preguntas tipo: ¿cuál es la media de altura en hombres y mujeres? o ¿cúal es estado con menor población para cada país?

In [39]:
df = pd.DataFrame({"Sexo": ["M", "F", "F", "M"], "Altura": [1.68, 1.55, 1.75, 1.82], "Peso": [70, 50, 68, 72]})
df

Unnamed: 0,Sexo,Altura,Peso
0,M,1.68,70
1,F,1.55,50
2,F,1.75,68
3,M,1.82,72


In [42]:
#generar un dataframe argupado por una columna
df.groupby("Sexo")

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7f0e72aac908>


groupby() por si solo no resulta en la salida esperada.

Hay que aplicar una función:

In [43]:
#la media de las columnas
df.groupby("Sexo").mean()

Unnamed: 0_level_0,Altura,Peso
Sexo,Unnamed: 1_level_1,Unnamed: 2_level_1
F,1.65,59
M,1.75,71


In [44]:
#seleccionando una sola columna para la agregacion
df.groupby("Sexo")["Altura"].mean()

Sexo
F    1.65
M    1.75
Name: Altura, dtype: float64

**groupby() y agg()**

Puedes mezclar groupby() con agg() para aplicar más de una función. 

In [45]:
df.groupby("Sexo").agg(["mean", "std"])

Unnamed: 0_level_0,Altura,Altura,Peso,Peso
Unnamed: 0_level_1,mean,std,mean,std
Sexo,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
F,1.65,0.141421,59,12.727922
M,1.75,0.098995,71,1.414214


**Agrupando con más de una columna**

In [46]:
#agregar una nueva columna al df
df["Estado"] = ["Morelos", "DF", "DF", "DF"]
df

Unnamed: 0,Sexo,Altura,Peso,Estado
0,M,1.68,70,Morelos
1,F,1.55,50,DF
2,F,1.75,68,DF
3,M,1.82,72,DF


In [47]:
#usando mas de una clave para la agrupacion
df.groupby(["Sexo", "Estado"]).agg("mean")

Unnamed: 0_level_0,Unnamed: 1_level_0,Altura,Peso
Sexo,Estado,Unnamed: 2_level_1,Unnamed: 3_level_1
F,DF,1.65,59
M,DF,1.82,72
M,Morelos,1.68,70


# Combinar Dataframes

## append()

[```df.append()```](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.append.html) concatena las filas de un DataFrame a otro usando las columnas que coinciden. Columnas que no coinciden son agregadas al DataFrame resultante.

In [48]:
df = pd.DataFrame([[1, 2], [3, 4]], columns=["A", "B"])
df

Unnamed: 0,A,B
0,1,2
1,3,4


In [56]:
df2 = pd.DataFrame([[5, 6], [7, 8]], columns=["A", "C"])
df2

Unnamed: 0,A,C
0,5,6
1,7,8


In [57]:
df.append(df2)


Unnamed: 0,A,B,C
0,1,2.0,
1,3,4.0,
0,5,,6.0
1,7,,8.0


## merge() y join()

[```df.merge()```](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.merge.html) y [```df.join()```](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.join.html) permiten joins de dataframes al estilo SQL.

Si no conoces SQL visita este sitio para darte una idea de los tipos de joins disponibles: https://www.w3schools.com/sql/sql_join.asp

![wikipedia](https://upload.wikimedia.org/wikipedia/commons/c/c9/Joins_del_SQL.svg)

**merge()**

Parámetros principales:


```
right : DataFrame o  Series
  Objeto con el que realizar merge()

how:{‘left’, ‘right’, ‘outer’, ‘inner’}, Por defecto ‘inner’
  Type of merge to be performed.

  left: similar a un left outer join de SQL.
  right: similar a un  right outer join SQL.
  outer:  similar a un full outer join SQL.
  inner: similar a un inner join de SQL.

on : etiqueta o lista de etiquetas
  Columnas o indices para unir. Deben estar en ambos DataFrames.

left_on : etiqueta, lista de etiquetas
  Columnas o indices para unir del DataFrame de la izquierda.

right_on : etiqueta, lista de etiquetas
  Columnas o indices para unir del DataFrame de la derecha.
```


In [58]:
# df1 tiene un elemento unico u1 que df2 no tiene
df1 = pd.DataFrame({'key': ['a', 'b', 'u1', 'a'], 'value': [1, 2, 3, 5]})
df1

Unnamed: 0,key,value
0,a,1
1,b,2
2,u1,3
3,a,5


In [59]:
# df2 tiene un elemento unico u2 que no df1 no tiene
df2 = pd.DataFrame({'key': ['a', 'b', 'u2', 'a'], 'value': [5, 6, 7, 8]})
df2

Unnamed: 0,key,value
0,a,5
1,b,6
2,u2,7
3,a,8


Inner

Mantiene las llaves ```key``` que coinciden en ambos dataframes.


| df1   || coincide en ```key``` de df2|
|---||----|
| (a, 1) || (a, 5) y (a, 8) |
| (a, 5) || (a, 5) y (a, 8) |
| (b, 2) || (b, 6) |

In [60]:
df1.merge(df2, how="inner", on="key")

Unnamed: 0,key,value_x,value_y
0,a,1,5
1,a,1,8
2,a,5,5
3,a,5,8
4,b,2,6


Outer

Mantiene las filas de ambos Dataframes, sin importar si existe o no existe un mapeo entre las llaves ```key```.

| df1   || df2|
|---||----|
| (a, 1) || (a, 5) y (a, 8) |
| (a, 5) || (a, 5) y (a, 8) |
| (b, 2) || (b, 6) |
| (u1, 3)|| NaN |
| NaN || (u2, 7)|

In [61]:
df1.merge(df2, how="outer", on="key")

Unnamed: 0,key,value_x,value_y
0,a,1.0,5.0
1,a,1.0,8.0
2,a,5.0,5.0
3,a,5.0,8.0
4,b,2.0,6.0
5,u1,3.0,
6,u2,,7.0


Left

Mantiene todas las filas del Dataframe de la izquierda y en las que existe un match en ```key``` en el Dataframe de la derecha.

| df1 (left)   || df2 (right)|
|---||----|
| (a, 1) || (a, 5) y (a, 8) |
| (a, 5) || (a, 5) y (a, 8) |
| (b, 2) || (b, 6) |
| (u1, 3)|| NaN |

In [62]:
df1.merge(df2, how="left", on="key")

Unnamed: 0,key,value_x,value_y
0,a,1,5.0
1,a,1,8.0
2,b,2,6.0
3,u1,3,
4,a,5,5.0
5,a,5,8.0


Right

Mantiene todas las filas del Dataframe de la derecha y en las que existe un match en ```key``` en el Dataframe de la izquierda.

| df1 (left)   || df2 (right)|
|---||----|
| (a, 1) || (a, 5) y (a, 8) |
| (a, 5) || (a, 5) y (a, 8) |
| (b, 2) || (b, 6) |
| NaN || (u2, 7) |

In [63]:
df1.merge(df2, how="right", on="key")

Unnamed: 0,key,value_x,value_y
0,a,1.0,5
1,a,5.0,5
2,a,1.0,8
3,a,5.0,8
4,b,2.0,6
5,u2,,7


**join()**

Permite unir las columnas de uno o más objetos usando su índice o usando una columna como clave.


Parámetros:
```
other : DataFrame, Series, o lista de DataFrames

on : str o lista de str, opcional (por defecto usa los indices)

how:{‘left’, ‘right’, ‘outer’, ‘inner’}, Por defecto ‘inner’
  Type of merge to be performed.

  left: usar el indice del DataFrame que llama al metodo.
  right: usar el indice de other.
  outer:  union de los indices.
  inner: interseccion de los indices.

lsuffix : str, por defecto ‘’
  sufijo a utilizar del dataframe izq para la columnas sobrelapadas.

rsuffix : str, default ‘’
  sufijo a utilizar del dataframe der para la columnas sobrelapadas.
```



In [64]:
df1 = pd.DataFrame({'key': ['foo', 'bar', 'baz', 'foo'], 'value': [1, 2, 3, 5]}).set_index("key")
df1

Unnamed: 0_level_0,value
key,Unnamed: 1_level_1
foo,1
bar,2
baz,3
foo,5


In [65]:
df2 = pd.DataFrame({'key': ['foo', 'bar', 'baz', 'foo'], 'value': [5, 6, 7, 8]}).set_index("key")
df2

Unnamed: 0_level_0,value
key,Unnamed: 1_level_1
foo,5
bar,6
baz,7
foo,8


In [66]:
df1.join(df2, lsuffix="_l", rsuffix="_r")

Unnamed: 0_level_0,value_l,value_r
key,Unnamed: 1_level_1,Unnamed: 2_level_1
bar,2,6
baz,3,7
foo,1,5
foo,1,8
foo,5,5
foo,5,8


# Cadenas

Muchas de los métodos/funciones de Python para variables string, tienen un [método equivalente](https://pandas.pydata.org/pandas-docs/stable/user_guide/text.html#text-data-types) en los objetos Series y DataFrames de Pandas.

Métodos principales para cadenas:

* str.cat(other, sep), concatenta sep y other a cada str en el objeto.
* str.split(str), divide la cadena usando el separador especificado.
* str.replace(patt, repl), reemplaza en la cadena patt por repl.
* str.lower() y str.upper(), para convertir cadenas a minúsculas o mayúsculas.
* str.len(), calcula la longitud de la cadena.
* str.count(str), cuenta el número de apariciones de str en la cadena.
* str.strip(str), elimina str al inicio y final de la cadena.

Visita la documentación para la lista completa de [métodos para cadenas de texto de Pandas](https://pandas.pydata.org/pandas-docs/stable/user_guide/text.html#method-summary).


In [67]:
s1 = pd.Series(["A", "B", "C"])
s1

0    A
1    B
2    C
dtype: object

In [68]:
s2 = pd.Series(["1", "2", "3"])
s2

0    1
1    2
2    3
dtype: object

In [69]:
#concatenando s1 y s2 generando s3
s3 = s1.str.cat(s2, sep="-")
s3

0    A-1
1    B-2
2    C-3
dtype: object

In [70]:
#str split
s3.str.split("-")

0    [A, 1]
1    [B, 2]
2    [C, 3]
dtype: object

In [71]:
#str.replace
s3.str.replace(pat="-", repl="_")

0    A_1
1    B_2
2    C_3
dtype: object

In [73]:
#un nuevo df
s = pd.Series(["gato", "perro", "elefante"])
s

0        gato
1       perro
2    elefante
dtype: object

In [74]:
#upper
s.str.upper()

0        GATO
1       PERRO
2    ELEFANTE
dtype: object

In [75]:
#len
s.str.len()

0    4
1    5
2    8
dtype: int64

In [76]:
#count
s.str.count("o")

0    1
1    1
2    0
dtype: int64

In [77]:
#un nuevo df
s4 = pd.Series(["_A_", "_B_", "_C_", "_D_"])
s4

0    _A_
1    _B_
2    _C_
3    _D_
dtype: object

In [78]:
s4.str.strip("_")

0    A
1    B
2    C
3    D
dtype: object

# Series de tiempo

Pandas utiliza el tipo de dato "Timestamp" para el manejo de fechas y tiempo.

## String a Timestamp

In [79]:
ts_index = pd.to_datetime(["10/09/2006", "11/09/2006", "12/09/2006"])
ts_index

DatetimeIndex(['2006-10-09', '2006-11-09', '2006-12-09'], dtype='datetime64[ns]', freq=None)

Creando una serie de tiempo desde objetos:

In [80]:
ts = pd.Series(["5", "10", "15"], index=ts_index)
ts

2006-10-09     5
2006-11-09    10
2006-12-09    15
dtype: object

Creando una serie de tiempo usando aleatoriamente usando Numpy y date_range de Pandas:

In [81]:
ts = pd.Series(np.random.normal(0, 1, 100), index=pd.date_range(start="2006-01-01", periods=100, freq="D"))
ts.head(10)

2006-01-01   -1.413083
2006-01-02   -1.701220
2006-01-03   -2.381581
2006-01-04    0.702635
2006-01-05   -0.447139
2006-01-06    0.392752
2006-01-07    0.204697
2006-01-08    0.306372
2006-01-09   -1.364138
2006-01-10   -0.389679
Freq: D, dtype: float64

## Indexing

Puedes utilizar fechas para indexar una serie de tiempo:

In [82]:
#usando el anio y mes como indice
ts["2006-02"]

2006-02-01    1.714371
2006-02-02   -1.057787
2006-02-03    2.473935
2006-02-04    0.086857
2006-02-05    0.088216
2006-02-06   -0.031286
2006-02-07   -0.909986
2006-02-08   -1.381133
2006-02-09   -0.741960
2006-02-10    1.201364
2006-02-11   -1.044473
2006-02-12   -0.323710
2006-02-13   -0.829132
2006-02-14    1.976047
2006-02-15    0.612527
2006-02-16    0.319440
2006-02-17    0.005600
2006-02-18    0.632581
2006-02-19   -1.797099
2006-02-20    0.175563
2006-02-21   -0.689416
2006-02-22   -0.024037
2006-02-23   -0.725515
2006-02-24    0.099489
2006-02-25   -0.541433
2006-02-26    1.010563
2006-02-27    1.699195
2006-02-28   -0.509340
Freq: D, dtype: float64

In [83]:
#una rebanada entre fechas
ts["2006-02-20": "2006-03-10"]

2006-02-20    0.175563
2006-02-21   -0.689416
2006-02-22   -0.024037
2006-02-23   -0.725515
2006-02-24    0.099489
2006-02-25   -0.541433
2006-02-26    1.010563
2006-02-27    1.699195
2006-02-28   -0.509340
2006-03-01    0.473865
2006-03-02   -0.040457
2006-03-03   -1.223172
2006-03-04   -1.169222
2006-03-05   -0.257003
2006-03-06    0.092075
2006-03-07   -1.928173
2006-03-08   -0.578709
2006-03-09    0.383707
2006-03-10    0.165870
Freq: D, dtype: float64

## Resampling / agregación

Permite obtener desde una serie de tiempo una nueva serie de tiempo a una frecuencia de tiempo menor al agregar los datos.

In [84]:
#De frecuencia por dias a semanas
ts.resample("W").mean()

2006-01-01   -1.413083
2006-01-08   -0.417641
2006-01-15   -0.422562
2006-01-22    0.088456
2006-01-29    0.024889
2006-02-05    0.478394
2006-02-12   -0.461598
2006-02-19    0.131424
2006-02-26   -0.099255
2006-03-05   -0.146591
2006-03-12   -0.178542
2006-03-19    0.014385
2006-03-26    0.302761
2006-04-02   -0.557126
2006-04-09    0.686628
2006-04-16   -0.232535
Freq: W-SUN, dtype: float64

## Ventanas

Puedes aplicar [ventanas deslizantes a series de tiempo](https://pandas.pydata.org/pandas-docs/stable/reference/window.html#window) para calcular distintos estadísticos.

In [85]:
ts.rolling(window=7).mean().head(14)

2006-01-01         NaN
2006-01-02         NaN
2006-01-03         NaN
2006-01-04         NaN
2006-01-05         NaN
2006-01-06         NaN
2006-01-07   -0.663277
2006-01-08   -0.417641
2006-01-09   -0.369486
2006-01-10   -0.084929
2006-01-11   -0.196268
2006-01-12   -0.339230
2006-01-13   -0.392440
2006-01-14   -0.457002
Freq: D, dtype: float64