<a href="https://colab.research.google.com/github/jhermosillo/diplomado_CDD2019/blob/master/Programaci%C3%B3n%20en%20Python/notebooks/Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Pandas

Pandas es un paquete de Python que provee dos estructuras de datos para el análisis de datos "relacionales" de manera rápida, flexible y expresiva. Pandas está construido sobre Numpy, por lo que muchas de las ventajas de utilizar Numpy se trasladan a Pandas.

Pandas puede ser utilizado para trabajar con diferentes tipos de datos:

* Tabulares, con datos en columnas que comparten un mismo tipo (por ejemplo, tablas de una base de datos y hojas de Excel).
* Series de tiempo.
* Matrices con columnas y filas etiquetadas.
* Datos de experimentos estadísticos en general.


In [0]:
#pd es el alias comun de pandas
import pandas as pd
import numpy as np

# Estructuras

## Series

La primera estructura de datos de Pandas son las Series. Una Serie es utilizada para arreglos 1D etiquetados con un mismo tipo de dato en todos sus elementos. Una serie es un arreglo 1D donde cada elemento tiene asignado un índice:


| index   || |
|---||----|
| a || s1 |
| b || s2 |
| c || s3 |
| ... || ... |

In [0]:
#un objeto series desde una lista
s1 = pd.Series(data=[1, 1, 2, 3, 5], index=["a", "b", "c", "d", "e"])
s1

## Dataframe

Los Dataframes son la segunda estructura en Pandas, éstos son utilizados para datos 2D etiquetados (columnas con nombres generalmente). Las columnas de un Dataframe pueden tener tipos de dato diferentes. Puedes pensar en un Dataframe  como un contenedor de Series, donde cada columna es una Serie (arreglo 1D con etiquetas). Un Dataframe puede representarse como una tabla donde cada fila tiene asignado un índice y cada columna un nombre:

| index\columns  || A  | B  | C  | D  |
|---||----|----|----|----|
| 1 || a1 | b1 | c1 | d1 |
| 2 || a2 | b2 | c2 | d2 |
| 3 || a3 | b3 | c3 | d3 |

In [0]:
#un dataframe aleatorio con numpy random
df = pd.DataFrame(np.random.randn(6, 4), columns=["A", "B", "C", "D"])
df

### Axes

Recuerda que los axes de un Dataframe (una tabla 2D), son los siguientes:

![Numpy/Pandas axes](https://raw.githubusercontent.com/jhermosillo/diplomado_CDD2019/master/Programaci%C3%B3n%20en%20Python/images/axes.png)

# Creación y almacenamiento

## Creación desde diccionarios de listas

In [0]:
#Un diccionario de python
dict1 = {'pais': ['Mexico',
'EUA', "Francia"], 'continente': ["America", "America", "Europa"], 'poblacion': [129, 325, 67]}

paises = pd.DataFrame(dict1)
paises

## Creación desde diccionario anidado

In [0]:
#Un diccionario anidado de python
#las claves anidadas especifican el indice de las filas
dict2 = {'pais': {"p1": 'Mexico',
"p2": 'EUA', "p3": "Francia"}, 'continente': {"p1": "America", "p2": "America", "p3": "Europa"}, 'poblacion': {"p1": 129, "p2": 325, "p3": 67}}

paises = pd.DataFrame(dict2)
paises

## Creación desde archivos csv

In [0]:
!ls sample_data/

In [0]:
#leamos un archivo csv almacenado por colab
cali_housing = pd.read_csv("sample_data/california_housing_test.csv", nrows=10)
cali_housing

## Creación desde archivos excel

In [0]:
# Cargar un archivo de excel a colab desde github
!curl --remote-name \
     -H 'Accept: application/vnd.github.v3.raw' \
     --location https://github.com/jhermosillo/diplomado_CDD2019/raw/master/Programaci%C3%B3n%20en%20Python/data/california_housing_test.xlsx

In [0]:
#cargar el archivo en formato xls a un pandas dataframe
cali_housing = pd.read_excel("california_housing_test.xlsx", index_col=0, header_col=0)
cali_housing

## Persistencia a disco

In [0]:
cali_housing.to_csv("cali_housing.csv")
#o en formato de excel:
cali_housing.to_excel("cali_housing.xlsx")

Ahora se crearon dos archivos en colab

In [0]:
!ls

## Otros formatos

Además de los ya mencionados, Pandas permite leer y escribir en formatos comúnes como:

* JSON
* HTML
* Parquet
* SQL
* BigQuery

Puedes ver la lista completa en la [documentación de Pandas](https://pandas.pydata.org/docs/user_guide/io.html#io-tools-text-csv-hdf5).

# Accediendo a los datos

## info()

El método info() puede usarse para , mostrar la información general del objeto de Pandas, como el índice y los tipos de datos usados.

In [0]:
cali_housing.info()

## head() y tail()

Los métodos head() y tail() devuelven una pequeña muestra de los primeros o últimos elementos de un objeto Series o Dataframe. Ambas pueden recibir como parámetro el número de elementos que se desean visualizar, por defecto es igual a 5.

In [0]:
cali_housing.head()

In [0]:
cali_housing.tail(3)

## df.sample()

Para obtener una muestra aleatoria del objeto.

In [0]:
cali_housing.sample(n=3)

## df.index

El atributo index regresa el índice del objeto de Pandas.

In [0]:
cali_housing.index

## df.columns

El atributo columns de un DataFrame devuelve las columnas del mismo.

In [0]:
cali_housing.columns

## describe()

El método describe() regresa un resúmen estadístico del objeto.

In [0]:
cali_housing.describe()

# Selección - asignación

## Seleccionando columnas

Puedes usar dos notaciones para seleccionar una columna de un DataFrame, cualquiera de éstas devolverá un objeto Series.



```
df.["A"]
```

o



```
df.A
```





In [0]:
#seleccionar la columna devuelve un objeto Series
cali_housing["latitude"]

In [0]:
#usa segunda opcion para seleccionar columnas
cali_housing.latitude

In [0]:
#seleccionando una columna como un dataframe
cali_housing[["latitude"]]

Seleccionando múltiples columnas



```
df[["A", ...]]
```



In [0]:
cali_housing[["longitude", "latitude"]]

## Seleccionando filas con slicing

In [0]:
cali_housing[0:3]

## Selección con etiquetas loc

In [0]:
cali_housing.loc[:, "total_rooms":"households"]

## Selección con enteros iloc

In [0]:
cali_housing.iloc[:, 6:]

## Asignación por rango

In [0]:
#primero agregamos una columna random inicializada a 0
cali_housing["random"] = 0.0
#reasignamos usando np.random
cali_housing.loc[:, "random"] = np.random.randn(cali_housing.shape[0])
cali_housing

## Selección con indexación booleana

In [0]:
cali_housing[cali_housing["population"] > 1000]

## Selección de celdas con at y iat

**at** utiliza etiquetas para seleccionar elementos:

In [0]:
cali_housing.at[0, "housing_median_age"]

**iat** utiliza enteros para seleccionar elementos:

In [0]:
cali_housing.iat[1, 4]

## Asignación elemento

También puedes cambir el contenido de las celdas directamente mediante asignación:

In [0]:
cali_housing.iat[1, 4] = 200.0
cali_housing

## Otros
Otros métodos que podrían ser útiles:

* idxmax()
* idxmin()
* filter()
* take()
* truncate()

Puedes ver la lista completa de métodos para la selección, re-indexado y manipulación de etiquetas en la [documentación de Pandas](https://pandas.pydata.org/docs/reference/frame.html#reindexing-selection-label-manipulation).

# Atributos

* df.T
* df.axes
* df.dtypes
* df.shape
* df.size
* df.values

## df.T

La transpuesta de df (filas y columnas intercambiadas):

In [0]:
#Los indices pasan a ser los nombres de las columnas, las columnas a indices
cali_housing.T

## df.axes

Retorna información sobre los axes que componen al objeto:


In [0]:
cali_housing.axes

## df.dtypes

Retorna los tipos de datos utilizados por el objeto:

In [0]:
cali_housing.dtypes

## df.shape

La forma del objeto (número de filas y columnas en un DataFrame):

In [0]:
cali_housing.shape

## df.size

El número de elementos en el objeto (número de celdas en un DataFrame):

In [0]:
cali_housing.size

## df.values

Retorna el objeto de Pandas como un arreglo de Numpy:

In [0]:
df.values

# Eliminación


## Remover filas o columnas con df.drop()

El método drop() permite eliminar filas o columnas al especificar el axis correspondiente, puedes eliminar más de una usando una lista como parámetro:

In [0]:
#primero agregamos dos nuevas columnas
cali_housing["temp"] = "temp"
cali_housing["temp2"] = cali_housing["temp"] + "2"
cali_housing

Eliminar columnas con axis = 1

In [0]:
#drop devuelve un nuevo dataframe sin la columna
df = cali_housing.drop(["temp", "temp2"], axis=1)
df

Eliminar filas con axis = 0

In [0]:
#drop devuelve un nuevo dataframe sin la fila
df = cali_housing.drop([5,7,9], axis=0)
df

## Remover columnas con ```del```

Puedes usar la notación _del df[col_name]_ para eliminar una columna directamente de un DataFrame:

In [0]:
#el dataframe original no ha sido alterado
#aun contiene las columnas temporales
cali_housing

In [0]:
#eliminamos la nueva columna temp con del directamente en el df
del cali_housing["temp"]
cali_housing

In [0]:
#del elimina una columna a la vez
# llamemos del una segunda vez para eliminar temp2
del cali_housing["temp2"]
cali_housing

# Datos faltantes

En Pandas, los valores faltantes son representado con el valor NaN (de Not a Number). Cuando existen valores faltantes, muchas veces es necesario eliminarlar las entradas que los contienen o reemplazarlos por valores antes de empezar a trabajar con los datos. Pandas provee algunos métodos para realizar este tipo de tareas.

In [0]:
#creando un dataframe con datos faltantes
df = pd.DataFrame(np.random.randn(5, 3), index=['a', 'c', 'e', 'f', 'h'], columns=['A', 'B', 'C'])
df['D'] = df['A'] > 0
df = df.reindex(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h'])
df

## df.isna()

El método isna() funciona para conocer si el objeto contiene valores faltantes. Regresa un objeto con elementos booleanos que indican la existencia de datos faltantes.

In [0]:
df.isna()

## df.dropna()

El método dropna() permite eliminar del DataFrame las filas o columnas que contienen uno o más elementos NaN.

Los principales parámetros de dropna():

```
axis : {0 o 'index', 1 o 'columns'}, por defecto 0
        Determina si elimina filas o columnas que contienen
        valores faltantes.
    
how : {'any', 'all'}, por defecto 'any'
    Determina si se elimina la fila o columna cuando contiene al menos un valor faltante o solo si todos sus valores son faltantes.

    * 'any' : Si hay un valor faltante, elimina la fila o columna.
    * 'all' : Si todos los valores son faltantes, elimina la fila o columna.
    
thresh : int, opcional
    Requirir al menos ese número de valores faltantes para eliminar la fila o columna.
```



In [0]:
df.dropna(axis=0, how='any')

In [0]:
#insertando un nuevo nan
df.iat[0, 0] = np.nan

Usando ```all``` con ```axis=0``` elimina filas donde todos los elementos faltan:

In [0]:
df.dropna(axis = 0, how='all')

Usando ```any``` con axis=0, elimina las filas con uno o más faltantes:

In [0]:
df.dropna(axis=0, how="any")

Agregamos una nueva columna con todos los elementos ```NaN```:

In [0]:
df["empty_col"] = np.nan
df

Eliminando la columna con ```axis=1``` y ```how=all```:

In [0]:
# La columna con solo ```NaN``` sera eliminada por completo
df.dropna(axis=1, how="all")

## df.fillna()

El método fillna() permite reemplazar los valores faltantes en un DataFrame por otro valor.

Los principales parámetros de fillna():

```
value : escalar, diccionario, Series, o un DataFrame
    El valor utilizado para reemplazar los faltantes.
    Si es un diccionario, una serie o un dataframe, entonces
    se utiliza el valor asociado a la clave, indice o columna asociada.

method : {'backfill', 'bfill', 'pad', 'ffill', None}, por defecto None
    El método utilizado para rellenar los espacios vacios.
    * pad / ffill: usa el ultimo valor valido para rellenar 
    hacia adelante hasta el siguiente valor valido.
    * backfill / bfill: utilizar la siguiente observacion 
    valida para rellenar.

axis : {0 or 'index', 1 or 'columns'}
```



Reemplazar todos los faltantes por un escalar:

In [0]:
# fillna con escalar
df.fillna(0.0)

Reemplazar usando un dicccionario para las columnas de un Dataframe:

In [0]:
# usando un diccionario para reemplazar con un valor diferente cada columna
df.fillna({'A': 0.0, 'B': 0.0, 'C': 0.0, 'D': False})

Con un diccionario para los índices de una Serie:

In [0]:
df["A"].fillna({'a':0.0, 'b':1.0, 'c':2.0})

Forward Fill:

```axis = 0``` por defecto (por columnas, siguiendo el index):

In [0]:
df.fillna(method='ffill',)

```axis=1``` (por filas):

In [0]:
# un nuevo elemento faltante en la fila c columnas C
df.iat[2, 2] = np.NaN
df

In [0]:
# rellenando de izq a der por filas
df.fillna(method='ffill', axis=1)

Back Fill:

```axis=0``` por defecto (por columnas):

In [0]:
# rellena de abajo hacia arriba por columnas
df.fillna(method='bfill')

```axis=1``` (por filas):

In [0]:
# rellena de der a izq por filas
df.fillna(method='bfill', axis=1)

# Métodos Utilitarios

* df.copy()
* df.sort_values([ascending=True|False])
* df.sort_index([ascending=True|False])

## df.copy()

Crea una copia profunda (por defecto) del objeto:

In [0]:
df = cali_housing.copy()
df.head()

Ahora modificar ```df``` no afectará a ```cali_housing``` y viceversa.

## df.sort_values()

Ordenar usando los valores en el Dataframe:

In [0]:
df.sort_values("housing_median_age")

Ordenar usando más de una columna:

In [0]:
df.sort_values(["housing_median_age", "households"])

## df.sort_index()

Ordenar usando los índices del Dataframe/Series:

In [0]:
#una muestra aleatoria
df = cali_housing.sample(5)
df

In [0]:
# ordenar por index
df.sort_index()

Para un objeto Series:

In [0]:
s = cali_housing["total_rooms"].sample(5)
s

In [0]:
s.sort_index()

# Métodos matemáticos

[Operaciones binarias](https://pandas.pydata.org/docs/reference/frame.html#binary-operator-functions):

* add(other), suma elemento por elemento un DataFrames/Series y other.
* sub(other), resta elemento por elemento un DataFrames/Series y other.
* mul(other), multiplicación elemento por elemento de un DataFrames/Series por other.
* div(other), divide elemento por elemento un DataFrames/Series entre other.
* mod(other), calcula el módulo de un DataFrame/Series usando other.
* pow(other), calcula el exponente elemento por elemento de un DataFrame/Series elevado a la potencia de other.
* dot(other), producto punto o de matrices entre dos Series/DataFrames respectivamente.

_Las operaciones binarias pueden utilizar broadcasting, entonces pueden recibir escalares, Dataframes o Series._


[Operaciones estadísticas](https://pandas.pydata.org/docs/reference/frame.html#computations-descriptive-stats):
* abs(), valor absoluto de los elementos.
* count(axis), cuenta el número de elementos no-nulos en las filas o columnas. 
* max(axis), retorna el valor máximo encontrado por filas o columnas.
* min(axis), retorna el valor mínimo encontrado por filas o columnas.
* mean(axis), retorna la media de los elementos por filas o columnas.
* median(axis), retorna la mediana de los elementos de las filas o columnas.
* sum(axis), retorna la suma de todos los elementos de las filas o columnas.
* std(axis), retorna la desviación estándar de las filas o columnas.
* var(axis),retorna la varianza de las filas o columnas.

## Operaciones binarias

In [0]:
#creamos un dataframe para ejemplificar las funciones
df = pd.DataFrame({'angles': [0, 3, 4], 'degrees': [360, 180, 360]}, index=['circle', 'triangle', 'rectangle'])
df

### add(), sub(), mul() y div()

In [0]:
df.add(1)

o

In [0]:
df + 1

In [0]:
df.mul(2)

o

In [0]:
df * 2

In [0]:
df.div(2)

o

In [0]:
df / 2

### mod() y pow()

In [0]:
df.mod(2)

o

In [0]:
df % 2

In [0]:
df.pow(3)

o

In [0]:
df ** 3

### dot()

In [0]:
#un nuevo dataframe para ejemplificar dot
df = pd.DataFrame([[0, 1, -2, -1], [1, 1, 1, 1]])
df

In [0]:
#dot usando una serie
s = pd.Series([1, 1, 2, 1])
df.dot(s)

In [0]:
#dot de dos matrices
other = pd.DataFrame([[0, 1], [1, 2], [-1, -1], [2, 0]])
df.dot(other)

*Nota: Las operaciones binarias pueden aplicarse usando escalares, series u otros dataframes.*

## Operaciones estadísticas

### abs()

In [0]:
#un df con valores negativos
df = pd.DataFrame({'a': [4, -5, -6, 7], 'b': [-10, 20, 30, -40], 'c': [100, 50, -30, -50]})
df

In [0]:
df.abs()

### count()

In [0]:
#un dataframe con valores no-nulos y nuelos
df = pd.DataFrame({"Person":["John", "Myla", "Lewis", "John", "Myla"],
                    "Age": [24., np.nan, 21., 33, 26],
                    "Single": [False, True, True, np.nan, np.nan]})
df

Por columna (por defecto axis=0):

In [0]:
df.count()

Por fila (axis=1)

In [0]:
df.count(axis=1)

### max() y min()

In [0]:
#creamos un dataframe para ejemplificar las funciones
df = pd.DataFrame({'angles': [0, 3, 4], 'degrees': [360, 180, 360]}, index=['circle', 'triangle', 'rectangle'])
df

Por columna (por defecto ```axis=0```):

In [0]:
df.max(axis=0)

In [0]:
# axis = 0 por defecto
df.min()

Por filas (```axis=1```):

In [0]:
df.max(axis=1)

In [0]:
df.min(axis=1)

### mean() y median()

Por columnas (por defecto axis=0)

In [0]:
df.mean()

In [0]:
df.median()

Por filas (axis=1):

In [0]:
df.mean(axis=1)

In [0]:
df.median(axis=1)

### sum()

Por columnas (por defecto axis=0):

In [0]:
df.sum()

Por filas (axis=1):

In [0]:
df.sum(axis=1)

### std() y var()

Por columnas (por defecto axis=0):

In [0]:
df.std()

In [0]:
df.var()

Por filas (axis=1):

In [0]:
df.std(axis=1)

In [0]:
df.var(axis=1)

# Aplicando funciones propias

## apply()

Recibe una función y la aplica a todas las filas o columnas según el axis indicado.

```axis=0``` aplica la función por columnas:

In [0]:
f = lambda x: (x - x.mean())/x.var()

#aplica la funcion a todas las columnas
cali_housing.apply(f, axis=0)

```axis = 1``` aplica la función por filas:

In [0]:
#aplica la funcion a todas las filas
cali_housing.apply(f, axis=1)

## applymap()

Aplica una función elemento por elemento al objeto de Pandas.

In [0]:
f = lambda x: round(x)

#aplica la funcion a todos los elementos
cali_housing.applymap(f)

# Operaciones en columnas

Puedes realizar operaciones directamente en las columnas de un DataFrame para obtener resultados como una Serie o para crear nuevas columnas.  Por ejemplo:

* Relizar operaciones binarias entre columnas. (suma, resta, multiplicación, etc.).
* Aplicar métodos estadísticos en las columnas. (sum(), mean(), var(), etc.).
* Una mezcla de operaciones binarias y métodos.

In [0]:
#creando un dataframe
df = pd.DataFrame({"A":[1, 2, 3], "B":[2, 2, 2]})
df

In [0]:
#operaciones entre columna regresan una serie
df["A"] * df["B"]

In [0]:
#generar una nueva columna desde una operacion
df["A^B"] = df["A"].pow(df["B"])
df 

In [0]:
#aplicar un metodo estadistico a una columna genera un valor
df["A"].sum()

In [0]:
#generando una nueva columna con la suma de las filas
df["suma"] = df.sum(axis=1)
df

# Funciones por grupos y agregación

## aggregate()/agg()

La agregación de datos es una transformación que produce un valor escalar a partir de un arreglo, por ejemplo, las funciones/métodos "sum" y "mean". Los métodos aggregate() y su alias agg() permiten aplicar una o más funciones de agregación a los objetos de Pandas. 

Los parámetros principales son:



```
func : funcion, str, list o dict
  La funcion o funciones utilizada spara la agregacion de los datos.

  Las combinaciones aceptadas:

  funcion
  cadena con el nombre de la funcion
  lista de funciones y/o nombre de las funciones (ej, [np.sum, 'mean'])
  diccionario de etiquetas del axis que mapean a:
  - las funciones.
  - nombre de funciones.
  - lista de funciones.

axis : {0 or ‘index’, 1 or ‘columns’}, por defecto 0
  Si axis=0 o ‘index’: aplica la funcion a cada columna.
  Si axis=1 o ‘columns’: aplica la funcion a cada fila.
```



In [0]:
df = pd.DataFrame([[1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9]],
                  columns=['A', 'B', 'C'])
df

Por columna (por defecto axis=0):

In [0]:
#funcion de agregacion para calcular varios estadisticos a las columnas
df.agg(["min", "max"])

Por filas (axis=1):

In [0]:
#funcion de agregacion para calcular varios estadisticos a las filas
df.agg(["min", "max"], axis=1)

Usando un diccionario como parámetro:

In [0]:
df.agg({"A": np.min, "B": np.max, "C": [np.mean, np.std]})

## groupby()

El método groupby() permite generar grupos de datos usando una o más columnas para aplicar funciones de transformación o de agregación. 

Groupby es útil para contestar preguntas tipo: ¿cuál es la media de altura en hombres y mujeres? o ¿cúal es estado con menor población para cada país?

In [0]:
df = pd.DataFrame({"Sexo": ["M", "F", "F", "M"], "Altura": [1.68, 1.55, 1.75, 1.82], "Peso": [70, 50, 68, 72]})
df

In [0]:
#generar un dataframe argupado por una columna
df.groupby("Sexo")

groupby() por si solo no resulta en la salida esperada.

Hay que aplicar una función:

In [0]:
#la media de las columnas
df.groupby("Sexo").mean()

In [0]:
#seleccionando una sola columna para la agregacion
df.groupby("Sexo")["Altura"].mean()

**groupby() y agg()**

Puedes mezclar groupby() con agg() para aplicar más de una función. 

In [0]:
df.groupby("Sexo").agg(["mean", "std"])

**Agrupando con más de una columna**

In [0]:
#agregar una nueva columna al df
df["Estado"] = ["Morelos", "DF", "DF", "DF"]
df

In [0]:
#usando mas de una clave para la agrupacion
df.groupby(["Sexo", "Estado"]).agg("mean")

# Combinar Dataframes

## append()

Concatena las filas de un DataFrame a otro usando las columnas que coinciden. Columnas que no coinciden son agregadas al DataFrame resultante.

In [0]:
df = pd.DataFrame([[1, 2], [3, 4]], columns=["A", "B"])
df

In [0]:
df2 = df2 = pd.DataFrame([[5, 6], [7, 8]], columns=["A", "B"])
df2

In [0]:
df.append(df2)

## merge() y join()

Joins al estilo SQL.

Si no conoces SQL visita este sitio para darte una idea de los tipos de joins disponibles: https://www.w3schools.com/sql/sql_join.asp

![dofactory.com](https://www.dofactory.com/Images/sql-joins.png)

**merge()**

Parámetros principales:


```
right : DataFrame o  Series
  Objeto con el que realizar merge()

how:{‘left’, ‘right’, ‘outer’, ‘inner’}, Por defecto ‘inner’
  Type of merge to be performed.

  left: similar a un left outer join de SQL.
  right: similar a un  right outer join SQL.
  outer:  similar a un full outer join SQL.
  inner: similar a un inner join de SQL.

on : etiqueta o lista de etiquetas
  Columnas o indices para unir. Deben estar en ambos DataFrames.

left_on : etiqueta, lista de etiquetas
  Columnas o indices para unir del DataFrame de la izquierda.

right_on : etiqueta, lista de etiquetas
  Columnas o indices para unir del DataFrame de la derecha.
```


In [0]:
# df1 tiene un elemento unico u1 que df2 no tiene
df1 = pd.DataFrame({'key': ['a', 'b', 'u1', 'a'], 'value': [1, 2, 3, 5]})
df1

In [0]:
# df2 tiene un elemento unico u2 que no df1 no tiene
df2 = pd.DataFrame({'key': ['a', 'b', 'u2', 'a'], 'value': [5, 6, 7, 8]})
df2

Inner

Mantiene las llaves ```key``` que coinciden en ambos dataframes.


| df1   || coincide en ```key``` de df2|
|---||----|
| (a, 1) || (a, 5) y (a, 8) |
| (a, 5) || (a, 5) y (a, 8) |
| (b, 2) || (b, 6) |

In [0]:
df1.merge(df2, how="inner", on="key")

Outer

Mantiene las filas de ambos Dataframes, sin importar si existe o no existe un mapeo entre las llaves ```key```.

| df1   || df2|
|---||----|
| (a, 1) || (a, 5) y (a, 8) |
| (a, 5) || (a, 5) y (a, 8) |
| (b, 2) || (b, 6) |
| (u1, 3)|| NaN |
| NaN || (u2, 7)|

In [0]:
df1.merge(df2, how="outer", on="key")

Left

Mantiene todas las filas del Dataframe de la izquierda y en las que existe un match en ```key``` en el Dataframe de la derecha.

| df1 (left)   || df2 (right)|
|---||----|
| (a, 1) || (a, 5) y (a, 8) |
| (a, 5) || (a, 5) y (a, 8) |
| (b, 2) || (b, 6) |
| (u1, 3)|| NaN |

In [0]:
df1.merge(df2, how="left", on="key")

Right

Mantiene todas las filas del Dataframe de la derecha y en las que existe un match en ```key``` en el Dataframe de la izquierda.

| df1 (left)   || df2 (right)|
|---||----|
| (a, 1) || (a, 5) y (a, 8) |
| (a, 5) || (a, 5) y (a, 8) |
| (b, 2) || (b, 6) |
| NaN || (u2, 7) |

In [0]:
df1.merge(df2, how="right", on="key")

**join()**

Permite unir las columnas de uno o más objetos usando su índice o usando una columna como clave.


Parámetros:
```
other : DataFrame, Series, o lista de DataFrames

on : str o lista de str, opcional (por defecto usa los indices)

how:{‘left’, ‘right’, ‘outer’, ‘inner’}, Por defecto ‘inner’
  Type of merge to be performed.

  left: usar el indice del DataFrame que llama al metodo.
  right: usar el indice de other.
  outer:  union de los indices.
  inner: interseccion de los indices.

lsuffix : str, por defecto ‘’
  sufijo a utilizar del dataframe izq para la columnas sobrelapadas.

rsuffix : str, default ‘’
  sufijo a utilizar del dataframe der para la columnas sobrelapadas.
```



In [0]:
df1 = pd.DataFrame({'key': ['foo', 'bar', 'baz', 'foo'], 'value': [1, 2, 3, 5]}).set_index("key")
df1

In [0]:
df2 = pd.DataFrame({'key': ['foo', 'bar', 'baz', 'foo'], 'value': [5, 6, 7, 8]}).set_index("key")
df2

In [0]:
df1.join(df2, lsuffix="_l", rsuffix="_r")

# Cadenas

Muchas de los métodos/funciones de Python para variables string, tienen un método equivalente en los objetos Series y DataFrames de Pandas.

Métodos principales para cadenas:

* str.cat(other, sep), concatenta sep y other a cada str en el objeto.
* str.split(str), divide la cadena usando el separador especificado.
* str.replace(patt, repl), reemplaza en la cadena patt por repl.
* str.lower() y str.upper(), para convertir cadenas a minúsculas o mayúsculas.
* str.len(), calcula la longitud de la cadena.
* str.count(str), cuenta el número de apariciones de str en la cadena.
* str.strip(str), elimina str al inicio y final de la cadena.

Visita la documentación para la lista completa de [métodos para cadenas de texto de Pandas](https://pandas.pydata.org/pandas-docs/stable/user_guide/text.html#method-summary).


In [0]:
s1 = pd.Series(["A", "B", "C"])
s1

In [0]:
s2 = pd.Series(["1", "2", "3"])
s2

In [0]:
#concatenando s1 y s2 generando s3
s3 = s1.str.cat(s2, sep="-")
s3

In [0]:
#str split
s3.str.split("-")

In [0]:
#str.replace
s3.str.replace(pat="-", repl="_")

In [0]:
#un nuevo df
s = pd.Series(["gato", "perro", "elefante"])

In [0]:
#upper
s.str.upper()

In [0]:
#len
s.str.len()

In [0]:
#count
s.str.count("o")

In [0]:
#un nuevo df
s4 = pd.Series(["_A_", "_B_", "_C_", "_D_"])
s4

In [0]:
s4.str.strip("_")

# Series de tiempo

Pandas utiliza el tipo de dato "Timestamp" para el manejo de fechas y tiempo.

## String a Timestamp

In [0]:
ts_index = pd.to_datetime(["10/09/2006", "11/09/2006", "12/09/2006"])
ts_index

Creando una serie de tiempo desde objetos:

In [0]:
ts = pd.Series(["5", "10", "15"], index=ts_index)
ts

Creando una serie de tiempo usando aleatoriamente usando Numpy y date_range de Pandas:

In [0]:
ts = pd.Series(np.random.normal(0, 1, 100), index=pd.date_range(start="2006-01-01", periods=100, freq="D"))
ts.head(10)

## Indexing

Puedes utilizar fechas para indexar una serie de tiempo:

In [0]:
#usando el anio y mes como indice
ts["2006-02"]

In [0]:
#una rebanada entre fechas
ts["2006-02-20": "2006-03-10"]

## Resampling / agregación

Permite obtener desde una serie de tiempo una nueva serie de tiempo a una frecuencia de tiempo menor al agregar los datos.

In [0]:
#De frecuencia por dias a semanas
ts.resample("W").mean()

## Ventanas

Puedes aplicar ventanas deslizantes a series de tiempo para calcular distintos estadísticos.

In [0]:
ts.rolling(window=7).mean().head(14)