# Pandas

Pandas es la principal librería de python para el análisis y manejo de datos. Nos permite trabajar con información tabular e incluye distintos métodos para cargar, unir y transformar datos.  

Esta librería introduce dos nuevas estructuras de datos, la `Serie` y el `Dataframe`.

Por convensión pandas se importa de la siguiente manera:  

In [1]:
import pandas as pd

## Series

Las Series son son una estructura similar a un arreglo de numpy. Pueden contener distintos elementos y al igual que veíamos en los areglos de numpy, estos deben de ser del mismo tipo.  

Las series, como los arreglos, tienen un índice, pero a diferencia de estos, el indice puede ser de uno de distintos tipos en ligar de solo numérico.  

Para generar una serie podemos usar la clase `pd.Series()`

In [2]:
valores = ['a', 'b', 'c', 'd', 'e']

pd.Series(valores)

0    a
1    b
2    c
3    d
4    e
dtype: object

In [3]:
valores = ['a', 'b', 'c', 'd', 'e']
indice = ['cero', 'uno', 'dos', 'tres', 'cuatro']

pd.Series(valores, index=indice)

cero      a
uno       b
dos       c
tres      d
cuatro    e
dtype: object

## DataFrames

Los Dataframes son otra estructura de datos introducuda por Pandas. Estos almacenan datos de manera tabular (similar a una base de datos u hoja de cálculo).  

Para crear un Dataframe podemos utilizar la clase `pd.DataFrame()` disponible en Pandas.  

In [4]:
valores = ['a', 'b', 'c', 'd', 'e']
mas_valores = ['A', 'B', 'C', 'D', 'E']
indice = ['cero', 'uno', 'dos', 'tres', 'cuatro']

df = pd.DataFrame({'minusculas': valores, 'mayusculas': mas_valores}, index=indice)
df

Unnamed: 0,minusculas,mayusculas
cero,a,A
uno,b,B
dos,c,C
tres,d,D
cuatro,e,E


## Indices y Columnas

Tanto en las Series como en los DataFrames podemos acceder al indice del objeto usando el atributo `index` usando la sintaxis `objeto.index`.

In [5]:
df.index

Index(['cero', 'uno', 'dos', 'tres', 'cuatro'], dtype='object')

También podemos acceder a las columnas de un dataframe usando la sintaxis `df.columns`.

In [6]:
df.columns

Index(['minusculas', 'mayusculas'], dtype='object')

## Operaciones con escalares

Cuando realizamos operaciones entre un objeto de pandas y un escalar sucede algo similar a lo que sucede con numpy, la operación se replica a todos los elementos contenidos la serie o dataframe.

In [7]:
serie = pd.Series([1, 2, 3, 4])

serie * 100

0    100
1    200
2    300
3    400
dtype: int64

In [8]:
df = pd.DataFrame([[10, 40], 
                   [20, 50], 
                   [30, 60]])
df + 5

Unnamed: 0,0,1
0,15,45
1,25,55
2,35,65


## Operaciones de comparación

Además de operaciones aritméticas podemos aplicar comparaciones. Estas nos regresan series o dataframes de valores booleanos que tienen la misma forma del objeto original.

In [9]:
serie > 2

0    False
1    False
2     True
3     True
dtype: bool

In [10]:
df >= 40

Unnamed: 0,0,1
0,False,True
1,False,True
2,False,True


## Operaciones entre objetos de Pandas

### Operacione entre series
Al realizar operaciones entre dos series, Pandas realiza la operación entre los elementos que comparten el mismo índice.  

In [11]:
a = pd.Series([1, 1, 1], index=['a', 'b', 'c'])
b = pd.Series([2, 2, 2], index=['b', 'c', 'd'])

a + b

a    NaN
b    3.0
c    3.0
d    NaN
dtype: float64

### Operaciones entre dataframes
Al realizar operaciones entre dos dataframes, sucede algo similar. Panads realiza la operación solo en los elementos donde coinice el índice y la columna.

In [12]:
A = pd.DataFrame([[1, 1], [1, 1], [1, 1]], index=['a', 'b', 'c'], columns=['uno', 'dos'])
B = pd.DataFrame([[2, 2], [2, 2], [2, 2]], index=['b', 'c', 'd'], columns=['dos', 'tres'])

A + B

Unnamed: 0,dos,tres,uno
a,,,
b,3.0,,
c,3.0,,
d,,,


### Operaciones entre series y dataframes

Cuando realizamos operaciones entre una serie y un dataframe, Pandas realiza la operación solo sobre los elementos donde la columna del dataframe coincida con el índice de la serie.

In [13]:
df = pd.DataFrame([[1, 1, 1], [1, 1, 1], [1, 1, 1]], index=['a', 'b', 'c'], columns=['uno', 'dos', 'tres'])
serie = pd.Series([10, 20], index=['uno', 'dos'])

df + serie

Unnamed: 0,dos,tres,uno
a,21.0,,11.0
b,21.0,,11.0
c,21.0,,11.0


## Métodos disponibles

Pandas nos ofrece una fran cantidad de métodos incluidos en los objetos que generamos con esta librería. A continuación mencionamos solo algunos de los más comunes.  

***DataFrames:***  
> * `pd.DataFrame.min()`
> * `pd.DataFrame.max()`
> * `pd.DataFrame.mean()` 
> * `pd.DataFrame.set_index()` \*  
> * `pd.DataFrame.reset_index()` 

\*: Estos métodos solo están disponibles en los dataframes.

***Series:***  
> * `pd.Series.min()`
> * `pd.Series.max()`
> * `pd.Series.mean()` 
> * `pd.Series.reset_index()` 
> * `pd.Series.unique()` \*\*  
> * `pd.Series.value_counts()` \*\*  

\*\*: Estos métodos solo están disponibles en las series.


Puedes revisar la lista de los metodos disponibles en la doumentación de [Serie](https://pandas.pydata.org/pandas-docs/version/0.23.4/api.html#series) y [DataFrame](https://pandas.pydata.org/pandas-docs/version/0.23.4/generated/pandas.DataFrame.html).  

### Datos Faltantes

Dentro de los muchos métodos disponibles en Pandas, existen varios que nos ayudan a trabajar con datos faltantes. Algunos de los más comunes son los siguientes:  

> * `pd.Series.dropna()`: Elimina los registros con valores nulos.  
> * `pd.Series.fillna()`: Remplaza los elementos nulos con el valor indicado.
> * `pd.Series.interpolate()`: Infiere el valor de los elementpos nulos apartir de los datos disponibles.


## Acceder a la información

Tanto los indices como las columnas de objeto de Pandas pueden ser usados para localizar información dentro del mismo usando la sintaxis `objeto[valor]`. Cabe mencionar que esta funciona un poco diferente para series y dataframes.  

## Series
Cuando usamos la sintaxis `serie[valor]`, Pandas busca en el índice y nos regresa el elemento correspondiente al valor que indicamos.

In [14]:
serie = pd.Series([1, 2, 3], index=['a', 'b', 'c'])
serie

a    1
b    2
c    3
dtype: int64

In [15]:
serie['b']

2

### DataFrames
Cuando usamos la sintaxis `df[valor]` en un dataframe, Pandas nos regresa una serie con el contenido de la columna con el nombre que indiquemos dentro de los corchetes.  

In [16]:
df = pd.DataFrame([[1, 2, 3], [1, 2, 3], [1, 2, 3]], index=['a', 'b', 'c'], columns=['uno', 'dos', 'tres'])
df

Unnamed: 0,uno,dos,tres
a,1,2,3
b,1,2,3
c,1,2,3


In [17]:
df['uno']

a    1
b    1
c    1
Name: uno, dtype: int64

En lugar de enviar solo un valor, podemos mandar una lista de valores y en lugar de regresar una serie, Pandas nos regresará un dataframe con las columnas que solicitemos.

In [18]:
df[['uno', 'tres']]

Unnamed: 0,uno,tres
a,1,3
b,1,3
c,1,3


### loc

Pandas nos permite tambien buscar en el índice de un dataframe (o serie) mediante el atributo loc. Para usarlo usamos la siguiente sintaxis `df.loc[valor]`, introduciendo el valor del indice que buscamos dentro de corchetes. 

In [19]:
df = pd.DataFrame([[1, 2, 3], [1, 2, 3], [1, 2, 3]], index=['a', 'b', 'c'], columns=['uno', 'dos', 'tres'])
df

Unnamed: 0,uno,dos,tres
a,1,2,3
b,1,2,3
c,1,2,3


In [20]:
df.loc['b']

uno     1
dos     2
tres    3
Name: b, dtype: int64

### iloc

El atributo `iloc` nos permite usar indices numéricos para acceder a los datos de forma similar a la que usamos con numpy. Para usarlo usamos la siguiente sintaxis `df.iloc[indice]`.

In [21]:
df = pd.DataFrame([[1, 1, 1], [2, 2, 2], [3, 3, 3]], index=['a', 'b', 'c'], columns=['uno', 'dos', 'tres'])
df

Unnamed: 0,uno,dos,tres
a,1,1,1
b,2,2,2
c,3,3,3


In [22]:
df.iloc[0]

uno     1
dos     1
tres    1
Name: a, dtype: int64

## Mascaras (filtros)

Además de poder buscar información en base a los indices y columnas, Pandas nos permite hacer filtros (llamados máscaras) para series y datafremes en base a una serie de valores booleanos.

In [25]:
mascara = [True, False, True, False, True, False, True, False, True, False]
serie = pd.Series(['cero', 'uno', 'dos', 'tres', 'cuatro', 'cinco', 'seis', 'siete', 'ocho', 'nueve'])
serie

0      cero
1       uno
2       dos
3      tres
4    cuatro
5     cinco
6      seis
7     siete
8      ocho
9     nueve
dtype: object

In [26]:
serie[mascara]

0      cero
2       dos
4    cuatro
6      seis
8      ocho
dtype: object

In [27]:
mascara = serie.index % 3 == 0
serie[mascara]

0     cero
3     tres
6     seis
9    nueve
dtype: object

## Agrupaciones (groupby)

Cuando trabajamos con información frecuentamente nos encontramos con la necesidad de hacer agregaciones en base a algun criterio. Para estos casos, las series y datagrames cuentan con el metodo `objeto.groupby()`. este nos permite agrupar la información en base a una o más columnas. Despúes de agrupar, podemos indicar un metodo que usaremos para agregar los datos.

In [28]:
tipo = ['casa', 'departamento', 'casa', 'departamento', 'casa', 'departamento', 'casa', 'departamento']
superficie = [210, 80, 120, 93, 154, 63, 140, 100]

df = pd.DataFrame({'tipo': tipo, 'superficie': superficie})
df

Unnamed: 0,tipo,superficie
0,casa,210
1,departamento,80
2,casa,120
3,departamento,93
4,casa,154
5,departamento,63
6,casa,140
7,departamento,100


In [30]:
df.groupby('tipo').mean()

Unnamed: 0_level_0,superficie
tipo,Unnamed: 1_level_1
casa,156
departamento,84


### Método apply

El método apply nos permite ejecutar una función a cada uno de los grupos que genera el método groupby.

In [32]:
def get_max(objeto):
    """
    Recibe un obeto de pandas y regresa el valor máximo si recibe 
    una serie o una serie con los valores máximos de cada columna 
    si recibe un dataframe.
    """
    return objeto.max()


df.groupby('tipo')['superficie'].apply(get_max)

tipo
casa            210
departamento    100
Name: superficie, dtype: int64

## Funciones Lambda

Las funciones lambda no son propias de Pandas, son una funcionalidad de python que nos permite generar funciones anónimas. Estas cobran especial relevancia en pandas porque combinados con el metodo `objeto.apply()` nos permiten  realizar operaciones muy variadas.  

Como ejemplo, podemos convertir la función del ejemplo anterior a una función lambda de la siguiente manera:

In [36]:
df.groupby('tipo')['superficie'].apply(lambda grupo: grupo.max())

tipo
casa            210
departamento    100
Name: superficie, dtype: int64

## Merge, Join y Concatenate

In [46]:
idx_0 = ['uno', 'dos', 'tres', 'cuatro']
unidades = [1, 2, 3, 4]

idx_1 = ['cuatro', 'tres', 'dos', 'uno']
decenas = [40, 30 , 20 , 10]

df_0 = pd.DataFrame({'unidades': unidades}, index=idx_0)
df_1 = pd.DataFrame({'decenas': decenas}, index=idx_1)

### Merge

El método merge nos permite unir dos dataframes de manera similar a un join de SQL. Por defecto, el tipo de unión es el de la intersección de ambos dataframes (inner join de SQL) y es necesario indicar qué indices o columnas  se van a utilizar para la unión.

In [47]:
df_0.merge(df_1, left_index=True, right_index=True)

Unnamed: 0,unidades,decenas
uno,1,10
dos,2,20
tres,3,30
cuatro,4,40


### Join

El método join funciona de manera similar a la del merge, pero asume varias cosas, por defecto hace un left join y hace la unión basado en los índices de los dataframes.

In [48]:
df_0.join(df_1)

Unnamed: 0,unidades,decenas
uno,1,10
dos,2,20
tres,3,30
cuatro,4,40


### Concatenate

Concatenate une dos o más dataframes sobre un eje. Alinea los indices o columnas de los dataframes dependiendo del eje en que se unen.

In [54]:
pd.concat([df_0, df_1], axis='index', sort=False)

Unnamed: 0,unidades,decenas
uno,1.0,
dos,2.0,
tres,3.0,
cuatro,4.0,
cuatro,,40.0
tres,,30.0
dos,,20.0
uno,,10.0


In [55]:
pd.concat([df_0, df_1], axis='columns', sort=False)

Unnamed: 0,unidades,decenas
uno,1,10
dos,2,20
tres,3,30
cuatro,4,40
