# Manipulación de Datos con Pandas

Pandas es un paquete creado sobre Numpy, los ``DataFrame`` son conjunto de datos multidimensionales con etiquetas de fila y columna.  Ademas de ofrecer una interfaz de almacenamiento para datos etiquetados, Pandas implementa potentes operaciones de datos.

## Instalando Pandas

La instalación de Pandas requiere en el sistema el paquete Numpy.

Para instalarlo se usa el comando:
```
# Instalacion con pip
pip install pandas

# Instalacion con conda
conda install pandas
```
Luego de instalado, se importa y se puede chequear la version de la siguiente manera:

In [0]:
import pandas as pd
pd.__version__

# Introducción a los Objetos de Pandas

Pandas proporciona una serie de herramientas, métodos y funciones útiles además de las estructuras de datos básicas.

Las tres estructuras de datos fundamentales de Pandas: ``Series``, ``DataFrame``, ``Index``.

In [0]:
import numpy as np
import pandas as pd

## El objeto Series de Pandas

Una ``Series`` de Pandas es una matriz unidimensional de datos indexados.

Se puede crear a partir de una lista o matriz de la siguiente manera:

In [0]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

Como vemos en la salida, la ``Series`` devuelve una secuencia de valores que son los indices y los valores.  Nosotros podemos acceder al objeto con los ``values`` y los ``index`` que son atributos del objeto.

Para acceder a los ``values``:

In [0]:
data.values

El ``index`` es un objeto tipo matriz de tipo ``pd.Index``.

In [0]:
data.index

Adicional se puede acceder a los datos con la notacion de corchetes (`[]`):

In [0]:
data[1]

In [0]:
data[1:3]

La serie de Pandas tiene un indice explicitamente definido asociado a los valores, sin embargo el indice no debe de ser entero, puede ser valores de cualquier tipo.

Por ejemplo, si lo deseamos, podemos usar cadenas como indice:

In [0]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
data

Y se puede acceder al valor:

In [0]:
data['b':'d']

Se pueden usar indices no secuenciales:

In [0]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=[2, 5, 3, 7])
data

In [0]:
data[5]

De esta manera se puede pensar en una serie de pandas como una especialización de un diccionario de Python.

In [0]:
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}
population = pd.Series(population_dict)
population

Por defecto se crea una serie donde el indice se extrae de las claves ordenadas.


In [0]:
population['California']

A diferencia de un diccionario, la serie permite operaciones tipo Slice:


In [0]:
population['California':'Florida']

### Construyendo objetos ``Series``

Ya hemos visto algunas formas de construir un objeto ``Series`` de Pandas desde una lista o diccionario. La sintaxis es la siguiente:

```python
pd.Series(data, index=index)
```

Donde el argumento ``index`` es opcional, y ``data`` puede ser una de muchas entidades (Lista, Diccionario).

Si se tiene que ``data`` es un escalar y se define el argumento ``index`` este se repetira, dependiendo del indice:


In [0]:
pd.Series(5, index=[100, 200, 300])

Como vimos al crear una serie a partir de un diccionario, por defecto los indices son las claves del diccionario, sin embargo, el índice se puede establecer explícitamente si se prefiere un resultado diferente:

In [0]:
pd.Series({2:'a', 1:'b', 3:'c'}, index=[3, 2])

## El Objeto DataFrame de Pandas

La otra estructura fundamental de Pandas es el ``DataFrame``.  Como las ``Series``, el ``DataFrame`` puede ser visto como una generalización de una matriz Numpy o como una expecializacion de un diccionario Python.

Así como una ``Series``es un análogo de una matriz unidimensional con indices flexibles, un ``DataFrame`` es un análogo de una matriz bidimensional con indices flexibles y nombres de columna flexibles.


In [0]:
area_dict = {'California': 423967, 'Texas': 695662, 'New York': 141297,
             'Florida': 170312, 'Illinois': 149995,'Prueba':123}
area = pd.Series(area_dict)
area


Ahora que tenemos esto junto con la serie ``population`` de antes, podemos usar un diccionario para construir un solo objeto bidimensional que contenga esta información:

In [0]:
population

In [0]:
states = pd.DataFrame({'population': population,
                       'area': area})
states


Al igual que el objeto Series, el DataFrame tiene un atributo de índice que da acceso a las etiquetas de índice:

In [0]:
states.index

In [0]:
type(states.index)

Además, el DataFrame tiene un atributo de columnas, que es un objeto Index que contiene las etiquetas de las columnas:

In [0]:
states.columns

Podemos ver la información de la columna `area` de la siguiente manera:

In [0]:
states['area']

In [0]:
pd.DataFrame({'HOLA':[123],'HOLA2':[1234]})

#### Creando Dataframes desde otro objeto

Un ``DataFrame`` puede ser construido desde una serie:

In [0]:
type(population)

In [0]:
pd.DataFrame(population, columns=['population'])

También puede ser creado desde un diccionario:

In [0]:
[{'a': i, 'b': 2 * i}
        for i in range(3)]

In [0]:
data = [{'a': i, 'b': 2 * i}
        for i in range(3)]
pd.DataFrame(data)


Incluso si faltan algunas claves en el diccionario, Pandas las completará con los valores ``NaN``:

In [0]:
pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}])

También puede crearse desde un diccionario de series:

In [0]:
pd.DataFrame({'population': population,
              'area': area})

In [0]:
pd.DataFrame(population)

Desde una matrix de dos dimensiones, especificando las columnas y los indices:

In [0]:
pd.DataFrame(np.random.rand(3, 2),
             columns=['foo', 'bar'],
             index=['a', 'b', 'c'])

## El objeto Index de Pandas

Hemos visto como el objeto ``Series`` y los ``DataFrames`` tienen un indice explícito que le permite hacer referencia y modificar datos.

Este objeto ``Index`` es una estructura que puede considerarse como una matriz inmutable o como un conjunto ordenado, un conjunto múltiple ya que los objetos indice pueden tener valores repetidos.

In [0]:
ind = pd.Index([2, 3, 5, 7, 11])
ind

El ``Index``puede operarse como una matriz. Por ejemplo, se puede usar la notación de indexación de Python para recuperar valores o sectores:

In [0]:
ind[1]

In [0]:
ind[::2]

``Index`` tambien tiene atributos como los de las matrices de Numpy:

In [0]:
print(ind.size, ind.shape, ind.ndim, ind.dtype)

Los indices son inmutables:

In [0]:
ind[1] = 0

Los objetos Pandas están diseñados para facilitar operaciones como las uniones entre conjuntos de datos, que dependen de muchos aspectos de la aritmética de conjuntos.

El objeto ``Index`` sigue muchas de las convenciones utilizadas por la estructura de datos ``set`` de Python, de modo que las uniones, intersecciones, diferencias y otras combinaciones se pueden calcular de una manera familiar:

In [0]:
indA = pd.Index([1, 3, 5, 7, 9])
indB = pd.Index([2, 3, 5, 7, 11])

In [0]:
indA & indB  # intersection

In [0]:
indA | indB  # union

In [0]:
indA ^ indB  # symmetric difference

# Indexación de datos y selección

## Selección de datos en Series

Como un diccionario, el objeto series provee la coleccion de keys y values:

In [0]:
import pandas as pd
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
data

In [0]:
data['b']


También podemos usar expresiones y métodos de Python tipo diccionario para examinar las claves / índices y valores:

In [0]:
'a' in data

In [0]:
data.keys()

In [0]:
list(data.items())


Los objetos ``Series`` pueden incluso modificarse con una sintaxis similar a un diccionario.

Del mismo modo que puede extender un diccionario al asignar a una nueva clave, puede extender una ``Serie`` al asignar a un nuevo valor de índice:

In [0]:
data['c'] = 2.25
data

### Series como una matriz de una dimensión

Una ``Series`` se basa en una interfaz tipo diccionario y proporciona una selección de elementos de estilo matriz a través de los mismos mecanismos básicos que las matrices Numpy, *slices*, *masking*, and *fancy indexing*.

Algunos ejemplos:

In [0]:
data

In [0]:
# slicing by explicit index
data['a':'c']

In [0]:
# slicing by implicit integer index
data[0:2]

In [0]:
# masking
data[(data > 0.3) & (data < 0.8)]

In [0]:
data

In [0]:
# fancy indexing
data[['a', 'd']]

Tenga en cuenta que al dividir con un indice explicito ``data['a':'c']`` el indice final se incluye, mientras que al dividir por el indice implicito ``data[0:2]`` el indice final es excluido.

### Indexers: loc, and iloc

Pandas proporciona algunos atributos especiales *indexer* que exponen explícitamente ciertos esquemas de indexación.

Estos no son métodos funcionales, sino atributos que exponen una interfaz de corte particular a los datos en la ``Serie``.

Primero, el atributo ``loc`` permite indexar y segmentar que siempre hace referencia al índice explícito:



In [0]:
data = pd.Series(['a', 'b', 'c'], index=[1, 3, 5])
data

In [0]:
# explicit index when indexing
data[1]

In [0]:
# implicit index when slicing
data[1:3]

In [0]:
data

In [0]:
data.iloc[1]

In [0]:
data.iloc[0]

In [0]:
data.loc[1]

In [0]:
data.loc[1:3]


El atributo ``iloc`` permite indexar y segmentar que siempre hace referencia al índice implícito de estilo Python

In [0]:
data.iloc[1]

In [0]:
data.iloc[1:3]

## Selección de datos en DataFrame

### DataFrame como un diccionario


In [0]:
area = pd.Series({'California': 423967, 'Texas': 695662,
                  'New York': 141297, 'Florida': 170312,
                  'Illinois': 149995})
pop = pd.Series({'California': 38332521, 'Texas': 26448193,
                 'New York': 19651127, 'Florida': 19552860,
                 'Illinois': 12882135})
data = pd.DataFrame({'area':area, 'pop':pop})
data


Se puede acceder a la ``Serie`` individual que forma las columnas del ``DataFrame`` a través de la indexación de estilo de diccionario del nombre de la columna:

In [0]:
data['area']

De manera equivalente, podemos usar el acceso de estilo de atributo con nombres de columna que son cadenas:

In [0]:
data.area

Al igual que con los objetos ``Series`` discutidos anteriormente, esta sintaxis de estilo de diccionario también se puede usar para modificar el objeto, en este caso agregando una nueva columna:



In [0]:
data['density'] = data['pop'] / data['area']
data

In [0]:
data[['area','density']]

### DataFrame como una matriz de dos dimensiones

Podemos examinar la matriz de datos sin procesar utilizando el atributo ``values``:

In [0]:
data.values

Se puede hacer operaciones tipo matriz, como por ejemplo transponer:

In [0]:
data.T

In [0]:
data

Pasar un indice a una matriz accede a una fila:

In [0]:
data.values[0]

Y pasar un solo ``index`` a un ``DataFrame`` accede a una columna:

In [0]:
data

Aqui Pandas nuevamente usa los indexadores ``loc``, ``iloc``.
Usando el ``iloc``, podemos indexar la matrix como el indice implicito:

In [0]:
data.iloc[:3, :2]


Del mismo modo, usando el indexador ``loc`` podemos indexar los datos subyacentes en un estilo de matriz, pero usando el índice explícito y los nombres de columna:

In [0]:
data.loc[:'Florida', :'pop']

Cualquiera de los patrones familiares de acceso a datos de estilo NumPy se puede usar dentro de estos indexadores.

Por ejemplo, en el indexador ``loc`` podemos combinar el enmascaramiento y la indexación elegante como se muestra a continuación:

In [0]:
data.loc[data.density > 100, ['pop', 'density']]

Cualquiera de estas convenciones de indexación también se puede usar para establecer o modificar valores; Esto se hace de la manera estándar a la que podría estar acostumbrado de trabajar con NumPy:

In [0]:
data

In [0]:
data.loc['California','density'] = 90.5

In [0]:
data.rename(index={'Illinois':'Cali'},inplace=True)

In [0]:
data.rename(columns={'pop':'population'},inplace=True)

In [0]:
data

In [0]:
data.iloc[0, 2] = 90
data

In [0]:
data['area']

*indexing* se refiere a columnas, *slicing* se refiere a filas:

In [0]:
data['Florida':'Cali']

*slices* también pueden referirse a filas por número en lugar de por índice:

In [0]:
data[1:3]

Del mismo modo, las operaciones de enmascaramiento directo también se interpretan a nivel de fila en lugar de a nivel de columna:

In [0]:
data[data.density > 100]

# Combining Datasets: Concat, Append, Merge y Join

Pandas incluye funciones y métodos que permiten hacer operaciones de union y concatenar entre dataframes.

La concatenación simple de ``Series``y ``DataFrame`` se realiza con la función ``pd.concat``.

Por conveniencia, definiremos esta función que crea un ``DataFrame`` de una forma particular que será útil a continuación:

In [0]:
def make_df(cols, ind):
    """Quickly make a DataFrame"""
    data = {c: [str(c) + str(i) for i in ind]
            for c in cols}
    return pd.DataFrame(data, ind)

# example DataFrame
make_df('ABC', range(3))

Además, crearemos una clase rápida que nos permita mostrar múltiples ``DataFrame`` uno al lado del otro. El código utiliza el método especial ``_repr_html_``, que IPython usa para implementar su visualización de objetos enriquecidos:

In [0]:
class display(object):
    """Display HTML representation of multiple objects"""
    template = """<div style="float: left; padding: 10px;">
    <p style='font-family:"Courier New", Courier, monospace'>{0}</p>{1}
    </div>"""
    def __init__(self, *args):
        self.args = args
        
    def _repr_html_(self):
        return '\n'.join(self.template.format(a, eval(a)._repr_html_())
                         for a in self.args)
    
    def __repr__(self):
        return '\n\n'.join(a + '\n' + repr(eval(a))
                           for a in self.args)
    

## Simple Concatenation with ``pd.concat``

Pandas tiene una función, ``pd.concat()``, que tiene una sintaxis similar a ``np.concatenate`` pero contiene una diferentes argumentos:

```python
# Signature in Pandas v0.18
pd.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False,
          keys=None, levels=None, names=None, verify_integrity=False,
          copy=True)
```

``pd.concat()`` puede ser usado para una concatenacion simple de ``Series`` o ``DataFrames``:

In [0]:
ser1 = pd.Series(['A', 'B', 'C'], index=[1, 2, 3])
print(ser1)
ser2 = pd.Series(['D', 'E', 'F','G'], index=[4, 5, 6,7])
print(ser2)
pd.concat([ser1, ser2],axis=1)

It also works to concatenate higher-dimensional objects, such as ``DataFrame``s:

In [0]:
df1 = make_df('AB', [1, 2])
print(df1.shape)
df2 = make_df('ABC', [4, 5 , 56])
print(df2.shape)
display('df1', 'df2', 'pd.concat([df1, df2],sort=False)')
#print(pd.concat([df1, df2],sort=False).shape)

In [0]:
pd.concat([df1, df2],sort=True)

Por defecto, la concatenación se lleva a cabo en filas dentro del ``DataFrame`` (es decir, ``axis = 0``).

Al igual que `` np.concatenate``, ``pd.concat`` permite la especificación de un eje a lo largo del cual tendrá lugar la concatenación.
Considere el siguiente ejemplo:

In [0]:
df3 = make_df('AB', [0, 1])
df4 = make_df('CD', [0, 1])
display('df3', 'df4', "pd.concat([df3, df4], axis=1)")

Una diferencia importante entre ``np.concatenate`` y ``pd.concat`` es que la concatenación de Pandas *preserva los índices*, ¡incluso si el resultado tendrá índices duplicados!

Considere este simple ejemplo:

In [0]:
x = make_df('AB', [0, 1])
y = make_df('AB', [2, 3])
y.index = x.index  # make duplicate indices!
display('x', 'y', 'pd.concat([x, y])')

Si el indice no importa este puede ser ignorado utilizando el indicador `` ignore_index``.

Con este conjunto en verdadero, la concatenación creará un nuevo índice entero para la ``Serie``
 resultante:

In [0]:
display('x', 'y', 'pd.concat([x, y], ignore_index=True)')

## Merge y Join

Ambas funciones permiten que los datos de diferentes dataframes se combinen en uno solo de acuerdo con una regla de "cruce" o "búsqueda".

Aunque tanto `merge` como `join` hacen cosas similares, la forma en que lo hacen es diferente.

La función `merge` es la función predeterminada de pandas para unir datos. Básicamente es contraparte de *pandas de la unión de SQL*, y requiere la especificación de qué columnas de ambos dataframes se compararán. A Merge no le importa en absoluto los índices definidos en ellos.

Por otro lado, la función `join` de Pandas es más conveniente (incluso utiliza merge internamente), unir es básicamente hacer una fusión aprovechando los índices de ambos marcos de datos.

La siguiente figura resume los diferentes 4 tipos de combinaciones: _inner, outer, left and right_.



In [0]:
from google.colab import drive
drive.mount('/content/drive')

In [0]:
from IPython.display import Image
Image('/content/drive/My Drive/ML_COURSES_CEC/1. Ciencia de Datos con Python/Estudiantes/Cohorte 2020-01 (Mar-Jue) Bancolombia/Numpy y Pandas/merge.png')

La función merge también está disponible como método en la clase `DataFrame`.
La sintaxis básica es:

```
new_joined_df = df.merge (another_df, left_on = "col_in_df", right_on = "col_in_another_df",
                          how="inner"|"left"|"right"|"outer")
```

El primer argumento (`another_df`), así como` left_on` y `right_on` son argumentos obligatorios.
`left_on` especifica un nombre de columna en el dataframe `df` cuyos valores deben coincidir con
los de la columna `another_df` 'especificados en `right_on`.

El argumento `how` es opcional y por defecto es `inner`.

In [0]:
pd.merge()

In [0]:
staff_df = pd.DataFrame([{'Name': 'Kelly', 'Role': 'Director of HR'},
                         {'Name': 'Sally', 'Role': 'Course liasion'},
                         {'Name': 'James', 'Role': 'Grader'}])
staff_df = staff_df.set_index('Name')
student_df = pd.DataFrame([{'Name': 'James', 'School': 'Business'},
                           {'Name': 'Mike', 'School': 'Law'},
                           {'Name': 'Sally', 'School': 'Engineering'}])
student_df = student_df.set_index('Name')
display('staff_df', 'student_df', 'staff_df.merge(student_df, how="outer", left_index=True, right_index=True)')

In [0]:
pd.merge(staff_df, student_df, how='outer', left_index=True, right_index=True)

In [0]:
display('staff_df', 'student_df', 'staff_df.merge(student_df, how="inner", left_index=True, right_index=True)')

In [0]:
display('staff_df', 'student_df', 'staff_df.merge(student_df, how="left", left_index=True, right_index=True)')

In [0]:
display('staff_df', 'student_df', 'staff_df.merge(student_df, how="right", left_index=True, right_index=True)')

In [0]:
staff_df = staff_df.reset_index()
student_df = student_df.reset_index()
display('staff_df', 'student_df', 'pd.merge(staff_df, student_df, how="left", left_on="Name", right_on="Name")')


In [0]:
display('staff_df', 'student_df', 'pd.merge(staff_df, student_df, how="left", on="Name")')

In [0]:
staff_df = pd.DataFrame([{'Name': 'Kelly', 'Role': 'Director of HR', 'Location': 'State Street'},
                         {'Name': 'Sally', 'Role': 'Course liasion', 'Location': 'Washington Avenue'},
                         {'Name': 'James', 'Role': 'Grader', 'Location': 'Washington Avenue'}])
staff_df

In [0]:
student_df = pd.DataFrame([{'Name': 'James', 'School': 'Business', 'Location': '1024 Billiard Avenue'},
                           {'Name': 'Mike', 'School': 'Law', 'Location': 'Fraternity House #22'},
                           {'Name': 'Sally', 'School': 'Engineering', 'Location': '512 Wilson Crescent'}])
student_df

In [0]:
display('staff_df','student_df','pd.merge(staff_df, student_df, how="left", left_on="Name", right_on="Name")')

In [0]:
staff_df = pd.DataFrame([{'First Name': 'Kelly', 'Last Name': 'Desjardins', 'Role': 'Director of HR'},
                         {'First Name': 'Sally', 'Last Name': 'Brooks', 'Role': 'Course liasion'},
                         {'First Name': 'James', 'Last Name': 'Wilde', 'Role': 'Grader'}])
staff_df

In [0]:
student_df = pd.DataFrame([{'First Name': 'James', 'Last Name': 'Hammond', 'School': 'Business'},
                           {'First Name': 'Mike', 'Last Name': 'Smith', 'School': 'Law'},
                           {'First Name': 'Sally', 'Last Name': 'Brooks', 'School': 'Engineering'}])
student_df

In [0]:
pd.merge(staff_df, student_df, how='inner', left_on=['First Name','Last Name'], right_on=['First Name','Last Name'])

### El metodo ``append()``

Debido a que la concatenación de matriz directa es tan común, los objetos `` Series`` y ``DataFrame`` tienen un método de ``append`` que puede lograr lo mismo en menos pulsaciones de teclas.
Por ejemplo, en lugar de llamar a ``pd.concat([df1, df2])``, simplemente puede llamar a ``df1.append(df2)``:

In [0]:
display('df1', 'df2', 'df1.append(df2)')

# Aggregation and Grouping

Un análisis esencial de grandes datos es un resumen eficiente: agregaciones informáticas como ``sum()``, ``mean()``, ``median()``, ``min()`` y ``max()``, en el que un solo número da una idea de la naturaleza de un conjunto de datos potencialmente grande.

En esta sección, exploraremos las agregaciones en Pandas, desde operaciones simples similares a las que hemos visto en los arreglos NumPy, hasta operaciones más sofisticadas basadas en el concepto de ``groupby``.

## Datos de Planetas

Aquí usaremos el conjunto de datos de Planetas, disponible a través del [paquete Seaborn] (http://seaborn.pydata.org/).

Proporciona información sobre los planetas que los astrónomos han descubierto alrededor de otras estrellas (conocidos como *planetas extrasolares* o *exoplanetas* para abreviar). Se puede descargar con un simple comando Seaborn:

In [0]:
import seaborn as sns
planets = sns.load_dataset('planets')
planets.shape

In [0]:
planets.head()

Esto tiene algunos detalles sobre los más de 1,000 planetas extrasolares descubiertos hasta 2014.

## Agregación simple en Pandas

In [0]:
planets.sum()

In [0]:
planets['distance'].sum()

In [0]:
planets['distance'].mean()

Al especificar el argumento ``axis``, puede agregar en su lugar dentro de cada fila:

In [0]:
planets[['orbital_period',	'mass',	'distance']].sum(axis='columns')

In [0]:
planets[['orbital_period',	'mass',	'distance']].head()

In [0]:
planets.dropna().describe()

In [0]:
planets.dropna().describe()

In [0]:
planets.dropna().describe(include=['O'])

In [0]:
planets.info()

La siguiente tabla resume algunas otras agregaciones integradas de Pandas:

| Aggregation              | Description                     |
|--------------------------|---------------------------------|
| ``count()``              | Total number of items           |
| ``first()``, ``last()``  | First and last item             |
| ``mean()``, ``median()`` | Mean and median                 |
| ``min()``, ``max()``     | Minimum and maximum             |
| ``std()``, ``var()``     | Standard deviation and variance |
| ``mad()``                | Mean absolute deviation         |
| ``prod()``               | Product of all items            |
| ``sum()``                | Sum of all items                |

## GroupBy

Quizás el patrón más común cuando se realizan análisis descriptivos es el de agrupar por alguna columna y luego agregar una o más columnas en cada uno de los grupos resultantes.

Ejemplo:

In [0]:
by_method = planets.dropna().groupby(['method','year']).agg({'distance':['min','mean','max']})
by_method

In [0]:
by_method.index

In [0]:
by_method.columns

In [0]:
by_method.loc['Transit']

In [0]:
by_method.loc['Radial Velocity']

In [0]:
by_method.loc['Radial Velocity'].loc[2010:2011].sum()

In [0]:
by_method['distance']

In [0]:
by_method[('distance','max')]

## Crosstab

Una de las funciones utiles en Pandas es ``crosstab``:

In [0]:
planets1 = planets.dropna()

In [0]:
import pandas as pd
pd.crosstab(planets1['method'], planets1['year'])

## Pivot Table

In [0]:
import numpy as np
planets.dropna().pivot_table(values='distance',index='year',columns='method', aggfunc=np.mean)

# Date Functionality in Pandas

### Timestamp

In [0]:
pd.Timestamp('10:05PM 9/1/2016')

In [0]:
help(pd.Timestamp)

### Period

In [0]:
pd.Period('1/2016')

In [0]:
pd.Period('3/5/2016')

### DatetimeIndex

In [0]:
t1 = pd.Series(list('abc'), [pd.Timestamp('2016-09-01'), pd.Timestamp('2016-09-02'), pd.Timestamp('2016-09-03')])
t1

In [0]:
list('abc')

In [0]:
type(t1.index)

### PeriodIndex

In [0]:
t2 = pd.Series(list('def'), [pd.Period('2016-09'), pd.Period('2016-10'), pd.Period('2016-11')])
t2

In [0]:
type(t2.index)

### Converting to Datetime

In [0]:
d1 = ['2 June 2013', 'Aug 29, 2014', '2015-06-26', '7/12/16']
ts3 = pd.DataFrame(np.random.randint(10, 100, (4,2)), index=d1, columns=list('ab'))
ts3

In [0]:
ts3.index = pd.to_datetime(ts3.index)
ts3

In [0]:
pd.to_datetime('4.7.12', dayfirst=True)

In [0]:
pd.to_datetime('4.7.12')

### Timedeltas

In [0]:
pd.Timestamp('9/3/2016')-pd.Timestamp('9/1/2016')

In [0]:
pd.Timestamp('9/2/2016 8:10AM') + pd.Timedelta('12D 3H')

### Working with Dates in a Dataframe

In [0]:
dates = pd.date_range('28-01-2020', periods=9, freq='2W-SUN')
dates

In [0]:
df = pd.DataFrame({'Count 1': 100 + np.random.randint(-5, 10, 9).cumsum(),
                  'Count 2': 120 + np.random.randint(-5, 10, 9)}, index=dates)
df

In [0]:
df.index.weekday_name

In [0]:
df.diff(2)

In [0]:
df

In [0]:
df.resample('M').mean()

In [0]:
df['2020']

In [0]:
df['2020-03']

In [0]:
df['2020-03':]

In [0]:
df.asfreq('W', method='ffill')

In [0]:
df.asfreq('D')

In [0]:
# %matplotlib notebook
df.plot();

In [0]:
help(df.plot)

In [0]:
df.plot(kind='bar');

In [0]:
df.hist(bins=20);

In [0]:
?df.hist