# Introduction to Python3: Pandas

Pandas es un paquete de Python que permite optimizar el uso de datos. Las siguientes notas fueron tomadas del tutorial *Python for Data Analysis-Pandas Lightning Tutorials, Alfred Essa* perteneciente a la serie *Pandas cookbook*.

Para estos notebooks se utilizó Pandas en la versión 0.20.2 en la cual se notan algunas diferencias con la versión 0.17.

## Serie de datos

Para comenzar a trabajar en la exploración y análisis de datos con Pandas se requiere crear una **serie de datos**. Una serie de datos es un objeto que consiste de un conjunto de elementos del mismo o diferente tipo. Este objeto puede ser una lista, un array, o un diccionario.

In [None]:
# importar pandas y nuympy
import pandas as pd
import numpy as np

Una vez importados los paquetes *pandas* y *numpy* utilizamos la función `Series()` del paquete Pandas para crear una serie de datos. `Series()` es el método básico para crear una Serie de datos:

`a = Series(data, index=index)`

**Ejemplo1:** Serie de datos con índices por default

In [None]:
# Serie de datos con base en un lista de 
# enteros
s1 = pd.Series([33, 19, 89, 11, 5, 9])


In [None]:
# Si no se especifica un índice en el conjunto de datos
# el constructor del objeto Series crea un índice por
# default como una lista consecutiva enteros
s1

In [None]:
# tipo de dato del objeto Series de pandas
type(s1)

In [None]:
# recupera los valores de la serie
s1.values

In [None]:
# tipo de dato que contiene los valores de la serie
type(s1.values)

In [None]:
# recupera los indices del array
s1.index

In [None]:
# asocia una serie como un mapeo de indices a valores
s1

**Ejemplo2:** Serie con índices que tienen significado específico

In [None]:
# Se definen la serie de datos e índices
data1 =[33, 19, 15, 89, 11, 5, 9]
index1 = ['Mon', 'Tue', 'Wed', 'Thu', 'Fri','Sat','Sun']

In [None]:
# Se crean las series
s2 = pd.Series(data1, index = index1)

In [None]:
s2

In [None]:
# verifica el índice
s2.index

In [None]:
# asigna etiquetas a la serie de datos y al índice.
s2.name = 'Daily Temperature'
s2.index.name = 'Weekday'

In [None]:
s2

Los valores en una serie de datos son homogéneos. Python modifica los valores de una serie con distintos tipos al tipo de mayor capacidad 

In [None]:
# serie con datos no homogéneos
data2 = [33, 19.3, 15, 89, 11, -5, 9]

In [None]:
s3 = pd.Series(data2, index = index1)

In [None]:
# los datos son de tipo float
s3

**Ejemplo 3:** Series a partir de diccionarios

In [None]:
dict1 = {'Mon': 33, 'Tue': 19, 'Wed': 15, 'Thu': 89, 'Fri': 11, 'Sat': 5, 'Sun': 9}

In [None]:
s4 = pd.Series(dict1)

In [None]:
s4

La representación más general de una serie de datos es arreglo ordenado de duplas llave-valor.
* El orden está representado por un offset
* La dupla llave-valor es un mapeo que asocia un índice o etiquea a un valor del arreglo de datos
* Índice como "offset" o "posición" vs índice como "etiqueta" o "llave" 

**Series como ndarray de numpy**

In [None]:
# operaciones vectorizadas
s4

In [None]:
s4 * 2

In [None]:
np.log(s4)

**Nota**: NaN (not a number) es el marcador por default que asigna pandas a un dato faltante 

In [None]:
# slice usando las etiquetas del índice
s4['Thu':'Wed']

In [None]:
# slice usando posición
s4[1:3]

In [None]:
# recupera valores usando el offset
s4[1]

In [None]:
# asignación de valores
s4[1] = 199

In [None]:
s4

El objeto serie es una subclase de ndarray de numpy, por tanto dicho objeto tiene la mayoría de los métodos del ndarray.

In [None]:
s4

In [None]:
# la media de la serie de valores
s4.median() 

In [None]:
# máximo valor de la serie
s4.max()

In [None]:
# suma acumulada
s4.cumsum()

El objeto serie no es iterable pero puede hacerse iterable por medio del la función `enumerate()` que devuelve un objeto iterable que contiene índice y valor.

In [None]:
# itera sobre los valores de la serie
# usando enumerate() devuelve un objeto iterable
for i,v in enumerate(s4):
    print (i, v)

In [None]:
# comprensión de listas puede usarse para crear una nueva lista
new_list = [x**2 for x in s4]
new_list

Las objeto serie funciona como un diccionario 

In [None]:
# la llave se encuentra en la lista
'Sun' in s4

In [None]:
s4['Tue']

In [None]:
# recupera un vloar usando llave o índice
s4['Wed']

In [None]:
# asiganación por medio de la llave
s4['Tue'] = 200

In [None]:
s4

Otra forma de hacer iterable una serie es por medio del método `iteritems()`

In [None]:
# itera sobre el diccionario por medio de llave y valores
for k,v in s4.iteritems():
    print (k,v)

## DataFrames

Pandas permite crear el objeto **DataFrame** que es un arreglo bidimensional con renglones y columnas etiquetadas y indexadas.
* Los datos del array pueden ser de tipo: entero, cadena, números de punto flotante, objetos de Python, etc.
* Los datos contenidos en cada columna son homogéneos
* Por default Pandas crea un índice numérico para los renglones en la sequencia 0,...,n

![](./dataFrame)

Adicionalmente, cualquier columna puede utilizarse como índice de los datos.

In [None]:
import pandas as pd
import datetime

In [None]:
# crea un lista que contiene fechas 01/12 al 07/12
dt = datetime.datetime(2013,12,1)
end = datetime.datetime(2013,12,8)
step = datetime.timedelta(days=1)
dates = []

In [None]:
# popule the list
while dt < end:
    dates.append(dt.strftime('%m-%d'))
    dt += step

In [None]:
dates

In [None]:
d = {'Date': dates, 'Tokyo':[15, 19, 15, 11, 9, 8, 13], 
     'Paris': [-2, 0, 2, 5, 7, -5, -3], 
     'Mumbai': [20, 18, 23, 19, 25, 27, 23]}

In [None]:
d

**Ejemplo 4:** Crear un objeto DataFrame desde un Diccionario de Python con listas de igual longitud

In [None]:
temps = pd.DataFrame(d)
temps

In [None]:
temps.Mumbai

In [None]:
temps['Mumbai']

In [None]:
type(temps['Mumbai'])

In [None]:
ntemp = temps['Mumbai']

In [None]:
ntemp

In [None]:
temps

In [None]:
temps = temps.set_index('Date')
temps

**Ejemplo 5:** Crear un objeto DataFrame con base en un archivo .csv

In [None]:
titanic = pd.read_csv('./titanic.csv')

In [None]:
titanic.head()

In [None]:
titanic.tail()

In [None]:
titanic.Sex.value_counts()

In [None]:
titanic.Survived.value_counts()

In [None]:
titanic.Pclass.value_counts()

## Ordenar un DataFrame

In [None]:
# obtener datos de salarios de jugadores de baseball
mlb = pd.read_csv('mlbsalaries.csv')

In [None]:
mlb.head()

In [None]:
mlb.tail()

In [None]:
mlb.Year.value_counts()

In [None]:
mlb.Team.value_counts()

In [None]:
mlb.Position.value_counts()

Crea un subconjunto de **mlb** para el año 2010

In [None]:
# identifica los jugadores del 2010
mlb.Year == 2010

In [None]:
# usa el criterio para extraer solo los jugadores del 2010
yr2010 = mlb[mlb.Year == 2010]

In [None]:
# crea un índice alfanumérico con base en "player"
yr2010 = yr2010.set_index('Player')

In [None]:
yr2010.head()

## Operaciones de ordenamiento

In [None]:
# ordenar por etiquetas de renglón
yr2010.sort_index().head()

In [None]:
# ordenar por etiqueta de columnas
yr2010.sort_index(axis = 1).head()

In [None]:
# ordenar por valores de columna usando "order field"
yr2010.Salary.sort_values(ascending=False).head()

In [None]:
# Ordenar los valores de columnas usando el método
# sort_values()

yr2010.sort_values('Salary', ascending=False).head()

In [None]:
# ordenar los valores de varias columnas
yr2010.sort_values(['Salary', 'Team'], 
                   ascending=[False,True]).head(10)

In [None]:
# top 10 de salarios 
top10 = yr2010.Salary.sort_values(ascending=False).head(10)

In [None]:
type(top10)

In [None]:
top10

**Pylab** combines pyplot with numpy into a single namespace. This is convenient for interactive work, but for programming it is recommended that the namespaces be kept separate

In [None]:
# plot top 10 Salaries
%pylab inline
import matplotlib.pyplot as plt
plt.figure()
top10.plot(label='Salaries')
plt.xticks(rotation='vertical')
plt.legend()
plt.show()

## Grupby

Una vez que se tiene un conjunto de datos se desea ordenar y agrupar los datos de acuerdo a cierta característica. La operación groupby() consiste de tres pasos: separar, analizar y combinar

In [None]:
mlb.head()

In [None]:
grouped = mlb.groupby('Year')
type(grouped)

El objeto agrupado resultado de aplicar `groupby()` es un objeto iterable

In [None]:
for k,group in grouped:
    print (k)
    print (group)

In [None]:
# utiliza un generador que de forma similar 
# la comprehensión de listas, permite obtener el
# pago mas alto por año
t = (group.sort_values(by='Salary', ascending=False)[:1] for yr,group in grouped)
type(t)

In [None]:
# convierte el objeto generador en un DataFrame
topsalaries = pd.DataFrame()
for line in t:
    topsalaries = topsalaries.append(line)

In [None]:
topsalaries

In [None]:
ts = topsalaries[['Year', 'Salary']]
ts

In [None]:
ts = ts.set_index('Year')
ts.head()

In [None]:
ts.plot()

In [None]:
grouped['Salary'].median().plot()