# PANDAS

- PANDAS es "Python Data Analysis Library". El nombre proviene del término *Panel Data* que es un término econométrico para manejar conjuntos de datos multidimensionales.

- PANDAS es una biblioteca que provee de herramientas de alto desempeño, fáciles de usar, para manejar estructuras de datos y para su análisis. 

- PANDAS es un módulo que reúne las capacidades de Numpy, Scipy y Matplotlib.

- Véase https://pandas.pydata.org/ para más información.

- y en: https://vimeo.com/59324550




In [1]:
import numpy as np
import pandas as pd
from pandas import Series,DataFrame

## Series

- Las `Series` son arreglos unidimensionales indexados basados en los arreglos de Numpy.
- Pueden almacenar cualquier tipo de dato: int, floats, strings, Python objects, etc.
- Se pueden ver como una estructura de datos con dos arreglos: uno para los índices y otro para los objetos que contiene.

### Ejemplo

In [2]:
obj = Series([3,6,9,12])
obj

0     3
1     6
2     9
3    12
dtype: int64

In [3]:
obj.values # Objetos de la serie

array([ 3,  6,  9, 12])

In [5]:
obj.index # Índices de la serie

RangeIndex(start=0, stop=4, step=1)

- Comparemos con los array de Numpy

In [6]:
x = np.array([3,6,9,12])
x

array([ 3,  6,  9, 12])

In [7]:
print(type(obj.values))
print(type(x))
print(type(obj))
print(type(obj.index))

<class 'numpy.ndarray'>
<class 'numpy.ndarray'>
<class 'pandas.core.series.Series'>
<class 'pandas.core.indexes.range.RangeIndex'>


- Podemos definir los índices como queramos:

In [8]:
monedas = Series([10.0,5.0,2.0,1.0,0.5,0.2,0.1],
                 index=['Diez','Cinco','Dos','Un','cincuenta','veinte','diez'])
monedas

Diez         10.0
Cinco         5.0
Dos           2.0
Un            1.0
cincuenta     0.5
veinte        0.2
diez          0.1
dtype: float64

In [9]:
monedas['diez'] # Podemos acceder a los objetos de la Serie con el índice

0.1

In [10]:
print('{: .52f}'.format(monedas['diez']))

 0.1000000000000000055511151231257827021181583404541016


In [11]:
monedas[monedas > 0.3] # Podemos hacer operaciones más complicadas

Diez         10.0
Cinco         5.0
Dos           2.0
Un            1.0
cincuenta     0.5
dtype: float64

In [None]:
'quarter' in monedas # Es posible preguntar si un índice está en la Serie

In [None]:
 0.1 in monedas.values  # Es posible preguntar si un objeto está en la Serie

# Transformación entre Series y tipos básicos de Python

In [None]:
# Es posible transformar la Serie en diferentes tipos

# Transformar la Serie en una lista
monedas_list = monedas.to_string()
print(type(monedas_list))
print(monedas_list)

In [None]:
# Transformar la Serie a un diccionario:
monedas_dic = monedas.to_dict()
print(type(monedas_dic))
monedas_dic

In [None]:
# Podemos transformar un diccionario en una Serie.
monedasX = Series(monedas_dic) # Regresa a la Serie pero en desorden
monedasX

In [None]:
# Transformar la Serie en el formato CSV:
f = open('MONEDAS.csv','w')
f.write(monedas.to_csv())
f.close()

### Ejercicio
- Crear una serie con sus índices iguales a los nombres de las delegaciones de la Ciudad de México y sus valores el número de habitantes por delegación.

Delegación | Habitantes
-- | --
Azcapotzalco | 400 161
Coyoacán | 608 479
Cuajimalpa de Morelos | 199 224
Gustavo A. Madero | 1 164 477
Iztacalco | 390 348
Iztapalapa | 1 827 868
La Magdalena Contreras | 243 886
Milpa Alta | 137 927
Álvaro Obregón | 749 982
Tláhuac | 361 593
Tlalpan | 677 104
Xochimilco | 415 933
Benito Juárez | 417 416
Cuauhtémoc | 532 553
Miguel Hidalgo | 364 439
Venustiano Carranza | 427 263

- Calcular la suma total de habitantes
- Imprimir los nombres de las delegaciones con mayor y menor número de habitantes.
- Imprimer los nombres de las delegaciones con más de 400,000 habitantes

In [None]:
fdel = open('delegaciones.csv','r')
valor = []
indices = []
for line in fdel:
    sline = line.split(sep=",")
    indices.append(sline[0])
    valor.append(sline[1])

print(indices, valor)

lista_delegacion = Series(valor[1:-1],index=indices[1:-1])
lista_delegacion

# Algunas operaciones con series

In [None]:
# Si queremos la serie en orden, lo podemos hacer vía los índices:
etiquetas = ['Diez','Cinco','Dos','Un','cincuenta','veinte','diez']
monedasY = Series(monedas_dic, index=etiquetas) # En orden!
monedasY

In [None]:
# Incluso podemos agregar índices a los originales
etiquetas = ['Diez','Cinco','quarter','Dos','Un','cincuenta','veinte','diez']
monedasZ = Series(monedas_dic, index=etiquetas) # Hay un índice extra.
monedasZ

In [None]:
# Podemos verificar si hay datos faltantes (NaN)
pd.isnull(monedasZ['quarter'])     # Operación de PANDAS

In [None]:
pd.notnull(monedasZ['diez'])   # Operación de PANDAS

In [None]:
# Podemos sumar dos Series
monedas + monedasY

In [None]:
# No importa que las series estén en desorden, la suma es correcta!
monedas + monedasX

In [None]:
# Incluso podemos sumar series que tengan diferente longitud:
monedasZ['quarter'] = 10
print(monedasZ)
print(monedas)
monedas['quarter'] = -10
monedas + monedasZ

In [None]:
# Las series tienen comportamiento, por ejemplo:
nombre = Series(list('Luis Miguel de la Cruz Salas'))
nombre.unique()

In [None]:
# Puede contar los objetos que hay en la Serie
nombre.value_counts()

In [None]:
# Podemos tener una serie con índices en desorden:
serie = Series(range(5),index=['C','A','B','E','D'])
serie

In [None]:
# La serie se puede ordenar a través de los índices
serie.sort_index()

In [None]:
serie   # Ojo: el ordenamiento no se hizo "in place", es decir no se modificó la serie original

In [None]:
# Aquí creamos una nueva serie ordenada, pero la original prevalece
serie_ordenada = serie.sort_index()

In [None]:
serie_ordenada

In [None]:
serie

In [None]:
# Podemos ordenar la serie "in place", es decir se modifica la serie original
serie.sort_index(inplace=True)
serie

In [None]:
# Se puede ordenar la serie usando los objetos que contiene
serie.sort_values()

In [None]:
# Creamos otra serie con valores e índices desordenados
serie = Series([7,5,2,8,3],index=['C','A','B','E','D'])
serie

In [None]:
# La siguiente función "rankea" las entradas de la serie de acuerdo al contenido de su objeto
serie.rank()

In [None]:
# Si ordenamos la serie que pasa ¿?:
serie.sort_values()

In [None]:
# Se pueden usar varias de las funciones de Numpy
serie + 3

In [None]:
serie**2

In [None]:
np.sin(serie)

In [None]:
# Keep digging please!!

### La función `apply`
```python
Series.apply(func, conver_dtype=True, args(), **kwds)
```
- La función `func` será aplicada a la serie y regresa un objeto de tipo Series o DataFrame.


In [None]:
s = serie.apply(np.sin)
print(type(s))

- Podemos usar funciones lambda

In [None]:
serie

In [None]:
serie.apply(lambda x: x if x > 5 else x**2)

### Filtrar o completar datos faltantes

In [None]:
monedas['penny'] = 150000
monedas
monedas + monedasZ

In [None]:
nueva_serie = monedas + monedasZ
nueva_serie

In [None]:
nueva_serie.dropna() # Desecha los NaN 

In [None]:
nueva_serie.fillna(3000) # Completa los NaN con 3000

## DataFrames

- La idea principal de los DaraFrames se basa en las hojas de cálculo.
- La estructura de un DataFrame son tablas similares a las hojas de cálculo.
- Contiene una colección ordenada de columnas.
- Cada columna consiste de un tipo de dato único.
- Pero, diferentes columnas pueden tener diferens tipos: la primera columna podría contener cadenas, la segunda flotantes, la tercera Boleanos, etc.
- También tiene una columna de índice: es como un diccionario de Series con un índice común.


In [None]:
# Mi primer DataFrame
dframe = DataFrame(np.arange(12).reshape(4,3))

In [None]:
dframe

- En este ejemplo `dframe` se construye convirtiendo un arreglo multidimensional de **numpy** con la forma: 4 renglones X 3 columnas, en un objeto de tipo DataFrame, pre-llenado con los valores del 0 al 11. Los índices por omisión de los renglones van de 0 a 3 y los de las columnas de 0 a 2.  

In [None]:
type(dframe)

## Construir un DataFrame a partir de un diccionario

In [None]:
datos = {'Delegación':['Coyoacán','Tlalpan','Xochimilco'],
         'Población':[837000,3880000,8400000]}
delegaciones = DataFrame(datos)
delegaciones

## Agregar una Serie a un DataFrame

In [None]:
IMECAS = Series([90,100,120], index=[0,1,2])
print(IMECAS)
delegaciones['Cal. Aire'] = IMECAS
delegaciones

## Se puede leer información de archivos

In [None]:
df_pets = pd.read_table('pets.txt',sep=' ')
df_pets

## Leer un DataFrame de un sitio web

In [None]:
import webbrowser
website = 'http://en.wikipedia.org/wiki/NFL_win-loss_records'
webbrowser.open(website)

In [None]:
# Antes de ejecutar esta celda, seleccione los 10 primeros renglones
# de la tabla, incluyendo los títulos y copialos al clipboard, es decir
# teclear [Ctrl + c]

#-----------------------------------------------------------------------------
# Es probable que en Linux se obtenga un error. La forma de resolverlo es como sigue
#-----------------------------------------------------------------------------
#You may get an error message that says: “Pyperclip could not find a copy/paste mechanism for your system. Please see https://pyperclip.readthedocs.io/en/latest/introduction.html#not-implemented-error for how to fix this.”
#
#In order to work equally well on Windows, Mac, and Linux, Pyperclip uses various mechanisms to do this. Currently, this error should only appear on Linux (not Windows or Mac). You can fix this by installing one of the copy/paste mechanisms:
#
#    sudo apt-get install xsel to install the xsel utility.
#    sudo apt-get install xclip to install the xclip utility.
#    pip install gtk to install the gtk Python module.
#    pip install PyQt4 to install the PyQt4 Python module.
#-----------------------------------------------------------------------------
    
nfl_frame = pd.read_clipboard(engine='python')

In [None]:
# En caso de que lo anterior no funcione, 
# lea la información del archivo nfl_teams.txt
#nfl_frame = pd.read_table('nfl_teams.txt',sep='\t')
#nfl_frame

In [None]:
nfl_frame

In [None]:
type(nfl_frame)

In [None]:
nfl_frame.columns # Lista las columnas del DataFrame

In [None]:
nfl_frame['Total Games '] # Imprime la columa que concide con "Total Games "

In [None]:
# Puedo crear un DataFrame eligiendo columnas de otro DataFrame
nuevo_DF = DataFrame(nfl_frame,columns=['Team ','First NFL Season ','Total Games '])
nuevo_DF

In [None]:
nfl_frame.head() # Los primeros 5 renglones

In [None]:
nfl_frame.head(3) # Los primeos 3 renglones

In [None]:
nfl_frame.tail(3) # Los últimos tres renglones

In [None]:
nfl_frame.ix[3] # Ojo: esta función será eliminada en el futuro!

In [None]:
nfl_frame.loc[3] # La función ix ha sido sustituida por loc, que permite acceder a un renglón

# Se pueden renombrar las columnas

In [None]:
dframe

In [None]:
dframe.rename(index={0:'a',1:'b',2:'c',3:'d'}, columns={0:'col1',1:'col2', 2:'col3'}, inplace=True)

In [None]:
dframe

In [None]:
nfl_frame.head(2)

In [None]:
nfl_frame.rename(columns = {'Team ':'Equipo'}, inplace=True)

In [None]:
nfl_frame.head(2)

In [None]:
'Dallas Cowboys ' in nfl_frame.values

# Leyendo archivos CSV

In [None]:
dframe_wine = pd.read_csv('winequality-red.csv',sep=';') # Lectura de CSV

In [None]:
dframe_wine.head()

In [None]:
dframe_wine['alcohol'].mean() # Se puede calcular la media de una columna

In [None]:
dframe_wine

# Agrupación, agregación y funciones definidas por el usuario

In [None]:
def difMaxMin(arr):
    """
    Calcula la diferencia entre el valor mínimo y máximo de un arreglo.
    """
    return arr.max() - arr.min()

In [None]:
wino = dframe_wine.groupby('quality') # Agrupa una serie
print(type(wino))                     # regresa un DataFrame agrupado
print(type(dframe_wine))

In [None]:
print(wino) # Solo muestra el tipo de objeto

In [None]:
wino.describe() # Muestra el DataFrame agrupado

- Obsérvese que la función groupby() también calcula algunos datos estadísticos y ordena el resultado por el nombre de la columna (orden alfabético).

In [None]:
wino.agg(difMaxMin) # Ahora aplicamos nuestra función

In [None]:
wino.agg('mean') # También podemos aplicar una función ya definida en la biblioteca
                 # sum, min, max, std, count, ...

### Agregando una columna a nuestro DataFrame

In [None]:
dframe_wine.head()

In [None]:
# Agrega la columna realizando un cálculo entre valores de otras columnas
dframe_wine['qual/alc ratio'] = dframe_wine['quality'] / dframe_wine['alcohol']

In [None]:
dframe_wine.head()

In [None]:
dframe_wine.head() # recordemos como es el DataFrame original

# Graficación con matplotlib

In [None]:
%matplotlib inline

In [None]:
dframe_wine.plot(kind='scatter',x='quality',y='alcohol')

In [None]:
dframe_wine.sort_values('alcohol',ascending = False,inplace=True)

In [None]:
dframe_wine.head()

In [None]:
num_of_qual = dframe_wine['quality'].value_counts()

In [None]:
num_of_qual

In [None]:
import matplotlib.pyplot as plt
plt.style.use('ggplot')

In [None]:
dataset1 = np.random.randn(100)

In [None]:
plt.hist(dataset1)

In [None]:
dataset2 = np.random.randn(80)
plt.hist(dataset2,color='green')

In [None]:
plt.hist(dataset1,normed=True,color='green',alpha=0.5,bins=20)
plt.hist(dataset2,normed=True,color='red',alpha=0.75,bins=20)
plt.grid()

# Graficación con `seaborn`

In [None]:
import seaborn as sns

In [None]:
data1 = np.random.randn(1000)
data2 = np.random.randn(1000)

In [None]:
sns.jointplot(data1,data2)

In [None]:
sns.jointplot(data1,data2,kind='hex')

# Cálculos complicados (Pivot Tables, etc...)

- No se como funciona esto :(
- Tutorial: http://pbpython.com/pandas-pivot-table-explained.html

In [None]:
dframe_wine.pivot_table(index=['quality'])

In [None]:
def ranker(df):
    df['alc_cont_rank'] = np.arange(len(df)) + 1
    return df

dframe_wine = dframe_wine.groupby('quality').apply(ranker)

dframe_wine.head(10)

In [None]:
dframe_wine[dframe_wine.alc_cont_rank == 1].head(10)