# Learning Panda

In [1]:
import pandas as pd
import numpy as np

## Padas Series

Las Series de Panda son herramientas para la manipulación de datos. Funcionan como si fueran diccionarios pero son mucho mas eficientes y especializados. A cada dato o a cada número de datos se le asigna una etiqueta, la etiqueta inicialmente es un número, por lo que funciona como si fuera un arreglo de Numpy, pero lo interesante de las Series es que puedes cambiar la etiqueta y asi tener una mejor organización en los datos. 

Para imprimir solamente los valores se usa el comado 'values', y para imprimir las etiquetas usamos 'index'

En general, los arreglos de Pandas son mas flexibles y generales que los de Numpy. Una de las diferencias mas notorias es el 'index', se puede accesar a los datos con la etiqueta del mismo.

In [2]:
data = pd.Series([1,4,1.5,4,8], index=['a','b','c','d','e'])
data

a    1.0
b    4.0
c    1.5
d    4.0
e    8.0
dtype: float64

In [3]:
data.values

array([1. , 4. , 1.5, 4. , 8. ])

In [4]:
data['a']

1.0

In [5]:
data.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

## Pandas DataFrame

Los DataFrames, son estructuras de datos de la libreria Pandas. Funcionan como si fuera un diccionario especializado, ya que si Series era la analogía de Panda para los arreglos de Numpy de una dimensión, DataFrame es para los arrelgos de Numpy de dos dimensiones. Para hacerlo utilizaremos dos series, ya que estas se pueden construir a partir de un diccionario. Cabe aclarar que las etiquetas de las Series tienen que ser las mismas para el DataFrame funcione de la manera en la que se desea.

In [6]:
poblacion_dicc = {'Guanajuato': 38332521,
                   'Querétaro': 26448193,
                   'Michoacán': 19651127,
                   'Aguascalientes': 19552860,
                   'Jalisco': 12882135}
poblacion = pd.Series(poblacion_dicc)
poblacion

Guanajuato        38332521
Querétaro         26448193
Michoacán         19651127
Aguascalientes    19552860
Jalisco           12882135
dtype: int64

In [7]:
area_dicc = {'Guanajuato': 423967, 'Querétaro': 695662, 'Michoacán': 141297,
             'Aguascalientes': 170312, 'Jalisco': 149995}
area = pd.Series(area_dicc)
area

Guanajuato        423967
Querétaro         695662
Michoacán         141297
Aguascalientes    170312
Jalisco           149995
dtype: int64

In [8]:
estados = pd.DataFrame({'poblacion':poblacion, 'area':area})
estados

Unnamed: 0,poblacion,area
Guanajuato,38332521,423967
Querétaro,26448193,695662
Michoacán,19651127,141297
Aguascalientes,19552860,170312
Jalisco,12882135,149995


Se puede acceder al 'index' del DataFrame, y también a las columnas del mismo.

In [9]:
estados.index

Index(['Guanajuato', 'Querétaro', 'Michoacán', 'Aguascalientes', 'Jalisco'], dtype='object')

In [10]:
estados.values

array([[38332521,   423967],
       [26448193,   695662],
       [19651127,   141297],
       [19552860,   170312],
       [12882135,   149995]], dtype=int64)

In [11]:
estados.values[4][0]

12882135

In [12]:
estados.columns

Index(['poblacion', 'area'], dtype='object')

In [28]:
estados["area"]

Guanajuato        423967
Querétaro         695662
Michoacán         141297
Aguascalientes    170312
Jalisco           149995
Name: area, dtype: int64

## Pandas index

La libreria pandas tambien cuenta con estructuras llamadas 'index', que en pocas palabras son como arreglos "inmutables". Este tipo de estructuras de datos se comportan de una manera muy parecida a los arreglos normales, cambian cuando se quiere modificarlos, hay un 'TypeError'.

In [13]:
i = pd.Index([1, 2, 3, 4, 5])

In [14]:
i[0] = 4

TypeError: Index does not support mutable operations

Este tipo de estructura es muy conveninte si se quiere hacer operaciones con conjuntos

In [15]:
j = pd.Index([4,5,6,7,8])

In [16]:
estados.values[0]

array([38332521,   423967], dtype=int64)

## Lectura externa de datos con pandas 

Uno de los propósitos de aprender la manipulación de la libreria pandas es aprender a manejar grandes cantidades de datos; dichos datos se pueden encontrar en una base de datos y es muy útil aprender a importar todos los datos de un archivo externo hacia un dataFrame de pandas, lo siguiente se puede lograr de la siguiente manera

In [18]:
pd.read_csv('T_Max.csv', encoding='latin-1')

Unnamed: 0,Lon,Lat,Clave,Edo,Est,Tmax
0,-99.75,16.76,76805,GRO,ACAPULCO,33.277419
1,-102.29,21.85,76571,AGS,AGUASCALIENTES,22.941935
2,-111.83,30.71,76113,SON,ALTAR,20.868966
3,-93.90,16.24,76840,CHIS,ARRIAGA,34.464516
4,-90.50,19.83,76695,CAMP,CAMPECHE,29.400000
...,...,...,...,...,...,...
717,-99.80,19.33,TBRMX,MEX,Tres Barrancas Méx.,19.673077
718,-98.90,19.44,TJCMX,MEX,El Tejocote Méx.,21.461538
719,-99.74,19.59,SLBMX,MEX,San Bartolo del Llano Méx.,19.865385
720,-95.45,18.23,LCEVC,VER,La Ceibilla Ver.,28.700000


## Operando los datos con pandas

Podemos trabajar los datos de los objetos de pandas, como las series o los DataFrames, con operaciones tal y como lo hariamos con los arreglos de numpy. Para operaciones binarias, es particularmente útil el uso de pandas ya que 'alinea' los indices de los objetos de pandas.

In [25]:
print(np.sin(area))
print(np.cos(estados))

Guanajuato        0.346071
Querétaro         0.285147
Michoacán         0.665984
Aguascalientes   -0.020935
Jalisco           0.334661
dtype: float64
                poblacion      area
Guanajuato       0.319016 -0.938208
Querétaro       -0.578606  0.958484
Michoacán        0.999992  0.745966
Aguascalientes  -0.429095  0.999781
Jalisco         -0.972848 -0.942339


In [26]:
area + poblacion

Guanajuato        38756488
Querétaro         27143855
Michoacán         19792424
Aguascalientes    19723172
Jalisco           13032130
dtype: int64

In [29]:
estados + area

Unnamed: 0,Aguascalientes,Guanajuato,Jalisco,Michoacán,Querétaro,area,poblacion
Guanajuato,,,,,,,
Querétaro,,,,,,,
Michoacán,,,,,,,
Aguascalientes,,,,,,,
Jalisco,,,,,,,


Lo anterior se puede explicar de la siguiente manera: existe una intersección en los indices de 'estados' y de 'area', sin embargo, como los dataFrames funcionan como si fueran diccionarios, es necesario que se tenga la misma etiqueta en las columnas para que se puedan sumar. Si se suman dos DataFrames con las mismas etiquetas e indices, el resultado será como el siguiente, sin embargo, si en dado caso existe un dataFrame en la que no existe una intersección en alguno de los datos, pandas respeta los indices y es muy conveniente cuando se trabaja con información incompleta

In [34]:
estados + estados

Unnamed: 0,poblacion,area
Guanajuato,76665042,847934
Querétaro,52896386,1391324
Michoacán,39302254,282594
Aguascalientes,39105720,340624
Jalisco,25764270,299990


## Concatenación de objetos de pandas

La libreria pandas tiene como uno de sus propósitos la manipulación de datos en gran escala, por lo que es verdaderamente útil conocer como se concatenan los objetos de pandas, en particular los DataFrames

In [177]:
a= [{'a': i, 'b': 2 * i}
        for i in range(3)]
a1 = pd.DataFrame(a)

b = [{'a': i+1, 'c': 3 * i}
        for i in range(3)]
b1= pd.DataFrame(b)

El comando 'concat' combina los DataFrames sin importar los indices, pero si los nombres de las columnas, si tenemos columnas que se llaman distinto python marca un error.

In [178]:
pd.concat([a1, b1])

of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  """Entry point for launching an IPython kernel.


Unnamed: 0,a,b,c
0,0,0.0,
1,1,2.0,
2,2,4.0,
0,1,,0.0
1,2,,3.0
2,3,,6.0


Cuando utilizamos 'axis=1' juntamos las intersecciones en las columnas, aunque no coincidan los indices de los DataFrames. Además podemos ignorar por completo los indices y marcará nuevos indices para el nuevo dataFrame.

In [144]:
pd.concat([estados,b1],axis=1)

Unnamed: 0,poblacion,area,a,b
0,,,1.0,0.0
1,,,2.0,3.0
2,,,3.0,6.0
Aguascalientes,19552860.0,170312.0,,
Guanajuato,38332521.0,423967.0,,
Jalisco,12882135.0,149995.0,,
Michoacán,19651127.0,141297.0,,
Querétaro,26448193.0,695662.0,,


In [145]:
pd.concat([a1,b1], ignore_index=True)

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4
3,1,0
4,2,3
5,3,6


Podemos incluso añadir llaves a los datos

In [191]:
ej = pd.concat([a1, b1], keys=['a1', 'b1'])
ej

of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  """Entry point for launching an IPython kernel.


Unnamed: 0,Unnamed: 1,a,b,c
a1,0,0,0.0,
a1,1,1,2.0,
a1,2,2,4.0,
b1,0,1,,0.0
b1,1,2,,3.0
b1,2,3,,6.0


Para concatenar objetos que cuentan con los elementos iguales, utilizamos 'merge'

In [171]:
c = [{'a': i, 'c': 3 * i}
        for i in range(3)]
c1= pd.DataFrame(c)
c1

Unnamed: 0,a,c
0,0,0
1,1,3
2,2,6


In [188]:
pd.merge(a1, c1)

Unnamed: 0,a,b,c
0,0,0,0
1,1,2,3
2,2,4,6
