# Introducción a Pandas


<img src="figuras/pandas-logo.png" />


Definitivamente es el sinónimo de "Python para el análisis de datos".

[Pandas](https://pandas.pydata.org/index.html) es una poderosa biblioteca de Python de análisis de datos que se construye encima de numpy que es otra biblioteca que le permite crear arreglos de datos 2d e incluso 3d en Python. El objeto principal de pandas se llama un dataframe. Un dataframe es básicamente una matriz numpy de 2d con filas y columnas, que también tiene etiquetas para columnas y filas.

Pandas ofrece las siguientes estructuras de datos:

*Series*: Son arrays unidimensionales con indexación (arrays con índice o etiquetados), similar a los diccionarios. Pueden generarse a partir de diccionarios o de listas.
 
*DataFrame*: Son estructuras de datos similares a las tablas de bases de datos relacionales como SQL.

Puede crear dataframes de varios formatos de datos de entrada, como CSV, JSON, diccionarios Python, etc. Una vez que haya cargado el marco de datos en Python, puede aplicar varias funciones de análisis y visualización de datos al dataframe y convertir básicamente los datos del dataframe en información valiosa.

El primer ejemplo que vamos a poner va a ser el de definir una estructura de datos "Series" que como ya comentamos es un array de datos unidimensional con idexación. Las "Series" se definen de la siguiente manera:

`serie = pd.Series(data, index=index)`

Es decir, que en el primer parámetro le indicamos los datos del array y en el segundo parámetro los índices. Veamos un ejemplo de como crear una estructura "Series" con los integrantes de la selección Española de fútbol que ganó el mudial del año 2010, en el que tenemos como 'data' sus nombres y como índice su dorsal:

In [2]:
import pandas as pd
seleccionEspaña = pd.Series(
    ['Casillas', 'Ramos', 'Pique', 'Puyol', 'Capdevila', 'Xabi Alonso', 'Busquets', 'Xavi Hernandez', 'Pedrito',
     'Iniesta', 'Villa'], index=[1, 15, 3, 5, 11, 14, 16, 8, 18, 6, 7])
print ("Jugadores de la Selección Española: \n%s" % seleccionEspaña)

Jugadores de la Selección Española: 
1           Casillas
15             Ramos
3              Pique
5              Puyol
11         Capdevila
14       Xabi Alonso
16          Busquets
8     Xavi Hernandez
18           Pedrito
6            Iniesta
7              Villa
dtype: object


En el siguiente caso; en el que no le indiquemos los índices de forma explícita, no generará los índices de forma automática empezando desde el valor cero: 

In [3]:
seleccionEspaña = pd.Series(
    ['Casillas', 'Ramos', 'Pique', 'Puyol', 'Capdevila', 'Xabi Alonso', 'Busquets', 'Xavi Hernandez', 'Pedrito',
     'Iniesta', 'Villa'])
print ("Jugadores de la Selección Española: \n%s" % seleccionEspaña)

Jugadores de la Selección Española: 
0           Casillas
1              Ramos
2              Pique
3              Puyol
4          Capdevila
5        Xabi Alonso
6           Busquets
7     Xavi Hernandez
8            Pedrito
9            Iniesta
10             Villa
dtype: object


También podemos crearnos una estructura de datos "Series" a partir de una lista o de un diccionario. Si la construimos a partir de una lista nos pondrá los índices por defecto y si lo creamos a partir de un diccionario, pondrá como índices las claves. Vamos a ver a continuación un ejemplo de como crear una Serie a partir de un diccionario y además vamos a ver como insertar en esta serie un nuevo elemento:

In [4]:
dictJugadores = {1: 'Casillas', 15: 'Ramos', 3: 'Pique', 5: 'Puyol', 11: 'Capdevila', 14: 'Xabi Alonso',
               16: 'Busquets', 8: 'Xavi Hernandez', 18: 'Pedrito', 6: 'Iniesta', 7: 'Villa'}
jugadores = pd.Series(dictJugadores)
# Insertar un nuevo jugador
jugadores[10] = 'Cesc'
print ("Jugadores de Futbol Españoles: \n%s" % jugadores)

Jugadores de Futbol Españoles: 
1           Casillas
3              Pique
5              Puyol
6            Iniesta
7              Villa
8     Xavi Hernandez
11         Capdevila
14       Xabi Alonso
15             Ramos
16          Busquets
18           Pedrito
10              Cesc
dtype: object


Vamos a pasar a continuación a ver un ejemplo con la estructura de datos "DataFrame". Como ya se ha comentado es una estructura de datos similar a una tabla de una base de datos relacionar, una tabla de excel, etc. y como tal se pueden hacer muchas operaciones como las que se harían con consultas a tablas de bases de datos o en excel.

Para construir un DataFrame se puede hacer de diferentes formas, como por ejemplo a partir de una lista, de un diccionario, de una Serie, de otro DataFrame, leyendo una tabla excel, csv, etc. Vamos a ver a continuación como construiríamos un DataFrame con datos de los integrantes de la selección Española de Fútbol:

In [6]:
selecciónEspañola = pd.DataFrame(
    {
        'nombre': ['Casillas', 'Ramos', 'Pique', 'Puyol', 'Capdevila', 'Xabi Alonso', 'Busquets', 'Xavi Hernandez',
                 'Pedrito', 'Iniesta', 'Villa'],
        'posición': ['Portero', 'Lateral Derecho', 'Defensa central', 'Defensa central', 'Lateral Izquierdo', 'Mediocampista defensivo',
                        'Mediocampista defensivo', 'Mediocampista', 'Extremo izquierdo', 'Extremo derecho', 'Delantero central'],
        'equipo': ['Real Madrid', 'Real Madrid', 'FC Barcelona', 'FC Barcelona', 'Villareal', 'Real Madrid',
                 'FC Barcelona', 'FC Barcelona', 'FC Barcelona', 'FC Barcelona', 'FC Barcelona']
    }, columns=['nombre', 'posición', 'equipo'], index=[1, 15, 3, 5, 11, 14, 16, 8, 18, 6, 7]
)
selecciónEspañola

Unnamed: 0,nombre,posición,equipo
1,Casillas,Portero,Real Madrid
15,Ramos,Lateral Derecho,Real Madrid
3,Pique,Defensa central,FC Barcelona
5,Puyol,Defensa central,FC Barcelona
11,Capdevila,Lateral Izquierdo,Villareal
14,Xabi Alonso,Mediocampista defensivo,Real Madrid
16,Busquets,Mediocampista defensivo,FC Barcelona
8,Xavi Hernandez,Mediocampista,FC Barcelona
18,Pedrito,Extremo izquierdo,FC Barcelona
6,Iniesta,Extremo derecho,FC Barcelona


 Como resultado tenemos una estructura de dato similar a la de una tabla de una base de datos relacional o de un documento excel o csv. Con esta estructura de datos se pueden hacer muchas operaciones como las que haríamos en una base de datos o en un documento excel.

Por último vamos a ver como insertar un nuevo elemento en este DataFrame, que lo haríamos de la siguiente manera con el método `loc()`: 

In [9]:
%pwd

'/Users/wladimir/Documents/Cursos/AprendizajeAutomatico/Notebooks'

In [7]:
# Insertar un nuevo jugador
selecciónEspañola.loc[10] = ['Cesc', 'Delantero', 'Arsenal']
selecciónEspañola

Unnamed: 0,nombre,posición,equipo
1,Casillas,Portero,Real Madrid
15,Ramos,Lateral Derecho,Real Madrid
3,Pique,Defensa central,FC Barcelona
5,Puyol,Defensa central,FC Barcelona
11,Capdevila,Lateral Izquierdo,Villareal
14,Xabi Alonso,Mediocampista defensivo,Real Madrid
16,Busquets,Mediocampista defensivo,FC Barcelona
8,Xavi Hernandez,Mediocampista,FC Barcelona
18,Pedrito,Extremo izquierdo,FC Barcelona
6,Iniesta,Extremo derecho,FC Barcelona


In [10]:
# Leer el archivo Income.csv y almacernarlo en un dataframe
import pandas as pd
df1 = pd.read_csv("datos/Income_data.csv")
print(df1)

       GEOID       State   2005   2006   2007   2008   2009   2010   2011  \
0  04000US01     Alabama  37150  37952  42212  44476  39980  40933  42590   
1  04000US02      Alaska  55891  56418  62993  63989  61604  57848  57431   
2  04000US04     Arizona  45245  46657  47215  46914  45739  46896  48621   
3  04000US05    Arkansas  36658  37057  40795  39586  36538  38587  41302   
4  04000US06  California  51755  55319  55734  57014  56134  54283  53367   

    2012   2013  
0  43464  41381  
1  63648  61137  
2  47044  50602  
3  39018  39919  
4  57020  57528  


In [11]:
# Visualizar el dataframe
df1

Unnamed: 0,GEOID,State,2005,2006,2007,2008,2009,2010,2011,2012,2013
0,04000US01,Alabama,37150,37952,42212,44476,39980,40933,42590,43464,41381
1,04000US02,Alaska,55891,56418,62993,63989,61604,57848,57431,63648,61137
2,04000US04,Arizona,45245,46657,47215,46914,45739,46896,48621,47044,50602
3,04000US05,Arkansas,36658,37057,40795,39586,36538,38587,41302,39018,39919
4,04000US06,California,51755,55319,55734,57014,56134,54283,53367,57020,57528


In [12]:
# Leer un archivo desde internet
df2 = pd.read_csv("http://pythonhow.com/wp-content/uploads/2016/01/Income_data.csv")

In [13]:
df2

Unnamed: 0,GEOID,State,2005,2006,2007,2008,2009,2010,2011,2012,2013
0,04000US01,Alabama,37150,37952,42212,44476,39980,40933,42590,43464,41381
1,04000US02,Alaska,55891,56418,62993,63989,61604,57848,57431,63648,61137
2,04000US04,Arizona,45245,46657,47215,46914,45739,46896,48621,47044,50602
3,04000US05,Arkansas,36658,37057,40795,39586,36538,38587,41302,39018,39919
4,04000US06,California,51755,55319,55734,57014,56134,54283,53367,57020,57528


Antes de extraer datos del dataframe, sería una buena práctica asignar una columna con valores únicos como el índice del dataframe. La columna `State` sería una buena opción:

In [14]:
df3 = df2.set_index('State')
df3

Unnamed: 0_level_0,GEOID,2005,2006,2007,2008,2009,2010,2011,2012,2013
State,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
Alabama,04000US01,37150,37952,42212,44476,39980,40933,42590,43464,41381
Alaska,04000US02,55891,56418,62993,63989,61604,57848,57431,63648,61137
Arizona,04000US04,45245,46657,47215,46914,45739,46896,48621,47044,50602
Arkansas,04000US05,36658,37057,40795,39586,36538,38587,41302,39018,39919
California,04000US06,51755,55319,55734,57014,56134,54283,53367,57020,57528


Ahora, vamos a extraer un subconjunto del dataframe. Aquí está la regla de sintaxis general para subconjunto de porciones de un dataframe:

    df2.loc[startrow:endrow,startcolumn:endcolumn]

Extraer los valores para las filas desde Alaska hasta Arkansas para los años 2005 a 2007:|

In [15]:
df3.loc["Alaska":"Arkansas","2005":"2007"]

Unnamed: 0_level_0,2005,2006,2007
State,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Alaska,55891,56418,62993
Arizona,45245,46657,47215
Arkansas,36658,37057,40795


Extraer una columna:

In [16]:
df3.loc[: , "2005"]

State
Alabama       37150
Alaska        55891
Arizona       45245
Arkansas      36658
California    51755
Name: 2005, dtype: int64

Tenga en cuenta que cuando extrae una sola fila o columna, obtiene un objeto unidimensional como salida. Eso se llama una Series en pandas. Los valores de la izquierda son sólo etiquetas tomadas del índice del dataframe. Por otro lado, cuando extrajimos porciones de un pandas dataframe como lo hicimos antes, obtuvimos un tipo bidimensional de objeto DataFrame.

Por lo tanto, la fórmula para extraer una columna sigue siendo la misma, pero esta vez no pasamos ningún nombre de índice antes y después del primer colon. Eso le dice a Python que incluya todas las filas. Y pasamos sólo un nombre de columna.

Para extraer sólo una fila que haría la inversa:

In [17]:
df3.loc["California", : ]

GEOID    04000US06
2005         51755
2006         55319
2007         55734
2008         57014
2009         56134
2010         54283
2011         53367
2012         57020
2013         57528
Name: California, dtype: object

Para extraer una celda:

In [18]:
df3.loc["California","2013"]

57528

Se pueden aplicar métodos a los subconjuntos. Por ejemplo la media de la columna 2005:

In [19]:
df3.loc[:,"2005"].mean()

45339.8

### Indexación basada en la posición

A veces, no se tienen etiquetas de fila o columna. En tal caso usted tendrá que confiar en indexación basada en la posición, la cual que se implementa con `iloc` en lugar de `loc`

In [20]:
df3.iloc[0:3,0:4]

Unnamed: 0_level_0,GEOID,2005,2006,2007
State,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Alabama,04000US01,37150,37952,42212
Alaska,04000US02,55891,56418,62993
Arizona,04000US04,45245,46657,47215


Tenga en cuenta que cuando se utilizó indexación basada en etiquetas tanto el inicio y el final de las etiquetas se incluyeron en el subconjunto. Con el rebanado basado en posición, sólo se incluye el índice de inicio. Así, en este caso Alabama tenía un índice de 0, Alaska 1, y Arizona 2. Lo mismo ocurre con las columnas.

Y una cosa más que debe saber acerca de la indexación es que cuando tiene etiquetas para las filas o las columnas, y desea cortar una parte del dataframe, no sabría si utilizar `loc` o `iloc`. En este caso, usar `ix`:

In [21]:
df3.ix[0:3,"2005":"2007"]

Unnamed: 0_level_0,2005,2006,2007
State,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Alabama,37150,37952,42212
Alaska,55891,56418,62993
Arizona,45245,46657,47215


### Funciones de análisis de datos Pandas

Veamos ahora qué métodos de análisis de datos podemos aplicar a los dataframes de pandas.

Usted sabe que el dataframe es el principal objeto Pandas. Por lo tanto, si tiene algunos datos cargados en un dataframe, podría aplicar métodos para analizar esos datos. Por ejemplo, aquí es cómo se aplica el método `mean` al dataframe en el que hemos estado trabajando

In [28]:
df3.mean()

2005    45339.8
2006    46680.6
2007    49789.8
2008    50395.8
2009    47999.0
2010    47709.4
2011    48662.2
2012    50038.8
2013    50113.4
dtype: float64

Puede obtener una lista de los métodos disponibles para los dataframe utilizando la función `dir` de Python:

In [23]:
dir(pd.DataFrame)

['T',
 '_AXIS_ALIASES',
 '_AXIS_IALIASES',
 '_AXIS_LEN',
 '_AXIS_NAMES',
 '_AXIS_NUMBERS',
 '_AXIS_ORDERS',
 '_AXIS_REVERSED',
 '_AXIS_SLICEMAP',
 '__abs__',
 '__add__',
 '__and__',
 '__array__',
 '__array_wrap__',
 '__bool__',
 '__bytes__',
 '__class__',
 '__contains__',
 '__delattr__',
 '__delitem__',
 '__dict__',
 '__dir__',
 '__div__',
 '__doc__',
 '__eq__',
 '__finalize__',
 '__floordiv__',
 '__format__',
 '__ge__',
 '__getattr__',
 '__getattribute__',
 '__getitem__',
 '__getstate__',
 '__gt__',
 '__hash__',
 '__iadd__',
 '__imul__',
 '__init__',
 '__invert__',
 '__ipow__',
 '__isub__',
 '__iter__',
 '__itruediv__',
 '__le__',
 '__len__',
 '__lt__',
 '__mod__',
 '__module__',
 '__mul__',
 '__ne__',
 '__neg__',
 '__new__',
 '__nonzero__',
 '__or__',
 '__pow__',
 '__radd__',
 '__rand__',
 '__rdiv__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__rfloordiv__',
 '__rmod__',
 '__rmul__',
 '__ror__',
 '__round__',
 '__rpow__',
 '__rsub__',
 '__rtruediv__',
 '__rxor__',
 '__setattr__

Y puede obtener la descripción de cada método mediante `help`:

In [29]:
help(pd.DataFrame.max)

Help on function max in module pandas.core.frame:

max(self, axis=None, skipna=None, level=None, numeric_only=None, **kwargs)
    This method returns the maximum of the values in the object.
                If you want the *index* of the maximum, use ``idxmax``. This is
                the equivalent of the ``numpy.ndarray`` method ``argmax``.
    
    Parameters
    ----------
    axis : {index (0), columns (1)}
    skipna : boolean, default True
        Exclude NA/null values. If an entire row/column is NA, the result
        will be NA
    level : int or level name, default None
        If the axis is a MultiIndex (hierarchical), count along a
        particular level, collapsing into a Series
    numeric_only : boolean, default None
        Include only float, int, boolean columns. If None, will attempt to use
        everything, then use only numeric data. Not implemented for Series.
    
    Returns
    -------
    max : Series or DataFrame (if level specified)



También puede aplicar métodos a las columnas del dataframe

In [30]:
df3.loc[:,"2005"].mean()

45339.8

Tenga en cuenta que en este caso no está aplicando el método de media a un pandas dataframe, sino a un objeto series de pandas:

In [31]:
type(df3.loc[:,"2005"])

pandas.core.series.Series

Añadir columnas a un DataFrame es bastante sencillo:

In [32]:
# Añadir una nueva columna con etiqueta "2014" con los valores de la lista
df3["2014"] = [4000,6000,4000,4000,6000] 
df3

Unnamed: 0_level_0,GEOID,2005,2006,2007,2008,2009,2010,2011,2012,2013,2014
State,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
Alabama,04000US01,37150,37952,42212,44476,39980,40933,42590,43464,41381,4000
Alaska,04000US02,55891,56418,62993,63989,61604,57848,57431,63648,61137,6000
Arizona,04000US04,45245,46657,47215,46914,45739,46896,48621,47044,50602,4000
Arkansas,04000US05,36658,37057,40795,39586,36538,38587,41302,39018,39919,4000
California,04000US06,51755,55319,55734,57014,56134,54283,53367,57020,57528,6000


In [33]:
# Anadir una nueva columna con el ingreso medio de cada estado
df3["Mean"] = df3.mean(axis=1)
df3

Unnamed: 0_level_0,GEOID,2005,2006,2007,2008,2009,2010,2011,2012,2013,2014,Mean
State,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
Alabama,04000US01,37150,37952,42212,44476,39980,40933,42590,43464,41381,4000,37413.8
Alaska,04000US02,55891,56418,62993,63989,61604,57848,57431,63648,61137,6000,54695.9
Arizona,04000US04,45245,46657,47215,46914,45739,46896,48621,47044,50602,4000,42893.3
Arkansas,04000US05,36658,37057,40795,39586,36538,38587,41302,39018,39919,4000,35346.0
California,04000US06,51755,55319,55734,57014,56134,54283,53367,57020,57528,6000,50415.4


El parámetro `axis` le indica a Python que calcule la media a lo largo del eje 1, que significa a lo largo de las columnas. El eje puesto a 0 iría a lo largo de las filas. Vamos a ver cómo calcular la media de cada año y agregarlos como una nueva fila

In [34]:
# Añadir nueva fila con el ingreso medio por año
df3.loc["MEAN"]=df3.mean(axis=0)
df3

Unnamed: 0_level_0,GEOID,2005,2006,2007,2008,2009,2010,2011,2012,2013,2014,Mean
State,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
Alabama,04000US01,37150.0,37952.0,42212.0,44476.0,39980.0,40933.0,42590.0,43464.0,41381.0,4000.0,37413.8
Alaska,04000US02,55891.0,56418.0,62993.0,63989.0,61604.0,57848.0,57431.0,63648.0,61137.0,6000.0,54695.9
Arizona,04000US04,45245.0,46657.0,47215.0,46914.0,45739.0,46896.0,48621.0,47044.0,50602.0,4000.0,42893.3
Arkansas,04000US05,36658.0,37057.0,40795.0,39586.0,36538.0,38587.0,41302.0,39018.0,39919.0,4000.0,35346.0
California,04000US06,51755.0,55319.0,55734.0,57014.0,56134.0,54283.0,53367.0,57020.0,57528.0,6000.0,50415.4
MEAN,,45339.8,46680.6,49789.8,50395.8,47999.0,47709.4,48662.2,50038.8,50113.4,4800.0,44152.88
