# Series y Dataframes (PANDAS)

En este notebook contiene las herramientas básicas que utilizaremos durante el curso para el manejo de datos de forma tabular. La biblioteca *Pandas* contiene dos estructuras para el manejo de datos llamadas *Series* y *DataFrames* las serán el caballo de batalla durante el curso. El uso de estas herramientas se elige por su fácil manejo en comparación con herramientas comunes para el manejo de datos de alto desempeño (como son bases de datos) y a la vez nos permiten un desempeño similar a las herramientas especializadas.  

Para hacer uso de las herramietas dentro de la bibliotyeca *Pandas* ejecutamos el comando `import pandas` por simpleza se utilisa un un alias `pd`para poder usar dicho alias se declara de la siguiente forma

In [2]:
import pandas as pd
import numpy as np

## Series
Las series son similares a un vector o una matriz unidimensional la cual contiene una secuencia de valores u objetos junto con un arreglo de etiquetas que se les llama *índices*. Una *Serie* en pandas se declara de la siguiente forma:

In [3]:
Serie_1 = pd.Series([10,9,8,7,6,5,4,3,2,1])
Serie_1

0    10
1     9
2     8
3     7
4     6
5     5
6     4
7     3
8     2
9     1
dtype: int64

Como se observa en el ejemplo la primera columna son los índices de la *Serie*, mientras que la segunda son los valores. Por defecto los índices son enteros que van de $0$ a $N-1$, donde $N$ es la cantidad de datos que se tienen. Para acceder a los datos de forma de arreglos de tipo *numpy* usamos el atributo `values`de la *Series* mientras que para los índices usamos `index`

In [4]:
Serie_1.values

array([10,  9,  8,  7,  6,  5,  4,  3,  2,  1])

In [5]:
Serie_1.index

RangeIndex(start=0, stop=10, step=1)

Como se ve *pandas* utiliza una función similar a *range* para generar los índices, si de desea utilizar un conjunto especifico de elementos  para usar como índice esto se puede hacer al momento de crear la *serie*.

In [6]:
Serie_2= pd.Series([10,9,8,7,6,5,4,3,2,1,], index =['e','h', 'i','a', 'b','d', 'c', 'g', 'f', 'j'])
Serie_2

e    10
h     9
i     8
a     7
b     6
d     5
c     4
g     3
f     2
j     1
dtype: int64

In [7]:
Serie_2.index

Index(['e', 'h', 'i', 'a', 'b', 'd', 'c', 'g', 'f', 'j'], dtype='object')

Para seleccionar algún valor dentro de la serie o un conjunto de valores utilizamos los `[]`

In [8]:
Serie_1[0]

10

In [9]:
Serie_1[[0, 1,4]]

0    10
1     9
4     6
dtype: int64

In [10]:
Serie_2['a']

7

In [11]:
Serie_2[['a', 'c', 'b']]

a    7
c    4
b    6
dtype: int64

Como se observa, al pasar una lista de índices es distinto que solicitar un sólo elemento, la diferencia radica que al pasar una lista de índices el objeto que nos regresa es una *serie* que sólo contiene a los elementos solicitados.

Para modificar un elemento o un conjunto de elementos también utilizamos `[]`

In [12]:
Serie_2['a'] = 25
Serie_2

e    10
h     9
i     8
a    25
b     6
d     5
c     4
g     3
f     2
j     1
dtype: int64

In [13]:
Serie_1[[0,1,2,3]]= -1
Serie_1

0   -1
1   -1
2   -1
3   -1
4    6
5    5
6    4
7    3
8    2
9    1
dtype: int64

Si en lugar de usar índices usamos un vector booleano del mismo tamaño filtramos los elementos de la *serie*

In [14]:
 Serie_1[[True,True, True, False, True, True,False,False,False,False ]]

0   -1
1   -1
2   -1
4    6
5    5
dtype: int64

Esto nos permite hacer filtros usando los condicionales booleanos de python, pues al utilizar los condicionales en la serie el resultado regresa una serie con verdarero (`True`) o falso (`False`) que podemos utilizar como un vector booleano para filtrar

In [15]:
Serie_1>0

0    False
1    False
2    False
3    False
4     True
5     True
6     True
7     True
8     True
9     True
dtype: bool

In [16]:
Serie_1[Serie_1 >0]

4    6
5    5
6    4
7    3
8    2
9    1
dtype: int64

Una forma de pensar las series que puede resultar conveniente, es como diccionarios grandes, donde las llaves son los índices. A diferencia de los diccionarios podemos aplicar multiplicaciones, funciones matemáticas o condicionales booleanos a los valores y los resultados preservan la relación índice valor.  

In [17]:

Serie_2*4

e     40
h     36
i     32
a    100
b     24
d     20
c     16
g     12
f      8
j      4
dtype: int64

In [18]:
Serie_2^2

e     8
h    11
i    10
a    27
b     4
d     7
c     6
g     1
f     0
j     3
dtype: int64

In [19]:
np.sqrt(Serie_2)

e    3.162278
h    3.000000
i    2.828427
a    5.000000
b    2.449490
d    2.236068
c    2.000000
g    1.732051
f    1.414214
j    1.000000
dtype: float64

Si el identificador de nuestros datos es lo que se utiliza como indice entonces podemos usar dicho identificador para determinar si un elemento se encuentra dentro de la *serie*

In [20]:
'z' in Serie_2

False

In [21]:
'j' in Serie_2

True

Si una *serie* se parece a un diccionario, debería ser natural construir una *serie* a partir de un diccionario. Con tal proposito usando un diccionario como argumento al constructor (función que crea el objeto), en vez de una lista, se construye una *serie* donde las llaves del diccionario son los índices de la *serie*.  

In [22]:
diccionario= {'Ana':8.5, 'karla':10, 'ruben': 8 , 'ismael': 9, 'ivan':10 }

In [23]:
Serie_3= pd.Series(diccionario)
Serie_3

Ana        8.5
karla     10.0
ruben      8.0
ismael     9.0
ivan      10.0
dtype: float64

Si se desea un conjunto específico de índices en una *serie*, el conjunto se pasa como una lista como el parámetro `index`.  

In [24]:
Nombres = ['Ana', 'karla',  'lucrecia', 'irma', 'ruben' , 'ismael', 'ivan' ]
Serie_4 = pd.Series(diccionario, index = Nombres) 
Serie_4

Ana          8.5
karla       10.0
lucrecia     NaN
irma         NaN
ruben        8.0
ismael       9.0
ivan        10.0
dtype: float64

Al construir la *serie* ésta mantiene el orden de los índices, en el primer caso mantiene el orden de las llaves de `diccionario`mentras que en el segundo la de la lista `Nombres`.

Si no existe un valor para algún índice, la acción por defecto en *pandas* es dar el valor `NaN` (*not a number*). No importa si la *serie* son números, strings u otro objeto de python `NaN` se utiliza para señalar que el valor no esta. Gracias a esta regla *pandas* tienen funciones para determinar que elementos son `NaN`y aquellos que no **isnull** y **notnull** son los funciones que se utilizan para tales motivos respectivamente.  


In [25]:
pd.isnull(Serie_4)

Ana         False
karla       False
lucrecia     True
irma         True
ruben       False
ismael      False
ivan        False
dtype: bool

In [26]:
pd.notnull(Serie_4)

Ana          True
karla        True
lucrecia    False
irma        False
ruben        True
ismael       True
ivan         True
dtype: bool

Estan funciones también se encuentran implementadoas en la *series* como métodos 

In [27]:
Serie_4.isnull()

Ana         False
karla       False
lucrecia     True
irma         True
ruben       False
ismael      False
ivan        False
dtype: bool

In [28]:
Serie_4.notnull()

Ana          True
karla        True
lucrecia    False
irma        False
ruben        True
ismael       True
ivan         True
dtype: bool

A partir de dos o más series es posible hacer operaciones respetando el vínculo índice valor, 

In [29]:
Serie_4


Ana          8.5
karla       10.0
lucrecia     NaN
irma         NaN
ruben        8.0
ismael       9.0
ivan        10.0
dtype: float64

In [30]:
Serie_5 = pd.Series({'raul': 6, 'maria':10, 'emilio':8, 'alfredo': 9.5, 'ivan': 7.5, 'fabian':7.5, 'ismael': 7})
Serie_5

raul        6.0
maria      10.0
emilio      8.0
alfredo     9.5
ivan        7.5
fabian      7.5
ismael      7.0
dtype: float64

In [31]:
Serie_4 + Serie_5

Ana          NaN
alfredo      NaN
emilio       NaN
fabian       NaN
irma         NaN
ismael      16.0
ivan        17.5
karla        NaN
lucrecia     NaN
maria        NaN
raul         NaN
ruben        NaN
dtype: float64

Al no poder hacer la operación en ciertos elementos el comportamiento por defecto en *pandas* es que determinar que no hay valor, lo cual hace  más relevante el uso de las funciónes `isnull` y `notnull`.

A las *series* se les puede dar un nombre este se encuentra en la instancia `name` dentro de la *serie*, de forma similar y como buena practica se recomienda que los índices tengan nombre este se encuentra dentro de la instancia `index.name`. 

In [32]:
Serie_4.name= 'Calificaciones'
Serie_4.index.name='Nombre'
Serie_4

Nombre
Ana          8.5
karla       10.0
lucrecia     NaN
irma         NaN
ruben        8.0
ismael       9.0
ivan        10.0
Name: Calificaciones, dtype: float64

Esto será de gran utilidad al combinar series para hacer manejos complicados en los datos.  

De ser necesario es posible cambiar los índices, para tal motivo es necesario dar una lista con los nuevos índices que sea del mismo tamaño que la longitud de la *serie*, 

In [33]:
Serie_4.index= ['Ana', 'Karla', 'Lucrecia', 'Irma', 'Ruben', 'Ismael', 'Carlos Ivan']

In [34]:
Serie_4

Ana             8.5
Karla          10.0
Lucrecia        NaN
Irma            NaN
Ruben           8.0
Ismael          9.0
Carlos Ivan    10.0
Name: Calificaciones, dtype: float64

Una instancia dentro de las series que nos puede ser de utilidad es la instancia `shape` la cual nos regresa una tupla en donde la primera entrada es el tamaño de la *serie* y la segunda se encuentra vacia.

In [35]:
Serie_4.shape

(7,)

In [36]:
Serie_4.shape[0]

7

Otra forma de acceder a los elementos dentro de una serie es utilizando 

In [37]:
Serie_4['Ruben']

8.0

## DataFrames
Los *dataframes* de *pandas* se crearon usando como base los dataframes usados en *R*, el lenguage de programación [*R*](https://www.r-project.org/) fue creado con la intención de generar herramientas especializadas en estadística por *Ross Ihaka* y *Robert Gentleman* en la Universidad de Aucland, en caso de ser necesario se usará *R*. 

Los *Dataframes* son la herrmaienta utilizaremos con mayor frecuencia durante el curso. La selección de esta herramienta se debe a que permite un manejo de los datos en forma de tabla, aunque existen otras herramientas que nos permiten tener los datos en forma de tablas, como son las bases de datos, la facilidad de como se manejan de las columnas de los *dataframes* dentro de *pandas* convierte a los *Dataframes* en herramientas accesibles y poderosas. 

Una forma de pensar a los *Dataframes* es como un diccionario de diccionarios, o un diccionario de *Series*, estas dos formas serán convenientes dependiendo de las problemáticas a resolver y como se desee interpretar la información que se analiza.

Para construir nuestro primer *dataframe* usemos la primera analogía.

In [38]:
dic_dic={'Poblacion': {'Baja California':2844469, 'Ciudad de Mexico': 8720916, 'Hidalgo':2345514, 'Morelos':1612899,'Nayarit':949684 },
'Poblacion_60_a': {'Baja California':164888, 'Ciudad de Mexico':859438 , 'Hidalgo':204325, 'Morelos':143942,'Nayarit':9061},
'Poblacion_0_4': {'Baja California':267954, 'Ciudad de Mexico':664092, 'Hidalgo':237423, 'Morelos':150281, 'Nayarit':92384},
'Poblacion_5_9': {'Ciudad de Mexico': 671579, 'Hidalgo':243185, 'Morelos':157253, 'Nayarit':96834, 'Baja California':277635},
'Poblacion_10_14': {'Baja California':267938, 'Ciudad de Mexico':704950, 'Hidalgo':270650, 'Morelos':168541, 'Nayarit':103122}
}
 
df_1=pd.DataFrame(dic_dic)
df_1

Unnamed: 0,Poblacion,Poblacion_60_a,Poblacion_0_4,Poblacion_5_9,Poblacion_10_14
Baja California,2844469,164888,267954,277635,267938
Ciudad de Mexico,8720916,859438,664092,671579,704950
Hidalgo,2345514,204325,237423,243185,270650
Morelos,1612899,143942,150281,157253,168541
Nayarit,949684,9061,92384,96834,103122


Como se observa el comportamiento por defecto de la función constructora usando un diccionario de diccionarios (diccionarios anidados) es tomar como columnas las llaves del diccionario exterior y como renglones las llaves de los diccionarios internos. Si quisieramos que fuese las columnas se convirtieran en los renglones existen varias formas de lograr este cometido la más simples es tomar la transpuesta del *dataframe*.   

Recornando sus clases de matemáticas tomar la transpuesta es cambiar los renglones de una matriz y convertirlos en columnas respetando el orden dado, esta operación se puede hacer en los dataframes de forma muy fácil usando el método implementado en los *dataframes*

In [39]:
df_1.T

Unnamed: 0,Baja California,Ciudad de Mexico,Hidalgo,Morelos,Nayarit
Poblacion,2844469,8720916,2345514,1612899,949684
Poblacion_60_a,164888,859438,204325,143942,9061
Poblacion_0_4,267954,664092,237423,150281,92384
Poblacion_5_9,277635,671579,243185,157253,96834
Poblacion_10_14,267938,704950,270650,168541,103122


Muchas de las operaciones que se pueden hacer con matrices es posibles hacerlas con los *dataframes* y es de las cosas que se atenderan durante el curso, esta operación muestra la capacidad de los *dataframes* para ser operados por renglones o columnas. 

La mayoría de las operaciones que se están implementadas en *pandas* dejan al objeto en su forma original al menos que se indique lo contrario, es decir `df_1` sigue siendo el mismo y no se vio afectado por la operación `.T`, esto es importante tenerlo en cuenta pues es causa común de errores al hacer código.  


In [40]:
df_1

Unnamed: 0,Poblacion,Poblacion_60_a,Poblacion_0_4,Poblacion_5_9,Poblacion_10_14
Baja California,2844469,164888,267954,277635,267938
Ciudad de Mexico,8720916,859438,664092,671579,704950
Hidalgo,2345514,204325,237423,243185,270650
Morelos,1612899,143942,150281,157253,168541
Nayarit,949684,9061,92384,96834,103122


Para entender un poco más de como se construyen los *datafremes* modifiquemos un poco el diccionario añadiendo elementos a los diccionarios internos para que ver el comportamiento con diccionarios de distinto tamaño.

In [41]:
dic_dic['Poblacion']['Tamaulipas']=	3024238
df_2 =pd.DataFrame(dic_dic)
df_2

Unnamed: 0,Poblacion,Poblacion_60_a,Poblacion_0_4,Poblacion_5_9,Poblacion_10_14
Baja California,2844469,164888.0,267954.0,277635.0,267938.0
Ciudad de Mexico,8720916,859438.0,664092.0,671579.0,704950.0
Hidalgo,2345514,204325.0,237423.0,243185.0,270650.0
Morelos,1612899,143942.0,150281.0,157253.0,168541.0
Nayarit,949684,9061.0,92384.0,96834.0,103122.0
Tamaulipas,3024238,,,,


La función constructura de los *dataframes* nos permite que los diccionarios tengan distintos tamaños pues existe un forma de determinar la relación índice-valor. Una diferencía con respecto a esto, es cuando se construye un *dataframe* a partir de un diccionario de listas, *pandas* asumirá que la relación índice-valor esta dada por el orden en las listas.

In [42]:
dic_lis={'Poblacion': [2844469,  8720916, 2345514, 1612899,949684 ],
'Poblacion_60_a': [164888, 859438 , 204325, 143942,9061],
'Poblacion_0_4': [267954, 664092, 237423, 150281, 92384],
'Poblacion_5_9': [277635, 671579, 243185, 157253, 96834],
'Poblacion_10_14': [267938,704950, 270650, 168541,103122]}
pd.DataFrame(dic_lis)

Unnamed: 0,Poblacion,Poblacion_60_a,Poblacion_0_4,Poblacion_5_9,Poblacion_10_14
0,2844469,164888,267954,277635,267938
1,8720916,859438,664092,671579,704950
2,2345514,204325,237423,243185,270650
3,1612899,143942,150281,157253,168541
4,949684,9061,92384,96834,103122



Al no tener etiquetas el índice en el *dataframe* se toma como un rango por defecto, igual que se hace con la construcción de las *series*. Sin embargo al utilizar listas es necesario que todas tengan el mismo tamaño y que las listas esten ordenadas, es decir que los datos en el indice *i* de una lista correspondan al dato *i* en todas las otras. Si se ponen atención en los ejemplos mostrados los datos en el diciionario anidado no se encuentran en orden, no es necesarios que los diccionarios internos tengan el mismo orden, pues se tiene las llaves de los diccionarios internos para asegurar que al generar el dataframe se mantenga la relación índice-valor.

Ahora construimos un *dataframe* a partir de un diccionario de series.

In [43]:
dic_ser= {'Poblacion': pd.Series({'Puebla':5383133,'Quintana Roo':1135309, 'Sinaloa':2608442}),
          'Poblacion_0_4':pd.Series({'Puebla':579804,'Quintana Roo':107380, 'Sinaloa':244907}),
          'Poblacion_5_9':pd.Series({'Puebla':586108,'Quintana Roo':106802, 'Sinaloa':262539}),
          'Poblacion_10_14':pd.Series({'Puebla':624075,'Quintana Roo':106745, 'Sinaloa':275179}),
          'Poblacion_60_a':pd.Series({'Puebla':440546,'Quintana Roo':44163, 'Sinaloa':220998})
         }


In [44]:
df_2=pd.DataFrame(dic_ser)
df_2

Unnamed: 0,Poblacion,Poblacion_0_4,Poblacion_5_9,Poblacion_10_14,Poblacion_60_a
Puebla,5383133,579804,586108,624075,440546
Quintana Roo,1135309,107380,106802,106745,44163
Sinaloa,2608442,244907,262539,275179,220998


Es posible definir el orden en el cual se encuentran las columnas de los dataframes y tambíen que columnas se encuentren dentro, esto lo podemos hacer desde la función constructor del dataframe

In [45]:
df_3=pd.DataFrame(dic_ser, columns= ['Poblacion_0_4','Poblacion_5_9', 'Poblacion_60_a', 'Poblacion' ])
df_3

Unnamed: 0,Poblacion_0_4,Poblacion_5_9,Poblacion_60_a,Poblacion
Puebla,579804,586108,440546,5383133
Quintana Roo,107380,106802,44163,1135309
Sinaloa,244907,262539,220998,2608442


Otra forma en la cual nos seria útil construir los *dataframes* es a partir de un diccionario de diccionarios 

In [46]:
dic_cic_2= { 'Poblacion':{'Puebla':5383133,'Quintana Roo':1135309, 'Sinaloa':2608442},
'Poblacion_0_4':{'Puebla':579804,'Quintana Roo':107380, 'Sinaloa':244907},
'Poblacion_5_9':{'Puebla':586108,'Quintana Roo':106802, 'Sinaloa':262539},
'Poblacion_10_14':{'Puebla':624075,'Quintana Roo':106745, 'Sinaloa':275179},
'Poblacion_60_a':{'Puebla':440546,'Quintana Roo':44163, 'Sinaloa':220998}}
df_4= pd.DataFrame(dic_cic_2)
df_4

Unnamed: 0,Poblacion,Poblacion_0_4,Poblacion_5_9,Poblacion_10_14,Poblacion_60_a
Puebla,5383133,579804,586108,624075,440546
Quintana Roo,1135309,107380,106802,106745,44163
Sinaloa,2608442,244907,262539,275179,220998


Los valores en el diccionario se toman como columnas, con el nombre de las llaves en el diccionario. Recordemos que los índices y las columnas pueden ser cosas distintas no sólo *strings*, pueden ser tuplas, enteros, flotantes, etc.

A continuación mostramos una tabla con los posibles estructuras de datos que pueden utilizarse para generar un *dataframe* en *pandas*. 


| Estructura datos | Descripción |
|:-------|:-----------:|
| Array 2D|  Una matriz de *numpy* .|
| Diccionaro de *array*, lista, o tuplas| Cada valor en el diccionario se convierte en <br> una columna en el *dataframe* en donde cada *array*,<br> lista o tupla tienen que ser de la misma longitud.| 
| Diccionario de *Series*| Cada valor del diccionario se convierte en una<br> columna cuya etiqueta se toma de las llaves (`key`); <br>los índices son la unión del conjunto de índices de <br> todas las *series*, si no se pasa un índice explicitamente.|
| Dicccionario de diccionarios | Cada diccionario internos se convierte en una<br> columna; los índices se forman a partir de la unión <br>de las  llaves(`key`) de los diccionarios internos.|
| Lista de diccionarios o *Series*| Los elementos de las listas o diccionarios<br> se convierten en renglones en el *dataframe*, la unión<br> de las llaves del diccionario o de los índices<br> de las *Series*, se vuelven las etiquetas de los renglones.|
| Listas de listas o tuplas | Se toma como el caso de *Array 2D*.
| Otro *dataframe*| Se utilizan los íondices del dataframe si no se pasa otro distinto.|
| Numpy Array enmascarada| Como *Array 2D* salvo aquellos que tengan <br> `False` en la matriz mascara, se tomaran como *NA*.| 

## Índices 
Como hemos visto los índices son una parte muy importante para el manejo de los datos tanto en las *series* como en los *dataframes*. Son tan importantes que los índices de éstas estructuras tienen su propio objeto dedicado en *pandas* el cual esta encargado de almacenar las etiquetas     

In [47]:
Serie_1=pd.Series(range(10), index=['b','e','f','g','h','i','k','n','z' ,'w'])
Serie_1

b    0
e    1
f    2
g    3
h    4
i    5
k    6
n    7
z    8
w    9
dtype: int64

In [48]:
indice= Serie_1.index
indice

Index(['b', 'e', 'f', 'g', 'h', 'i', 'k', 'n', 'z', 'w'], dtype='object')

Al construir la *serie* o un *dataframe* el conjunto que se define como índice, ya sea un array o una secuencia, se convierte de forma interna a un objeto de este tipo. 

In [49]:
indice[1:]

Index(['e', 'f', 'g', 'h', 'i', 'k', 'n', 'z', 'w'], dtype='object')

In [50]:
indice[:5]

Index(['b', 'e', 'f', 'g', 'h'], dtype='object')

Los índices son del tipo inmutable, es decir que no pueden ser modificados por el usuario, si 
para ser modificado es necesario redefinirlos a través de funciones hechas para tal proposito.

## Reindexar
Un método dentro de las *series* y los *dataframes* que es útil es el de reindexar el cual nos permite crear un objeto nuevo a partir de los datos de otro formado por un nuevo índice. 

In [51]:
Serie_1=pd.Series(range(20,30), index=[0,5,6,9,3,15,12,4,7,13])
Serie_1

0     20
5     21
6     22
9     23
3     24
15    25
12    26
4     27
7     28
13    29
dtype: int64

In [52]:

Ses=Serie_1.reindex(range(10))#[0,1,2,3,4,5,6,7,8,9]) 
Ses

0    20.0
1     NaN
2     NaN
3    24.0
4    27.0
5    21.0
6    22.0
7    28.0
8     NaN
9    23.0
dtype: float64

La función nos permite hacer generar un objeto nuevo el cual tiene el orden y los datos deseados, a los datos que no se encuentren en el objeto original se les asigna `NaN`. Si los datos tienen cierto orden, es posible hacer una interpolación y determijnar un valor para los datos faltantes.  

In [53]:
Ses=pd.Series(['rojo','rojo','rojo','rojo','rojo','rojo','azul','azul','azul','azul','azul',
           'verde', 'verde', 'verde', 'verde', 'verde', 'verde', 'verde', 'verde', 'verde'], 
          index =[2,3,5,6,8,9,11,12,14,15,17,18,20,21,23,24,26,27,29,30])
Ses_2=Ses.reindex(range(5,25), method='ffill')
Ses_2

5      rojo
6      rojo
7      rojo
8      rojo
9      rojo
10     rojo
11     azul
12     azul
13     azul
14     azul
15     azul
16     azul
17     azul
18    verde
19    verde
20    verde
21    verde
22    verde
23    verde
24    verde
dtype: object

Como los *dataframes* utilizan los objetos de tipo index tanto en el índice de los renglones como en las columnas, por lo que se puede utilizar la función en ambos casos.

In [54]:
df_1

Unnamed: 0,Poblacion,Poblacion_60_a,Poblacion_0_4,Poblacion_5_9,Poblacion_10_14
Baja California,2844469,164888,267954,277635,267938
Ciudad de Mexico,8720916,859438,664092,671579,704950
Hidalgo,2345514,204325,237423,243185,270650
Morelos,1612899,143942,150281,157253,168541
Nayarit,949684,9061,92384,96834,103122


In [55]:
df_1.reindex(['Baja California', 'Ciudad de Mexico', 'Yucatan', 'Hidalgo','Nayarit'])

Unnamed: 0,Poblacion,Poblacion_60_a,Poblacion_0_4,Poblacion_5_9,Poblacion_10_14
Baja California,2844469.0,164888.0,267954.0,277635.0,267938.0
Ciudad de Mexico,8720916.0,859438.0,664092.0,671579.0,704950.0
Yucatan,,,,,
Hidalgo,2345514.0,204325.0,237423.0,243185.0,270650.0
Nayarit,949684.0,9061.0,92384.0,96834.0,103122.0


In [56]:
df_1.reindex(columns= ['Poblacion_0_4', 'Poblacion_5_9', 'Poblacion_10_14', 'Poblacion_15_19'])

Unnamed: 0,Poblacion_0_4,Poblacion_5_9,Poblacion_10_14,Poblacion_15_19
Baja California,267954,277635,267938,
Ciudad de Mexico,664092,671579,704950,
Hidalgo,237423,243185,270650,
Morelos,150281,157253,168541,
Nayarit,92384,96834,103122,


Aunque se tiene el método `reindex` la forma que más comunmente se utiliza es a través del método `loc`

In [57]:
df_1.loc[['Baja California', 'Ciudad de Mexico', 'Hidalgo','Nayarit'], ['Poblacion_0_4', 'Poblacion_5_9', 'Poblacion_10_14']]

Unnamed: 0,Poblacion_0_4,Poblacion_5_9,Poblacion_10_14
Baja California,267954,277635,267938
Ciudad de Mexico,664092,671579,704950
Hidalgo,237423,243185,270650
Nayarit,92384,96834,103122


El método `loc` nos permite tener acceso a los datos asociados a los índices que se deseen (renglones o columnas) usadno `[]` para tal propósito, esta forma es de acuerdo al método para acceder a los elementos en una matiz de *Numpy*. Al utilizar listas de índices el método regresa un *dataframe*, si lo que se desea es tener acceso a un valor específico dentro del *dataframe* se utiliza la pareja índice-columna dentro de los `[]`.

In [58]:
df_1.loc['Nayarit','Poblacion']

949684

Otro método para seleccionar elementos de forma especifica es a través de `iloc`, el cual utiliza los índices enteros en lugar de los índices definidos por el usuario, esta forma de acceso nos permite usar las notaciones clásicas de Python para tomar intervalos especificos. 

Por defecto sí se pasa sólo un entero toma como al entero dentro de los índices de los renglones

In [59]:
df_1.iloc[2:4,2:5]

Unnamed: 0,Poblacion_0_4,Poblacion_5_9,Poblacion_10_14
Hidalgo,237423,243185,270650
Morelos,150281,157253,168541


In [60]:

df_1.iloc[4]

Poblacion          949684
Poblacion_60_a       9061
Poblacion_0_4       92384
Poblacion_5_9       96834
Poblacion_10_14    103122
Name: Nayarit, dtype: int64

## Eliminar
Para eliminar renglones se puede hacer utilizando el método `drop`, recordemos que la mayoría de los metodos no modifica el objeto original como es el caso de este método, si se desea modificar el objeto original es necesario pasar como argumento `inplace=True`. 

Por defecto `drop` elimina los índices en los renglones del *dataframe* para eliminar elementos en las columnas es necesario pasar como argumento `axis=1` el valor que toma por defecto es 0.

In [61]:

df_1.drop(['Nayarit', 'Ciudad de Mexico'])

Unnamed: 0,Poblacion,Poblacion_60_a,Poblacion_0_4,Poblacion_5_9,Poblacion_10_14
Baja California,2844469,164888,267954,277635,267938
Hidalgo,2345514,204325,237423,243185,270650
Morelos,1612899,143942,150281,157253,168541


In [62]:
df_1.drop('Nayarit')

Unnamed: 0,Poblacion,Poblacion_60_a,Poblacion_0_4,Poblacion_5_9,Poblacion_10_14
Baja California,2844469,164888,267954,277635,267938
Ciudad de Mexico,8720916,859438,664092,671579,704950
Hidalgo,2345514,204325,237423,243185,270650
Morelos,1612899,143942,150281,157253,168541


In [63]:
df_1.drop('Poblacion', axis=1)

Unnamed: 0,Poblacion_60_a,Poblacion_0_4,Poblacion_5_9,Poblacion_10_14
Baja California,164888,267954,277635,267938
Ciudad de Mexico,859438,664092,671579,704950
Hidalgo,204325,237423,243185,270650
Morelos,143942,150281,157253,168541
Nayarit,9061,92384,96834,103122


## Inspeccionar, Seleccionar y Filtrar.

Dos métodos que nos serán de gran utilidad para inspeccionar tanto las *series* como los *dataframes* son `head` y `tail`. `head` nos muestran los primeros cinco elementos de la *serie* o los cinco primeros renglones del *dataframe*, mientras que `tail` los últimos cinco elementos o renglones según sea el caso. Si se desea ver más elementos se puede pasar un entero $n$ positivo para mostrar los primeros o últimos elementos segun sea el caso.  

In [64]:
import numpy as np

In [65]:
np.random.seed(15)
df_5= pd.DataFrame(np.random.rand(15,15))
df_5.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14
0,0.848818,0.178896,0.054363,0.361538,0.275401,0.53,0.305919,0.304474,0.111741,0.249899,0.91763,0.264147,0.717774,0.865715,0.807079
1,0.210551,0.167243,0.046706,0.039422,0.200231,0.998543,0.372787,0.76051,0.473474,0.509715,0.945038,0.109447,0.465093,0.141555,0.538349
2,0.298999,0.537745,0.665628,0.364329,0.623019,0.642725,0.419982,0.403242,0.39042,0.40619,0.079666,0.056831,0.078331,0.695678,0.029159
3,0.499492,0.132634,0.030756,0.639489,0.445998,0.974607,0.329766,0.195425,0.684046,0.351099,0.771036,0.7918,0.443875,0.268828,0.023904
4,0.371333,0.097731,0.727523,0.459444,0.520496,0.684569,0.42529,0.603473,0.823849,0.451871,0.887945,0.2204,0.106823,0.01201,0.917941


Nos interesa hacer un manejo de los datos utilizando las *series* y los *dataframes*, una posibilidad es usando el método `reindex` visto anteriormente, sin embargo para nuestra facilidad los creadores de *Pandas* nos permiten seleccionar y filtrar los datos utilizando los `[]` para seleccionar los índices. Por defecto los `[]` toman como valor índices sobre las columnas, a estos podemos pasar una o una lista de columnas. En el primer caso el objeto que se regresa es una serie, mientras que si pasamos una lista entonces lo que se regresa es un *dataframe*. 

In [66]:
df_1['Poblacion_10_14']

Baja California     267938
Ciudad de Mexico    704950
Hidalgo             270650
Morelos             168541
Nayarit             103122
Name: Poblacion_10_14, dtype: int64

In [67]:
type(df_1['Poblacion_10_14'])

pandas.core.series.Series

In [68]:
df_1[['Poblacion_10_14']]

Unnamed: 0,Poblacion_10_14
Baja California,267938
Ciudad de Mexico,704950
Hidalgo,270650
Morelos,168541
Nayarit,103122


In [69]:
type(df_1[['Poblacion_10_14']])

pandas.core.frame.DataFrame

Es posible definir intervalos en los índices en los renglones  

In [70]:
df_1['Ciudad de Mexico':'Morelos']

Unnamed: 0,Poblacion,Poblacion_60_a,Poblacion_0_4,Poblacion_5_9,Poblacion_10_14
Ciudad de Mexico,8720916,859438,664092,671579,704950
Hidalgo,2345514,204325,237423,243185,270650
Morelos,1612899,143942,150281,157253,168541


En el caso de las columnas es necesario tomar una lista y pasar como argumento 

In [71]:
df_5[[4,6,8,10,12]]

Unnamed: 0,4,6,8,10,12
0,0.275401,0.305919,0.111741,0.91763,0.717774
1,0.200231,0.372787,0.473474,0.945038,0.465093
2,0.623019,0.419982,0.39042,0.079666,0.078331
3,0.445998,0.329766,0.684046,0.771036,0.443875
4,0.520496,0.42529,0.823849,0.887945,0.106823
5,0.875666,0.303654,0.569105,0.330015,0.515675
6,0.573752,0.20072,0.932277,0.015004,0.6154
7,0.546339,0.77477,0.517394,0.762913,0.123988
8,0.683021,0.434022,0.215403,0.369989,0.859933
9,0.586269,0.159536,0.472342,0.812014,0.299919


Se pueden declarar columnas nuevas pasando el nombre de la columna y dando una *serie*, si se desea que toda la columna tenga un valor se le designa con `=`. Usando la misma notación es posible cambiar todos los valores de una columna.

In [72]:
df_5['entero']=1

In [73]:
df_5.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,entero
0,0.848818,0.178896,0.054363,0.361538,0.275401,0.53,0.305919,0.304474,0.111741,0.249899,0.91763,0.264147,0.717774,0.865715,0.807079,1
1,0.210551,0.167243,0.046706,0.039422,0.200231,0.998543,0.372787,0.76051,0.473474,0.509715,0.945038,0.109447,0.465093,0.141555,0.538349,1
2,0.298999,0.537745,0.665628,0.364329,0.623019,0.642725,0.419982,0.403242,0.39042,0.40619,0.079666,0.056831,0.078331,0.695678,0.029159,1
3,0.499492,0.132634,0.030756,0.639489,0.445998,0.974607,0.329766,0.195425,0.684046,0.351099,0.771036,0.7918,0.443875,0.268828,0.023904,1
4,0.371333,0.097731,0.727523,0.459444,0.520496,0.684569,0.42529,0.603473,0.823849,0.451871,0.887945,0.2204,0.106823,0.01201,0.917941,1


In [74]:
df_5[0]=2

In [75]:
df_5.head(10)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,entero
0,2,0.178896,0.054363,0.361538,0.275401,0.53,0.305919,0.304474,0.111741,0.249899,0.91763,0.264147,0.717774,0.865715,0.807079,1
1,2,0.167243,0.046706,0.039422,0.200231,0.998543,0.372787,0.76051,0.473474,0.509715,0.945038,0.109447,0.465093,0.141555,0.538349,1
2,2,0.537745,0.665628,0.364329,0.623019,0.642725,0.419982,0.403242,0.39042,0.40619,0.079666,0.056831,0.078331,0.695678,0.029159,1
3,2,0.132634,0.030756,0.639489,0.445998,0.974607,0.329766,0.195425,0.684046,0.351099,0.771036,0.7918,0.443875,0.268828,0.023904,1
4,2,0.097731,0.727523,0.459444,0.520496,0.684569,0.42529,0.603473,0.823849,0.451871,0.887945,0.2204,0.106823,0.01201,0.917941,1
5,2,0.219762,0.547552,0.9208,0.875666,0.127592,0.303654,0.295297,0.569105,0.74342,0.330015,0.607852,0.515675,0.919801,0.201367,1
6,2,0.071733,0.420494,0.498917,0.573752,0.880373,0.20072,0.421178,0.932277,0.363291,0.015004,0.899727,0.6154,0.970942,0.62162,1
7,2,0.59904,0.139279,0.678375,0.546339,0.009044,0.77477,0.121425,0.517394,0.665752,0.762913,0.940879,0.123988,0.209996,0.365368,1
8,2,0.590005,0.993915,0.611509,0.683021,0.096211,0.434022,0.129159,0.215403,0.850066,0.369989,0.228212,0.859933,0.465751,0.678117,1
9,2,0.716434,0.36502,0.551522,0.586269,0.115388,0.159536,0.745438,0.472342,0.630203,0.812014,0.066001,0.299919,0.623582,0.493188,1


Una de las herramientas más poderosas de *pandas* es poder hacer un filtrado de los datos a partir de comparaciones lógicas, las cuales nos regresan vectores booleanos.  

In [76]:
df_5[df_5>.5]

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,entero
0,2,,,,,0.53,,,,,0.91763,,0.717774,0.865715,0.807079,1
1,2,,,,,0.998543,,0.76051,,0.509715,0.945038,,,,0.538349,1
2,2,0.537745,0.665628,,0.623019,0.642725,,,,,,,,0.695678,,1
3,2,,,0.639489,,0.974607,,,0.684046,,0.771036,0.7918,,,,1
4,2,,0.727523,,0.520496,0.684569,,0.603473,0.823849,,0.887945,,,,0.917941,1
5,2,,0.547552,0.9208,0.875666,,,,0.569105,0.74342,,0.607852,0.515675,0.919801,,1
6,2,,,,0.573752,0.880373,,,0.932277,,,0.899727,0.6154,0.970942,0.62162,1
7,2,0.59904,,0.678375,0.546339,,0.77477,,0.517394,0.665752,0.762913,0.940879,,,,1
8,2,0.590005,0.993915,0.611509,0.683021,,,,,0.850066,,,0.859933,,0.678117,1
9,2,0.716434,,0.551522,0.586269,,,0.745438,,0.630203,0.812014,,,0.623582,,1


Si nos interesa una columna en particular y sólo tomar elementos que cumplan con una condición dada se hace de forma similar.  

In [77]:
df_5[df_5[1]>0.5]

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,entero
2,2,0.537745,0.665628,0.364329,0.623019,0.642725,0.419982,0.403242,0.39042,0.40619,0.079666,0.056831,0.078331,0.695678,0.029159,1
7,2,0.59904,0.139279,0.678375,0.546339,0.009044,0.77477,0.121425,0.517394,0.665752,0.762913,0.940879,0.123988,0.209996,0.365368,1
8,2,0.590005,0.993915,0.611509,0.683021,0.096211,0.434022,0.129159,0.215403,0.850066,0.369989,0.228212,0.859933,0.465751,0.678117,1
9,2,0.716434,0.36502,0.551522,0.586269,0.115388,0.159536,0.745438,0.472342,0.630203,0.812014,0.066001,0.299919,0.623582,0.493188,1
10,2,0.83879,0.761277,0.121492,0.969743,0.863809,0.099291,0.342655,0.036127,0.586841,0.797385,0.969131,0.968505,0.07903,0.184743,1
11,2,0.744514,0.167016,0.438509,0.512657,0.217382,0.101643,0.248965,0.966612,0.821847,0.435116,0.827812,0.047537,0.769853,0.965602,1
12,2,0.590896,0.748336,0.198431,0.452266,0.252769,0.817256,0.950861,0.262248,0.133244,0.167872,0.410399,0.484212,0.146091,0.717554,1


O podemos hacer condiciones sobre las propias columnas del *dataframe*

In [78]:
df_1[df_1['Poblacion_10_14']< df_1['Poblacion_5_9']]

Unnamed: 0,Poblacion,Poblacion_60_a,Poblacion_0_4,Poblacion_5_9,Poblacion_10_14
Baja California,2844469,164888,267954,277635,267938


Otra forma de uso de para tener acceso a las columnas en los *dataframes* es usar la notación de una instancia dentro de un objeto, esto se hace a traves de `.`


In [79]:
df_1.Poblacion

Baja California     2844469
Ciudad de Mexico    8720916
Hidalgo             2345514
Morelos             1612899
Nayarit              949684
Name: Poblacion, dtype: int64

In [80]:
df_1[df_1.Poblacion > 1000000]

Unnamed: 0,Poblacion,Poblacion_60_a,Poblacion_0_4,Poblacion_5_9,Poblacion_10_14
Baja California,2844469,164888,267954,277635,267938
Ciudad de Mexico,8720916,859438,664092,671579,704950
Hidalgo,2345514,204325,237423,243185,270650
Morelos,1612899,143942,150281,157253,168541


Estas formas de seleccionar elementos dentro del *dataframe* se basan en la forma de seleccionar elementos de las matrices de *Numpy*, los desarrolladores de *pandas* implementaron los métodos `loc` y `iloc` para poder seleccionar los elementos dentro de los *dataframes* generando así múltiples formas para la selección de elementos. Más adelante en el curso se verán otras formas de selección para los caso con múltiples índices jerárquicos.

En la siguiente tabla resumimos algunas formas para la seleccion de los datos


|Tipo de llamado | Descripción|
|----------------|--------------|
|`df.loc[val]`| Se selecciona un renglón o un subconjunto de renglones usando el índice |
|`df.loc[:,val]`| Selecciona una sola columna o un conjunto de columnas|
|`df[val]`| Se selecciona una columna del *dataframe*; si *val* es un arreglo boleano de 1D filtra renglones y si es *val* <br> es un arreglo 2D se puede usar para designar valores|
|`df.iloc[val]`| Selecciona la el renglón o un subconjunto de renglones usando la posición con enteros|
|`df.iloc[:,val]`| Selección de una columna o múltiples columnas usando la posición por enteros|
|`df.iloc[val1,val2]`| Selección de renglón y columna usando enteros|
|`df.at[val1,val2]`| Seleccionar un sólo valor usando las etiquedas del índice tanto en renglones como en columnas|
|`df.get(val)`|Regresa la columna *val* esta en los índices de las columnas|

### Operaciones aritméticas en *Dataframes*
Como ya vimos es posible hacer operacións aritméticas en las *series* (sumar, restar, multiplicar por escalares multiplicar elemento a elemento ) 

In [81]:
Serie_5

raul        6.0
maria      10.0
emilio      8.0
alfredo     9.5
ivan        7.5
fabian      7.5
ismael      7.0
dtype: float64

In [82]:
Serie_2

e    10
h     9
i     8
a    25
b     6
d     5
c     4
g     3
f     2
j     1
dtype: int64

In [83]:
Serie_5+ Serie_2

a         NaN
alfredo   NaN
b         NaN
c         NaN
d         NaN
e         NaN
emilio    NaN
f         NaN
fabian    NaN
g         NaN
h         NaN
i         NaN
ismael    NaN
ivan      NaN
j         NaN
maria     NaN
raul      NaN
dtype: float64

In [84]:
Serie_5*Serie_2

a         NaN
alfredo   NaN
b         NaN
c         NaN
d         NaN
e         NaN
emilio    NaN
f         NaN
fabian    NaN
g         NaN
h         NaN
i         NaN
ismael    NaN
ivan      NaN
j         NaN
maria     NaN
raul      NaN
dtype: float64

In [85]:
Serie_5/Serie_2

a         NaN
alfredo   NaN
b         NaN
c         NaN
d         NaN
e         NaN
emilio    NaN
f         NaN
fabian    NaN
g         NaN
h         NaN
i         NaN
ismael    NaN
ivan      NaN
j         NaN
maria     NaN
raul      NaN
dtype: float64

Pero como sabemos cuando los índices no son los mismos entonces por defecto se coloca `NaN` esto lleva a múltiples problemas si se hacen mas de una operación operaciones. En el caso de los *dataframes* los índices deben de coincidir tanto en renglones, como en columnas para que las operaciones se lleven acabo.

In [86]:
df_6= pd.DataFrame(np.random.randint(20,size=(7,5)), columns= list('efghi') , index= ['Ale', 'Ivan', 'Mariana', 'Diana', 'Susana', 'Liliana', 'Juan'])
df_7= pd.DataFrame(np.random.randint(20,size=(7,5)), columns= list('bcdef'),  index= ['Ale', 'Ivan',  'Susana', 'Juan', 'Tania', 'Jose', 'Rosa'])

In [87]:
df_6 + df_7

Unnamed: 0,b,c,d,e,f,g,h,i
Ale,,,,8.0,12.0,,,
Diana,,,,,,,,
Ivan,,,,23.0,9.0,,,
Jose,,,,,,,,
Juan,,,,18.0,29.0,,,
Liliana,,,,,,,,
Mariana,,,,,,,,
Rosa,,,,,,,,
Susana,,,,5.0,27.0,,,
Tania,,,,,,,,


Es claro que si se continua haciendo operaciones el número de `NaN` aumente en muchos esenarios esto no es un comportamiento se dese, por tal motivo *pandas*  ofrece una salida ante esta problemática usando los métodos pre establecidos como`add` (para la suma) para que en caso de que los índices no se encuentren en en segundo *dataframe* entonces asignar un valor determiando como $0.0$. 

In [88]:
df_6.add( df_7, fill_value = 0.0)

Unnamed: 0,b,c,d,e,f,g,h,i
Ale,6.0,2.0,14.0,8.0,12.0,19.0,12.0,13.0
Diana,,,,9.0,17.0,6.0,10.0,15.0
Ivan,15.0,5.0,5.0,23.0,9.0,18.0,3.0,8.0
Jose,6.0,7.0,5.0,9.0,11.0,,,
Juan,10.0,14.0,16.0,18.0,29.0,10.0,18.0,14.0
Liliana,,,,11.0,13.0,15.0,1.0,11.0
Mariana,,,,5.0,3.0,3.0,6.0,16.0
Rosa,14.0,6.0,0.0,3.0,16.0,,,
Susana,15.0,15.0,17.0,5.0,27.0,5.0,15.0,4.0
Tania,15.0,16.0,1.0,9.0,8.0,,,


Es claro que no se elimina la problemática en su totalidad, pero nos permite tener un mejor manejo de como hacer las operaciones entre *dataframes*, en particular el método suma a los valores que se encuentran en los dos *dataframes*, si sólo se encuentran en un *dataframe* hace la operación con el *fill_value*. Como se observa se mantiene el hecho que si el valor no se encuentra dentro de cierta columna, entonces en la suma el valos se mantiene sin un valor específico, esto es importante pues se mantiene la consistencia de los datos. 

A continuación mostramos una tabla con los métodos para hacer operaciones aritméticas.


|Método| Operación|
|--------|---------|
|`add`, `radd`| Suma (+)|
|`sub`, `rsub`| Resta (-)|
|`div`, `rdiv`| División (/)|
|`floordv`,`rfloordiv`|División entera (//)|
|`mul`, `rmul`| Multiplicación (*)|
|`pow`, `rpow`| Exponente(**)| 


### Operaciones entre *Dataframes* y *Series*

*Pandas* nos permite hacer operaciones entre *dataframes* y *series*, es común hacer operaciones como restar un elemento (renglón) a un *dataframe* generando un *dataframe*, por tal motivo este tipo de operaciónes estan implementadas

In [89]:
df_7-df_7.iloc[0]

Unnamed: 0,b,c,d,e,f
Ale,0,0,0,0,0
Ivan,9,3,-9,3,-4
Susana,9,13,3,-2,5
Juan,4,12,2,9,6
Tania,9,14,-13,6,-4
Jose,0,5,-9,6,-1
Rosa,8,4,-14,0,4


cuando los índices de una *serie* se encuentrán dentro de las columnas del *dataframe* la operación se hace, en caso de los índices no se encuentren el resultado de la operación es `NaN`. El *dataframe* resultante tiene como columnas a la unión de los índices de la *serie* y las columnas del *dataframe* original.

In [90]:
df_7-df_6.iloc[0]

Unnamed: 0,b,c,d,e,f,g,h,i
Ale,,,,-2.0,12.0,,,
Ivan,,,,1.0,8.0,,,
Susana,,,,-4.0,17.0,,,
Juan,,,,7.0,18.0,,,
Tania,,,,4.0,8.0,,,
Jose,,,,4.0,11.0,,,
Rosa,,,,-2.0,16.0,,,


Si se desea hacer una operación con las columnas es necesario usar los métodos implementados dentro de *pandas* para tal motivo, por defecto la operación se hace sobre las columnas por lo que para que nos permita hacer la operación es necesario pasar como argumento `axis='index'` o `index=0`.

In [91]:
df_6.add(df_6['f'] , axis='index')

Unnamed: 0,e,f,g,h,i
Ale,5,0,19,12,13
Ivan,18,2,19,4,9
Mariana,8,6,6,9,19
Diana,26,34,23,27,32
Susana,14,20,15,25,14
Liliana,24,26,28,14,24
Juan,17,22,21,29,25


### Aplicación de funciones y mapeos 

Como hemos visto en *Pandas* se han implementado operaciones básica para hacer uso dentro de los *dataframes*, las cuales normalmente son elemento a elemento. Es común hacer operaciones como ordenar los datos o aplicar funciones estadísticas básicas dentro del manejo de datos, por lo cual los desarrolladodes de *Pandas* han tiene implementado muchas de estas funciones.

In [92]:
df_8 = pd.DataFrame(np.random.randn(7, 5), columns=list('jmlkn'),
                    index= ['Ale', 'Ivan',  'Susana', 'Juan', 'Tania', 'Jose', 'Rosa'])

In [93]:
df_8

Unnamed: 0,j,m,l,k,n
Ale,-0.297593,-0.994836,-0.719566,0.139275,-1.111591
Ivan,0.332882,-0.138951,-0.191345,-0.854492,2.053859
Susana,1.525446,0.887508,-0.793204,0.615804,1.7771
Juan,1.312532,0.584568,-1.234745,1.90454,-0.233627
Tania,0.048297,-0.660224,1.327946,0.253548,-0.370983
Jose,0.808391,0.089763,-0.334103,0.743805,-0.716279
Rosa,0.866163,-0.906296,-0.759443,-0.518534,0.299328


In [101]:
df_8.abs()

Unnamed: 0,j,m,l,k,n
Ale,0.134936,1.645407,0.23336,0.870474,1.439777
Ivan,2.188042,0.349098,0.840044,1.218484,0.850818
Susana,0.702109,0.148102,0.993264,0.819689,0.865077
Juan,0.168823,0.342346,0.789971,1.769815,0.797758
Tania,1.278761,0.087434,0.260693,2.227542,0.248471
Jose,1.25366,0.632949,1.216889,0.498683,0.834774
Rosa,0.474923,1.942309,0.117574,1.715637,0.442773


El método `abs` toma la función *valor absoluto* $| |:\mathbb{R} \rightarrow \mathbb{R}^+$ elemento a elemento. Otro método es el de `sum` el cual regresa una serie donde los elementos son la suma ya sea de renglones o columnas, por defecto el método toma las columnas para tomar los renglones se le pasa como parámetro `axis= 1`.

In [95]:
df_8.sum()

j    4.596120
m   -1.138467
l   -2.704460
k    2.283945
n    1.697808
dtype: float64

In [96]:
df_8.sum(axis=1)

Ale      -2.984310
Ivan      1.201953
Susana    4.012654
Juan      2.333268
Tania     0.598585
Jose      0.591577
Rosa     -1.018783
dtype: float64

Para ordenar los datos a partir de su índice se utiliza el método `sort_index` el cual ordena los datos utilizando el índice en los renglones y si se desea ordenar los índices para las columnas se le pasa el argumento `axis=1` para las columnas.

In [99]:
df_8.sort_index()

Unnamed: 0,j,m,l,k,n
Ale,-0.297593,-0.994836,-0.719566,0.139275,-1.111591
Ivan,0.332882,-0.138951,-0.191345,-0.854492,2.053859
Jose,0.808391,0.089763,-0.334103,0.743805,-0.716279
Juan,1.312532,0.584568,-1.234745,1.90454,-0.233627
Rosa,0.866163,-0.906296,-0.759443,-0.518534,0.299328
Susana,1.525446,0.887508,-0.793204,0.615804,1.7771
Tania,0.048297,-0.660224,1.327946,0.253548,-0.370983


In [98]:
df_8.sort_index(axis=1)

Unnamed: 0,j,k,l,m,n
Ale,-0.297593,0.139275,-0.719566,-0.994836,-1.111591
Ivan,0.332882,-0.854492,-0.191345,-0.138951,2.053859
Susana,1.525446,0.615804,-0.793204,0.887508,1.7771
Juan,1.312532,1.90454,-1.234745,0.584568,-0.233627
Tania,0.048297,0.253548,1.327946,-0.660224,-0.370983
Jose,0.808391,0.743805,-0.334103,0.089763,-0.716279
Rosa,0.866163,-0.518534,-0.759443,-0.906296,0.299328


Si se desea ordenar los datos usando alguna columna en especifico se utiliza `sort_values`, y se utiliza el argumento `ascending= False` para tomarlo de forma descendiente. 

In [107]:
df_8.sort_values('j', ascending=False)

Unnamed: 0,j,m,l,k,n
Ivan,2.188042,0.349098,0.840044,1.218484,-0.850818
Tania,1.278761,0.087434,0.260693,2.227542,-0.248471
Rosa,0.474923,1.942309,0.117574,1.715637,-0.442773
Juan,0.168823,-0.342346,0.789971,-1.769815,0.797758
Ale,-0.134936,-1.645407,-0.23336,0.870474,1.439777
Susana,-0.702109,0.148102,-0.993264,0.819689,0.865077
Jose,-1.25366,0.632949,1.216889,-0.498683,0.834774


Para obtener la suma acumulada se utiliza el método `cumsum`  el comportamiento por defecto es tomar la suma tomando una columna fija e ir sumando para cada índice, tomar fijo el índice se pasa como argumento `axis=1`.

In [109]:
df_8.cumsum(axis=1)

Unnamed: 0,j,m,l,k,n
Ale,-0.297593,-1.292429,-2.011994,-1.872719,-2.98431
Ivan,0.332882,0.193932,0.002586,-0.851906,1.201953
Susana,1.525446,2.412954,1.619751,2.235554,4.012654
Juan,1.312532,1.8971,0.662355,2.566895,2.333268
Tania,0.048297,-0.611926,0.71602,0.969568,0.598585
Jose,0.808391,0.898154,0.564051,1.307856,0.591577
Rosa,0.866163,-0.040133,-0.799576,-1.31811,-1.018783


Otros métodos que se consideran de utilidad son `max` y `min` que son la función de máximo y mínimo respectivamente 

In [109]:
df_8.min()

j   -1.253660
m   -1.645407
l   -0.993264
k   -1.769815
n   -0.850818
dtype: float64

In [110]:
df_8.min(axis=1)

Ale      -1.645407
Ivan     -0.850818
Susana   -0.993264
Juan     -1.769815
Tania    -0.248471
Jose     -1.253660
Rosa     -0.442773
dtype: float64

Al regresar una *Serie*, se puede aplicar los métodos que se tengan implementados para las Series en una misma execución

In [111]:
df_8.min().max()

-0.29759253926073315

Aunque saber el valor de estas funciones nos puede resultar de utilidad, en muchos casos lo que se desea saber es "quien" es el que tiene tal mínimo (o máximo). Para tal motivo están implementados los métodos `idmax` y `idmin` que regresan una *serie* con los indices mínimos ( o máximos ) para cada columna (o renglón con `axis=1` como parámetro)   

In [112]:
df_8.idxmin()

j     Ale
m     Ale
l    Juan
k    Ivan
n     Ale
dtype: object

Si lo que se desea es saber el lugar que ocupa cada índice (reglón) con respecto a como se ordenan los datos en los diferentes tipos de datos (columnas o renglones) se puede utilizar el método `rank`

In [116]:
df_8.rank()

Unnamed: 0,j,m,l,k,n
Ale,3.0,1.0,2.0,4.0,7.0
Ivan,7.0,5.0,6.0,5.0,1.0
Susana,2.0,4.0,1.0,3.0,6.0
Juan,4.0,2.0,5.0,1.0,4.0
Tania,6.0,3.0,4.0,7.0,3.0
Jose,1.0,6.0,7.0,2.0,5.0
Rosa,5.0,7.0,3.0,6.0,2.0


In [118]:
df_8.rank(axis=1)

Unnamed: 0,j,m,l,k,n
Ale,3.0,1.0,2.0,4.0,5.0
Ivan,5.0,2.0,3.0,4.0,1.0
Susana,2.0,3.0,1.0,4.0,5.0
Juan,3.0,2.0,4.0,1.0,5.0
Tania,4.0,2.0,3.0,5.0,1.0
Jose,1.0,3.0,5.0,2.0,4.0
Rosa,3.0,5.0,2.0,4.0,1.0


Los métodos descritos con anterioridad pueden ser usados para hacer operacions más complejas, las operaciones como promedio (`mean`), desviación estandar `std` o covarianza `cov` también se encuentran implementadas. Para tener una descripción estadística básica del conjunto de datos podemos utilizar el método `describe`.

In [118]:

df_8.describe()

Unnamed: 0,j,m,l,k,n
count,7.0,7.0,7.0,7.0,7.0
mean,0.656589,-0.162638,-0.386351,0.326278,0.242544
std,0.662999,0.732412,0.828161,0.903443,1.224413
min,-0.297593,-0.994836,-1.234745,-0.854492,-1.111591
25%,0.19059,-0.78326,-0.776323,-0.18963,-0.543631
50%,0.808391,-0.138951,-0.719566,0.253548,-0.233627
75%,1.089348,0.337165,-0.262724,0.679804,1.038214
max,1.525446,0.887508,1.327946,1.90454,2.053859


In [120]:
df_8.cov()

Unnamed: 0,j,m,l,k,n
j,1.362802,0.121103,0.164541,0.773382,-0.799052
m,0.121103,1.158822,0.157736,0.36072,-0.594246
l,0.164541,0.157736,0.56046,-0.420803,-0.17744
k,0.773382,0.36072,-0.420803,1.866602,-0.630663
n,-0.799052,-0.594246,-0.17744,-0.630663,0.719434


Si lo que se encuentra dentro de oun dataframe no son números si no strings `describe`regresa las estadísticas básicas relacionadas a las cadenas.

In [139]:
df_9 = pd.DataFrame([pd.Series(['a', 'a', 'b', 'c'] * 4),
        pd.Series(['hg', 'jg', 'lk', 'jg'] * 4),
        pd.Series(['qhg', 'rjg', 'tlk', 'ljh'] * 4), 
        pd.Series(['ashg', 'tylk', 'tylk', 'tylk'] * 4)]
        , index = ['una', 'dos', 'tres', 'cuatro']).T

In [140]:
df_9.describe()

Unnamed: 0,una,dos,tres,cuatro
count,16,16,16,16
unique,3,3,4,2
top,a,jg,rjg,tylk
freq,8,8,4,12


## Aplicacción de funciones 

El método `apply` es de gran importancia en el manejo de los datos que se encuentran dentro de los *dataframes* o de las *series* ya que nos permite generar funciones que nos pueden servir para seleccionar elementos, aplicación de modelos, etc. Pues muchas veces será necesario aplicar funciones que no se encuentran implementadas o funciones definidas por el usuario a los elementos del *dataframe*,  motivo podemos usar dicho método. 

El método `apply` nos permite utilizar el cálculo $\lambda$ (*lambda*) para aplicar funciones se pueden definir funciones simpĺes que dependan sólo de un elemento, funciones que dependan de varios elementos, funciones que dependan de todos los elementos, etc.  

Dependiendo de lo que se requiera se puede controlar el modo en el cual se aplica una función definida por el usuario a los elementos del dataframe. Si se desea aplicar la misma función a todos los elementos del *dataframe* y la función no depende de otro paramétros se utiliza el método directamente.

In [122]:
df_8.apply(lambda x: .5*x +4 )

Unnamed: 0,j,m,l,k,n
Ale,3.932532,3.177296,3.88332,4.435237,4.719889
Ivan,5.094021,4.174549,4.420022,4.609242,3.574591
Susana,3.648946,4.074051,3.503368,4.409844,4.432538
Juan,4.084412,3.828827,4.394986,3.115093,4.398879
Tania,4.63938,4.043717,4.130347,5.113771,3.875765
Jose,3.37317,4.316474,4.608444,3.750658,4.417387
Rosa,4.237461,4.971155,4.058787,4.857818,3.778614


Si se desea aplicar haciendo una iteración sobre un eje en particular, se le pasa el parámetro `axis`. Si se utiliza más de un parámetro dentro de la iteración, se puede acceder a este usando la notación de diccionario de python (`x[]`) o bien como si fuera una instancia dentro de un objeto (`x.`)   

In [143]:
df_8.apply(lambda x: .5*x['j'] +4 - x['m'] , axis = 1)

Ale       4.846040
Ivan      4.305392
Susana    3.875214
Juan      4.071698
Tania     4.684372
Jose      4.314432
Rosa      5.339378
dtype: float64

In [142]:
df_8.apply(lambda x: .5*x.j +4 - x.m , axis = 1)

Ale       4.846040
Ivan      4.305392
Susana    3.875214
Juan      4.071698
Tania     4.684372
Jose      4.314432
Rosa      5.339378
dtype: float64