<h1><font color="#004D7F" size=6>Pandas II</font></h1>

<br>
<div style="text-align: right">
<font color="#004D7F" size=3>Antonio Jesús Gil</font><br>
<font color="#004D7F" size=3>Introducción a la Ciencia de Datos</font><br>
</div>

---

<a id="indice"></a>
<h2><font color="#004D7F" size=5>Índice</font></h2>

* [6. DataFrames](#section6)
    * [Estructura](#section61)
    * [Construcción de DataFrames](#section62)
    * [Lectura desde archivos](#section63)
    * [Acceso a elementos](#section64)
    * [Manipulación de la estructura](#section65)  
    * [Descripción de los datos](#section66)
* [7. Selección y ordenación](#section7)
    * [Consulta y selección](#section71)  
    * [Ordenación](#section72)
* [8. Operaciones sobre elementos](#section8)
    * [Operaciones básicas](#section81)
    * [Transformación de datos: <font face="monospace">applymap() y transform()</font>](#section82)    
* [9. Agregación](#section9)   
    * [Estadísticos descriptivos](#section91)
    * [Agregación de datos: <font face="monospace">apply() y agg()</font>](#section92)

---

<a id="section6"></a>
# <font color="#004D7F"> 6. DataFrames</font>

<br>
Un `DataFrame` es una estructura _bidimensional_ de datos que se indexa por filas, y cuyas columnas pueden ser accedidas individualmente. Al igual que en una hoja de cálculo o una tabla SQL, cada columna puede almacenar datos de un tipo diferente, y es tratada como un objeto de tipo `Series`. 


In [4]:
import pandas as pd

# Lee los datos de las personas que viajaban en el Titanic      
df_titanic = pd.read_csv('datos/Titanic.csv', sep='\t', index_col=0) 
# Muestra los 5 primeros casos 
df_titanic.head(5)                                           

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


El siguiente código accede a la columna _Name_ del `DataFrame` anterior (los accesos se tratarán con detalle en este tutorial) y muestra su tipo, que es `Series`. Es decir, es posible operar sobre columnas mediante los métodos descritos en la primera parte del tutorial. 

In [5]:
nombres = df_titanic['Name']
print('\n',type(nombres))
print(nombres[:5])


 <class 'pandas.core.series.Series'>
PassengerId
1                              Braund, Mr. Owen Harris
2    Cumings, Mrs. John Bradley (Florence Briggs Th...
3                               Heikkinen, Miss. Laina
4         Futrelle, Mrs. Jacques Heath (Lily May Peel)
5                             Allen, Mr. William Henry
Name: Name, dtype: object


<div style="text-align: right"> <font size=5> [<i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#004D7F">](#indice)</i></font></div>


---

<a id="section61"></a> 
## <font color="#004D7F"> Estructura </font>



Un `DataFrame` está formado por tres componentes principales:

1. Los _datos_, almacenados en el campo `DataFrame.values`, que es un array NumPy.
2. El _índice_, almacenado en el campo `DataFrame.index`, y que permite indexar las filas.
3. El _índice de columnas_, almacenado en el campo `DataFrame.columns`. 

In [6]:
print('Valores (5 primeras filas)')
print(df_titanic.values[:5,:])
print(type(df_titanic.values))

print('\nÌndice:')
print(df_titanic.index)
print(type(df_titanic.index))

print('\nColumnas:')
print(df_titanic.columns)
print(type(df_titanic.columns))

Valores (5 primeras filas)
[[0 3 'Braund, Mr. Owen Harris' 'male' 22.0 1 0 'A/5 21171' 7.25 nan 'S']
 [1 1 'Cumings, Mrs. John Bradley (Florence Briggs Thayer)' 'female' 38.0
  1 0 'PC 17599' 71.2833 'C85' 'C']
 [1 3 'Heikkinen, Miss. Laina' 'female' 26.0 0 0 'STON/O2. 3101282' 7.925
  nan 'S']
 [1 1 'Futrelle, Mrs. Jacques Heath (Lily May Peel)' 'female' 35.0 1 0
  '113803' 53.1 'C123' 'S']
 [0 3 'Allen, Mr. William Henry' 'male' 35.0 0 0 '373450' 8.05 nan 'S']]
<class 'numpy.ndarray'>

Ìndice:
Int64Index([  1,   2,   3,   4,   5,   6,   7,   8,   9,  10,
            ...
            147, 148, 149, 150, 151, 152, 153, 154, 155, 156],
           dtype='int64', name='PassengerId', length=156)
<class 'pandas.core.indexes.numeric.Int64Index'>

Columnas:
Index(['Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp', 'Parch', 'Ticket',
       'Fare', 'Cabin', 'Embarked'],
      dtype='object')
<class 'pandas.core.indexes.base.Index'>


Es posible acceder a muchas de las propiedades de la estructura de un `DataFrame`, como sus dimensiones, los tipos de datos de las columnas, o incluso la ocupación en memoria. 

In [7]:
print('Tamaño del conjunto de datos: {:d} filas, {:d} columnas.'.format(df_titanic.shape[0], df_titanic.shape[1]))

print("\nTipo de datos de cada columna: \n", df_titanic.dtypes)

print("\nToda la información:\n")
print(df_titanic.info())

Tamaño del conjunto de datos: 156 filas, 11 columnas.

Tipo de datos de cada columna: 
 Survived      int64
Pclass        int64
Name         object
Sex          object
Age         float64
SibSp         int64
Parch         int64
Ticket       object
Fare        float64
Cabin        object
Embarked     object
dtype: object

Toda la información:

<class 'pandas.core.frame.DataFrame'>
Int64Index: 156 entries, 1 to 156
Data columns (total 11 columns):
Survived    156 non-null int64
Pclass      156 non-null int64
Name        156 non-null object
Sex         156 non-null object
Age         126 non-null float64
SibSp       156 non-null int64
Parch       156 non-null int64
Ticket      156 non-null object
Fare        156 non-null float64
Cabin       31 non-null object
Embarked    155 non-null object
dtypes: float64(2), int64(4), object(5)
memory usage: 14.6+ KB
None


**Ejercicio** Usando la función `len` imprime el tamaño total del conjunto de datos.

In [8]:
#print('Tamaño del conjunto de datos: {:d} filas, {:d} columnas.'.format(len(df_titanic.index), len(df_titanic.columns)))

**Ejercicio** Imprime el total de las filas usando `len`

In [9]:
#print('Número de filas del Dataframe: ', len(df_titanic))

Incluso es posible acceder a información más detallada sobre el uso de memoria (por columnas) mediante `DataFrame.memory_usage()`.

In [10]:
print(df_titanic.memory_usage())

Index       1248
Survived    1248
Pclass      1248
Name        1248
Sex         1248
Age         1248
SibSp       1248
Parch       1248
Ticket      1248
Fare        1248
Cabin       1248
Embarked    1248
dtype: int64


Con respecto a los índices, tanto el propio índice como las columnas se representan con tipos de datos específicos que optimizan los accesos, aunque la colección de valores se representa internamente mediante un array Numpy que es accesible a través del campo `values`. También se pueden convertir en listas mediante el método `tolist()`. 

In [11]:
print("Columnas")
print("Array interno (values): ")
print(df_titanic.columns.values)
print(type(df_titanic.columns.values))
print("\nComo lista:")

print(df_titanic.columns.tolist())
print(type(df_titanic.columns.tolist()))

Columnas
Array interno (values): 
['Survived' 'Pclass' 'Name' 'Sex' 'Age' 'SibSp' 'Parch' 'Ticket' 'Fare'
 'Cabin' 'Embarked']
<class 'numpy.ndarray'>

Como lista:
['Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp', 'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked']
<class 'list'>


<div style="text-align: right"> <font size=5> [<i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#004D7F">](#indice)</i></font></div>

---

<a id="section62"></a> 
## <font color="#004D7F"> Construcción de DataFrames </font>

<br>
Existen varias formas de construir un objeto `DataFrame` a partir de otros objetos como colecciones, diccionarios, series, etc. Éstas son útiles, por ejemplo,  a la hora de construir el `DataFrame` a partir de datos procedentes de fuentes heterogéneas. 

### <font color="#004D7F"> Construcción a partir de diccionarios </font>

Cada uno de los diccionarios representa una fila del `DataFrame`. Las claves representan el nombre de la columna, y los valores el valor correspondiente de la columna para la fila. Si no se proporciona un índice, las filas se indexan con enteros.

In [12]:
compra_1 =  {'Nombre': 'Álvaro', 'Producto': 'Queso', 'Precio': 22.50}
compra_2 =  {'Nombre': 'Benito', 'Producto': 'Vino', 'Precio': 14.50}
compra_3 =  {'Nombre': 'Fernando','Producto': 'Jamón', 'Precio': 50.00}
compra_4 =  {'Nombre': 'Martín', 'Producto': 'Aceite', 'Precio': 20.00}
compra_5 =  {'Nombre': 'Hernán'} # Deja a NaN los campos para los que no se proporciona valor.

df_compras = pd.DataFrame([compra_1, compra_2, compra_3, compra_4, compra_5], 
                          index=['Tienda 1', 'Tienda 1', 'Tienda 2', 'Tienda 3', 'Tienda 3'])
df_compras

Unnamed: 0,Nombre,Precio,Producto
Tienda 1,Álvaro,22.5,Queso
Tienda 1,Benito,14.5,Vino
Tienda 2,Fernando,50.0,Jamón
Tienda 3,Martín,20.0,Aceite
Tienda 3,Hernán,,


También se puede construir el `DataFrame` a partir de __un solo diccionario__ en el que cada clave corresponde al nombre de una columna, y cada valor colección u objeto `Series` con los valores correspondientes a esa columna. En este caso, existe la restricción de que todas las colecciones y el índice (en caso de que se proporcione) han de tener un tamaño similar. 

In [15]:
# Crea un índice.
indice = ['Tienda 1', 'Tienda 1', 'Tienda 2', 'Tienda 3','Tienda 3']

# Crea un diccionario con una entrada (nombre:Serie) para cada columna.
compras = {'Nombre': pd.Series(['Álvaro', 'Benito', 'Fernando', 'Martín','Hernán'], index=indice),
           'Producto': ['Queso', 'Vino', 'Jamón', 'Aceite',np.NaN],
           'Precio': [22.5, 14.50, 50.00, 20.00, np.NaN]}

# Crea el dataframe
df_compras = pd.DataFrame(compras)
df_compras

NameError: name 'np' is not defined

La función `DataFrame.from_dict()` también construye un `DataFrame` a partir de un diccionario. Mediante el parámetro `orient`, permite especificar si las claves corresponden a las columnas (igual que en el caso anterior) o al índice, es decir, a las filas. 

In [16]:
compras = {'Nombre': ['Álvaro', 'Benito', 'Fernando','Martín','Hernán'],
          'Precio': [22.5, 14.5, 50.0, 20.0],
          'Producto':['Queso', 'Vino', 'Jamón', 'Aceite']}

df_compras = pd.DataFrame.from_dict(compras, orient="index")
df_compras

Unnamed: 0,0,1,2,3,4
Nombre,Álvaro,Benito,Fernando,Martín,Hernán
Precio,22.5,14.5,50,20,
Producto,Queso,Vino,Jamón,Aceite,


---

### <font color="#004D7F"> Construcción a partir de una lista o colección</font>

Se hace mediante el método `DataFrame.from_records()`. Cada elemento de la lista representa una fila. Si no se proporcionan las columnas e índice, en ambos casos se utilizan enteros.

In [17]:
ventas = [('Álvaro', 22.5, 'Queso'),
         ('Benito', 14.5, 'Vino'),
         ('Fernando', 50, 'Jamón'),
         ('Martín', 20.0, 'Aceite'),
         ('Hernán',np.NaN, np.NaN)]

columnas = ['Nombre', 'Precio', 'Producto']
indice =['Tienda 1', 'Tienda 1', 'Tienda 2', 'Tienda 3','Tienda 3']

df_compras = pd.DataFrame.from_records(ventas, columns=columnas, index=indice)
df_compras

NameError: name 'np' is not defined

<div style="text-align: right"> <font size=5> [<i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#004D7F">](#indice)</i></font></div>

---

<a id="section63"></a> 
## <font color="#004D7F"> Lectura desde archivos </font>

Pandas proporciona funciones muy flexibles que permiten leer objetos `DataFrame` desde diversas fuentes de datos, como archivos csv, excel, JSON, HDF5, HTML, fuentes SQL, o incluso el portapapeles del sistema ([documentación](http://pandas.pydata.org/pandas-docs/version/0.20/io.html)). 

A continuación se describen los métodos que se utilizarán con más frecuencia en este curso.

### <font color="#004D7F">  Lectura de archivos en formato csv (_comma separated values_) </font>

Se lleva a cabo mediante la función `read_csv()`. El parámetro `index_col` permite especificar si alguna de las columnas ha de ser utilizada como índice del `DataFrame`. Esta función acepta otros muchos parámetros, que permiten por ejemplo descartar líneas (`skiprows`), elegir el separador entre columnas (`sep`), especificar el nombre de cada columna (`name`), o incluso su tipo de datos (`dtype`). Además, puede acceder a la fuente de datos a través de una URL ([documentación](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html)).

In [18]:
#df_titanic = pd.read_csv('datos/Titanic.csv', index_col=0, sep=',')
#df = pd.read_csv('https://vincentarelbundock.github.io/Rdatasets/csv/datasets/Titanic.csv', index_col=0)
df_titanic = pd.read_csv('datos/Titanic.csv', sep='\t', skiprows=1, index_col=1,
                         names=['ID','Superviviente','Clase','Nombre','Sexo','Edad','SibSp', 'Parch', 'Ticket','Precio', 'Cabina', 'Embarcado'])
df_titanic.head()

Unnamed: 0_level_0,ID,Clase,Nombre,Sexo,Edad,SibSp,Parch,Ticket,Precio,Cabina,Embarcado
Superviviente,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
0,1,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
1,3,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
1,4,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
0,5,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


---
### <font color="#004D7F">  Lectura de archivos en formato excel </font>

Se hace mediante la función `read_excel()`. Al igual que la anterior, permite especificar numerosos parámetros como la hoja concreta del archivo (`sheet_name`), tipos de datos, etc ([documentación](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_excel.html)).

In [19]:
df_titanic = pd.read_excel('datos/Titanic.xlsx', sheet_name='Hoja1', skiprows=0, index_col=1,
                          names=['ID','Clase','Edad','Sexo','Superviviente','Código (Sexo)'])
df_titanic.index.name='Nombre'
df_titanic.head()

ImportError: Install xlrd >= 1.0.0 for Excel support

In [20]:
!pip install xlrd

Collecting xlrd
[?25l  Downloading https://files.pythonhosted.org/packages/b0/16/63576a1a001752e34bf8ea62e367997530dc553b689356b9879339cf45a4/xlrd-1.2.0-py2.py3-none-any.whl (103kB)
[K     |████████████████████████████████| 112kB 3.4MB/s 
[?25hInstalling collected packages: xlrd
Successfully installed xlrd-1.2.0


<div class="alert alert-block alert-danger">
<i class="fa fa-exclamation-triangle" aria-hidden="true"></i>
 Para trabajar con excel es necesario instalar el paquete `xlrd`.
</div>

### <font color="#004D7F">  Lectura de archivos en formato JSON </font>

La función `read_json` permite leer un `DataFrame` a partir de un conjunto de datos, que puede ser accedido a través de una URL. También acepta como parámetro un `String`. El formato del objeto JSON ha de ajustarse al del `DataFrame`, y puede ser indicado a través del parámetro `orient` que, en este caso, además de `columns` e `index`, puede tomar los valores `split`, `records` y `values` ([documentación](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_json.html)). 

In [21]:
url = 'https://raw.githubusercontent.com/chrisalbon/simulated_datasets/master/data.json'
df = pd.read_json(url, orient='records')
df.head(5)

Unnamed: 0,integer,datetime,category
0,5,2015-01-01 00:00:00,0
1,5,2015-01-01 00:00:01,0
10,5,2015-01-01 00:00:10,0
11,5,2015-01-01 00:00:11,0
12,8,2015-01-01 00:00:12,0


<div style="text-align: right"> <font size=5> [<i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#004D7F">](#indice)</i></font></div>

---

<a id="section64"></a> 
## <font color="#004D7F"> Acceso a elementos </font>

Para ilustrar el acceso a los elementos, se utilizará este  `DataFrame`, descrito anteriormente.

In [22]:
compra_1 =  {'Nombre': 'Álvaro', 'Producto': 'Queso', 'Compra':15.0, 'Venta': 22.50}
compra_2 =  {'Nombre': 'Benito', 'Producto': 'Vino', 'Compra':10.0, 'Venta': 14.50}
compra_3 =  {'Nombre': 'Fernando','Producto': 'Jamón', 'Compra':35.0, 'Venta': 50.00}
compra_4 =  {'Nombre': 'Martín', 'Producto': 'Aceite', 'Compra':12.0, 'Venta': 20.00}
compra_5 =  {'Nombre': 'Hernán'} 

df = pd.DataFrame([compra_1, compra_2, compra_3, compra_4, compra_5], 
                  index=['Tienda 1', 'Tienda 1', 'Tienda 2', 'Tienda 3', 'Tienda 3'])
df

Unnamed: 0,Compra,Nombre,Producto,Venta
Tienda 1,15.0,Álvaro,Queso,22.5
Tienda 1,10.0,Benito,Vino,14.5
Tienda 2,35.0,Fernando,Jamón,50.0
Tienda 3,12.0,Martín,Aceite,20.0
Tienda 3,,Hernán,,



###  <font color="#004D7F"> Acceso a las filas de un DataFrame </font>

Del mismo modo que en los objetos `Series`, el acceso a las filas del `DataFrame` se hace mediante los métodos `loc[]` e `iloc[]`. Si el índice corresponde a una sola fila, estos devuelven un objeto de tipo `Series`; sin embargo, si el índice corresponde a varias filas, devuelven otro `Dataframe`.

In [23]:
fila = df.loc['Tienda 2']               # Accede a la fila con índice 'Tienda 2'
print(fila)
print(type(fila),'\n')                  # Imprime el tipo.

filas = df.loc['Tienda 1']              # Accede a las filas con índice 'Tienda 1'
print(filas)
print(type(filas),'\n')

filas = df.iloc[0]
print(filas)
print(type(filas))

Compra            35
Nombre      Fernando
Producto       Jamón
Venta             50
Name: Tienda 2, dtype: object
<class 'pandas.core.series.Series'> 

          Compra  Nombre Producto  Venta
Tienda 1    15.0  Álvaro    Queso   22.5
Tienda 1    10.0  Benito     Vino   14.5
<class 'pandas.core.frame.DataFrame'> 

Compra          15
Nombre      Álvaro
Producto     Queso
Venta         22.5
Name: Tienda 1, dtype: object
<class 'pandas.core.series.Series'>


La funcionalidad de ambos métodos también es similar a la descrita en el caso de las `Series`. Es decir, aceptan indexación a partir de colecciones del tipo del índice o booleanos (en el caso de `loc[]`), y de enteros (en el caso de `iloc[]`).

In [24]:
print(df.loc[['Tienda 2','Tienda 1']])      
print()

print(df.loc['Tienda 2':])
print()

print(df.iloc[[0,3]])

          Compra    Nombre Producto  Venta
Tienda 2    35.0  Fernando    Jamón   50.0
Tienda 1    15.0    Álvaro    Queso   22.5
Tienda 1    10.0    Benito     Vino   14.5

          Compra    Nombre Producto  Venta
Tienda 2    35.0  Fernando    Jamón   50.0
Tienda 3    12.0    Martín   Aceite   20.0
Tienda 3     NaN    Hernán      NaN    NaN

          Compra  Nombre Producto  Venta
Tienda 1    15.0  Álvaro    Queso   22.5
Tienda 3    12.0  Martín   Aceite   20.0


---

###  <font color="#004D7F"> Acceso a las columnas de un DataFrame </font>

Se pueden acceder los elementos de una columna (o varias) mediante el operador `[]`. También se devuelve un objeto de tipo `Series` o `DataFrame` según se accedan, respectivamente, una o varias columnas.

In [25]:
productos = df['Producto']
productos

Tienda 1     Queso
Tienda 1      Vino
Tienda 2     Jamón
Tienda 3    Aceite
Tienda 3       NaN
Name: Producto, dtype: object

In [26]:
columnas = ['Producto','Compra','Venta']
productos_coste = df[columnas]
# productos_coste = df[['Producto','Compra','Venta']]   # Equivalente 
productos_coste

Unnamed: 0,Producto,Compra,Venta
Tienda 1,Queso,15.0,22.5
Tienda 1,Vino,10.0,14.5
Tienda 2,Jamón,35.0,50.0
Tienda 3,Aceite,12.0,20.0
Tienda 3,,,


Las columnas puden accederse individualmente como un campo del objeto `DataFrame`.

In [27]:
productos = df.Producto          # Es equivalente a  df['Producto']
print(productos)
type(df.Producto)

Tienda 1     Queso
Tienda 1      Vino
Tienda 2     Jamón
Tienda 3    Aceite
Tienda 3       NaN
Name: Producto, dtype: object


pandas.core.series.Series

---
### <font color="#004D7F"> Acceso a elementos del DataFrame. </font>

Con `loc` se puede acceder también a elemento dados el valor (o valores) de su índice y columna. No se recomienda utilizar la segunda de las alternativas, ya que puede dar lugar a comportamientos inesperados (particularmente en escrituras).

In [28]:
print(df.loc[['Tienda 2','Tienda 1'],'Producto'])
print()
print(df.loc[['Tienda 2','Tienda 1']]['Producto'])
print()
print(df.loc[['Tienda 2','Tienda 1'],['Producto','Compra','Venta']])
print()
print(df.iloc[0:3,0:2])      

Tienda 2    Jamón
Tienda 1    Queso
Tienda 1     Vino
Name: Producto, dtype: object

Tienda 2    Jamón
Tienda 1    Queso
Tienda 1     Vino
Name: Producto, dtype: object

         Producto  Compra  Venta
Tienda 2    Jamón    35.0   50.0
Tienda 1    Queso    15.0   22.5
Tienda 1     Vino    10.0   14.5

          Compra    Nombre
Tienda 1    15.0    Álvaro
Tienda 1    10.0    Benito
Tienda 2    35.0  Fernando


<div class="alert alert-block alert-info">
<i class="fa fa-info-circle" aria-hidden="true"></i> El método `at` es equivalente a `loc`, (e `iat` a `iloc`) con la salvedad de que `at` e `iat` __solamente aceptan escalares como índice__. Debido a esto, también son más eficientes. 
</div>

In [29]:
fila = df.at['Tienda 1','Producto']            
print(fila,'\n')

fila = df.iat[2,1]            
print(fila)

['Queso' 'Vino'] 

Fernando


---
### <font color="#004D7F"> Escritura en elementos del DataFrame. </font>

El acceso de para escritura es similar del acceso para lectura. Cuando se escriben varias posiciones, las dimensiones de los conjuntos de elementos a ambos lados de la asignación han de ser similares (salvo en el caso en que se asignen escalares).

In [30]:
df

Unnamed: 0,Compra,Nombre,Producto,Venta
Tienda 1,15.0,Álvaro,Queso,22.5
Tienda 1,10.0,Benito,Vino,14.5
Tienda 2,35.0,Fernando,Jamón,50.0
Tienda 3,12.0,Martín,Aceite,20.0
Tienda 3,,Hernán,,


Este código asigna un escalar a varias posiciones.

In [31]:
df.loc[['Tienda 1','Tienda 3'],'Venta']=100
df

Unnamed: 0,Compra,Nombre,Producto,Venta
Tienda 1,15.0,Álvaro,Queso,100.0
Tienda 1,10.0,Benito,Vino,100.0
Tienda 2,35.0,Fernando,Jamón,50.0
Tienda 3,12.0,Martín,Aceite,100.0
Tienda 3,,Hernán,,100.0


Restaura los valores (los tamaños corresponden).

In [32]:
df.loc[['Tienda 1','Tienda 3'],'Venta']=[22, 14.5, 0, 0]
df

Unnamed: 0,Compra,Nombre,Producto,Venta
Tienda 1,15.0,Álvaro,Queso,22.0
Tienda 1,10.0,Benito,Vino,14.5
Tienda 2,35.0,Fernando,Jamón,50.0
Tienda 3,12.0,Martín,Aceite,0.0
Tienda 3,,Hernán,,0.0


También se puede escribir el valor de columnas completas.

In [33]:
df['Producto'] = ['Queso manchego', 'Vino manchego', 
                  'Jamón Extremeño', 'Aceite Andaluz', 'Azafrán manchego']
df

Unnamed: 0,Compra,Nombre,Producto,Venta
Tienda 1,15.0,Álvaro,Queso manchego,22.0
Tienda 1,10.0,Benito,Vino manchego,14.5
Tienda 2,35.0,Fernando,Jamón Extremeño,50.0
Tienda 3,12.0,Martín,Aceite Andaluz,0.0
Tienda 3,,Hernán,Azafrán manchego,0.0



---

<a id="section65"></a> 
## <font color="#004D7F"> Manipulación de la estructura</font>

### <font color="#004D7F"> Cambio de índice </font>

El índice se puede cambiar mediante la función `set_index`.  Esta función genera un nuevo DataFrame, salvo que explícitamente se indique lo contrario mediante el atributo `inplace`.

In [34]:
df2 = df.copy()
df2.set_index('Nombre', inplace=True)
df2.head()

Unnamed: 0_level_0,Compra,Producto,Venta
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Álvaro,15.0,Queso manchego,22.0
Benito,10.0,Vino manchego,14.5
Fernando,35.0,Jamón Extremeño,50.0
Martín,12.0,Aceite Andaluz,0.0
Hernán,,Azafrán manchego,0.0


También es posible asignar una columna del `DataFrame` al campo `DataFrame.index`. En este caso hay que hacer dos consideraciones importantes:

1. El índice anterior se pierde, con lo que no hay manera de recuperarlo.
2. La columna se mantiene, por lo que hay que eliminarla manualmente. 

In [35]:
df2 = df.copy()
df2.index = df2['Nombre']
df2.head()

Unnamed: 0_level_0,Compra,Nombre,Producto,Venta
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Álvaro,15.0,Álvaro,Queso manchego,22.0
Benito,10.0,Benito,Vino manchego,14.5
Fernando,35.0,Fernando,Jamón Extremeño,50.0
Martín,12.0,Martín,Aceite Andaluz,0.0
Hernán,,Hernán,Azafrán manchego,0.0


El resultado de esta operación es la creación de un índice a partir de la columna, que permanece en el `DataFrame`.

In [36]:
print(type(df2['Nombre']))
print(type(df2.index))

<class 'pandas.core.series.Series'>
<class 'pandas.core.indexes.base.Index'>


### <font color="#004D7F"> Creación de nuevas columnas </font>


Cuando se asignan valores a una columna no existente, se crea ésta automáticamente. Si el valor es una colección, asigna uno por uno, según el orden del índice, los elementos. El tamaño de la colección ha de coincidir con el número de filas del `DataFrame`.

In [37]:
df['C.P'] = pd.Categorical(['08001', '08002', '08003', '08004','08004'])
df

Unnamed: 0,Compra,Nombre,Producto,Venta,C.P
Tienda 1,15.0,Álvaro,Queso manchego,22.0,8001
Tienda 1,10.0,Benito,Vino manchego,14.5,8002
Tienda 2,35.0,Fernando,Jamón Extremeño,50.0,8003
Tienda 3,12.0,Martín,Aceite Andaluz,0.0,8004
Tienda 3,,Hernán,Azafrán manchego,0.0,8004


También se puede añadir una columna y fijar los elementos en todas las filas a un valor determinado.

In [38]:
df['Localidad'] = 'Barcelona'
df

Unnamed: 0,Compra,Nombre,Producto,Venta,C.P,Localidad
Tienda 1,15.0,Álvaro,Queso manchego,22.0,8001,Barcelona
Tienda 1,10.0,Benito,Vino manchego,14.5,8002,Barcelona
Tienda 2,35.0,Fernando,Jamón Extremeño,50.0,8003,Barcelona
Tienda 3,12.0,Martín,Aceite Andaluz,0.0,8004,Barcelona
Tienda 3,,Hernán,Azafrán manchego,0.0,8004,Barcelona


Se pueden añadir valores a algunas filas solamente mediante un diccionario en el que las claves corresponden al índice, dejando el resto con valor indeterminado o NaN.

In [39]:
df['Entregado'] = pd.Series({'Tienda 1': True, 'Tienda 2': True})
df

Unnamed: 0,Compra,Nombre,Producto,Venta,C.P,Localidad,Entregado
Tienda 1,15.0,Álvaro,Queso manchego,22.0,8001,Barcelona,True
Tienda 1,10.0,Benito,Vino manchego,14.5,8002,Barcelona,True
Tienda 2,35.0,Fernando,Jamón Extremeño,50.0,8003,Barcelona,True
Tienda 3,12.0,Martín,Aceite Andaluz,0.0,8004,Barcelona,
Tienda 3,,Hernán,Azafrán manchego,0.0,8004,Barcelona,


### <font color="#004D7F"> Renombrado de índice y de columnas </font>


Pueden renombrarse mediante el método `rename()`. Puede tomar como argumento un diccionario con las correspondencias, o una función de transformación ([documentación](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.rename.html)).

En caso de tomar una función de transformación, es necesario especificar si ésta actúa sobre índices o sobre columnas mediante el atributo `axis` (que por defecto toma el valor `index`). El siguiente ejemplo, renombra todos los índices anteponiéndoles el caracter '#' y transformándolo en un `String`. Esta operación devuelve un nuevo `DataFrame`, a menos que se indique que actúe sobre el mismo mediante el parámetro `inplace`.

In [40]:
df2 = df.copy()              # Copia el original (por claridad en los ejemplos)
df2.rename(lambda x: '#'+str(x), axis='index', inplace=True)
df2.head()

Unnamed: 0,Compra,Nombre,Producto,Venta,C.P,Localidad,Entregado
#Tienda 1,15.0,Álvaro,Queso manchego,22.0,8001,Barcelona,True
#Tienda 1,10.0,Benito,Vino manchego,14.5,8002,Barcelona,True
#Tienda 2,35.0,Fernando,Jamón Extremeño,50.0,8003,Barcelona,True
#Tienda 3,12.0,Martín,Aceite Andaluz,0.0,8004,Barcelona,
#Tienda 3,,Hernán,Azafrán manchego,0.0,8004,Barcelona,


También se pueden renombrar índices o columnas asignando un diccionario a los atributos `index` o  `columns`.

In [41]:
df2 = df.copy()       # Copia el original (por claridad en los ejemplos)
df2.rename(columns = {'Venta': 'PVP', 'Entregado':'Disponible'}, inplace = True);
df2.head()

Unnamed: 0,Compra,Nombre,Producto,PVP,C.P,Localidad,Disponible
Tienda 1,15.0,Álvaro,Queso manchego,22.0,8001,Barcelona,True
Tienda 1,10.0,Benito,Vino manchego,14.5,8002,Barcelona,True
Tienda 2,35.0,Fernando,Jamón Extremeño,50.0,8003,Barcelona,True
Tienda 3,12.0,Martín,Aceite Andaluz,0.0,8004,Barcelona,
Tienda 3,,Hernán,Azafrán manchego,0.0,8004,Barcelona,


Por último, es posible renombrar las columnas directamente asignando una colección de valores al campo `DataFrame.columns`.

In [42]:
df2.columns = ['COMPRA','NOMBRE', 'PVP','PRODUCTO','C.P', 'LOCALIDAD','ENTREGADO']
df2


Unnamed: 0,COMPRA,NOMBRE,PVP,PRODUCTO,C.P,LOCALIDAD,ENTREGADO
Tienda 1,15.0,Álvaro,Queso manchego,22.0,8001,Barcelona,True
Tienda 1,10.0,Benito,Vino manchego,14.5,8002,Barcelona,True
Tienda 2,35.0,Fernando,Jamón Extremeño,50.0,8003,Barcelona,True
Tienda 3,12.0,Martín,Aceite Andaluz,0.0,8004,Barcelona,
Tienda 3,,Hernán,Azafrán manchego,0.0,8004,Barcelona,


### <font color="#004D7F"> Reordenación de columnas </font>

Al acceder a una colección de columnas se genera un nuevo `DataFrame` en el que las columnas se colocan en el orden de la colección. 

In [43]:
df2 = df2[['NOMBRE','LOCALIDAD','C.P', 'PRODUCTO','COMPRA','PVP']]
df2

Unnamed: 0,NOMBRE,LOCALIDAD,C.P,PRODUCTO,COMPRA,PVP
Tienda 1,Álvaro,Barcelona,8001,22.0,15.0,Queso manchego
Tienda 1,Benito,Barcelona,8002,14.5,10.0,Vino manchego
Tienda 2,Fernando,Barcelona,8003,50.0,35.0,Jamón Extremeño
Tienda 3,Martín,Barcelona,8004,0.0,12.0,Aceite Andaluz
Tienda 3,Hernán,Barcelona,8004,0.0,,Azafrán manchego


### <font color="#004D7F"> Eliminación de filas y columnas </font>

El método `drop()` permite eliminar filas y columnas. Sin embargo, devuelve un nuevo objeto, y el original permanece en su estado. Para que la eliminación se haga sobre el objeto original, ha de indicarse fijando el parámetro `inplace=True`.

<div class="alert alert-block alert-warning">
<i class="fa fa-exclamation-circle" aria-hidden="true"></i>
__Importante__: La mayor parte de operaciones que manipulan la estructura del `DataFrame` no los elementos, producen una copia del mismo, pero aceptan el parámetro `inplace`.
</div>

In [44]:
df2 = df.copy()                             # Copia el original (por claridad en los ejemplos))
df2.drop('Tienda 2', inplace = True)
df2

Unnamed: 0,Compra,Nombre,Producto,Venta,C.P,Localidad,Entregado
Tienda 1,15.0,Álvaro,Queso manchego,22.0,8001,Barcelona,True
Tienda 1,10.0,Benito,Vino manchego,14.5,8002,Barcelona,True
Tienda 3,12.0,Martín,Aceite Andaluz,0.0,8004,Barcelona,
Tienda 3,,Hernán,Azafrán manchego,0.0,8004,Barcelona,


La eliminación de columnas puede hacerse con el mismo método, utilizando el parámetro `axis=1` (el valor por defecto de `axis` es 0, que indica que se eliminen filas).

In [45]:
df2 = df.copy()                             # Copia el original (por claridad en los ejemplos))
df2.drop('Entregado', axis=1, inplace=True)
df2

Unnamed: 0,Compra,Nombre,Producto,Venta,C.P,Localidad
Tienda 1,15.0,Álvaro,Queso manchego,22.0,8001,Barcelona
Tienda 1,10.0,Benito,Vino manchego,14.5,8002,Barcelona
Tienda 2,35.0,Fernando,Jamón Extremeño,50.0,8003,Barcelona
Tienda 3,12.0,Martín,Aceite Andaluz,0.0,8004,Barcelona
Tienda 3,,Hernán,Azafrán manchego,0.0,8004,Barcelona


Se pueden borrar __columnas__ también mediante la función `del`.

In [46]:
del df2['Localidad']
df2

Unnamed: 0,Compra,Nombre,Producto,Venta,C.P
Tienda 1,15.0,Álvaro,Queso manchego,22.0,8001
Tienda 1,10.0,Benito,Vino manchego,14.5,8002
Tienda 2,35.0,Fernando,Jamón Extremeño,50.0,8003
Tienda 3,12.0,Martín,Aceite Andaluz,0.0,8004
Tienda 3,,Hernán,Azafrán manchego,0.0,8004


<div class="alert alert-block alert-warning">
<i class="fa fa-exclamation-circle" aria-hidden="true"></i>
__Importante__: Esta función solamente permite borrar __columnas__, no filas. 
</div>

<div style="text-align: right"> <font size=5> [<i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#004D7F">](#indice)</i></font></div>

---

<a id="section66"></a> 
## <font color="#004D7F" > Descripción de los datos </font>

<br>
La función `describe()` devuelve diversa información con respecto a las columnas. Esta información varía según el tipo de datos. Además, se puede especificar sobre qué columnas se aplica la función con los parámetros `include` \ `exclude`.

La siguiente llamada incluye todas las columnas. Puede apreciarse que para las numéricas muestra unos datos, y para las no numéricas otros. 

In [47]:
df2.describe(include="all")

Unnamed: 0,Compra,Nombre,Producto,Venta,C.P
count,4.0,5,5,5.0,5.0
unique,,5,5,,4.0
top,,Martín,Aceite Andaluz,,8004.0
freq,,1,1,,2.0
mean,18.0,,,17.3,
std,11.518102,,,20.602184,
min,10.0,,,0.0,
25%,11.5,,,0.0,
50%,13.5,,,14.5,
75%,20.0,,,22.0,


En el caso de las variables numéricas, se pueden determinar los percentiles que se han de mostrar. 

In [48]:
df2.describe(include="all", percentiles=[0.32, 0.61])

Unnamed: 0,Compra,Nombre,Producto,Venta,C.P
count,4.0,5,5,5.0,5.0
unique,,5,5,,4.0
top,,Martín,Aceite Andaluz,,8004.0
freq,,1,1,,2.0
mean,18.0,,,17.3,
std,11.518102,,,20.602184,
min,10.0,,,0.0,
32%,11.92,,,4.06,
50%,13.5,,,14.5,
61%,14.49,,,17.8,


<div style="text-align: right"> <font size=5> [<i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#004D7F">](#indice)</i></font></div>

---

<a id="section7"></a>
# <font color="#004D7F"> 7. Selección y ordenación </font>

<a id="section71"></a> 
## <font color="#004D7F"> Consulta y selección </font>


In [49]:
df_titanic.head()

Unnamed: 0_level_0,ID,Clase,Nombre,Sexo,Edad,SibSp,Parch,Ticket,Precio,Cabina,Embarcado
Superviviente,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
0,1,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
1,3,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
1,4,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
0,5,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


La aplicación de un operador booleano sobre una columna, que es de tipo `Series`, genera como resultado un objeto de tipo `Series` cuyo índice es el mismo del `DataFrame` y en el que los elementos correspoden al valor de la operación correspondiente a cada caso.

Por ejemplo, el siguiente código comprueba si los pasajeros tienen más de 18 años.

In [50]:
consulta = df_titanic['Edad']>18
consulta[:5]                      # Muestra los 5 primeros elementos.

Superviviente
0    True
1    True
1    True
1    True
0    True
Name: Edad, dtype: bool

Es posible utilizar indexación lógica en un `DataFrame` para devolver los casos de interés.

In [51]:
adultos = df_titanic[df_titanic['Edad']>18]
adultos.head(5)

Unnamed: 0_level_0,ID,Clase,Nombre,Sexo,Edad,SibSp,Parch,Ticket,Precio,Cabina,Embarcado
Superviviente,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
0,1,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
1,3,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
1,4,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
0,5,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


Se pueden utilizar las operaciones entre series para generar condiciones más complejas. 

In [52]:
varones_adultos = df_titanic[(df_titanic['Edad']>18) & (df_titanic['Sexo']=='male')]
varones_adultos.head()

Unnamed: 0_level_0,ID,Clase,Nombre,Sexo,Edad,SibSp,Parch,Ticket,Precio,Cabina,Embarcado
Superviviente,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
0,1,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
0,5,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
0,7,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
0,13,3,"Saundercock, Mr. William Henry",male,20.0,0,0,A/5. 2151,8.05,,S
0,14,3,"Andersson, Mr. Anders Johan",male,39.0,1,5,347082,31.275,,S


<div class="alert alert-block alert-danger">
<i class="fa fa-exclamation-triangle" aria-hidden="true"></i>
Debido a que los operadores binarios tienen precedencia sobre las comparaciones, la siguiente expresión, en la que se han quitado los paréntesis de la expresión, devolvería un error.
</div>

In [56]:
varones_ancianos = df_titanic[(df_titanic['Edad']>65) & (df_titanic['Sexo']=='male')]
varones_ancianos.head()

Unnamed: 0_level_0,ID,Clase,Nombre,Sexo,Edad,SibSp,Parch,Ticket,Precio,Cabina,Embarcado
Superviviente,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
0,34,2,"Wheadon, Mr. Edward H",male,66.0,0,0,C.A. 24579,10.5,,S
0,97,1,"Goldschmidt, Mr. George B",male,71.0,0,0,PC 17754,34.6542,A5,C
0,117,3,"Connors, Mr. Patrick",male,70.5,0,0,370369,7.75,,Q


### <font color="#004D7F" face="monospace"> where() </font>

Las consultas pueden hacerse mediante  el método `where()`. En ese caso, se devuelven todas las filas, pero se fija el valor de que no cumplen la condición se reemplazan con un valor (por defecto NaN).


In [57]:
#adultos = df_titanic.where(df_titanic['Edad']>18)
adultos = df_titanic.where(df_titanic['Edad']>18, '---')
adultos.head()

Unnamed: 0_level_0,ID,Clase,Nombre,Sexo,Edad,SibSp,Parch,Ticket,Precio,Cabina,Embarcado
Superviviente,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
0,1,3,"Braund, Mr. Owen Harris",male,22,1,0,A/5 21171,7.25,,S
1,2,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38,1,0,PC 17599,71.2833,C85,C
1,3,3,"Heikkinen, Miss. Laina",female,26,0,0,STON/O2. 3101282,7.925,,S
1,4,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35,1,0,113803,53.1,C123,S
0,5,3,"Allen, Mr. William Henry",male,35,0,0,373450,8.05,,S


Del mismo modo que la indexación mediante valores booleanos, `where` admite condiciones obtenidas mediante operaciones booleanas entre series. 

In [58]:
adultas = df_titanic.where((df_titanic['Edad']>18) & (df_titanic['Sexo']=='female'),'---')
adultas.head()

Unnamed: 0_level_0,ID,Clase,Nombre,Sexo,Edad,SibSp,Parch,Ticket,Precio,Cabina,Embarcado
Superviviente,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
0,---,---,---,---,---,---,---,---,---,---,---
1,2,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38,1,0,PC 17599,71.2833,C85,C
1,3,3,"Heikkinen, Miss. Laina",female,26,0,0,STON/O2. 3101282,7.925,,S
1,4,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35,1,0,113803,53.1,C123,S
0,---,---,---,---,---,---,---,---,---,---,---


### <font color="#004D7F" face="monospace"> mask() </font>

La función `mask` es opuesta a `where`, es decir, devuelve los valores que __no__ cumplen la condición.

In [62]:
adultas = df_titanic.mask((df_titanic['Edad']<18) | (df_titanic['Sexo']=='female'),'---')
adultas.head()

Unnamed: 0_level_0,ID,Clase,Nombre,Sexo,Edad,SibSp,Parch,Ticket,Precio,Cabina,Embarcado
Superviviente,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
0,1,3,"Braund, Mr. Owen Harris",male,22,1,0,A/5 21171,7.25,,S
1,---,---,---,---,---,---,---,---,---,---,---
1,---,---,---,---,---,---,---,---,---,---,---
1,---,---,---,---,---,---,---,---,---,---,---
0,5,3,"Allen, Mr. William Henry",male,35,0,0,373450,8.05,,S


### <font color="#004D7F" face="monospace"> isin() </font>

La función `isin` también es de suma utiliad, ya que permite seleccionar las filas cuyo valor esté dentro de un conjunto. 

In [63]:
df_titanic[df_titanic['Edad'].isin([14,35,53])]

Unnamed: 0_level_0,ID,Clase,Nombre,Sexo,Edad,SibSp,Parch,Ticket,Precio,Cabina,Embarcado
Superviviente,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,4,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
0,5,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
1,10,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C
0,15,3,"Vestrom, Miss. Hulda Amanda Adolfina",female,14.0,0,0,350406,7.8542,,S
0,21,2,"Fynney, Mr. Joseph J",male,35.0,0,0,239865,26.0,,S
1,40,3,"Nicola-Yarred, Miss. Jamila",female,14.0,1,0,2651,11.2417,,C


<div style="text-align: right"> <font size=5> [<i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#004D7F">](#indice)</i></font></div>

---

<a id="section72"></a> 
## <font color="#004D7F"> Ordenación </font>

La operación `DataFrame.sort_index` ordena el `DataFrame` en función de su índice. Mediante el parámetro `ascending` se establece el orden de la ordenación. Además, por defecto produce un nuevo `DataFrame`, a no ser que se indique lo contrario mediante el parámetro `inplace`.

In [64]:
df_titanic.sort_index(ascending=False, inplace=True)
df_titanic.head()

Unnamed: 0_level_0,ID,Clase,Nombre,Sexo,Edad,SibSp,Parch,Ticket,Precio,Cabina,Embarcado
Superviviente,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,79,2,"Caldwell, Master. Alden Gates",male,0.83,0,2,248738,29.0,,S
1,124,2,"Webber, Miss. Susan",female,32.5,0,0,27267,13.0,E101,S
1,40,3,"Nicola-Yarred, Miss. Jamila",female,14.0,1,0,2651,11.2417,,C
1,134,2,"Weisz, Mrs. Leopold (Mathilde Francoise Pede)",female,29.0,1,0,228414,26.0,,S
1,44,2,"Laroche, Miss. Simonne Marie Anne Andree",female,3.0,1,2,SC/Paris 2123,41.5792,,C


El método `DataFrame.sort_values` ordena el `DataFrame` en función de una o varias columnas. El siguiente código ordena descendentemente en función del campo _Edad_ y, en segunda instancia, ascendentemente en función del campo _ID_ (en realidad se hace al revés).

In [65]:
df_titanic.sort_values(['Edad', 'ID'], ascending=[False, True], inplace=True)
df_titanic.head()

Unnamed: 0_level_0,ID,Clase,Nombre,Sexo,Edad,SibSp,Parch,Ticket,Precio,Cabina,Embarcado
Superviviente,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
0,97,1,"Goldschmidt, Mr. George B",male,71.0,0,0,PC 17754,34.6542,A5,C
0,117,3,"Connors, Mr. Patrick",male,70.5,0,0,370369,7.75,,Q
0,34,2,"Wheadon, Mr. Edward H",male,66.0,0,0,C.A. 24579,10.5,,S
0,55,1,"Ostby, Mr. Engelhart Cornelius",male,65.0,0,1,113509,61.9792,B30,C
0,95,3,"Coxon, Mr. Daniel",male,59.0,0,0,364500,7.25,,S


<div class="alert alert-block alert-warning">
<i class="fa fa-exclamation-circle" aria-hidden="true"></i>
__Importante__: El parámetro `kind` permite determinar el algoritmo de ordenación. En este caso, es interesante saber que `mergesort` es un algoritmo de ordenación estable. Es decir, cuando ordena por un campo, para los elementos con un mismo valor de ese campo, preserva el orden relativo de los elementos anterior a la ordenación.
</div>

<div style="text-align: right"> <font size=5> [<i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#004D7F">](#indice)</i></font></div>

---

<a id="section8"></a>
# <font color="#004D7F" size=5> 8. Operaciones sobre elementos </font>

<a id="section81"></a> 
## <font color="#004D7F"> Operaciones básicas </font>

Es posible operar sobre las columnas del mismo modo que se hace en el caso de las series.

El siguiente ejemplo añade una columna con el _IVA_ de los productos, calculada a partir de los valores en la columna _Precio_.

In [66]:
df = df.copy()                             # Copia el original (por claridad en los ejemplos))
df['IVA']= df['Venta']*0.21                # Calcula y añade el iva
df

Unnamed: 0,Compra,Nombre,Producto,Venta,C.P,Localidad,Entregado,IVA
Tienda 1,15.0,Álvaro,Queso manchego,22.0,8001,Barcelona,True,4.62
Tienda 1,10.0,Benito,Vino manchego,14.5,8002,Barcelona,True,3.045
Tienda 2,35.0,Fernando,Jamón Extremeño,50.0,8003,Barcelona,True,10.5
Tienda 3,12.0,Martín,Aceite Andaluz,0.0,8004,Barcelona,,0.0
Tienda 3,,Hernán,Azafrán manchego,0.0,8004,Barcelona,,0.0


En el siguiente ejemplo, se crea una columna mediante una suma de otras dos, y borra el _IVA_. 

In [67]:
df['P.V.P'] = df['Venta']+df['IVA']
del df['IVA']
df

Unnamed: 0,Compra,Nombre,Producto,Venta,C.P,Localidad,Entregado,P.V.P
Tienda 1,15.0,Álvaro,Queso manchego,22.0,8001,Barcelona,True,26.62
Tienda 1,10.0,Benito,Vino manchego,14.5,8002,Barcelona,True,17.545
Tienda 2,35.0,Fernando,Jamón Extremeño,50.0,8003,Barcelona,True,60.5
Tienda 3,12.0,Martín,Aceite Andaluz,0.0,8004,Barcelona,,0.0
Tienda 3,,Hernán,Azafrán manchego,0.0,8004,Barcelona,,0.0


<div style="text-align: right"> <font size=5> [<i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#004D7F">](#indice)</i></font></div>

---

<a id="section82"></a> 
## <font color="#004D7F">Operaciones de transformación </font>


### <font color="#004D7F" face="monospace"> apply() y map()</font>

Las funciones `apply()` y `map()` se pueden aplicar sobre columnas, a cada uno de los elementos, del mismo modo que se aplicaba con las series.

In [69]:
df2 = df.copy()                 # Copia el original (por claridad en los ejemplos))

def IVA(x):                     # Crea la función que aplica el IVA
    return x*0.21

df2['IVA'] = df2['Venta'].apply(IVA) 
#df2['IVA'] = df2['Venta'].map(IVA)
  
#df2['IVA'] = df2['Venta'].apply(lambda pr: pr*0.21)  # Hace lo mismo, pero utilizando una función lambda
#df2['IVA'] = df2['Venta'].map(lambda pr: pr*0.21) 
df2

Unnamed: 0,Compra,Nombre,Producto,Venta,C.P,Localidad,Entregado,P.V.P,IVA
Tienda 1,15.0,Álvaro,Queso manchego,22.0,8001,Barcelona,True,26.62,4.62
Tienda 1,10.0,Benito,Vino manchego,14.5,8002,Barcelona,True,17.545,3.045
Tienda 2,35.0,Fernando,Jamón Extremeño,50.0,8003,Barcelona,True,60.5,10.5
Tienda 3,12.0,Martín,Aceite Andaluz,0.0,8004,Barcelona,,0.0,0.0
Tienda 3,,Hernán,Azafrán manchego,0.0,8004,Barcelona,,0.0,0.0



### <font color="#004D7F" face="monospace"> applymap() </font>

<br>
La función `applymap` aplica la función de transformación sobre todos los elementos del DataFrame. En este ejemplo concreto, copiamos todas las columnas numéricas (tipo `np.number`) en el `DataFrame` y se aplica una función que convierte los valores a String con tres decimales.

In [71]:
import numpy as np
df2 = df.select_dtypes(include=np.number)
df2 = df2.applymap(lambda x: '{:.3f}'.format(x))
df2

Unnamed: 0,Compra,Venta,P.V.P
Tienda 1,15.0,22.0,26.62
Tienda 1,10.0,14.5,17.545
Tienda 2,35.0,50.0,60.5
Tienda 3,12.0,0.0,0.0
Tienda 3,,0.0,0.0



### <font color="#004D7F" face="monospace"> transform() </font>

La función `transform()` permite llevar a cabo una transformación de los elementos de un `DataFrame`. Permite especificar qué columnas se transforman, y también aplicar varias transformaciones. Como resultado, devuelve una estructura que contiene todas las transformaciones llevadas a cabo  ([documentación](http://pandas.pydata.org/pandas-docs/version/0.20/basics.html#transform-api)).

In [72]:
df2 = df.copy()
df2.transform({'P.V.P': [lambda p: p*1.21, lambda p: "{:.1f} euros".format(p*1.21)], 'Localidad':str.upper})

Unnamed: 0_level_0,P.V.P,P.V.P,Localidad
Unnamed: 0_level_1,<lambda>,<lambda>.1,upper
Tienda 1,32.2102,32.2 euros,BARCELONA
Tienda 1,21.22945,21.2 euros,BARCELONA
Tienda 2,73.205,73.2 euros,BARCELONA
Tienda 3,0.0,0.0 euros,BARCELONA
Tienda 3,0.0,0.0 euros,BARCELONA



---
<a id="section9"></a>
# <font color="#004D7F" size=5> 9. Agregación </font>

<a id="section91"></a> 

## <font color="#004D7F" > Agregación de datos: <font face="monospace">apply() y agg()</font></font>

### <font color="#004D7F" face="monospace"> apply()  </font>

A diferencia de `Series.apply()` en este caso __también__ se pueden aplicar funciones que generen un escalar (no elemento por elemento). El parámetro `axis=0` o `axis='index'` indica que se aplique la función a los elementos a lo largo del índice, es decir, se aplica para cada columna.

In [73]:
df_precios = df[['Compra','Venta']]
print(df_precios)
print()

def min_max(valores):
    return (np.min(valores),np.max(valores))

# Valor mínimo y máximo por cada producto
print(df_precios.apply(min_max, axis=0))

          Compra  Venta
Tienda 1    15.0   22.0
Tienda 1    10.0   14.5
Tienda 2    35.0   50.0
Tienda 3    12.0    0.0
Tienda 3     NaN    0.0

Compra    (10.0, 35.0)
Venta      (0.0, 50.0)
dtype: object


Con el parámetro `axis=1` o `axis='columns'` se aplica la función a lo largo de las columnas, es decir, para cada índice. En este caso, las funciones pueden acceder a los valores individuales de cada columna.

<div class="alert alert-block alert-warning">
<i class="fa fa-exclamation-circle" aria-hidden="true"></i>
__Importante__: Esta es una de las formas de crear columnas como resultado de la operación o transformación sobre otras. 
</div>

In [74]:
df_precios = df[['Producto','Compra','Venta']]
print(df_precios)
print()

def anuncio(entrada):
    return '¡'+entrada['Producto']+' a '+str(entrada['Venta']-entrada['Compra']) + ' euros!'

print(df_precios.apply(anuncio, axis=1))

                  Producto  Compra  Venta
Tienda 1    Queso manchego    15.0   22.0
Tienda 1     Vino manchego    10.0   14.5
Tienda 2   Jamón Extremeño    35.0   50.0
Tienda 3    Aceite Andaluz    12.0    0.0
Tienda 3  Azafrán manchego     NaN    0.0

Tienda 1      ¡Queso manchego a 7.0 euros!
Tienda 1       ¡Vino manchego a 4.5 euros!
Tienda 2    ¡Jamón Extremeño a 15.0 euros!
Tienda 3    ¡Aceite Andaluz a -12.0 euros!
Tienda 3    ¡Azafrán manchego a nan euros!
dtype: object


<div class="alert alert-block alert-danger">
<i class="fa fa-exclamation-triangle" aria-hidden="true"></i>
El parámetro `axis=1` indica columnas, pero en este caso quiere decir que se aplica sobre cada fila. Este hecho puede generar confusión.
</div>

<div style="text-align: right"> <font size=5> [<i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#004D7F">](#indice)</i></font></div>

---

<a id="section73"></a> 
## <font color="#004D7F"> Agregación </font>
<br>

Las funciones `aggregate()` o `agg()` (son la misma) permiten aplicar funciones de agregación a filas o columnas. A diferencia de `apply()`, descrito anteriormente, permite aplicar varias funciones en una operación. Éstas pueden ser referidas por un nombre (String), identificador, incluso ser funciones `lambda` ([documentación](http://pandas.pydata.org/pandas-docs/version/0.20/basics.html#aggregation-api)).

Por ejemplo, el código siguiente aplica las funciones suma, media y rango de dos columnas (en realidad, se crea un `DataFrame` con dos columnas y se aplica la agregación). 

In [75]:
df_precios[['Compra','Venta']].agg(['sum', np.mean, lambda col: col.max()-col.min()], axis=0)

Unnamed: 0,Compra,Venta
sum,72.0,86.5
mean,18.0,17.3
<lambda>,25.0,50.0


`agg()` permite que se especifique, mediante un diccionario, qué función o funciones se aplican a cada columna.

In [76]:
df_precios.agg({'Producto':np.min, 'Compra':[np.mean, np.sum]}, axis=0)

Unnamed: 0,Producto,Compra
amin,Aceite Andaluz,
mean,,18.0
sum,,72.0


Por último, es posible aplicar por filas.

In [77]:
df_precios[['Compra','Venta']].agg(lambda p:p['Venta']-p['Compra'], axis=1)

Tienda 1     7.0
Tienda 1     4.5
Tienda 2    15.0
Tienda 3   -12.0
Tienda 3     NaN
dtype: float64



---

<div style="text-align: right"> <font size=6><i class="fa fa-coffee" aria-hidden="true" style="color:#004D7F"></i> </font></div>