# <img src="uni-logo.png" alt="Logo UNI" width=100 hight=200 align="right">


<br><br><br>
<h1><font color="#1D65DD" size=5>Python desde cero</font></h1>



<h1><font color="#1D65DD" size=6>Pandas I</font></h1>

<br>
<div style="text-align: right">
<font color="#1D65DD" size=3>Yuri Coicca, M.Sc.</font><br>

</div>

<a id="indice"></a>
<h2><font color="#7F000E" size=5>Índice</font></h2>


* [1. Introducción](#section1)
* [2. Series](#section2)
   * [Creación de series](#section21)
   * [Acceso a los elementos de una serie](#section22)
* [3. Operaciones y funciones sobre series](#section3)
   * [Operadores binarios](#section31)
   * [<font face="monospace">apply() y map()</font>](#section32)
   * [Operaciones sobre Strings](#section33)   
   * [Descripción y resumen](#section34)
   * [Manipulación de series](#section35)   
   * [Consulta y selección](#section36)
   * [Vectorización](#section37)   
* [4. DataFrames](#section4)
    * [Estructura](#section41)
    * [Lectura / escritura de DataFrames](#section42)
    * [Construcción de DataFrames](#section43)
    * [Acceso a elementos](#section44)
    * [Manipulación de la estructura](#section45)  
    * [Descripción de los datos](#section46)




In [None]:
# Permite ajustar la anchura de la parte útil de la libreta (reduce los márgenes)
from IPython.core.display import display, HTML
display(HTML("<style>.container{ width:98% }</style>"))

---



<a id="section1"></a>
# <font color="#7F000E" size=5> 1. Introducción</font>
<br>

En estos cuadernos se proporciona una descripción de Pandas, y se presentarán, mediante ejemplos, las funcionalidades de uso más común. Esta introducción será extendida en el _siguiente módulo si continuamos con el siguiente curso_ en el que, además, se dará una visión formal de los conjuntos de los datos y su tratamiento. No obstante, Pandas es una librería _completa y compleja_, por lo que a lo largo del curso será indispensable recurrir a la abundante información existente en la red, a foros como [Stack Overflow](https://stackoverflow.com/questions/tagged/pandas), y a la [documentación oficial](http://pandas.pydata.org/pandas-docs/stable/). 
<br> 


[**Pandas**](http://pandas.pydata.org) es una librería de _Python_ que proporciona estructuras y herramientas para la manipulación,  preprocesamiento y análisis exploratorio de conjuntos de datos. Trabaja con objetos denominados **`DataFrame`**, que representan tablas indexadas de datos, e implementa funciones avanzadas y eficientes para acceso, selección, consultas, agrupamiento, procesamiento, etc.  

El siguiente código lee un archivo de datos, lo almacena en un `DataFrame`, y lo muestra. Después accede a (y selecciona) los 100 primeros elementos y varias columnas.

In [2]:
# Cargando el paquete Pandas
import pandas as pd

In [None]:
# Creando un dataFrame a partir de un Diccionario
dt = {'ID': [11, 12, 13, 14, 15],
            'first_name': ['David', 'Jamie', 'Steve', 'Stevart', 'John'],
            'company': ['Aon', 'TCS', 'Google', 'RBS', '.'],
            'salary': [74, 76, 96, 71, 78]}
mydata01 = pd.DataFrame(dt, columns = ['ID', 'first_name', 'company', 'salary'])
display(mydata01.head())

In [None]:
# Leyendo un arhivo CSV desde un URL
mydata02  = pd.read_csv("http://winterolympicsmedals.com/medals.csv")
display(mydata02.head())

**Obteniendo el directorio actual de trabajo** 

* `os.getcwd()` devuelve la ruta absoluta del directorio de trabajo donde Python se está ejecutando actualmente como una cadena str.

* `getcwd` significa **obtener directorio de trabajo actual**, y el comando de Unix pwd significa "imprimir directorio de trabajo". Por supuesto, puede imprimir el directorio de trabajo con `print()`.

**Cambiando el directorio actual de trabajo** 

* Puede cambiar el directorio de trabajo actual con `os.chdir()`. Especifique la ruta de destino en el argumento.

* Puede ser absoluto o relativo. Utilice **'../'** para subir. Puede cambiar el directorio actual como el comando de Unix **cd**.

In [None]:
import os
os.getcwd()
# listando archivos 
print(os.listdir(os.getcwd()))
# leyendo archivo CSV del disco de la PC
income = pd.read_csv('C:\\Users\\YURI\\POO con Python\\modulo II\\data\\madrid_2017.csv')
display(income.head())

In [None]:
# 
import os
print('getcwd:      ', os.getcwd())
print('__file__:    ', __file__)

Tenga en cuenta que `__file__` no se puede utilizar en Jupyter Notebook (.ipynb). Independientemente del directorio donde se inicie Jupyter Notebook, el directorio actual es el directorio donde se encuentra .ipynb.

Mas detalles en: https://note.nkmk.me/en/python-script-file-path/

In [None]:
# Lee un archivo .csv y utiliza el campo ID como índice.
df_fifa = pd.read_csv('./data/fifa19.csv', index_col=0).set_index('ID')
# Muestra la cabecera (5 primeras filas)
display(df_fifa.head())
print("Dimensiones del dataframe:",df_fifa.shape)
print("Número de filas (registros):",df_fifa.shape[0])
print("Número de columnas:",df_fifa.shape[1])

In [None]:
# Lista con los nombres de las columnas de interés
sel_columns = ['Name', 'Age', 'Nationality', 'Overall', 'Club', 'Value', 'Wage', 'Position', 'Joined', 'Height', 'Weight', 'Release Clause']

# Selecciona filas y columnas
df_fifa = df_fifa[:100][sel_columns] 
# Muestra los tipos de datos de las columnas
print(df_fifa.dtypes)
# Muestra la cabecera
df_fifa.head(10)

### <font color="#7F000E"> Ejemplo de uso</font>

A continuación se ilustra, mediante un breve ejemplo, el tipo de procesamiento que se puede hacer con Pandas. El `DataFrame` contiene datos sobre jugadores de fútbol. La altura se expresa mediante el sistema imperial (británico), y está representada con un `String`.  En esta celda, se convierten las unidades de la columna `Height` al sistema métrico decimal (metros), y se representan mediante un valor numérico.

In [None]:
feet_to_cm = 30.48
inch_to_cm = 2.54

# Toma un String con formato pies'pulgadas como entrada
def imp_to_metric(imp_height):
    feet, inch = imp_height.split("'")                             # Separa pies y pulgadas 
    return (float(feet)*feet_to_cm + float(inch)*inch_to_cm)/100   # Convierte a float y calcula los metros

# Convierte toda la columna
df_fifa['Height'] = df_fifa['Height'].map(imp_to_metric)    

# Lo muestra
df_fifa.head()

En esta celda se transforman también peso, salario y valor, de manera más compacta, mediante funciones _lambda_.

In [None]:
df_fifa['Weight'] = df_fifa['Weight'].map(lambda w: float(w[:-3])*0.453592)
df_fifa['Value'] = df_fifa['Value'].map(lambda v: float(v[1:-1]))
df_fifa['Wage'] = df_fifa['Wage'].map(lambda w: int(w[1:-1])*1000)

df_fifa.head()

Al igual que en las bases de datos relacionales, se pueden hacer accesos condicionales. Por ejemplo, se pueden mostrar los jugadores cuyo valor está por encima de 100 millones de euros.

In [None]:
df_fifa[df_fifa['Value']>100]

Pandas permite obtener estadísticos descriptivos simples. En la siguiente columna, se describe la información que contienen las columnas numéricas.

In [None]:
df_fifa.describe(include="number", percentiles=[0.25, 0.5, 0.75])

Por ejemplo, también pueden obtener el número de clubes distintos y las veces que aparecen, usando la funcion **values_counts()**.

In [None]:
df_fifa['Club'].value_counts()

Ahora, para concluir esta sección veamos el uso de las capacidades de **groupby** 

In [None]:
# Creando el dataframe agrupado
agrupado=df_fifa.groupby('Club')
display(agrupado.size())
agrupado.get_group('FC Barcelona').head(5)

Agrupado por multiples columnas

In [None]:
df_fifa.groupby(['Club','Value']).size()

Obteniendo los valores **mean** (medio), **min** (mínimo), y **max** (máximo) de la edad de los jugadores por Club.

In [None]:
agrupa_edad = display(df_fifa.groupby('Club').agg({'Age': ['mean', 'min', 'max']}).head(10))
display(agrupa_edad)

La función **unique ()** muestra los niveles o categorías únicos en el conjunto de datos.

In [None]:
df_fifa.index.nunique()

<div style="text-align: right">
<a href="#indice"><font size=5><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#7F000E"></i></font></a>
</div>


---

<a id="section2"></a>
# <font color="#7F000E" size=5> 2. Series </font>
<br>

Los objetos de tipo `Series` almacenan una colección de valores _indexada_. Esta clase implementa multitud de operaciones, y ___es la forma en que se accede a columnas o filas__ individuales en objetos de tipo `DataFrame`.  

In [None]:
serie_name = df_fifa['Name']    # Accede a la columna 'Name' y la almacena en una serie

display(serie_name.head(5))
print("Tipo:", type(serie_name))

<div class="alert alert-block alert-info">
    
<i class="fa fa-info-circle" aria-hidden="true"></i>
El índice del objeto `Series` es el correspondiente en el `DataFrame`. El nombre, es el nombre de la columna.
</div>

<div style="text-align: right">
<a href="#indice"><font size=5><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#7F000E"></i></font></a>
</div>


---

<a id="section21"></a> 
## <font color="#7F000E">Creación de series </font>
<br>

En inmensa mayoría de las ocasiones, los objetivos de tipo `Series` se crean a partir del acceso a filas o columnas. No obstante, también es posible crear objetos de tipo `Series` directamente, y de distintos modos, a partir de estructuras estándar de _Python_ y _Numpy_.

### <font color="#7F000E"> Creación a partir de una colección de elementos</font>

Se puede construir una serie a partir de una colección de datos. En caso de no especificar un índice, la serie se indexa internamente con enteros.

In [None]:
equipos = ['Real Madrid', 'Manchester United', 'Milán']
serie_equipos = pd.Series(equipos)         # Construye una serie a partir de una lista
print(serie_equipos)                       # Por defecto, se indexa con enteros

### <font color="#7F000E"> Creación a partir de una colección y un índice </font>

Es posible especificar la secuencia que contiene el índice. Éste, que por defecto es un entero, puede estar formado por datos de cualquier tipo al que se pueda aplicar una función _hash_ (función _hashable_).

In [None]:
serie_equipos = pd.Series(['Real Madrid', 'Manchester United', 'Milán'],  # Datos
                          index=['España', 'Inglaterra', 'Italia'])       # Índice
print(serie_equipos)

### <font color="#7F000E"> Creación a partir de un diccionario </font>

También se puede construir la serie a partir de un diccionario. En ese caso, las claves corresponden a los índices, y los valores a los elementos de la serie. 

In [None]:
equipos = {'España': 'Real Madrid',
           'Inglaterra': 'Manchester United',
           'Italia': 'Milán',
           'Francia': 'PSG',
           'Alemania': 'Bayern Munich' }          # Diccionario

serie_equipos = pd.Series(equipos)                # Crea la serie a partir del diccionario
print(serie_equipos)

Si además del diccionario se pasa una lista de índices, ésta se usa para determinar qué valores del diccionario se incluyen.

In [None]:
serie_equipos = pd.Series(equipos, index=['España', 'Inglaterra', 'Italia'])
print(serie_equipos)

Es posible dar un nombre a la serie, y también es posible darselo al índice. 

In [None]:
serie_equipos.name='Equipo'
serie_equipos.index.name = 'País'
serie_equipos

<div style="text-align: right">
<a href="#indice"><font size=5><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#004D7F"></i></font></a>
</div>


---

<a id="section22"></a> 
## <font color="#7F000E">Acceso a los elementos de una serie </font>
<br>

El acceso natural a los elementos de una serie se hace mediante su índice, con `loc[índice]`. También se puede acceder acceder a los elementos mediante la posición, como en el resto de colecciones, a través de `iloc[posición]`. 

In [None]:
print(serie_equipos, '\n')

print("Acceso mediante loc:")
print(serie_equipos.loc['España'])

print("\nAcceso mediante iloc:")
print(serie_equipos.iloc[1])

También es posible acceder a los elementos mediante el operador `[]`, que llama internamente al método correspondiente (`loc` o `iloc`) en función del argumento. 

In [None]:
print("\nAcceso mediante []:")
print(serie_equipos['España'])            # Llama a loc
print(serie_equipos[1])                   # Llama a iloc

<div class="alert alert-block alert-danger">
    
<i class="fa fa-exclamation-triangle" aria-hidden="true"></i> __Importante__: Cuando el índice de la serie es un entero, el operador `[]` llama a `loc[]`, es decir, usa el entero como como índice, y no como posición. 
</div>

In [None]:
print("Este ejemplo muestra la situación que se da cuando el índice es un entero: \n")

equipos = {13: 'Real Madrid',
           3: 'Manchester United',
           7: 'Milán',
           0: 'PSG',
           5: 'Bayern Munich'}

s = pd.Series(equipos)
print(s)

print("\nAcceso mediante loc:")
print(s.loc[3])            # Imprime el elemento de índice 3.

print("\nAcceso mediante iloc:")
print(s.iloc[3])           # Imprime el elemento en la posición 3.

print("\nAcceso mediante []:")
print(s[3])                # En este caso, llama a loc[]
#print(s[1])               # Esta sentencia daría error, porque no hay ningún elemento con índice 1.

Tanto la función `loc` como `iloc` admiten el uso de __colecciones__ como argumentos. Es decir, permiten acceder a varios elementos de la serie a la vez.

In [None]:
equipos = {'España': 'Real Madrid',
           'Inglaterra': 'Manchester United',
           'Italia': 'Milán',
           'Francia': 'PSG',
           'Alemania': 'Bayern Munich'}
serie_equipos = pd.Series(equipos)
print(serie_equipos, '\n')

print(serie_equipos.loc[['España', 'Italia', 'Francia']],'\n')
print(serie_equipos.iloc[[0,1,2]])

<div class="alert alert-block alert-warning">

<i class="fa fa-exclamation-circle" aria-hidden="true"></i>
__Importante__: Tanto `loc` como `iloc` toman ___un solo argumento___, que _ha de ser una colección_ (no varios datos).
</div>

Las funciones `at` e `iat` permiten acceder a elementos a través del índice o posición, respectivamente. A diferencia de `loc` e `iloc`,  no admiten colecciones como argumentos. Sin embargo, son más eficientes. 

In [None]:
print(serie_equipos.at['España'])
print(serie_equipos.iat[2])

### <font color="#7F000E"> _Slicing_ </font>

El acceso a los elementos de una serie también se puede hacer mediante _slicing_, tanto en el índice como en las posiciones.



In [None]:
equipos = {'España': 'Real Madrid',
           'Inglaterra': 'Manchester United',
           'Italia': 'Milán',
           'Francia': 'PSG',
           'Alemania': 'Bayern Munich'}
serie_equipos = pd.Series(equipos)
print(serie_equipos,'\n')

print(serie_equipos.iloc[0:3],'\n')
print(serie_equipos.loc['España':'Francia'])

### <font color="#7F000E"> Indexación mediante valores booleanos </font>

Por último, es posible acceder a las series mediante una colección de datos de tipo booleano.

In [None]:
equipos = {'España': 'Real Madrid',
           'Inglaterra': 'Manchester United',
           'Italia': 'Milán',
           'Francia': 'PSG',
           'Alemania': 'Bayern Munich'}

serie_equipos = pd.Series(equipos)
print(serie_equipos,'\n')

serie_equipos[[True,False,False,True,True]]

El uso más común de esta funcionalidad es el filtrado de elementos según una condición. 

In [None]:
import numpy as np

mundiales = {'España': 1 ,
             'Inglaterra': 1,
             'Italia': 4,
             'Francia': 1,
             'Alemania': 4}
serie_mundiales = pd.Series(mundiales)
print(serie_mundiales,'\n')

print(serie_mundiales[serie_mundiales>1])         # Accede a los elementos con ese índice de valores booleanos.

En realidad, la condición genera otra serie, que es utilizada para el acceso.

In [None]:
print(serie_mundiales>1,'\n')                     # Genera una serie de valores booleanos

Se puede hacer un acceso con condiciones más complejas, siempre y cuando éstas den lugar a un conjunto de valores booleanos.

In [None]:
champions = {'Real Madrid':13, 'Manchester':3, 'Milán':7, 'Bayern Munich':5, 'PSG': 0}

equipos = {'España': 'Real Madrid',
           'Inglaterra': 'Manchester',
           'Italia': 'Milán',
           'Francia': 'PSG',
           'Alemania': 'Bayern Munich'}

serie_equipos = pd.Series(equipos)

# Esta línea de código mira para cada elemento de la serie, si el número de champions es mayor que 5.
print(list(map(lambda equipo: champions[equipo]>=5, serie_equipos)),'\n')

# Se puede utilizarla expresión anterior para obtener los equipos.
serie_equipos[list(map(lambda equipo: champions[equipo]>=5, serie_equipos))]

### <font color="#7F000E">  Acceso para escritura  </font>



Se hace de manera similar. Es posible escribir varias posiciones a la vez.

In [None]:
equipos = {'España': 'Real Madrid',
           'Inglaterra': 'Manchester United',
           'Italia': 'Milán',
           'Francia': 'PSG',
           'Alemania': 'Bayern Munich'}
serie_equipos = pd.Series(equipos)
print(serie_equipos)
print()

serie_equipos.loc['Alemania'] = 'Borussia Dormund'  
serie_equipos.iloc[1] = 'Chelsea'                    
serie_equipos['España']='Atlético de Madrid'
serie_equipos[[2,3]]=['Juventus', 'Mónaco']
# serie_equipos[[2,3]]=['Juventus', 'Mónaco', 'Marsella'] # Error por la diferencia de tamaños
print(serie_equipos)

Si se asigna un valor a un nuevo índice, se añade un nuevo elemento a la serie.

In [None]:
serie_equipos['Portugal']='Benfica'            
print(serie_equipos)

### <font color="#7F000E">  Acceso a índices y valores </font>

Es posible acceder al índice y lista de valores contenidos en la serie por separado.

In [None]:
print(serie_equipos.index.values)
print(serie_equipos.index.values[0])
print()

print(serie_equipos.values)
print(serie_equipos.values[0])
print()

#print(type(serie_equipos.index)) 

<div style="text-align: right">
<a href="#indice"><font size=5><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#7F000E"></i></font></a>
</div>

---

<a id="section3"></a>
# <font color="#7F000E" size=5> 3. Operaciones y funciones sobre series </font>
<br>

La clase `Series` implementa una gran cantidad de operadores y funciones. Las de uso más general se organizan y describen a continuación. Para información completa, se puede consultar la [API de la clase Series](https://pandas.pydata.org/pandas-docs/stable/reference/series.html).

<a id="section31"></a> 
## <font color="#7F000E">Operadores binarios </font>

Al igual que con los arrays _Numpy_, es posible llevar a cabo operaciones a nivel de elemento entre series, o entre series y escalares. Éstas pueden hacerse mediante operadores o funciones. 

In [None]:
champions = {'Real Madrid':12, 'Manchester United':3, 'Milán':7, 'Bayern Munich':5, 'PSG': 0}
serie_champions = pd.Series(champions)

europa_league = {'Real Madrid':2, 'Manchester United':1, 'Milán':0, 'Bayern Munich':1, 'PSG': 0}
serie_europa_league = pd.Series(europa_league)

# Operación entre series
print(serie_champions+serie_europa_league,'\n')      # Operador
print(serie_champions.add(serie_europa_league),'\n') # Función

# Operación entre serie y valor escalar
print(serie_champions>3)

Las operaciones que involucran varias series se llevan a cabo entre __elementos con el mismo índice__. 

<div class="alert alert-block alert-warning">
    
<i class="fa fa-exclamation-circle" aria-hidden="true"></i>
__Importante__: Cuando uno de los elementos no aparece en alguna de las series implicadas, el resultado es NaN.
</div>

In [None]:
europa_league = {'Real Madrid':2, 'Manchester United':1, 'Milán':0, 
                 'Bayern Munich':1, 'PSG': 0, 'Atlético de Madrid':2}
serie_europa_league = pd.Series(europa_league)

print(serie_champions+serie_europa_league) 

Es posible definir funciones que se implementen a partir de estos operadores u otros definidos para actuar sobre los elementos de las series, y aplicarlas sobre las series. 

In [None]:
def titulos_decada(titulos):
    ''' Numero medio de títulos ganados por cada década de competición'''
    return titulos/6.0

champions = {'Real Madrid':13, 'Manchester United':3, 'Milán':7, 'Bayern Munich':5, 'PSG': 0}
serie_champions = pd.Series(champions)

titulos_decada(serie_champions) # Se aplica la función sobre cada elemento de la serie. 

<div class="alert alert-block alert-danger">

<i class="fa fa-exclamation-triangle" aria-hidden="true"></i>
Cuando la función u operador no trabaja a nivel de elemento, el comportamiento es inesperado.
</div>

In [None]:
def titulos_str(titulos):
    return str(titulos)+" títulos" # No se convierte a String cada elemento, sino la serie entera

titulos_str(serie_champions)       # Se aplica la función sobre cada elemento de la serie. 

<div style="text-align: right">
<a href="#indice"><font size=5><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#7F000E"></i></font></a>
</div>

---

<a id="section32"></a> 
## <font color="#7F000E" face="monospace">apply() y map()</font>
<br>

Las funciones `apply()`  y `map()` permiten _aplicar_ una función a cada elemento de una serie. Como resultado de su aplicación, se genera otra serie. 


<div class="alert alert-block alert-info">
    
<i class="fa fa-info-circle" aria-hidden="true"></i>
**Nota**: Estas funciones se utilizan de manera muy frecuente, ya permiten utilizar ___cualquier___ función para transformar los valores de la serie. Por otra parte, y __en el caso de Series__ (veremos más adelante que estas funciones también se aplican a _DataFrames_) las diferencias entre ambas son sutiles, y prácticamente son intercambiables. La función `map` admite también diccionarios o _Series_. Por otra parte, `apply` se usa solo con funciones, generalmente más complejas. 
</div>

In [None]:
champions = {'Real Madrid':12, 'Manchester United':3, 'Milán':7, 'Bayern Munich':5, 'PSG': 0}
europa_league = {'Real Madrid':2, 'Manchester United':1, 'Milán':0, 'Bayern Munich':1, 'PSG': 0}

# Ahora solamente se dispone de una serie que se indexa por países. 
equipos = {'España': 'Real Madrid',
           'Inglaterra': 'Manchester United',
           'Italia': 'Milán',
           'Francia': 'PSG',
           'Alemania': 'Bayern Munich'}
serie_equipos = pd.Series(equipos)

def copas_equipo(equipo):                                        # Utilizamos get en lugar de [] en el acceso a los
    return champions.get(equipo,0)+europa_league.get(equipo,0)   # diccionarios para poder devolver un valor por
                                                                 # defecto (0) si el equipo no existe. 
serie_equipos.apply(copas_equipo)

Es muy frecuente utilizar funciones `lambda` junto con `apply` o `map`.

In [None]:
serie_equipos.map(lambda equipo: champions.get(equipo,0)+europa_league.get(equipo,0))

<div class="alert alert-block alert-info">

<i class="fa fa-info-circle" aria-hidden="true"></i>
**Nota**: Las funciones `lambda` se usan por agilidad y claridad en el código. No obstante, las funciones estándar son ___más eficientes___.
</div>

<div style="text-align: right">
<a href="#indice"><font size=5><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#7F000E"></i></font></a>
</div>

---


<a id="section33"></a> 
## <font color="#7F000E">Operaciones sobre Strings </font>
<br>

_Pandas_ implementa un conjunto de operaciones para el manejo de series de Strings, y que se aplican a nivel de elemento. Muchas de estas funciones corresponden con las equivalentes en las librerías de _Python_. El listado completo de funciones puede encontrarse en la sección correspondiente de la [API](https://pandas.pydata.org/pandas-docs/stable/reference/series.html#accessors).

In [None]:
equipos = {'España': 'Real Madrid',
           'Inglaterra': 'Manchester',
           'Italia': 'Milán',
           'Francia': 'PSG',
           'Alemania': 'Bayern Munich'}
serie_equipos = pd.Series(equipos)

# Pasa a mayúsculas cada elemento de la serie. 
serie_equipos = serie_equipos.str.upper()
print(serie_equipos,'\n')

# Ahora deja solo cada inicial en mayúscula.
serie_equipos = serie_equipos.str.capitalize()
print(serie_equipos)

Estas funcionalidades se pueden reproducir también con `apply`, pero se recomiendan los métodos implementados en `Series` por cuestiones de eficiencia.

In [None]:
print(serie_equipos.apply(str.upper)) 

<div style="text-align: right">
<a href="#indice"><font size=5><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#004D7F"></i></font></a>
</div>

---

<a id="section34"></a> 
## <font color="#7F000E">Descripción y resumen </font>
<br>

Los objetos de tipo `Series` implementan también una gran cantidad de funciones que actúan sobre los elementos como un conjunto (no uno a uno). Algunas de ellas permiten obtener algunos datos de interés sobre la serie. El siguiente fragmento de código contiene ejemplos de llamadas a algunas de ellas. El listado completo puede consultarse en la sección correspondiente de la [API](https://pandas.pydata.org/pandas-docs/stable/reference/series.html#computations-descriptive-stats).

In [None]:
champions = {'Real Madrid':13, 'Manchester United':3, 'Milán':7, 'Bayern Munich':5, 'PSG': 0}
serie_champions = pd.Series(champions)

print("Numero de elementos: ",serie_champions.count())                   
print("Suma de los valores: ",serie_champions.sum())    
print("Serie acumulada de valores:\n",serie_champions.cumsum())  

print("\nÍndice del máximo valor: ",serie_champions.idxmax())     
print("Máximo valor: ",serie_champions.max())  
print("Mínimo valor acumulado: ",serie_champions.cummin()) 

print("\nMedia: ",serie_champions.mean())                      
print("Desviación estándar: ", serie_champions.std())                      
print("2 mayores valores: ",serie_champions.nlargest(2))  

print("\nCambio en porcentaje: ", serie_champions.pct_change())

La función `describe` devuelve un resumen descriptivo de los datos. Admite algunos parámetros, como por ejemplo los percentiles. 

In [None]:
equipos = {'España': 'Real Madrid', 'Inglaterra': 'Manchester', 'Italia': 'Milán','Francia': 'PSG', 'Alemania': 'Bayern Munich'}
serie_equipos = pd.Series(equipos)

champions = {'Real Madrid':13, 'Manchester United':3, 'Milán':7, 'Bayern Munich':5, 'PSG': 0}
serie_champions = pd.Series(champions)

print("Serie con valores numéricos:")
print(serie_champions.describe(percentiles=[0.2,0.4,0.6,0.8]),'\n')     # Resumen de los valores (datos numéricos) 

print("Serie con valores no numéricos:")
print(serie_equipos.describe(),'\n')                                    # Resumen de los valores (datos no numéricos)

Mediante la función `unique()` es posible determinar qué valores aparecen en la serie. Esta funcionalidad es especialmente  útil cuando los valores son categóricos.

In [None]:
europa_league = {'Real Madrid':2, 'Manchester United':1, 'Milán':0, 
                 'Bayern Munich':1, 'PSG': 0, 'Atlético de Madrid':2}
serie_europa_league = pd.Series(europa_league)

print(serie_europa_league,'\n')
                                
print("Valores distintos: ",serie_europa_league.unique())               
print("Número de valores distintos:", serie_europa_league.nunique())             
print("Veces que aparece cada valor:\n", serie_europa_league.value_counts())          

<div style="text-align: right">
<a href="#indice"><font size=5><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#004D7F"></i></font></a>
</div>

---


<a id="section35"></a> 
## <font color="#7F000E">Manipulación de series </font>
<br>

### <font color="#7F000E"> Eliminación de elementos </font>

Es posible eliminar elementos de la serie mediante la función `drop()`. Ésta recibe como argumento una clave.

In [None]:
champions = {'Real Madrid':13, 'Manchester United':3, 'Milán':7, 'Bayern Munich':5, 'PSG': 0}
serie_champions = pd.Series(champions)

serie_champions.drop('Real Madrid')
print(serie_champions)                    # ¡Imprime la serie original!

<div class="alert alert-block alert-danger">

<i class="fa fa-exclamation-triangle" aria-hidden="true"></i>
En el ejemplo anterior ___no___ se ha borrado la entrada correspondiente. La mayoría de operaciones, por defecto, __generan una copia__ de la serie.
</div>

In [None]:
serie_champions_borrada = serie_champions.drop('Real Madrid')
print(serie_champions_borrada)

El parámetro `inplace` indica que la operación se lleve a cabo sobre la propia serie. Por defecto, su valor es _False_.

In [None]:
serie_champions.drop('Real Madrid', inplace=True)
print(serie_champions)

### <font color="#7F000E"> Concatenación de series </font>

El método `append()` permite concatenar series. 

In [None]:
champions = {'Real Madrid':13, 'Manchester United':3, 'Milán':7, 'Bayern Munich':5, 'PSG': 0}
serie_champions = pd.Series(champions)

europa_league = {'Real Madrid':2, 'Manchester United':1, 'Milán':0, 'Bayern Munich':1, 'PSG': 0, 'Atlético de Madrid':3}
serie_europa_league = pd.Series(europa_league)

print(serie_champions.append(serie_europa_league))

<div class="alert alert-block alert-warning">
    
<i class="fa fa-exclamation-circle" aria-hidden="true"></i>
Se observa que en una serie puede haber dos elementos con el mismo índice. 
</div>

In [None]:
serie_champions_europa = serie_champions.append(serie_europa_league)
print(serie_champions_europa.loc['Real Madrid'])

#print(type(serie_champions_europa.loc['Real Madrid']))

### <font color="#7F000E">Sustitución de elementos </font>

El método `replace()` permite reemplazar valores. Admite como parámetro un diccionario, permitiendo así sustituir varios valores a la vez. Incluso es posible utilizar _expresiones regulares_ [(documentación)](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.replace.html).

In [None]:
champions = {'Real Madrid':13, 'Manchester United':3, 'Milán':7, 'Bayern Munich':5, 'PSG': 0, 'Atlético de Madrid':0}
serie_champions = pd.Series(champions)
print(serie_champions,'\n')
# Reemplaza un valor por otro
print(serie_champions.replace(0,'Nunca'),'\n')

In [None]:
equipos = {'España': 'Real Madrid', 'Inglaterra': 'Manchester United', 'Italia': 'Milán', 'Francia': 'PSG', 'Alemania': 'Bayern Munich'}
serie_equipos = pd.Series(equipos)

print(serie_equipos, '\n')
# Utiliza un diccionario para determinar los valores que se reemplazan y los nuevos valores. 
print(serie_equipos.replace({'Real Madrid':'Atlético de Madrid', 'Milán':'Juventus'}))

<div style="text-align: right">
<a href="#indice"><font size=5><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#7F000E"></i></font></a>
</div>

---

<a id="section36"></a> 
## <font color="#7F000E">Consulta y selección </font>
<br>

Además de las posibilidades que ofrece la indexación, existen algunas funciones que permiten llevar a cabo diversas operaciones de consulta y selección sobre `Series`.

### <font color="#7F000E" face="monospace"> head() / tail() </font>


La función `head()` muestra los primeros elementos de la serie; la función `tail()` los últimos.

In [None]:
champions = {'Real Madrid':12, 'Manchester United':3, 'Milán':7, 'Bayern Munich':5, 'PSG': 0}
serie_champions = pd.Series(champions)

print(serie_champions.head(3),'\n')                 # Devuelve los 3 primeros elementos. 
print(serie_champions.tail(2))                      # Devuelve los 2 últimos elementos. 

### <font color="#7F000E" face="monospace"> any() / all() </font>

Las funciones denominadas `any()` y `all()`  permiten determinar si uno o todos  (respectivamente) los valores de la serie, son distintos de `False` (o 0). 

In [None]:
champions = {'Real Madrid':13, 'Manchester United':3, 'Milán':7, 'Bayern Munich':5, 'PSG': 0}
serie_champions = pd.Series(champions)
print(serie_champions)
print()

print(serie_champions.any())
print(serie_champions.all(),'\n')

Estas funciones se utilizan a menudo junto a una condición. 

In [None]:
print(serie_champions>13,'\n')                      # Esta comparación genera una serie. 

print((serie_champions>13).any())                   # Se le puede aplicar la función any().

### <font color="#7F000E" face="monospace">isna()/isnull() y notna()/notnull() </font>

También existen las funciones `isna()/isnull()` y `notna()/notnull()` que permiten determinar qué elementos de la serie son `NaN` (o `None`, dependiendo del tipo de datos) o no lo son.

In [None]:
champions = {'Real Madrid':13, 'Manchester United':3, 'Milán':7, 'Bayern Munich':5, 'PSG': 0}
serie_champions = pd.Series(champions)
serie_champions['Real Madrid']=np.nan       # Muestra qué elementos son null o na.
print(serie_champions)
print()

print(serie_champions.isnull())
print()
print(serie_champions.notnull())

### <font color="#7F000E" face="monospace"> where() y mask() </font>

La función `where(condición)` devuelve una serie con los elementos que cumplen la condición, y en la que los elementos que __no__ cumplen la condición toman un valor predefinido. Por defecto, este valor es `NaN`, pero puede ser un escalar, o incluso el valor correspondiente en otra serie. 

In [None]:
serie_champions['Real Madrid']=13 
serie_champions['Atlético de Madrid']=0 
print(serie_champions)
print()
print(serie_champions.where((serie_champions >= 3)))
print()

In [None]:
print("Con un valor por defecto:")
print(serie_champions.where((serie_champions > 1),'Ninguna (todavía)'))

In [None]:
print("A los que tienen menos de 1 champions, les asigna el número de Europa League")
print(serie_champions.where((serie_champions >1), serie_europa_league))

<div class="alert alert-block alert-warning">

<i class="fa fa-exclamation-circle" aria-hidden="true"></i>
Además de la posibilidad de reemplazar los elementos que no cumplen la condición, la diferencia de esta función con la indexación condicional es que, esta última, solamente devuelve los elementos que cumplen la condición.
</div>

In [None]:
serie_champions[(serie_champions>3) & (serie_champions<12)]

La función `mask()` es parecida a la anterior, pero sustituye (enmascara) los elementos que cumplen la condición, y copia tal cual los elementos que __no__ la cumplen.

In [None]:
print("Con un valor por defecto:")
print(serie_champions.mask((serie_champions > 3), 'Demasiadas'))

### <font color="#7F000E" face="monospace"> filter() </font>

La función `filter()` permite filtrar elementos de la serie en función del valor del índice. Admite varios parámetros.

In [None]:
serie_champions.filter(items=['Milán'])       # Elementos cuyo índice es 'Milán'
#serie_champions.filter(like='Madrid')         # Elementos cuyo índice contiene 'Madrid'
#serie_champions.filter(regex=r'\w.* \w.*')     # Elementos que contienen la expresión regular (al menos dos palabras)

<div class="alert alert-block alert-warning">

<i class="fa fa-exclamation-circle" aria-hidden="true"></i> Existía una función parecida, denominada `select()` pero se ha eliminado de Pandas ( _Deprecated_ ).
</div>

<div style="text-align: right">
<a href="#indice"><font size=5><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#004D7F"></i></font></a>
</div>

---

<a id="section37"></a> 
## <font color="#7F000E">Vectorización </font>
<br>

Internamente, _Pandas_ utiliza _Numpy_ para almacenar los datos. Por tanto, algunas de las  peraciones que se pueden llevar sobre los objetos `Series` (y los `DataFrame` que se verán después) son vectorizadas. Esto supone un aumento importante en la eficiencia.

In [None]:
# Crea una serie de números aleatorios
serie = pd.Series(np.random.randint(0,1000,10000))
print(serie.shape)

En las celdas siguientes se calcula la suma de los elementos de la serie, sin, y con vectorización.

In [None]:
%%timeit -n 10 -r 7
suma = 0
for elem in serie:
    suma+=elem

In [None]:
%%timeit -n 10 
suma = serie.sum()
#suma = np.sum(serie)

En el siguiente ejemplo se compara el tiempo de ejecución de una suma con un escalar mediante un bucle, y mediante _Broadcast_. (En este caso, se inicializa la estructura en la misma linea de `timeit`, pero ese tiempo no se computa).

In [None]:
%%timeit -n 10 serie = pd.Series(np.random.randint(0,1000,1000))
for indice, valor in serie.iteritems():
    serie.loc[indice]= valor+2

In [None]:
%%timeit -n 10 serie = pd.Series(np.random.randint(0,1000,1000))
serie+=2

<div style="text-align: right">
<a href="#indice"><font size=5><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#004D7F"></i></font></a>
</div>

---

<a id="section4"></a>
# <font color="#7F000E"> 4. DataFrames</font>
<br>

Un `DataFrame` es una estructura _bidimensional_ de datos que se indexa por filas y columnas. Al igual que en una hoja de cálculo o una tabla SQL, cada columna puede almacenar datos de un tipo diferente, y es tratada como un objeto de tipo `Series`. 

In [3]:
# Lee el archivo, utiliza el campo ID como índice.
df_fifa = pd.read_csv('./data/fifa19.csv', index_col=0).set_index('ID')
# Muestra la cabecera
df_fifa.head()

Unnamed: 0_level_0,Name,Age,Photo,Nationality,Flag,Overall,Potential,Club,Club Logo,Value,...,Composure,Marking,StandingTackle,SlidingTackle,GKDiving,GKHandling,GKKicking,GKPositioning,GKReflexes,Release Clause
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
158023,L. Messi,31,https://cdn.sofifa.org/players/4/19/158023.png,Argentina,https://cdn.sofifa.org/flags/52.png,94,94,FC Barcelona,https://cdn.sofifa.org/teams/2/light/241.png,€110.5M,...,96.0,33.0,28.0,26.0,6.0,11.0,15.0,14.0,8.0,€226.5M
20801,Cristiano Ronaldo,33,https://cdn.sofifa.org/players/4/19/20801.png,Portugal,https://cdn.sofifa.org/flags/38.png,94,94,Juventus,https://cdn.sofifa.org/teams/2/light/45.png,€77M,...,95.0,28.0,31.0,23.0,7.0,11.0,15.0,14.0,11.0,€127.1M
190871,Neymar Jr,26,https://cdn.sofifa.org/players/4/19/190871.png,Brazil,https://cdn.sofifa.org/flags/54.png,92,93,Paris Saint-Germain,https://cdn.sofifa.org/teams/2/light/73.png,€118.5M,...,94.0,27.0,24.0,33.0,9.0,9.0,15.0,15.0,11.0,€228.1M
193080,De Gea,27,https://cdn.sofifa.org/players/4/19/193080.png,Spain,https://cdn.sofifa.org/flags/45.png,91,93,Manchester United,https://cdn.sofifa.org/teams/2/light/11.png,€72M,...,68.0,15.0,21.0,13.0,90.0,85.0,87.0,88.0,94.0,€138.6M
192985,K. De Bruyne,27,https://cdn.sofifa.org/players/4/19/192985.png,Belgium,https://cdn.sofifa.org/flags/7.png,91,92,Manchester City,https://cdn.sofifa.org/teams/2/light/10.png,€102M,...,88.0,68.0,58.0,51.0,15.0,13.0,5.0,10.0,13.0,€196.4M


In [None]:
nombres = df_fifa['Name']
print('\n',type(nombres))
print(nombres[:5])

<div style="text-align: right">
<a href="#indice"><font size=5><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#7F000E"></i></font></a>
</div>

---

<a id="section41"></a> 
## <font color="#7F000E">Estructura </font>
<br>

Un `DataFrame` está formado por tres componentes principales:

1. Los _datos_, almacenados en el campo `DataFrame.values`, que es un array _NumPy_.
2. El _índice_, almacenado en el campo `DataFrame.index`, y que permite indexar las filas.
3. El _índice de columnas_, almacenado en el campo `DataFrame.columns`. 

In [None]:
print('Valores (2 primeras filas)')
print(df_fifa.values[:2,:])
print(type(df_fifa.values))

print('\nÍndice:')
print(df_fifa.index)
print(type(df_fifa.index))

print('\nColumnas:')
print(df_fifa.columns)
print(type(df_fifa.columns))

#df_fifa.axes     # Índice y columnas (No se suele usar)

Es posible hacer algunas comprobaciones sobre los índices y columnas.

In [None]:
print(df_fifa.index.is_unique)
print(df_fifa.Age.is_unique)
#df_fifa.index.is_monotonic_increasing
#df_fifa.index.is_monotonic_decreasing
df_fifa.index.has_duplicates

Es posible acceder a muchas de las propiedades de la estructura de un `DataFrame`, como sus dimensiones, los tipos de datos de las columnas, o incluso la ocupación en memoria. 

In [None]:
print('Tamaño del conjunto de datos: {:d} filas, {:d} columnas.'.format(df_fifa.shape[0], df_fifa.shape[1]))
#print('Tamaño del conjunto de datos: {:d} filas, {:d} columnas.'.format(len(df_fifa.index), len(df_fifa.columns)))
#print('Número de filas del Dataframe: ', len(df_fifa))
print('Número de elementos almacenados: {:d}'.format(df_fifa.size))
print("\nTipo de datos de cada columna: \n", df_fifa.dtypes)
print("\nToda la información:\n")
print(df_fifa.info())

Incluso es posible acceder a información más detallada sobre el uso de memoria (por columnas) mediante `DataFrame.memory_usage()`.

In [None]:
df_fifa.memory_usage()

<div class="alert alert-block alert-info">

<i class="fa fa-info-circle" aria-hidden="true"></i>
&nbsp;  Aunque el uso de información a este nivel __excede el nivel de este tutorial__, sí que puede ser útil ocasionalmente si se hace necesario reducir el tamaño del `DataFrame` en memoria. Por ejemplo, el siguiente código convierte el tipo de datos de la columna `Age` a un entero de un byte, con la correspondiente disminución en el tamaño de la estructura. 
</div>

In [None]:
df_fifa['Age'] = df_fifa['Age'].astype(np.int8)
print(df_fifa.memory_usage())

Con respecto a los índices, tanto el propio índice como las columnas se representan con tipos de datos específicos que optimizan los accesos. Sin embargo, la colección de valores se representa internamente mediante un array _Numpy_ que es accesible a través del campo `values`. También se pueden convertir en listas mediante el método `tolist()`. 

In [None]:
print("Columnas")
print(df_fifa.columns)
print("\nArray interno (values): ")
print(df_fifa.columns.values)
print(type(df_fifa.columns.values))
print("\nComo lista:")

print(df_fifa.columns.tolist())
print(type(df_fifa.columns.tolist()))

<div style="text-align: right">
<a href="#indice"><font size=5><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#7F000E"></i></font></a>
</div>

---

<a id="section42"></a> 
## <font color="#7F000E">Lectura / escritura de DataFrames </font>
<br>

_Pandas_ proporciona funciones muy flexibles que permiten leer objetos `DataFrame` desde diversas fuentes de datos, como archivos csv, excel, JSON, HDF5, HTML, fuentes SQL, o incluso el portapapeles del sistema ([documentación](http://pandas.pydata.org/pandas-docs/version/0.20/io.html)). 

A continuación se describen los métodos que se utilizarán con más frecuencia en este curso.



### <font color="#7F000E">  Lectura y escritura de archivos en formato csv (_comma separated values_) </font>

Se lleva a cabo mediante la función `read_csv()`. El parámetro `index_col` permite especificar si alguna de las columnas ha de ser utilizada como índice del `DataFrame`. Esta función acepta otros muchos parámetros, que permiten por ejemplo:
* descartar líneas (`skiprows`)
* elegir el separador entre columnas (`sep`)
* especificar el nombre de cada columna (`names`)
* especificar el tipo de datos de cada columna (`dtype`)
* especificar qué valores se considerarán perdidos (`na_values`)
* especificar el caracter con el que se delimitan cadenas de texto (`quotechar`)
* etc.

Además, puede acceder a la fuente de datos a través de una URL ([documentación](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html)).

In [7]:
#df_titanic = pd.read_csv('data/Titanic.csv', index_col=0, sep=',')
#df = pd.read_csv('https://vincentarelbundock.github.io/Rdatasets/csv/datasets/Titanic.csv', index_col=0)
df_titanic = pd.read_csv('data/Titanic.csv', sep=',', skiprows=1, index_col=1,
                         names=['ID','Nombre','Clase','Edad','Sexo','Superviviente','Código (Sexo)'])
df_titanic.head()

Unnamed: 0_level_0,ID,Clase,Edad,Sexo,Superviviente,Código (Sexo)
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
"Allen, Miss Elisabeth Walton",1,1st,29.0,female,1,1
"Allison, Miss Helen Loraine",2,1st,2.0,female,0,1
"Allison, Mr Hudson Joshua Creighton",3,1st,30.0,male,0,0
"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",4,1st,25.0,female,0,1
"Allison, Master Hudson Trevor",5,1st,0.92,male,1,0


La escritura se lleva a cabo mediante la función `to_csv()`. Ésta acepta parámetros relativos al contenido:`header` o `index` para escribir los nombres de columnas o filas, `na_rep` para representación de los valores perdidos, etc. También acepta un parámetro denominado `encoding`, para establecer la codificación de los caracteres [(documentación)](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_csv.html).

<div class="alert alert-block alert-info">

<i class="fa fa-info-circle" aria-hidden="true"></i>
Ambos métodos admiten un parámetro, denominado `compress` que permite leer/escribir directamente desde archivos comprimidos (más lento).
</div>

In [None]:
df_titanic.to_csv('data/Titanic.zip', sep=';', header=True, encoding='utf-8', compression='gzip')

---
### <font color="#7F000E">  Lectura y escritura de archivos en formato excel </font>

Se hace mediante la función `read_excel()`. Al igual que la anterior, permite especificar numerosos parámetros como la hoja concreta del archivo (`sheet_name`), tipos de datos, etc ([documentación](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_excel.html)). También es posible exportar un `DataFrame` a formato Excel mediante la función `to_excel()` [(documentación)]( https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_excel.html).

In [8]:
df_titanic = pd.read_excel('data/Titanic.xls', sheet_name='Hoja1', skiprows=0, index_col=0,names=['ID','Nombre','Clase','Edad','Sexo','Superviviente','Código (Sexo)'])
df_titanic.head()

Unnamed: 0_level_0,Nombre,Clase,Edad,Sexo,Superviviente,Código (Sexo)
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
2,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
3,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
4,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1
5,"Allison, Master Hudson Trevor",1st,0.92,male,1,0


<div class="alert alert-block alert-danger">

<i class="fa fa-exclamation-triangle" aria-hidden="true"></i>
 Para trabajar con excel es necesario instalar el paquete `xlrd`.
</div>

In [9]:
!pip install xlrd



Existen objetos, denominados `pd.ExcelFile` y `pd.ExcelWriter` que permiten leer y escribir, respectivamente, archivos Excel. Su funcionalidad es similar a la de los métodos descritos anteriormente. 

In [10]:
excel_titanic = pd.ExcelFile('data/Titanic.xls')
print("Hojas: ", excel_titanic.sheet_names)

df_titanic = excel_titanic.parse('Hoja1', names=['ID','Name','PClass','Age','Sex','Survived','SexCode)'], index_col=1)
df_titanic.head()

Hojas:  ['Hoja1']


Unnamed: 0_level_0,ID,PClass,Age,Sex,Survived,SexCode)
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
"Allen, Miss Elisabeth Walton",1,1st,29.0,female,1,1
"Allison, Miss Helen Loraine",2,1st,2.0,female,0,1
"Allison, Mr Hudson Joshua Creighton",3,1st,30.0,male,0,0
"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",4,1st,25.0,female,0,1
"Allison, Master Hudson Trevor",5,1st,0.92,male,1,0


### <font color="#7F000E">  Lectura y escritura de archivos en formato JSON </font>

La función `read_json()` permite leer un `DataFrame` a partir de un conjunto de datos en formato JSON. También acepta como parámetro un `String`. El formato del objeto JSON ha de ajustarse al del `DataFrame`, y puede ser indicado a través del parámetro `orient` que, en este caso, además de `columns` e `index`, puede tomar los valores `split`, `records`, `index`, `columns` y `values` ([documentación](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_json.html)). 

In [11]:
url = 'http://raw.githubusercontent.com/chrisalbon/simulated_datasets/master/data.json'
df_json = pd.read_json(url, orient='records')
df_json.head(5)

Unnamed: 0,integer,datetime,category
0,5,2015-01-01 00:00:00,0
1,5,2015-01-01 00:00:01,0
2,9,2015-01-01 00:00:02,0
3,6,2015-01-01 00:00:03,0
4,6,2015-01-01 00:00:04,0


La función `to_json()` permite exportar el `DataFrame` a un String con formato JSON. También admite el parámetro `orient`.

In [12]:
import json

json_titanic = json.loads(df_titanic.head().to_json(orient='columns'))
#json_titanic = json.loads(df_titanic.head().to_json(orient='split'))
#json_titanic = json.loads(df_titanic.head(2).to_json(orient='records'))
json_titanic

#json_titanic = json.loads(df_titanic.head().to_json(orient='table'))
#json_titanic['data'][1]['index']

{'ID': {'Allen, Miss Elisabeth Walton': 1,
  'Allison, Miss Helen Loraine': 2,
  'Allison, Mr Hudson Joshua Creighton': 3,
  'Allison, Mrs Hudson JC (Bessie Waldo Daniels)': 4,
  'Allison, Master Hudson Trevor': 5},
 'PClass': {'Allen, Miss Elisabeth Walton': '1st',
  'Allison, Miss Helen Loraine': '1st',
  'Allison, Mr Hudson Joshua Creighton': '1st',
  'Allison, Mrs Hudson JC (Bessie Waldo Daniels)': '1st',
  'Allison, Master Hudson Trevor': '1st'},
 'Age': {'Allen, Miss Elisabeth Walton': 29.0,
  'Allison, Miss Helen Loraine': 2.0,
  'Allison, Mr Hudson Joshua Creighton': 30.0,
  'Allison, Mrs Hudson JC (Bessie Waldo Daniels)': 25.0,
  'Allison, Master Hudson Trevor': 0.92},
 'Sex': {'Allen, Miss Elisabeth Walton': 'female',
  'Allison, Miss Helen Loraine': 'female',
  'Allison, Mr Hudson Joshua Creighton': 'male',
  'Allison, Mrs Hudson JC (Bessie Waldo Daniels)': 'female',
  'Allison, Master Hudson Trevor': 'male'},
 'Survived': {'Allen, Miss Elisabeth Walton': 1,
  'Allison, Miss

### <font color="#7F000E">  Lectura y escritura sobre bases de datos SQL</font>

Pandas proporciona métodos para leer y escribir `DataFrame` en bases de datos SQL. En todos ellos es necesario proporcionar una conexión a la base de datos. 

El método `read_sql_table` lee una tabla de una base de datos (necesita una conexión) y la almacena en un `DataFrame`.

In [13]:
from sqlalchemy import create_engine

# Crea una conexión a una base de datos sqlite
engine = create_engine('sqlite:///data/deportes.db')   

# Lee la tabla
df_persona = pd.read_sql_table("persona", engine, index_col="id")
df_persona

Unnamed: 0_level_0,Apellido,Nombre
id,Unnamed: 1_level_1,Unnamed: 2_level_1
1,Felix,Joao
2,Nadal,Rafael
3,Gasol,Pau
4,Godín,Diego
5,Llul,Sergio
6,Ñíguez,Saúl


La función `read_sql_query` permite hacer consultas sobre la base de datos y almacenar el resultado en un _DataFrame_.

In [14]:
query = r'SELECT p.ID, p.Apellido, p.Nombre, e.Equipo, e.Deporte FROM persona p, equipo e WHERE p.ID == e.ID'

df_persona_equipo = pd.read_sql_query(query, engine, index_col="id")
df_persona_equipo

Unnamed: 0_level_0,Apellido,Nombre,Equipo,Deporte
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,Felix,Joao,At. Madrid,Fútbol
3,Gasol,Pau,Porland,Baloncesto
4,Godín,Diego,Int. Milán,Fútbol
5,Llul,Sergio,R. Madrid,Baloncesto


<div class="alert alert-block alert-info">
    
<i class="fa fa-info-circle" aria-hidden="true"></i> La función `read_sql` llama a una u otra según los parámetros.
</div>

In [16]:
#pd.read_sql("persona", engine, index_col="id")
pd.read_sql(query, engine, index_col="id")

Unnamed: 0_level_0,Apellido,Nombre,Equipo,Deporte
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,Felix,Joao,At. Madrid,Fútbol
3,Gasol,Pau,Porland,Baloncesto
4,Godín,Diego,Int. Milán,Fútbol
5,Llul,Sergio,R. Madrid,Baloncesto


<div class="alert alert-block alert-info">
    
<i class="fa fa-info-circle" aria-hidden="true"></i> Existen módulos que permiten trabajar directamente con algunos tipos de bases de datos.
</div>

In [17]:
import sqlite3 # Bases de datos sqlite
conn = sqlite3.connect("data/deportes.db")
df_persona_equipo = pd.read_sql_query(query, conn, index_col="id")
conn.close()

df_persona_equipo

Unnamed: 0_level_0,Apellido,Nombre,Equipo,Deporte
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,Felix,Joao,At. Madrid,Fútbol
3,Gasol,Pau,Porland,Baloncesto
4,Godín,Diego,Int. Milán,Fútbol
5,Llul,Sergio,R. Madrid,Baloncesto


La función `to_sql` permite almacenar `DataFrame` en tablas SQL.

In [18]:
engine = create_engine('sqlite:///data/titanic.db')    # Lee de una base de datos sqlite

#df_titanic.to_sql('titanic', con=engine) # Da error si el archivo existe ya.

<div style="text-align: right">
<a href="#indice"><font size=5><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#7F000E"></i></font></a>
</div>

---

<a id="section43"></a> 
## <font color="#7F000E">Construcción de DataFrames </font>
<br>

Existen _múltiples formas_ de crear un objeto `DataFrame` a partir de otros objetos como colecciones, diccionarios, series, etc. Éstas son útiles, por ejemplo,  a la hora de construir el `DataFrame` a partir de datos procedentes de fuentes heterogéneas. 

### <font color="#7F000E"> Construcción a partir de una lista o colección</font>

Se hace mediante el método `DataFrame.from_records()`. Cada elemento de la lista representa una fila. Si no se proporcionan las columnas e índice, en ambos casos se utilizan enteros.

In [20]:
import numpy as np
ventas = [('Álvaro', 22.5, 'Queso'),
         ('Benito', 14.5, 'Vino'),
         ('Fernando', 50, 'Jamón'),
         ('Martín', 20.0, 'Aceite'),
         ('Hernán',np.NaN, 'Azafrán')]

columnas = ['Nombre', 'Precio', 'Producto']
indice =['Tienda 1', 'Tienda 1', 'Tienda 2', 'Tienda 3','Tienda 3']

df_ventas = pd.DataFrame.from_records(ventas, columns=columnas, index=indice)
df_ventas

Unnamed: 0,Nombre,Precio,Producto
Tienda 1,Álvaro,22.5,Queso
Tienda 1,Benito,14.5,Vino
Tienda 2,Fernando,50.0,Jamón
Tienda 3,Martín,20.0,Aceite
Tienda 3,Hernán,,Azafrán


Este método se encapsula dentro del constructor general.

In [21]:
ventas = [('Álvaro', 22.5, 'Queso'),
         ('Benito', 14.5, 'Vino'),
         ('Fernando', 50, 'Jamón'),
         ('Martín', 20.0, 'Aceite'),
         ('Hernán',np.NaN, 'Azafrán')]

columnas = ['Nombre', 'Precio', 'Producto']
indice =['Tienda 1', 'Tienda 1', 'Tienda 2', 'Tienda 3','Tienda 3']

df_ventas = pd.DataFrame(ventas, index=indice, columns=columnas)
df_ventas

Unnamed: 0,Nombre,Precio,Producto
Tienda 1,Álvaro,22.5,Queso
Tienda 1,Benito,14.5,Vino
Tienda 2,Fernando,50.0,Jamón
Tienda 3,Martín,20.0,Aceite
Tienda 3,Hernán,,Azafrán


### <font color="#7F000E"> Construcción a partir de diccionarios </font>

La función `DataFrame.from_dict()`  construye un `DataFrame` a partir de un diccionario. Mediante el parámetro `orient`, permite especificar si las claves corresponden a las columnas o al índice, es decir, a las filas. 

In [24]:
ventas = {'Nombre': ['Álvaro', 'Benito', 'Fernando','Martín','Hernán'],
          'Precio': [22.5, 14.5, 50.0, 20.0, np.NaN],
          'Producto':['Queso', 'Vino', 'Jamón', 'Aceite','Azafrán']}

df_ventas = pd.DataFrame.from_dict(ventas, orient="index")
#df_ventas = pd.DataFrame.from_dict(ventas, orient="columns")
df_ventas

Unnamed: 0,0,1,2,3,4
Nombre,Álvaro,Benito,Fernando,Martín,Hernán
Precio,22.5,14.5,50,20,
Producto,Queso,Vino,Jamón,Aceite,Azafrán


<div class="alert alert-block alert-info">

<i class="fa fa-info-circle" aria-hidden="true"></i>
De igual manera, el método `to_dict` permite exportar un _DataFrame_ a un diccionario.
</div>

El constructor acepta directamente un diccionario con el formato anterior (es equivalente a `from_dict(orient="columns")`.

In [25]:
df_compras = pd.DataFrame(ventas, index=indice, columns=columnas)
df_compras

Unnamed: 0,Nombre,Precio,Producto
Tienda 1,Álvaro,22.5,Queso
Tienda 1,Benito,14.5,Vino
Tienda 2,Fernando,50.0,Jamón
Tienda 3,Martín,20.0,Aceite
Tienda 3,Hernán,,Azafrán


Aunque lo ___recomendable es utilizar las dos funciones descritas anteriormente___, la construcción de `DataFrame` es muy versátil, y acepta multitud de opciones que, en alguna ocasión, pueden ser útiles. En este ejemplo, cada uno de los diccionarios representa una fila del `DataFrame`. Las claves representan el nombre de la columna, y los valores el valor correspondiente de la columna para la fila. 

In [26]:
compra_1 =  {'Nombre': 'Álvaro', 'Producto': 'Queso', 'Precio': 22.50}
compra_2 =  {'Nombre': 'Benito', 'Producto': 'Vino', 'Precio': 14.50}
compra_3 =  {'Nombre': 'Fernando','Producto': 'Jamón', 'Precio': 50.00}
compra_4 =  {'Nombre': 'Martín', 'Producto': 'Aceite', 'Precio': 20.00}
compra_5 =  {'Nombre': 'Hernán', 'Producto': 'Azafrán'} # Deja a NaN los campos para los que no se proporciona valor.

df_compras = pd.DataFrame([compra_1, compra_2, compra_3, compra_4, compra_5], 
                          index=['Tienda 1', 'Tienda 1', 'Tienda 2', 'Tienda 3', 'Tienda 3'])
df_compras

Unnamed: 0,Nombre,Producto,Precio
Tienda 1,Álvaro,Queso,22.5
Tienda 1,Benito,Vino,14.5
Tienda 2,Fernando,Jamón,50.0
Tienda 3,Martín,Aceite,20.0
Tienda 3,Hernán,Azafrán,


<div style="text-align: right">
<a href="#indice"><font size=5><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#7F000E"></i></font></a>
</div>

---


<a id="section44"></a> 
## <font color="#7F000E"> Acceso a elementos </font>
<br>

Para ilustrar el acceso a los elementos, se utilizará este  `DataFrame`, descrito anteriormente.

In [27]:
ventas = [('Álvaro', 'Queso', 15.0, 22.5),
         ('Benito',  'Vino', 10.0, 14.5),
         ('Fernando', 'Jamón', 35, 50),
         ('Martín',  'Aceite', 12, 20),
         ('Hernán', 'Azafrán', np.NaN, np.NaN)]

columnas = ['Nombre', 'Producto', 'Compra', 'Venta']
indice =['Tienda 1', 'Tienda 1', 'Tienda 2', 'Tienda 3','Tienda 3']

df = pd.DataFrame(ventas, index=indice, columns=columnas)
df

Unnamed: 0,Nombre,Producto,Compra,Venta
Tienda 1,Álvaro,Queso,15.0,22.5
Tienda 1,Benito,Vino,10.0,14.5
Tienda 2,Fernando,Jamón,35.0,50.0
Tienda 3,Martín,Aceite,12.0,20.0
Tienda 3,Hernán,Azafrán,,


###  <font color="#7F000E"> Acceso a las filas de un DataFrame </font>

Del mismo modo que en los objetos `Series`, el acceso a las filas del `DataFrame` se hace mediante los métodos `loc[]` e `iloc[]` (también `at[]` e `iat[]`). Si el índice corresponde a una sola fila, estos devuelven un objeto de tipo `Series`; sin embargo, si el índice corresponde a varias filas, devuelven otro `Dataframe`.

In [28]:
fila = df.loc['Tienda 2']               # Accede a la fila con índice 'Tienda 2'
print(fila)
print(type(fila),'\n')                  # Imprime el tipo.

filas = df.loc['Tienda 1']              # Accede a las filas con índice 'Tienda 1'
print(filas)
print(type(filas),'\n')

filas = df.iloc[0]                      # Accede a la fila en la posición 0.
print(filas)
print(type(filas))

Nombre      Fernando
Producto       Jamón
Compra            35
Venta             50
Name: Tienda 2, dtype: object
<class 'pandas.core.series.Series'> 

          Nombre Producto  Compra  Venta
Tienda 1  Álvaro    Queso    15.0   22.5
Tienda 1  Benito     Vino    10.0   14.5
<class 'pandas.core.frame.DataFrame'> 

Nombre      Álvaro
Producto     Queso
Compra          15
Venta         22.5
Name: Tienda 1, dtype: object
<class 'pandas.core.series.Series'>


La funcionalidad de ambos métodos también es similar a la descrita en el caso de las `Series`. Es decir, aceptan indexación a partir de colecciones del tipo del índice o booleanos (en el caso de `loc[]`), y de enteros (en el caso de `iloc[]`).

In [29]:
print(df.loc[['Tienda 2','Tienda 1']])      
print()

print(df.loc['Tienda 2':])
print()

print(df.iloc[[0,3]])

            Nombre Producto  Compra  Venta
Tienda 2  Fernando    Jamón    35.0   50.0
Tienda 1    Álvaro    Queso    15.0   22.5
Tienda 1    Benito     Vino    10.0   14.5

            Nombre Producto  Compra  Venta
Tienda 2  Fernando    Jamón    35.0   50.0
Tienda 3    Martín   Aceite    12.0   20.0
Tienda 3    Hernán  Azafrán     NaN    NaN

          Nombre Producto  Compra  Venta
Tienda 1  Álvaro    Queso    15.0   22.5
Tienda 3  Martín   Aceite    12.0   20.0


<div class="alert alert-block alert-info">
    
<i class="fa fa-info-circle" aria-hidden="true"></i> Los índices de cada tipo ofrecen funcionalidades específicas. Por ejemplo, en el caso de índices alfanuméricos, se puede hacer _slicing_ lexicográfico sin necesidad de especificar los valores concretos de los elementos.
</div>

In [30]:
df_titanic = df_titanic.sort_index()
df_titanic.loc['Ae':'Al']

Unnamed: 0_level_0,ID,PClass,Age,Sex,Survived,SexCode)
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
"Ahlin, Mrs Johanna Persdotter",613,3rd,40.0,female,0,1
"Ahmed, Mr Ali",614,3rd,24.0,male,0,0
"Aijo-Nirva, Mr Isak",615,3rd,41.0,male,0,0
"Aks, Master Philip",617,3rd,0.83,male,1,0
"Aks, Mrs Sam (Leah Rosen)",616,3rd,18.0,female,1,1


El método `DataFrame.iterrows()` permite iterar sobre las filas de un _DataFrame_.

In [31]:
for idx, row in df.iterrows():           
    print(idx, end=' --> ')                        
    print(row['Producto'])

Tienda 1 --> Queso
Tienda 1 --> Vino
Tienda 2 --> Jamón
Tienda 3 --> Aceite
Tienda 3 --> Azafrán


El método `DataFrame.iteritems()` itera sobre las columnas.  Devuelve tuplas en las que el primer elemento es el nombre y el segundo la serie correspondiente.

In [32]:
for row in df.iteritems(): 
    print(row)
    print('---->')

('Nombre', Tienda 1      Álvaro
Tienda 1      Benito
Tienda 2    Fernando
Tienda 3      Martín
Tienda 3      Hernán
Name: Nombre, dtype: object)
---->
('Producto', Tienda 1      Queso
Tienda 1       Vino
Tienda 2      Jamón
Tienda 3     Aceite
Tienda 3    Azafrán
Name: Producto, dtype: object)
---->
('Compra', Tienda 1    15.0
Tienda 1    10.0
Tienda 2    35.0
Tienda 3    12.0
Tienda 3     NaN
Name: Compra, dtype: float64)
---->
('Venta', Tienda 1    22.5
Tienda 1    14.5
Tienda 2    50.0
Tienda 3    20.0
Tienda 3     NaN
Name: Venta, dtype: float64)
---->


---

###  <font color="#7F000E"> Acceso a las columnas de un DataFrame </font>

Se puede acceder a los elementos de una columna (o varias) mediante el operador `[]`. También se devuelve un objeto de tipo `Series` o `DataFrame` según se accedan, respectivamente, una o varias columnas.

In [33]:
productos = df['Producto']
productos

Tienda 1      Queso
Tienda 1       Vino
Tienda 2      Jamón
Tienda 3     Aceite
Tienda 3    Azafrán
Name: Producto, dtype: object

Por defecto, el acceso a una columna devuelve una serie. Si se utilizan dobles corchetes, devuelve un `DataFrame`.

In [34]:
productos = df[['Producto']]
productos

Unnamed: 0,Producto
Tienda 1,Queso
Tienda 1,Vino
Tienda 2,Jamón
Tienda 3,Aceite
Tienda 3,Azafrán


In [37]:
columnas = ['Producto','Compra','Venta']
productos_coste = df[columnas]
#productos_coste = df[['Producto','Compra','Venta']]   # Equivalente 
productos_coste

Unnamed: 0,Producto,Compra,Venta
Tienda 1,Queso,15.0,22.5
Tienda 1,Vino,10.0,14.5
Tienda 2,Jamón,35.0,50.0
Tienda 3,Aceite,12.0,20.0
Tienda 3,Azafrán,,


<div class="alert alert-block alert-danger">
    
<i class="fa fa-exclamation-triangle" aria-hidden="true"></i>
Un error muy común a la hora de acceder a varias columnas consiste en utilizar como argumentos los nombres de las columnas separados por comas, en lugar de ___una colección___ con los nombres de las columnas.
</div>

In [38]:
# productos_coste = df['Producto','Compra','Venta']   # Devuelve error.

Las columnas puden accederse individualmente como un campo del objeto `DataFrame`.

In [39]:
productos = df.Producto          # Es equivalente a  df['Producto']
print(productos)
type(df.Producto)

Tienda 1      Queso
Tienda 1       Vino
Tienda 2      Jamón
Tienda 3     Aceite
Tienda 3    Azafrán
Name: Producto, dtype: object


pandas.core.series.Series

<div class="alert alert-block alert-warning">

<i class="fa fa-exclamation-circle" aria-hidden="true"></i>
Por legibilidad del código, es preferible no hacerlo.
</div>

####  <font color="#7F000E"> Acceso a las columnas en función de su tipo </font>

En muchos casos, es interesante seleccionar las columnas cuyos elementos son de un tipo determinado.  Por ejemplo, la siguiente celda accede a las columnas numéricas. 

In [40]:
df._get_numeric_data()

Unnamed: 0,Compra,Venta
Tienda 1,15.0,22.5
Tienda 1,10.0,14.5
Tienda 2,35.0,50.0
Tienda 3,12.0,20.0
Tienda 3,,


La función `DataFrame.select_dtypes()` ofrece mucha versatilidad, y permite determinar las columnas de qué tipos se incluyen (parámetro `include`) y qué tipos se excluyen (parámetro `exclude`). Se pueden utilizar tanto Strings como tipos de datos implementados en _Numpy_. 

In [41]:
display(df_titanic.head(5))
print()

df_titanic.select_dtypes(include='number', exclude=np.float64).head(5)

Unnamed: 0_level_0,ID,PClass,Age,Sex,Survived,SexCode)
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
"Abbing, Mr Anthony",603,3rd,42.0,male,0,0
"Abbott, Master Eugene Joseph",604,3rd,13.0,male,0,0
"Abbott, Mr Rossmore Edward",605,3rd,16.0,male,0,0
"Abbott, Mrs Stanton (Rosa)",606,3rd,35.0,female,1,1
"Abelseth, Miss Anna Karen",607,3rd,16.0,female,1,1





Unnamed: 0_level_0,ID,Survived,SexCode)
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
"Abbing, Mr Anthony",603,0,0
"Abbott, Master Eugene Joseph",604,0,0
"Abbott, Mr Rossmore Edward",605,0,0
"Abbott, Mrs Stanton (Rosa)",606,1,1
"Abelseth, Miss Anna Karen",607,1,1


<div class="alert alert-block alert-warning">
    
<i class="fa fa-exclamation-circle" aria-hidden="true"></i>
__Importante__: Hay un mundo en relación a los tipos de datos en _Numpy_, pero para el usuario de _Pandas_ o las librerías que se verán en el curso (para la inmensa mayoría de los profesionales) raramente se ha de recurrir a esta información [(documentación)](https://docs.scipy.org/doc/numpy/reference/arrays.scalars.html).
</div>

---
### <font color="#7F000E"> Acceso a elementos del DataFrame. </font>

Con `loc` se puede acceder también a los elementos dados el valor (o valores) de su índice y columna. No se recomienda utilizar la segunda de las alternativas que se proponen a continuación, ya que puede dar lugar a comportamientos inesperados (particularmente en escrituras).

In [44]:
print(df.loc[['Tienda 2','Tienda 1'],'Producto'])
print()

print(df.loc[['Tienda 2','Tienda 1']]['Producto'])
print()

print(df.loc[['Tienda 2','Tienda 1'],['Producto','Compra','Venta']])
print()

print(df.iloc[0:3,0:2]) 

Tienda 2    Jamón
Tienda 1    Queso
Tienda 1     Vino
Name: Producto, dtype: object

Tienda 2    Jamón
Tienda 1    Queso
Tienda 1     Vino
Name: Producto, dtype: object

         Producto  Compra  Venta
Tienda 2    Jamón    35.0   50.0
Tienda 1    Queso    15.0   22.5
Tienda 1     Vino    10.0   14.5

            Nombre Producto
Tienda 1    Álvaro    Queso
Tienda 1    Benito     Vino
Tienda 2  Fernando    Jamón


<div class="alert alert-block alert-info">

<i class="fa fa-info-circle" aria-hidden="true"></i> Como se comentó anteriormente, el método `at` es equivalente a `loc`, (e `iat` a `iloc`) con la salvedad de que `at` e `iat` __solamente aceptan escalares como índice__. Debido a esto, también son más eficientes. 
</div>

In [45]:
fila = df.at['Tienda 1','Producto']            
print(fila,'\n')

fila = df.iat[2,1]            
print(fila)

Tienda 1    Queso
Tienda 1     Vino
Name: Producto, dtype: object 

Jamón


---
### <font color="#7F000E"> Escritura en elementos del DataFrame. </font>

El acceso de para escritura es similar del acceso para lectura. Cuando se escriben varias posiciones, las dimensiones de los conjuntos de elementos a ambos lados de la asignación han de ser similares (salvo en el caso en que se asignen escalares).

In [46]:
df

Unnamed: 0,Nombre,Producto,Compra,Venta
Tienda 1,Álvaro,Queso,15.0,22.5
Tienda 1,Benito,Vino,10.0,14.5
Tienda 2,Fernando,Jamón,35.0,50.0
Tienda 3,Martín,Aceite,12.0,20.0
Tienda 3,Hernán,Azafrán,,


Este código asigna un escalar a varias posiciones.

In [47]:
df.loc[['Tienda 1','Tienda 3'],'Venta']=100
df

Unnamed: 0,Nombre,Producto,Compra,Venta
Tienda 1,Álvaro,Queso,15.0,100.0
Tienda 1,Benito,Vino,10.0,100.0
Tienda 2,Fernando,Jamón,35.0,50.0
Tienda 3,Martín,Aceite,12.0,100.0
Tienda 3,Hernán,Azafrán,,100.0


Restaura los valores una colección de valores (los tamaños de las estructuras de datos a izquierda y derecha de la asignación deben coincidir).

In [50]:
df.loc[['Tienda 1','Tienda 3'],'Venta']=[22, 14.5, 0, 0]
df

Unnamed: 0,Nombre,Producto,Compra,Venta
Tienda 1,Álvaro,Queso,15.0,22.0
Tienda 1,Benito,Vino,10.0,14.5
Tienda 2,Fernando,Jamón,35.0,50.0
Tienda 3,Martín,Aceite,12.0,0.0
Tienda 3,Hernán,Azafrán,,0.0


También se puede escribir el valor de columnas completas. Al igual que anteriormente, han de coindidir los tamaños.

In [51]:
df['Producto'] = ['Queso manchego', 'Vino manchego', 
                  'Jamón Extremeño', 'Aceite Andaluz', 'Azafrán manchego']
df

Unnamed: 0,Nombre,Producto,Compra,Venta
Tienda 1,Álvaro,Queso manchego,15.0,22.0
Tienda 1,Benito,Vino manchego,10.0,14.5
Tienda 2,Fernando,Jamón Extremeño,35.0,50.0
Tienda 3,Martín,Aceite Andaluz,12.0,0.0
Tienda 3,Hernán,Azafrán manchego,,0.0


<div style="text-align: right">
<a href="#indice"><font size=5><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#004D7F"></i></font></a>
</div>

---

<a id="section45"></a> 
## <font color="#7F000E">Manipulación de la estructura</font>
<br>

### <font color="#7F000E"> Cambio de índice </font>

El índice se puede cambiar mediante la función `set_index`.  Esta función genera un nuevo _DataFrame_, salvo que explícitamente se indique lo contrario mediante el atributo `inplace`.

En la siguiente celda se copia el _DataFrame_ original para conservarlo y poder visualizar mejor los resultados de las distintas operaciones. 

In [52]:
df_copia = df.copy()
df_copia.set_index('Nombre', inplace=True)
df_copia.head()

Unnamed: 0_level_0,Producto,Compra,Venta
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Álvaro,Queso manchego,15.0,22.0
Benito,Vino manchego,10.0,14.5
Fernando,Jamón Extremeño,35.0,50.0
Martín,Aceite Andaluz,12.0,0.0
Hernán,Azafrán manchego,,0.0


La función `reindex` recibe un índice y lo utiliza para indexar el `DataFrame`. Las filas cuyo índice no aparece en el nuevo índice son descartadas, mientras que se crean filas para aquellos valores del nuevo índice que no existían en el índice anterior. El indice original ha de contener valores únicos. 

In [53]:
df_copia.reindex(index=['Álvaro', 'Diego','Hernán','Diego'])

Unnamed: 0_level_0,Producto,Compra,Venta
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Álvaro,Queso manchego,15.0,22.0
Diego,,,
Hernán,Azafrán manchego,,0.0
Diego,,,


### <font color="#7F000E"> Creación de nuevas columnas </font>


Cuando se asignan valores a una columna no existente, se crea ésta automáticamente. Si el valor es una colección, asigna uno por uno, según el orden del índice, los elementos. El tamaño de la colección ha de coincidir con el número de filas del `DataFrame`.

<div class="alert alert-block alert-warning">
    
<i class="fa fa-exclamation-circle" aria-hidden="true"></i>
En este ejemplo se usan datos _categóricos_. Es decir, se definen unas categorías predeterminadas. Esto se verá más detalle más adelante. 
</div>

In [54]:
df['C.P'] = pd.Categorical(['02001', '02001', '02003', '02004','02004'])
df

Unnamed: 0,Nombre,Producto,Compra,Venta,C.P
Tienda 1,Álvaro,Queso manchego,15.0,22.0,2001
Tienda 1,Benito,Vino manchego,10.0,14.5,2001
Tienda 2,Fernando,Jamón Extremeño,35.0,50.0,2003
Tienda 3,Martín,Aceite Andaluz,12.0,0.0,2004
Tienda 3,Hernán,Azafrán manchego,,0.0,2004


También se puede añadir una columna y fijar los elementos en todas las filas a un valor determinado.

In [55]:
df['Localidad'] = 'Madrid'
df

Unnamed: 0,Nombre,Producto,Compra,Venta,C.P,Localidad
Tienda 1,Álvaro,Queso manchego,15.0,22.0,2001,Madrid
Tienda 1,Benito,Vino manchego,10.0,14.5,2001,Madrid
Tienda 2,Fernando,Jamón Extremeño,35.0,50.0,2003,Madrid
Tienda 3,Martín,Aceite Andaluz,12.0,0.0,2004,Madrid
Tienda 3,Hernán,Azafrán manchego,,0.0,2004,Madrid


Se pueden añadir valores a algunas filas solamente mediante un diccionario en el que las claves corresponden al índice, dejando el resto con valor indeterminado o NaN.

In [56]:
df['Entregado'] = pd.Series({'Tienda 1': True, 'Tienda 2': True})
df

Unnamed: 0,Nombre,Producto,Compra,Venta,C.P,Localidad,Entregado
Tienda 1,Álvaro,Queso manchego,15.0,22.0,2001,Madrid,True
Tienda 1,Benito,Vino manchego,10.0,14.5,2001,Madrid,True
Tienda 2,Fernando,Jamón Extremeño,35.0,50.0,2003,Madrid,True
Tienda 3,Martín,Aceite Andaluz,12.0,0.0,2004,Madrid,
Tienda 3,Hernán,Azafrán manchego,,0.0,2004,Madrid,


Existe una función, denominada `assign` que permite copiar un `DataFrame` y crear nuevas columnas. El `DataFrame` original no se modifica. 

In [57]:
df.assign(Calle=pd.Series({'Tienda 1': 'Ramón y Cajal', 'Tienda 2': 'Hellín'}))

Unnamed: 0,Nombre,Producto,Compra,Venta,C.P,Localidad,Entregado,Calle
Tienda 1,Álvaro,Queso manchego,15.0,22.0,2001,Madrid,True,Ramón y Cajal
Tienda 1,Benito,Vino manchego,10.0,14.5,2001,Madrid,True,Ramón y Cajal
Tienda 2,Fernando,Jamón Extremeño,35.0,50.0,2003,Madrid,True,Hellín
Tienda 3,Martín,Aceite Andaluz,12.0,0.0,2004,Madrid,,
Tienda 3,Hernán,Azafrán manchego,,0.0,2004,Madrid,,


In [58]:
df

Unnamed: 0,Nombre,Producto,Compra,Venta,C.P,Localidad,Entregado
Tienda 1,Álvaro,Queso manchego,15.0,22.0,2001,Madrid,True
Tienda 1,Benito,Vino manchego,10.0,14.5,2001,Madrid,True
Tienda 2,Fernando,Jamón Extremeño,35.0,50.0,2003,Madrid,True
Tienda 3,Martín,Aceite Andaluz,12.0,0.0,2004,Madrid,
Tienda 3,Hernán,Azafrán manchego,,0.0,2004,Madrid,


### <font color="#7F000E"> Renombrado de índice y de columnas </font>


El índice y las columnas pueden renombrarse mediante el método `rename()`. Puede tomar como argumento un diccionario con las correspondencias, o una función de transformación ([documentación](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.rename.html)). En caso de tomar una función de transformación, es necesario especificar si ésta actúa sobre índices o sobre columnas mediante el atributo `axis` (que por defecto toma el valor `index`).

El siguiente ejemplo, renombra todos los índices anteponiéndoles el caracter `'#'` y transformándolo en un `String`. Esta operación devuelve un nuevo `DataFrame`, a menos que se indique que actúe sobre el mismo mediante el parámetro `inplace`.

In [59]:
df_copia = df.copy()              # Copia el original (por claridad en los ejemplos)

df_copia.rename(lambda x: '#'+str(x), axis='index', inplace=True)
df_copia.head()

Unnamed: 0,Nombre,Producto,Compra,Venta,C.P,Localidad,Entregado
#Tienda 1,Álvaro,Queso manchego,15.0,22.0,2001,Madrid,True
#Tienda 1,Benito,Vino manchego,10.0,14.5,2001,Madrid,True
#Tienda 2,Fernando,Jamón Extremeño,35.0,50.0,2003,Madrid,True
#Tienda 3,Martín,Aceite Andaluz,12.0,0.0,2004,Madrid,
#Tienda 3,Hernán,Azafrán manchego,,0.0,2004,Madrid,


También se pueden renombrar índices o columnas asignando un diccionario a los atributos `index` o  `columns`.

In [60]:
df_copia = df.copy()       # Copia el original (por claridad en los ejemplos)
df_copia.rename(columns = {'Venta': 'PVP', 'Entregado':'Disponible'}, inplace = True);
df_copia.head()

Unnamed: 0,Nombre,Producto,Compra,PVP,C.P,Localidad,Disponible
Tienda 1,Álvaro,Queso manchego,15.0,22.0,2001,Madrid,True
Tienda 1,Benito,Vino manchego,10.0,14.5,2001,Madrid,True
Tienda 2,Fernando,Jamón Extremeño,35.0,50.0,2003,Madrid,True
Tienda 3,Martín,Aceite Andaluz,12.0,0.0,2004,Madrid,
Tienda 3,Hernán,Azafrán manchego,,0.0,2004,Madrid,


Por último, es posible renombrar las columnas directamente asignando una colección de valores al campo `DataFrame.columns`.

In [61]:
df_copia.columns = ['COMPRA','NOMBRE', 'PVP','PRODUCTO','C.P', 'LOCALIDAD','ENTREGADO']
df_copia

Unnamed: 0,COMPRA,NOMBRE,PVP,PRODUCTO,C.P,LOCALIDAD,ENTREGADO
Tienda 1,Álvaro,Queso manchego,15.0,22.0,2001,Madrid,True
Tienda 1,Benito,Vino manchego,10.0,14.5,2001,Madrid,True
Tienda 2,Fernando,Jamón Extremeño,35.0,50.0,2003,Madrid,True
Tienda 3,Martín,Aceite Andaluz,12.0,0.0,2004,Madrid,
Tienda 3,Hernán,Azafrán manchego,,0.0,2004,Madrid,


### <font color="#7F000E"> Reordenación de columnas </font>

Al acceder a una colección de columnas se genera un nuevo `DataFrame` en el que las columnas se colocan en el orden de la colección. 

In [62]:
df_copia = df_copia[['NOMBRE','LOCALIDAD','C.P', 'PRODUCTO','COMPRA','PVP']]
df_copia

Unnamed: 0,NOMBRE,LOCALIDAD,C.P,PRODUCTO,COMPRA,PVP
Tienda 1,Queso manchego,Madrid,2001,22.0,Álvaro,15.0
Tienda 1,Vino manchego,Madrid,2001,14.5,Benito,10.0
Tienda 2,Jamón Extremeño,Madrid,2003,50.0,Fernando,35.0
Tienda 3,Aceite Andaluz,Madrid,2004,0.0,Martín,12.0
Tienda 3,Azafrán manchego,Madrid,2004,0.0,Hernán,


### <font color="#7F000E"> Eliminación de filas y columnas </font>

El método `drop()` permite eliminar filas y columnas. Sin embargo, ___devuelve un nuevo objeto___, y el original permanece en su estado. Para que la eliminación se haga sobre el objeto original, ha de indicarse fijando el parámetro `inplace=True`.

<div class="alert alert-block alert-warning">

<i class="fa fa-exclamation-circle" aria-hidden="true"></i>
__Recordad__ que la mayor parte de operaciones que manipulan la estructura del `DataFrame` no los elementos, producen una copia del mismo, pero aceptan el parámetro `inplace`.
</div>

In [63]:
df_copia = df.copy()                             # Copia el original (por claridad en los ejemplos))
df_copia.drop('Tienda 2', inplace = True)
df_copia

Unnamed: 0,Nombre,Producto,Compra,Venta,C.P,Localidad,Entregado
Tienda 1,Álvaro,Queso manchego,15.0,22.0,2001,Madrid,True
Tienda 1,Benito,Vino manchego,10.0,14.5,2001,Madrid,True
Tienda 3,Martín,Aceite Andaluz,12.0,0.0,2004,Madrid,
Tienda 3,Hernán,Azafrán manchego,,0.0,2004,Madrid,


La eliminación de columnas puede hacerse con el mismo método, utilizando el parámetro `axis=1` (el valor por defecto de `axis` es 0, que indica que se eliminen filas).

In [64]:
df_copia = df.copy()                             # Copia el original (por claridad en los ejemplos))
df_copia.drop('Entregado', axis=1, inplace=True)
df_copia

Unnamed: 0,Nombre,Producto,Compra,Venta,C.P,Localidad
Tienda 1,Álvaro,Queso manchego,15.0,22.0,2001,Madrid
Tienda 1,Benito,Vino manchego,10.0,14.5,2001,Madrid
Tienda 2,Fernando,Jamón Extremeño,35.0,50.0,2003,Madrid
Tienda 3,Martín,Aceite Andaluz,12.0,0.0,2004,Madrid
Tienda 3,Hernán,Azafrán manchego,,0.0,2004,Madrid


Se pueden borrar __columnas__ también mediante la función `del`.

In [65]:
del df_copia['Localidad']
df_copia

Unnamed: 0,Nombre,Producto,Compra,Venta,C.P
Tienda 1,Álvaro,Queso manchego,15.0,22.0,2001
Tienda 1,Benito,Vino manchego,10.0,14.5,2001
Tienda 2,Fernando,Jamón Extremeño,35.0,50.0,2003
Tienda 3,Martín,Aceite Andaluz,12.0,0.0,2004
Tienda 3,Hernán,Azafrán manchego,,0.0,2004


<div class="alert alert-block alert-warning">

<i class="fa fa-exclamation-circle" aria-hidden="true"></i>
__Importante__: Esta función solamente permite borrar __columnas__, no filas. 
</div>

La función `pop` devuelve y elimina columnas en una misma operación.

In [66]:
df_copia = df.copy() 
localidades = df_copia.pop('Localidad')

print(localidades)
df_copia

Tienda 1    Madrid
Tienda 1    Madrid
Tienda 2    Madrid
Tienda 3    Madrid
Tienda 3    Madrid
Name: Localidad, dtype: object


Unnamed: 0,Nombre,Producto,Compra,Venta,C.P,Entregado
Tienda 1,Álvaro,Queso manchego,15.0,22.0,2001,True
Tienda 1,Benito,Vino manchego,10.0,14.5,2001,True
Tienda 2,Fernando,Jamón Extremeño,35.0,50.0,2003,True
Tienda 3,Martín,Aceite Andaluz,12.0,0.0,2004,
Tienda 3,Hernán,Azafrán manchego,,0.0,2004,


<div style="text-align: right">
<a href="#indice"><font size=5><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#004D7F"></i></font></a>
</div>

---

<a id="section46"></a> 
## <font color="#7F000E" >Descripción de los datos </font>
<br>

La función `describe()` devuelve diversa información con respecto a las columnas. Esta información varía según el tipo de datos. Además, se puede especificar sobre qué columnas se aplica la función con los parámetros `include` \ `exclude`.

La siguiente llamada incluye todas las columnas. Puede apreciarse que para las numéricas muestra unos datos, y para las no numéricas otros.

In [67]:
df_copia.describe(include="all")

Unnamed: 0,Nombre,Producto,Compra,Venta,C.P,Entregado
count,5,5,4.0,5.0,5.0,3
unique,5,5,,,3.0,1
top,Fernando,Vino manchego,,,2004.0,True
freq,1,1,,,2.0,3
mean,,,18.0,17.3,,
std,,,11.518102,20.602184,,
min,,,10.0,0.0,,
25%,,,11.5,0.0,,
50%,,,13.5,14.5,,
75%,,,20.0,22.0,,


En el caso de las variables numéricas, se pueden determinar los percentiles que se han de mostrar. 

In [68]:
df_copia.describe(include="number", percentiles=[0.32, 0.61])

Unnamed: 0,Compra,Venta
count,4.0,5.0
mean,18.0,17.3
std,11.518102,20.602184
min,10.0,0.0
32%,11.92,4.06
50%,13.5,14.5
61%,14.49,17.8
max,35.0,50.0


<div style="text-align: right">
<a href="#indice"><font size=5><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#004D7F"></i></font></a>
</div>

---

<div style="text-align: right"> <font size=6><i class="fa fa-coffee" aria-hidden="true" style="color:#004D7F"></i> </font></div>
