<!--Información del curso-->
<img align="left" style="padding-right:10px;" src="figuras/banner_cd.png">


<center><h4 style="font-size:2em;color:#840700">  Pandas -  Indexación y selección de datos    </h4></center>

<br>
<table>
<col width="550">
<col width="450">
<tr>
<td><img src="figuras/pandas1.png" align="left" style="width:500px"/></td>
<td>

* **Wes McKinney**, empezó a desarrollar Pandas en el año 2008 mientras trabajaba en *AQR Capital* por la necesidad que tenía de una herramienta flexible de alto rendimiento para realizar análisis cuantitativo en datos financieros. 
* Antes de dejar AQR convenció a la administración de la empresa de distribuir esta biblioteca bajo licencia de código abierto.
* **Pandas** es un acrónimo de **PANel DAta analysiS**
   
    
<br>
</td>
</tr>
</table>

# Librerías

Cargando las bibliotecas que necesitamos 


In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

Previamente analizamos en detalle los métodos y herramientas para acceder a los arreglos de _**NumPy**_. Estos incluyeron indexación (por ejemplo, ``arr[2, 1]``), segmentación (por ejemplo, ``arr[:, 1:5]``), indexación elegante (por ejemplo, ``arr[0, [1, 5]]``) y combinaciones de los mismos (por ejemplo,arr[:, [1, 5]]). 
Aquí veremos medios similares para acceder a las **Series** y **DataFrames** de _**Pandas**_, los cuales le resultarán muy familiares, aunque hay algunas peculiaridades que debe tener en cuenta.


# Selección de datos en Series

Como vimos en la lección anterior, una **Serie** es muy similar a un arreglo unidimensional  de NumPy y en muchas formas, como un diccionario estándar de Python.
Si tenemos en cuenta estas dos analogías superpuestas, nos ayudará a comprender los patrones de indexación y selección de datos en las **Series**.

## Series como diccionario

Como en un diccionario, una **Serie** proporciona un mapeo de una colección de etiquetas a una colección de valores:

In [None]:
#data representará las ganancias en millones de dólares de una empresa
import pandas as pd
data = pd.Series([0.25, 2.5, 1.75, 1.1, 1.8, 2.1],
                 index=['enero', 'febrero', 'marzo', 'abril', 'mayo', 'junio'])
data

In [None]:
data['febrero']

## Indexadores  ``loc`` y ``iloc``

Las convenciones previas de segmentación e indexación pueden ser una fuente de confusión. Por ejemplo:

<img align="left" width=60% src="figuras/indices3.png">

In [None]:
data = pd.Series(['febrero', 'abril', 'junio'], index=[1, 3, 5])
data

In [None]:
# índice explícito  
data[1]

In [None]:
# índices implícitos  
data[1:3]

Debido a esta posible confusión en el caso de índices enteros, Pandas proporciona algunos atributos *indexadores* especiales que exponen explícitamente ciertos esquemas de indexación. 


### Indexador: loc

Primero, el atributo ``loc`` permite indexar y segmentar que siempre hace referencia al índice explícito (el índice que se muestra):

In [None]:
data.loc[1]

In [None]:
data.loc[1:3]

### Indexador: iloc

El atributo ``iloc`` permite indexar y segmentar haciendo referencia al índice implícito (el índice que es debido a su posición 0,1,2,3... ) de estilo Python:

In [None]:
data.iloc[1]

In [None]:
data.iloc[1:3]

La naturaleza explícita de ``loc`` y ``iloc`` los hace muy útiles para mantener un código limpio y legible; especialmente en el caso de índices enteros, recomiendo usarlos tanto para hacer el código más fácil de leer y entender, como para prevenir errores sutiles debido a la convención mixta de indexación/segmentación.

# Selección de datos en DataFrames

Recuerde que un **DataFrame** actúa de muchas formas como un arreglo bidimensional, y de otras formas como un diccionario de estructuras de **Series**  que comparten el mismo índice.
Puede ser útil tener en cuenta estas analogías a medida que exploramos la selección de datos dentro de esta estructura.

## DataFrame como un diccionario

La primera analogía que consideraremos es el **DataFrame** como diccionario. Utilizaremos el siguiente DataFrame el cual tiene información de diferentes países 

In [None]:
poblacion  = pd.Series({'Belgica': 11.3, 'Francia': 64.3,
                  'Alemania': 81.3, 'Holanda': 16.9,
                  'Inglaterra': 64.9, 'Argentina': 12.1,
                  'Mexico': 103.2,
                 })

area  = pd.Series({'Belgica': 30510, 'Francia': 671308,
                  'Alemania': 357050, 'Holanda': 41526,
                  'Inglaterra': 244820, 'Argentina':300163 ,
                  'Mexico': 1960573,
                 })


capital = pd.Series({'Belgica': 'Bruselas', 'Francia': 'Paris',
                  'Alemania': 'Berlin', 'Holanda': 'Amsterdam',
                  'Inglaterra': 'Londres', 'Argentina': 'Buenos Aires' ,
                  'Mexico': 'Ciudad de Mexico',
                 })
paises = pd.DataFrame({'Poblacion':poblacion, 'Area':area, 'Capital':capital})
paises

Se puede acceder a las **Series** individuales que componen las columnas del  **Datafrma** mediante la indexación del nombre de la columna al estilo de diccionario:

In [None]:
paises['Poblacion']

Esta sintaxis estilo diccionario también se puede usar para modificar el **DataFrame**, en este caso agregando una nueva columna:

In [None]:
paises['Densidad'] = paises['Poblacion'] / paises['Area']
paises

Usando el indexador ``iloc``, podemos indexar al arreglo subyacente como si fuera un arreglo simple de _**NumPy**_ (usando el índice implícito de estilo Python), pero el índice de **DataFrame** y las etiquetas de columna se mantienen en el resultado:

<img align="left" width=60% src="figuras/indices5.png">

In [None]:
paises.iloc[:4, :2]

De manera similar, usando el indexador ``loc`` podemos indexar los datos subyacentes usando el índice explícito y los nombres de columna:

In [None]:
paises.loc[:'Holanda', :'Area']

Cualquiera de estas convenciones de indexación también se puede utilizar para establecer o modificar valores; esto se hace de la forma estándar a la que podría estar acostumbrado al trabajar con _**NumPy**_:

In [None]:
#Cambiando la población de Mexico de 103.2 a 120.0
paises.iloc[6, 0] = 120
paises

También podemos seleccionar columnas múltiples pasando una lista de nombres de columnas:

In [None]:
#Seleccionar la columna Area y Poblacion
paises[['Area', 'Poblacion']] 

### Selección por medio de filtrado booleano 

Frecuentemente es necesario filtrar elementos que cumplan algún criterio, es posible utilizar máscaras con condiciones booleanas 

In [None]:
# Escribir la máscara
paises['Area'] > 100000

In [None]:
# Paises con area mayor a 100000 km2
paises[ paises['Area'] > 100000 ]

In [None]:
# Paises con población mayor a los 50 millones
paises[paises['Poblacion'] > 50]

In [None]:
# Paises con población mayor a los 50 millones y mostrando solamente su densidad
paises[paises['Poblacion'] > 50]['Densidad']

In [None]:
# Paises con población mayor a los 50 millones y menor o igual a los 100 millones
paises[(paises['Poblacion'] > 50) & (paises['Poblacion'] <= 100)]

In [None]:
# Paises con población mayor a los 50 millones y menor o igual a los 100 millones y mostrando solo su área  
paises[  (paises['Poblacion'] > 50) & (paises['Poblacion'] <= 100) ]['Area']

Una descripción general de las posibles operaciones de comparación:

Operador   |  Descripción
------ | --------
==     | Equal
!=     | Not equal
\>      | Greater than
\>=     | Greater than or equal
<      | Lesser than
!=     | Lesser than or equal

y para combinar múltiples condiciones:

Operador   |  Descripción
------ | --------
&      | And (`cond1 & cond2`)
\|     | Or (`cond1 \| cond2`)

# Ejercicio

Los siguientes datos contienen nombres, direcciones, empresas y números de teléfono ficticios del Reino Unido.

In [None]:
#Cargamos los datos en un DataFrame
data = pd.read_csv('datos/uk-500.csv')

In [None]:
#Mostramos las primeros  5 filas
data.head()

<div class="alert alert-info">
    
1. Selección simple: Utilizando **iloc** encuentre las siguientes filas y columnas
    
**Filas**:
    
a) primera fila (datos de Aleshia Tomkiewicz)
    
b) segunda fila (datos de Evan Zigomalas)
    
c) última fila (datos de Mi Richan)
    
**Columnas**:
    
d) primera columna (first_name)
    
e) tercera columna (company_name)
    
f) última columna (web)
</div>

In [None]:
# a) primera fila (datos de Aleshia Tomkiewicz)


In [None]:
# b) segunda fila (datos de Evan Zigomalas)


In [None]:
# c) última fila (datos de Mi Richan)


In [None]:
# d) primera columna (first_name)


In [None]:
# e) tercera columna (company_name) 


In [None]:
# f) última columna (web)


<div class="alert alert-info">
    
2. Seleccionar varias columnas y filas usando el indexador **iloc**

a) primeras cinco filas del DataFrame 
    
b) primeras dos columnas del DataFrame con todas las filas
        
c) primeras 5 filas y (5ª, 6ª, 7ª) columnas  
    
</div>

In [None]:
# a) primeras cinco filas del DataFrame 


In [None]:
# b) primeras dos columnas del DataFrame con todas las filas


In [None]:
# c) primeras 5 filas y (5ª, 6ª, 7ª) columnas


Ahora estableciendo el índice de nuestro DataFrame con el "last_name":

In [None]:
data.set_index("last_name", inplace=True)
data.head()

<div class="alert alert-info">

3. Utilizar el indexador **loc** y encuentre lo siguiente:


a)  Seleccione filas con valores de índice 'Andrade' y 'Veness', con  las columnas entre 'city' y 'email'

b)  Seleccione las mismas filas de a), con solo las columnas 'first_name', 'address' y 'city'
 


</div>

In [None]:
# a)  Seleccione filas con valores de índice 'Andrade' y 'Veness', con  las columnas entre 'city' y 'email'


In [None]:
# b)  Seleccione las mismas filas de a), con solo las columnas 'first_name', 'address' y 'city'


<div class="alert alert-info">

4. Utilizar la selección boolena y encuentre lo siguiente:


a)  Seleccionar todas las filas con el nombre de "Antonio".

b)  Seleccione las mismas filas de a), con solo las columnas 'first_name', 'address' y 'city'
 


</div>

In [None]:
# a)  Seleccionar todas las filas con el nombre de "Antonio".


In [None]:
# b)  Seleccione las mismas filas de a), con solo las columnas 'first_name', 'address' y 'city'
