# Usos Avanzados de Pandas y Matplotlib
En esta sesión, estudiaremos usos más avanzados de Pandas, así como diferentes gráficas que matplotlib tiene.
Los temas a ver son los siguietes:
1. Indexado en Pandas
    1. Indexado Sencillo
        1. Selección de una columna
        2. Selección de múltiples columnas
        3. Selección de columna y fila
    2. Indexado Booleano

In [1]:
import pandas as pd
from matplotlib import pyplot as plt
%matplotlib inline

## Pandas Avanzado
En esta sección, estudiaremos formas de seleccionar datos en Pandas, así como métodos útiles en la limpieza, exploración e interpretación de datos.
### Indexado
Comencemos viendo las múltiples opciones que tenemos de seleccionar información en un `dataframe` de `pandas`:
#### Selección de una Columna
Este es el tipo de selección en un `dataframe` de Pandas más sencillo. Se realiza utilizando corchetes(`[]`) e ingresando el nombre de la columna a la que nos interesa acceder:


In [14]:
data = pd.read_csv('examples/percent-bachelors-degrees-women-usa.csv')
data['Year']
data.tail()

Unnamed: 0,Year,Agriculture,Architecture,Art and Performance,Biology,Business,Communications and Journalism,Computer Science,Education,Engineering,English,Foreign Languages,Health Professions,Math and Statistics,Physical Sciences,Psychology,Public Administration,Social Sciences and History
37,2007,47.605026,43.100459,61.4,59.411993,49.000459,62.5,17.6,78.721413,16.8,67.874923,70.2,85.4,44.1,40.7,77.1,82.1,49.3
38,2008,47.570834,42.71173,60.7,59.305765,48.888027,62.4,17.8,79.196327,16.5,67.594028,70.2,85.2,43.3,40.7,77.2,81.7,49.4
39,2009,48.667224,43.348921,61.0,58.489583,48.840474,62.8,18.1,79.532909,16.8,67.969792,69.3,85.1,43.3,40.7,77.1,82.0,49.4
40,2010,48.730042,42.066721,61.3,59.010255,48.757988,62.5,17.6,79.618625,17.2,67.928106,69.0,85.0,43.1,40.2,77.0,81.7,49.3
41,2011,50.037182,42.773438,61.2,58.742397,48.180418,62.2,18.2,79.432812,17.5,68.42673,69.5,84.8,43.1,40.1,76.7,81.9,49.2


#### Selección de Múltiples Columnas
Seguido, requerimos acceder a múltiples columnas. Para hacer esto, pasamos una lista de nombres de columnas como argumento de índice de columna del `dataframe`

In [None]:
bio_mate = data[['Biology', 'Math and Statistics']]
bio_mate

#### Selección de Columna y Fila
Para realizar una selección de columna y fila, utilizamos el método `dataframe.loc[...]` de la siguiente forma:

In [11]:
first_bio_mat = data.loc[[0,1],['Biology', 'Math and Statistics']]
first_bio_mat

Unnamed: 0,Biology,Math and Statistics
0,29.088363,38.0
1,29.394403,39.0


### Indexado Booleano
Una herramiento extremadamente poderosa cuando trabajamos con Pandas y Numpy, es su habilidad para realizar _indexado booleano_. Esto consiste en acceder a los elementos (filas en el caso de `dataframes`) que cumplen una condición.  
Para hacer uso de esta herramienta, el primer paso es crear un objeto `series` que contenga valores booleanos. Podemos hacerlo utilizando operaciones vectoriales.

In [17]:
bidx = data['Biology'] >= 50

Luego, utilizamos ese `np.array` o `pd.series` como lista de argumento para el índice del dataframe

In [18]:
data[bidx]

Unnamed: 0,Year,Agriculture,Architecture,Art and Performance,Biology,Business,Communications and Journalism,Computer Science,Education,Engineering,English,Foreign Languages,Health Professions,Math and Statistics,Physical Sciences,Psychology,Public Administration,Social Sciences and History
17,1987,31.486429,38.730675,61.7,50.209878,46.690466,60.2,32.4,76.963092,14.0,66.706031,72.0,85.5,46.5,30.4,70.1,76.4,43.9
18,1988,31.085087,39.398907,61.7,50.099811,46.764828,60.4,30.8,77.627662,13.9,67.144498,72.3,85.2,46.2,29.7,70.9,75.6,44.4
19,1989,31.612403,39.09654,62.0,50.774716,46.781565,60.5,29.9,78.111919,14.1,67.017072,72.4,84.6,46.2,31.3,71.6,76.0,44.2
20,1990,32.703444,40.824047,62.6,50.818094,47.200851,60.8,29.4,78.866859,14.1,66.921902,71.2,83.9,47.3,31.6,72.6,77.6,45.1
21,1991,34.711837,33.679881,62.1,51.468805,47.224325,60.8,28.7,78.991246,14.0,66.241475,71.1,83.5,47.0,32.6,73.2,78.2,45.5
22,1992,33.93166,35.202356,61.0,51.349742,47.219395,59.7,28.2,78.435182,14.5,65.622457,71.0,83.0,47.4,32.6,73.2,77.3,45.8
23,1993,34.946832,35.777159,60.2,51.124844,47.639332,58.7,28.5,77.267312,14.9,65.73095,70.0,82.4,46.4,33.6,73.1,78.0,46.1
24,1994,36.032674,34.433531,59.4,52.246218,47.983924,58.1,28.5,75.814933,15.7,65.641978,69.1,81.8,47.0,34.8,72.9,78.8,46.8
25,1995,36.844807,36.063218,59.2,52.599403,48.573181,58.8,27.5,75.125256,16.2,65.936949,69.6,81.5,46.1,35.9,73.0,78.8,47.9
26,1996,38.969775,35.926485,58.6,53.78988,48.647393,58.7,27.1,75.035199,16.7,66.437779,69.7,81.3,46.4,37.3,73.9,79.8,48.7
