# Librerías: Pandas

https://pandas.pydata.org/

El contenido de este tutorial está basado y fue adaptado del curso de pandas de Kaggle disponible en https://www.kaggle.com/learn/pandas

mismo que tiene licencia open source Apache 2.0 http://www.apache.org/licenses/LICENSE-2.0



### En esta parte vamos a aprender cómo seleccionar datos específicos del dataframe

Comenzamos importando la librería y cargando el archivo que vamos a trabajar

In [None]:

import pandas as pd
from pathlib import Path 
data_folder = Path("..") / "data"
wine_reviews_file = data_folder /"winemag-data-130k-v2.csv"
reviews = pd.read_csv(wine_reviews_file,index_col=0)

pd.set_option('max_rows', 5) # Esto para qué es?

## Accesos nativos

In [None]:
reviews

Por ejemplo si quiero acceder a la propiedad `country` del dataframe `reviews` se puede usar esta notación:

In [None]:
reviews.country


Pero también podemos accesar usando el operador índice (`[]`):

In [None]:
reviews['country']

Ambas son dos formas de seleccionar series de un DataFrame, ambas válidas, sin embargo el operador `[]` permite más flexibilidad en el nombre de las columnas, pudiendo usar caracteres reservados (e.g.  si tuviéramos una columna llamada `country providence` la notación de propiedad `reviews.country providence` no funciona.

### Seleccionar un elemento aún más específico
Podemos usar nuevamente la notación de índice, inmediatamente después de haber seleccionado la columna

In [None]:
reviews['country'][0]

In [None]:
reviews.country[0]


## Indexing propio de pandas

Pandas tiene sus propios operadores de acceso `loc` and `iloc`. Ambos son primero renglón y luego columna (OJO! En python "nativo" es al revés!) Se supone que es mejor usar esto para operaciones más avanzadas.

### Selección basada en índice

Consiste en seleccionar datos basados en su posición numérica en el set de datos y se usa `iloc`.
Trata al dataframe como si fuera una matriz y buscas los elementos usando su posición.

Por ejemplo, para seleccionar el primer renglón en un DataFrame:

In [None]:
reviews.iloc[0]



Para obtener una columna con `iloc`:

In [None]:
reviews.iloc[:, 0]

El operador  `:` significa "todo" y también en combinación con otro código sirve para establecer un range de valores. Por ejemplo para seleccionar los renglones primero, segundo y tercero:

In [None]:
reviews.iloc[:3, 0]

O seleccionando el segundo y el tercero:

In [None]:
reviews.iloc[1:3, 0]

O también podemos indicarle qué renglones queremos mediante una lista:

In [None]:
reviews.iloc[[0, 1, 2], 0]

O también los últimos 5 renglones:

In [None]:
reviews.iloc[-5:]

### 2. Selección basada en etiqueta

Con el operador `loc` es la etiqueta del índice y no la posición numérica lo que importa.
Por ejemplo, para obtener la primer entrada en `reviews`, hacemos lo siguiente:

In [None]:
reviews.loc[0,'country']

In [None]:
reviews.head()

In [None]:
reviews.loc[:, ['taster_name', 'taster_twitter_handle', 'points']]

### Eligiendo entre `loc` e `iloc`



`iloc` usa el esquema de indexing Python *stdlib*, donde el primer elemento del rango es incluido y el último es excluido. Ejemplo `0:10` selecciona  `0,...,9`. En cambio `loc`, indexa de forma "inclusiva" así que `0:10` seleccionará `0,...,10`.

Si tenemos un dataframe con un indice que es una lista de  `0,...,1000`, al usar `df.iloc[0:1000]`nos regresará 1000 elementos, mientras que `df.loc[0:1000]` regresa 1001! Así que para tener 1000 elementos usando `loc`, se necesita colocar `df.loc[0:999]`. 


## Manipulando el índice

La selección basada en etiquetas es poderosa debido a las etiquetas de los índices. El cuán podemos manipular acorde a nuestras necesidades.

Por ejemplo con el método `set_index()` podemos lograr lo siguiete:

In [None]:
reviews.set_index("title")

# Selección condicional

Ahora, vamos a preguntarnos por selección basada en condiciones que cumplan los datos.

Si queremos vinos producidos en Italia que sean mejores que el promedio ¿qué hacemos?

Podemos empezar checando si un vino es Italiano o no:

In [None]:
reviews.country == 'Italy'

Con esta operación obtenemos una serie de `Verdaderos`/`Falsos` basados en la columna `country`. Esto, se puede usar dentro de loc, para obtener la información que queremos:

In [None]:
vinos_italianos=reviews.loc[reviews.country == 'Italy']
vinos_italianos

Si comparamos cuántos vinos Italianos hay respecto al total de los vinos del Dataframe original tenemos que:

In [None]:
porcentaje_vinos_italianos = len(vinos_italianos)*100/len(reviews)



Ahora bien, como los vinos se califican en una escala de 80 a 100, queremos saber cuáles tienen una calificación arriba de al menos 90 puntos. 
Usando la letra ampersand (`&`) unimos ambas condiciones:



In [None]:
reviews.loc[(reviews.country == 'Italy') & (reviews.points >= 90)]

Si ahora quisiéramos que se cumpliera alguna de las dos condiciones, es decir que sea Italiano o que tenga un puntaje arriba de 90 usamos este símbolo (`|`):

In [None]:
reviews.loc[(reviews.country == 'Italy') | (reviews.points >= 90)]

## Selectores condicionales `isin`, `isnull`,`not null`

`isin` te permite seleccionar datos que estan dentro "Is in" de una lista de valores, por ejemplo, queremos seleccionar vinos que sean o de Italia o de Francia

In [None]:
reviews.loc[reviews.country.isin(['Italy', 'France'])]

`isnull` y `notnull`te permitirán seleccionar valores que son o no son vacíos `NaN`. Por ejemplo, para filtrar vinos que carecen de una etiqueta de precio

In [None]:
reviews.loc[reviews.price.notnull()]

# Asignar datos a a un dataframe

Going the other way, assigning data to a DataFrame is easy. You can assign either a constant value:

In [None]:
reviews['critic'] = 'everyone'
reviews['critic']


Or with an iterable of values:

In [None]:
reviews['index_backwards'] = range(len(reviews), 0, -1)
reviews['index_backwards']


# Tu turno!!

