#**Selección de datos**

Una de las habilidades fundamentales que requiere todo Data Scientist es saber manipular y seleccionar los datos correctamente. Ni siquiera el mejor modelo de machine learning es capaz de hacer magia cuando los datos que ingresamos no son los adecuados.

Pandas y numpy son dos librerías de python que nos facilitan nuestro trabajo diario al preparar y explorar los datos.

Comencemos por importar las librerías que usaremos:

In [2]:
import pandas as pd
import numpy as np

Usaremos la función read_csv para leer nuestros datos. Pasamos la ruta al archivo como primer argumento de la función.

Con el parámetro 'delimiter' especificamos el caracter que separa nuestros datos.

También usaremos el parámetro 'index_col' para seleccionar la primera columna de datos como índice.

In [3]:
df = pd.read_csv('sample_data.csv', delimiter=';', index_col = 0)
df

Unnamed: 0,state,color,food,age,height,score
Jane,NY,blue,Steak,30,165,46
Niko,TX,green,Lamb,2,70,83
Aaron,FL,red,Mango,12,120,9
Penelope,AL,white,Apple,4,80,33
Dean,AK,gray,Cheese,32,180,18
Christina,TX,black,Melon,33,172,85
Cornelia,TX,red,Beans,69,150,22


##**Seleccionar columnas**

Para seleccionar una columna, simplemente colocamos su nombre entre [ ]

Al seleccionar una sola columna, pandas devuelve una serie (secuencia de una sola dimensión)

In [None]:
df['age']


Jane         30
Niko          2
Aaron        12
Penelope      4
Dean         32
Christina    33
Cornelia     69
Name: age, dtype: int64

Para seleccionar más de una columna, pasamos una lista con el nombre de las columnas que queremos ver. Recordemos que para crear una lista en python usamos los símbolos [ ]

In [None]:
df[['age', 'color']]

Unnamed: 0,age,color
Jane,30,blue
Niko,2,green
Aaron,12,red
Penelope,4,white
Dean,32,gray
Christina,33,black
Cornelia,69,red


Como podemos ver, seleccionar mas de una columna nos devuelve un dataframe.

Si queremos que pandas nos devuelva una sola columna como dataframe, usamos de nuevo una lista de un solo elemento con el nombre de la columna

In [None]:
df[['age']]

Unnamed: 0,age
Jane,30
Niko,2
Aaron,12
Penelope,4
Dean,32
Christina,33
Cornelia,69


##**Seleccionar datos usando .loc**

Con .loc podemos seleccionar subconjuntos de filas o columnas. También podemos seleccionar simultáneamente subconjuntos de filas y columnas.

In [None]:
df.loc[['Niko']]

Unnamed: 0,state,color,food,age,height,score
Niko,TX,green,Lamb,2,70,83


###**Seleccionar múltiples filas**

In [None]:
df.loc[['Niko', 'Penelope']]

Unnamed: 0,state,color,food,age,height,score
Niko,TX,green,Lamb,2,70,83
Penelope,AL,white,Apple,4,80,33


Podemos trabajar al igual que con las listas en python.

Traer las filas desde Niko hasta Dean. Usamos slice notation, indicando el valor inicial y el final

In [None]:
df.loc ['Niko': 'Dean']

Unnamed: 0,state,color,food,age,height,score
Niko,TX,green,Lamb,2,70,83
Aaron,FL,red,Mango,12,120,9
Penelope,AL,white,Apple,4,80,33
Dean,AK,gray,Cheese,32,180,18


Observemos que a diferencia de las listas en python, .loc incluye el último elemento seleccionado.

Seleccionemos los datos desde el principio hasta Aaron

In [None]:
df.loc [:'Aaron']

Unnamed: 0,state,color,food,age,height,score
Jane,NY,blue,Steak,30,165,46
Niko,TX,green,Lamb,2,70,83
Aaron,FL,red,Mango,12,120,9


Desde Niko hasta Christina, de a dos saltos

In [None]:
df.loc ['Niko':'Christina':2]

Unnamed: 0,state,color,food,age,height,score
Niko,TX,green,Lamb,2,70,83
Penelope,AL,white,Apple,4,80,33
Christina,TX,black,Melon,33,172,85


Desde Dean hasta el final

In [None]:
df.loc ['Dean':]

Unnamed: 0,state,color,food,age,height,score
Dean,AK,gray,Cheese,32,180,18
Christina,TX,black,Melon,33,172,85
Cornelia,TX,red,Beans,69,150,22


###***Seleccionar múltiples filas y columnas***

Solo basta con separar las filas y columnas a buscar con una coma. La estructura es la siguiente:

df.loc [row_selection, column_selection]

In [None]:
df

Unnamed: 0,state,color,food,age,height,score
Jane,NY,blue,Steak,30,165,46
Niko,TX,green,Lamb,2,70,83
Aaron,FL,red,Mango,12,120,9
Penelope,AL,white,Apple,4,80,33
Dean,AK,gray,Cheese,32,180,18
Christina,TX,black,Melon,33,172,85
Cornelia,TX,red,Beans,69,150,22


Por ejemplo, si quisiéramos seleccionar las filas 'Dean' y 'Cornelia' junto con las columnas 'age', 'state' y 'score' haríamos esto:

In [None]:
df.loc[['Dean', 'Cornelia'], ['age', 'state', 'score']]

Unnamed: 0,age,state,score
Dean,32,AK,18
Cornelia,69,TX,22


Seleccionar dos filas y una columna

In [None]:
df.loc[['Jane', 'Penelope'], 'color']

Jane         blue
Penelope    white
Name: color, dtype: object

Si queremos convertir la serie que obtenemos en un dataframe, podemos guardar la selección en una variable y usar la función de pandas .DataFrame

In [None]:
people = df.loc[['Jane', 'Penelope'], 'color']
students = pd.DataFrame(people)
students

Unnamed: 0,color
Jane,blue
Penelope,white


Seleccionar varias filas y columnas

In [None]:
df.loc['Jane':'Penelope', ['state', 'color']]

Unnamed: 0,state,color
Jane,NY,blue
Niko,TX,green
Aaron,FL,red
Penelope,AL,white


Si seleccionamos una sola fila y una sola columna, nos devuelve un valor escalar

In [None]:
df.loc['Jane','age']

30

seleccionar un slice de filas y columnas

In [None]:
df.loc[:'Dean', 'food':]

Unnamed: 0,food,age,height,score
Jane,Steak,30,165,46
Niko,Lamb,2,70,83
Aaron,Mango,12,120,9
Penelope,Apple,4,80,33
Dean,Cheese,32,180,18


Seleccionar todas las filas y algunas columnas

In [None]:
df.loc[:,['age', 'score']]

Unnamed: 0,age,score
Jane,30,46
Niko,2,83
Aaron,12,9
Penelope,4,33
Dean,32,18
Christina,33,85
Cornelia,69,22


Asignar columnas y filas a variables

In [None]:
rows = ['Jane', 'Niko', 'Dean', 'Penelope', 'Christina']
cols = ['state', 'age', 'height', 'score']
df.loc[rows, cols]

Unnamed: 0,state,age,height,score
Jane,NY,30,165,46
Niko,TX,2,70,83
Dean,AK,32,180,18
Penelope,AL,4,80,33
Christina,TX,33,172,85


##**Seleccionar datos usando .iloc**

.iloc es muy similar a .loc, con la diferencia de que solo usa los índices para hacer las selecciones.

In [None]:
df

Unnamed: 0,state,color,food,age,height,score
Jane,NY,blue,Steak,30,165,46
Niko,TX,green,Lamb,2,70,83
Aaron,FL,red,Mango,12,120,9
Penelope,AL,white,Apple,4,80,33
Dean,AK,gray,Cheese,32,180,18
Christina,TX,black,Melon,33,172,85
Cornelia,TX,red,Beans,69,150,22


Al pasar un entero, .iloc nos devuelve una fila como serie.

In [None]:
df.iloc[3]

state        AL
color     white
food      Apple
age           4
height       80
score       3,3
Name: Penelope, dtype: object

también podemos seleccionar múltiples filas

In [None]:
df.iloc[[0,2]]

Unnamed: 0,state,color,food,age,height,score
Jane,NY,blue,Steak,30,165,46
Aaron,FL,red,Mango,12,120,9


**Importante**: Tener cuidado de no usar [0,2] ya que esto lo que hará es devolvernos el dato que se encuentra en la fila 0 y la columna 2

In [None]:
df.iloc[0,2]

'Steak'

Al igual que con .loc, podemos usar slice notation para seleccionar un rango de filas. Nótese que a diferencia de .loc, no se incluye el último elemento de la lista.

In [None]:
df.iloc[1:4]

Unnamed: 0,state,color,food,age,height,score
Niko,TX,green,Lamb,2,70,83
Aaron,FL,red,Mango,12,120,9
Penelope,AL,white,Apple,4,80,33


Seleccionar desde la segunda posición hasta el final

In [None]:
df.iloc[2:]

Unnamed: 0,state,color,food,age,height,score
Aaron,FL,red,Mango,12,120,9
Penelope,AL,white,Apple,4,80,33
Dean,AK,gray,Cheese,32,180,18
Christina,TX,black,Melon,33,172,85
Cornelia,TX,red,Beans,69,150,22


Seleccionar desde la segunda posición hasta el final, de a dos saltos

In [None]:
df.iloc[2::2]

Unnamed: 0,state,color,food,age,height,score
Aaron,FL,red,Mango,12,120,9
Dean,AK,gray,Cheese,32,180,18
Cornelia,TX,red,Beans,69,150,22


###**Seleccionar filas y columnas simultáneamente**

In [None]:
df.iloc[[0,2],[2,3]]

Unnamed: 0,food,age
Jane,Steak,30
Aaron,Mango,12


Seleccionar un rango de filas y varias columnas

In [None]:
df.iloc[2:4,[3,4]]

Unnamed: 0,age,height
Aaron,12,120
Penelope,4,80


Seleccionar todas las filas y un rango de columnas

In [None]:
df.iloc[:,0:2]

Unnamed: 0,state,color
Jane,NY,blue
Niko,TX,green
Aaron,FL,red
Penelope,AL,white
Dean,AK,gray
Christina,TX,black
Cornelia,TX,red


##**Seleccionar datos usando filtros**

Pandas nos permite filtrar los datos que cumplan con alguna condición específica, usando los operadores <, >, ==.

In [4]:
df

Unnamed: 0,state,color,food,age,height,score
Jane,NY,blue,Steak,30,165,46
Niko,TX,green,Lamb,2,70,83
Aaron,FL,red,Mango,12,120,9
Penelope,AL,white,Apple,4,80,33
Dean,AK,gray,Cheese,32,180,18
Christina,TX,black,Melon,33,172,85
Cornelia,TX,red,Beans,69,150,22


Vamos a seleccionar las personas mayores de edad (mayores de 18 años).

In [9]:
df['age']>18

Jane          True
Niko         False
Aaron        False
Penelope     False
Dean          True
Christina     True
Cornelia      True
Name: age, dtype: bool

Vemos que pandas nos devuelve un booleano, indicando las filas donde la condición es evaluada como falsa o verdadera. Si queremos que nos devuelva un dataframe, incluimos la condición entre [ ].

In [7]:
filter = df[df['age'] > 18]
filter

Unnamed: 0,state,color,food,age,height,score
Jane,NY,blue,Steak,30,165,46
Dean,AK,gray,Cheese,32,180,18
Christina,TX,black,Melon,33,172,85
Cornelia,TX,red,Beans,69,150,22


También podemos usar los operadores or ( | ) o and ( &) para definir más de una condición

Recordemos que usamos el operador "or" cuando queremos que al menos una de las condiciones sea verdadera. En este caso filtraremos las personas que prefieren el color rojo o azul.

In [12]:
color_or = df[(df['color'] == 'blue') | (df['color'] == 'red')]
color_or

Unnamed: 0,state,color,food,age,height,score
Jane,NY,blue,Steak,30,165,46
Aaron,FL,red,Mango,12,120,9
Cornelia,TX,red,Beans,69,150,22


Igualmente, usamos el operador "and" cuando queremos que las dos condiciones sean evaluadas como verdaderas. Para este caso, filtraremos las personas que prefieren el color rojo y el mango.

In [14]:
color_and = df[(df['color'] == 'red') & (df['food'] == 'Mango')]
color_and

Unnamed: 0,state,color,food,age,height,score
Aaron,FL,red,Mango,12,120,9


También podemos combinar el operador .loc y alguna condición para realizar el filtro. En ese caso, definimos la condición y luego de la coma indicamos la columna que queremos obtener.

In [17]:
adult_names = df.loc[df["age"] > 18, 'score']
adult_names

Jane         4,6
Dean         1,8
Christina    8,5
Cornelia     2,2
Name: score, dtype: object