## FILTRAR DATOS EN DATAFRAMES

In [38]:
import pandas as pd

#### Filtrado de datos

In [39]:
datos = {"Pais": ["Estados Unidos", "China", "Brasil", "India", "México"], 
         "Tamanio": [9833517, 9600000, 8515767, 3287263, 1964375]}

datos_dataFrame = pd.DataFrame(data = datos)
datos_dataFrame

Unnamed: 0,Pais,Tamanio
0,Estados Unidos,9833517
1,China,9600000
2,Brasil,8515767
3,India,3287263
4,México,1964375


In [40]:
# Creamos nuestro filtro para el DataFrame

filtro = [True, False, False, False, True]

In [41]:
# Aplicamos el filtro a nuestro DataFrame

datos_dataFrame[filtro]

Unnamed: 0,Pais,Tamanio
0,Estados Unidos,9833517
4,México,1964375


##### Crear filtro para países con superficie mayor 3287263 km**2

In [42]:
# Filtramos la información similar con numpy
# Siempre se busca por columna

filtro = datos_dataFrame["Tamanio"] > 3287263

In [43]:
# Filtrando la información en nuestro DataFrame

datos_dataFrame[filtro]

Unnamed: 0,Pais,Tamanio
0,Estados Unidos,9833517
1,China,9600000
2,Brasil,8515767


In [44]:
# Cargamos los datos de un archivo CSV para crear un DataFrame

paises = pd.read_csv(filepath_or_buffer = "../datos/datos_paises.csv", index_col = 0)
paises

Unnamed: 0_level_0,continente,km2,poblacion_miles
pais,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
China,Asia,9600000.0,1409517
India,Asia,3287263.0,1339180
United States of America,America,9833517.0,324460
Indonesia,Asia,1910931.0,263991
Brazil,America,8515767.0,209288
...,...,...,...
Saint Helena,Africa,308.0,4
Falkland Islands (Malvinas),America,12173.0,3
Niue,Oceania,260.0,2
Holy See,Europa,1.0,1


#### Seleccionando países de extensión pequeña

##### Crear filtro para países con superficie menor a 50 km^2

In [45]:
# Creamos el filtro

filtro = paises["km2"] < 50

##### Filtrar países con superficie menor a 50 km^2

In [48]:
# Aplicamos el filtro al DataFrame

paises[filtro]

Unnamed: 0_level_0,continente,km2,poblacion_miles
pais,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
"China, Macao SAR",Asia,30.0,623
Sint Maarten (Dutch part),America,34.0,40
Monaco,Europa,2.0,39
Gibraltar,Europa,6.0,35
"Bonaire, Sint Eustatius and Saba",America,1.0,25
Nauru,Oceania,21.0,11
Tuvalu,Oceania,26.0,11
Holy See,Europa,1.0,1
Tokelau,Oceania,12.0,1


##### Seleccionando países pequeños pero altamente poblados

##### Países con superficie menor a 50 km^2 y población mayor 500

In [55]:
# Creamos el filtro
# Se debe usar & ,|, ¬ para realizar filtros complejos

filtro = (paises["km2"] < 50) & (paises["poblacion_miles"] > 500)

In [56]:
# Aplicamos el filtro al DataFrame

paises[filtro]

Unnamed: 0_level_0,continente,km2,poblacion_miles
pais,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
"China, Macao SAR",Asia,30.0,623


#### Seleccionando países muy pequeños ó poco poblados

##### Países con superficie menor a 5 km^2 ó con población menor a 5

In [57]:
# Creamos el filtro

filtro = (paises["km2"] < 5) | (paises["poblacion_miles"] < 5)


In [78]:
# Aplicamos el filtro al DataFrame

paises[filtro]

Unnamed: 0_level_0,continente,km2,poblacion_miles
pais,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Monaco,Europa,2.0,39
"Bonaire, Sint Eustatius and Saba",America,1.0,25
Saint Helena,Africa,308.0,4
Falkland Islands (Malvinas),America,12173.0,3
Niue,Oceania,260.0,2
Holy See,Europa,1.0,1
Tokelau,Oceania,12.0,1


#### Seleccionando países pequeños, poco poblados y europeos

##### Países europeos con superficie menor a 50 km^2 y con población menor a 50

In [81]:
# Creamos el filtro

filtro = (paises["km2"] < 50) & (paises["poblacion_miles"] < 50) & (paises["continente"] == "Europa")

In [84]:
# Aplicamos el filtro al DataFrame

paises[filtro]

Unnamed: 0_level_0,continente,km2,poblacion_miles
pais,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Monaco,Europa,2.0,39
Gibraltar,Europa,6.0,35
Holy See,Europa,1.0,1


#### Seleccionando países pequeños, poco poblados y no europeos

##### Países no europeos con superficie menor a 50 km^2 y con población menor a 50

In [85]:
# Creamos el filtro
# Alt + 126 = ~

filtro = ~(paises["continente"] == "Europa") & (paises.poblacion_miles < 50) & (paises.km2 < 50)

In [86]:
# Aplicamos el filtro

paises[filtro]

Unnamed: 0_level_0,continente,km2,poblacion_miles
pais,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Sint Maarten (Dutch part),America,34.0,40
"Bonaire, Sint Eustatius and Saba",America,1.0,25
Nauru,Oceania,21.0,11
Tuvalu,Oceania,26.0,11
Tokelau,Oceania,12.0,1
