# Filtrados de Datos

Empecemos imaginando que tenemos estos datos.

In [1]:
import pandas as pd

datos = {
    "pais" : ["Estados Unidos", "China", "Brasil", "India", "México"],
    "km2" : [9833517, 9600000, 8515767, 3287263, 1964375]
}

paises = pd.DataFrame(datos)
paises

Unnamed: 0,pais,km2
0,Estados Unidos,9833517
1,China,9600000
2,Brasil,8515767
3,India,3287263
4,México,1964375


## ¿Cómo filtrar datos?

Esto sería parecido a los filtros en numpy y las operaciones vectoriales
* Esta forma es muy anticuada cuando son varios valores
* Podemos establecer varias formas automatizadas para hacer esto

In [4]:
# Encendemos y apagar
filtro = [True, False, False, False, True]
paises[filtro]

Unnamed: 0,pais,km2
0,Estados Unidos,9833517
4,México,1964375


## Filtras los paises con superficios mayores a 3287263km2

En este caso tenemos que hacer que se nos regrese un vector boolenano con las banderas de los frames que lo
cumplen

***Nota***
* La condición ***"paises["km2"]> 3287263"*** nos regresa el vector booleano.

In [7]:
filtro = paises["km2"]> 3287263
filtro

0     True
1     True
2     True
3    False
4    False
Name: km2, dtype: bool

In [8]:
paises[filtro]

Unnamed: 0,pais,km2
0,Estados Unidos,9833517
1,China,9600000
2,Brasil,8515767


## Crear un DataFrame a partir de datos_paises.csv

Cargamos toda nuetra información

In [13]:
path = "C:\\Users\\PC\\OneDrive\\Documentos\\CursoAnaliticaDatos\\MACHINE-LEARNING\\NIVEL2\\datos\\datos_paises.csv"
paises = pd.read_csv(path, index_col = 0)
paises

Unnamed: 0_level_0,continente,km2,poblacion_miles
pais,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
China,Asia,9600000.0,1409517
India,Asia,3287263.0,1339180
United States of America,America,9833517.0,324460
Indonesia,Asia,1910931.0,263991
Brazil,America,8515767.0,209288
...,...,...,...
Saint Helena,Africa,308.0,4
Falkland Islands (Malvinas),America,12173.0,3
Niue,Oceania,260.0,2
Holy See,Europa,1.0,1


### Creando filtro para paises con una superficie menor a 50 km2

In [15]:
filtro = paises["km2"]< 50
paises[filtro]

Unnamed: 0_level_0,continente,km2,poblacion_miles
pais,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
"China, Macao SAR",Asia,30.0,623
Sint Maarten (Dutch part),America,34.0,40
Monaco,Europa,2.0,39
Gibraltar,Europa,6.0,35
"Bonaire, Sint Eustatius and Saba",America,1.0,25
Nauru,Oceania,21.0,11
Tuvalu,Oceania,26.0,11
Holy See,Europa,1.0,1
Tokelau,Oceania,12.0,1


### Filtro para paises con una superficie menor a 50 km2 y población mayor a 500

* Al igual que en numpy, aquí es importante los parentesis

In [18]:
filtro = (paises["km2"]< 50) & (paises["poblacion_miles"]> 500)
paises[filtro]

Unnamed: 0_level_0,continente,km2,poblacion_miles
pais,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
"China, Macao SAR",Asia,30.0,623


### Filtro para paises con una superficie menor a 5 km2 o población menor a 5

In [20]:
filtro = (paises["km2"]< 5) | (paises["poblacion_miles"]< 5)
paises[filtro]

Unnamed: 0_level_0,continente,km2,poblacion_miles
pais,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Monaco,Europa,2.0,39
"Bonaire, Sint Eustatius and Saba",America,1.0,25
Saint Helena,Africa,308.0,4
Falkland Islands (Malvinas),America,12173.0,3
Niue,Oceania,260.0,2
Holy See,Europa,1.0,1
Tokelau,Oceania,12.0,1


### Filtro para paises europeos con una superficie menor a 50 km2 y población menor a 50

In [22]:
filtro = (paises["continente"] == "Europa") & (paises["km2"]< 50) & (paises["poblacion_miles"]< 50)
paises[filtro]

Unnamed: 0_level_0,continente,km2,poblacion_miles
pais,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Monaco,Europa,2.0,39
Gibraltar,Europa,6.0,35
Holy See,Europa,1.0,1


### Filtro para paises no europeos con una superficie menor a 50 km2 y población menor a 50

Podemos negar una condición con ***~***, usando "Alt Gr" + "+"

In [23]:
filtro = ~(paises["continente"] == "Europa") & (paises["km2"]< 50) & (paises["poblacion_miles"]< 50)
paises[filtro]

Unnamed: 0_level_0,continente,km2,poblacion_miles
pais,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Sint Maarten (Dutch part),America,34.0,40
"Bonaire, Sint Eustatius and Saba",America,1.0,25
Nauru,Oceania,21.0,11
Tuvalu,Oceania,26.0,11
Tokelau,Oceania,12.0,1


### Ordenar por Km2

In [27]:
 paises.sort_values(by="km2").head(10)

Unnamed: 0_level_0,continente,km2,poblacion_miles
pais,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
"Bonaire, Sint Eustatius and Saba",America,1.0,25
Holy See,Europa,1.0,1
Monaco,Europa,2.0,39
Gibraltar,Europa,6.0,35
Tokelau,Oceania,12.0,1
Nauru,Oceania,21.0,11
Tuvalu,Oceania,26.0,11
"China, Macao SAR",Asia,30.0,623
Sint Maarten (Dutch part),America,34.0,40
Bermuda,America,53.0,61


In [26]:
 paises.sort_values(by="km2", ascending=False).head(10)

Unnamed: 0_level_0,continente,km2,poblacion_miles
pais,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Russian Federation,Europa,17098246.0,143990
Canada,America,9984670.0,36624
United States of America,America,9833517.0,324460
China,Asia,9600000.0,1409517
Brazil,America,8515767.0,209288
Australia,Oceania,7692060.0,24451
India,Asia,3287263.0,1339180
Argentina,America,2780400.0,44271
Kazakhstan,Asia,2724902.0,18204
Algeria,Africa,2381741.0,41318
