# Filtrar Datos en DataFrames

@author: Octavio Gutiérrez de Código Máquina
@author: Israel Sanchez


Some lines was fixes to run starting from OCtavio code
Some lines was adaptes for samples purposes


In [1]:
import pandas as pd
import gc

datos = {"pais" : ["Estados Unidos", "China", "Brasil", "India", "México"],
         "km2": [9833517, 9600000, 8515767, 3287263, 1964375]}

paises = pd.DataFrame(datos)
paises

Unnamed: 0,pais,km2
0,Estados Unidos,9833517
1,China,9600000
2,Brasil,8515767
3,India,3287263
4,México,1964375


# ¿Cómo filtrar datos?

In [2]:
filtro = [True, False, False, False, True]
paises[filtro]

Unnamed: 0,pais,km2
0,Estados Unidos,9833517
4,México,1964375


#### Crear filtro para países con superficie mayor a 3287263 km^2

In [3]:
filtro = paises["km2"]>3287263
filtro

0     True
1     True
2     True
3    False
4    False
Name: km2, dtype: bool

#### Filtrar países con superficie mayor a 3287263 km^2

In [4]:
paises[paises["km2"]>3287263]

Unnamed: 0,pais,km2
0,Estados Unidos,9833517
1,China,9600000
2,Brasil,8515767


#### Crear DataFrame a partir de datos_paises.csv

In [5]:
paises = pd.read_csv("../datos/datos_paises.csv", index_col=0)
paises
paises[paises["continente"]=="America"]


Unnamed: 0_level_0,continente,km2,poblacion_miles
pais,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
United States of America,America,9833517.0,324460
Brazil,America,8515767.0,209288
Mexico,America,1964375.0,129163
Colombia,America,1141748.0,49066
Argentina,America,2780400.0,44271
Canada,America,9984670.0,36624
Peru,America,1285216.0,32166
Venezuela (Bolivarian Republic of),America,912050.0,31977
Chile,America,756102.0,18055
Guatemala,America,108889.0,16914


### Seleccionando países de extensión pequeña
#### Crear filtro para países con superficie menor a 50 km^2

In [6]:
filtro = paises["km2"] < 50
filtro

pais
China                          False
India                          False
United States of America       False
Indonesia                      False
Brazil                         False
                               ...  
Saint Helena                   False
Falkland Islands (Malvinas)    False
Niue                           False
Holy See                        True
Tokelau                         True
Name: km2, Length: 229, dtype: bool

#### Filtrar países con superficie menor a 50 km^2

In [7]:
paises[filtro]

Unnamed: 0_level_0,continente,km2,poblacion_miles
pais,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
"China, Macao SAR",Asia,30.0,623
Sint Maarten (Dutch part),America,34.0,40
Monaco,Europa,2.0,39
Gibraltar,Europa,6.0,35
"Bonaire, Sint Eustatius and Saba",America,1.0,25
Nauru,Oceania,21.0,11
Tuvalu,Oceania,26.0,11
Holy See,Europa,1.0,1
Tokelau,Oceania,12.0,1


### Seleccionando países pequeños pero altamente poblados
#### Países con superficie menor a 50 km^2 y población mayor 500

#### uso del & como condicion "Y"


In [8]:
paises[ (paises["km2"]<50) & (paises["poblacion_miles"]>500)]

Unnamed: 0_level_0,continente,km2,poblacion_miles
pais,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
"China, Macao SAR",Asia,30.0,623


In [9]:
paises.info()

<class 'pandas.core.frame.DataFrame'>
Index: 229 entries, China to Tokelau
Data columns (total 3 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   continente       229 non-null    object 
 1   km2              228 non-null    float64
 2   poblacion_miles  229 non-null    int64  
dtypes: float64(1), int64(1), object(1)
memory usage: 15.3+ KB


### Seleccionando países muy pequeños ó poco poblados
#### Países con superficie menor a 5 km^2 ó con población menor a 5

In [10]:
paises[ (paises["km2"]<5) | (paises["poblacion_miles"]<5) ]

Unnamed: 0_level_0,continente,km2,poblacion_miles
pais,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Monaco,Europa,2.0,39
"Bonaire, Sint Eustatius and Saba",America,1.0,25
Saint Helena,Africa,308.0,4
Falkland Islands (Malvinas),America,12173.0,3
Niue,Oceania,260.0,2
Holy See,Europa,1.0,1
Tokelau,Oceania,12.0,1


### Seleccionando países pequeños, poco poblados y europeos
#### Países europeos con superficie menor a 50 km^2 y con población menor a 50

In [11]:
paises[(paises["continente"]=="Europa") &
       (paises["km2"]<50) & 
       (paises["poblacion_miles"]<50) ]

Unnamed: 0_level_0,continente,km2,poblacion_miles
pais,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Monaco,Europa,2.0,39
Gibraltar,Europa,6.0,35
Holy See,Europa,1.0,1


### Seleccionando países pequeños, poco poblados y no europeos
#### Países no europeos con superficie menor a 50 km^2 y con población menor a 50

In [12]:
paises[~(paises["continente"]=="Europa") &
       (paises["km2"]<50) & 
       (paises["poblacion_miles"]<50) ]

Unnamed: 0_level_0,continente,km2,poblacion_miles
pais,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Sint Maarten (Dutch part),America,34.0,40
"Bonaire, Sint Eustatius and Saba",America,1.0,25
Nauru,Oceania,21.0,11
Tuvalu,Oceania,26.0,11
Tokelau,Oceania,12.0,1


In [13]:
paises.loc[~(paises["continente"]=="Europa") &
       (paises["km2"]<50) & 
       (paises["poblacion_miles"]<50) ]

Unnamed: 0_level_0,continente,km2,poblacion_miles
pais,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Sint Maarten (Dutch part),America,34.0,40
"Bonaire, Sint Eustatius and Saba",America,1.0,25
Nauru,Oceania,21.0,11
Tuvalu,Oceania,26.0,11
Tokelau,Oceania,12.0,1
