
# Clase 8: Introducción a Manejo de Datos Tabulares con Pandas

**MDS7202: Laboratorio de Programación Científica para Ciencia de Datos**


### Objetivos de la clase

- Introducir los datos estructurados de forma tabular.
- Comprender los aspectos introductorios de `pandas`: `Series` y `DataFrames`.
- Indexado y operaciones básicas en `DataFrames`.
- Filtrados y queries. 


# Motivación

Primero, se presentará el dataset con el cuál estaremos trabajando durante la clase y luego, vendrán unas preguntas interesantes al respecto.




### Índices para una Vida Mejor

Para explicar `pandas`, analizaremos datos de la OECD, en particular de los índices para una Vida Mejor:


<img src="./resources/oecd.png" alt="OECD Better life index"/>


http://www.oecdbetterlifeindex.org/

https://stats.oecd.org/Index.aspx?DataSetCode=BLI

Son 11 temas considerados como esenciales para el bienestar de la población. Cada crierio contiene uno o mas indicadores

| Tema | Indicador (Inglés) | Indicador (Español) | Unidad | Descripción |
|---|---|---|---|---|
| Vivienda 🏠 | Dwellings without basic facilities | Vivienda con Instalaciones Básicas | Porcentaje | Porcentaje de personas con inodoros de agua corriente dentro del hogar, año disponible más reciente |
|  | Housing expenditure | Gastos en Vivienda | Porcentaje | Proporción de costos de vivienda en el ingreso neto ajustado de las familias, año disponible más reciente |
|  | Rooms per person | Habitaciones por Persona | Ratio | Número promedio de habitaciones compartidas por persona en una vivienda, año disponible más reciente |
| Ingresos 💰 | Household net adjusted disposable income | Ingreso Familiar Disponible | US Dollar | Cantidad promedio de dinero que una familia gana al año, después de impuestos, año disponible más reciente |
|  | Household net wealth | Patrimonio Neto Familiar | US Dollar | Valor total promedio de los activos financieros de una familia (ahorros, acciones) menos sus pasivos (créditos), año disponible más reciente |
| Empleo ⚙️ | Labour market insecurity | Seguridad en el Empleo | Porcentaje | Pérdida esperada de ingresos cuando alguien queda desempleado, año disponible más reciente |
|  | Employment rate | Tasa de Empleo | Porcentaje | Porcentaje de personas, de 15 a 64 años de edad, actualmente con empleo remunerado, año disponible más reciente |
|  | Long-term unemployment rate | Tasa de Empleo a Largo Plazo | Porcentaje | Porcentaje de personas, de 15 a 64 años de edad, que no trabajan pero que han buscado empleo activamente durante más de un año, año disponible más reciente |
|  | Personal earnings | Ingresos Personales | US Dollar | Ingresos anuales promedio por empleado de tiempo completo, año disponible más reciente |
| Comunidad 🧑‍🤝‍🧑   | Quality of support network  | Calidad del Apoyo Social | Porcentaje | Porcentaje de personas con amigos o parientes en quienes confiar en caso de necesidad |
| Educación 📚 | Educational attainment | Nivel de Educación | Porcentaje | Porcentaje de personas, de 25 a 64 años de edad, graduadas por lo menos de educación media superior, año disponible más reciente |
|  | Student skills | Competencias de estudiantes en matemáticas, lectura y ciencias | Puntaje promedio | Desempeño promedio de estudiantes de 15 años de edad, según PISA (Programa para la Evaluación Internacional de Estudiantes) |
|  | Years in education  | Nivel de educación | Años | Duración promedio de la educación formal en la que un niño de cinco años de edad puede esperar matricularse durante su vida |
| Medio Ambiente 🌳 | Air pollution | Contaminación del Aire | Microgramos por metro cúbico | Concentración promedio de partículas (PM2.5) en ciudades con poblaciones mayores de 100,000 personas, medida en microgramos por metro cúbico, año disponible más reciente |
|  | Water quality | Calidad del Agua | Porcentaje | Porcentaje de personas que informan estar satisfechas con la calidad del agua local |
| Compromiso Cívico 🗳️  | Stakeholder engagement for developing regulations | Participación de los interesados en la elaboración de regulaciones | Puntaje promedio | Nivel de transparencia gubernamental al preparar las regulaciones, año disponible más reciente |
|  | Voter turnout | Participación electoral | Porcentaje | Porcentaje de votantes registrados que votaron durante las elecciones recientes, año disponible más reciente |
| Salud ⚕️ | Life expectancy | Esperanza de vida | Años | Número promedio de años que una persona puede esperar vivir, año disponible más reciente |
|  | Self-reported health | Salud según informan las personas | Porcentaje | Porcentaje de personas que informan que su salud es «buena o muy buena», año disponible más reciente |
| Satisfacción ✨ | Life satisfaction | Satisfacción ante la vida | Puntaje promedio | Autoevaluación promedio de satisfacción ante la vida, en una escala de 0 a 10 |
| Seguridad 🌃 | Feeling safe walking alone at night | Sentimiento de seguridad al caminar solos por la noche | Porcentaje | Porcentaje de personas que reportan sentirse seguras al caminar solas por la noche  |
|  | Homicide rate | Tasa de homicidios | Ratio | Número promedio de homicidios reportados por 100,000 personas, año disponible más reciente |
| Balance Vida Trabajo 🧘 | Employees working very long hours | Empleados que trabajan muchas horas | Porcentaje | Porcentaje de empleados que trabajan más de cincuenta horas a la semana en promedio, año disponible más reciente |
|  | Time devoted to leisure and personal care | Tiempo destinado al ocio y el cuidado personal | Horas | Número promedio de minutos al día dedicados al ocio y el cuidado personal, incluidos el sueño y la alimentación |

---

**Hasta el momento, todos los datos con los que hemos trabajado:**


### 1. Los hemos ingresado a mano

En este caso, tendríamos que copiar y pegar los datos en formato arreglo de forma manual. 

Por ejemplo, las 10 primeras filas del dataset de la OECD de las columnas:

- Air pollution
- Dwellings without basic facilities
- Educational attainment
- Employees working very long hours
- Employment rate



In [37]:
import numpy as np

datos = np.array(
    [
        [5.0, np.nan, 81.0, 12.84, 73.0],
        [16.0, 0.9, 85.0, 6.59, 72.0],
        [15.0, 1.9, 77.0, 4.7, 63.33],
        [10.0, 6.7, 49.0, 7.01, 61.0],
        [7.0, 0.2, 91.33, 3.67, 73.33],
        [16.0, 9.4, 65.0, 9.32, 62.67],
        [10.0, 23.9, 54.0, 26.01, 67.0],
        [20.0, 0.7, 93.67, 5.5, 73.67],
        [9.0, 0.5, 81.0, 2.32, 74.0],
        [8.0, 7.0, 88.67, 2.44, 74.0],
    ]
)

datos


array([[ 5.  ,   nan, 81.  , 12.84, 73.  ],
       [16.  ,  0.9 , 85.  ,  6.59, 72.  ],
       [15.  ,  1.9 , 77.  ,  4.7 , 63.33],
       [10.  ,  6.7 , 49.  ,  7.01, 61.  ],
       [ 7.  ,  0.2 , 91.33,  3.67, 73.33],
       [16.  ,  9.4 , 65.  ,  9.32, 62.67],
       [10.  , 23.9 , 54.  , 26.01, 67.  ],
       [20.  ,  0.7 , 93.67,  5.5 , 73.67],
       [ 9.  ,  0.5 , 81.  ,  2.32, 74.  ],
       [ 8.  ,  7.  , 88.67,  2.44, 74.  ]])

> **Pregunta ❓**: Entonces, ¿Cómo en numpy podría leer una planilla Excel? ¿Y un archivo json? ¿O un CSV? ¿ O una base de datos?

### 2. Solo hemos usado números

> **Pregunta ❓**: ¿Cómo puedo operar strings en numpy?

En este caso, me gustaría agregar una nueva columna a los datos: el oaís que describen los valores:

In [24]:
pais = np.array([
    "Australia",
    "Austria",
    "Belgium",
    "Brazil",
    "Canada",
    "Chile",
    "Colombia",
    "Czech Republic",
    "Denmark",
    "Estonia",
])


Pero recuerden que para que numpy funcione eficientemente, los arreglos deben ser homogeneos, es decir, del mismo tipo.

> **Pregunta: ❓** ¿Qué consecuencias podría traer el agregar esta nueva columna a los datos?

array([['Australia', 'Austria', 'Belgium', 'Brazil', 'Canada', 'Chile',
        'Colombia', 'Czech Republic', 'Denmark', 'Estonia']], dtype='<U14')

In [45]:
nuevos_datos = np.concatenate([pais[:, np.newaxis], datos], axis=1)
nuevos_datos



array([['Australia', '5.0', 'nan', '81.0', '12.84', '73.0'],
       ['Austria', '16.0', '0.9', '85.0', '6.59', '72.0'],
       ['Belgium', '15.0', '1.9', '77.0', '4.7', '63.33'],
       ['Brazil', '10.0', '6.7', '49.0', '7.01', '61.0'],
       ['Canada', '7.0', '0.2', '91.33', '3.67', '73.33'],
       ['Chile', '16.0', '9.4', '65.0', '9.32', '62.67'],
       ['Colombia', '10.0', '23.9', '54.0', '26.01', '67.0'],
       ['Czech Republic', '20.0', '0.7', '93.67', '5.5', '73.67'],
       ['Denmark', '9.0', '0.5', '81.0', '2.32', '74.0'],
       ['Estonia', '8.0', '7.0', '88.67', '2.44', '74.0']], dtype='<U32')

In [48]:
nuevos_datos.mean(axis=1)

UFuncTypeError: ufunc 'add' did not contain a loop with signature matching types (dtype('<U32'), dtype('<U32')) -> None

### 3. Trabajamos solo con índices para obtener datos.

> **Pregunta ❓** : ¿Y si mis filas o columnas tuvieran nombre (un string), cómo las podría agregar a numpy?

In [23]:
columnas = [
    "Country",
    "Air pollution",
    "Dwellings without basic facilities",
    "Educational attainment",
    "Employees working very long hours",
    "Employment rate",
]


Las recién listadas son un solo un par de limitaciones de `numpy` a la hora de manejar datos.

Como podemos ver, lamentablemente `numpy` carece de funcionalidades más avanzadas pero necesarias para ejecutar adecuada y eficientemente tareas de data science.

Aquí es donde entra en juego `pandas`.

---

## 1. Pandas 🐼


`Pandas` (derivado de _panel data_)  una librería para python utilizada para manejar datos tabulares. 

<div align='center'>
<img src="./resources/dataframe.png" alt="DataFrames" style="width: 800px;"/>
</div>


Está diseñada para proveer herramientas que faciliten la exploración, limpieza y procesamiento de los datos. Su enfoque es *simplicidad y eficiencia*. Es, al igual que las librerías anteriores, *open-source*.


La base de pandas son los `DataFrames`.



Como convención, `Pandas` se importa de la siguiente manera:

In [1]:
import pandas as pd

### Entrada / Salida (IO)

La lectura de datos en `pandas` es muy sencilla: `pandas` es compatible con muchos tipos de archivos y fuentes de datos de forma nativa:

- `CSV`
- `Excel`
- `SQL`
- `Json`
- ...

Los datos almacenados en estas fuentes pueden ser importados a `DataFrames` a través de las funcioes `read_*`

De la misma forma, es capaz de guardar los DataFrames en el formato que deseen usando las funciones `to_*`

<div align='center'>

<img src="./resources/pandas_io.png" alt="DataFrames" style="width: 800px;"/>
</div>
    
Toda la información acerca de que puede o no leer la encuentran en la siguiente referencia: https://pandas.pydata.org/docs/user_guide/io.html

### Importar el Dataset

A continuacion, importaremos el dataset a un `DataFrame`. Noten la gran compatiblidad de `Jupyter` con los DataFrames (DF).

Cada DataFrame tiene **indices (Primera columna ) y columnas (primera fila)**. Comunmente se ocupan:

- En las columnas se ocupan `strings` que identifican el nombre de la variable.
- Enteros que identifican el número de la observación en las filas. 

Sin embargo, las filas también pueden ser identificadas por strings como las columnas por enteros

In [3]:
# para abrir archivos excel y visualizar hay que instalar esta dependencia extra
!pip install pandas openpyxl matplotlib plotly statsmodels



In [4]:
import pandas as pd

# utilidad para mostrar todas las columnas
pd.set_option("display.max_columns", None)


df = pd.read_excel("./resources/dataset.xlsx", header=1, index_col=0)
df

Unnamed: 0_level_0,Dwellings without basic facilities,Housing expenditure,Rooms per person,Household net adjusted disposable income,Household net wealth,Labour market insecurity,Employment rate,Long-term unemployment rate,Personal earnings,Quality of support network,Educational attainment,Student skills,Years in education,Air pollution,Water quality,Stakeholder engagement for developing regulations,Voter turnout,Life expectancy,Self-reported health,Life satisfaction,Feeling safe walking alone at night,Homicide rate,Employees working very long hours,Time devoted to leisure and personal care
Country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1
Australia,,20.0,,32759.0,427064.0,5.4,73,1.31,49126.0,95,81.0,502.0,21.0,5,93,2.7,91,82.5,85.0,7.3,63.5,1.1,13.04,14.35
Austria,0.9,21.0,1.6,33541.0,308325.0,3.5,72,1.84,50349.0,92,85.0,492.0,17.0,16,92,1.3,80,81.7,70.0,7.1,80.6,0.5,6.66,14.55
Belgium,1.9,21.0,2.2,30364.0,386006.0,3.7,63,3.54,49675.0,91,77.0,503.0,19.3,15,84,2.0,89,81.5,74.0,6.9,70.1,1.0,4.75,15.7
Canada,0.2,22.0,2.6,30854.0,423849.0,6.0,73,0.77,47622.0,93,91.0,523.0,17.3,7,91,2.9,68,81.9,88.0,7.4,82.2,1.3,3.69,14.56
Chile,9.4,18.0,1.2,,100967.0,8.7,63,,25879.0,85,65.0,443.0,17.5,16,71,1.3,47,79.9,57.0,6.5,47.9,4.2,9.72,
Colombia,23.9,17.0,1.2,,,,67,0.79,,89,54.0,410.0,14.1,10,75,1.4,53,76.2,,6.3,44.4,24.5,26.56,
Czech Republic,0.7,24.0,1.4,21453.0,,3.1,74,1.04,25372.0,91,94.0,491.0,17.9,20,87,1.6,61,79.1,60.0,6.7,72.3,0.5,5.65,
Denmark,0.5,23.0,1.9,29606.0,118637.0,4.2,74,1.31,51466.0,95,81.0,504.0,19.5,9,95,2.0,86,80.9,71.0,7.6,83.5,0.6,2.34,15.87
Estonia,7.0,17.0,1.6,19697.0,159373.0,3.8,74,1.92,24336.0,92,89.0,524.0,17.7,8,84,2.7,64,77.8,53.0,5.7,69.0,3.1,2.42,14.9
Finland,0.5,23.0,1.9,29943.0,200827.0,3.9,70,2.13,42964.0,95,88.0,523.0,19.8,6,95,2.2,67,81.5,70.0,7.6,85.1,1.3,3.81,15.17


---

## 2.- Lo Básico

A continuación veremos los atributos y métodos básicos de un DataFrame.

### Atributos

#### Columnas

Podemos ver los nombres de las columnas de nuestro `DataFrame` a través de `df.columns`

In [7]:
df.columns

Index(['Dwellings without basic facilities', 'Housing expenditure',
       'Rooms per person', 'Household net adjusted disposable income',
       'Household net wealth', 'Labour market insecurity', 'Employment rate',
       'Long-term unemployment rate', 'Personal earnings',
       'Quality of support network', 'Educational attainment',
       'Student skills', 'Years in education', 'Air pollution',
       'Water quality', 'Stakeholder engagement for developing regulations',
       'Voter turnout', 'Life expectancy', 'Self-reported health',
       'Life satisfaction', 'Feeling safe walking alone at night',
       'Homicide rate', 'Employees working very long hours',
       'Time devoted to leisure and personal care'],
      dtype='object')

#### Índices

Podemos ver los indices de las filas de nuestro `DataFrame` a través de `df.index`

In [8]:
df.index

Index(['Australia', 'Austria', 'Belgium', 'Canada', 'Chile', 'Colombia',
       'Czech Republic', 'Denmark', 'Estonia', 'Finland', 'France', 'Germany',
       'Greece', 'Hungary', 'Iceland', 'Ireland', 'Israel', 'Italy', 'Japan',
       'Korea', 'Latvia', 'Lithuania', 'Luxembourg', 'Mexico', 'Netherlands',
       'New Zealand', 'Norway', 'Poland', 'Portugal', 'Slovak Republic',
       'Slovenia', 'Spain', 'Sweden', 'Switzerland', 'Turkey',
       'United Kingdom', 'United States', 'OECD - Total', 'Brazil', 'Russia',
       'South Africa'],
      dtype='object', name='Country')

#### Largo (cántidad de filas)

In [9]:
len(df)

41

#### Shape

In [10]:
df.shape

(41, 24)

### Información General del Dataframe

In [11]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 41 entries, Australia to South Africa
Data columns (total 24 columns):
 #   Column                                             Non-Null Count  Dtype  
---  ------                                             --------------  -----  
 0   Dwellings without basic facilities                 38 non-null     float64
 1   Housing expenditure                                39 non-null     float64
 2   Rooms per person                                   38 non-null     float64
 3   Household net adjusted disposable income           30 non-null     float64
 4   Household net wealth                               29 non-null     float64
 5   Labour market insecurity                           34 non-null     float64
 6   Employment rate                                    41 non-null     int64  
 7   Long-term unemployment rate                        39 non-null     float64
 8   Personal earnings                                  36 non-null     float64
 9  

### Selección de Algunos Elementos

In [13]:
df

Unnamed: 0_level_0,Dwellings without basic facilities,Housing expenditure,Rooms per person,Household net adjusted disposable income,Household net wealth,Labour market insecurity,Employment rate,Long-term unemployment rate,Personal earnings,Quality of support network,Educational attainment,Student skills,Years in education,Air pollution,Water quality,Stakeholder engagement for developing regulations,Voter turnout,Life expectancy,Self-reported health,Life satisfaction,Feeling safe walking alone at night,Homicide rate,Employees working very long hours,Time devoted to leisure and personal care
Country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1
Australia,,20.0,,32759.0,427064.0,5.4,73,1.31,49126.0,95,81.0,502.0,21.0,5,93,2.7,91,82.5,85.0,7.3,63.5,1.1,13.04,14.35
Austria,0.9,21.0,1.6,33541.0,308325.0,3.5,72,1.84,50349.0,92,85.0,492.0,17.0,16,92,1.3,80,81.7,70.0,7.1,80.6,0.5,6.66,14.55
Belgium,1.9,21.0,2.2,30364.0,386006.0,3.7,63,3.54,49675.0,91,77.0,503.0,19.3,15,84,2.0,89,81.5,74.0,6.9,70.1,1.0,4.75,15.7
Canada,0.2,22.0,2.6,30854.0,423849.0,6.0,73,0.77,47622.0,93,91.0,523.0,17.3,7,91,2.9,68,81.9,88.0,7.4,82.2,1.3,3.69,14.56
Chile,9.4,18.0,1.2,,100967.0,8.7,63,,25879.0,85,65.0,443.0,17.5,16,71,1.3,47,79.9,57.0,6.5,47.9,4.2,9.72,
Colombia,23.9,17.0,1.2,,,,67,0.79,,89,54.0,410.0,14.1,10,75,1.4,53,76.2,,6.3,44.4,24.5,26.56,
Czech Republic,0.7,24.0,1.4,21453.0,,3.1,74,1.04,25372.0,91,94.0,491.0,17.9,20,87,1.6,61,79.1,60.0,6.7,72.3,0.5,5.65,
Denmark,0.5,23.0,1.9,29606.0,118637.0,4.2,74,1.31,51466.0,95,81.0,504.0,19.5,9,95,2.0,86,80.9,71.0,7.6,83.5,0.6,2.34,15.87
Estonia,7.0,17.0,1.6,19697.0,159373.0,3.8,74,1.92,24336.0,92,89.0,524.0,17.7,8,84,2.7,64,77.8,53.0,5.7,69.0,3.1,2.42,14.9
Finland,0.5,23.0,1.9,29943.0,200827.0,3.9,70,2.13,42964.0,95,88.0,523.0,19.8,6,95,2.2,67,81.5,70.0,7.6,85.1,1.3,3.81,15.17


#### Head

Trae los primeros n elementos


In [12]:
df.head(5)

Unnamed: 0_level_0,Dwellings without basic facilities,Housing expenditure,Rooms per person,Household net adjusted disposable income,Household net wealth,Labour market insecurity,Employment rate,Long-term unemployment rate,Personal earnings,Quality of support network,Educational attainment,Student skills,Years in education,Air pollution,Water quality,Stakeholder engagement for developing regulations,Voter turnout,Life expectancy,Self-reported health,Life satisfaction,Feeling safe walking alone at night,Homicide rate,Employees working very long hours,Time devoted to leisure and personal care
Country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1
Australia,,20.0,,32759.0,427064.0,5.4,73,1.31,49126.0,95,81.0,502.0,21.0,5,93,2.7,91,82.5,85.0,7.3,63.5,1.1,13.04,14.35
Austria,0.9,21.0,1.6,33541.0,308325.0,3.5,72,1.84,50349.0,92,85.0,492.0,17.0,16,92,1.3,80,81.7,70.0,7.1,80.6,0.5,6.66,14.55
Belgium,1.9,21.0,2.2,30364.0,386006.0,3.7,63,3.54,49675.0,91,77.0,503.0,19.3,15,84,2.0,89,81.5,74.0,6.9,70.1,1.0,4.75,15.7
Canada,0.2,22.0,2.6,30854.0,423849.0,6.0,73,0.77,47622.0,93,91.0,523.0,17.3,7,91,2.9,68,81.9,88.0,7.4,82.2,1.3,3.69,14.56
Chile,9.4,18.0,1.2,,100967.0,8.7,63,,25879.0,85,65.0,443.0,17.5,16,71,1.3,47,79.9,57.0,6.5,47.9,4.2,9.72,


#### Tail

Trae los últimos n elementos


In [14]:
df.tail(5)

Unnamed: 0_level_0,Dwellings without basic facilities,Housing expenditure,Rooms per person,Household net adjusted disposable income,Household net wealth,Labour market insecurity,Employment rate,Long-term unemployment rate,Personal earnings,Quality of support network,Educational attainment,Student skills,Years in education,Air pollution,Water quality,Stakeholder engagement for developing regulations,Voter turnout,Life expectancy,Self-reported health,Life satisfaction,Feeling safe walking alone at night,Homicide rate,Employees working very long hours,Time devoted to leisure and personal care
Country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1
United States,0.1,19.0,2.4,45284.0,632100.0,7.7,70,0.66,60558.0,91,91.0,488.0,17.2,10,83,3.1,65,78.6,88.0,6.9,73.9,5.5,11.09,14.44
OECD - Total,4.4,20.0,1.8,33604.0,408376.0,7.0,68,1.78,43241.0,89,78.0,486.0,17.2,14,81,2.4,68,80.2,69.0,6.5,68.4,3.7,11.01,14.98
Brazil,6.7,,,,,,61,,,90,49.0,395.0,16.2,10,73,2.2,79,74.8,,6.4,35.6,26.7,7.13,
Russia,14.8,18.0,0.9,,,,70,1.59,,89,94.0,492.0,16.2,15,55,,68,71.8,43.0,5.8,52.8,9.6,0.14,
South Africa,37.0,18.0,,,,,43,16.46,,88,73.0,,,22,67,,73,57.5,,4.7,36.1,13.7,18.12,14.92


#### Sample

Entrega n filas aleatorias

In [16]:
df.sample(5)

Unnamed: 0_level_0,Dwellings without basic facilities,Housing expenditure,Rooms per person,Household net adjusted disposable income,Household net wealth,Labour market insecurity,Employment rate,Long-term unemployment rate,Personal earnings,Quality of support network,Educational attainment,Student skills,Years in education,Air pollution,Water quality,Stakeholder engagement for developing regulations,Voter turnout,Life expectancy,Self-reported health,Life satisfaction,Feeling safe walking alone at night,Homicide rate,Employees working very long hours,Time devoted to leisure and personal care
Country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1
Slovak Republic,1.2,23.0,1.1,20474.0,119696.0,9.9,66,4.78,24328.0,91,91.0,463.0,15.8,21,85,3.0,60,77.3,66.0,6.2,63.5,0.8,4.14,
France,0.5,21.0,1.8,31304.0,280653.0,7.6,65,4.0,43755.0,90,78.0,496.0,16.5,13,81,2.1,75,82.4,66.0,6.5,70.5,0.5,7.67,16.36
Poland,3.0,22.0,1.1,19814.0,210991.0,5.7,66,1.52,27046.0,86,92.0,504.0,17.6,22,82,2.6,55,78.0,58.0,6.1,67.3,0.7,5.95,14.42
Switzerland,0.1,22.0,1.9,37466.0,,,80,1.82,62283.0,93,88.0,506.0,17.5,15,95,2.3,49,83.7,78.0,7.5,85.3,0.6,0.37,
Denmark,0.5,23.0,1.9,29606.0,118637.0,4.2,74,1.31,51466.0,95,81.0,504.0,19.5,9,95,2.0,86,80.9,71.0,7.6,83.5,0.6,2.34,15.87


> **Pregunta ❓** Existe alguna forma de repetir el mismo muestreo aleatorio de datos?

In [23]:
df.sample(5, random_state=2)

Unnamed: 0_level_0,Dwellings without basic facilities,Housing expenditure,Rooms per person,Household net adjusted disposable income,Household net wealth,Labour market insecurity,Employment rate,Long-term unemployment rate,Personal earnings,Quality of support network,Educational attainment,Student skills,Years in education,Air pollution,Water quality,Stakeholder engagement for developing regulations,Voter turnout,Life expectancy,Self-reported health,Life satisfaction,Feeling safe walking alone at night,Homicide rate,Employees working very long hours,Time devoted to leisure and personal care
Country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1
Poland,3.0,22.0,1.1,19814.0,210991.0,5.7,66,1.52,27046.0,86,92.0,504.0,17.6,22,82,2.6,55,78.0,58.0,6.1,67.3,0.7,5.95,14.42
Finland,0.5,23.0,1.9,29943.0,200827.0,3.9,70,2.13,42964.0,95,88.0,523.0,19.8,6,95,2.2,67,81.5,70.0,7.6,85.1,1.3,3.81,15.17
Iceland,0.0,24.0,1.6,,,0.7,86,0.26,61787.0,98,77.0,481.0,19.0,3,99,2.1,79,82.3,76.0,7.5,86.0,0.5,15.06,
Australia,,20.0,,32759.0,427064.0,5.4,73,1.31,49126.0,95,81.0,502.0,21.0,5,93,2.7,91,82.5,85.0,7.3,63.5,1.1,13.04,14.35
Belgium,1.9,21.0,2.2,30364.0,386006.0,3.7,63,3.54,49675.0,91,77.0,503.0,19.3,15,84,2.0,89,81.5,74.0,6.9,70.1,1.0,4.75,15.7


> **Pregunta ❓** ¿Cuál es la unidad más básica que los `DataFrames`?

In [24]:
df.values

array([[        nan, 2.00000e+01,         nan, 3.27590e+04, 4.27064e+05,
        5.40000e+00, 7.30000e+01, 1.31000e+00, 4.91260e+04, 9.50000e+01,
        8.10000e+01, 5.02000e+02, 2.10000e+01, 5.00000e+00, 9.30000e+01,
        2.70000e+00, 9.10000e+01, 8.25000e+01, 8.50000e+01, 7.30000e+00,
        6.35000e+01, 1.10000e+00, 1.30400e+01, 1.43500e+01],
       [9.00000e-01, 2.10000e+01, 1.60000e+00, 3.35410e+04, 3.08325e+05,
        3.50000e+00, 7.20000e+01, 1.84000e+00, 5.03490e+04, 9.20000e+01,
        8.50000e+01, 4.92000e+02, 1.70000e+01, 1.60000e+01, 9.20000e+01,
        1.30000e+00, 8.00000e+01, 8.17000e+01, 7.00000e+01, 7.10000e+00,
        8.06000e+01, 5.00000e-01, 6.66000e+00, 1.45500e+01],
       [1.90000e+00, 2.10000e+01, 2.20000e+00, 3.03640e+04, 3.86006e+05,
        3.70000e+00, 6.30000e+01, 3.54000e+00, 4.96750e+04, 9.10000e+01,
        7.70000e+01, 5.03000e+02, 1.93000e+01, 1.50000e+01, 8.40000e+01,
        2.00000e+00, 8.90000e+01, 8.15000e+01, 7.40000e+01, 6.90000e+00,
  

---

## 3.- `Series`

Los objetos tipo `pd.Series` son los objetos base de los DataFrames. Estos consisten en un arreglo unidimensional (que puede contener una sucesión de valores u objetos) asociados a un índice. Además, opcionalmente pueden llevar un nombre (que sería el equivalente al nombre de la columna de un DataFrame).

In [25]:
serie = pd.Series([1, 9, 7, -5, 3, 10], name="Mi serie")
serie

0     1
1     9
2     7
3    -5
4     3
5    10
Name: Mi serie, dtype: int64

### Atributos básicos

In [26]:
serie.values

array([ 1,  9,  7, -5,  3, 10])

In [27]:
serie.index

RangeIndex(start=0, stop=6, step=1)

In [28]:
serie.dtype

dtype('int64')

In [29]:
serie.name

'Mi serie'

In [30]:
serie.shape

(6,)

### Indexado de Series

Podemos acceder a cualquier elemento de una serie usando los mismos principios de indexado que en `numpy`:

In [31]:
serie

0     1
1     9
2     7
3    -5
4     3
5    10
Name: Mi serie, dtype: int64

In [32]:
serie[0]

1

In [33]:
serie[0:2]

0    1
1    9
Name: Mi serie, dtype: int64

In [34]:
serie[0:4]

0    1
1    9
2    7
3   -5
Name: Mi serie, dtype: int64

---

## 4.- Indexado de DataFrames

En esta sección veremos como seleccionar filas y columnas a través de distintos tipos de indexados.

<img src="./resources/subsets.png" alt="OECD Better life index"/>

In [35]:
df.head(5)

Unnamed: 0_level_0,Dwellings without basic facilities,Housing expenditure,Rooms per person,Household net adjusted disposable income,Household net wealth,Labour market insecurity,Employment rate,Long-term unemployment rate,Personal earnings,Quality of support network,Educational attainment,Student skills,Years in education,Air pollution,Water quality,Stakeholder engagement for developing regulations,Voter turnout,Life expectancy,Self-reported health,Life satisfaction,Feeling safe walking alone at night,Homicide rate,Employees working very long hours,Time devoted to leisure and personal care
Country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1
Australia,,20.0,,32759.0,427064.0,5.4,73,1.31,49126.0,95,81.0,502.0,21.0,5,93,2.7,91,82.5,85.0,7.3,63.5,1.1,13.04,14.35
Austria,0.9,21.0,1.6,33541.0,308325.0,3.5,72,1.84,50349.0,92,85.0,492.0,17.0,16,92,1.3,80,81.7,70.0,7.1,80.6,0.5,6.66,14.55
Belgium,1.9,21.0,2.2,30364.0,386006.0,3.7,63,3.54,49675.0,91,77.0,503.0,19.3,15,84,2.0,89,81.5,74.0,6.9,70.1,1.0,4.75,15.7
Canada,0.2,22.0,2.6,30854.0,423849.0,6.0,73,0.77,47622.0,93,91.0,523.0,17.3,7,91,2.9,68,81.9,88.0,7.4,82.2,1.3,3.69,14.56
Chile,9.4,18.0,1.2,,100967.0,8.7,63,,25879.0,85,65.0,443.0,17.5,16,71,1.3,47,79.9,57.0,6.5,47.9,4.2,9.72,


### Acceder a una serie en específico



Volviendo a nuestro ejemplo, podemos acceder a las series de nuestro Dataset por medio de un indexador al cual se le provee el nombre de alguna columna. 

Por ejemplo:

> **Water quality 💧**: Porcentaje de personas que informan estar satisfechas con la calidad del agua local


In [36]:
df['Water quality']

Country
Australia          93
Austria            92
Belgium            84
Canada             91
Chile              71
Colombia           75
Czech Republic     87
Denmark            95
Estonia            84
Finland            95
France             81
Germany            91
Greece             69
Hungary            77
Iceland            99
Ireland            85
Israel             67
Italy              71
Japan              87
Korea              76
Latvia             79
Lithuania          81
Luxembourg         84
Mexico             68
Netherlands        93
New Zealand        89
Norway             98
Poland             82
Portugal           86
Slovak Republic    85
Slovenia           90
Spain              72
Sweden             96
Switzerland        95
Turkey             65
United Kingdom     84
United States      83
OECD - Total       81
Brazil             73
Russia             55
South Africa       67
Name: Water quality, dtype: int64

### Selector de Columnas

Veamos ahora cómo seleccionar un par de columnas en particular, como por ejemplo:

> **Water quality 💧**: Porcentaje de personas que informan estar satisfechas con la calidad del agua local

> **Air Pollution 🏙️**: Concentración promedio de partículas (PM2.5) en ciudades con poblaciones mayores de 100,000 personas


In [38]:
df[['Water quality', 'Air pollution']]

Unnamed: 0_level_0,Water quality,Air pollution
Country,Unnamed: 1_level_1,Unnamed: 2_level_1
Australia,93,5
Austria,92,16
Belgium,84,15
Canada,91,7
Chile,71,16
Colombia,75,10
Czech Republic,87,20
Denmark,95,9
Estonia,84,8
Finland,95,6


### Selector de filas

Para seleccionar filas, podemos entregar un indexador de filas al estilo `numpy`:


In [40]:
df[0:10]

Unnamed: 0_level_0,Dwellings without basic facilities,Housing expenditure,Rooms per person,Household net adjusted disposable income,Household net wealth,Labour market insecurity,Employment rate,Long-term unemployment rate,Personal earnings,Quality of support network,Educational attainment,Student skills,Years in education,Air pollution,Water quality,Stakeholder engagement for developing regulations,Voter turnout,Life expectancy,Self-reported health,Life satisfaction,Feeling safe walking alone at night,Homicide rate,Employees working very long hours,Time devoted to leisure and personal care
Country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1
Australia,,20.0,,32759.0,427064.0,5.4,73,1.31,49126.0,95,81.0,502.0,21.0,5,93,2.7,91,82.5,85.0,7.3,63.5,1.1,13.04,14.35
Austria,0.9,21.0,1.6,33541.0,308325.0,3.5,72,1.84,50349.0,92,85.0,492.0,17.0,16,92,1.3,80,81.7,70.0,7.1,80.6,0.5,6.66,14.55
Belgium,1.9,21.0,2.2,30364.0,386006.0,3.7,63,3.54,49675.0,91,77.0,503.0,19.3,15,84,2.0,89,81.5,74.0,6.9,70.1,1.0,4.75,15.7
Canada,0.2,22.0,2.6,30854.0,423849.0,6.0,73,0.77,47622.0,93,91.0,523.0,17.3,7,91,2.9,68,81.9,88.0,7.4,82.2,1.3,3.69,14.56
Chile,9.4,18.0,1.2,,100967.0,8.7,63,,25879.0,85,65.0,443.0,17.5,16,71,1.3,47,79.9,57.0,6.5,47.9,4.2,9.72,
Colombia,23.9,17.0,1.2,,,,67,0.79,,89,54.0,410.0,14.1,10,75,1.4,53,76.2,,6.3,44.4,24.5,26.56,
Czech Republic,0.7,24.0,1.4,21453.0,,3.1,74,1.04,25372.0,91,94.0,491.0,17.9,20,87,1.6,61,79.1,60.0,6.7,72.3,0.5,5.65,
Denmark,0.5,23.0,1.9,29606.0,118637.0,4.2,74,1.31,51466.0,95,81.0,504.0,19.5,9,95,2.0,86,80.9,71.0,7.6,83.5,0.6,2.34,15.87
Estonia,7.0,17.0,1.6,19697.0,159373.0,3.8,74,1.92,24336.0,92,89.0,524.0,17.7,8,84,2.7,64,77.8,53.0,5.7,69.0,3.1,2.42,14.9
Finland,0.5,23.0,1.9,29943.0,200827.0,3.9,70,2.13,42964.0,95,88.0,523.0,19.8,6,95,2.2,67,81.5,70.0,7.6,85.1,1.3,3.81,15.17


> **Pregunta ❓**: ¿Cómo seleccionamos al mismo tiempo filas y columnas?

In [45]:
df[['Water quality']][9: 10]

Unnamed: 0_level_0,Water quality
Country,Unnamed: 1_level_1
Finland,95


In [None]:
df[[filas], [columnas]]

In [None]:
df.loc[0: 3, [2, 4]]

### Loc: Indexador por etiquetas

Permite acceder ciertos elementos por nombre de columnas y nombre de índices

In [46]:
df.loc[
    ["Chile", "Mexico", "Brazil", "Colombia"], # <- filas
    ["Water quality", "Air pollution"]         # <- columnas
]

Unnamed: 0_level_0,Water quality,Air pollution
Country,Unnamed: 1_level_1,Unnamed: 2_level_1
Chile,71,16
Mexico,68,16
Brazil,73,10
Colombia,75,10


In [47]:
df.loc[
    ["Chile", "Mexico", "Brazil", "Colombia"], # <- filas
    :                                          # <- columnas
]

Unnamed: 0_level_0,Dwellings without basic facilities,Housing expenditure,Rooms per person,Household net adjusted disposable income,Household net wealth,Labour market insecurity,Employment rate,Long-term unemployment rate,Personal earnings,Quality of support network,Educational attainment,Student skills,Years in education,Air pollution,Water quality,Stakeholder engagement for developing regulations,Voter turnout,Life expectancy,Self-reported health,Life satisfaction,Feeling safe walking alone at night,Homicide rate,Employees working very long hours,Time devoted to leisure and personal care
Country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1
Chile,9.4,18.0,1.2,,100967.0,8.7,63,,25879.0,85,65.0,443.0,17.5,16,71,1.3,47,79.9,57.0,6.5,47.9,4.2,9.72,
Mexico,25.5,20.0,1.0,,,5.5,61,0.07,15314.0,81,38.0,416.0,15.2,16,68,3.2,63,75.4,66.0,6.5,41.8,18.1,28.7,
Brazil,6.7,,,,,,61,,,90,49.0,395.0,16.2,10,73,2.2,79,74.8,,6.4,35.6,26.7,7.13,
Colombia,23.9,17.0,1.2,,,,67,0.79,,89,54.0,410.0,14.1,10,75,1.4,53,76.2,,6.3,44.4,24.5,26.56,


In [48]:
df.loc[
    :                                        , # <- filas
    ["Water quality", "Air pollution"]         # <- columnas
]

Unnamed: 0_level_0,Water quality,Air pollution
Country,Unnamed: 1_level_1,Unnamed: 2_level_1
Australia,93,5
Austria,92,16
Belgium,84,15
Canada,91,7
Chile,71,16
Colombia,75,10
Czech Republic,87,20
Denmark,95,9
Estonia,84,8
Finland,95,6


> **Pregunta ❓**: Y si queremos usar filas con indexadores numéricos?

In [49]:
# no funcionaba porque nuestros índices son los países, no números.
df.loc[[5, 7, 12], :]

KeyError: "None of [Int64Index([5, 7, 12], dtype='int64', name='Country')] are in the [index]"

In [52]:
df.loc[0:5, ["Water quality", "Air pollution"]]

TypeError: cannot do slice indexing on Index with these indexers [0] of type int

### Iloc: Indexador por Índices

Para seleccionar por índices debemos utilizar otro tipo de indexador: `iloc`

In [51]:
df.iloc[8:12, :]

Unnamed: 0_level_0,Dwellings without basic facilities,Housing expenditure,Rooms per person,Household net adjusted disposable income,Household net wealth,Labour market insecurity,Employment rate,Long-term unemployment rate,Personal earnings,Quality of support network,Educational attainment,Student skills,Years in education,Air pollution,Water quality,Stakeholder engagement for developing regulations,Voter turnout,Life expectancy,Self-reported health,Life satisfaction,Feeling safe walking alone at night,Homicide rate,Employees working very long hours,Time devoted to leisure and personal care
Country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1
Estonia,7.0,17.0,1.6,19697.0,159373.0,3.8,74,1.92,24336.0,92,89.0,524.0,17.7,8,84,2.7,64,77.8,53.0,5.7,69.0,3.1,2.42,14.9
Finland,0.5,23.0,1.9,29943.0,200827.0,3.9,70,2.13,42964.0,95,88.0,523.0,19.8,6,95,2.2,67,81.5,70.0,7.6,85.1,1.3,3.81,15.17
France,0.5,21.0,1.8,31304.0,280653.0,7.6,65,4.0,43755.0,90,78.0,496.0,16.5,13,81,2.1,75,82.4,66.0,6.5,70.5,0.5,7.67,16.36
Germany,0.2,20.0,1.8,34294.0,259667.0,2.7,75,1.57,47585.0,90,87.0,508.0,18.1,14,91,1.8,76,81.1,65.0,7.0,72.5,0.5,4.26,15.62


In [56]:
df.iloc[:, 0:3]

Unnamed: 0_level_0,Dwellings without basic facilities,Housing expenditure,Rooms per person
Country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Australia,,20.0,
Austria,0.9,21.0,1.6
Belgium,1.9,21.0,2.2
Canada,0.2,22.0,2.6
Chile,9.4,18.0,1.2
Colombia,23.9,17.0,1.2
Czech Republic,0.7,24.0,1.4
Denmark,0.5,23.0,1.9
Estonia,7.0,17.0,1.6
Finland,0.5,23.0,1.9


In [57]:
df.iloc[:, [14]]

Unnamed: 0_level_0,Water quality
Country,Unnamed: 1_level_1
Australia,93
Austria,92
Belgium,84
Canada,91
Chile,71
Colombia,75
Czech Republic,87
Denmark,95
Estonia,84
Finland,95


### Mascaras 🎭: Selección por Booleanos


Una operación interesante de selcción es usar un arreglo de booleanos para seleccionar datos.

In [None]:
len(df)

> **Pregunta ❓**: ¿Cómo podríamos obtener aquellos países cuya 80% o más de su población estén conformes con la calidad del agua?

In [62]:
mascara = df["Water quality"] >= 101
mascara

Country
Australia          False
Austria            False
Belgium            False
Canada             False
Chile              False
Colombia           False
Czech Republic     False
Denmark            False
Estonia            False
Finland            False
France             False
Germany            False
Greece             False
Hungary            False
Iceland            False
Ireland            False
Israel             False
Italy              False
Japan              False
Korea              False
Latvia             False
Lithuania          False
Luxembourg         False
Mexico             False
Netherlands        False
New Zealand        False
Norway             False
Poland             False
Portugal           False
Slovak Republic    False
Slovenia           False
Spain              False
Sweden             False
Switzerland        False
Turkey             False
United Kingdom     False
United States      False
OECD - Total       False
Brazil             False
Russia           

In [65]:
df.loc[mascara, ['Water quality']]

Unnamed: 0_level_0,Water quality
Country,Unnamed: 1_level_1
