
# Clase 8: Introducción a Manejo de Datos Tabulares con Pandas

**MDS7202: Laboratorio de Programación Científica para Ciencia de Datos**


### Objetivos de la clase

- Introducir los datos estructurados de forma tabular.
- Comprender los aspectos introductorios de `pandas`: `Series` y `DataFrames`.
- Indexado y operaciones básicas en `DataFrames`.
- Filtrados y queries. 


# Motivación

Primero, se presentará el dataset con el cuál estaremos trabajando durante la clase y luego, vendrán unas preguntas interesantes al respecto.




### Índices para una Vida Mejor

Para explicar `pandas`, analizaremos datos de la OECD, en particular de los índices para una Vida Mejor:


<img src="https://raw.githubusercontent.com/MDS7202/MDS7202/main/recursos/2023-01/08-Pandas1/oecd.png" alt="OECD Better life index"/>


http://www.oecdbetterlifeindex.org/

https://stats.oecd.org/Index.aspx?DataSetCode=BLI

Son 11 temas considerados como esenciales para el bienestar de la población. Cada crierio contiene uno o mas indicadores

| Tema | Indicador (Inglés) | Indicador (Español) | Unidad | Descripción |
|---|---|---|---|---|
| Vivienda 🏠 | Dwellings without basic facilities | Vivienda con Instalaciones Básicas | Porcentaje | Porcentaje de personas con inodoros de agua corriente dentro del hogar, año disponible más reciente |
|  | Housing expenditure | Gastos en Vivienda | Porcentaje | Proporción de costos de vivienda en el ingreso neto ajustado de las familias, año disponible más reciente |
|  | Rooms per person | Habitaciones por Persona | Ratio | Número promedio de habitaciones compartidas por persona en una vivienda, año disponible más reciente |
| Ingresos 💰 | Household net adjusted disposable income | Ingreso Familiar Disponible | US Dollar | Cantidad promedio de dinero que una familia gana al año, después de impuestos, año disponible más reciente |
|  | Household net wealth | Patrimonio Neto Familiar | US Dollar | Valor total promedio de los activos financieros de una familia (ahorros, acciones) menos sus pasivos (créditos), año disponible más reciente |
| Empleo ⚙️ | Labour market insecurity | Seguridad en el Empleo | Porcentaje | Pérdida esperada de ingresos cuando alguien queda desempleado, año disponible más reciente |
|  | Employment rate | Tasa de Empleo | Porcentaje | Porcentaje de personas, de 15 a 64 años de edad, actualmente con empleo remunerado, año disponible más reciente |
|  | Long-term unemployment rate | Tasa de Empleo a Largo Plazo | Porcentaje | Porcentaje de personas, de 15 a 64 años de edad, que no trabajan pero que han buscado empleo activamente durante más de un año, año disponible más reciente |
|  | Personal earnings | Ingresos Personales | US Dollar | Ingresos anuales promedio por empleado de tiempo completo, año disponible más reciente |
| Comunidad 🧑‍🤝‍🧑   | Quality of support network  | Calidad del Apoyo Social | Porcentaje | Porcentaje de personas con amigos o parientes en quienes confiar en caso de necesidad |
| Educación 📚 | Educational attainment | Nivel de Educación | Porcentaje | Porcentaje de personas, de 25 a 64 años de edad, graduadas por lo menos de educación media superior, año disponible más reciente |
|  | Student skills | Competencias de estudiantes en matemáticas, lectura y ciencias | Puntaje promedio | Desempeño promedio de estudiantes de 15 años de edad, según PISA (Programa para la Evaluación Internacional de Estudiantes) |
|  | Years in education  | Nivel de educación | Años | Duración promedio de la educación formal en la que un niño de cinco años de edad puede esperar matricularse durante su vida |
| Medio Ambiente 🌳 | Air pollution | Contaminación del Aire | Microgramos por metro cúbico | Concentración promedio de partículas (PM2.5) en ciudades con poblaciones mayores de 100,000 personas, medida en microgramos por metro cúbico, año disponible más reciente |
|  | Water quality | Calidad del Agua | Porcentaje | Porcentaje de personas que informan estar satisfechas con la calidad del agua local |
| Compromiso Cívico 🗳️  | Stakeholder engagement for developing regulations | Participación de los interesados en la elaboración de regulaciones | Puntaje promedio | Nivel de transparencia gubernamental al preparar las regulaciones, año disponible más reciente |
|  | Voter turnout | Participación electoral | Porcentaje | Porcentaje de votantes registrados que votaron durante las elecciones recientes, año disponible más reciente |
| Salud ⚕️ | Life expectancy | Esperanza de vida | Años | Número promedio de años que una persona puede esperar vivir, año disponible más reciente |
|  | Self-reported health | Salud según informan las personas | Porcentaje | Porcentaje de personas que informan que su salud es «buena o muy buena», año disponible más reciente |
| Satisfacción ✨ | Life satisfaction | Satisfacción ante la vida | Puntaje promedio | Autoevaluación promedio de satisfacción ante la vida, en una escala de 0 a 10 |
| Seguridad 🌃 | Feeling safe walking alone at night | Sentimiento de seguridad al caminar solos por la noche | Porcentaje | Porcentaje de personas que reportan sentirse seguras al caminar solas por la noche  |
|  | Homicide rate | Tasa de homicidios | Ratio | Número promedio de homicidios reportados por 100,000 personas, año disponible más reciente |
| Balance Vida Trabajo 🧘 | Employees working very long hours | Empleados que trabajan muchas horas | Porcentaje | Porcentaje de empleados que trabajan más de cincuenta horas a la semana en promedio, año disponible más reciente |
|  | Time devoted to leisure and personal care | Tiempo destinado al ocio y el cuidado personal | Horas | Número promedio de minutos al día dedicados al ocio y el cuidado personal, incluidos el sueño y la alimentación |

---

**Hasta el momento, todos los datos con los que hemos trabajado:**


### 1. Los hemos ingresado a mano

En este caso, tendríamos que copiar y pegar los datos en formato arreglo de forma manual. 

Por ejemplo, las 10 primeras filas del dataset de la OECD de las columnas:

- Air pollution
- Dwellings without basic facilities
- Educational attainment
- Employees working very long hours
- Employment rate



In [None]:
import numpy as np

datos = np.array(
    [
        [5.0, np.nan, 81.0, 12.84, 73.0],
        [16.0, 0.9, 85.0, 6.59, 72.0],
        [15.0, 1.9, 77.0, 4.7, 63.33],
        [10.0, 6.7, 49.0, 7.01, 61.0],
        [7.0, 0.2, 91.33, 3.67, 73.33],
        [16.0, 9.4, 65.0, 9.32, 62.67],
        [10.0, 23.9, 54.0, 26.01, 67.0],
        [20.0, 0.7, 93.67, 5.5, 73.67],
        [9.0, 0.5, 81.0, 2.32, 74.0],
        [8.0, 7.0, 88.67, 2.44, 74.0],
    ]
)

datos


> **Pregunta ❓**: Entonces, ¿Cómo en numpy podría leer una planilla Excel? ¿Y un archivo json? ¿O un CSV? ¿ O una base de datos?

### 2. Solo hemos usado números

> **Pregunta ❓**: ¿Cómo puedo operar strings en numpy?

En este caso, me gustaría agregar una nueva columna a los datos: el oaís que describen los valores:

In [None]:
pais = np.array([
    "Australia",
    "Austria",
    "Belgium",
    "Brazil",
    "Canada",
    "Chile",
    "Colombia",
    "Czech Republic",
    "Denmark",
    "Estonia",
])

Pero recuerden que para que numpy funcione eficientemente, los arreglos deben ser homogeneos, es decir, del mismo tipo.

> **Pregunta: ❓** ¿Qué consecuencias podría traer el agregar esta nueva columna a los datos?

In [None]:
pais

In [None]:
nuevos_datos = np.concatenate([pais[:, np.newaxis], datos], axis=1)
nuevos_datos



In [None]:
nuevos_datos.mean(axis=1)

### 3. Trabajamos solo con índices para obtener datos.

> **Pregunta ❓** : ¿Y si mis filas o columnas tuvieran nombre (un string), cómo las podría agregar a numpy?

In [None]:
columnas = [
    "Country",
    "Air pollution",
    "Dwellings without basic facilities",
    "Educational attainment",
    "Employees working very long hours",
    "Employment rate",
]


Las recién listadas son un solo un par de limitaciones de `numpy` a la hora de manejar datos.

Como podemos ver, lamentablemente `numpy` carece de funcionalidades más avanzadas pero necesarias para ejecutar adecuada y eficientemente tareas de data science.

Aquí es donde entra en juego `pandas`.

---

## 1. Pandas 🐼


`Pandas` (derivado de _panel data_)  una librería para python utilizada para manejar datos tabulares. 

<div align='center'>
<img src="https://raw.githubusercontent.com/MDS7202/MDS7202/main/recursos/2023-01/08-Pandas1/dataframe.png" alt="DataFrames" style="width: 500px;"/>
</div>


Está diseñada para proveer herramientas que faciliten la exploración, limpieza y procesamiento de los datos. Su enfoque es *simplicidad y eficiencia*. Es, al igual que las librerías anteriores, *open-source*.


La base de pandas son los `DataFrames`.



Como convención, `Pandas` se importa de la siguiente manera:

In [None]:
import pandas as pd

### Entrada / Salida (IO)

La lectura de datos en `pandas` es muy sencilla: `pandas` es compatible con muchos tipos de archivos y fuentes de datos de forma nativa:

- `CSV`
- `Excel`
- `SQL`
- `JSON`
- ...

Los datos almacenados en estas fuentes pueden ser importados a `DataFrames` a través de las funcioes `read_*`

De la misma forma, es capaz de guardar los DataFrames en el formato que deseen usando las funciones `to_*`

<div align='center'>

<img src="https://raw.githubusercontent.com/MDS7202/MDS7202/main/recursos/2023-01/08-Pandas1/pandas_io.png" alt="DataFrames" style="width: 800px;"/>
</div>
    
Toda la información acerca de que puede o no leer la encuentran en la siguiente referencia: https://pandas.pydata.org/docs/user_guide/io.html

### Importar el Dataset

A continuacion, importaremos el dataset a un `DataFrame`. Noten la gran compatiblidad de `Jupyter` con los DataFrames (DF).

Cada DataFrame tiene **indices (Primera columna ) y columnas (primera fila)**. Comunmente se ocupan:

- En las columnas se ocupan `strings` que identifican el nombre de la variable.
- Enteros que identifican el número de la observación en las filas. 

Sin embargo, las filas también pueden ser identificadas por strings como las columnas por enteros

In [None]:
# para abrir archivos excel y visualizar hay que instalar esta dependencia extra
%pip install pandas openpyxl matplotlib plotly statsmodels

In [None]:
import pandas as pd

# utilidad para mostrar todas las columnas
pd.set_option("display.max_columns", None)


df = pd.read_excel(
    "./dataset.xlsx"
    , header=1, index_col=0)
df

---

## 2.- Lo Básico

A continuación veremos los atributos y métodos básicos de un DataFrame.

### Atributos

#### Columnas

Podemos ver los nombres de las columnas de nuestro `DataFrame` a través de `df.columns`

In [None]:
df.columns

#### Índices

Podemos ver los indices de las filas de nuestro `DataFrame` a través de `df.index`

In [None]:
df.index

#### Largo (cántidad de filas)

In [None]:
len(df)

#### Shape

In [None]:
df.shape

### Información General del Dataframe

In [None]:
df.info()

### Selección de Algunos Elementos

In [None]:
df

#### Head

Trae los primeros n elementos


In [None]:
df.head(5)

#### Tail

Trae los últimos n elementos


In [None]:
df.tail(5)

#### Sample

Entrega n filas aleatorias

In [None]:
df.sample(5)

> **Pregunta ❓** Existe alguna forma de repetir el mismo muestreo aleatorio de datos?

In [None]:
df.sample(5, random_state=42)

> **Pregunta ❓** ¿Cuál es la unidad más básica que los `DataFrames`?

In [None]:
df.values

---

## 3.- `Series`

Los objetos tipo `pd.Series` son los objetos base de los DataFrames. Estos consisten en un arreglo unidimensional (que puede contener una sucesión de valores u objetos) asociados a un índice. Además, opcionalmente pueden llevar un nombre (que sería el equivalente al nombre de la columna de un DataFrame).

In [None]:
serie = pd.Series([1, 9, 7, -5, 3, 10], name="Mi serie")
serie

### Atributos básicos

In [None]:
serie.values

In [None]:
serie.index

In [None]:
serie.dtype

In [None]:
serie.name

In [None]:
serie.shape

### Indexado de Series

Podemos acceder a cualquier elemento de una serie usando los mismos principios de indexado que en `numpy`:

In [None]:
serie

In [None]:
serie[0]

In [None]:
serie[0:2]

In [None]:
serie[0:4]

---

## 4.- Indexado de DataFrames

En esta sección veremos como seleccionar filas y columnas a través de distintos tipos de indexados.

<div align="center">
    <img src="https://raw.githubusercontent.com/MDS7202/MDS7202/main/recursos/2023-01/08-Pandas1/subsets.png" alt="OECD Better life index" width="800px"/>
</div>

In [None]:
df.head(5)

### Acceder a una serie en específico



Volviendo a nuestro ejemplo, podemos acceder a las series de nuestro Dataset por medio de un indexador al cual se le provee el nombre de alguna columna. 

Por ejemplo:

> **Water quality 💧**: Porcentaje de personas que informan estar satisfechas con la calidad del agua local


In [None]:
df['Water quality']

In [None]:
df['Water quality']['Chile']

### Selector de Columnas

Veamos ahora cómo seleccionar un par de columnas en particular, como por ejemplo:

> **Water quality 💧**: Porcentaje de personas que informan estar satisfechas con la calidad del agua local

> **Air Pollution 🏙️**: Concentración promedio de partículas (PM2.5) en ciudades con poblaciones mayores de 100,000 personas


In [None]:
df[['Water quality', 'Air pollution']]

### Selector de filas

Para seleccionar filas, podemos entregar un indexador de filas al estilo `numpy`:


In [None]:
df[0:10]

> **Pregunta ❓**: ¿Cómo seleccionamos al mismo tiempo filas y columnas?

In [None]:
['Water quality', 'Air pollution'][0:10]

In [None]:
a[0:2, 0]

In [None]:
df.loc[0:10, ['Water quality', 'Air pollution']]


In [None]:
df[['Water quality']][9: 10]

### Loc: Indexador por etiquetas

Permite acceder ciertos elementos por nombre de columnas y nombre de índices

In [None]:
df.loc[
    ["Chile", "Mexico", "Brazil", "Colombia"], # <- filas
    ["Water quality", "Air pollution"]         # <- columnas
]

In [None]:
df.loc[
    ["Chile", "Mexico", "Brazil", "Colombia"], # <- filas
    :                                          # <- columnas
]

In [None]:
df.loc[
    :                                        , # <- filas
    ["Water quality", "Air pollution"]         # <- columnas
]

> **Pregunta ❓**: Y si queremos usar filas con indexadores numéricos?

In [None]:
# no funcionaba porque nuestros índices son los países, no números.
df.loc[[5, 7, 12], :]

In [None]:
df.loc[0:5, ["Water quality", "Air pollution"]]

### Iloc: Indexador por Índices

Para seleccionar por índices debemos utilizar otro tipo de indexador: `iloc`

In [None]:
df.iloc[8:12, :]

In [None]:
df.iloc[:, 0:3]

In [None]:
df.iloc[:, [14]]

### Mascaras Booleanas y Consultas 🎭: Selección por Booleanos


Una operación interesante de selcción es usar un arreglo de booleanos para seleccionar datos.

In [None]:
df

> **Pregunta ❓**: ¿Cómo podríamos obtener aquellos países cuya 80% o más de su población estén conformes con la calidad del agua?

In [None]:
mask = df.loc[:, "Water quality"] == 80
mask.values

In [None]:
df.loc[mask.values, "Water quality"]

In [None]:
mascara = df["Water quality"] >= 101
mascara

In [None]:
df.loc[mascara, ['Water quality']]

In [None]:
df.loc[(df.loc[:, "Water quality"] > 80) & (df.loc[:, "Water quality"] < 94)]

---

## 5.- Operaciones con DataFrames



### `Describe`

Calcula estadísticas descriptivas ,

In [None]:
df.describe()

In [None]:
descripcion_df = df.describe()
descripcion_df

> **Pregunta ❓**: ¿Cómo obtenemos el valor promedio de la cantidad de piezas por persona `Rooms per person`

In [None]:
a[0]

In [None]:
descripcion_df.loc[['mean'], ['Rooms per person']]

In [None]:
descripcion_df.loc['mean', 'Rooms per person']

> **Pregunta: ❓**: ¿Por qué _casi_ el mismo selector dan valores distintos?

### Obtener totales

Como por ejemplo suma, promedio, media y desviación estándar.

In [None]:
df.sum()

In [None]:
df.mean()

In [None]:
df.median()

In [None]:
df.std()

> **Pregunta ❓**: ¿Y si quisiera calcular el promedio por fila?

In [None]:
df.mean(axis=1)

In [None]:
df.mean(axis=0)

### Round

In [None]:
df.describe()

Lo que vemos a continuación se conoce como `Method chaining`. 

In [None]:
df.describe().round(2)

### Contar valores

Cuenta el número de veces que aparece un valor. Útil cuanto trabajamos con datos ordinales y categóricos. **Solo funciona sobre Series**

> **Nota 📖**: Observa que en este ejemplo contamos y luego ordenamos. Esto se conoce como *Method chaining* y se ocupa bastante al usar `pandas`.

In [None]:
df.loc[:, "Time devoted to leisure and personal care"].round(0)

In [None]:
df.loc[:, "Time devoted to leisure and personal care"].round(0).value_counts()

### Ordenar datos

Ordena según filas o columnas

Para los siguientes ejemplos, usaremos los datos de medioambientales para los siguientes ejemplos:


**Environmental quality**

- Air pollution 🏙️- Contaminación atmosférica (Concentración promedio de partículas (PM2.5) en ciudades con poblaciones mayores de 100,000 personas)

- Water quality 💧 - Calidad del agua (Porcentaje de personas que informan estar satisfechas con la calidad del agua local)




In [None]:
df_ambiental = df.loc[:, ['Air pollution', 'Water quality']]
df_ambiental

> **Nota 📖**: El proceso de ordenamiento genera un nuevo `DataFrame`! En general, esto es así con la mayoría de las operaciones `DataFrames`.

Para ordenar usamos el método `sort_values` que recibe la columna sobre la cuál se quiere realizar el ordenamiento más un parámetro opcional `ascending` que en el caso de ser `True`, indica que se ordene de forma ascendente. `False` por otra parte, ordena de forma descendente.

En este caso queremos ordenar de peor a mejor calidad del agua, o sea, de forma descendente:

In [None]:
df_ambiental_ordenado = df_ambiental.sort_values("Water quality", ascending=False)
df_ambiental_ordenado

> **Pregunta ❓**: ¿Podemos ordenar por más de una columa?


In [None]:
df_ambiental.sort_values(['Water quality', 'Air pollution'])

In [None]:
df_ambiental = df_ambiental.sort_values(
    ["Water quality", "Air pollution"], ascending=False
)
df_ambiental

> **Pregunta ❓**: ¿Es correcto que las dos columnas sean ascendentes?

In [None]:
df_ambiental = df_ambiental.sort_values(
    ["Water quality", "Air pollution"], ascending=[False, True]
)
df_ambiental

### Analizar Nulos


Podemos comprobar el número de nulos por columna usando la (ya vista) función `info`.

In [None]:
df.info()

Ahora, si por ejemplo queremos seleccionar los nulos de una columna en específico, podemos usar el método `isna()`

In [None]:
df['Self-reported health']

In [None]:
df['Self-reported health'].isna()

Luego, a través de las máscaras podemos obtener las filas que contienen valores nulos a través de `.loc`: 

In [None]:
mascara = df['Self-reported health'].isna()

df.loc[mascara, ['Self-reported health']]

Como también los valores no nulos **negando** la máscara (operador `~`)

In [None]:
~df['Self-reported health'].isna()

In [None]:
mascara_2 = ~df['Self-reported health'].isna()

df.loc[mascara_2, ['Self-reported health']]

> **Pregunta ❓**: ¿Qué sucederá si ejecuto `isna()` sobre todo el dataframe?

In [None]:
df.isna()

Luego, usando esa información más el método `sum` puedo encontrar cuántos valores nulos hay por cada fila.

In [None]:
df.isna().sum()

In [None]:
df.isna().sum(axis=1)

Ahora, para descartar filas con nulos, puedo ocupar el método `dropna`

In [None]:
df.dropna()

Y si quiero descartar las filas que tengan solo `Self-reported health`?


> **Ejercicio 📝:** Visitar https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.dropna.html#pandas.DataFrame.dropna

In [None]:
df_sin_self_reported_health_nulo = df.dropna(subset=['Self-reported health'])
df_sin_self_reported_health_nulo

## Analizar Duplicados

Supongamos que por algún motivo que desconocemos, los datos traían 4 filas con etiquetadas como `Chile`

In [None]:
df_duplicados = df.copy()

# script para generar el dataframe con duplicados.
# simplemente tomo la lista de índices y cambio a mano un par de filas por Chile.
index = df_duplicados.index.tolist()
index[10] = 'Chile'
index[22] = 'Chile'
index[29] = 'Chile'

print(index)

# luego, reasigno el índice
df_duplicados.index = index
df_duplicados

> **Pregunta ❓**: Qué pasa si indexo por Chile?

In [None]:
df_duplicados.loc[['Chile'], :]

### Paréntesis: Reiniciar Índice y Renombrar Columnas

Si por algún motivo no necesitamos tener más los países (o el índice que tengamos cuándo estemos trabajando), podemos reiniciarlo usando el método `reset_index()`

In [None]:
df_duplicados

In [None]:
df_duplicados = df_duplicados.reset_index()
df_duplicados

In [None]:
# para setear una columa como indice, podemos usar set_index.
df_duplicados.set_index('Country')

In [None]:
df_duplicados = df_duplicados.rename(columns={
    'index': 'Country',
    'Employment rate': 'Tasa de empleo'
})
df_duplicados

------------------------ Fin del paréntesis ---------------------------

Retomando, para encontrar duplicados podemos hacer una operación muy similar a `isna()` usando el método `duplicated`.

In [None]:
df_duplicados.duplicated(subset=['Country'])

Luego, usando una máscara podemos seleccionar las filas duplicadas.

In [None]:
df_duplicados.loc[df_duplicados['Country'].duplicated(), :]

> **Pregunta ❓**: ¿No eran 4 filas con Chile?


Podemos ajustar con qué nos quedamos usando el argumento `keep`, que según la documentación:

```python

keep{‘first’, ‘last’, False}, default ‘first’

    Determines which duplicates (if any) to mark.

        first : Mark duplicates as True except for the first occurrence.

        last : Mark duplicates as True except for the last occurrence.

        False : Mark all duplicates as True.



```

In [None]:
df_duplicados.duplicated(subset=['Country'], keep=False)

In [None]:
df_duplicados[df_duplicados.loc[:, ['Country']].duplicated(keep=False)]

Por último, podemos ver que filas están totalmente duplicadas usando `duplicated` sobre todo el dataframe.

In [None]:
df_duplicados.duplicated()