# Curso Análisis Exploratorio de datos: explorando bases de datos

## Transformación de las bases de datos.

Si bien en la mayoría de casos las bases de datos son descargadas de fuentes oficiales (ejemplo, Banco Mundial) o recolectados a través formatos diseñados por nosotros mismos, en muchas de las ocasiones se hace necesario realizar transformaciones a nustros datos que permitan entenderlos, interpretarlos o manejarlos de una mejor manera. 

In [4]:
### Abriendo las librerías
import pandas as pd
import numpy as np

Abrimos nuevamente la base de datos (solo en caso de que no la tengas abierta):

In [None]:
from gapminder import gapminder

### Abriendo la base de datos
Recuerden que siempre queremos confirmar que la base de datos se haya abierto de manera correcta. Para eso hemos venido utilizando la función "head"; sin embargo, muy parecido a esta, la función "tails" muestra por defecto los últimos cinco datos de la base de datos en uso:

In [None]:
gapminder.tail()

### Escogiendo columnas o filas específicas
En programación existen dos operaciones llamadas "slicing" y "subseting" que permiten extraer un subconjunto de elementos de una matriz (base de datos) y los empaqueta como otra matriz, usualmente en una dimensión diferente a la original:

In [None]:
# Por ejemplo, si quisiera tomar solo la variable país "country" y crear una base con esta sola variable:
países = gapminder["country"]
países

In [None]:
# La puedo convertir en un DataFrame:
países.to_frame()

In [None]:
# También puedo escoger únicamente un conjunto de filas, para esto es importante recordar que Python está indexado
# (0-indexed) desde cero, así que para tomar el primer dato, es necesario poner el valor cero:
filas_nuevas = gapminder[0:88]
filas_nuevas

In [None]:
# O incluso tomar filas de una sola variable:
filas_variable = gapminder["pop"][0:88]
filas_variable.to_frame()

### Ordenar datos
Ordenar la base de datos en torno a una variable, puede ser numérica o de tipo texto:

In [3]:
# Variable numérica
ordenado = gapminder.sort_values("pop")
ordenado

NameError: name 'gapminder' is not defined

In [2]:
# Variable texto
ordenado2 = ordenado.sort_values("country")
ordenado2

NameError: name 'ordenado' is not defined

Vuelve a estar ordenada en orden alfabético por el país, pero al haber ordenado previamente por la población, ya no se encuentra ordenada en tprno al país y el año como la base original.

### Agrupar datos
Es posible agrupar los datos para dejar, por ejemplo, solo una fila de un país; solo una fila de un año; entre otros. Para esto es necesario utilizar funciones como mean (promedio), min (dato mínimo), max (dato máximo), entre otros:

In [1]:
agrupado_media = gapminder.groupby(by = "country").mean()
agrupado_media

NameError: name 'gapminder' is not defined

Vemos que se creó una base con las 142 filas de cada uno de los países de los cuales se tenía información. Para las variables con datos de tipo numérico, se creó el promedio, ejemplo, todos los países tendrían información para un hipotético año "1979.5", y en los otros datos, cada país tiene información diferente correspondiente al promedio de esa variable.

In [5]:
agrupado_min = gapminder.groupby(by = "country").min()
agrupado_min

NameError: name 'gapminder' is not defined

En este caso, se ve que todos tienen información del dato mínimo, por ejemplo en el año, donde todos los países tienen información para 1952, primer año del cual se tenía información en la base de datos. En las otros casos también se toma el dato mínimo de cada una de las variables.

In [None]:
agrupado_max = gapminder.groupby(by = "country").max()
agrupado_max

En este caso, se ve que todos tienen información del dato máximo, por ejemplo en el año, donde todos los países tienen información para 2007, último año del cual se tenía información en la base de datos. En las otros casos también se toma el dato máximo de cada una de las variables.