# Curso Análisis Exploratorio de datos: explorando bases de datos

## Exploración de las bases de datos.

Una vez importadas las bases, podemos hacer ese primero encuentro con los datos y explorar de manera inicial qué hay dentro de estos. Cuántas variables tenemos, cuántas observaciones, para qué periodo/s de tiempo, cuáles son las unidades de medida de las variables y a qué sujetos o individuos representan, entre otra información que puede ser útil para saber con quénos estamos encontrando.

In [None]:
### Abriendo las librerías
import pandas as pd
import numpy as np

Abrimos nuevamente la base de datos (solo en caso de que no la tengas abierta):

In [None]:
from gapminder import gapminder

### Abriendo la base de datos
La primera función que podemos utilizar para explorar nuestra base es "display", pues nos permite abrir la base de datos completa, viendo allí la información completa que fue importada o abierta en el programa.

In [None]:
display(gapminder)

### Viendo los datos iniciales de la base
Por su parte, como se mencionó en la clase anterior, la función "head" es también de gran utilidad, ya que nos muestra inicialmente que los datos se hayan importado de manera correcta, y además podemos ver en una primera vista qué variables y en qué tipos de datos vienen:

In [None]:
gapminder.head()

### Viendo la base más detalladamente
Podemos ver que en esta ocasión tenemos seis variables, de las cuales dos son tipo texto o string, (object) al lado del nombre, y las otras cuatro son de tipo numérico, el año (year) y la población (pop) en números enteros (int), mientras que la expectativa de vida (lifeExp) y el PIB per Cápita (gdpPercap) poseen datos con decimales (float). 

In [None]:
gapminder.dtypes

### Cuáles años representan nuestra base?
Habrá algunas ocasiones en las que nuestros datos estarán representando un único periodo de tiempo, por ejemplo, si quisiéramos medir el número de hospitalizaciones en cada país de América Latina en 2020, nuestro periodo de tiempo sería en todas las observaciones el año 2020. En este caso, manejando la base de datos de Gapminder, tenemos un panel de datos, por lo que tenemos observaciones de diferentes individuos (países) en diferentes años (1952-2007, cada 5 años). Para saber qué periodos de tiempo están incluidos en la base, buscamos la variable que los contiene, acá "year", y usamos la siguiente función:

In [None]:
print(pd.unique(gapminder['year']))

Con ello, le estamos pidiendo a Python que nos imprima los valores que toma la variable "year", con lo que estaríamos viendo que son los años entre 1952 a 2007, dejando de a cinco años entre cada observación. 

### Número de países
También podríamos hacerlo para los individuos, de manera que, si tenemos una variable que contenga un identificador de cada individuo en la base, R imprimirá sus diferentes valores, indicándonos sobre quién tenemos información. En este caso son 142 países sobre los que se tiene información:

In [None]:
print(pd.unique(gapminder['country']))

### Mínimos, máximos y otros datos
En algunas ocasiones vamos a necesitar saber alguna información clave de las variables que contienen datos numéricos. Por ejemplo, querermos saber los valores mínimo y máximo para saber en qué rango está esta variable. En este ejemplo veremos el mínimo de la población que haya tomado algún país enntre los años 1952 y 2007, y el PIB per cápita más alto tomado en algún país en los mismos años.

In [None]:
gapminder.describe()

### Filtros
Sin embargo, en otras ocasiones, vamos a querer tener información más específica, en nuestro ejemplo, queremos saber la población y el PIB PC de un únici país para un único año. Para eso, la librería de tidyverse trae la función "filter", que nos permite indicar para quién y en qué momento queremos ver un dato:

In [None]:
gapminder[gapminder["country"] == "Colombia"]

In [None]:
print (gapminder[(gapminder.country=='Colombia') & (gapminder.year==2002)])

### Conocer dimensiones de la base
Finalmente, Python cuenta con la función "shape" que permite saber las dimensiones de la base de datos abierta, en el formato (filas, columnas):

In [None]:
gapminder.shape