# Curso Análisis Exploratorio de Datos, Universidad del Rosario, EDX.

## Tema 3.1. Explortación e importación de dases de datos 

#### <span style="color:green">Como se mencionó en la introducción del curso, Python es uno de los lenguajes que permite realizar la importación y manejo de bases de datos provenientes de distintos formatos como: Excel, Stata (.dta), CSV, archivos de texto plano (.txt), entre otros, para posteriormente poder analizarlos e, incluso, exportarlos nuevamente, sacando así el mayor provecho posible de los datos y de las funciones que traen estos lenguajes de programación. Iniciaremos tomando una base que se importa a través de un paquete o librería.</span> 

In [None]:
pip install gapminder
# En R y en Python los paquetes se instalan solo la primera vez, después de haber ejecutado este código una vez, 
# no es necesario que vuelvas a aplicarlo.

Gapminder Foundation es una entidad sin fines de lucro registrada en Estocolmo, Suecia, que promueve el desarrollo global sostenible y el logro de los Objetivos de Desarrollo del Milenio de las Naciones Unidas. La base de datos importada contiene información de: esperanza de vida, población y PIB o ingresos Per cápita (por persona) de 142 países entre los años 1957 y 2007; es decir, se trata de un panel de datos. En el siguiente enlace se encuentra la respetiva documentación: https://www.gapminder.org/resources/

In [None]:
# En este caso, "gapminder" es una base de datos que se importa como si fuera un paquete o librería de Python.
from gapminder import gapminder
gapminder.head()
# La función "head" es muy importante porque nos permite pre-visualizar un pequeño conjunto de los datos importados
# para asegurarnos de que fueron cargados en la forma deseada. Por defecto, la función muestra las primeras 5 filas
# de datos, pero es posible cambiar la cantidad de filas observadas, poniendo el número deseado entre los paréntesis
# de la función. Vamos! Anímate a cambiar el número de filas que puedes visualizar abajo. Ej: gapminder.head(30)

#### <span style="color:green">Sin embargo, en la mayoría de los casos las bases que utilizamos no se descargan igual que gapminder como una librería, sino que se guarda directamente en nuestro disco duro el archivo que las contiene, como cualquier Excel. En estos casos necesitamos la ayuda de Pandas o Numpy para poder abrir las bases, indicándole al programa en cuál carpeta de nuestro computador las tenemos guardadas. Por esta razón, realizaremos un ejercicio (extraño) de exportar (en excel, csv y .dta) la base de datos recientemente abierta para después volver a importarla.</span> 

In [None]:
# En este caso, y esto es muy usual, además porque es algo que se hace generalmente como buena práctica para que otra
# persona que lea nuestro código le sea fácil entenderlo, lo primero que hacemos es descargar los paquetes que vamos a
# usar en un espacio aparte.
import pandas as pd
import numpy as np
#"Espacio aparte" quiere decir que en esta casilla de código no se pone nada más, solo la importación de los paquetes.

#### <span style="color:green">Ahora, para iniciar, procederemos a exportar la base de datos de gapminder a los formatos deseados: CSV, Excel y .txt, solo para asegurarnos de usar la misma base durante todo el curso. A continuación, volveremos a importarla a través de Pandas para cumplir con el objetivo de esta parte del curso. </span> 

In [None]:
# Primero, nos aseguramos de que el archivo de gapminder sea "DataFrame" (DF); es decir, una base de datos en Python.
type(gapminder)
# Aunque quizás sea importante aclarar que a diferencia de una matriz o base de datos normal, ejemplo en Excel, que
# tiene filas y columnas, un DataFrame en Python se dice que tiene observaciones (en filas) y variables (en columnas).
# Una pequeña diferencia en los conceptos.

In [None]:
# Segundo, le damos un nombre al archivo, para usarlo posteriormente en la función que nos ayudará a exportarlo.
df = gapminder

In [None]:
# Ahora procedemos a exportar los archivos que necesitamos (en este caso estamos usando el paquete de Pandas). Lo
# único que necesitamos inicialmente es decirle el "path" o dirección donde queremos que guarde los archivos.
df.to_csv("/Users/juancamiloperdomo/Downloads/gapminder.csv") # Ajusta esta parte con la dirección en tu computador. 
df.to_excel("/Users/juancamiloperdomo/Downloads/gapminder.xlsx") # Esta parte también. 
df.to_stata("/Users/juancamiloperdomo/Downloads/gapminder.dta") # Esta parte también. 
# Ya podrás ver los archivos en la carpeta que indicaste arriba en letra roja. 

#### <span style="color:green"> Ahora sí, a importar los archivos que acabamos de crear.</span> 

#### 1. Importanto un archivo csv

Entiendo que no debe tener mucha lógica exportar una base de datos en un formato para después volver a importarla. Es solo para asegurarnos de manejar los mismos datos durante todo el curso, además porque a algunos estudiantes se les pueden presentar dificultades a la hora de descargar archivos de la página del curso. Finalmente, veámoslo como un plus, aprendimos a exportar archivos a excel, csv y al archivo del programa Stata. Esto es muy útil porque en muchas ocasiones las bases de datos que trabajemos vamos a tener que enviarlas como un adjunto en un correo o tendremos situaciones parecidas donde un DF de Python no nos va a ser del todo útil.

In [None]:
# Tal como para exportar, la función de pandas para importar es muy sencilla, aunque tiene muchas opciones, lo más
# importante es indicarle la carpeta donde tenemos guardado el archivo que queremos abrir.
df_csv = pd.read_csv("/Users/juancamiloperdomo/Downloads/gapminder.csv")
df_csv.head()

#### <span style="color:green"> Sin embargo, como se indicó en la introducción de esta subsección, cada base de datos tiene sus propias formas, características y propiedades. Vemos que, si bien el archivo que acabamos de importar se suponía era el mismo del paquete gapminder descargado al comienzo de este documento, al abrirlo a través de pandas (pd.read_csv), se agregó una columna ("Unnamed: 0") que antes correspondía al índice, es decir a los números de a la izquiera en negrilla que no tienen nombre, dado que no es una variable, solo indican el número de la fila. Para evitar este problema, tenemos varias opciones, veamos las siguientes dos:</span> 

In [None]:
# 1. Indicarle al programa que esa columna corresponde al índice ("index", en inglés):
df_csv = pd.read_csv("/Users/juancamiloperdomo/Downloads/gapminder.csv", index_col=0)
# Se puso 0 (cero), dado que la columna no tiene nombre
df_csv.head()

In [None]:
# 2. Indicándole al programa cuáles columnas usar, dejando por fuera las que no queremos usar ("Unnamed: 0")
df_csv = pd.read_csv("/Users/juancamiloperdomo/Downloads/gapminder.csv", usecols=["country", "continent", "year", "lifeExp", "pop", "gdpPercap"])
df_csv.head()
# El problema de esta opción es cuando tenemos muchas variables. 

#### <span style="color:green"> Dado que hay distintos errores que podríamos tener a la hora de importar nuestras bases de datos a partir de archivos .csv, dejo el módulo de Pandas con la documentación que contiene todos los parámetros que tiene la función:</span> 
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html

#### 2. Importanto un archivo excel

In [None]:
# Ya sabemos que, en este caso, debemos indicar la columna que contiene el índice. Con esto hay que tener cuidado,
# no siempre la primera columna de nuestra base contiene el índice, así que podemos incurrir en un error si siempre
# dejamos este parámetro. Es mejor quitarlo y usarlo solo a necesidad.
df_excel = pd.read_excel("/Users/juancamiloperdomo/Downloads/gapminder.xlsx", index_col=0)
df_excel.head()

#### <span style="color:green">Documentación pandas para importar archivos de excel: </span> 
https://pandas.pydata.org/docs/reference/api/pandas.read_excel.html

#### 3. Importanto un archivo Stata

In [None]:
df_stata = pd.read_stata("/Users/juancamiloperdomo/Downloads/gapminder.dta", index_col="index")
df_stata.head()

#### <span style="color:green">Documentación pandas para importar archivos de Stata: </span> 
https://pandas.pydata.org/docs/reference/api/pandas.read_stata.html