# Carga de Datasets

En este notebook trataremos las operaciones más comunes de Data Loading para cargar datos desde diferentes tipos de fichero, y poder empezar a trabajar con ellos.

Para cargar datasets y crear tablas en Python, nos apoyaremos en la librería `Pandas`. `Pandas` es una herramienta de manipulación de datos de alto nivel desarrollada por Wes McKinney. Es construido con el paquete `Numpy` y su estructura de datos clave es llamada el DataFrame. El DataFrame permite almacenar y manipular datos tabulados en filas de observaciones y columnas de variables.

In [2]:
## Cargamos las librerías pandas y numpy:
import pandas as pd
import numpy as np

## 1. Crear una tabla

La mayoría de las veces se trabajará con tablas ya existentes, pero a veces puede ser útil crear pequeñas tablas de manera instantánea a la hora de analizar como se transforman los datos a través de un proceso ETL.

Para crear una tabla podemos utilizar la función `pd.DataFrame()` de `pandas`, y pasar como argumento de la función un diccionario de Python.

In [3]:
## Definimos un diccionario:
diccionario = {'id': [1, 2, 3],
               'name': ['Bob', 'Sally', 'Scott'],
               'occupation': ['Builder', 'Baker', 'Candle Stick Maker']}

## Utilizamos la función pd.DataFrame():
df = pd.DataFrame(diccionario)

df.head()

Unnamed: 0,id,name,occupation
0,1,Bob,Builder
1,2,Sally,Baker
2,3,Scott,Candle Stick Maker


## 2. Cargar una tabla

`Pandas` permite cargar ficheros en diferentes formatos mediante la familia de funciones `pd.read_file()`, donde file se corresponde al tipo de fichero a cargar (.csv, .txt, .xlsx). Podremos modificar diferentes aspectos de la carga de un fichero incluyendo algunos de los argumentos incluídos en la función mencionada.

Una buena práctica si trabajamos con muchos ficheros es alojar en una variable la ruta de las carpeta principal, y luego ir bajando niveles de manera particularizada, de forma que la raiz se mantenga constante y no sea necesario escribir tanto código.

In [2]:
mainpath = "C:/Users/gmachin/Desktop/Developer/apuntes-notebooks/datasets"
filename = "titanic/titanic.csv"
fullpath = mainpath + "/" + filename

print(fullpath)

C:/Users/gmachin/Desktop/Developer/apuntes-notebooks/datasets/titanic/titanic.csv


### 2.1. Cargar datos desde un .csv

Para cargar un fichero de tipo .csv la función que se utiliza es: `pd.read_csv()`.

Si el fichero .csv viene separado por comas, y está bien formateado, podremos utilizar la función sin definir ningún parámetro adicional; sin embargo, si el fichero a cargar tiene valores fuera de lo normal o alguna particularidad como filas en blanco en las cabeceras, será necesario especificar algunos parámetros.

In [3]:
df_titanic = pd.read_csv(fullpath)
df_titanic.head(3)

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
0,1,1,"Allen, Miss. Elisabeth Walton",female,29.0,0,0,24160,211.3375,B5,S,2.0,,"St Louis, MO"
1,1,1,"Allison, Master. Hudson Trevor",male,0.9167,1,2,113781,151.55,C22 C26,S,11.0,,"Montreal, PQ / Chesterville, ON"
2,1,0,"Allison, Miss. Helen Loraine",female,2.0,1,2,113781,151.55,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"



Los parámetros más comunes que pueden modificarse son:
        
- `sep`: Tipo de separador del fichero delimitado, se debe colocar entre "". Ej.: "," , "|" , "/" , "@"


- `dtype`: Permite indicar el tipo de dato de la columna a cargar, string, fecha...etc, es necesario utilizar la librería NumPy para utilizarlo. Por defecto es "None".


- `header`: Permite definir que fila del dataset contiene los encabezados de las columnas. Por defecto es 0.


- `names`: Permite nombrar las columnas mediante una lista. Por defecto es "None".


- `skiprows`: Permite saltarse un número `n` de filas al leer el dataset, si ponemos por ejemplo 12, no se leería hasta la fila 13. Por defecto es 0.


- `index_col`: Permite que alguna de las columans que hemos cargado, forme parte del identificador de la fila. Por defecto es "None".


- `skip_blank_lines`: Permite decidir si las celdas que no contienen valores aparezcan en blanco, o con algún identificador como "NaN" o "NULL". Es un valore Booleano, True o False.


- `na_values`: Permite identificar otros formatos para missing values convirtiéndolos a NaN. Podemos pasar estos datos como una lista. na_values = missing_values, donde missing_values = ["?", "--", "N/A"]


- `na_filter`: Permite detectar los marcadores de los valores que falten dentro del dataset (" ", NaN...etc) y permite eliminar todas aquellas filas que tengan valores desconocidos. Es un valor Booleano, True o False.

Para ver la totalidad de argumentos que se pueden utilizar en esta función se puede estudiar la documentación propia de la libreria `Pandas`: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html

### 2.2. Cargar datos desde un fichero .xlsx o .xls

Para cargar un fichero de Excel con extensión .xlsx o .xls podemos utilizar la función `pd.read_excel()`.

In [4]:
mainpath = "C:/Users/gmachin/Desktop/Developer/apuntes-notebooks/datasets"
filename = "titanic/titanic.xls"
fullpath = mainpath + "/" + filename

df = pd.read_excel(fullpath)

df.head(3)

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
0,1,1,"Allen, Miss. Elisabeth Walton",female,29.0,0,0,24160,211.3375,B5,S,2.0,,"St Louis, MO"
1,1,1,"Allison, Master. Hudson Trevor",male,0.9167,1,2,113781,151.55,C22 C26,S,11.0,,"Montreal, PQ / Chesterville, ON"
2,1,0,"Allison, Miss. Helen Loraine",female,2.0,1,2,113781,151.55,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"


### 2.3. Cargar datos desde un .txt

Generalmente los .txt suelen tener la misma estructura que un .csv, al final es un fichero de texto plano con algun símbolo a modo de separador que indica donde termina una columna y empieza la siguiente.

Para cargar estos ficheros podemos valernos también de la función `pd.read_csv()`. Podemos encontrar en numerosas ocasiones que los ficheros .txt no tengan como separadores una coma, por lo que habrá que indicar el separador mediante el argumento `sep`.

In [6]:
mainpath = "C:/Users/gmachin/Desktop/Developer/apuntes-notebooks/datasets"
filename = "customer-churn-model/customer-churn-model.txt"
fullpath = mainpath + "/" + filename

df = pd.read_csv(fullpath)

df.head(3)

Unnamed: 0,State,Account Length,Area Code,Phone,Int'l Plan,VMail Plan,VMail Message,Day Mins,Day Calls,Day Charge,...,Eve Calls,Eve Charge,Night Mins,Night Calls,Night Charge,Intl Mins,Intl Calls,Intl Charge,CustServ Calls,Churn?
0,KS,128,415,382-4657,no,yes,25,265.1,110,45.07,...,99,16.78,244.7,91,11.01,10.0,3,2.7,1,False.
1,OH,107,415,371-7191,no,yes,26,161.6,123,27.47,...,103,16.62,254.4,103,11.45,13.7,3,3.7,1,False.
2,NJ,137,415,358-1921,no,no,0,243.4,114,41.38,...,110,10.3,162.6,104,7.32,12.2,5,3.29,0,False.


### 2.4. Cargar datos desde un .json

En este caso nos ayudaremos de la funcion `pd.read_json()`. Ya que los fichero .json suelen venir con una estrcutura muy definida de tipo diccionario, no suele ser necesario indicar ningún parámetro adicional dentro de la función.

{"pclass": {"0": 1,
           "1": 1,
           "2": ...}
 "survived": {"0": 1,
             "1": 1,
             "2": ...}
 "name": {"0": "Allen, Miss. Elisabeth Walton",
          "1": "Allison, Master. Hudson Trevor",
          "2": ...}

In [4]:
mainpath = "C:/Users/gmachin/Desktop/Developer/apuntes-notebooks/datasets"
filename = "titanic/titanic.json"
fullpath = mainpath + "/" + filename

df = pd.read_json(fullpath)

df.head(3)

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
0,1,1,"Allen, Miss. Elisabeth Walton",female,29.0,0,0,24160,211.3375,B5,S,2.0,,"St Louis, MO"
1,1,1,"Allison, Master. Hudson Trevor",male,0.9167,1,2,113781,151.55,C22 C26,S,11.0,,"Montreal, PQ / Chesterville, ON"
2,1,0,"Allison, Miss. Helen Loraine",female,2.0,1,2,113781,151.55,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"


### 2.5. Cargar datos desde una URL

Se puede también cargar datos de ficheros que estén alojados en internet, por ejemplo GitHub, de modo que ni siquiera tengamos que descargarlos en local. Para ello es necesario saber que tipo de fichero vamos a cargar (.csv, .txt, .json) de modo que elijamos la función adecuada para cargar el fichero.

In [None]:
## Defimos la URL donde se encuentra alojado el fichero
url = 'https://github.com/gmachinromero/apuntes-python/blob/master/datasets/titanic/titanic.csv'

## Cargamos el fichero mediante pd.read_csv() ya que se trata de un .csv
df = pd.read_csv(url)

df.head()