# Lectura de datos

La carga de datos se hace a través de la función `read_csv()` contenida en el paquete **pandas** o bien por medio de la función `open()`.

## Carga de datos a través de read_csv

In [None]:
import pandas as pd
import os

In [None]:
# Dirección absoluta del archivo titanic3.cvs
data = pd.read_csv("data/titanic3.csv")

In [None]:
data.head(10)

Algunos parámetros de la función **read_csv()** son:
- ruta del archivo:
`filepath = "/home/oscar/Documentos/udemy/machine-learning-joanby/python-ml-course-master/datasets/titanic/titanic3.csv"`
- separador:
`sep = ","`
- tipo de dato de una o mas columnas (campos):
`dtype = {"ingresos":np.float64m "edad":np.int32}`
- cargar el nombre de los columnas:
`header = 0`
- asignación de nombre a los columnas:
`names = {"ingresos", "edad"}`
- salto de registros e inicio de lectura:
`skiprows = 12`
- asignación de algún campo como índice:
`index_col = None`
- salto de lineas en blanco:
`skip_blank_lines = False`
- filtrado de datos sin valor:
`na_filter = False`

In [None]:
# carga el archivo usando el paquete os para hace ruta absoluta + nombre del archivo 
mainpath = "/home/oscar/Escritorio/misnotebooks/data/"
filename = "titanic3.csv"
fullpath = os.path.join(mainpath, filename)

In [None]:
data1 = pd.read_csv(fullpath)

In [None]:
data1.head()

In [None]:
# lee un archivo .txt con separador ","
data2 = pd.read_csv(mainpath + "Customer Churn Model.txt")

In [None]:
data2.head()

En ocasiones cargan archivos en los que por un lado se tienen los datos y por otra parte se tienen las etiquetas de las columnas. En este caso se puede crear un dataset completo combinando los datos y etiquetas. 

In [None]:
data2.columns.values

In [None]:
# lee un archivo con nombre de columnas
data_cols = pd.read_csv(mainpath + "Customer Churn Columns.csv")
# coloca los nombres de columnas en una lista
data_col_list = data_cols["Column_Names"].tolist()
data_col_list
# lee el archivo sin el nombre de las columnas asignando los nombres contenidos en la lista
data2 = pd.read_csv(mainpath + "Customer Churn Model.txt",
                    header = None, names = data_col_list )  
data2.columns.values

In [None]:
data2.head()

## Carga de datos a través de la función open

Al cargar un archivo de datos con el paquete pandas, la función `read_csv()` carga todo el archivo en memoria. Para evitar saturar la memoria se puede utilizar la funcion `open()` de Python y leer linea por línea el archivo.

In [None]:
# carga un archivo en modo lectura
data3 = open(mainpath + "Customer Churn Model.txt", "r")
data3 = open(mainpath + "Customer Churn Model.txt", "r")

In [None]:
# lee la primera línea y crea una lista 
# strip() elimina blancos y retorno de carro (\n) de la línea
# split() separa elementos de la línea usando "," como separador 
cols = data3.readline().strip().split(",")
cols

In [None]:
n_cols = len(cols)
n_cols

In [None]:
# crea un diccionario con clave nombre de columna
# y valor una lista vacía 
counter = 0
main_dict = {}
for col in cols:
    main_dict[col] = []
main_dict  

In [None]:
# para cada línea del archivo
for line in data3:
    # quita blancos y separa elementos usando ","  
    values = line.strip().split(",")
    # inserta en el diccionario cada elemento de la lista values
    # en la lista valor correspondiente
    for i in range(len(cols)):
        main_dict[cols[i]].append(values[i])
    counter += 1
    
print("El dataset tiene %d filas y %d columnas"%(counter, n_cols))

In [None]:
df3 = pd.DataFrame(main_dict)

In [None]:
df3.head()

## Leer y escribir archivos con python

Algunas veces los datos dentro de los archivos tienen como separador el tabulador: `\t`

In [None]:
infile = mainpath + "Customer Churn Model.txt"
outfile = mainpath + "Test Customer Churn Model.txt"

In [None]:
with open(infile, "r") as infile1:
    with open(outfile, "w") as outfile1:
        for line in infile1:
            fields = line.strip().split(",")
            # en el archivo de salida se escribe cada
            # elemento de la lista fields unido
            # con el caracter "/t" 
            outfile1.write("\t".join(fields))
            # agrega una salto de linea "\n"
            outfile1.write("\n")

In [None]:
df4 = pd.read_csv(outfile, sep = "\t")
df4.head()

## Leer desde una URL

Muchas veces es necesario leer datos desde un localizador uniforme de recursos (URL: Uniform Resource Locator)

Utilizaremos los datos contenidos en el archivo http://winterolympicsmedals.com/medals.csv

In [None]:
medals_url = "http://winterolympicsmedals.com/medals.csv"
medals_data = pd.read_csv (medals_url)

In [None]:
medals_data.head()

El paquete `urllib3` es un cliente http para Python3 que permite conectarse a una url. Ver también `urllib`

In [None]:
import urllib3
http = urllib3.PoolManager()
# request() devuelve un objeto HTTPResponse
response = http.request('GET', medals_url)
# El objeto HTTPResponse provee los atributos status, data y header:
response.status
response.data
response.headers

In [None]:
# response.data devuelve un objeto bytes que contiene
# un flujo binario con los datos de la url
responsedata = response.data
type(responsedata)

In [None]:
# decodifica el objeto bytes a utf8
data_medals = responsedata.decode("utf8")
type(data_medals)

In [None]:
lines = data_medals.split("\n")
outfile = mainpath + "Test Olympic Medals.txt"
with open(outfile, "w") as outfile1:
    for line in lines:
        outfile1.write(line)
        outfile1.write("\n")  

In [None]:
olympic_medals = pd.read_csv(outfile)
olympic_medals.head()

## Archivos XLS y XLSX

Los formatos de archivo .xls y .xlsx son formatos de hojas de cálculo de excel. El paquete pandas puede leer estos formatos con la función `read_excel()`

In [None]:
#mainpath = "/home/oscar/Documentos/udemy/machine-learning-joanby/python-ml-course-master/datasets"
#filename = "titanic/titanic3.xls"

In [None]:
# el segundo parámetro de la función read_excel es el nombre de la hoja contenida
# en el libro de excel
titanic2 = pd.read_excel(mainpath + "/" + filename, "titanic3")

In [None]:
titanic2.head()

In [None]:
filename = "titanic3.xls"
titanic3 = pd.read_excel(mainpath + "/" + filename, "titanic3")

In [None]:
titanic3.head()

Las funciones `to_csv(), to_json()` convierte un dataframe a un archivo del tipo especificado.

In [None]:
titanic3.to_csv(mainpath + "titanic3_test.csv")

In [None]:
titanic3.to_json(mainpath + "titanic3_test.json")