### Carga de datos usando la función read_csv

In [None]:
import pandas as pd
import os

In [None]:
mainpath = "/JupyterNotebooks/machine_learning/datasets/"
filename = "titanic/titanic3.csv"
fullpath = os.path.join(mainpath,filename)


In [None]:
data = pd.read_csv(fullpath)

In [None]:
data.head()

### Argumentos de la funcion read_csv 
* sep : separador de columnas, puede ser una Exp Reg
* dtype: especificar el tipo de datos de cada columna, dtype=("a":np.float64); la col "a"  se carga como float
* header: para especificar que fila es la cabecera del dataset, por defecto se usa la 1era fila
* name: array o lita para nombrar o renombrar las columnas de un dataset
* skiprows: para saltar a una fila especifica
* index_col  indicar una columna especifica como identificador
* skip_blank_lines : para saltarse valores en blanco o NaN
* nan_filter: elimina cualquier fila que tenga valores NaN o strings vacios, mucho cuidado con esta!!

  read.csv(**filepath**="/JupyterNotebooks/machine_learning/datasets/titanic/titanic3.csv", **sep**=",", **dtype**=None, **header**=0, **names**={"nameA","nameB"}, **skiprows**=12, **index_col**=None, **skip_blank_lines**=True, **na_filte**=False)
        


### Obtener de dos archivos distintos las cabeceras y las filas de un dataset 

In [None]:
#obtengo un dataset .txt, read_csv() lo lee porque ya esta separado por comas
data2 = pd.read_csv(mainpath+"/"+"customer-churn-model/Customer Churn Model.txt")

In [None]:
#se verifica que el dataset cargo corectamente y vemos los nombres originales de sus cabeceras
data2.head() 

In [None]:
#esta es la lista de cabeceras originales del dataset
data2.columns.values

In [None]:
#obtengo otro grupo de cabeceras desde otro archivo y las transformo en una lista
data_cols = pd.read_csv(mainpath + "/" +"customer-churn-model/Customer Churn Columns.csv")
data_col_list = data_cols["Column_Names"].tolist()
data_col_list

#ahora uso esa lista para sustituir las cabeceras originales del dataset
data2 = pd.read_csv(mainpath+"/"+"customer-churn-model/Customer Churn Model.txt",
                    header = None, names = data_col_list)
data2.columns.values

### Carga de grandes archivos con la funcion OPEN
extrae los datos del archivo linea a linea, y se pude ir almacenando, de forma manual con distintas operaciones para obtener el mismo resultado que con read_csv() pero en archivos de gran tamaño. Hay que tener cuidado al abrir un fichero en modo "w" (escritura) ya que esto hará que dicho fichero pierda su contenido (en caso de tenerlo y querer conservarlo). Si por algún motivo se quiere agregar contenido a este es recomendable abrirlo en modo "a" (append), lo cual posicionará el cursor al final y no borrará el contenido del mismo.

In [None]:
##abrimos en modo solo lectura "r"
data3 = open(mainpath + "/"+"customer-churn-model/Customer Churn Model.txt","r")

In [None]:
#next() va a la siguiente fila del archivo,que sigue de la cabecera,
#strip, elimina espacios en blanco al inicio y al final de la fila
#split() divide usando la , asi obtenemos las columnas del dataset
cols = data3.readline().strip().split(",")
n_cols = len(cols)


In [None]:
#se crea un diccionario, se parte por las cabeceras extraidas en cols y por cada cabecera un array vacio que 
#luego se rellenara con los datos, quedando una estructura estilo JSON
counter = 0
main_dict ={}
for col in cols:
    main_dict[col] =[]

In [None]:
#rellenar el diccionario leyendo cada linea del dataset (line), esquema de lectura y llenado de matriz NxN
for line in data3:
    #cada valor se obtendra de cada linea del dataset quitando espacios vacios y dividido por comas, como antes
    values = line.strip().split(",") 
    #cada [] del diccionario sera un array con los valores leidos y procesados desde el dataset
    for i in range(len(cols)):
        main_dict[cols[i]].append(values[i])
    counter +=1
print("El dataset tiene %d filas y %d columnas" %(counter,n_cols))

In [None]:
#creamos un dataframe de panda y el resultado es el mismo que con la funcion read_csv, recordar que esto es para grandes
#datasets que podrian ser cargados en partes, o incluso en distintas maquinas y hacer la carga manual de datos
df3 = pd.DataFrame(main_dict)
df3.head()

### Lectura y escritura de archivos 
usaremos el archivo anterior para crear un nuevo archivo igual pero que usa el tabulador "/t" como separador

In [None]:
infile =  mainpath + "/" +"customer-churn-model/Customer Churn Model.txt"
outfile = mainpath + "/" +"customer-churn-model/Tab Customer Churn Model.txt"

In [None]:
with open(infile,"r") as infile1:
    with open(outfile,"w") as outfile1:
        for line in infile1:
            fields = line.strip().split(",")#lee cada linea del archivo original separada por comas
            outfile1.write("\t".join(fields))#escribe cada linea anterior en el nuevo archivo, separadas por tabulador
            outfile1.write("\n") #intro para pasar de linea

In [None]:
#si usamos read_csv indicando el separador "\t" el resultado sigue siendo el mismo
df4 = pd.read_csv(outfile,sep="\t")
df4.head()

### Leer datos desde una url externa

In [None]:
#usando pandas
medals_url = "http://winterolympicsmedals.com/medals.csv"
medals_data = pd.read_csv(medals_url)
medals_data.head()

In [None]:
import csv
import urllib3

### Leer archivos XLS y XSLX

In [None]:
mainpath = "/JupyterNotebooks/machine_learning/datasets/"
filename = "titanic/titanic3.xls"
titanic2 = pd.read_excel(mainpath+"/"+filename,"titanic3")
titanic2.head()

In [None]:
#creo un archivo .csv a partir de un dataframe, y tambien se puede crear un excel o csv o json
titanic2.to_csv(mainpath + "/titanic/titanic_custom2.csv")

In [None]:
titanic2.to_excel(mainpath + "/titanic/titanic_custom3.xls")

In [None]:
titanic2.to_json(mainpath + "/titanic/titanic_custom4.json")