# Carga de datos con 'read_csv'.

In [None]:
#-------------------------------------------
# Importamos bibliotecas.
import pandas as pd
import os

In [None]:
#-------------------------------------------
# Lo más cómodo es asiganr el la dirección del dataset en una variable.
datasets_path = '../datasets/'
file_name = 'titanic/titanic3.csv'
full_path = os.path.join(datasets_path, file_name)

In [None]:
#-------------------------------------------
# Veamos algunos argumentos del 'read_csv' para abrir el archivo.

# 'filepath_or_buffer' es la dirección del dataset.
# 'sep' es el tipo de separador que tiene.
# 'dtype' es cómo se van a guardar los datos, puede ser 'int', 'float', etc.
# 'header' especifíca el dónde está el cabezal.
# 'names' indica cómo se llama cada una de las columnas.
# 'skiprows' es para comenzar a leer después de algunoas líneas.
# 'skip_blank_lines' sirve para saltar valores en blanco.
# 'na_filter' elimina lineas con valores desconocidos cono NAN.
data = pd.read_csv(filepath_or_buffer = full_path, sep = ',', dtype = None, header = 0, names = None, skiprows = 0, skip_blank_lines = False, na_filter = False)

In [None]:
#-------------------------------------------
# 'head()' funciona tal cual como el 'head' en linux.
data.head()

In [None]:
#-------------------------------------------
# Carguemos otro archivo.
data2 = pd.read_csv(datasets_path + '/customer-churn-model/Customer Churn Model.txt')

In [None]:
#-------------------------------------------
# Corroboramos que lo cargamos bien.
data2.head()

In [None]:
#-------------------------------------------
# Con el método 'columns.values' corroboramos las etiquetas del cabezal.
data2.columns.values

In [None]:
#-------------------------------------------
# Cambiémoslo, para ello cargamos los nuevos valores.
data_cols = pd.read_csv(datasets_path + 'customer-churn-model/Customer Churn Columns.csv')

# Cambiamos el formato a una lista (antes era un dataframe de pandas).
data_cols_list = data_cols['Column_Names'].tolist()

# Ahora cargamos el 'txt' de antes pero con la espeficicación del cambio de columnas.
data2 = pd.read_csv(datasets_path + '/customer-churn-model/Customer Churn Model.txt', header = None, names  = data_cols_list)

# Corroboramos con un 'head' o con un 'data2.columns.values'.
data2.head()

# Carga de datasets manual.

In [None]:
#-------------------------------------------
# También podemos extraer los datos a mano.
# Esto sirve para nmo saturar la ram. 
# Ocuparemos 'open' por cómo carga datos.
data3 = open(datasets_path + 'customer-churn-model/Customer Churn Model.txt', 'r')

In [None]:
#-------------------------------------------
# Ahora veamos qué etiquetas tienen las columnas.
# Con 'readline()' leemos la primer línea de 'data3',
# con 'strip()' eliminamos los espacios en blanco,
# con 'split()' partimos todo el renglón con un delimitador.
cols = data3.readline().strip().split(',')

# Guardemos cuántas columnas hay con 'len()'.
num_cols = len(cols)

In [None]:
#-------------------------------------------
# Ahora vamos a crear un diccionario, cada entrada
# será una columna que esté llena con un arreglo
# con sus respectivos valores. Además veamos cuántas lineas tiene.

# Definimos un contador de lineas.
contador_lineas = 0

# Definimos el diccionario.
dict_data3 = {}

# Lo llenamos, cada entrada del diccionario por 
# ahora será un arreglo vacio pero con el nombre
# de su respectiva columna.
for col in cols:
    dict_data3[col] = []

# Llenamos cada valor, de cada arreglo del diccionario. 
for linea in data3:
    
    # Cada 'linea' la tenemos que dividir como hicimos arriba con las columnas.
    valor = linea.strip().split(',')
    
    # 'valor' es un arreglo y cada una de sus entradas es una entrada de cada arreglo del diccionario.
    for i in range(len(cols)):
        dict_data3[cols[i]].append( valor[i] )
        
    # Aumentamos el contador.
    contador_lineas += 1

# Imprimimos el número de filas y columnas.
print(f'El dataset tiene {num_cols} columnas y {contador_lineas} lineas')

In [None]:
#-------------------------------------------
# Pero lo que hicimos es un diccionario. 
# Generalmente trabajaremos con 'dataframes' de pandas.
dataframe3 = pd.DataFrame(dict_data3)

# Para visualizarlo hagamos un 'head()'.
dataframe3.head()

# Lectura y escritura de ficheros.

In [None]:
#-------------------------------------------
# Ahora vamos a reescribir este archivo pero separándolo con tabs.

# Definimos un archivo de entrada y otro de salida.
infile = datasets_path + 'customer-churn-model/Customer Churn Model.txt'
outfile = datasets_path + 'customer-churn-model/Tab Customer Churn Model.txt'

In [None]:
#-------------------------------------------
# Abrimos los dos archivos, uno en lectura y otro en escritura.
with open(infile, 'r') as infile1:
    with open(outfile, 'w') as outfile1:
        
        # Hacemos un for para leer todas las lineas, y formateartas.
        for line in infile1:
            fields = line.strip().split(',')
            
            # Escribimos los valores que separamos pero ahora los juntamos con un tabulador.
            outfile1.write( '\t'.join(fields) )
            
            # Damos un salto de linea.
            outfile1.write( '\n' )

In [None]:
#-------------------------------------------
# Abrimos este nuevo archivo con delimitador '\t'.
dataframe4 = pd.read_csv(outfile, sep = '\t')

# Verificamos con un 'head()'.
dataframe4.head()

# Lectura desde una URL