### Lectura de ficheros

Hay diferentes formas de cargar los set de datos en python: por medio de librerías o por medio de las funciones que trae Python por defecto. Para cargar datos y aplicar transformaciones iniciales, reconocimiento de variables, limpieza, etc, se puede usar, por ejemplo `Pandas`. Para leer un dataset con las funciones que trae Python por defecto, lo veremos a continuación

In [1]:
# importar la librería csv para trabajar con archivos csv

import csv

In [2]:
# abrir el archivo csv con open y crear un lector con reader

with open('./data_raw/census_income-1.csv', encoding='UTF8') as csvfile:
    reader = csv.reader(csvfile)
    next(reader, None)  # saltar la primera fila
    # leer las primeras 5 filas
    sum_age = 0
    count_ages = 0
    for linea in reader:
        count_ages += 1
        age_str = linea[0]
        age = int(age_str)
        sum_age += age
    # avg_age = sum_age/count_ages
    print('La suma de edad es:', sum_age)
    csvfile.close()

La suma de edad es: 1192746061


En este caso obtuvimos la suma de todas las edades en el dataset, sin embargo esta forma de leer y realizar cálculos con datos es extensa y poco intuitiva. Podemos experimentar otras formas más compactas y optimas para realizar cualquier manipulación.

In [3]:
with open('./data_raw/census_income-1.csv', encoding='UTF8') as csvfile:
    dict_reader = csv.DictReader(csvfile)
    sum_age = {}
    for linea in dict_reader:
        age_str = linea['age']
        age = int(age_str)
        sum_age[age] = sum_age.get(age, 0) + 1
    print('La suma de edades es:', sum_age)

La suma de edades es: {39: 1206, 50: 866, 38: 1264, 53: 711, 28: 1280, 37: 1280, 49: 847, 52: 738, 31: 1325, 42: 1165, 30: 1278, 23: 1329, 32: 1253, 40: 1187, 34: 1303, 25: 1195, 43: 1104, 54: 613, 35: 1337, 59: 523, 56: 564, 19: 1053, 20: 1113, 45: 1096, 22: 1178, 48: 845, 21: 1096, 24: 1206, 57: 551, 44: 1067, 41: 1235, 29: 1223, 18: 862, 47: 1081, 46: 1097, 36: 1348, 79: 30, 27: 1232, 67: 238, 33: 1335, 76: 69, 17: 595, 55: 621, 61: 450, 70: 133, 64: 340, 71: 118, 68: 178, 66: 237, 51: 877, 58: 555, 26: 1153, 60: 449, 90: 55, 75: 72, 65: 284, 77: 54, 62: 394, 63: 335, 80: 38, 72: 120, 74: 77, 69: 149, 73: 108, 81: 37, 78: 34, 88: 6, 82: 15, 83: 11, 84: 13, 85: 5, 86: 1, 87: 3, 89: 2}


Con DictReader se puede indicar la lista de encabezados de las columnas con el parámetro fieldnames:

In [4]:
# csv.DictReader('fichero.csv', fieldnames=['edad', 'sexo', 'pais'])

Así como se requiere la lectura de datasets, se requiere escritura que puede hacerse con write(), con instancias de clase DictWriter, writerow(), writerows().

* Con write() una fila es un iterable de cadenas de texto y número
* Con DictWriter una fila es un diccionario cuyos valores son cadenas de texto y números
* Con DictWriter puede escribirse de nuevo en la cabezera creada con fieldnames, con writeheader()

In [10]:
ruta_lectura = './data_raw/census_income-1.csv'
ruta_escritura = './data_processed/census_income-1w.csv'

with open(ruta_lectura, encoding='UTF8') as csvlectura, open(ruta_escritura, 'w', newline='') as csvescritura:
    dict_reader = csv.DictReader(csvlectura)
    fieldnames = dict_reader.fieldnames
    dict_writer = csv.DictWriter(csvescritura, fieldnames=fieldnames)
    dict_writer.writeheader()
    for linea in dict_reader:
        dict_writer.writerow(linea)
    print('Proceso de escritura terminado')

Proceso de escritura terminado


In [11]:
campos =dict_reader.fieldnames + ['age_minus_1']
escritor = csv.DictWriter(csvescritura, fieldnames=campos)

In [17]:
with open(ruta_lectura, encoding='UTF8') as csvlectura, open(ruta_escritura, 'w', newline='') as csvescritura:
    escritor.writeheader()
    for linea in dict_reader:
        linea['age_minus_1'] = int(linea['age']) - 1
        escritor.writerow(linea)

ValueError: I/O operation on closed file.