# Manejo de archivos .CSV

Uno de los formatos más utilizados en la actualidad para intercambio de datos es CSV (“Comma Separated Values”). Estas son básicamente archivos de texto en los que cada línea contiene una fila de datos con múltiples registros delimitados por un separador. Tradicionalmente el separador suele ser la coma, de ahí el nombre del formato. Aunque también se pueden utilizan otros caracteres que no suelen estar contenidos en los datos. Por ejemplo, espacios, tabuladores y puntos y coma. Lo que los hace muy fáciles de procesar y son soportados por cualquier aplicación. Incluso son fáciles de leer por personas con editores de texto. Por eso es clave saber guardar y leer archivos CVS con Python.

# Guardado de archivos CSV

Para guardar un archivo CSV es necesario disponer en primer lugar de un dataframe en memoria. Por lo que se pude crear uno de ejemplo. Una vez generado el este se puede volcar a un archivo CSV utilizando el método to_csv.

In [1]:
import pandas as pd

data = {'first_name': ['Sigrid', 'Joe', 'Theodoric','Kennedy', 'Beatrix', 'Olimpia', 'Grange', 'Sallee'],
        'last_name': ['Mannock', 'Hinners', 'Rivers', 'Donnell', 'Parlett', 'Guenther', 'Douce', 'Johnstone'],
        'age': [27, 31, 36, 53, 48, 36, 40, 34],
        'amount_1': [7.17, 1.90, 1.11, 1.41, 6.69, 4.62, 1.01, 4.88],
        'amount_2': [8.06,  "?", 5.90,  "?",  "?", 7.48, 4.37,  "?"]}

datosDataFrame = pd.DataFrame(data)

print(datosDataFrame)

#Acaba la implementacion

datosDataFrame.to_csv('example.csv')

  first_name  last_name  age  amount_1 amount_2
0     Sigrid    Mannock   27      7.17     8.06
1        Joe    Hinners   31      1.90        ?
2  Theodoric     Rivers   36      1.11      5.9
3    Kennedy    Donnell   53      1.41        ?
4    Beatrix    Parlett   48      6.69        ?
5    Olimpia   Guenther   36      4.62     7.48
6     Grange      Douce   40      1.01     4.37
7     Sallee  Johnstone   34      4.88        ?


En caso de que se desee cambiar el delimitador se puede indicar con la propiedad sep. Para que este sea punto y coma simplemente se ha de escribir:

In [2]:
datosDataFrame.to_csv('nombre_salida.csv', sep=';')

# Lectura de archivos CSV

La lectura de los archivos se realiza con el método read_csv de pandas. Solamente se la ha de indicar la ruta al archivo.

In [None]:
df = pd.read_csv('example.csv')
df

Al igual que antes se puede indicar el separador utilizado mediante la propiedad sep.

In [None]:
df = pd.read_csv('example.csv', sep=';')

Por defecto se utiliza la primera línea del fichero como cabecera para asignar los nombres a las columnas. En el caso de que el archivo no disponga de cabecera se puede evitar esto asignando None a la propiedad head.

In [None]:
df = pd.read_csv('nombre_salida.csv', header=None)
df

El archivo que se ha utilizado en esta ocasión tiene cabecera, por lo que esta se ha cargado como la primera fila. En caso de que se desee ignorar una o más filas se le puede indicar medítate la propiedad skiprows.

In [None]:
df = pd.read_csv('nombre_salida.csv')
df

Los nombres de las columnas del dataframe se pueden indicar mediante la propiedad names.

In [None]:
df = pd.read_csv('example.csv',
                 skiprows = 1,
                 names=['UID', 'First Name', 'Last Name', 'Age', 'Sales #1', 'Sales #2'])
print(type(df['Sales #2'][2]))

Es posible que los archivos contengan valores nulos. En el ejemplo se puede ver que este es ?. La propiedad que permite que se asigne un valor nulo cuando se encuentra un valor dado es na_values=['.']

In [None]:
df = pd.read_csv('example.csv',
                 skiprows=1,
                 names=['UID', 'First Name', 'Last Name', 'Age', 'Sales #1', 'Sales #2'],
                 na_values=['?'])
df

Finalmente se puede asignar un índice a los datos

In [None]:
df = pd.read_csv('example.csv',
                 skiprows=1,
                 names=['UID', 'First Name', 'Last Name', 'Age', 'Sales #1', 'Sales #2'],
                 na_values=['?'],
                 index_col='UID')
df

O más de uno

In [None]:
df = pd.read_csv('example.csv',
                 skiprows=1,
                 names=['UID', 'First Name', 'Last Name', 'Age', 'Sales #1', 'Sales #2'],
                 na_values=['?'],
                 index_col=['First Name', 'Last Name'])
print(df)

# Manejo de archivos Excel

Antes de poder guardar un archivo Excel desde Python es necesario disponer de un dataframe. Por lo que se puede crear uno de ejemplo, como se hizo al hablar de los archivos CVS:

In [None]:
import pandas as pd

data = {'first_name': ['Sigrid', 'Joe', 'Theodoric','Kennedy', 'Beatrix', 'Olimpia', 'Grange', 'Sallee'],
        'last_name': ['Mannock', 'Hinners', 'Rivers', 'Donnell', 'Parlett', 'Guenther', 'Douce', 'Johnstone'],
        'age': [27, 31, 36, 53, 48, 36, 40, 34],
        'amount_1': [7.17, 1.90, 1.11, 1.41, 6.69, 4.62, 1.01, 4.88],
        'amount_2': [8.06,  "?", 5.90,  "?",  "?", 7.48, 4.37,  "?"]}

df = pd.DataFrame(data, columns = ['first_name', 'last_name', 'age', 'amount_1', 'amount_2'])

Ahora para exportar los datos en formato Excel simplemente se ha utilizar el método to_excel del dataframe. En esta ocasión se ha de indicar el archivo en el que se desea guardar los datos mediante una cadena de texto. Opcionalmente se puede indicar también el nombre de la hoja del libro Excel mediante la propiedad sheet_name. El contenido del archivo generado el siguiente código se muestra en la figura.

In [None]:
df.to_excel('ejemplo2.xlsx', sheet_name='example')

# Lectura de archivos Excel en Python

El proceso de lectura se realiza con el método read_excel de pandas. En el caso de que el libro contenga más de una hoja se puede indicar el nombre de la que se desea importar mediante el método sheet_name. Cuando no se indique una cargara el contenido de la primera hoja del libro.

In [None]:
df = pd.read_excel('example.xlsx', sheet_name='example')
print(df)

Por defecto el método utiliza la primera línea del fichero como cabecera para asignar los nombres a las columnas. En el caso de que el archivo no disponga de cabecera se puede evitar este comportamiento asignando None a la propiedad head.

In [None]:
df = pd.read_excel('example.xlsx', header=None)
print(df)

El archivo que se ha utilizado en esta ocasión tiene cabecera, por lo que esta se ha importado como la primera fila. En caso de que se desee ignorar una o más filas se le puede indicar mediante la propiedad skiprows.

In [None]:
df = pd.read_excel('example.xlsx', header=None, skiprows=1)
print(df)

En el caso de que se desee indicar un nombre concreto para cada una de las columnas, diferente al de la hoja, se puede indicar mediatne la propiedad names.

In [None]:
df = pd.read_excel('example.xlsx',
                 skiprows = 1,
                 names=['UID', 'First Name', 'Last Name', 'Age', 'Sales #1', 'Sales #2'])
print(df)

# Manejo de archivos de texto (.txt)

# Abrir un archivo para leer o escribir en Python

Antes de leer o escribir archivos con Python es necesario es necesario abrir una conexión. Lo que se puede hacer con el comando open(), al que se le ha de indicar el nombre del archivo.  

La documentación se encuentra en: https://docs.python.org/2/tutorial/inputoutput.html#reading-and-writing-fileshttp://

Por defecto la conexión se abre en modo lectura, con lo que no es posible escribir en el archivo. Para poder escribir es necesario utilizar la opción "w" con la que se eliminará cualquier archivo existente y creará uno nuevo. Otra opción que se puede utilizar es "a", con la que se añadirá nuevo contenido al archivo existente. Las opciones se pueden ver en el siguiente código.

In [None]:
# Abre el archivo para escribir y elimina los archivos anteriores si existen
fic = open("text.txt", "w")

In [None]:
# Abre el archivo para agregar contenido
fic = open("text.txt", "a")

In [None]:
# Abre el archivo en modo lectura
fic = open("text.txt", "r")

In [None]:
fic.close()

En todos los casos, una vez finalizado las operaciones de lectura y escritura con los archivos, una buena práctica es cerrar el acceso. Para lo que se debe utilizar el método close().

### Como un resumen

La **r** indica el modo lectura. Si se intentara utilizar la función write para escribir algo, se lanzaría la excepción IOError. A continuación los distintos modos.

- **r** – Lectura únicamente.
- **w** – Escritura únicamente, reemplazando el contenido actual del archivo o bien creándolo si es inexistente.
- **a** – Escritura únicamente, manteniendo el contenido actual y añadiendo los datos al final del archivo.
- **w+**, **r+** o **a+** – Lectura y escritura.

El signo **'+'** permite realizar ambas operaciones. La diferencia entre **w+** y **r+** consiste en que la primera opción borra el contenido anterior antes de escribir nuevos datos, y crea el archivo en caso de ser inexistente. **a+** se comporta de manera similar, aunque añade los datos al final del archivo.

Todas las opciones anteriores pueden combinarse con una 'b' (de binary), que consiste en leer o escribir datos binarios. Esta opción es válida únicamente en sistemas Microsoft Windows, que hacen una distinción entre archivos de texto y binarios. En el resto de las plataformas, es simplemente ignorada. Ejemplos: rb, wb, ab+, rb+, wb+.

# Escribir archivos de texto en Python

Antes de guardar un archivo es necesario disponer de un vector con las cadenas de texto que se desean guardar. Para ello se puede crear un vector al que se le puede llamar data.

In [None]:
data = ["Línea 1", "Línea 2", "Línea 3", "Línea 4", "Línea 5"]

Para escribir el contenido de este vector en un archivo se puede hacer de dos maneras: línea a línea o de una sola vez.

# Escribir el archivo línea a línea

El método más fácil directo para volcar el vector en un archivo es escribir el contenido línea a línea. Para ello se puede iterar sobre el archivo y utilizar el método write de archivo. Este proceso es lo que se muestra en el siguiente ejemplo.

In [None]:
fic = open("text1.txt", "w")

data = ["Línea 1", "Línea 2", "Línea 3", "Línea 4", "Línea 5"]

for line in data:
    fic.write(line)
    fic.write("\n")
    
fic.close()

Nótese que los elementos de vector no finalizan con el carácter salto de línea. Por lo tanto, es necesario añadir este después de escribir cada línea. Ya que, de lo contrario, todos los elementos se escribirían en una única línea en el archivo de salida.

Una forma de escribir el archivo línea a línea sin que sea necesario incluir el salto de línea es con la función print. Para esto es necesario incluir la opción "file" con la conexión al archivo. Esta opción se puede ver en el siguiente ejemplo.

In [None]:
fic = open("text2.txt", "w")

data = ["Línea 1", "Línea 2", "Línea 3", "Línea 4", "Línea 5"]

for line in data:
    print(line, file=fic)
    
fic.close()

# Escribir el archivo de una vez

Finalmente, en el caso de que los datos se encuentren en un objeto iterable se puede utilizar el método writelines para volcar este de golpe. Aunque es necesario tener en cuenta que este método no agrega el salto de línea, por lo que puede ser necesario agregarlo con antelación.

In [None]:
data1 = ["Don Edwin"]
data2 = ["A", "B", "C", "D", "E", "F", "G", "H"]
data = data1 + data2

fic = open("text3.txt", "w")
fic.writelines("%s\n" % s for s in data)

fic.close()

# Leer archivos de texto en Python

La lectura de los archivos, al igual que la escritura, se puede hacer de dos maneras: línea a línea o de una sola vez.

# Leer el archivo de una vez

El procedimiento para leer los archivos de texto más sencillo es hacerlo de una vez con el método readlines. Una vez abierto el archivo solamente se ha de llamar a este método para obtener el contenido. Por ejemplo, se puede usar el siguiente código.

In [None]:
fic = open('text3.txt', "r")
lines = fic.readlines()
print(lines)
fic.close()

In [None]:
lines

En esta ocasión lines es un vector en el que cada elemento es una línea del archivo. Alternativamente, en lugar del método readlines se puede usar la función list para leer los datos.

In [None]:
fic = open('text3.txt', "r")
lines = list(fic)
fic.close()

In [None]:
lines

# Leer el archivo línea a línea

En otras ocasiones puede ser necesario leer el archivo línea a línea. Esto se puede hacer simplemente iterando sobre el fichero una vez abierto. En cada iteración se podrá hacer con cada línea cualquier operación que sea necesaria. En el siguiente ejemplo cada una de las líneas se agrega a un vector.

In [None]:
fic = open('text2.txt', "r")
lines = []

for line in fic:
    lines.append(line)

fic.close()

In [None]:
lines

# Eliminar los saltos de línea en el archivo importado

Los tres métodos que se han visto para leer los archivos importan el salto de línea. Por lo que puede ser necesario eliminarlo antes de trabajar con los datos. Esto se puede conseguir de forma sencilla con el método rstrip de las cadenas de texto de Python. Lo que se puede hacer iterando sobre el vector.

In [None]:
lines1 = [s.rstrip('\n') for s in lines]

In [None]:
lines1

# Manejo de archivos .JSON

El formato de archivo JSON es uno de los más populares en los últimos años para serializar los datos. Los archivos de este formato se pueden obtener como resultados de la mayoría de las aplicaciones API REST y otras aplicaciones web. Debido a su gran popularidad es cada vez más probable que se necesite leer o escribir archivos JSON con Python.

En Python el formato JSON se puede procesar gracias al paquete json. Este paquete contiene el código que permite transformar los archivos JSON en diccionarios o viceversa.

# El formato JSON

JSON es un formato para el intercambio de datos basado en texto. Por lo que es fácil de leer para tanto para una persona como para una maquina. El nombre es un acrónimo de las siglas en inglés de JavaScript Object Notation. Lo que indica que su origen se encuentra vinculado al lenguaje JavaScript. Aunque hoy en día puede ser utilizado desde casi todos los lenguajes de programación. JSON se ha hecho fuerte como alternativa a XML, otro formato de intercambio de datos que requiere más metainformación y, por lo tanto, consume más ancho de banda y recursos.

Los datos en los archivos JSON son pares de propiedad valor separados por dos puntos. Estos pares se separan mediante comas y se encierran entre llaves. El valor de una propiedad puede ser otro objeto JSON, lo que ofrece una gran flexibilidad a la hora de estructurar información. Esta estructura de datos recuerda mucho a los diccionarios de Python.

# Escribir archivos JSON con Python

La forma más sencilla de generar un archivo JSON desde Python es exportar los datos contenidos en un objeto diccionario. Al igual que los objetos JSON, los objeto diccionarios pueden contener cualquier tipo de datos: valores numéricos, cadena de textos, vectores o cualquier otro tipo de objeto. El código necesario para traducir el diccionario a formato JSON se encuentra disponible en el paquete json.

A continuación, se muestra un ejemplo. Inicialmente se importa el paquete json. Posteriormente se crear un objeto diccionarios al que se agregan los datos de tres clientes entre los que se encuentra el nombre los apellidos, la edad y la cantidad gastada por cada uno. En el ejemplo se pude apreciar la utilización de diferentes tipos de datos como cadena de texto, valores reales y vectores. Otra cosa que se puede apreciar es que una misma propiedad puede tener diferentes datos en cada registro. Lo que no se puede conseguir en otros formatos como CSV. Finalmente se abre un archivo y se vuelca en el mismo los datos del diccionario utilizando json.dump.

In [None]:
import json

data = {}
data['clients'] = []

data['clients'].append({
    'first_name': 'Sigrid',
    'last_name': 'Mannock',
    'age': 27,
    'amount': 7.17})

data['clients'].append({
    'first_name': 'Joe',
    'last_name': 'Hinners',
    'age': 31,
    'amount': [1.90, 5.50]})

data['clients'].append({
    'first_name': 'Theodoric',
    'last_name': 'Rivers',
    'age': 36,
    'amount': 1.11})

with open('data.json', 'w') as file:
    json.dump(data, file, indent=2)
#Declaracion "with" para aperturar el archivo destino
#"json.dump", para escribir en el archivo "data", en un archivo con indentado 4

Al ejecutar este código se genera un archivo data.json en el que se pueden observar los datos. En este archivo todos los datos se encuentran en una única línea, ocupando el mínimo espacio posible. Una ver formateado para facilitar la lectura a las personas se puede observar en la siguiente captura de pantalla.

Este comportamiento por defecto es el más adecuado ya que reduce el tamaño de los archivos generados y por lo tanto reduce el ancho de banda necesario. En caso de que sea necesario obtener archivos JSON formateados para que puedan ser fácilmente leídos por personas se puede utilizar la opción indent la indentación de los valores.

# Obtener el código JSON como una cadena de texto

En el caso de que se desee obtener el contenido del archivo JSON en una variable se puede utilizar el método json.dumps. Este devuelve una cadena de texto con el contenido en lugar de guardarlo en un archivo. Esto puede dar un poco más de control si es necesario realizar algunas operaciones sobre la cadena, como firmarla o encriptarla.

# Leer archivos JSON con Python

La lectura de archivos JSON es similar al proceso de escritura. Se ha de abrir un archivo y procesar este utilizando el método json.load. El cual devolverá objeto de tipo diccionario sobre el que se puede iterar. A modo de ejemplo se puede importar el archivo generado anteriormente y sacar los resultados por pantalla utilizando el siguiente código.

In [None]:
with open('data.json') as file:
    data = json.load(file)

    for client in data['clients']:
        print('First name:', client['first_name'])
        print('Last name:', client['last_name'])
        print('Age:', client['age'])
        print('Amount:', client['amount'])
        print('')

# Convertir una cadena de texto con JSON en un diccionario

Al igual que anteriormente también se puede convertir una cadena de texto que contiene un objeto JSON en un diccionario de Python. Para esto se ha de utilizar el método json.loads. Este método es de gran utilidad cuando como resultado de un servicio web se obtiene una cadena de texto con un objeto JSON, el cual se puede transforma fácilmente en un diccionario.

En el siguiente ejemplo se muestra como se procesan los resultados de consultar un API en

In [None]:
import requests

resp = requests.get('http://ip-api.com/json/208.80.152.201')
json.loads(resp.content)

# Opciones

El comportamiento de la librería json se puede personalizar utilizando diferentes opciones. Entre algunas de las opciones que se pueden configurar se encuentra la codificación y la ordenación.

# Codificación Unicode

Una de las opciones más importantes puede ser la codificación de texto empleada en el archivo. Por defecto el paquete json genera los archivos en código ASCII. Cuando existen caracteres no ASCII estos serán escapados, aunque puede ser más interesante utilizar en estos casos codificación Unicode. Para conseguir este cambio solamente se ha de configurar la opción ensure_ascii a False. La diferencia se puede apreciar en el siguiente ejemplo.

In [None]:
data = {'first_name': 'Daniel', 'last_name': 'Rodríguez'}
json.dumps(data)

In [None]:
json.dumps(data, ensure_ascii=False)

# Ordenación

Los objetos JSON son una colección desordenada de conjuntos de claves y valores. El orden de los datos se encuentra definido por la posición en la que estos aparecen en el archivo. En el caso de que sea necesario ordenarlos por la clave se puede configurar la opción sort_keys a True. El resultado de utilizar esta opción se pude ver en el siguiente ejemplo.

In [None]:
data = {
    'first_name': 'Sigrid',
    'last_name': 'Mannock',
    'age': 27,
    'amount': 7.17}

json.dumps(data, sort_keys=True)