## Leyendo `csv` con `open()`

Además de usar la función `open()`, vamos a necesitar algunos métodos del módulo `csv`.

In [None]:
import csv

Empezaremos mostrando como leer un `csv` haciendo uso del método `.reader()` del módulo `csv`.

En este caso vamos a trabajar con el archivo `csv_example.csv`. Si abrimos el archivo, veremos que todos los valores están separados por comas y cada observación se encuentra en una línea diferente.

Para leerlo, ejecutaremos el siguiente chunk de código:

In [None]:
with open("/content/drive/MyDrive/python-basico/datasets/csv_example.csv", "r") as f:
    reader = csv.reader(f)
    for row in reader:
        print(row)

['id', 'Name', 'City', 'Age']
['1234', 'Arturo', 'Madrid', '22']
['2345', 'Beatriz', 'Barcelona', '25']
['3456', 'Carlos', 'Sevilla', '18']
['4567', 'Dolores', 'Cuenca', '34']


Con la función `open()` hemos accedido al archivo, al cuál hemos identificado por `f`. A continuación, hemos usado el método `.reader()` para leer el archivo `f`. Dicho método nos ha devuelto el iterable `reader`, del cuál hemos mostrado todas sus filas iterando con un bucle `for`. 

### Cambiando el separador

Por defecto, los archivos `csv` tienen como delimitador la coma `,`. No obstante, algunos archivos `csv` usan otros delimitadores. Las alternativas más populares a la coma suelen ser `|` o `\t`.

Observemos el archivo `csv_delimiter_example.csv`, donde esta vez sus elementos están separados por tabuladores, `\t`.

El método `.reader()` nos permite configurar dicho separador con el parámetro `delimiter`.

In [None]:
with open("/content/drive/MyDrive/python-basico/datasets/csv_delimiter_example.csv", "r") as f:
    reader = csv.reader(f, delimiter = "|")
    for row in reader:
        print(row)

['id', 'Name', 'City', 'Age']
['1234', 'Arturo', 'Madrid', '22']
['2345', 'Beatriz', 'Barcelona', '25']
['3456', 'Carlos', 'Sevilla', '18']
['4567', 'Dolores', 'Cuenca', '34']


### Eliminando espacios adicionales

A veces puede ocurrir que algunos `csv` tengan un espacio en blanco tras el delimitador, cosa que se ve reflejado al leer los datos.

Para eliminar estos espacios en blanco adicionales, el método `.reader()` trae el parámetro `skipinitialspace`. Si lo igualamos a `True`, los espacios adicionales desaparecerán.

Observemos que el archivo `csv_spaces_example.csv` tiene espacios en blanco adicionales tras el separador, que es la coma. Veamos la diferencia entre igualar el parámetro `skipinitialspace` a `True` o a `False`.

In [None]:
# skipinitialspace = False (valor por defecto)
with open("/content/drive/MyDrive/python-basico/datasets/csv_spaces_example.csv", "r") as f:
    reader = csv.reader(f, skipinitialspace = False)
    for row in reader:
        print(row)

['id', ' Name', ' City', ' Age']
['1234', ' Arturo', ' Madrid', ' 22']
['2345', ' Beatriz', ' Barcelona', ' 25']
['3456', ' Carlos', ' Sevilla', ' 18']
['4567', ' Dolores', ' Cuenca', ' 34']


**Observación.** Salvo la primera entrada de cada fila, todas tienen un espacio inicial adicional.

In [None]:
# skipinitialspace = True
with open("/content/drive/MyDrive/python-basico/datasets/csv_spaces_example.csv", "r") as f:
    reader = csv.reader(f, skipinitialspace = True)
    for row in reader:
        print(row)

['id', 'Name', 'City', 'Age']
['1234', 'Arturo', 'Madrid', '22']
['2345', 'Beatriz', 'Barcelona', '25']
['3456', 'Carlos', 'Sevilla', '18']
['4567', 'Dolores', 'Cuenca', '34']


### Comillas en las entradas

Algunos archivos `csv` puede que tengan entradas entre comillas. Si no indicamos nada, por defecto aparecerán las comillas en las entradas tras haber leído el fichero.

Si en cambio queremos deshacernos de ellas, disponemos del parámetro `quoting`, que admite diferentes valores:

* `csv.QUOTE_ALL`: indica al objeto `reader` que todos los valores en el archivo `csv` están entre comillas
* `csv.QUOTE_MINIMAL`: indica al objeto `reader` que los valores en el archivo `csv` que están entre comillas son entradas que contienen caracteres como el delimitador, comillas o cualquier caracter de terminación de línea
* `csv.QUOTE_NONNUMERIC`: indica al objeto `reader` que los valores en el archivo `csv` que están entre comillas son entradas que contienen entradas no-numéricas
* `csv.QUOTE_NONE`: indica al objeto `reader` que ninguno los valores en el archivo `csv` están entre comillas

Observemos el archivo `csv_quotation_example.csv`, donde las observaciones entre comillas son aquellas que no tienen valores numéricos. En este caso, nos convendría usar la opción `csv.QUOTE_NONNUMERIC`

In [None]:
with open("/content/drive/MyDrive/python-basico/datasets/csv_quotation_example.csv", "r") as f:
    reader = csv.reader(f, quoting = csv.QUOTE_NONNUMERIC)
    for row in reader:
        print(row)

['id', 'Name', 'City', 'Age']
[1234.0, 'Arturo', 'Madrid', 22.0]
[2345.0, 'Beatriz', 'Barcelona', 25.0]
[3456.0, 'Carlos', 'Sevilla', 18.0]
[4567.0, 'Dolores', 'Cuenca', 34.0]


**Observación.** Las entradas numéricas han dejado de ser leídas como strings y han pasado a ser consideradas entradas de tipo `float`.

Si en cambio hubiésemos usado la opción `csv.QUOTATE_ALL`, no hubiésemos obtenido ningún error, pero las entradas numéricas habrían sido tratadas como `string`.

In [None]:
with open("/content/drive/MyDrive/python-basico/datasets/csv_quotation_example.csv", "r") as f:
    reader = csv.reader(f, quoting = csv.QUOTE_ALL)
    for row in reader:
        print(row)

['id', 'Name', 'City', 'Age']
['1234', 'Arturo', 'Madrid', '22']
['2345', 'Beatriz', 'Barcelona', '25']
['3456', 'Carlos', 'Sevilla', '18']
['4567', 'Dolores', 'Cuenca', '34']


### Dialectos

Hasta ahora solamente hemos usado uno de los parámetros cada vez, pero podría darse el caso de que tuviésemos un csv con un delimitador distinto a la coma, con espacios adicionales y entradas entrecomilladas a causa de contener delimitadores o finales de línea.

Una opción sería indicar todos los parámetros a la función, pero existe una alternativa que nos será muy útil en caso de no estar tratando con un solo archivo `csv` sino con múltiples con formatos similares. Es el caso de los dialectos.

Los dialectos ayudan a agrupar patrones de formato específicos como el delimitador, las comillas, los espacios adicionales tras los delimitadores...

En caso de querer usar nuestro dialecto personalizado, `.reader()` nos ofrece el parámetros `dialect` al cual podemos pasarle dicho dialecto.

Consideremos el archivo `csv_dialect_example.csv`, el cual tiene el delimitador `|`, espacios adicionales y todos sus valores no numéricos entrecomillados.

En vez de indicar todos esos parámetros al método `.reader()`, vamos a crear nuestro dialecto, `my_dialect`, con el método `.register_dialect()` y se lo vamos a pasar al parámetro `dialect` de `.reader()` 

In [None]:
csv.register_dialect("my_dialect",
                     delimiter = "|",
                     skipinitialspace = True,
                     quoting = csv.QUOTE_NONNUMERIC)

with open("/content/drive/MyDrive/python-basico/datasets/csv_dialect_example.csv", "r") as f:
    reader = csv.reader(f, dialect = "my_dialect")
    for row in reader:
        print(row)

['id', 'Name', 'City', 'Age']
[1234.0, 'Arturo', 'Madrid', 22.0]
[2345.0, 'Beatriz', 'Barcelona', 25.0]
[3456.0, 'Carlos', 'Sevilla', 18.0]
[4567.0, 'Dolores', 'Cuenca', 34.0]


Al método `.register_dialect()` en primer lugar le hemos dado un nombre en formato `string` y luego hemos configurado los parámetros `delimiter`, `skipinitialspace` y `quoting`. 

A continuación, al método `.reader()` le hemos pasado el nombre del dialecto, `my_dialect`, al parámetro `dialect` y se ha leído el archivo correctamente.

Una vez creado el dialecto personalizado, podemos usarlo tantas veces como queramos para abrir y leer archivos `csv` con el mismo formato, en este caso, que `csv_dialect_example.csv`.

### Diccionarios y `csv`

En este caso vamos a trabajar de nuevo con el archivo `csv_example.csv`. 

Para leerlo, usaremos el método `.DictReader()` del módulo `csv`, lo que nos devolverá un objeto `OrderedDict`, que es iterable.

In [None]:
with open("/content/drive/MyDrive/python-basico/datasets/csv_example.csv", "r") as f:
    reader = csv.DictReader(f)
    for row in reader:
        print(row)

OrderedDict([('id', '1234'), ('Name', 'Arturo'), ('City', 'Madrid'), ('Age', '22')])
OrderedDict([('id', '2345'), ('Name', 'Beatriz'), ('City', 'Barcelona'), ('Age', '25')])
OrderedDict([('id', '3456'), ('Name', 'Carlos'), ('City', 'Sevilla'), ('Age', '18')])
OrderedDict([('id', '4567'), ('Name', 'Dolores'), ('City', 'Cuenca'), ('Age', '34')])


**Observación.** Podríamos usar la función `dict()` dentro del `print()` para mostrar los objetos `OrderedDict` como diccionarios.

In [None]:
with open("/content/drive/MyDrive/python-basico/datasets/csv_example.csv", "r") as f:
    reader = csv.DictReader(f)
    for row in reader:
        print(dict(row))

{'id': '1234', 'Name': 'Arturo', 'City': 'Madrid', 'Age': '22'}
{'id': '2345', 'Name': 'Beatriz', 'City': 'Barcelona', 'Age': '25'}
{'id': '3456', 'Name': 'Carlos', 'City': 'Sevilla', 'Age': '18'}
{'id': '4567', 'Name': 'Dolores', 'City': 'Cuenca', 'Age': '34'}


**Observación.** Si se usa una versión de `Python` 3.8 o superior, podría ser que no fuera necesario usar la función `dict()` pues el resultado de `.DictReader()` ya sería un diccionario.

## Escribiendo `csv`

Para crear y escribir un `csv` usamos la función `open()` junto al método `csv.writer()`:

In [None]:
data = [["id", "Name", "City", "Age"], 
        [1234, "Arturo", "Madrid", 22], 
        [2345, "Beatriz", "Barcelona", 25],
        [3456, "Carlos", "Sevilla", 18], 
        [4567, "Dolores", "Cuenca", 34]]

with open("/content/drive/MyDrive/python-basico/datasets/csv_write.csv", "w") as f:
  writer = csv.writer(f)
  for row in data:
    writer.writerow(row)


Si ahora vamos a la carpeta datasets, observaremos que ha aparecido un nuevo archivo llamado `csv_write.csv` el cual contiene como valores las entradas de la lista `data`, donde cada sublista corresponde a una fila del `csv` gracias al bucle `for` y al método `.writerow()`.

Podríamos haber obtenido exactamente el mismo resultado sin haber usado un bucle, lo que para ello tendríamos que haber hecho uso del método `.writerows()`.

In [None]:
with open("/content/drive/MyDrive/python-basico/datasets/csv_write_writerows.csv", "w") as f:
  writer = csv.writer(f)
  writer.writerows(data)

Si ahora vamos a la carpeta datasets, observaremos que ha aparecido un nuevo archivo llamado `csv_write_writerows.csv` el cual contiene como valores las entradas de la lista `data`, donde cada sublista corresponde a una fila del `csv` gracias al método `.writerows()`.

### Diccionarios y csv

También podemos escribir un `csv` a partir de un diccionario. Para ello tendremos que usar el método `.DictWriter()`.

In [None]:
data = [{"id": 1234, "Name": "Arturo", "City": "Madrid", "Age": 22},
        {"id": 2345, "Name": "Beatriz", "City": "Barcelona", "Age": 25},
        {"id": 3456, "Name": "Carlos", "City": "Sevilla", "Age": 18},
        {"id": 4567, "Name": "Dolores", "City": "Cuenca", "Age": 34}]

# La cabecera es la lista de las keys de cualquiera de las entradas de data
header = list(data[0].keys())

In [None]:
with open("/content/drive/MyDrive/python-basico/datasets/csv_write_dict.csv", "w") as f:
  writer = csv.DictWriter(f, fieldnames = header)
  
  writer.writeheader()
  for d in data:
    writer.writerow(d)

En este caso, los datos están guardado en una lista de diccionarios llamada `data`. A continuación guardamos la cabecera en la variable `header` como una lista de los nombres de las variables.

Abrimos (y creamos) el archivo `csv_write_dict.csv` y creamos el objeto `writer` con el método `.DictWriter()` al cual le pasamos la cabecera `header` mediante el parámetro `fieldnames`.

Finalmente, escribimos en primer lugar la cabecera con el método `.writeheader()` y luego, con la ayuda de un bucle `for`, cada observación, correspondiente a cada uno de los diccionarios de la lista `data`, en una fila diferente con el método `.writerow()`.

Podríamos haber obtenido el mismo resultado sin usar ningún bucle, pero haciendo uso del método `.writerows()`

In [None]:
with open("/content/drive/MyDrive/python-basico/datasets/csv_write_dict_writerows.csv", "w") as f:
  writer = csv.DictWriter(f, fieldnames = header)
  
  writer.writeheader()
  writer.writerows(data)

Observamos que efectivamente tanto el archivo `csv_write_dict.csv` como `csv_write_dict_writerows.csv` son idénticos.