# Trabajar con archivos CSV

¡Bienvenido de nuevo! Analicemos cómo trabajar con archivos CSV en Python. Un archivo con la extensión de archivo CSV es un archivo de valores separados por comas. Todos los archivos CSV son texto sin formato, contienen caracteres alfanuméricos y estructuran los datos contenidos en ellos en forma tabular. No confunda los archivos de Excel con los archivos csv, mientras que los archivos csv tienen un formato muy similar a los archivos de Excel, no tienen tipos de datos para sus valores, son cadenas sin fuente ni color. Tampoco tienen hojas de trabajo como lo hace un archivo de Excel. Python tiene varias bibliotecas para trabajar con archivos de Excel, puede consultarlas [aquí](http://www.python-excel.org/) y [aquí](https://www.xlwings.org/).

Los archivos en formato CSV se utilizan generalmente para intercambiar datos, generalmente cuando hay una gran cantidad, entre diferentes aplicaciones. Los programas de bases de datos, el software analítico y otras aplicaciones que almacenan cantidades masivas de información (como contactos y datos de clientes), generalmente admitirán el formato CSV.

Exploremos cómo podemos abrir un archivo csv con la biblioteca csv integrada de Python.

____
## Ubicación del notebook.

Ejecute **pwd** dentro de la celda de una libreta para averiguar dónde se encuentra su libreta

In [1]:
pwd

'C:\\Users\\serge\\Documents\\Curso intensivo de practica lenguaje Python -  desde nivel cero a nivel campeon\\15-PDFs-y Hojas de Calculo'

____
## Lectura de archivos CSV

In [2]:
import csv

Al pasar la ruta del archivo, asegúrese de incluir la extensión si tiene una, debería poder usar la tecla Tab Autocompletar el nombre del archivo. Si no puede autocompletar con tabulación, es un buen indicador de que su archivo no está en la misma ubicación que su computadora portátil. Siempre puede escribir la ruta completa del archivo (se verá similar en formato a la salida de **pwd**.

In [3]:
datos = open('ejemplo.csv')

In [4]:
datos

<_io.TextIOWrapper name='ejemplo.csv' mode='r' encoding='cp1252'>

### Codificación

A menudo, los archivos csv pueden contener caracteres que no puede interpretar con Python estándar, esto podría ser algo así como un símbolo **@**, o incluso caracteres extranjeros. Veamos un ejemplo de este tipo de error ([es bastante común, por lo que es importante repasarlo](https://stackoverflow.com/questions/9233027/unicodedecodeerror-charmap-codec-cant-decode-byte-x-in -posición-y-carácter)).

In [5]:
csv_datos = csv.reader(datos)

Transmitir a una lista dará un error, tenga en cuenta la línea **no se puede decodificar** en el error, ¡esto es un indicio de que tenemos un problema de codificación!

In [6]:
lineas_datos = list(csv_datos)

UnicodeDecodeError: 'charmap' codec can't decode byte 0x8d in position 1810: character maps to <undefined>

No intentemos leerlo con una codificación "utf-8".

In [7]:
datos = open('ejemplo.csv',encoding="utf-8")
csv_datos = csv.reader(datos)
lineas_datos = list(csv_datos)

In [8]:
# ¡Parece que funcionó!
lineas_datos[:3]

[['id', 'first_name', 'last_name', 'email', 'gender', 'ip_address', 'city'],
 ['1',
  'Joseph',
  'Zaniolini',
  'jzaniolini0@simplemachines.org',
  'Male',
  '163.168.68.132',
  'Pedro Leopoldo'],
 ['2',
  'Freida',
  'Drillingcourt',
  'fdrillingcourt1@umich.edu',
  'Female',
  '97.212.102.79',
  'Buri']]

Tenga en cuenta que el primer elemento de la lista es la línea de encabezado, que contiene la información sobre lo que representa cada columna. Vamos a formatear nuestra impresión un poco:

In [9]:
for linea in lineas_datos[:5]:
    print(linea)

['id', 'first_name', 'last_name', 'email', 'gender', 'ip_address', 'city']
['1', 'Joseph', 'Zaniolini', 'jzaniolini0@simplemachines.org', 'Male', '163.168.68.132', 'Pedro Leopoldo']
['2', 'Freida', 'Drillingcourt', 'fdrillingcourt1@umich.edu', 'Female', '97.212.102.79', 'Buri']
['3', 'Nanni', 'Herity', 'nherity2@statcounter.com', 'Female', '145.151.178.98', 'Claver']
['4', 'Orazio', 'Frayling', 'ofrayling3@economist.com', 'Male', '25.199.143.143', 'Kungur']


Imaginemos que queremos una lista de todos los correos electrónicos. Como demostración, dado que hay 1000 elementos más el encabezado, solo haremos unas pocas filas.

In [10]:
len(lineas_datos)

1001

In [11]:
todos_emails = []
for linea in lineas_datos[1:15]:
    todos_emails.append(linea[3])

In [12]:
print(todos_emails)

['jzaniolini0@simplemachines.org', 'fdrillingcourt1@umich.edu', 'nherity2@statcounter.com', 'ofrayling3@economist.com', 'jmurrison4@cbslocal.com', 'lgamet5@list-manage.com', 'dhowatt6@amazon.com', 'kherion7@amazon.com', 'chedworth8@china.com.cn', 'hgasquoine9@google.ru', 'ftarra@shareasale.com', 'abathb@umn.edu', 'lchastangc@goo.gl', 'cceried@yale.edu']


¿Y si quisiéramos una lista de nombres completos?

In [13]:
nombres_completos = []

for linea in lineas_datos[1:15]:
    nombres_completos.append(linea[1]+' '+linea[2])

In [14]:
nombres_completos

['Joseph Zaniolini',
 'Freida Drillingcourt',
 'Nanni Herity',
 'Orazio Frayling',
 'Julianne Murrison',
 'Lucy Gamet',
 'Dyana Howatt',
 'Kassey Herion',
 'Chrissy Hedworth',
 'Hyatt Gasquoine',
 'Felicdad Tarr',
 'Andrew Bath',
 'Lucais Chastang',
 'Car Cerie']

## Escribir en archivos CSV

También podemos escribir archivos csv, ya sean nuevos o añadidos a los existentes.

### Archivo nuevo
**Esto también sobrescribirá cualquier archivo existente con el mismo nombre, ¡así que tenga cuidado con esto!**

In [15]:
# newline controla cómo funcionan las nuevas líneas universales (solo se aplica al texto
# modo). Puede ser Ninguno, '', '\n', '\r' y '\r\n'.
archivo_a_salida = open('para_guardar_archivo.csv','w',newline='')

In [16]:
csv_writer = csv.writer(archivo_a_salida,delimiter=',')

In [17]:
csv_writer.writerow(['a','b','c'])

7

In [18]:
csv_writer.writerows([['1','2','3'],['4','5','6']])

In [19]:
archivo_a_salida.close()

____
### Archivo Existente 

In [20]:
f = open('para_guardar_archivo.csv','a',newline='')

In [21]:
csv_writer = csv.writer(f)

In [22]:
csv_writer.writerow(['nuevo','nuevo','nuevo'])

19

In [23]:
f.close()

¡Eso es todo por lo básico! Si cree que trabajará con archivos CSV a menudo, puede consultar la poderosa [biblioteca de pandas] (https://pandas.pydata.org/).