# Carga de datos - texto plano

## Motivación

## CSV

El tan llamado CSV (Valores Separados por Comas) es el formato más común de importación y exportación de hojas de cálculo y bases de datos. El formato CSV se utilizó durante muchos años antes de intentar describir el formato de manera estandarizada en RFC 4180. La falta de un estándar bien definido significa que a veces existen pequeñas diferencias en la información producida y consumida por diferentes aplicaciones. Estas diferencias pueden ser molestas al momento de procesar archivos CSV desde múltiples fuentes. Aún así, aunque los delimitadores y separadores varíen, el formato general es lo suficientemente similar como para que sea posible un sólo módulo que puede manipular tal información eficientemente, escondiendo los detalles de lectura y escritura de datos del programador.

El módulo csv implementa clases para leer y escribir datos tabulares en formato CSV. Permite a los programadores decir, «escribe estos datos en el formato preferido por Excel», o «lee datos de este archivo que fue generado por Excel», sin conocer los detalles precisos del formato CSV usado por Excel. Los programadores también pueden describir los formatos CSV entendidos por otras aplicaciones o definir sus propios formatos CSV para fines particulares.

### Cómo leer un CSV

In [1]:
# Usando una lista de valores
import csv

with open('some.csv', newline='') as csv_file:
    reader = csv.reader(csv_file)
    for row in reader:
        print(row)

['id', 'first_name', 'last_name', 'email', 'gender', 'ip_address']
['1', 'Brennan', 'Blesli', 'bblesli0@theatlantic.com', 'Non-binary', '94.202.160.87']
['2', 'Abraham', 'Engel', 'aengel1@techcrunch.com', 'Agender', '106.178.90.215']
['3', 'Skipp', 'Dawtrey', 'sdawtrey2@scientificamerican.com', 'Female', '96.142.23.72']
['4', 'Cynde', 'Vivyan', 'cvivyan3@quantcast.com', 'Agender', '204.13.116.129']
['5', 'Johnnie', 'Ragbourne', 'jragbourne4@yale.edu', 'Agender', '143.90.146.248']
['6', 'Thorny', 'Conroy', 'tconroy5@examiner.com', 'Male', '86.203.62.141']
['7', 'Franni', 'Perroni', 'fperroni6@nhs.uk', 'Genderqueer', '128.243.103.50']
['8', 'Layla', 'Menco', 'lmenco7@bbb.org', 'Genderqueer', '66.106.194.116']
['9', 'Zachary', 'Sleightholm', 'zsleightholm8@bloglovin.com', 'Male', '207.69.5.19']
['10', 'Stephanie', 'Yankov', 'syankov9@theguardian.com', 'Non-binary', '169.163.50.147']


In [3]:
# Obteniendo un diccionario {nombre_campo: valor_campo}
import csv

with open('some.csv', mode='r') as csv_file: 
    csv_reader = csv.DictReader(csv_file)

    for row in csv_reader:
        print(row)

{'id': '1', 'first_name': 'Brennan', 'last_name': 'Blesli', 'email': 'bblesli0@theatlantic.com', 'gender': 'Non-binary', 'ip_address': '94.202.160.87'}
{'id': '2', 'first_name': 'Abraham', 'last_name': 'Engel', 'email': 'aengel1@techcrunch.com', 'gender': 'Agender', 'ip_address': '106.178.90.215'}
{'id': '3', 'first_name': 'Skipp', 'last_name': 'Dawtrey', 'email': 'sdawtrey2@scientificamerican.com', 'gender': 'Female', 'ip_address': '96.142.23.72'}
{'id': '4', 'first_name': 'Cynde', 'last_name': 'Vivyan', 'email': 'cvivyan3@quantcast.com', 'gender': 'Agender', 'ip_address': '204.13.116.129'}
{'id': '5', 'first_name': 'Johnnie', 'last_name': 'Ragbourne', 'email': 'jragbourne4@yale.edu', 'gender': 'Agender', 'ip_address': '143.90.146.248'}
{'id': '6', 'first_name': 'Thorny', 'last_name': 'Conroy', 'email': 'tconroy5@examiner.com', 'gender': 'Male', 'ip_address': '86.203.62.141'}
{'id': '7', 'first_name': 'Franni', 'last_name': 'Perroni', 'email': 'fperroni6@nhs.uk', 'gender': 'Genderquee

## Cómo escribir en un CSV

In [4]:
# crea la carpeta .eoi_solutions si no existe para guardar los ficheros generados
import os
if not os.path.exists('.eoi_solutions'):
    os.makedirs('.eoi_solutions')

In [5]:
# Escribir a partir de una lista de valores
import csv

with open('.eoi_solutions/employee.csv', mode='w') as csv_file:
    employee_writer = csv.writer(csv_file)

    employee_writer.writerow(['John Smith', 'Accounting', 'November'])
    employee_writer.writerow(['Erica Meyers', 'IT', 'March'])

In [6]:
# Escribir a partir de un diccionario {nombre_campo: valor_campo}
import csv

with open('.eoi_solutions/employee2.csv', mode='w') as csv_file:
    fieldnames = ['emp_name', 'dept', 'birth_month']
    writer = csv.DictWriter(csv_file, fieldnames=fieldnames)

    writer.writeheader()
    writer.writerow({'emp_name': 'John Smith', 'dept': 'Accounting', 'birth_month': 'November'})
    writer.writerow({'birth_month': 'March', 'dept': 'IT', 'emp_name': 'Erica Meyers'})

### Recursos CSV
- https://docs.python.org/es/3/library/csv.html
- https://www.mockaroo.com/

### Ejercicios CSV
- 

## JSON

JSON (JavaScript Object Notation), especificado por :rfc:”7159” (que obsoleta RFC 4627) y por ECMA-404, es un formato ligero de intercambio de datos inspirado por la sintaxis literal de objetos en JavaScript (aunque no es un subconjunto estricto de JavaScript 1 ).

json expone una API familiar a los usuarios de los módulos de la biblioteca estándar marshal y pickle.

### Cómo leer un fichero JSON

In [7]:
import json
from pprint import pprint

# read file
with open('some.json', 'r') as json_file:
    json_content = data = json.load(json_file)
    pprint(json_content)


[{'email': 'avignaux0@unc.edu',
  'first_name': 'Anne',
  'gender': 'Genderqueer',
  'id': 1,
  'ip_address': '63.46.253.42',
  'last_name': 'Vignaux'},
 {'email': 'byepiskov1@fc2.com',
  'first_name': 'Brittani',
  'gender': 'Bigender',
  'id': 2,
  'ip_address': '149.228.251.148',
  'last_name': 'Yepiskov'},
 {'email': 'midenden2@patch.com',
  'first_name': 'Mirna',
  'gender': 'Male',
  'id': 3,
  'ip_address': '56.78.154.172',
  'last_name': 'Idenden'},
 {'email': 'ylicquorish3@freewebs.com',
  'first_name': 'Yvor',
  'gender': 'Female',
  'id': 4,
  'ip_address': '99.105.249.213',
  'last_name': 'Licquorish'},
 {'email': 'scrannell4@marketwatch.com',
  'first_name': 'Sayre',
  'gender': 'Genderqueer',
  'id': 5,
  'ip_address': '115.126.112.163',
  'last_name': 'Crannell'},
 {'email': 'jcollacombe5@springer.com',
  'first_name': 'Jacquenetta',
  'gender': 'Non-binary',
  'id': 6,
  'ip_address': '182.166.87.162',
  'last_name': 'Collacombe'},
 {'email': 'mkrahl6@myspace.com',
  'f

### Cómo escribir en un fichero JSON

In [8]:
import json

json_content = [
    {'emp_name': 'John Smith', 'dept': 'Accounting', 'birth_month': 'November'},
    {'birth_month': 'March', 'dept': 'IT', 'emp_name': 'Erica Meyers'}
]

with open(".eoi_solutions/employee.json", "w") as write_file:
    json.dump(json_content, write_file)

### Recursos JSON
- https://docs.python.org/es/3/library/json.html
- https://realpython.com/python-json/

### Ejercicios JSON
- 

## XML

Las interfaces de Python para procesar XML están agrupadas en el paquete xml.

Es importante tener en cuenta que los módulos del paquete xml requieren que haya al menos un analizador XML compatible con SAX disponible. El analizador Expat se incluye con Python, por lo que el módulo xml.parsers.expat siempre estará disponible.

La documentación de los paquetes xml.dom y xml.sax es la definición de los enlaces de Python para las interfaces DOM y SAX.

Los submódulos de manejo de XML son:

- `xml.etree.ElementTree`: la API ElementTree, un procesador de XML simple y ligero
- `xml.dom`: la definición de la API DOM
- `xml.dom.minidom`: una implementación mínima de DOM
- `xml.dom.pulldom`: soporte para la construcción de árboles DOM parciales
- `xml.sax`: clases base SAX2 y funciones de conveniencia
- `xml.parsers.expat`: el enlace del analizador Expat

### Cómo leer un XML

In [9]:
import xml.etree.ElementTree as ET

tree = ET.parse('some.xml')
root = tree.getroot()
print(root.tag, root.attrib)

for child in root:
    print(child.tag, child.attrib)

data {}
country {'name': 'Liechtenstein'}
country {'name': 'Singapore'}
country {'name': 'Panama'}


In [10]:
for neighbor in root.iter('neighbor'):
    print(neighbor.attrib)

{'name': 'Austria', 'direction': 'E'}
{'name': 'Switzerland', 'direction': 'W'}
{'name': 'Malaysia', 'direction': 'N'}
{'name': 'Costa Rica', 'direction': 'W'}
{'name': 'Colombia', 'direction': 'E'}


In [11]:
for country in root.findall('country'):
    rank = country.find('rank').text
    name = country.get('name')
    print(name, rank)

Liechtenstein 1
Singapore 4
Panama 68


### Cómo escribir en un XML

In [12]:
from xml.etree.ElementTree import Element, tostring
  
dict_content = [
    {'emp_name': 'John Smith', 'dept': 'Accounting', 'birth_month': 'November'},
    {'birth_month': 'March', 'dept': 'IT', 'emp_name': 'Erica Meyers'}
]

xml_content = ''

for row in dict_content:
    elem = Element('employee')
    
    for key, val in row.items():
        child = Element(key)
        child.text = str(val)
        elem.append(child)
    
    xml_content += str(tostring(elem).decode("utf-8"))

with open(".eoi_solutions/employee.xml", "w") as xml_file:
    xml_file.write(f'<?xml version="1.0"?><data>{xml_content}</data>')

### LXML
- La librería lxml es una librería de Python que hace de enlace de las librerías de C [libxml2](http://xmlsoft.org/) y [libxslt](http://xmlsoft.org/XSLT/). 
- Es único en el sentido de que combina la velocidad y la integridad de las funciones XML de estas bibliotecas con la simplicidad de una API nativa de Python, en su mayoría compatible pero superior a la conocida API ElementTree. 

### Instalación

In [13]:
! pip install lxml



### Cómo leer un XML con LXML

In [14]:
from lxml import etree

tree = etree.parse("some.xml")
etree.tostring(tree.getroot())

b'<data>\n    <country name="Liechtenstein">\n        <rank>1</rank>\n        <year>2008</year>\n        <gdppc>141100</gdppc>\n        <neighbor name="Austria" direction="E"/>\n        <neighbor name="Switzerland" direction="W"/>\n    </country>\n    <country name="Singapore">\n        <rank>4</rank>\n        <year>2011</year>\n        <gdppc>59900</gdppc>\n        <neighbor name="Malaysia" direction="N"/>\n    </country>\n    <country name="Panama">\n        <rank>68</rank>\n        <year>2011</year>\n        <gdppc>13600</gdppc>\n        <neighbor name="Costa Rica" direction="W"/>\n        <neighbor name="Colombia" direction="E"/>\n    </country>\n</data>'

### Recursos XML
- https://docs.python.org/es/3/library/xml.html
- https://lxml.de

### Ejercicios XML
- 