# Archivos CSV y el formato JSON

<hr>

En Python y en cualquier otro lenguaje, los datos de entrada pueden proceder de distintas fuentes: lo más sencillo es introducir datos desde la consola, también es posible hacer que el programa los descargue de una página web de Internet, o que extraiga la información contenida en un archivo almacenado en el disco.

Este último caso es muy frecuente. Un archivo puede venir en texto plano, o codificado en un formato especial, como es el caso de los archivos `csv` o los archivos `json`. En esta pequeña sesión atendemos a estos dos casos.

### Archivos CSV

He aquí un fragmento de un archivo `csv`, abierto con el portapapeles y con excell, respectivamente:

<table>
<tbody>
<tr>
<td>
  <img src='./nombres_de_mujer_comas_txt.png' alt='Archivo csv abierto con excel' style='height:350px'>
</td>
<td>
   &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
</td>
<td>
  <img src='./nombres_de_mujer_excell.png' alt='Archivo csv abierto con excel' style='height:350px'>
</td>
</tr>
</tbody>
</table>

El manejo de archivos `csv` es sencillo en Python. Como referencia básica, puede verse la siguiente, entre otras muchas:

    https://docs.python.org/3/library/csv.html
        
El formato `csv` (*Comma Separated Values*) es el más usado para almacenar tablas de datos en archivos de disco.

In [1]:
import csv

csvFile = csv.reader(open("nombres_por_edad_media.csv", "r"))
for row in csvFile:
    print(row)

['Orden', 'Nombre', 'Frecuencia', 'Edad media']
['1', 'MARIA CARMEN', '656.276', '57']
['2', 'MARIA', '606.048', '48', '6']
['3', 'CARMEN', '391.563', '60', '4']
['4', 'JOSEFA', '276.682', '68']
['5', 'ANA MARIA', '273.319', '51', '2']
['6', 'ISABEL', '266.967', '57', '4']
['7', 'MARIA PILAR', '263.141', '57']
['8', 'MARIA DOLORES', '259.216', '56', '6']
['9', 'LAURA', '256.381', '28', '4']
['10', 'MARIA TERESA', '251.492', '57', '1']
['11', 'ANA', '250.124', '43', '9']
['12', 'CRISTINA', '228.428', '33', '7']
['13', 'MARIA ANGELES', '226.047', '55', '4']
['14', 'MARTA', '225.323', '29', '3']
['15', 'FRANCISCA', '213.820', '64', '9']
['16', 'ANTONIA', '207.597', '64', '7']
['17', 'MARIA ISABEL', '204.354', '52', '8']
['18', 'MARIA JOSE', '203.283', '46', '1']
['19', 'LUCIA', '202.562', '23', '2']
['20', 'DOLORES', '197.778', '67']
['21', 'SARA', '168.249', '24', '5']
['22', 'PAULA', '167.316', '19', '9']
['23', 'ELENA', '160.928', '36', '7']
['24', 'MARIA LUISA', '160.565', '60', '9']


['18615', 'DOLY', '28', '44', '6']
['18616', 'DONACIANA', '28', '77']
['18617', 'EDISA', '28', '44', '4']
['18618', 'EDWIGE', '28', '43', '8']
['18619', 'EFIDENCIA', '28', '72', '9']
['18620', 'ELENA COSMINA', '28', '27', '6']
['18621', 'ELENA CRUZ', '28', '38']
['18622', 'ELENA ISABELA', '28', '24', '2']
['18623', 'ELENA LEONOR', '28', '44']
['18624', 'ELENA MATILDE', '28', '47', '4']
['18625', 'ELIANA CRISTINA', '28', '36']
['18626', 'ELIANE CRISTINA', '28', '39', '7']
['18627', 'ELISA AURORA', '28', '53']
['18628', 'ELIZABEL', '28', '35', '9']
['18629', 'ELIZABETH MARIE', '28', '32', '6']
['18630', 'ELSA CECILIA', '28', '50', '8']
['18631', 'EMELINDA', '28', '52', '9']
['18632', 'EMILIA BELEN', '28', '41', '8']
['18633', 'EMILIA CONSUELO', '28', '60', '4']
['18634', 'EMILIA SOLEDAD', '28', '52', '7']
['18635', 'EMILY DANIELA', '28', '11', '4']
['18636', 'ENHUI', '28', '16', '7']
['18637', 'ERIKA LIZETH', '28', '25', '4']
['18638', 'ERIKA VANESA', '28', '26', '4']
['18639', 'ERIS', '

In [2]:
# De otro modo:

with open('nombres_por_edad_media.csv', 'r') as csvFile:
    reader = csv.reader(csvFile)
    for row in reader:
        print(row)

['Orden', 'Nombre', 'Frecuencia', 'Edad media']
['1', 'MARIA CARMEN', '656.276', '57']
['2', 'MARIA', '606.048', '48', '6']
['3', 'CARMEN', '391.563', '60', '4']
['4', 'JOSEFA', '276.682', '68']
['5', 'ANA MARIA', '273.319', '51', '2']
['6', 'ISABEL', '266.967', '57', '4']
['7', 'MARIA PILAR', '263.141', '57']
['8', 'MARIA DOLORES', '259.216', '56', '6']
['9', 'LAURA', '256.381', '28', '4']
['10', 'MARIA TERESA', '251.492', '57', '1']
['11', 'ANA', '250.124', '43', '9']
['12', 'CRISTINA', '228.428', '33', '7']
['13', 'MARIA ANGELES', '226.047', '55', '4']
['14', 'MARTA', '225.323', '29', '3']
['15', 'FRANCISCA', '213.820', '64', '9']
['16', 'ANTONIA', '207.597', '64', '7']
['17', 'MARIA ISABEL', '204.354', '52', '8']
['18', 'MARIA JOSE', '203.283', '46', '1']
['19', 'LUCIA', '202.562', '23', '2']
['20', 'DOLORES', '197.778', '67']
['21', 'SARA', '168.249', '24', '5']
['22', 'PAULA', '167.316', '19', '9']
['23', 'ELENA', '160.928', '36', '7']
['24', 'MARIA LUISA', '160.565', '60', '9']


['16700', 'LUCY JANE', '32', '35', '8']
['16701', 'LUPICINA', '32', '75', '1']
['16702', 'LUZ LUNA', '32', '23', '8']
['16703', 'LUZ RAQUEL', '32', '43', '4']
['16704', 'MAAZOUZA', '32', '46', '9']
['16705', 'MACEDONIA', '32', '61']
['16706', 'MADHU', '32', '37', '8']
['16707', 'MAIRA ALEXANDRA', '32', '31', '7']
['16708', 'MAISHA', '32', '7', '2']
['16709', 'MAITE MARIA', '32', '35', '7']
['16710', 'MANOELA', '32', '36', '1']
['16711', 'MANUELA JULIA', '32', '64', '9']
['16712', 'MARCELA ADRIANA', '32', '47', '8']
['16713', 'MARGARITA ASCENSION', '32', '56', '3']
['16714', 'MARIA ALDINA', '32', '62', '9']
['16715', 'MARIA ALODIA', '32', '43', '9']
['16716', 'MARIA ARACELLY', '32', '57']
['16717', 'MARIA BEGONIA', '32', '47', '9']
['16718', 'MARIA BLANCA ROSA', '32', '61', '3']
['16719', 'MARIA CLARIBEL', '32', '55', '8']
['16720', 'MARIA EMILCE', '32', '48', '5']
['16721', 'MARIA EMILSE', '32', '55']
['16722', 'MARIA JESUS ANTONIA', '32', '67', '6']
['16723', 'MARIA JORGELINA', '32', 

In [3]:
# Y también, leyendo la cabecera por separado,
# seleccionando algunas columnas y realizando una conversión, ya de paso:

with open('nombres_por_edad_media.csv', 'r') as csvFile:
    reader = csv.reader(csvFile)
    cab = next(reader)
    print(cab[1], cab[3])
    for row in reader:
        nombre, edad_media = row[1], row[3]
        print(nombre, int(edad_media))

Nombre Edad media
MARIA CARMEN 57
MARIA 48
CARMEN 60
JOSEFA 68
ANA MARIA 51
ISABEL 57
MARIA PILAR 57
MARIA DOLORES 56
LAURA 28
MARIA TERESA 57
ANA 43
CRISTINA 33
MARIA ANGELES 55
MARTA 29
FRANCISCA 64
ANTONIA 64
MARIA ISABEL 52
MARIA JOSE 46
LUCIA 23
DOLORES 67
SARA 24
PAULA 19
ELENA 36
MARIA LUISA 60
PILAR 63
RAQUEL 36
ROSA MARIA 52
CONCEPCION 65
MANUELA 60
MERCEDES 61
MARIA JESUS 55
BEATRIZ 37
JULIA 40
ROSARIO 63
NURIA 37
JUANA 65
SILVIA 35
TERESA 62
ENCARNACION 63
IRENE 26
ALBA 16
PATRICIA 31
MONTSERRAT 54
ANDREA 22
ROCIO 29
ROSA 64
MONICA 37
ALICIA 38
MARIA MAR 43
ANGELA 44
SONIA 37
SANDRA 29
MARINA 32
SUSANA 42
NATALIA 28
YOLANDA 42
MARGARITA 59
MARIA JOSEFA 62
CLAUDIA 16
EVA 32
MARIA ROSARIO 58
INMACULADA 44
MARIA MERCEDES 54
ANA ISABEL 43
ESTHER 41
CARLA 12
SOFIA 18
NOELIA 27
VERONICA 33
ANGELES 65
NEREA 18
CAROLINA 32
MARIA VICTORIA 52
EVA MARIA 41
MARIA ROSA 61
MIRIAM 26
INES 35
LORENA 28
AMPARO 64
ANA BELEN 37
MARIA CONCEPCION 61
MARIA ELENA 49
VICTORIA 47
DANIELA 13
MARIA AN

BLANCA GEMA 41
BLANCA LILIANA 40
BLANKA 36
BLASA MARIA 52
BRUNILDA 49
CALINA 45
CARIDAD ISABEL 48
CECILIA MARGARITA 46
CLARISSE 33
CLAUDIA ROXANA 34
CLAUDIA VALENTINA 18
COLOMA MARIA 49
CONCEPCION JOSEFA 66
CORINA MIHAELA 35
DAHLIA 11
DANIELA BELEN 23
DIANA LIZETH 28
DOBRINKA 46
EMMA CARMEN 35
ESTEFANIA ROCIO 28
FIOR DALIZA 41
FRANCISCA ASCENSION 59
FRANCISCA GEMA 43
GABRIELA MARIANA 37
GABRIELA MIHAELA 33
GENESIS CAROLINA 20
GEORGIANA MADALINA 24
GINA MARCELA 31
GLADYS ZUNILDA 42
GLORIA ANTONIA 56
GLORIA JOSEFA 63
HIRA 17
ILDUARA 31
INMACULADA ROSARIO 47
IOANA ROXANA 27
IRMA ISABEL 47
ISABEL MAGDALENA 52
ISABELINA 63
ITZIAR MARIA 26
JASVIR KAUR 41
JEAN MARY 70
JESSICA DANIELA 22
JOSEFA LEONOR 58
JOSEFA RAQUEL 51
JULIE ELIZABETH 54
JURDANA 30
KAREN GABRIELA 24
KARINA ROCIO 37
KATHLEEN ANN 62
KINZA 28
LAURA GEMA 31
LEONILDE 65
LEYDI 31
LILITH 6
LJILJANA 54
LORENA MAR 28
LUCIA IRENE 38
MALGORZATA MARIA 43
MARCOLINA 69
MARGARITA NIEVES 55
MARIA ALEYDA 56
MARIA CARMEN VICTORIA 64
MARIA DAM

SCHEHEREZADE 30
SELENE CARMEN 20
SERAFIMA 29
SHAM 6
SHARAI 19
SHELLY 24
SHIARA 9
SHIRLEY ANDREA 28
SHIRLEY DAYANA 19
SHIRLEY PAOLA 32
SHULING 42
SIJIA 17
SILVIA AURORA 48
SILVIA CONSUELO 46
SIMY 59
SINAITA 65
SIYKA 51
SOFIA MILAGROS 26
SOLANGE MARIA 42
SONIA EDITH 45
SONIA LUZ 49
SOPHIE ELIZABETH 23
SORINA ELENA 33
STEFANIA CRISTINA 23
SUSAN BARBARA 64
SUSANA PAULA 45
TANIA ANDREA 24
TASNIME 5
TATA 23
TATIANA MARCELA 28
TATIANA PATRICIA 32
TERESA NOEMI 45
TERESA PAULA 41
TERESA SOFIA 47
TERESA SUSANA 54
TEXENERI 26
TORAHI 28
UXIA MARIA 17
VALENTINA CRISTINA 25
VANESA CAROLINA 34
VANESSA VICTORIA 26
VERONICA LUISA 41
VERONICA MARIBEL 35
VERONICA TATIANA 31
VICENTA ROSARIO 61
VICTORIA ALICIA 46
VICTORIA LEONOR 23
VICTORIA NOEMI 23
VILLAVICIOSA 65
VIRGINIA CONCEPCION 50
VIRGINIA INES 38
VIRGINIA LUCIA 36
VIVIAN ANDREA 26
VIVIANA GABRIELA 41
VIVIANNE 40
WENDY XIOMARA 32
WENXI 13
WENXIN 14
XIANFEN 40
XINLEI 14
XIOMARA ELIZABETH 29
YALILE 37
YANITZA 31
YENY PATRICIA 38
YINETH 41
YLIANA 32
YN

Aunque el separador natural en `csv` es la coma, es posible usar otro, como puede ser el punto y coma: 

<table>
<tbody>
<tr>
<td>
  <img src='./nombres_de_mujer_pc_txt.png' alt='Archivo csv abierto con excel' style='height:350px'>
</td>
<td>
   &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
</td>
<td>
  <img src='./nombres_de_mujer.png' alt='Archivo csv abierto con excel' style='height:350px'>
</td>
</tr>
</tbody>
</table>

Las instrucciones anteriores deberían especificar el parámetro opcional así: `delimiter=';'`,
cuando el separador sea distinto de la coma:

```python
csv_file = csv.reader(open("nombres_por_edad_media_pc.csv", "r", delimiter=';'))
reader = csv.reader(csv_file, delimiter=';')
```

In [4]:
# Escritura:

ids_columnas = ['Nombre', 'Matemáticas', 'Lengua', 'Historia'] 
  
filas = [ ['Juan', '5.7', '2.5', '9.0'], 
          ['Sara', '9.5', '6.7', '9.3'], 
          ['Alberto', '7.5', '7.5', '7.5'], 
          ['Sara', '4.9', '5.2', '8.0']] 
  
with open("calificaciones_2019.csv", 'w', newline='') as csv_archivo: 
    csvwriter = csv.writer(csv_archivo, delimiter=";") 
    csvwriter.writerow(ids_columnas) 
    csvwriter.writerows(filas)

print("Hecho")

Hecho


### Transformación de datos

Los datos leídos de un `csv` son siempre cadenas de caracteres, pero se pueden convertir en los formatos necesarios con las funciones (y librerías) adecuadas:

In [5]:
# Enteros:

print(int("7"),int("123.000".replace('.','')))

# Reales:

print(float("4.5"), float("4,5".replace(",", ".")))
print(float("123.000,75".replace('.','').replace(',','.')))

# Fechas:

from datetime import datetime
fecha_str = '10-24-2019'

fecha_objeto = datetime.strptime(fecha_str, '%m-%d-%Y').date()
print(type(fecha_objeto))
print(fecha_objeto)

7 123000
4.5 4.5
123000.75
<class 'datetime.date'>
2019-10-24


(Las transformaciones de datos deben realizarse únicamente con los datos sin la cabecera.)

### El formato JSON

El formato `JSON` es una notación sencilla para especificar datos y facilitar su intercambio. En la wikipedia puede leerse que se trata de un subconjunto de la notación literal de objetos de JavaScript, aunque, debido a su amplia adopción como alternativa a XML, actualmente se considera un formato independiente del lenguaje.

La idea subyacente a este formato es explotar la codificación mediante el emparejamiento de clave-valor, y la utilización de listas. Los siguientes ejemplos se han tomado de la direccióin siguiente:

    https://support.oneskyapp.com/hc/en-us/articles/208047697-JSON-sample-files

Ejemplo 1:

    {
        "fruit": "Apple",
        "size": "Large",
        "color": "Red"
    }
    

Ejemplo 2:

    {
        "quiz": {
            "sport": {
                "q1": {
                    "question": "Which one is correct team name in NBA?",
                    "options": [
                        "New York Bulls",
                        "Los Angeles Kings",
                        "Golden State Warriros",
                        "Huston Rocket"
                    ],
                    "answer": "Huston Rocket"
                }
            },
            "maths": {
                "q1": {
                    "question": "5 + 7 = ?",
                    "options": [
                        "10",
                        "11",
                        "12",
                        "13"
                    ],
                    "answer": "12"
                },
                "q2": {
                    "question": "12 - 8 = ?",
                    "options": [
                        "1",
                        "2",
                        "3",
                        "4"
                    ],
                    "answer": "4"
                }
            }
        }
    }

El emparejamiento de clave-valor nos recuerda los diccionarios. Pero podemos convertir
objetos Python de los siguientes tipos en formato JSON: diccionarios, listas, tuplas, strings, enteros, reales, booleanos y el valor None.

Trabajemos con dos archivos cuyos contenidos son los mostrados en los ejemplos anteriores:

In [6]:
import json

with open("example_1.json") as archivo:
    datos = json.loads(archivo.read())

print(datos)
print(type(datos))

{'fruit': 'Apple', 'size': 'Large', 'color': 'Red'}
<class 'dict'>


In [7]:
# Impresión con sangrado:

print(json.dumps(datos, indent=4))

{
    "fruit": "Apple",
    "size": "Large",
    "color": "Red"
}


In [8]:
# Obsérvese que el archivo `example_1.json`
# no contiene un diccionario,
# sino únicamente cadenas de caracteres:

with open("example_1.json") as archivo:
    for row in archivo:
        print(row,end="")

{
    "fruit": "Apple",
    "size": "Large",
    "color": "Red"
}

In [9]:
with open("example_2.json") as archivo:
    datos = json.loads(archivo.read())
datos

{'quiz': {'sport': {'q1': {'question': 'Which one is correct team name in NBA?',
    'options': ['New York Bulls',
     'Los Angeles Kings',
     'Golden State Warriros',
     'Huston Rocket'],
    'answer': 'Huston Rocket'}},
  'maths': {'q1': {'question': '5 + 7 = ?',
    'options': ['10', '11', '12', '13'],
    'answer': '12'},
   'q2': {'question': '12 - 8 = ?',
    'options': ['1', '2', '3', '4'],
    'answer': '4'}}}}

In [10]:
# Escritura:

with open("example_3.json", "w") as archivo:
    archivo.write(json.dumps(datos))
    
# Obviamente, los archivos example_2.json y example_3.json son iguales

Se puede cargar un archivo json en un diccionario...

In [11]:
import json

f = open("estaciones.json")
estaciones_dicc = json.load(f)
estaciones_dicc

[{'latitud': '431825N',
  'provincia': 'A CORUÑA',
  'altitud': '98',
  'indicativo': '1387E',
  'nombre': 'A CORUÑA AEROPUERTO',
  'indsinop': '08002',
  'longitud': '082219W'},
 {'latitud': '432157N',
  'provincia': 'A CORUÑA',
  'altitud': '58',
  'indicativo': '1387',
  'nombre': 'A CORUÑA',
  'indsinop': '08001',
  'longitud': '082517W'},
 {'latitud': '430938N',
  'provincia': 'A CORUÑA',
  'altitud': '50',
  'indicativo': '1393',
  'nombre': 'CABO VILAN',
  'indsinop': '08006',
  'longitud': '091239W'},
 {'latitud': '434710N',
  'provincia': 'A CORUÑA',
  'altitud': '80',
  'indicativo': '1351',
  'nombre': 'ESTACA DE BARES',
  'indsinop': '08004',
  'longitud': '074105W'},
 {'latitud': '425529N',
  'provincia': 'A CORUÑA',
  'altitud': '230',
  'indicativo': '1400',
  'nombre': 'FISTERRA',
  'indsinop': '08040',
  'longitud': '091729W'},
 {'latitud': '424314N',
  'provincia': 'A CORUÑA',
  'altitud': '685',
  'indicativo': '1437O',
  'nombre': 'MONTE IROITE',
  'indsinop': '0804

Y luego pasar el diccionario a una tabla de pandas:

In [12]:
import pandas

estaciones = pandas.DataFrame(estaciones_dicc)
estaciones

Unnamed: 0,latitud,provincia,altitud,indicativo,nombre,indsinop,longitud
0,431825N,A CORUÑA,98,1387E,A CORUÑA AEROPUERTO,08002,082219W
1,432157N,A CORUÑA,58,1387,A CORUÑA,08001,082517W
2,430938N,A CORUÑA,50,1393,CABO VILAN,08006,091239W
3,434710N,A CORUÑA,80,1351,ESTACA DE BARES,08004,074105W
4,425529N,A CORUÑA,230,1400,FISTERRA,08040,091729W
...,...,...,...,...,...,...,...
286,411952N,ZARAGOZA,600,9394X,CALATAYUD,08156,013843W
287,410652N,ZARAGOZA,779,9390,DAROCA,08157,012436W
288,422927N,ZARAGOZA,626,9244X,SOS DEL REY CATÓLICO,08090,011249W
289,413938N,ZARAGOZA,249,9434,ZARAGOZA AEROPUERTO,08160,010015W


In [13]:
estaciones.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 291 entries, 0 to 290
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   latitud     291 non-null    object
 1   provincia   291 non-null    object
 2   altitud     291 non-null    object
 3   indicativo  291 non-null    object
 4   nombre      291 non-null    object
 5   indsinop    291 non-null    object
 6   longitud    291 non-null    object
dtypes: object(7)
memory usage: 16.0+ KB


Pero también se puede leer directamente un archivo json en una tabla de pandas:

In [14]:
datos_pandas = pandas.read_json("estaciones.json", encoding="latin1")
datos_pandas

Unnamed: 0,latitud,provincia,altitud,indicativo,nombre,indsinop,longitud
0,431825N,A CORUÑA,98,1387E,A CORUÑA AEROPUERTO,08002,082219W
1,432157N,A CORUÑA,58,1387,A CORUÑA,08001,082517W
2,430938N,A CORUÑA,50,1393,CABO VILAN,08006,091239W
3,434710N,A CORUÑA,80,1351,ESTACA DE BARES,08004,074105W
4,425529N,A CORUÑA,230,1400,FISTERRA,08040,091729W
...,...,...,...,...,...,...,...
286,411952N,ZARAGOZA,600,9394X,CALATAYUD,08156,013843W
287,410652N,ZARAGOZA,779,9390,DAROCA,08157,012436W
288,422927N,ZARAGOZA,626,9244X,SOS DEL REY CATÓLICO,08090,011249W
289,413938N,ZARAGOZA,249,9434,ZARAGOZA AEROPUERTO,08160,010015W
