# Input/Output con `pandas`

Para poder leer o escribir datos, `pandas` provee una serie de métodos específicos para todos los tipos de datos estructurados usuales, ya sea en formato texto o binario. Los métodos para leer de archivos se reconocen por el prefijo `.read_`, mientras que para escribir usaremos `.to_`. Para cada formato particular de archivo, estos métodos aceptarán un conjunto de argumentos adicionales que permiten adecuar nuestro código. 

> Si se usa VSCode, se puede instalar la extensión [Data Wrangler](https://marketplace.visualstudio.com/items?itemName=ms-toolsai.datawrangler) que permite inspeccionar `DataFrames`. Puede ser útil cuando uno trabaja con muchos datos.

## JSON

JSON (JavaScript Object Notation) es un formato estándar de estructura de datos en modo texto, legible y de amplio uso en internet. 

In [1]:
import pandas as pd
from pathlib import Path

In [2]:
atomos_path = Path.cwd().parent / 'data' / 'atomos'
print(atomos_path)

/home/fiol/Clases/IntPython/clases-python/data/atomos


In [3]:
df = pd.read_json(atomos_path / 'atomos.json')
df

Unnamed: 0,Element,Symbol,Atomic Number,Atomic Mass (u),Density (g/cm³),Melting Point (K),Boiling Point (K),Electronegativity,State at Room Temp
0,Hydrogen,H,1,1.008,9e-05,14.01,20.28,2.2,Gas
1,Helium,He,2,4.0026,0.000179,,,,Gas
2,Lithium,Li,3,6.94,0.534,453.69,1615.0,0.98,Solid
3,Beryllium,Be,4,9.0122,1.85,1560.0,2742.0,1.57,Solid
4,Boron,B,5,10.81,2.34,2349.0,4200.0,2.04,Solid
5,Carbon,C,6,12.011,2.267,3800.0,4300.0,2.55,Solid
6,Nitrogen,N,7,14.007,0.001251,63.15,77.36,3.04,Gas
7,Oxygen,O,8,15.999,0.001429,54.36,90.2,3.44,Gas
8,Fluorine,F,9,18.998,0.001696,53.48,85.03,3.98,Gas
9,Neon,Ne,10,20.18,0.0009,,,,Gas


In [4]:
df.dtypes

Element                object
Symbol                 object
Atomic Number           int64
Atomic Mass (u)       float64
Density (g/cm³)       float64
Melting Point (K)     float64
Boiling Point (K)     float64
Electronegativity     float64
State at Room Temp     object
dtype: object

In [5]:
df.columns

Index(['Element', 'Symbol', 'Atomic Number', 'Atomic Mass (u)',
       'Density (g/cm³)', 'Melting Point (K)', 'Boiling Point (K)',
       'Electronegativity', 'State at Room Temp'],
      dtype='object')

Renombremos algunas columnas para que no tengan etiquetas tan complejas

In [6]:
df.rename(columns={'Density (g/cm³)': 'Density'}, inplace=True)
df.rename(columns={'Melting Point (K)': 'Melting Point'}, inplace=True)
df.columns

Index(['Element', 'Symbol', 'Atomic Number', 'Atomic Mass (u)', 'Density',
       'Melting Point', 'Boiling Point (K)', 'Electronegativity',
       'State at Room Temp'],
      dtype='object')

Extraigamos los datos atómicos (masa y número atómico) y escribámoslo en un json:

In [7]:
df[['Element', 'Symbol', 'Atomic Number', 'Atomic Mass (u)']]

Unnamed: 0,Element,Symbol,Atomic Number,Atomic Mass (u)
0,Hydrogen,H,1,1.008
1,Helium,He,2,4.0026
2,Lithium,Li,3,6.94
3,Beryllium,Be,4,9.0122
4,Boron,B,5,10.81
5,Carbon,C,6,12.011
6,Nitrogen,N,7,14.007
7,Oxygen,O,8,15.999
8,Fluorine,F,9,18.998
9,Neon,Ne,10,20.18


In [8]:
df[['Element', 'Symbol', 'Atomic Number', 'Atomic Mass (u)']].to_json(atomos_path / 'prop_atomos.json')

In [9]:
# Guarda sólo los valores
df[['Element', 'Symbol', 'Atomic Number', 'Atomic Mass (u)']].to_json(atomos_path / 'prop_atomos_values.json', orient='values')

# Guarda los registros indexados por el índice del DataFrame
df[['Element', 'Symbol', 'Atomic Number', 'Atomic Mass (u)']].to_json(atomos_path / 'prop_atomos_index.json', orient='index')

# Guarda los registros indexados por el nombre de las columnas, valor por defecto
df[['Element', 'Symbol', 'Atomic Number', 'Atomic Mass (u)']].to_json(atomos_path / 'prop_atomos_columns.json', orient='columns')

# Guarda los registros en formato de lista de diccionarios, sin indices
df[['Element', 'Symbol', 'Atomic Number', 'Atomic Mass (u)']].to_json(atomos_path / 'prop_atomos_records.json', orient='records')


## CSV

Podríamos querer escribirlos como valores separados por comas (u otro delimitador):

In [10]:
df[['Element', 'Symbol', 'Atomic Number', 'Atomic Mass (u)']].to_csv(atomos_path / 'prop_atomos.csv', sep='|')

Vemos que en ambos casos también guarda el índice en el archivo

Si queremos que no guarde el índice, pasamos el argumento opcional `index=False`. 

In [11]:
df.to_csv(atomos_path / 'prop_atomos_noindex.csv', sep='|', index=False)

Se puede ver que al guardar el `.csv`, los elementos inexistentes de la tabla (`NaN`) se guardan como cadenas de caracteres vacías. Se puede indicar otro tipo de valor para esos casos:

In [12]:
df.to_csv(atomos_path / 'prop_atomos_noheader2.csv', sep='|', index=False, na_rep='N/A')

## Formatos binarios

En algunos casos como leer o escribir de archivos binarios, es necesario instalar algunos módulos. Por ejemplo, si queremos leer archivos `.parquet`, tenemos que instalar `pyarrow`.

- `.parquet`: `conda install pyarrow`
- `.xls(x)`: `conda install openpyxl xlrd`
- `hdf5`: `conda install pytables`

In [13]:
df.to_parquet(atomos_path / 'prop_atomos.parquet')

In [14]:
dfp = pd.read_parquet(atomos_path / 'prop_atomos.parquet')
dfp

Unnamed: 0,Element,Symbol,Atomic Number,Atomic Mass (u),Density,Melting Point,Boiling Point (K),Electronegativity,State at Room Temp
0,Hydrogen,H,1,1.008,9e-05,14.01,20.28,2.2,Gas
1,Helium,He,2,4.0026,0.000179,,,,Gas
2,Lithium,Li,3,6.94,0.534,453.69,1615.0,0.98,Solid
3,Beryllium,Be,4,9.0122,1.85,1560.0,2742.0,1.57,Solid
4,Boron,B,5,10.81,2.34,2349.0,4200.0,2.04,Solid
5,Carbon,C,6,12.011,2.267,3800.0,4300.0,2.55,Solid
6,Nitrogen,N,7,14.007,0.001251,63.15,77.36,3.04,Gas
7,Oxygen,O,8,15.999,0.001429,54.36,90.2,3.44,Gas
8,Fluorine,F,9,18.998,0.001696,53.48,85.03,3.98,Gas
9,Neon,Ne,10,20.18,0.0009,,,,Gas


### Web

In [15]:
# URL que contiene una tabla HTML
url = "https://en.wikipedia.org/wiki/List_of_countries_by_population"

# Leer todas las tablas de la página
tablas = pd.read_html(url)


In [16]:
print(f"Encontré {len(tablas)} tablas")
print(type(tablas))

# La función devuelve una lista de DataFrames, cada uno correspondiente a una tabla en la página
# Normalmente querrás seleccionar una tabla específica
tabla_poblacion = tablas[0]  # Primera tabla de la página

# Mostrar las primeras filas
tabla_poblacion.head()

Encontré 3 tablas
<class 'list'>


Unnamed: 0,Location,Population,% of world,Date,Source (official or from the United Nations),Notes
0,World,8136397260,100%,6 Apr 2025,UN projection[1][3],
1,India,1413324000,17.3%,1 Mar 2025,Official projection[4],[b]
2,China,1408280000,17.2%,31 Dec 2024,Official estimate[5],[c]
3,United States,340110988,4.2%,1 Jul 2024,Official estimate[6],[d]
4,Indonesia,282477584,3.5%,30 Jun 2024,National annual projection[7],


## Cuando se pone difícil

En muchas situaciones los archivos pueden tener datos estructurados de alguna manera que no permiten directamente su lectura con `pandas`. 

In [17]:
smn_path = Path.cwd().parent / 'data' / 'smn'

In [18]:
pronostico = pd.read_csv(smn_path / 'pronostico_header4.txt')
pronostico

Unnamed: 0,************************************************************************************************
Producto basado en un modelo de pronóstico numérico del tiempo,
por lo tanto puede diferir del pronostico emitido por el SMN,
************************************************************************************************,
AEROPARQUE,
================================================================================================,
...,...
06/DIC/2024 12Hs. 13.1 314 | 12 0.0,
06/DIC/2024 15Hs. 16.2 297 | 15 0.0,
06/DIC/2024 18Hs. 15.2 304 | 23 0.0,
06/DIC/2024 21Hs. 9.1 308 | 17 0.0,


Probemos usando `read_fwf`, que es capaz de leer tablas con columnas de ancho fijo:

In [19]:
pronostico = pd.read_fwf(smn_path / 'pronostico_header4.txt',skiprows=5)
pronostico.head(10)


Unnamed: 0,AEROPARQUE
0,==============================================...
1,FECHA * TEMPERATURA VIENTO ...
2,(DIR | KM/H)
3,==============================================...
4,02/DIC/2024 00Hs. 16.0 236 | 17 ...
5,02/DIC/2024 03Hs. 14.4 196 | 18 ...
6,02/DIC/2024 06Hs. 10.6 190 | 8 ...
7,02/DIC/2024 09Hs. 14.9 221 | 11 ...
8,02/DIC/2024 12Hs. 19.2 249 | 12 ...
9,02/DIC/2024 15Hs. 21.6 241 | 15 ...


Como se esperaba, no parece ser la solución porque la estructura del archivo no es estrictamente de columnas de ancho fijo, sino de secciones de columnas de ancho fijo. Entonces tenemos que preprocesar el archivo para llegar a obtener esas secciones:

In [20]:
with open(smn_path / 'pronostico_5dias20250408.txt', 'r') as file:
    content = file.read()

# Dividir el contenido en secciones por aeropuerto
sep =  "================================================================================================"
sections = content.split(sep)
for i,s in enumerate(sections[0:5]):
    print(f"Sección {i} {'-'*80}")
    print(f"{s}")

Sección 0 --------------------------------------------------------------------------------
************************************************************************************************
 Producto basado en un modelo de pronóstico numérico del tiempo, 
 por lo tanto puede diferir del pronostico emitido por el SMN
 ************************************************************************************************
 
 AEROPARQUE
 
Sección 1 --------------------------------------------------------------------------------

      FECHA *          TEMPERATURA      VIENTO      PRECIPITACION(mm)
                                     (DIR | KM/H)                        
 
Sección 2 --------------------------------------------------------------------------------

  08/ABR/2025 00Hs.        15.4       116 |  27         7.5 
  08/ABR/2025 03Hs.        15.6       112 |  25         3.0 
  08/ABR/2025 06Hs.        16.0       114 |  26         3.0 
  08/ABR/2025 09Hs.        16.3       115 |  26         1

In [21]:
print("Estación : ", sections[0])
print("Header : ", sections[1])
print("Pronóstico : ", sections[2])


Estación :  ************************************************************************************************
 Producto basado en un modelo de pronóstico numérico del tiempo, 
 por lo tanto puede diferir del pronostico emitido por el SMN
 ************************************************************************************************
 
 AEROPARQUE
 
Header :  
      FECHA *          TEMPERATURA      VIENTO      PRECIPITACION(mm)
                                     (DIR | KM/H)                        
 
Pronóstico :  
  08/ABR/2025 00Hs.        15.4       116 |  27         7.5 
  08/ABR/2025 03Hs.        15.6       112 |  25         3.0 
  08/ABR/2025 06Hs.        16.0       114 |  26         3.0 
  08/ABR/2025 09Hs.        16.3       115 |  26         1.7 
  08/ABR/2025 12Hs.        16.6       123 |  22         1.1 
  08/ABR/2025 15Hs.        17.0       123 |  24         0.9 
  08/ABR/2025 18Hs.        16.7       117 |  24         1.8 
  08/ABR/2025 21Hs.        16.6       104 |  22   

La lista `sections` contiene secciones que corresponden a una estación meteorológica, cuyos nombres son:

In [22]:
print(sections[0].split('\n')[-2].strip()) # tratamiento especial para remover el comentario
print(sections[3].strip())
print(sections[6].strip())

AEROPARQUE
AZUL_AERO
BAHIA_BLANCA_AERO


> La primer sección debe trabajarse a mano debido al comentario que posee el archivo

Las siguientes serían las secciones de headers que en principio no nos harían falta:

In [23]:
print(sections[1].strip())
print(sections[4].strip())
print(sections[7].strip())

FECHA *          TEMPERATURA      VIENTO      PRECIPITACION(mm)
                                     (DIR | KM/H)
FECHA *          TEMPERATURA      VIENTO      PRECIPITACION(mm)
                                     (DIR | KM/H)
FECHA *          TEMPERATURA      VIENTO      PRECIPITACION(mm)
                                     (DIR | KM/H)


Finalmente tenemos las secciones con los datos:

In [24]:
print(sections[2].split('\n')[:5])
print(sections[5].split('\n')[:5])
print(sections[8].split('\n')[:5])

['', '  08/ABR/2025 00Hs.        15.4       116 |  27         7.5 ', '  08/ABR/2025 03Hs.        15.6       112 |  25         3.0 ', '  08/ABR/2025 06Hs.        16.0       114 |  26         3.0 ', '  08/ABR/2025 09Hs.        16.3       115 |  26         1.7 ']
['', '  08/ABR/2025 00Hs.        10.3       109 |  15         0.0 ', '  08/ABR/2025 03Hs.         9.3       124 |  12         0.0 ', '  08/ABR/2025 06Hs.         8.9       134 |  11         0.0 ', '  08/ABR/2025 09Hs.        12.6       122 |  18         0.0 ']
['', '  08/ABR/2025 00Hs.        13.5        35 |  20         0.0 ', '  08/ABR/2025 03Hs.        11.7        31 |  16         0.0 ', '  08/ABR/2025 06Hs.        10.7        42 |  12         0.0 ', '  08/ABR/2025 09Hs.        12.6        50 |  15         0.0 ']


Ahora sí podemos usar `read_fwf` para transformar las secciones en `DataFrame`s. Para ello tenemos que convertir cada `section` (que es un string) en un tipo de buffer en memoria que se comporte como un archivo. Obsérvese que si hacemos:


In [25]:
from io import StringIO 

with StringIO(sections[5]) as data_io:
    df_malo = pd.read_fwf(data_io)
    
df_malo.head()

Unnamed: 0,08/ABR/2025,00Hs.,10.3,109,|,15,0.0
0,08/ABR/2025,03Hs.,9.3,124,|,12,0.0
1,08/ABR/2025,06Hs.,8.9,134,|,11,0.0
2,08/ABR/2025,09Hs.,12.6,122,|,18,0.0
3,08/ABR/2025,12Hs.,19.4,95,|,22,0.0
4,08/ABR/2025,15Hs.,21.4,99,|,28,0.0


Es decir que la primer fila del _stream_ es tomada como los nombres de las columnas. Tenemos que pasar el argumento opcional `names` para definir los nombres de las columnas:

In [26]:
with StringIO(sections[2]) as data_io:
    df = pd.read_fwf(data_io,names=['fecha','h','t','v_dir','l','v_vel','precip'])
    
df.head()

Unnamed: 0,fecha,h,t,v_dir,l,v_vel,precip
0,08/ABR/2025,00Hs.,15.4,116,|,27,7.5
1,08/ABR/2025,03Hs.,15.6,112,|,25,3.0
2,08/ABR/2025,06Hs.,16.0,114,|,26,3.0
3,08/ABR/2025,09Hs.,16.3,115,|,26,1.7
4,08/ABR/2025,12Hs.,16.6,123,|,22,1.1



Para terminar podemos eliminar la columna `l` que no aporta información:

In [27]:
df.drop(columns=['l'],inplace=True)
df.head()

Unnamed: 0,fecha,h,t,v_dir,v_vel,precip
0,08/ABR/2025,00Hs.,15.4,116,27,7.5
1,08/ABR/2025,03Hs.,15.6,112,25,3.0
2,08/ABR/2025,06Hs.,16.0,114,26,3.0
3,08/ABR/2025,09Hs.,16.3,115,26,1.7
4,08/ABR/2025,12Hs.,16.6,123,22,1.1


-----
## Ejercicio 14(a)

Complete la tabla de datos del ejemplo de clase. Para ello utilice el archivo con los pronósticos completos para todas las estaciones, `pronostico_5dias20250408.txt` y 

- Agregue una columna con el nombre de la estación al DataFrame
- Procese todas las estaciones

-----