# Creación y almacenamiento de *DataFrames*

En esta lección veremos diferentes métodos para crear y almacenar *DataFrames* usando formatos adicionales al CSV y que también son de uso común en Ciencia de Datos y Machine Learning.

En particular veremos:

- Cómo crear desde cero un *DataFrame* a partir de un diccionario en Python
- Cómo crear un *DataFrame* a partir de un archivo JSON y cómo almacenar un *DataFrame* en formato JSON
- Cómo crear un archivo de Excel a partir de uno o múltiples *DataFrames* y cómo crear *DataFrames* a partir de archivos Excel

## 1. Creación de un *DataFrame* a partir de un diccionario

Es muy sencillo crear un *DataFrame* a partir de un diccionario de Python. Recordemos que un diccionario de Python contiene pares *key*-*values*, así que al momento de la creación:

- Cada *key* del diccionario se convertirá en una columna del *DataFrame*
- Los *values* correspondientes a cada *key* serán precisamente el contenido de cada columna del *DataFrame*

Entendamos esto con un ejemplo:

- El objetivo es crear un *DataFrame* con las columnas "Ciudad", "País" y "Población".
- La columna "Ciudad" debe contener las ciudades "París", "Milán", "Nueva York" y "Londres"
- Las columnas "País" y "Población" deben contener el país y la población (en millones de habitantes) de cada una de las ciudades

Es decir, el resultado debería ser algo como esto:

| **Ciudad** | **País**       | **Población** |
|------------|----------------|---------------|
| París      | Francia        | 2161000       |
| Milán      | Italia         | 1352000       |
| Nueva York | Estados Unidos | 8468000       |
| Londres    | Inglaterra     | 8982000       |

In [1]:
# Paso 1:  crear el diccionario
ciudades = {"Ciudad": ['París', 'Milán', 'Nueva York', 'Londres'],
         'País': ['Francia', 'Italia', 'Estados Unidos', 'Inglaterra'],
         'Población': [2161000, 1352000, 8468000, 8982000]}

for key, values in ciudades.items():
    print(f'{key}:{values}')

Ciudad:['París', 'Milán', 'Nueva York', 'Londres']
País:['Francia', 'Italia', 'Estados Unidos', 'Inglaterra']
Población:[2161000, 1352000, 8468000, 8982000]


In [2]:
# Paso 2: crear el *DataFrame* con el método "DataFrame"
import pandas as pd

df_ciudades = pd.DataFrame(ciudades)
df_ciudades

Unnamed: 0,Ciudad,País,Población
0,París,Francia,2161000
1,Milán,Italia,1352000
2,Nueva York,Estados Unidos,8468000
3,Londres,Inglaterra,8982000


## 2. Creación de un *DataFrame* a partir de un archivo JSON

El formato de archivos JSON (*JavaScript Object Notation*) es uno de los más comunes en Ciencia de Datos y Machine Learning, y tiene una estructura muy similar a la de un diccionario en Python. De este tipo de archivo hablamos en detalle en el curso "Python Nivel Avanzado".

Dada la similitud con un diccionario podemos leerlo como datos tabulares en Python.

Para entender cómo realizar esta lectura hagamos uso del archivo [stations.json](https://raw.githubusercontent.com/codificandobits/pandas-nivel-basico-data/main/stations.json) que contiene información geo-referenciada del sistema de bicicletas de la ciudad de Nueva York.

Por cada estación de bicicletas se dispone de esta información:

- *id* y *stationName*: número identificador y nombre de cada estación
- *availableDocks*: número de puestos disponibles para el parqueo de bicicletas
- *totalDocks*: número total de puestos para el parqueo de bicicletas
- *latitude*, *longitud*: coordenadas geográficas de la estación
- *statusValue*, *statusKey*: indican si la estación está funcionando (*In Service*, 1) o no. Para el caso de este archivo **todas** las estaciones están prestando servicio
- *availableBikes*: cantidad de bicicletas disponibles
- *stAddress1*, *stAddress2*: dirección donde se encuentra ubicada la estación
- *testStation*: indica si se trata de una estación de prueba. En todos los casos este valor es *false*
- *lastCommunicationTime*: fecha y hora en la que se obtuvo la última actualización de la estación
- *city*, *postalCode*, *location*, *altitude*, *landMark*: campos no usados

Comencemos leyendo el archivo JSON para entender el detalle de su contenido:

In [3]:
# Importación de librerías
from urllib.request import urlopen
import json

# Lectura del archivo como un diccionario en Python
respuesta = urlopen("https://raw.githubusercontent.com/codificandobits/pandas-nivel-basico-data/main/stations.json")
respuesta = respuesta.read()
json_data = json.loads(respuesta)
type(json_data)

dict

In [4]:
# El contenido del diccionario
json_data

{'executionTime': '2016-01-22 04:32:49 PM',
 'stationBeanList': [{'id': 72,
   'stationName': 'W 52 St & 11 Ave',
   'availableDocks': 32,
   'totalDocks': 39,
   'latitude': 40.76727216,
   'longitude': -73.99392888,
   'statusValue': 'In Service',
   'statusKey': 1,
   'availableBikes': 7,
   'stAddress1': 'W 52 St & 11 Ave',
   'stAddress2': '',
   'city': '',
   'postalCode': '',
   'location': '',
   'altitude': '',
   'testStation': False,
   'lastCommunicationTime': '2016-01-22 04:30:15 PM',
   'landMark': ''},
  {'id': 79,
   'stationName': 'Franklin St & W Broadway',
   'availableDocks': 0,
   'totalDocks': 33,
   'latitude': 40.71911552,
   'longitude': -74.00666661,
   'statusValue': 'In Service',
   'statusKey': 1,
   'availableBikes': 33,
   'stAddress1': 'Franklin St & W Broadway',
   'stAddress2': '',
   'city': '',
   'postalCode': '',
   'location': '',
   'altitude': '',
   'testStation': False,
   'lastCommunicationTime': '2016-01-22 04:32:41 PM',
   'landMark': ''},

In [5]:
# Los keys de este diccionario
json_data.keys()

dict_keys(['executionTime', 'stationBeanList'])

In [6]:
# Nos interesa el key "stationBeanList", donde se encuentra la información de interés
# por cada estación
json_data['stationBeanList']

[{'id': 72,
  'stationName': 'W 52 St & 11 Ave',
  'availableDocks': 32,
  'totalDocks': 39,
  'latitude': 40.76727216,
  'longitude': -73.99392888,
  'statusValue': 'In Service',
  'statusKey': 1,
  'availableBikes': 7,
  'stAddress1': 'W 52 St & 11 Ave',
  'stAddress2': '',
  'city': '',
  'postalCode': '',
  'location': '',
  'altitude': '',
  'testStation': False,
  'lastCommunicationTime': '2016-01-22 04:30:15 PM',
  'landMark': ''},
 {'id': 79,
  'stationName': 'Franklin St & W Broadway',
  'availableDocks': 0,
  'totalDocks': 33,
  'latitude': 40.71911552,
  'longitude': -74.00666661,
  'statusValue': 'In Service',
  'statusKey': 1,
  'availableBikes': 33,
  'stAddress1': 'Franklin St & W Broadway',
  'stAddress2': '',
  'city': '',
  'postalCode': '',
  'location': '',
  'altitude': '',
  'testStation': False,
  'lastCommunicationTime': '2016-01-22 04:32:41 PM',
  'landMark': ''},
 {'id': 82,
  'stationName': 'St James Pl & Pearl St',
  'availableDocks': 27,
  'totalDocks': 27,

Ya tenemos una idea clara del contenido del archivo JSON y de los campos que nos interesa leer.

Ahora realicemos la lectura. En principio deberíamos poder hacerla usando la función `read_json` de Pandas. Veamos qué sucede:

In [7]:
# Leer JSON directamente en Pandas
import pandas as pd

df_json = pd.read_json("https://raw.githubusercontent.com/codificandobits/pandas-nivel-basico-data/main/stations.json")
df_json

Unnamed: 0,executionTime,stationBeanList
0,2016-01-22 04:32:49 PM,"{'id': 72, 'stationName': 'W 52 St & 11 Ave', ..."
1,2016-01-22 04:32:49 PM,"{'id': 79, 'stationName': 'Franklin St & W Bro..."
2,2016-01-22 04:32:49 PM,"{'id': 82, 'stationName': 'St James Pl & Pearl..."
3,2016-01-22 04:32:49 PM,"{'id': 83, 'stationName': 'Atlantic Ave & Fort..."
4,2016-01-22 04:32:49 PM,"{'id': 116, 'stationName': 'W 17 St & 8 Ave', ..."
...,...,...
504,2016-01-22 04:32:49 PM,"{'id': 3238, 'stationName': 'E 80 St & 2 Ave',..."
505,2016-01-22 04:32:49 PM,"{'id': 3241, 'stationName': 'Monroe St & Tompk..."
506,2016-01-22 04:32:49 PM,"{'id': 3242, 'stationName': 'Schermerhorn St &..."
507,2016-01-22 04:32:49 PM,"{'id': 3243, 'stationName': 'E 58 St & 1 Ave',..."


Cada uno de los campos del archivo JSON ("executionTime" y "stationBeanList") es leído como una columna. Pero realmente lo que nos interesa es únicamente el campo "stationBeanList".

Modifiquemos la lectura especificando únicamente este campo:

In [8]:
# Leer únicamente el campo "stationBeanList"
df_json = pd.read_json("https://raw.githubusercontent.com/codificandobits/pandas-nivel-basico-data/main/stations.json")['stationBeanList']
df_json

0      {'id': 72, 'stationName': 'W 52 St & 11 Ave', ...
1      {'id': 79, 'stationName': 'Franklin St & W Bro...
2      {'id': 82, 'stationName': 'St James Pl & Pearl...
3      {'id': 83, 'stationName': 'Atlantic Ave & Fort...
4      {'id': 116, 'stationName': 'W 17 St & 8 Ave', ...
                             ...                        
504    {'id': 3238, 'stationName': 'E 80 St & 2 Ave',...
505    {'id': 3241, 'stationName': 'Monroe St & Tompk...
506    {'id': 3242, 'stationName': 'Schermerhorn St &...
507    {'id': 3243, 'stationName': 'E 58 St & 1 Ave',...
508    {'id': 3244, 'stationName': 'University Pl & E...
Name: stationBeanList, Length: 509, dtype: object

El problema ahora es que el cada elemento de "stationBeanList" se convierte en una fila de la Serie resultante.

Lo que queremos es tener el *DataFrame* en formato tabular con las columnas "id", "stationName", etc.

Así que, dado el formato del archivo JSON que estamos leyendo, en este caso no resulta útil el uso de `read_json`.

Sin embargo, Pandas nos ofrece otra alternativa usando la función `json_normalize` que permite tomar el resultado arrojado por `read_json` y reorganizarlo de manera tal que los campos comunes ("id", "stationName", etc.) en los registros se conviertan en columnas de un nuevo *DataFrame*:

In [9]:
df_estaciones = pd.json_normalize(df_json)
df_estaciones

Unnamed: 0,id,stationName,availableDocks,totalDocks,latitude,longitude,statusValue,statusKey,availableBikes,stAddress1,stAddress2,city,postalCode,location,altitude,testStation,lastCommunicationTime,landMark
0,72,W 52 St & 11 Ave,32,39,40.767272,-73.993929,In Service,1,7,W 52 St & 11 Ave,,,,,,False,2016-01-22 04:30:15 PM,
1,79,Franklin St & W Broadway,0,33,40.719116,-74.006667,In Service,1,33,Franklin St & W Broadway,,,,,,False,2016-01-22 04:32:41 PM,
2,82,St James Pl & Pearl St,27,27,40.711174,-74.000165,In Service,1,0,St James Pl & Pearl St,,,,,,False,2016-01-22 04:29:41 PM,
3,83,Atlantic Ave & Fort Greene Pl,21,62,40.683826,-73.976323,In Service,1,40,Atlantic Ave & Fort Greene Pl,,,,,,False,2016-01-22 04:32:33 PM,
4,116,W 17 St & 8 Ave,19,39,40.741776,-74.001497,In Service,1,19,W 17 St & 8 Ave,,,,,,False,2016-01-22 04:32:32 PM,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
504,3238,E 80 St & 2 Ave,35,37,40.773914,-73.954395,In Service,1,2,E 80 St & 2 Ave,,,,,,False,2016-01-22 04:30:37 PM,
505,3241,Monroe St & Tompkins Ave,18,19,40.686203,-73.944694,In Service,1,1,Monroe St & Tompkins Ave,,,,,,False,2016-01-22 04:30:38 PM,
506,3242,Schermerhorn St & Court St,5,39,40.691029,-73.991834,In Service,1,31,Schermerhorn St & Court St,,,,,,False,2016-01-22 04:31:33 PM,
507,3243,E 58 St & 1 Ave,28,29,40.758924,-73.962262,In Service,1,1,E 58 St & 1 Ave,,,,,,False,2016-01-22 04:30:05 PM,


¡Perfecto, hemos logrado leer el archivo JSON con el formato deseado!

## 3. Almacenamiento de un *DataFrame* en formato JSON

Si queremos realizar el procedimiento inverso, es decir, tomar el *DataFrame* y almacenarlo como archivo JSON simplemente podemos usar el método `to_json`:

In [10]:
# Almacenar el *DataFrame* como archivo JSON
df_estaciones.to_json('stations_from_df.json')

In [11]:
# En este caso, el archivo JSON ha sido almacenado correctamente así que para su lectura
# sólo necesitamos usar "read_json"
df_from_json = pd.read_json('stations_from_df.json')
df_from_json

Unnamed: 0,id,stationName,availableDocks,totalDocks,latitude,longitude,statusValue,statusKey,availableBikes,stAddress1,stAddress2,city,postalCode,location,altitude,testStation,lastCommunicationTime,landMark
0,72,W 52 St & 11 Ave,32,39,40.767272,-73.993929,In Service,1,7,W 52 St & 11 Ave,,,,,,False,2016-01-22 04:30:15 PM,
1,79,Franklin St & W Broadway,0,33,40.719116,-74.006667,In Service,1,33,Franklin St & W Broadway,,,,,,False,2016-01-22 04:32:41 PM,
2,82,St James Pl & Pearl St,27,27,40.711174,-74.000165,In Service,1,0,St James Pl & Pearl St,,,,,,False,2016-01-22 04:29:41 PM,
3,83,Atlantic Ave & Fort Greene Pl,21,62,40.683826,-73.976323,In Service,1,40,Atlantic Ave & Fort Greene Pl,,,,,,False,2016-01-22 04:32:33 PM,
4,116,W 17 St & 8 Ave,19,39,40.741776,-74.001497,In Service,1,19,W 17 St & 8 Ave,,,,,,False,2016-01-22 04:32:32 PM,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
504,3238,E 80 St & 2 Ave,35,37,40.773914,-73.954395,In Service,1,2,E 80 St & 2 Ave,,,,,,False,2016-01-22 04:30:37 PM,
505,3241,Monroe St & Tompkins Ave,18,19,40.686203,-73.944694,In Service,1,1,Monroe St & Tompkins Ave,,,,,,False,2016-01-22 04:30:38 PM,
506,3242,Schermerhorn St & Court St,5,39,40.691029,-73.991834,In Service,1,31,Schermerhorn St & Court St,,,,,,False,2016-01-22 04:31:33 PM,
507,3243,E 58 St & 1 Ave,28,29,40.758924,-73.962262,In Service,1,1,E 58 St & 1 Ave,,,,,,False,2016-01-22 04:30:05 PM,


## 4. Almacenamiento en formato Excel

Excel sigue siendo un formato de archivo muy común en algunos proyectos de Ciencia de Datos y Machine Learning.

Pandas provee 2 funciones para el almacenamiento de este tipo de archivos: `to_excel` y `ExcelWriter`.

Veamos cómo usarlas:

In [12]:
# Primero debemos instalar la librería "openpyxl"
!pip install openpyxl


[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip available: [0m[31;49m22.3.1[0m[39;49m -> [0m[32;49m23.3.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpython3.11 -m pip install --upgrade pip[0m


In [13]:
# Uso de "to_excel":
# Almacenemos el DataFrame que acabamos de crear (df_from_json) en la hoja de cálculo
# "estaciones_ciudades.xlsx" y en la hoja "Estaciones"
df_from_json.to_excel('estaciones_ciudades.xlsx', sheet_name='Estaciones')

In [14]:
# Ahora intentemos almacenar el primer DataFrame (df_ciudades) en el mismo archivo pero
# en una hoja diferente ("Ciudades")
df_ciudades.to_excel('estaciones_ciudades.xlsx', sheet_name='Ciudades')

Al abrir el archivo en Excel vemos que se ha creado la hoja "Ciudades" pero que ha desaparecido la hoja "Estaciones".

Así que la limitación de la función `to_excel` es que no nos permite almacenar múltiples hojas en un mismo archivo. En este caso debemos usar `ExcelWriter`:

In [15]:
# Almacenar múltiples DataFrames en un mismo archivo pero en diferentes hojas
with pd.ExcelWriter("stations_cities.xlsx") as writer:
    df_from_json.to_excel(writer, sheet_name = 'Stations')
    df_ciudades.to_excel(writer, sheet_name = 'Cities')

## 5. Lectura de archivos en formato Excel

Y la lectura se puede realizar de forma muy similar a como lo hicimos con los archivos JSON y CSV, pero usando el método `read_excel`. En caso de tener múltiples hojas en un mismo archivo, podemos especificar cuál hoja queremos leer usando el parámetro `sheet_name`:

In [16]:
# Lectura del excel
df_stations = pd.read_excel('stations_cities.xlsx', sheet_name='Stations')
df_stations

Unnamed: 0.1,Unnamed: 0,id,stationName,availableDocks,totalDocks,latitude,longitude,statusValue,statusKey,availableBikes,stAddress1,stAddress2,city,postalCode,location,altitude,testStation,lastCommunicationTime,landMark
0,0,72,W 52 St & 11 Ave,32,39,40.767272,-73.993929,In Service,1,7,W 52 St & 11 Ave,,,,,,False,2016-01-22 04:30:15 PM,
1,1,79,Franklin St & W Broadway,0,33,40.719116,-74.006667,In Service,1,33,Franklin St & W Broadway,,,,,,False,2016-01-22 04:32:41 PM,
2,2,82,St James Pl & Pearl St,27,27,40.711174,-74.000165,In Service,1,0,St James Pl & Pearl St,,,,,,False,2016-01-22 04:29:41 PM,
3,3,83,Atlantic Ave & Fort Greene Pl,21,62,40.683826,-73.976323,In Service,1,40,Atlantic Ave & Fort Greene Pl,,,,,,False,2016-01-22 04:32:33 PM,
4,4,116,W 17 St & 8 Ave,19,39,40.741776,-74.001497,In Service,1,19,W 17 St & 8 Ave,,,,,,False,2016-01-22 04:32:32 PM,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
504,504,3238,E 80 St & 2 Ave,35,37,40.773914,-73.954395,In Service,1,2,E 80 St & 2 Ave,,,,,,False,2016-01-22 04:30:37 PM,
505,505,3241,Monroe St & Tompkins Ave,18,19,40.686203,-73.944694,In Service,1,1,Monroe St & Tompkins Ave,,,,,,False,2016-01-22 04:30:38 PM,
506,506,3242,Schermerhorn St & Court St,5,39,40.691029,-73.991834,In Service,1,31,Schermerhorn St & Court St,,,,,,False,2016-01-22 04:31:33 PM,
507,507,3243,E 58 St & 1 Ave,28,29,40.758924,-73.962262,In Service,1,1,E 58 St & 1 Ave,,,,,,False,2016-01-22 04:30:05 PM,


In [17]:
# usar index_col = 0 para que no agregue columna "Unnamed"
df_stations = pd.read_excel('stations_cities.xlsx', sheet_name='Stations', index_col=0)
df_stations

Unnamed: 0,id,stationName,availableDocks,totalDocks,latitude,longitude,statusValue,statusKey,availableBikes,stAddress1,stAddress2,city,postalCode,location,altitude,testStation,lastCommunicationTime,landMark
0,72,W 52 St & 11 Ave,32,39,40.767272,-73.993929,In Service,1,7,W 52 St & 11 Ave,,,,,,False,2016-01-22 04:30:15 PM,
1,79,Franklin St & W Broadway,0,33,40.719116,-74.006667,In Service,1,33,Franklin St & W Broadway,,,,,,False,2016-01-22 04:32:41 PM,
2,82,St James Pl & Pearl St,27,27,40.711174,-74.000165,In Service,1,0,St James Pl & Pearl St,,,,,,False,2016-01-22 04:29:41 PM,
3,83,Atlantic Ave & Fort Greene Pl,21,62,40.683826,-73.976323,In Service,1,40,Atlantic Ave & Fort Greene Pl,,,,,,False,2016-01-22 04:32:33 PM,
4,116,W 17 St & 8 Ave,19,39,40.741776,-74.001497,In Service,1,19,W 17 St & 8 Ave,,,,,,False,2016-01-22 04:32:32 PM,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
504,3238,E 80 St & 2 Ave,35,37,40.773914,-73.954395,In Service,1,2,E 80 St & 2 Ave,,,,,,False,2016-01-22 04:30:37 PM,
505,3241,Monroe St & Tompkins Ave,18,19,40.686203,-73.944694,In Service,1,1,Monroe St & Tompkins Ave,,,,,,False,2016-01-22 04:30:38 PM,
506,3242,Schermerhorn St & Court St,5,39,40.691029,-73.991834,In Service,1,31,Schermerhorn St & Court St,,,,,,False,2016-01-22 04:31:33 PM,
507,3243,E 58 St & 1 Ave,28,29,40.758924,-73.962262,In Service,1,1,E 58 St & 1 Ave,,,,,,False,2016-01-22 04:30:05 PM,


In [18]:
# Lectura de la hoja correspondiente a "Cities"
df_ciudades = pd.read_excel('stations_cities.xlsx', sheet_name='Cities', index_col=0)
df_ciudades

Unnamed: 0,Ciudad,País,Población
0,París,Francia,2161000
1,Milán,Italia,1352000
2,Nueva York,Estados Unidos,8468000
3,Londres,Inglaterra,8982000
