In [166]:
# Importe les librairies
from pathlib import Path
import pandas as pd
import numpy as np
import json

# NASA - Astronomy Picture of the Day (APOD) JSON to CSV

Ce *notebook* contient :
* le code permettant de lire et compiler dans un *DataFrame* l'ensemble des fichiers JSON contenus dans un dossier, puis de l'exporter dans un fichier CSV ;
* le code permettant de mettre à jour le fichier CSV en ajoutant les données d'une nouvelle requête (donc d'un nouveau fichier).

> Les fichiers JSON dont il est question sont ceux générés par la requête sur l'API APOD de la NASA (voir `nasa-astronomy-picture-of-the-day.ipynb`).

## Sommaire

* [Création du fichier CSV à partir de plusieurs JSON](#création-du-fichier-csv-à-partir-de-plusieurs-json)
* [Mise à jour du fichier CSV à partir d'un JSON](#création-du-fichier-csv-à-partir-de-plusieurs-json)

## Création du fichier CSV à partir de plusieurs JSON

In [167]:
# Liste les fichiers 'json' contenus dans le dossier 'json-files'
files = Path('./json-files').glob('*.json')

# Initialise un DataFrame
df = pd. DataFrame()

# Charge charge fichier 'json' puis l'ajoute au DataFrame
for file in files:
    with open(file, 'r') as f:
        data = json.load(f)

    df = pd.concat(
        [df, pd.DataFrame.from_dict(data, orient='index').T],
        ignore_index=True
    )

In [168]:
# Affiche un aperçu du DataFrame
df.head()

Unnamed: 0,copyright,date,explanation,hdurl,media_type,service_version,title,url
0,\nMaxime Daviron\n,2023-10-01,"A good place to see a ring-of-fire eclipse, it...",https://apod.nasa.gov/apod/image/2310/DesertEc...,image,v1,A Desert Eclipse,https://apod.nasa.gov/apod/image/2310/DesertEc...
1,\nNicolas Escurat\n,2023-10-02,Sometimes lightning occurs out near space. On...,https://apod.nasa.gov/apod/image/2310/HiResSpr...,image,v1,Sprite Lightning in High Definition,https://apod.nasa.gov/apod/image/2310/HiResSpr...
2,"\nNASA, \nESA, \nHubble, \nHLA;\nProcessing & ...",2023-10-03,Do you see the hourglass shape -- or does it s...,https://apod.nasa.gov/apod/image/2310/Hourglas...,image,v1,MyCn 18: The Engraved Hourglass Planetary Nebula,https://apod.nasa.gov/apod/image/2310/Hourglas...
3,\nAbdullah Alharbi\n,2023-10-04,Does this nebula look like the head of a witch...,https://apod.nasa.gov/apod/image/2310/WitchHea...,image,v1,IC 2118: The Witch Head Nebula,https://apod.nasa.gov/apod/image/2310/WitchHea...
4,Tunc Tezel,2023-10-05,"Tracking along a narrow path, the shadow of a ...",https://apod.nasa.gov/apod/image/2310/MoValley...,image,v1,Ring of Fire over Monument Valley,https://apod.nasa.gov/apod/image/2310/MoValley...


In [169]:
# Affiche le nom des colonnes
df.columns

Index(['copyright', 'date', 'explanation', 'hdurl', 'media_type',
       'service_version', 'title', 'url'],
      dtype='object')

In [170]:
# Affiche le type des colonnes
df.dtypes

copyright          object
date               object
explanation        object
hdurl              object
media_type         object
service_version    object
title              object
url                object
dtype: object

In [171]:
# Supprime '\n' de la colonne 'copyright'
df['copyright'] = df['copyright'].str.replace('\n', '')

# Remplace les valeurs nulles dans 'copyright'
df['copyright'] = df['copyright'].fillna('No copyright')

In [176]:
# Réorganise les colonnes
df = df[
    [
        'date',
        'title',
        'explanation',
        'media_type',
        'copyright',
        'url',
        'hdurl',
        'service_version'
    ]
]

In [179]:
# Exporte le DataFrame dans un fichier 'csv'
df.to_csv('./csv/apod.csv', index=False)

## Mise à jour du fichier CSV à partir d'un JSON