# Fix json data Gennaio to extract 4 download per day

Questo notebook serve a estrarre esattamente 4 download per ogni giorno. Questa necessità è nata dal fatto che la presa dati in periodo covid è avvenuta ogni 6 ore in quanto ci siamo accorti che raccogliere i dati ogni 15' come facevamo inizialmente creava una rindondanza inutile nei dati.

Importazione delle librerie utili.

In [1]:
import pandas as pd
import os
import json
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime, timedelta

Definizione della directory in cui prende i file json da pulire

In [2]:
path = "json\\"
file_json = "01.01.20 csv files (fede) [full day].json"

Definizione della funzione **find\_timestamp** che applica il fuso orario ai vari paesi

In [3]:
def find_timestamp(dt, country_code, c_gmt):
    fuso = c_gmt[str(country_code)]['GMT']
    diff = dt + timedelta(hours=fuso)
    r = diff.apply(datetime.strftime, format = "%m-%d-%Y %H:%M")
    return r

Apre il file che contiene i paesi presenti nei video con i loro fusi orari

In [4]:
with open("country_names.json") as file:
        country = json.load(file)
country

{'US': {'name': 'USA', 'GMT': -5},
 'GB': {'name': 'Regno Unito', 'GMT': 0},
 'IN': {'name': 'India', 'GMT': 5},
 'DE': {'name': 'Germania', 'GMT': 1},
 'CA': {'name': 'Canada', 'GMT': -5},
 'FR': {'name': 'Francia', 'GMT': 1},
 'KR': {'name': 'Corea del sud', 'GMT': 9},
 'RU': {'name': 'Russia', 'GMT': 3},
 'JP': {'name': 'Giappone', 'GMT': 9},
 'BR': {'name': 'Brasile', 'GMT': -3},
 'MX': {'name': 'Messico', 'GMT': -6},
 'IT': {'name': 'Italia', 'GMT': 1}}

Apre il file in cui sono contenuti i video.

In [5]:
with open(path + file_json, "r") as read_file:
            j_file = json.load(read_file)

[{'video_id': 'Lbm3OHBHaq8',
  'timestamp': '12-31-2019 21:14',
  'country_code': 'BR',
  'country_name': 'Brasile',
  'title': '♫ RETROSPECTIVA DO FUTEBOL - 2019 | Please Me - Cardi B & Bruno Mars',
  'publishedAt': '2019-12-31T14:18:58.000Z',
  'channelId': 'UCGFNp4Pialo9wjT9Bo8wECA',
  'channelTitle': 'FutParódias',
  'categoryId': '17',
  'category_name': 'Sports',
  'trending_date': '20.01.01',
  'tags': ['Futebol',
   'FutParodias',
   'Paródia',
   'futparodia',
   'futeparodia',
   'parodia',
   'fut parodia',
   'fut parodias',
   'Paródia com Jogadores',
   'Please Me',
   'Paródia Please Me',
   'Paródia Cardi B',
   'Bruno mars',
   'Paródia Bruno Mars',
   'Retrospectiva',
   'Retrospectiva Futebol',
   'Paródia Retrospectiva',
   'Retrospectiva 2019',
   'Futparódias 2019',
   'Futparódias Restrospectiva',
   'Flamengo 2019',
   'Retrospectiva Flamengo',
   'Liverpool',
   'Paródia Liverpool',
   'Brasil',
   'Brasil Copa América',
   'Messi',
   'Messi 2019',
   'Paródia

Crea un dizionario in cui inserisce il nome del paese e l'orario di rilevazione della presa dati.

In [6]:
c_data = {}
for e in j_file:
    t = e["timestamp"]
    c = e["country_name"]
    if c not in c_data.keys(): #se non ho già inserito il country
        c_data[c] = [t]
    else:
        if t not in c_data[c] : #se non ho già inserito questa data in quel country
            c_data[c].append(t)

dict

Facciamo stampare le rilevazioni del Regno Unito, questa operazione è necessaria in quanto per ogni file bisogna scegliere manualmente le 4 prese dati da tenere. E' un'operazione necessaria in quanto per ogni file i minuti della rilevazione differiscono e nulla ci assicura che l'orario coincida in due file diversi.

In [7]:
c_data["Regno Unito"]

['01-01-2020 00:14',
 '01-01-2020 00:44',
 '01-01-2020 01:15',
 '01-01-2020 01:45',
 '01-01-2020 02:15',
 '01-01-2020 02:46',
 '01-01-2020 03:16',
 '01-01-2020 03:46',
 '01-01-2020 04:16',
 '01-01-2020 04:47',
 '01-01-2020 05:17',
 '01-01-2020 05:47',
 '01-01-2020 06:18',
 '01-01-2020 06:48',
 '01-01-2020 07:18',
 '01-01-2020 07:49',
 '01-01-2020 08:19',
 '01-01-2020 08:49',
 '01-01-2020 09:19',
 '01-01-2020 09:50',
 '01-01-2020 10:20',
 '01-01-2020 10:50',
 '01-01-2020 11:21',
 '01-01-2020 11:51',
 '01-01-2020 12:21',
 '01-01-2020 12:52',
 '01-01-2020 13:22',
 '01-01-2020 13:52',
 '01-01-2020 14:23',
 '01-01-2020 14:53',
 '01-01-2020 15:26',
 '01-01-2020 17:14',
 '01-01-2020 17:44',
 '01-01-2020 18:14',
 '01-01-2020 18:45',
 '01-01-2020 19:15',
 '01-01-2020 19:45',
 '01-01-2020 20:16',
 '01-01-2020 20:46',
 '01-01-2020 21:16',
 '01-01-2020 21:49',
 '01-01-2020 22:20',
 '01-01-2020 22:50',
 '01-01-2020 23:20',
 '01-01-2020 23:51']

Scegliamo a questo punto manualmente 4 rilevazioni orarie tra le precedenti in modo che siano staccate di circa 6h:
- 01-01-2020 04:16
- 01-01-2020 10:20
- 01-01-2020 17:14
- 01-01-2020 22:50

A questo punto iniziamo a tenere solo quelle rilevazioni per il Regno Unito.

In [8]:
d = [datetime.strptime("01-01-2020 04:16", "%m-%d-%Y %H:%M"),
     datetime.strptime("01-01-2020 10:20", "%m-%d-%Y %H:%M"),
     datetime.strptime("01-01-2020 17:14", "%m-%d-%Y %H:%M"),
     datetime.strptime("01-01-2020 22:50", "%m-%d-%Y %H:%M"),]
times = pd.DataFrame(data = d, columns = ["Regno Unito"])
times

Unnamed: 0,Regno Unito
0,2020-01-01 04:16:00
1,2020-01-01 10:20:00
2,2020-01-01 17:14:00
3,2020-01-01 22:50:00


Prendiamo anche negli altri paesi le rilevazioni che corrispondono a quelle del regno unito a meno del loro fuso orario.

In [9]:
for c in country: #per ogni paese
    if c != "GB":
        times[country[c]["name"]] = find_timestamp(times["Regno Unito"], c, country)
times["Regno Unito"] = times["Regno Unito"].apply(datetime.strftime, format = "%m-%d-%Y %H:%M")
times

Unnamed: 0,Regno Unito,USA,India,Germania,Canada,Francia,Corea del sud,Russia,Giappone,Brasile,Messico,Italia
0,01-01-2020 04:16,12-31-2019 23:16,01-01-2020 09:16,01-01-2020 05:16,12-31-2019 23:16,01-01-2020 05:16,01-01-2020 13:16,01-01-2020 07:16,01-01-2020 13:16,01-01-2020 01:16,12-31-2019 22:16,01-01-2020 05:16
1,01-01-2020 10:20,01-01-2020 05:20,01-01-2020 15:20,01-01-2020 11:20,01-01-2020 05:20,01-01-2020 11:20,01-01-2020 19:20,01-01-2020 13:20,01-01-2020 19:20,01-01-2020 07:20,01-01-2020 04:20,01-01-2020 11:20
2,01-01-2020 17:14,01-01-2020 12:14,01-01-2020 22:14,01-01-2020 18:14,01-01-2020 12:14,01-01-2020 18:14,01-02-2020 02:14,01-01-2020 20:14,01-02-2020 02:14,01-01-2020 14:14,01-01-2020 11:14,01-01-2020 18:14
3,01-01-2020 22:50,01-01-2020 17:50,01-02-2020 03:50,01-01-2020 23:50,01-01-2020 17:50,01-01-2020 23:50,01-02-2020 07:50,01-02-2020 01:50,01-02-2020 07:50,01-01-2020 19:50,01-01-2020 16:50,01-01-2020 23:50


Controlliamo che il dizionario delle nuove rilevazioni contenga circa 8/9000 dati che è il numero solitamente rilevato.

In [10]:
new_data = []
for video in j_file:
    c = video["country_name"]
    for tms in times[c]:
        if video["timestamp"] == tms:
            new_data.append(video)
            
len(new_data)

8939

Verifichiamo che ogni nazione contenga ora 4 rilevazioni per giornata.

In [11]:
c_data_new = {}
for e in new_data:
    t = e["timestamp"]
    c = e["country_name"]
    if c not in c_data_new.keys(): #se non ho già inserito il country
        c_data_new[c] = [t]
    else:
        if t not in c_data_new[c] : #se non ho già inserito questa data in quel country
            c_data_new[c].append(t)
c_data_new

{'Brasile': ['01-01-2020 01:16',
  '01-01-2020 07:20',
  '01-01-2020 14:14',
  '01-01-2020 19:50'],
 'Canada': ['12-31-2019 23:16',
  '01-01-2020 05:20',
  '01-01-2020 12:14',
  '01-01-2020 17:50'],
 'Germania': ['01-01-2020 05:16',
  '01-01-2020 11:20',
  '01-01-2020 18:14',
  '01-01-2020 23:50'],
 'Francia': ['01-01-2020 05:16',
  '01-01-2020 11:20',
  '01-01-2020 18:14',
  '01-01-2020 23:50'],
 'Regno Unito': ['01-01-2020 04:16',
  '01-01-2020 10:20',
  '01-01-2020 17:14',
  '01-01-2020 22:50'],
 'India': ['01-01-2020 09:16',
  '01-01-2020 15:20',
  '01-01-2020 22:14',
  '01-02-2020 03:50'],
 'Italia': ['01-01-2020 05:16',
  '01-01-2020 11:20',
  '01-01-2020 18:14',
  '01-01-2020 23:50'],
 'Giappone': ['01-01-2020 13:16',
  '01-01-2020 19:20',
  '01-02-2020 02:14',
  '01-02-2020 07:50'],
 'Corea del sud': ['01-01-2020 13:16',
  '01-01-2020 19:20',
  '01-02-2020 02:14',
  '01-02-2020 07:50'],
 'Messico': ['12-31-2019 22:16',
  '01-01-2020 04:20',
  '01-01-2020 11:14',
  '01-01-2020 1

Salviamo i file in json in modo che siano Immediatamente caricabili in MongoDB

In [24]:
with open('json_fixed\\' + file_json, 'w') as outfile:
    json.dump(new_data, outfile)