# Pré-traitement des données 'Google'

* requète sur `BigQuerry`:
        /* 26Go proceceed */

        #standardSQL

        SELECT
          root.publication_number,
          publication_date,
          root.title_localized,
          root.cpc,
          root.citation
        FROM
          `patents-public-data.patents.publications` root,
          UNNEST( cpc ) AS cpc
        WHERE 
         cpc.code like 'A45D29/02' and
         country_code = 'US'
        LIMIT
          1000

In [1]:
%load_ext autoreload
%autoreload 2

In [8]:
import config as conf

import tools as tl

In [9]:
import json
import pickle

In [10]:
import datetime as dt

In [13]:
# load the data
file_path = conf.DATADIR + conf.QUERYFILE

data_brut = []
with open(file_path) as f:
    for line in f:
        entry = json.loads(line)
        data_brut.append( entry )
        
print( 'nombre de résultats bruts: %i' % len(data_brut) )

nombre de résultats bruts: 408


## Créer un dictionnaire { patent_number : infos, ... }

In [19]:
data = {}
k = 0  # debug
for entry in data_brut:
   
    
    pubnum = entry['publication_number']
    patent_number = tl.format_patentnumber( pubnum )
    
    if patent_number in data: # supprime les doublons
        continue

    new_entry = {}
    
    new_entry['publication_number_raw'] = pubnum
    new_entry['patent_number'] = patent_number
    
    # date
    new_entry['year'] = int(  entry['publication_date'][0:4] )   
    new_entry['month'] = int( entry['publication_date'][4:6] )
    new_entry['day'] = int(   entry['publication_date'][6:]  )
    date = dt.date(new_entry['year'], new_entry['month'], new_entry['day'])
    
    new_entry['date_str'] = entry['publication_date']
    new_entry['date_formatted'] = date.strftime( '%B %d, %Y' )
    
    # info
    new_entry['title'] = entry['title_localized'][0]['text'].strip('.')
    
    # abstract
    if len( entry['abstract_localized'] )>0:
        new_entry['abstract'] = entry['abstract_localized'][0]['text']
    else:
        new_entry['abstract'] = ''
        
    # description text
    if len( entry['description_localized'] )>0:
        new_entry['description'] = entry['description_localized'][0]['text']
    else:
        new_entry['description'] = ''
    
    # inventor & assignee
    new_entry['inventor'] = entry['inventor_harmonized']
    new_entry['assignee'] = entry['assignee_harmonized']
    
    # citations :
    citation = [] 
    for cit in entry['citation']:
        if not cit['publication_number'] : continue
        infos = {}
        infos['publication_number_raw'] = cit['publication_number'] 
        infos['patent_number'] = tl.format_patentnumber( cit['publication_number']  )

        infos['category'] =  cit['category'] 

        citation.append( infos )
        
    new_entry['citation'] = citation

    # CPC
    new_entry['cpc'] = entry['cpc']
    
    # save
    data[ patent_number ] = new_entry
    
    k+=1  # debug
    
print( 'nombre de brevets uniques: %i' % len(data) )

nombre de brevets uniques: 379


## Mise en forme des noms

In [20]:
# pour les inventeurs et les 'assignees':
for e in data.values():
    for i in e['inventor']:
        i['name_formatted'] = tl.format_name( i['name'] )
        
    for i in e['assignee']:
        i['name_formatted'] = tl.format_name( i['name'] )

## Ajoute les entrées : 'cited' and 'citedby'

In [27]:
# init
ghost = {}

for entry in data.values():
    entry['cited'] = []
    entry['citedby'] = []
    
# loop
for patent_number, entry in data.items():
    
    cited_number_list = [ c['patent_number'] for c in entry['citation']  ]
    
    for cited_number in cited_number_list:
        if cited_number in data:
            entry['cited'].append( cited_number )
            data[ cited_number ]['citedby'].append( patent_number )
        else:
            tl.countplusone( ghost, cited_number ) 
            
    
print( 'nombre de brevet cité mais non présent : %i' % len(ghost) )  # nombre des brevets cités mais non dans DATA

nombre de brevet cité mais non présent : 1086


In [29]:
# Statistique des brevets 'ghost'
sortedghost = sorted( ghost.items(), key= lambda x:x[1], reverse = True)
print( ' top10 : ' + ', '.join( ['%s (%i)' % nk for nk in sortedghost[:10] ] ) )

 top10 : US6220251 (17), US5546658 (16), US3744131 (16), US3838507 (15), US5392518 (14), US3903596 (14), US6523545 (14), US2955354 (13), US4856190 (12), US4196514 (12)


In [None]:
pickle.dump( data, open('web/data/patent_infos.pickle','wb') )

## Cherche les images existantes  et retrouve les meta-données

In [34]:
print( '- figures -' )

- figures -


In [32]:
import os
import re

In [36]:
FIGURESLIST =  os.listdir( conf.FIGURESDIR )

print('nombre de figures :', len(FIGURESLIST))

nombre de figures : 3361


In [71]:
# init 
for entry in data.values():
    entry['figures'] = []

# loop
nopatentforfigure = {}
for k, figname in enumerate( FIGURESLIST ):

    patnum, fignum = tl.nums_from_figurename( figname  )

    # get figure size
    filepath = conf.FIGURESDIR + figname
    w, h = tl.get_imagesize( filepath )
       
    figinfo = {'filename':figname, 'number':fignum, 'width':w, 'height': h}

    # save
    if patnum in data:
        data[patnum]['figures'].append( figinfo )
    else:
        # pour le debug
        if patnum in nopatentforfigure:
            nopatentforfigure[patnum].append( figinfo )
        else:
            nopatentforfigure[patnum] = [ figinfo ]
         
    print( 'enregistre les images: %i/%i' % (k+1, len(FIGURESLIST)), end='\r' )
else:
    print('')
    
print('nombre de brevet hors DATA ayant une figure : ', len(nopatentforfigure))

enregistre les images: 1/3361enregistre les images: 2/3361enregistre les images: 3/3361enregistre les images: 4/3361enregistre les images: 5/3361enregistre les images: 6/3361enregistre les images: 7/3361enregistre les images: 8/3361enregistre les images: 9/3361enregistre les images: 10/3361enregistre les images: 11/3361enregistre les images: 12/3361enregistre les images: 13/3361enregistre les images: 14/3361enregistre les images: 15/3361enregistre les images: 16/3361enregistre les images: 17/3361enregistre les images: 18/3361enregistre les images: 19/3361enregistre les images: 20/3361enregistre les images: 21/3361enregistre les images: 22/3361enregistre les images: 23/3361enregistre les images: 24/3361enregistre les images: 25/3361enregistre les images: 26/3361enregistre les images: 27/3361enregistre les images: 28/3361enregistre les images: 29/3361enregistre les images: 30/3361enregistre les images: 31/3361enregistre les images: 32/3361enregistre les im

enregistre les images: 625/3361enregistre les images: 626/3361enregistre les images: 627/3361enregistre les images: 628/3361enregistre les images: 629/3361enregistre les images: 630/3361enregistre les images: 631/3361enregistre les images: 632/3361enregistre les images: 633/3361enregistre les images: 634/3361enregistre les images: 635/3361enregistre les images: 636/3361enregistre les images: 637/3361enregistre les images: 638/3361enregistre les images: 639/3361enregistre les images: 640/3361enregistre les images: 641/3361enregistre les images: 642/3361enregistre les images: 643/3361enregistre les images: 644/3361enregistre les images: 645/3361enregistre les images: 646/3361enregistre les images: 647/3361enregistre les images: 648/3361enregistre les images: 649/3361enregistre les images: 650/3361enregistre les images: 651/3361enregistre les images: 652/3361enregistre les images: 653/3361enregistre les images: 654/3361enregistre les images: 655/3361enregis

enregistre les images: 1153/3361enregistre les images: 1154/3361enregistre les images: 1155/3361enregistre les images: 1156/3361enregistre les images: 1157/3361enregistre les images: 1158/3361enregistre les images: 1159/3361enregistre les images: 1160/3361enregistre les images: 1161/3361enregistre les images: 1162/3361enregistre les images: 1163/3361enregistre les images: 1164/3361enregistre les images: 1165/3361enregistre les images: 1166/3361enregistre les images: 1167/3361enregistre les images: 1168/3361enregistre les images: 1169/3361enregistre les images: 1170/3361enregistre les images: 1171/3361enregistre les images: 1172/3361enregistre les images: 1173/3361enregistre les images: 1174/3361enregistre les images: 1175/3361enregistre les images: 1176/3361enregistre les images: 1177/3361enregistre les images: 1178/3361enregistre les images: 1179/3361enregistre les images: 1180/3361enregistre les images: 1181/3361enregistre les images: 1182/3361enregistre

enregistre les images: 1722/3361enregistre les images: 1723/3361enregistre les images: 1724/3361enregistre les images: 1725/3361enregistre les images: 1726/3361enregistre les images: 1727/3361enregistre les images: 1728/3361enregistre les images: 1729/3361enregistre les images: 1730/3361enregistre les images: 1731/3361enregistre les images: 1732/3361enregistre les images: 1733/3361enregistre les images: 1734/3361enregistre les images: 1735/3361enregistre les images: 1736/3361enregistre les images: 1737/3361enregistre les images: 1738/3361enregistre les images: 1739/3361enregistre les images: 1740/3361enregistre les images: 1741/3361enregistre les images: 1742/3361enregistre les images: 1743/3361enregistre les images: 1744/3361enregistre les images: 1745/3361enregistre les images: 1746/3361enregistre les images: 1747/3361enregistre les images: 1748/3361enregistre les images: 1749/3361enregistre les images: 1750/3361enregistre les images: 1751/3361enregistre

enregistre les images: 2327/3361enregistre les images: 2328/3361enregistre les images: 2329/3361enregistre les images: 2330/3361enregistre les images: 2331/3361enregistre les images: 2332/3361enregistre les images: 2333/3361enregistre les images: 2334/3361enregistre les images: 2335/3361enregistre les images: 2336/3361enregistre les images: 2337/3361enregistre les images: 2338/3361enregistre les images: 2339/3361enregistre les images: 2340/3361enregistre les images: 2341/3361enregistre les images: 2342/3361enregistre les images: 2343/3361enregistre les images: 2344/3361enregistre les images: 2345/3361enregistre les images: 2346/3361enregistre les images: 2347/3361enregistre les images: 2348/3361enregistre les images: 2349/3361enregistre les images: 2350/3361enregistre les images: 2351/3361enregistre les images: 2352/3361enregistre les images: 2353/3361enregistre les images: 2354/3361enregistre les images: 2355/3361enregistre les images: 2356/3361enregistre

enregistre les images: 2824/3361enregistre les images: 2825/3361enregistre les images: 2826/3361enregistre les images: 2827/3361enregistre les images: 2828/3361enregistre les images: 2829/3361enregistre les images: 2830/3361enregistre les images: 2831/3361enregistre les images: 2832/3361enregistre les images: 2833/3361enregistre les images: 2834/3361enregistre les images: 2835/3361enregistre les images: 2836/3361enregistre les images: 2837/3361enregistre les images: 2838/3361enregistre les images: 2839/3361enregistre les images: 2840/3361enregistre les images: 2841/3361enregistre les images: 2842/3361enregistre les images: 2843/3361enregistre les images: 2844/3361enregistre les images: 2845/3361enregistre les images: 2846/3361enregistre les images: 2847/3361enregistre les images: 2848/3361enregistre les images: 2849/3361enregistre les images: 2850/3361enregistre les images: 2851/3361enregistre les images: 2852/3361enregistre les images: 2853/3361enregistre

nombre de brevet hors DATA ayant une figure :  0


In [61]:
# Trie les figures par numéro - important -
# (à priori l'ordre d'apparition dans le brevet)
for entry in data.values():
    entry['figures'] = sorted(entry['figures'], key= lambda x: int( x['number'] ) )

In [60]:
# stats - Brevet sans figures :
patentwithoutfigure = [ patnum for patnum, e in data.items() if not e['figures'] ]
        
print( 'nombre de brevets sans figures : %i'% len(patentwithoutfigure))

print('  ' + ', '.join( patentwithoutfigure[:5] ) + (' ...' if len(patentwithoutfigure)>5 else '') )

nombre de brevets sans figures : 3
  US1135987, US20160029768, US20170231361


# Ajoute la legende

In [63]:
from extract_legend.extract_legend import extract_legend

In [67]:
# Loop
for i, e in  enumerate( data.values() ):
    legend, raw_legend = extract_legend( e['description'] )
    if legend:
        tl.add_consecutive_field( legend )  # to add space in the template
    e['legend'] = legend
    e['raw_legend'] = raw_legend
    
    print( 'extraie la légende: %i/%i' % (i+1, len(data)), end='\r' )
else:
    print('')

extraie la légende: 379/379


# Save

In [75]:
# save
pickle.dump( data, open(conf.DATADIR + conf.PATENTSINFOFILE,'wb') )

print( '%s  saved' % (conf.DATADIR + conf.PATENTSINFOFILE) )

data_nailclipper/patent_infos.pickle  saved


## Group by year