# Multiple extension loading

In [2]:
from dol import Files
s = Files("/Users/alexis/Documents/GitHub/smart_cv/smart_cv/data/cvs")
list(s)

['Guillaume.pdf',
 'SCH.pdf',
 'CV_Adil_Mektoub.pdf',
 'CV_Victor.docx',
 'CV_Steffy.docx',
 'Adil.pdf',
 'CVJNATOURI (1).pdf',
 'CV_Maxence.docx',
 'CV_Sana.docx',
 'Nappee-Thomas.pdf',
 'CV_Gilles_Pons.docx',
 'CV_Agathe.docx',
 'CV_Mehdi.docx',
 'CV_Axel.docx',
 'CV_Elena.docx',
 'Thor_Whalen_CV.pdf']

In [3]:
from dol import Pipe, wrap_kvs
from pypdf import PdfReader
from msword import bytes_to_doc, get_text_from_docx # pip install msword
from io import BytesIO
import json
from smart_cv.util import read_pdf_text

extension_to_decoder = {
    '.txt': lambda obj: obj.decode('utf-8'),
    '.json': json.loads,
    '.pdf': Pipe(
        BytesIO, PdfReader, read_pdf_text, '\n\n------------\n\n'.join
    ),
    '.docx': Pipe(bytes_to_doc, get_text_from_docx),
}

def extension_based_decoding(k, v):
    ext = '.' + k.split('.')[-1]
    decoder = extension_to_decoder.get(ext, None)
    if decoder is None:
        raise ValueError(f"Unknown extension: {ext}")
    return decoder(v)

def extension_base_wrap(store):
    return wrap_kvs(store, postget=extension_based_decoding)

store = extension_base_wrap(s)
list(store)

['Guillaume.pdf',
 'SCH.pdf',
 'CV_Adil_Mektoub.pdf',
 'CV_Victor.docx',
 'CV_Steffy.docx',
 'Adil.pdf',
 'CVJNATOURI (1).pdf',
 'CV_Maxence.docx',
 'CV_Sana.docx',
 'Nappee-Thomas.pdf',
 'CV_Gilles_Pons.docx',
 'CV_Agathe.docx',
 'CV_Mehdi.docx',
 'CV_Axel.docx',
 'CV_Elena.docx',
 'Thor_Whalen_CV.pdf']

In [5]:
store["CV_Agathe.docx"]

'Agathe Maupetit\n\n\nData Scientist\nCompétences\n\nData Science, Statistiques, Machine learning, Bioinformatique, Base de données, programmation\nPython, R, SQL, PostegreeSQL, GitHub, Geneious\nBiologie évolutive, Biologie moléculaire, Agronomie, Écologie, Phytopathologie, Génétique, Génétique quantitative\n\nNotions: Power BI, API REST\nExpériences professionnelles\n\nAddixData – Data Scientist – Sophia Antipolis - 04/2022 à 05/2023\nRôle et réalisations\xa0:\nCréation et développement de modèles \nAnalyse des données et interprétation de résultats\nVeille technologique et rédaction de rapports\nCréation de connaissances et leur industrialisation\nEnvironnement technique :\nPython\nSQL, GitHub\n\nIfremer – Post-doctorante – Nantes - 06/2020 à 11/2021\nRôle et réalisation\xa0:\nAnalyses statistiques\nPrésentations en conférences internationales \nConception de différents algorithmes\nRédaction d’articles scientifiques\nEnvironnement technique :\nR\nLinux\n\nInrae (UMR IAM) – Doctoran

In [6]:
from i2 import Namespace

mall = Namespace(store=store)

In [7]:
mall.store["CV_Agathe.docx"]

'Agathe Maupetit\n\n\nData Scientist\nCompétences\n\nData Science, Statistiques, Machine learning, Bioinformatique, Base de données, programmation\nPython, R, SQL, PostegreeSQL, GitHub, Geneious\nBiologie évolutive, Biologie moléculaire, Agronomie, Écologie, Phytopathologie, Génétique, Génétique quantitative\n\nNotions: Power BI, API REST\nExpériences professionnelles\n\nAddixData – Data Scientist – Sophia Antipolis - 04/2022 à 05/2023\nRôle et réalisations\xa0:\nCréation et développement de modèles \nAnalyse des données et interprétation de résultats\nVeille technologique et rédaction de rapports\nCréation de connaissances et leur industrialisation\nEnvironnement technique :\nPython\nSQL, GitHub\n\nIfremer – Post-doctorante – Nantes - 06/2020 à 11/2021\nRôle et réalisation\xa0:\nAnalyses statistiques\nPrésentations en conférences internationales \nConception de différents algorithmes\nRédaction d’articles scientifiques\nEnvironnement technique :\nR\nLinux\n\nInrae (UMR IAM) – Doctoran

# Scrap

In [4]:
from importlib.resources import files
from dol import Pipe
import json

p = files('smart_cv')
pp = p / 'data' / 'cvs_info' / 'example.json'
d = json.loads(pp.read_text(encoding='latin-1'))

In [5]:
files('pandas')

PosixPath('/Users/thorwhalen/.pyenv/versions/3.10.13/envs/p10/lib/python3.10/site-packages/pandas')

In [2]:
from dol import Files

from smart_cv.util import cvs_dirpath, cvs_info_dirpath


cvs = Files(cvs_dirpath)
cvs_info = Files(cvs_info_dirpath)




In [5]:
list(cvs_info)

['example.json', 'Thor_Whalen_CV.json']

In [17]:
d = cvs_info['example.json']
print(f"{type(d)=}")
d

type(d)=<class 'bytes'>


b'{"\\u00e9tudes": "Education of the candidate:\\n- ISEN Ecole d\\u2019Ing\\u00e9nieur, Master in Big Data, Cloud Computing, Software Dev., 2020-2022\\n- ISEN Ecole d\\u2019Ing\\u00e9nieur, Licence in Sciences Informatiques & Electronique, 2017-2020\\n- Lyc\\u00e9e Jean Moulin, Baccalaur\\u00e9at Scientifique \\u2013 Mention Bien, 2014-2017", "disponibilit\\u00e9": "disponibilit\\u00e9 : To be completed", "langues": "Languages spoken by the candidate: \\n- English (C1 level)\\n- Italian (Intermediate level)\\n- French (Native)\\n- Hindi (Beginner)", "mobilit\\u00e9": "mobilit\\u00e9 : To be completed", "projets_perso": "Reconnaissance Pomme & Poire\\nEntrainement mod\\u00e8le d\\u2019IA pour reconnaissance visuelle de vari\\u00e9t\\u00e9s de fruits pour ARECO - ARFITEC\\nJARVIS \\u2013Datadog implementation", "JobTitle": "Job title: Ing\\u00e9nieur Backend Junior Engineer", "FullName": "Name Surname: Guillaume Bernard", "xp": "Answer: 1 an", "certifications": "Certifications of the can

In [15]:
import json

d = json.loads(cvs_info['example.json'])
type(d)

dict

In [12]:
from dol import wrap_kvs, add_ipython_key_completions

s = add_ipython_key_completions(wrap_kvs(cvs_info, obj_of_data=json.loads))
list(s)

['example.json', 'Thor_Whalen_CV.json']

In [18]:
d = s['example.json']
type(d)

dict

```python
t = wrap_kvs(instance, obj_of_data=json.loads)
t = wrap_kvs(obj_of_data=json.loads)(instance)
T = wrap_kvs(Klass, obj_of_data=json.loads)
T = wrap_kvs(obj_of_data=json.loads)(T)
```

In [20]:
@add_ipython_key_completions
@wrap_kvs(obj_of_data=json.loads)
class CvsInfoStore(Files):
    """Get cv info dicts from folder"""

s = CvsInfoStore(cvs_info_dirpath)
s['example.json']

{'études': 'Education of the candidate:\n- ISEN Ecole d’Ingénieur, Master in Big Data, Cloud Computing, Software Dev., 2020-2022\n- ISEN Ecole d’Ingénieur, Licence in Sciences Informatiques & Electronique, 2017-2020\n- Lycée Jean Moulin, Baccalauréat Scientifique – Mention Bien, 2014-2017',
 'disponibilité': 'disponibilité : To be completed',
 'langues': 'Languages spoken by the candidate: \n- English (C1 level)\n- Italian (Intermediate level)\n- French (Native)\n- Hindi (Beginner)',
 'mobilité': 'mobilité : To be completed',
 'projets_perso': 'Reconnaissance Pomme & Poire\nEntrainement modèle d’IA pour reconnaissance visuelle de variétés de fruits pour ARECO - ARFITEC\nJARVIS –Datadog implementation',
 'JobTitle': 'Job title: Ingénieur Backend Junior Engineer',
 'FullName': 'Name Surname: Guillaume Bernard',
 'xp': 'Answer: 1 an',
 'certifications': 'Certifications of the candidate:\n- Cambridge Assessment English Certificate in Advanced English (C1)\n- Ceinture noire en Karaté Wado R

In [4]:
list(cvs)

['Guillaume.pdf',
 'CV_Adil_Mektoub.pdf',
 'Nappee-Thomas.pdf',
 'Thor_Whalen_CV.pdf']

In [40]:
from smart_cv import CvsInfoStore

s = CvsInfoStore()
list(s)

['example.json', 'Thor_Whalen_CV.json']

In [41]:
s['Thor_Whalen_CV.json']

{'Name': 'Thor Whalen'}

In [42]:
cvs = Files(cvs_dirpath)
list(cvs)

['Guillaume.pdf',
 'CV_Adil_Mektoub.pdf',
 'Nappee-Thomas.pdf',
 'Thor_Whalen_CV.pdf']

In [43]:
b = cvs['Thor_Whalen_CV.pdf']
len(b)

306446

In [45]:
from pdfdol import PdfFilesReader

s = PdfFilesReader(cvs_dirpath)
list(s)

['Guillaume', 'CV_Adil_Mektoub', 'Nappee-Thomas', 'Thor_Whalen_CV']

In [47]:
s['Guillaume']

['PostgreSQLThe CAP\nAnalyse en temps réel d’un match de tennis avec IA\nPython, Docker, GCP\nuillaume Bernard\nIngénieur Backend Junior Engineer motivé ,\nA la recherche d’un poste en CDI dès aujourd’hui\nINTRODUCTION INFORMATION\nEDUCATIONPROJET\nLANGUAGES\nSKILLS\nGit\nJavaPython Markdown\n Datadog\nDockerBash\nAnglais\nNiveau C1\nItalien\nIntermédiaireFrancais\nNatifISEN Ecole d’Ingénieur\nMaster\nBig Data, Cloud Computing, Software Dev.\n2020\n2022\nISEN Ecole d’Ingénieur\nLicence\nSciences Informatiques & Electronique\n2017\n2020\nLycée Jean Moulin\nBaccalauréat Scientifique – Mention Bien\n2014\n2017Jeune  adulte  dynamique , intéressé  par la Data  au sens  large  du \nData  Mining  aux Statistiques  en passant  par le Machine  \nLearning .\nDiscipliné  et responsable , chargé  de la supervision  de \nl’association  Engineering  de l’école .\nIngénieur  junior  de 24 ans en quête  d’approfondissement  de \nconnaissances .+33 6 45 49 61 85\nguillaume.bernard31415@gmail.com\nlink