# automatically create pdf

In [None]:
from reportlab.lib.pagesizes import A4
from reportlab.lib import colors
from reportlab.platypus import SimpleDocTemplate, Paragraph, Spacer, ListFlowable
from reportlab.lib.styles import getSampleStyleSheet, ParagraphStyle
from reportlab.lib.enums import TA_CENTER, TA_LEFT

# Erstelle ein PDF-Dokument im Querformat
pdf = SimpleDocTemplate("Zusammenfassung_Lebenslauf.pdf", pagesize=(A4[1], A4[0]))  # Querformat: Breite, Höhe vertauscht

# Definiere Stile
styles = getSampleStyleSheet()
styles.add(ParagraphStyle(name='TitleCentered', parent=styles['Title'], alignment=TA_CENTER))
styles.add(ParagraphStyle(name='NormalLeft', parent=styles['Normal'], alignment=TA_LEFT, leading=14))

# Inhalt als Flowables
content = []

# Titel
content.append(Paragraph("Zusammenfassung des Lebenslaufs", styles['TitleCentered']))
content.append(Spacer(1, 12))

# Haupttext
main_text = [
    "Mit einem beeindruckenden Mix aus unternehmerischem Geist und fundierter Expertise im Projekt- und IT-Management hebt sich dieser Lebenslauf durch Vielseitigkeit und Ergebnisorientierung ab. Seit 2018 selbstständig mit MEBIT e.U., überzeugt die Person als verlässliche Schnittstelle zwischen Marketing und IT bei Erste Digital, wo sie Projektfortschritte sichert, Prozesse optimiert und Wissen multipliziert.",
    "Parallel dazu glänzt sie in kleineren Aufträgen – von Großgruppenmoderationen bei ASFINAG bis hin zu IT-Installationen in Arztpraxen. Zuvor als Local CIO bei MOL Austria (2016–2017) und Head of IT bei AOP Orphan Pharmaceuticals (2009–2015) hat sie komplexe IT-Umgebungen restrukturiert und Teams aufgebaut. Ihre Karriere begann im sozialen Bereich, was ihre empathischen und kommunikativen Stärken untermauert.",
    "Fachlich brilliert sie mit technischem Know-how (z. B. VMWare, NetApp, M365) und Prozesskompetenz (ISO 27001, Datenschutz), während sie persönlich durch Teamführung, Coaching und Organisationsentwicklung punktet. Ihr akademischer Background – vom Sozialarbeit-Studium bis zum Masterlehrgang Beratungswissenschaften – rundet ihr Profil ab. Zeitliche Lücken? Einzig ein Sabbatical (2015–2016) zur Neuorientierung, ansonsten ein durchgängiger Werdegang."
]
for paragraph in main_text:
    content.append(Paragraph(paragraph, styles['NormalLeft']))
    content.append(Spacer(1, 6))

# Schlüsselprojekte
content.append(Paragraph("Schlüsselprojekte im Fokus", styles['Heading2']))
content.append(Spacer(1, 6))

# Selbstständig
content.append(Paragraph("Selbstständig", styles['Heading3']))
self_employed_projects = [
    "2018: Sicherstellung von Projektfortschritten bei Erste Digital – effizientes CRM-Marketing und IT-Schnittstellenmanagement.",
    "Laufend: Großgruppenmoderation für ASFINAG – nachhaltige Prozessverbesserung im NIS-Projekt.",
    "Laufend: IT-Planung und Installation für eine Arztpraxis – maßgeschneidertes Sicherheitskonzept.",
    "Laufend: M365-Migrationen – Automatisierung von SharePoint-Listen für optimierte Workflows."
]
content.append(ListFlowable(
    [Paragraph(item, styles['NormalLeft']) for item in self_employed_projects],
    bulletType='bullet', start='•', leftIndent=20
))
content.append(Spacer(1, 6))

# Angestellt
content.append(Paragraph("Angestellt", styles['Heading3']))
employed_projects = [
    "2016: Umsetzung von Konzernrichtlinien bei MOL Austria – nationale Projekte erfolgreich positioniert.",
    "2013: Reorganisation der IT bei AOP Orphan – stabile virtuelle Umgebung auf NetApp/VMWare-Basis.",
    "2011: Einführung der Novell Open Enterprise Suite – IT als interner Dienstleister etabliert."
]
content.append(ListFlowable(
    [Paragraph(item, styles['NormalLeft']) for item in employed_projects],
    bulletType='bullet', start='•', leftIndent=20
))
content.append(Spacer(1, 6))

# Kompetenzen
content.append(Paragraph("Kompetenzen & Zertifizierungen", styles['Heading2']))
competencies = [
    "Projekt- und IT-Management, Prozessoptimierung, Teamführung",
    "Technologien: VMWare, NetApp, M365, SharePoint, Sage dpw",
    "Coaching, Organisationsentwicklung, Teambuilding",
    "ISMS-Manager/Auditor (ISO 27001), zertifizierter Datenschutzbeauftragter (TÜV)",
    "Sozialarbeit, Beratungswissenschaften"
]
content.append(ListFlowable(
    [Paragraph(item, styles['NormalLeft']) for item in competencies],
    bulletType='bullet', start='•', leftIndent=20
))
content.append(Spacer(1, 6))

# Schlusssatz
content.append(Paragraph("Ein Profil, das Kompetenz und Leidenschaft für innovative Lösungen vereint!", styles['NormalLeft']))

# Erstelle das PDF
pdf.build(content)
print("PDF wurde als 'Zusammenfassung_Lebenslauf.pdf' gespeichert.")

# automatically create word
https://x.com/i/grok/share/u7rvgEDyyNuzprN5dlw5Mesxx

In [None]:
import re
from docx import Document
from docx.enum.section import WD_ORIENTATION
from docx.shared import Pt, Inches

def generate_resume_doc(document, word_name):
    """
    Generate a Word document from resume text provided within <CONTENT_FROM_OCR> tags.
    The document uses A4 paper in landscape orientation with adjusted margins and font size
    to fit all content on one page.
    
    Args:
        document (str): The full text containing the resume within <DOCUMENT> tags.
    """
    # Extract content from <CONTENT_FROM_OCR> tags
    content_blocks = re.findall(r'<CONTENT_FROM_OCR>(.*?)</CONTENT_FROM_OCR>', document, re.DOTALL)
    resume_text = '\n'.join(content_blocks)
    
    # Define section headings and subheadings
    main_sections = [
        "Zusammenfassung des Lebenslaufs",
        "Schlüsselprojekte im Fokus",
        "Kompetenzen & Zertifizierungen"
    ]
    subheadings = ["Selbstständig", "Angestellt"]
    
    # Split text into lines
    lines = resume_text.split('\n')
    
    # Build document structure as (style, text) tuples
    doc_structure = []
    for line in lines:
        stripped = line.strip()
        if not stripped:  # Skip empty lines
            continue
        if stripped in main_sections:
            doc_structure.append(('Heading 1', stripped))
        elif stripped in subheadings:
            doc_structure.append(('Heading 2', stripped))
        elif stripped.startswith('- '):
            doc_structure.append(('Bullet', stripped[2:]))  # Remove '- ' from bullet points
        elif re.match(r'\d{4}: ', stripped) or stripped.startswith('Laufend: '):
            doc_structure.append(('Bullet', stripped))  # Keep full text for year-based bullets
        else:
            doc_structure.append(('Paragraph', stripped))
    
    # Create a new Word document
    doc = Document()
    
    # Set landscape orientation for A4
    section = doc.sections[0]
    section.orientation = WD_ORIENTATION.LANDSCAPE
    section.page_height = Inches(8.27)  # A4 height in landscape
    section.page_width = Inches(11.69)  # A4 width in landscape
    
    # Reduce margins to fit more content
    section.top_margin = Inches(0.5)
    section.bottom_margin = Inches(0.5)
    section.left_margin = Inches(0.5)
    section.right_margin = Inches(0.5)
    
    # Set default font size to 10 points
    style = doc.styles['Normal']
    font = style.font
    font.size = Pt(10)
    
    # Add content with appropriate styles
    for style, text in doc_structure:
        if style == 'Heading 1':
            heading = doc.add_heading(level=1)
            run = heading.add_run(text)
            run.font.size = Pt(14)  # Larger font for main headings
        elif style == 'Heading 2':
            heading = doc.add_heading(level=2)
            run = heading.add_run(text)
            run.font.size = Pt(12)  # Slightly larger for subheadings
        elif style == 'Paragraph':
            p = doc.add_paragraph()
            run = p.add_run(text)
            run.font.size = Pt(10)
        elif style == 'Bullet':
            p = doc.add_paragraph(style='List Bullet')
            run = p.add_run(text)
            run.font.size = Pt(10)
    
    # Save the document
    doc.save(f'{word_name}.docx')

# Example usage
document = """<DOCUMENT>
<PAGE1>
<CONTENT_FROM_OCR>
 Zusammenfassung des Lebenslaufs

Mit einem beeindruckenden Mix aus unternehmerischem Geist und fundierter Expertise im Projekt- und IT-Management hebt sich dieser Lebenslauf durch Vielseitigkeit und Ergebnisorientierung ab. Seit 2018 selbstständig mit MEBIT e.U., überzeugt die Person als verlässliche Schnittstelle zwischen Marketing und IT bei Erste Digital, wo sie Projektfortschritte sichert, Prozesse optimiert und Wissen multipliziert.

Parallel dazu glänzt sie in kleineren Aufträgen - von Großgruppenmoderationen bei ASFINAG bis hin zu IT-Installationen in Arztpraxen. Zuvor als Local CIO bei MOL Austria (2016-2017) und Head of IT bei AOP Orphan Pharmaceuticals (2009-2015) hat sie komplexe IT-Umgebungen restrukturiert und Teams aufgebaut. Ihre Karriere begann im sozialen Bereich, was ihre empathischen und kommunikativen Stärken untermauert.

Fachlich brilliert sie mit technischem Know-how (z. B. VMWare, NetApp, M365) und Prozesskompetenz (ISO 27001, Datenschutz), während sie persönlich durch Teamführung, Coaching und Organisationsentwicklung punktet. Ihr akademischer Background - vom Sozialarbeit-Studium bis zum Masterlehrgang Beratungswissenschaften - rundet ihr Profil ab. Zeitliche Lücken? Einzig ein Sabbatical (2015-2016) zur Neuorientierung, ansonsten ein durchgängiger Werdegang.

Schlüsselprojekte im Fokus

Selbstständig

- 2018: Sicherstellung von Projektfortschritten bei Erste Digital - effizientes CRM-Marketing und IT-Schnittstellenmanagement.
- Laufend: Großgruppenmoderation für ASFINAG - nachhaltige Prozessverbesserung im NIS-Projekt.
- Laufend: IT-Planung und Installation für eine Arztpraxis - maßgeschneidertes Sicherheitskonzept.
- Laufend: M365-Migrationen - Automatisierung von SharePoint-Listen für optimierte Workflows.

Angestellt

- 2016: Umsetzung von Konzernrichtlinien bei MOL Austria - nationale Projekte erfolgreich positioniert.
- 2013: Reorganisation der IT bei AOP Orphan - stabile virtuelle Umgebung auf NetApp/VMWare-Basis.
- 2011: Einführung der Novell Open Enterprise Suite - IT als interner Dienstleister etabliert.
</CONTENT_FROM_OCR>
</PAGE1>
<PAGE2>
<CONTENT_FROM_OCR>
 Kompetenzen & Zertifizierungen

- Projekt- und IT-Management, Prozessoptimierung, Teamführung
- Technologien: VMWare, NetApp, M365, SharePoint, Sage dpw
- Coaching, Organisationsentwicklung, Teambuilding
- ISMS-Manager/Auditor (ISO 27001), zertifizierter Datenschutzbeauftragter (TÜV)
- Sozialarbeit, Beratungswissenschaften

Ein Profil, das Kompetenz und Leidenschaft für innovative Lösungen vereint!
</CONTENT_FROM_OCR>
</PAGE2>
</DOCUMENT>"""

# Run the function
generate_resume_doc(document, "test_word_creation")

# pdf to string

In [None]:
# !pip install --upgrade --force-reinstall pymupdf

In [None]:
from pathlib import Path
import fitz  # PyMuPDF
import re
from collections import Counter

def extract_resume_text(pdf_path: Path) -> str:
    """
    Extract text from a PDF resume while preserving formatting for headings, bullet points, and paragraphs.
    
    Args:
        pdf_path (Path): Path to the PDF file.
    
    Returns:
        str: Formatted text string suitable for generating a Word document.
    """
    # Open the PDF file
    doc = fitz.open(str(pdf_path))
    font_sizes = []
    
    # Step 1: Collect all font sizes to determine the body text size
    for page in doc:
        blocks = page.get_text("dict")["blocks"]
        for block in blocks:
            if "lines" in block:
                for line in block["lines"]:
                    for span in line["spans"]:
                        font_sizes.append(span["size"])
    
    # Step 2: Find the most common font size (assumed to be body text)
    size_counter = Counter(font_sizes)
    body_size = size_counter.most_common(1)[0][0]
    heading_threshold = body_size * 1.2  # Threshold for headings
    
    # Step 3: Extract and classify text
    output_lines = []
    for page in doc:
        blocks = page.get_text("dict")["blocks"]
        for block in blocks:
            if "lines" in block:
                # Check if all spans in the block have font size above threshold (heading)
                all_large = all(span["size"] > heading_threshold 
                              for line in block["lines"] 
                              for span in line["spans"])
                if all_large:
                    # Heading: Combine all spans into one line
                    heading_text = " ".join(span["text"] 
                                          for line in block["lines"] 
                                          for span in line["spans"]).strip()
                    output_lines.append(heading_text)
                else:
                    # Paragraph or bullet point: Process each line individually
                    for line in block["lines"]:
                        line_text = " ".join(span["text"] 
                                           for span in line["spans"]).strip()
                        # Check for bullet points or date patterns
                        if (line_text.startswith(('-', '•', '*')) or 
                            re.match(r'\d{2}/\d{4} -|Lfd\.', line_text)):
                            if not line_text.startswith('- '):
                                line_text = '- ' + line_text
                        output_lines.append(line_text)
    
    # Clean up
    doc.close()
    
    # Return the formatted string
    return '\n'.join(output_lines)

# Example usage
if __name__ == "__main__":
    pdf_path = Path(r"C:\Users\Manuel\Documents\GitHub\michael_cvs\edacted_cvs\ma_et_CV.pdf")  # Replace with your PDF file path
    try:
        resume_text = extract_resume_text(pdf_path)
        print(resume_text)
    except FileNotFoundError:
        print(f"Error: The file {pdf_path} was not found.")
    except Exception as e:
        print(f"An error occurred: {e}")

In [None]:
def remove_example(text):
    bad_stuff = ["Created by Xodo PDF Studio. Learn more at xodo.com/pdf-studio",
        "Created by Xodo PDF Studio. Learn more at xodo.com/p",
        "Created by Xodo PDF Studio.",
        "Learn more at xodo.com"
        ]
    for bad in bad_stuff:
        while "example sentence" in text:
            text = text.replace(bad, "")
    return text

# Example usage
text = "This is an example sentence and another example sentence here."
result = remove_example(resume_text)
result

In [None]:
generate_resume_doc(result, "from_read_pdf")

In [10]:
print(result)















Projekt- und IT-Management



CV - SELBSTÄNDIG (MEBIT e.U.)
08/2018-
lfd.
E rste  Digital
- •   Laufendes Projekt- und Demand-Management im Umfeld
CRM-Marketing und IT-Softwareentwicklung, Sicherstellung
von Projektfortschritten
- •   Single Point of Contact für den internen Kunden als
Schnittstelle zwischen Marketing und IT,
Wissensmultiplikation, Onboarding
- •   Prozessverbesserung und Prozessdokumentation
- Lfd.
Kleinere Aufträge
- •   ASFINAG: Strukturierung und Moderation von
Großgruppenveranstaltungen für ein konzernweites Projekt
im Rahmen von NIS. Ausarbeitung von Maßnahmen zur
nachhaltigen Prozessverbesserung
- •   Arztpraxis: Planung und Installation der IT einer Arztpraxis
- •   Sicherheitskonzepte
- •   M365 Migrationen, Sharepoint Listenautomation
- •   Teambuildings, Organisationsentwicklung, Coaching
06/2017-
07/2018
Vorbereitung Unternehmensgründung
- •   Vorbereitung zum Wechsel in die Selbstständigkeit im Zuge
des Unternehmensgründungsprogrammes des AMS

# code end