# Endgültiges Template für Datenanalyse und Verarbeitung
Dieses Notebook kombiniert alle relevanten Inhalte aus den hochgeladenen Dateien. Es enthält Beispiele für PDF-Scraping, HTML-Scraping, Netzwerkanalyse, Geodatenintegration, API-Abfragen und Datenverarbeitung. Jede Methode ist mit deutschen Annotationen versehen, um die Schritte und den Zweck der Beispiele zu erklären.



### **1. Überblick über das Ziel: Digital Humanities**
Die Dokumente richten sich an Personen, die in den Digital Humanities arbeiten möchten, insbesondere mit Python, um Projekte von der Datenbeschaffung über die Verarbeitung bis hin zur Analyse und Visualisierung durchzuführen. Digital Humanities verbinden digitale Technologien mit geisteswissenschaftlichen Fragestellungen.

---

### **2. Die Struktur eines Digital-Humanities-Projekts**
Ein solches Projekt umfasst vier Hauptphasen:
1. **Datenakquise**:
   - Sammlung von Daten durch Webscraping, APIs, PDF-Extraktion oder Datenbanken.
   - Ziel: Rohdaten aus unterschiedlichen Quellen in strukturierter Form zu erhalten.
2. **Datenbereinigung und Vorverarbeitung**:
   - Entfernung von Rauschen (z. B. Sonderzeichen, Zahlen).
   - Anpassung der Daten an die Analysebedürfnisse.
3. **Datenanalyse**:
   - Informationsextraktion (z. B. Named Entity Recognition, POS-Tagging).
   - Erkenntnisse aus den Daten gewinnen.
4. **Datenvisualisierung**:
   - Darstellung von Ergebnissen (z. B. Geodaten- oder Netzwerkvisualisierungen).

---

### **3. Praktische Umsetzung mit Python**
Das Jupyter Notebook enthält annotierte Beispiele, die zeigen, wie die oben genannten Schritte in Python umgesetzt werden können. Hier sind die wichtigen Module und Methoden:

#### **Datenakquise**
- **Webscraping**: Mit Bibliotheken wie `urllib` und `BeautifulSoup`, um Inhalte von Websites zu extrahieren und zu strukturieren.
- **APIs**: Verwendung von `requests` und `json`, um API-Daten (z. B. von Zeitungen) zu erhalten.
- **PDF-Verarbeitung**: Mit `PyPDF2` Texte aus PDF-Dokumenten extrahieren.

#### **Datenvorbereitung**
- **NLTK (Natural Language Toolkit)**:
  - Tokenisierung (Wörter zerlegen).
  - Stopwörter entfernen (z. B. "und", "aber").
  - Kleinschreibung für Konsistenz.

#### **Informationsextraktion**
- **Named Entity Recognition (NER)**:
  - Identifikation von Namen, Orten und Organisationen.
  - Bibliotheken wie `Spacy` und `NLTK`.
- **Part-of-Speech-Tagging (POS)**:
  - Klassifikation von Wörtern (z. B. Verb, Substantiv).

#### **Visualisierung**
- **Geodatenanalyse**:
  - Darstellung räumlicher Beziehungen, z. B. von literarischen Orten.
- **Netzwerkanalyse**:
  - Darstellung von Verbindungen zwischen Entitäten (z. B. soziale Netzwerke).

---

### **4. Anwendung und Zweck**
- Diese Methoden ermöglichen es Forschern, geisteswissenschaftliche Fragen mit digitalen Mitteln zu beantworten.
- Ein Beispiel: Analyse von Zeitungsartikeln zur Untersuchung gesellschaftlicher Trends oder Netzwerkanalysen historischer Figuren.

## Inhalte aus: 1. Data Acquisition.ipynb
### Zusammenfassung und Annotationen
Dieser Abschnitt enthält relevante Beispiele aus der Datei.

In [1]:
# ANNOTATION:
# Dieser Code demonstriert eine Methode, um:
# - from urllib import request
# Schritt 1: Überprüfen der aktuellen Python-Umgebung
import sys
print("Aktueller Python-Pfad:", sys.executable)

# Schritt 2: Installation von BeautifulSoup4 in der aktiven Umgebung
try:
    # Installation über pip
    !{sys.executable} -m pip install beautifulsoup4
except Exception as e:
    print("Fehler bei der Installation mit pip:", e)
    # Fallback: Installation über Conda (falls verfügbar)
    try:
        !conda install -c anaconda beautifulsoup4 -y
    except Exception as conda_error:
        print("Fehler bei der Installation mit Conda:", conda_error)

# Schritt 3: Import der Bibliothek nach erfolgreicher Installation
try:
    from bs4 import BeautifulSoup
    print("BeautifulSoup erfolgreich importiert!")
except ModuleNotFoundError as e:
    print("Fehler: BeautifulSoup konnte nicht gefunden werden:", e)
    print("Bitte prüfen Sie, ob die Installation korrekt durchgeführt wurde.")

from urllib import request

from bs4 import BeautifulSoup

import re

import pandas as pd

Aktueller Python-Pfad: /opt/anaconda3/bin/python
BeautifulSoup erfolgreich importiert!


Webscraping-Bibliotheken
•
Urllib:UrlLib ist eine Bibliothek, die zur Handhabung von URLs verwendet wird. Sie legt die Website-Informationen in unser Jupyter-Notebook. Wir verwenden die Urllib-Bibliothek, um den Inhalt der Website auf unseren Laptop zu übertragen. Aber es gibt ein Problem: Der Inhalt ist für Menschen nicht leicht lesbar. Url: urllib – URL-Handhabungsmodule – Python 3.13.1-Dokumentation
•
BeautifulSoup: BeautifulSoup ist eine Bibliothek, die zum Parsen von HTML (dem Format, das die Mehrheit der Websites verwendet) verwendet wird. Also: Nachdem wir Urllib verwendet haben, um die Website-Informationen zu extrahieren und in unser Jupyter-Notebook zu legen, werden wir BeautifulSoup verwenden, um diese Informationen in ein lesbares Format zu bringen. Also verwenden wir die Beautiful Soup Library, um unseren Text lesbar zu machen! Aber es gibt immer noch ein Problem: Wir haben eine sehr lange Zeichenfolge (das ganze Buch). Wir müssen die Dinge in Kapiteln organisieren. Url: BeautifulSoup-Dokumentation – BeautifulSoup 4.12.0-Dokumentation
•
Regex: Die Regex-Bibliothek (RE) wird zur Manipulation von Zeichenfolgen verwendet. Wir müssen möglicherweise zusätzliche Operationen durchführen, um nur den Text auszuwählen, den wir für unsere Datenanalyse benötigen. Url: re – Operationen mit regulären Ausdrücken – Python 3.13.1-Dokumentation. Wir werden drei Regex-Methoden verwenden:
-re.search(„string“, data). Es gibt uns die genaue Position eines Strings in einem größeren String.
-re.findall(r„string“, data). Es findet alle Vorkommen eines Strings in einem größeren String.
-re.split(r„string“, data). Es zerlegt lange Strings in Teilstrings unter Verwendung bestimmter Wörter. Wir verwenden die Regex-Bibliothek, um unsere lange Zeichenfolge anhand von im Text gefundenen Schlüsselwörtern in Kapitel zu unterteilen.
•
Pandas: Die Pandas-Bibliothek wird verwendet, um CSV-Datenrahmen (mit Kommas getrennte Werte) (auch bekannt als Tabellen) zu erstellen (und zu bearbeiten). Und schließlich verwenden wir die Pandas-Bibliothek, um einen CSV-Datenrahmen zu erstellen, der unseren Text in Kapitel unterteilt, wodurch ein „digitales Buch“ entsteht. URL: Pandas-Dokumentation – Pandas 2.2.3-Dokumentation. (Ausgezeichnetes Pandas-Tutorial: 10 Minuten Topandas – Pandas 2.2.3-Dokumentation).

In [2]:
# ANNOTATION:
# Dieser Code demonstriert eine Methode, um:
# - from bs4 import BeautifulSoup #we already installed this library but it is useful to understand that we are going to use it now!

from bs4 import BeautifulSoup #we already installed this library but it is useful to understand that we are going to use it now!
from urllib import request

# Definieren einer Beispiel-URL (diese kannst du durch eine gewünschte Website ersetzen)
url = "http://example.com"

# Abrufen des HTML-Inhalts von der URL
response = request.urlopen(url)
raw = response.read().decode("utf-8")  # HTML-Inhalt in eine String-Variable umwandeln

# Parsen des HTML-Inhalts mit BeautifulSoup
soup = BeautifulSoup(raw, "html.parser")

# Schön formatierte Ausgabe des HTML-Dokuments
print(soup.prettify())


<!DOCTYPE html>
<html>
 <head>
  <title>
   Example Domain
  </title>
  <meta charset="utf-8"/>
  <meta content="text/html; charset=utf-8" http-equiv="Content-type"/>
  <meta content="width=device-width, initial-scale=1" name="viewport"/>
  <style type="text/css">
   body {
        background-color: #f0f0f2;
        margin: 0;
        padding: 0;
        font-family: -apple-system, system-ui, BlinkMacSystemFont, "Segoe UI", "Open Sans", "Helvetica Neue", Helvetica, Arial, sans-serif;
        
    }
    div {
        width: 600px;
        margin: 5em auto;
        padding: 2em;
        background-color: #fdfdff;
        border-radius: 0.5em;
        box-shadow: 2px 3px 7px 2px rgba(0,0,0,0.02);
    }
    a:link, a:visited {
        color: #38488f;
        text-decoration: none;
    }
    @media (max-width: 700px) {
        div {
            margin: 0 auto;
            width: auto;
        }
    }
  </style>
 </head>
 <body>
  <div>
   <h1>
    Example Domain
   </h1>
   <p>
    This dom

In [3]:
# ANNOTATION:
# Dieser Code demonstriert eine Methode, um:
# - soup = BeautifulSoup(raw, "html.parser")

soup = BeautifulSoup(raw, "html.parser")

print(soup.prettify()) 

<!DOCTYPE html>
<html>
 <head>
  <title>
   Example Domain
  </title>
  <meta charset="utf-8"/>
  <meta content="text/html; charset=utf-8" http-equiv="Content-type"/>
  <meta content="width=device-width, initial-scale=1" name="viewport"/>
  <style type="text/css">
   body {
        background-color: #f0f0f2;
        margin: 0;
        padding: 0;
        font-family: -apple-system, system-ui, BlinkMacSystemFont, "Segoe UI", "Open Sans", "Helvetica Neue", Helvetica, Arial, sans-serif;
        
    }
    div {
        width: 600px;
        margin: 5em auto;
        padding: 2em;
        background-color: #fdfdff;
        border-radius: 0.5em;
        box-shadow: 2px 3px 7px 2px rgba(0,0,0,0.02);
    }
    a:link, a:visited {
        color: #38488f;
        text-decoration: none;
    }
    @media (max-width: 700px) {
        div {
            margin: 0 auto;
            width: auto;
        }
    }
  </style>
 </head>
 <body>
  <div>
   <h1>
    Example Domain
   </h1>
   <p>
    This dom

In [4]:
# ANNOTATION:
# Dieser Code demonstriert eine Methode, um:
# - from urllib import request

from urllib import request
from bs4 import BeautifulSoup

import re

import pandas as pd

## Inhalte aus: 1. Exercises Data Acquisition.ipynb
### Zusammenfassung und Annotationen
Dieser Abschnitt enthält relevante Beispiele aus der Datei.

In [5]:
# ANNOTATION:
# Dieser Code demonstriert eine Methode, um:
# - #Your code in here

#Your code in here
from urllib import request
from bs4 import BeautifulSoup

import re

import pandas as pd

In [6]:
# ANNOTATION:
# Dieser Code demonstriert eine Methode, um:
# - #Solution

#Solution
from urllib import request
from bs4 import BeautifulSoup
import re
import pandas as pd

In [7]:
# ANNOTATION:
# Dieser Code demonstriert eine Methode, um:
# - #Solution

#Solution
soup = BeautifulSoup(raw, "html.parser")
data = soup.prettify()

## Inhalte aus: Webscraping la Gaceta de Madrid.ipynb
### Zusammenfassung und Annotationen
Dieser Abschnitt enthält relevante Beispiele aus der Datei.

API-Python-Bibliotheken
•
Requests. Requests ist eine Bibliothek, die Urllib sehr ähnlich ist, aber anstatt mit URLs zu arbeiten, wird sie verwendet, um „Aufrufe“ an die API zu tätigen (aber das Prinzip ist Urllib sehr ähnlich). Wir erstellen einen „API-Aufruf“ (eine Abfrage) mithilfe der Requests-Bibliothek. Möglicherweise benötigen wir auch die Time-Bibliothek. Url: requests · PyPI
•
Json. Json ist der Beautiful Soup Library sehr ähnlich. Es hilft uns, das Datenformat der APIs zu analysieren (es ist normalerweise kein HTML mehr, sondern Json). Json ist häufig ein Wörterbuch von Wörterbüchern. Jetzt, da wir den Text auf unserem Laptop haben (in einem JSON-Format), verwenden wir die JSON-Bibliothek, um ihn zu analysieren. Url: json – JSON-Encoder und -Decoder – Python 3.13.1-Dokumentation
•
Time. Manchmal erstellen API-Entwickler Zeitbeschränkungen, um zu vermeiden, dass Benutzer ihre Server durch API-Aufrufe überlasten. Mit der Time-Bibliothek können wir festlegen, wie viele Sekunden wir warten möchten, um die Ergebnisse zu erhalten. Url: time – Zeitzugriff und -konvertierungen – Python 3.13.1-Dokumentation

In [8]:
# ANNOTATION:
# Dieser Code demonstriert eine Methode, um:
# - import urllib.request

import urllib.request
from urllib.request import urlopen
from bs4 import BeautifulSoup
import shutil

In [9]:
# ANNOTATION:
# Dieser Code demonstriert eine Methode, um:
# - html_doc = urlopen("https://www.boe.es/buscar/gazeta.php?campo%5B0%5D=ID_HIST&dato%5B0%5D=16&campo%5B1%5D=TITULOS&dato%5B1%5D=&operador%5B1%5D=and&campo%5B2%5D=RNG.ID&dato%5B2%5D=&operador%5B2%5D=and&campo%5B3%5D=DEM.ID&dato%5B3%5D=&operador%5B3%5D=and&campo%5B4%5D=DOC&dato%5B4%5D=&operador%5B4%5D=and&campo%5B5%5D=TITULOS&dato%5B5%5D=&operador%5B5%5D=and&campo%5B6%5D=GAZ.ID&dato%5B6%5D=&campo%5B7%5D=NBO&dato%5B7%5D=&operador%5B8%5D=and&campo%5B8%5D=FPU&dato%5B8%5D%5B0%5D=&dato%5B8%5D%5B1%5D=&operador%5B9%5D=and&campo%5B9%5D=FAP&dato%5B9%5D%5B0%5D=&dato%5B9%5D%5B1%5D=&page_hits=50&sort_field%5B0%5D=FPU&sort_order%5B0%5D=desc&sort_field%5B1%5D=REF&sort_order%5B1%5D=asc&accion=Buscar")

html_doc = urlopen("https://www.boe.es/buscar/gazeta.php?campo%5B0%5D=ID_HIST&dato%5B0%5D=16&campo%5B1%5D=TITULOS&dato%5B1%5D=&operador%5B1%5D=and&campo%5B2%5D=RNG.ID&dato%5B2%5D=&operador%5B2%5D=and&campo%5B3%5D=DEM.ID&dato%5B3%5D=&operador%5B3%5D=and&campo%5B4%5D=DOC&dato%5B4%5D=&operador%5B4%5D=and&campo%5B5%5D=TITULOS&dato%5B5%5D=&operador%5B5%5D=and&campo%5B6%5D=GAZ.ID&dato%5B6%5D=&campo%5B7%5D=NBO&dato%5B7%5D=&operador%5B8%5D=and&campo%5B8%5D=FPU&dato%5B8%5D%5B0%5D=&dato%5B8%5D%5B1%5D=&operador%5B9%5D=and&campo%5B9%5D=FAP&dato%5B9%5D%5B0%5D=&dato%5B9%5D%5B1%5D=&page_hits=50&sort_field%5B0%5D=FPU&sort_order%5B0%5D=desc&sort_field%5B1%5D=REF&sort_order%5B1%5D=asc&accion=Buscar")
soup = BeautifulSoup(html_doc, "html.parser")
print(soup.prettify())

<!DOCTYPE html>
<html lang="es">
 <head>
  <meta charset="utf-8"/>
  <meta content="IE=edge" http-equiv="X-UA-Compatible"/>
  <meta content="telephone=no" name="format-detection"/>
  <meta content="noindex" name="robots">
   <meta content="Gazeta: formulario de b&amp;uacute;squeda de disposiciones y noticias" name="Description"/>
   <title>
    BOE.es - Gazeta: formulario de búsqueda de disposiciones y noticias
   </title>
   <link href="/favicon.ico" rel="shortcut icon"/>
   <link href="/favicon.ico" rel="icon" type="image/x-icon"/>
   <link href="/apple-touch-icon.png" rel="apple-touch-icon"/>
   <base target="_top"/>
   <link href="/estilos/boe.css" rel="stylesheet" type="text/css">
    <link href="/estilos/buscador.css" rel="stylesheet" type="text/css"/>
    <!--[if lt IE 10]>
    <link rel="stylesheet" type="text/css" href="/estilos/boe_ie9.css" />
    <![endif]-->
    <!--[if lt IE 9]>
    <link rel="stylesheet" type="text/css" href="/estilos/boe_ie8.css" />
    <![endif]-->


In [10]:
# ANNOTATION:
# Dieser Code demonstriert eine Methode, um:
# - import os

import os
import urllib.request
import shutil
import requests
from bs4 import BeautifulSoup

# Ordner erstellen, wenn er nicht existiert
output_folder = "abgespeicherte_PDFs"
os.makedirs(output_folder, exist_ok=True)

# Funktion zum Herunterladen einer Datei
def download(remote_fn, local_fn):
    fname = os.path.join(output_folder, local_fn)
    try:
        with urllib.request.urlopen(remote_fn) as response, open(fname, mode="wb") as out_file:
            shutil.copyfileobj(response, out_file)
        print(f"Erfolgreich heruntergeladen: {local_fn}")
        return True
    except Exception as e:  # Alle Fehler abfangen
        print(f"Fehler beim Herunterladen von {remote_fn}: {e}")
        return False

# Funktion zum Extrahieren von PDF-Links und Download
def fetch_pdfs_from_website(url):
    try:
        # Website abrufen
        response = requests.get(url)
        response.raise_for_status()  # Fehler bei HTTP-Status abfangen
        soup = BeautifulSoup(response.text, "html.parser")

        # Alle PDF-Links suchen
        pdf_links = [link['href'] for link in soup.find_all('a', href=True) if link['href'].endswith('.pdf')]
        print(f"{len(pdf_links)} PDFs gefunden.")

        # PDFs herunterladen
        for remote_fn in pdf_links:
            # Vollständige URL generieren, falls der Link relativ ist
            if not remote_fn.startswith("http"):
                remote_fn = urllib.parse.urljoin(url, remote_fn)
            local_fn = os.path.basename(remote_fn)  # Nur den Dateinamen extrahieren
            download(remote_fn, local_fn)
    except Exception as e:
        print(f"Fehler beim Abrufen der Website: {e}")

# URL der Website angeben
website_url = "https://www.biologie.uzh.ch/de/Studium/Minor-Studienprogramme/MinorBioinformatik.html"  # URL der gewünschten Website hier einfügen
fetch_pdfs_from_website(website_url)


1 PDFs gefunden.
Erfolgreich heruntergeladen: 415.462_19.5.14_(Vollversion)_86.pdf


## Inhalte aus: Webscraping tutorial.ipynb
### Zusammenfassung und Annotationen
Dieser Abschnitt enthält relevante Beispiele aus der Datei.

In [11]:
# ANNOTATION:
# Dieser Code demonstriert eine Methode, um:
# - from urllib.request import urlopen

from urllib.request import urlopen
from bs4 import BeautifulSoup

In [12]:
# ANNOTATION:
# Dieser Code demonstriert eine Methode, um:
# - soup = BeautifulSoup(html, 'html.parser')

soup = BeautifulSoup(html, 'html.parser')

NameError: name 'html' is not defined

In [13]:
# ANNOTATION:
# Dieser Code demonstriert eine Methode, um:
# - html = urlopen('http://en.wikipedia.org/wiki/Kevin_Bacon')

html = urlopen('http://en.wikipedia.org/wiki/Kevin_Bacon')
bs = BeautifulSoup(html, 'html.parser')

## Inhalte aus: Exercise Getting Data from Arxiv.ipynb
### Zusammenfassung und Annotationen
Dieser Abschnitt enthält relevante Beispiele aus der Datei.

In [14]:
# ANNOTATION:
# Dieser Code demonstriert eine Methode, um:
# - import urllib.request

import urllib.request
from urllib.request import urlopen
from bs4 import BeautifulSoup
import shutil #this one is for saving the PDFs from our computer.
import os

In [15]:
# ANNOTATION:
# Dieser Code demonstriert eine Methode, um:
# - soup = BeautifulSoup(html, "html.parser")

soup = BeautifulSoup(html, "html.parser")
print(soup.prettify())




## Inhalte aus: 1. API The Guardian.ipynb
### Zusammenfassung und Annotationen
Dieser Abschnitt enthält relevante Beispiele aus der Datei.

In [16]:
# ANNOTATION:
# Dieser Code demonstriert eine Methode, um:
# - import requests

import requests
import json
import time  # to pause after each API call 
from __future__ import division
import math
import csv
import matplotlib.pyplot as plt
import pandas as pd  # to see our CSV 

In [17]:
# ANNOTATION:
# Dieser Code demonstriert eine Methode, um:
# - # make request

# make request
r = requests.get(base_url + response_format, params = search_params)

NameError: name 'base_url' is not defined

In [18]:
# ANNOTATION:
# Dieser Code demonstriert eine Methode, um:
# - # set key

# set key
key=  "8ab705db-157a-4270-9fd1-a5499f3f1196"

# set base url
base_url= "https://content.guardianapis.com/search?" #we also need to change this to The Guardian one

# set response format
response_format=".json"

# set search parameters
search_params = {"q": "David Beckham",
                 "from-date" : "2001-01-01", #we need to change the dates format
                 "to-date" : "2001-12-31", 
                 "show-fields" : "body", #this is the full text of the article!
                 "id" : "id",
                 "format" : "json",
                 "api-key": key}    

# make request
r = requests.get(base_url+response_format, params=search_params)
    
# convert to a dictionary
data=json.loads(r.text)
    
# get number of hits
hits = data['response']['pages'] #we need to change this too
print("number of hits: ", str(hits))
    
# get number of pages
pages = hits 
    
# make an empty list where we'll hold all of our docs for every page
all_docs = [] 
    
# now we're ready to loop through the pages
for i in range(pages):
    print("collecting page", str(i))
        
    # set the page parameter
    search_params['page'] = i
        
    # make request
    r = requests.get(base_url+response_format, params=search_params)
    r = requests.get(base_url+response_format, params=search_params)
    if r.status_code == 200:
        # get text and convert to a dictionary
        data=json.loads(r.text)
        
        # get just the docs
        if 'response' in data and 'results' in data['response']: #we need to change this to "results"
            docs = data['response']['results']
        
            # add those docs to the big list
            all_docs = all_docs + docs
    
    #IMPORTANT pause between calls
    time.sleep(1)

number of hits:  286
collecting page 0
collecting page 1
collecting page 2
collecting page 3
collecting page 4
collecting page 5
collecting page 6
collecting page 7
collecting page 8
collecting page 9
collecting page 10
collecting page 11
collecting page 12
collecting page 13
collecting page 14
collecting page 15
collecting page 16
collecting page 17
collecting page 18
collecting page 19
collecting page 20
collecting page 21
collecting page 22
collecting page 23
collecting page 24
collecting page 25
collecting page 26
collecting page 27
collecting page 28
collecting page 29
collecting page 30
collecting page 31
collecting page 32
collecting page 33
collecting page 34
collecting page 35
collecting page 36
collecting page 37
collecting page 38
collecting page 39
collecting page 40
collecting page 41
collecting page 42
collecting page 43
collecting page 44
collecting page 45
collecting page 46
collecting page 47
collecting page 48
collecting page 49
collecting page 50
collecting page 51
c

## Inhalte aus: 4. Merging Dataframes.ipynb
### Zusammenfassung und Annotationen
Dieser Abschnitt enthält relevante Beispiele aus der Datei.

In [19]:
# ANNOTATION:
# Dieser Code demonstriert eine Methode, um:
# - merged_df = pd.merge(metadata, articles, on = 'ID', how = 'outer')

merged_df = pd.merge(metadata, articles, on = 'ID', how = 'outer')

NameError: name 'metadata' is not defined

In [None]:
# ANNOTATION:
# Dieser Code demonstriert eine Methode, um:
# - merged_df

merged_df

In [None]:
# ANNOTATION:
# Dieser Code demonstriert eine Methode, um:
# - final_data = merged_df.drop(['Publisher', 'Subject', 'Language'], axis=1)

final_data = merged_df.drop(['Publisher', 'Subject', 'Language'], axis=1)

## Inhalte aus: 1. Unweighted Sociocentric Networks. Modelling the Social Network of Around the World in 80 Days.ipynb
### Zusammenfassung und Annotationen
Dieser Abschnitt enthält relevante Beispiele aus der Datei.

In [None]:
# ANNOTATION:
# Dieser Code demonstriert eine Methode, um:
# - import networkx as nx

import networkx as nx
import pandas as pd

In [None]:
# ANNOTATION:
# Dieser Code demonstriert eine Methode, um:
# - import matplotlib.pyplot as plt

import matplotlib.pyplot as plt

In [None]:
# ANNOTATION:
# Dieser Code demonstriert eine Methode, um:
# - from networkx.algorithms import community

from networkx.algorithms import community

## Inhalte aus: 2. Weighted Sociocentric Networks..ipynb
### Zusammenfassung und Annotationen
Dieser Abschnitt enthält relevante Beispiele aus der Datei.

In [None]:
# ANNOTATION:
# Dieser Code demonstriert eine Methode, um:
# - import networkx as nx

import networkx as nx
import pandas as pd
import matplotlib.pyplot as plt

In [None]:
# ANNOTATION:
# Dieser Code demonstriert eine Methode, um:
# - from networkx.algorithms import community

from networkx.algorithms import community

In [None]:
# ANNOTATION:
# Dieser Code demonstriert eine Methode, um:
# - nx.draw_networkx_nodes(G, pos, node_size = 700) #we draw the nodes

nx.draw_networkx_nodes(G, pos, node_size = 700) #we draw the nodes
nx.draw_networkx_edges(G, pos, edgelist=elarge, width=2) #we draw the edges
nx.draw_networkx_edges(G, pos, edgelist=esmall, width=2, alpha=0.5, edge_color="b", style="dashed") 

nx.draw_networkx_labels(G, pos) #we add the name of the nodes (characters)
edge_labels = nx.get_edge_attributes(G, "weight") #we add the weight number (times talking)
nx.draw_networkx_edge_labels(G, pos, edge_labels)

plt.rcParams["figure.figsize"] = (30, 20) #to change the size of the figure

 
plt.axis("off")
plt.show()

## Inhalte aus: Ego Centric Networks. .ipynb
### Zusammenfassung und Annotationen
Dieser Abschnitt enthält relevante Beispiele aus der Datei.

In [None]:
# ANNOTATION:
# Dieser Code demonstriert eine Methode, um:
# - import pandas as pd

import pandas as pd
import networkx as nx
import matplotlib.pyplot as plt

In [None]:
# ANNOTATION:
# Dieser Code demonstriert eine Methode, um:
# - #Solution

#Solution

import matplotlib.pyplot as plt

In [None]:
# ANNOTATION:
# Dieser Code demonstriert eine Methode, um:
# - #Solution

#Solution
from networkx.algorithms import community