In [34]:
from bs4 import BeautifulSoup as bfs
import requests

In [35]:
# Ich möchte Daten aus folgender Webseite extrahieren
url = 'https://en.wikipedia.org/wiki/List_of_largest_companies_in_the_United_States_by_revenue'
# 200 ist ein guter Resonanz
page = requests.get(url)
soup = bfs(page.text, 'html')

In [36]:
# Inhalt von der Webseite wird angezeigt
# print(soup)

In [38]:
# Diese Webseite besitzt mehrere Tabellen und muss auf die gewünschte Tabelle eingegrenzt werden
# soup.find('table')

In [39]:
# Ich will nur die Daten von der zweiten Tabelle, deshalb setze ich den Index auf 1
# soup.find_all('table')[1]

In [40]:
# Gewünschte Tabelle mit folgender class anzeigen
# soup.find('table', class_ = 'wikitable sortable')

In [8]:
# Daten zu der Variable table zugeordnet
table = soup.find_all('table')[1]

In [41]:
# Ausgabe der Daten von der Tabelle
# print(table)

In [42]:
# Spaltentitel neuer Variable world_titles zugeordnet und mit table wird auch nur die zweite Tabelle eingegrenzt
world_titles = table.find_all('th')

In [43]:
# Daten werden in einer Liste angezeigt
world_titles

[<th>Rank
 </th>, <th>Name
 </th>, <th>Industry
 </th>, <th>Revenue <br/>(USD millions)
 </th>, <th>Revenue growth
 </th>, <th>Employees
 </th>, <th>Headquarters
 </th>]

In [44]:
# Mit for-Schleife Titelnamen anzeigen und mit strip() wird es lesbarer
world_table_titles = [title.text.strip() for title in world_titles]
print(world_table_titles)

['Rank', 'Name', 'Industry', 'Revenue (USD millions)', 'Revenue growth', 'Employees', 'Headquarters']


In [45]:
# Importiere pandas
import pandas as pd

In [46]:
# Tabellenrahmen erstellen und Titelnamen als Spalten definiert und neuer Variable df zugeordnet
df = pd.DataFrame(columns = world_table_titles)

In [47]:
# Spaltennamen werden angezeigt
df

Unnamed: 0,Rank,Name,Industry,Revenue (USD millions),Revenue growth,Employees,Headquarters


In [48]:
# Tabellenrahmen und Spaltennamen sind erstellt, jetzt fehlen noch die Daten
# Tabellenreihen wird neuer Variable column_data zugeordnet
column_data = table.find_all('tr')

In [49]:
# Mit for-Schleife werden die Daten ausgegeben
# Auch hier werden die Daten in mehreren Listen angezeigt
# td steht für individuelle Daten in einer Tabellenzelle und wird neuer Variable row_data zugeordnet
# Jede TAbellenreihe ist in einer Liste eingetragen
# Mit column_data[1:] wird die erste leere Reihe ausgeklammert
for row in column_data[1:]:
    row_data = row.find_all('td')
    individual_row_data = [data.text.strip() for data in row_data]
    # Die Länge entspricht der Tabellenreihen
    length =len(df)
    # Jetzt für jede Schleife sollen Daten in Tabellenrahmen eingefügt werden
    df.loc[length] = individual_row_data

In [50]:
# Mit Pandas wurde eine Tabellenrahmen erstellt und mit BeautifulSoup wurden Daten aus der Webseite extrahiert und in der leeren Tabelle eingefügt
df

Unnamed: 0,Rank,Name,Industry,Revenue (USD millions),Revenue growth,Employees,Headquarters
0,1,Walmart,Retail,611289,6.7%,2100000,"Bentonville, Arkansas"
1,2,Amazon,Retail and Cloud Computing,513983,9.4%,1540000,"Seattle, Washington"
2,3,Exxon Mobil,Petroleum industry,413680,44.8%,62000,"Spring, Texas"
3,4,Apple,Electronics industry,394328,7.8%,164000,"Cupertino, California"
4,5,UnitedHealth Group,Healthcare,324162,12.7%,400000,"Minnetonka, Minnesota"
5,6,CVS Health,Healthcare,322467,10.4%,259500,"Woonsocket, Rhode Island"
6,7,Berkshire Hathaway,Conglomerate,302089,9.4%,383000,"Omaha, Nebraska"
7,8,Alphabet,Technology,282836,9.8%,156000,"Mountain View, California"
8,9,McKesson Corporation,Health,276711,4.8%,48500,"Irving, Texas"
9,10,Chevron Corporation,Petroleum industry,246252,51.6%,43846,"San Ramon, California"


In [51]:
# Die fertiggestellte Tabelle wird als csv-Datei exportiert
# Mit index = False wird die erste unnötige Spalte entfernt
df.to_csv('path\Companies.csv', index = False)