![logo-_2_%20%281%29.png](attachment:logo-_2_%20%281%29.png)

Beautiful Soup is a Python library for pulling data out of HTML and XML files. It works with your favorite parser to provide idiomatic ways of navigating, searching, and modifying the parse tree

### Importing the packages

- Requests module - allow you to send HTTP requests using Python. With it, you can add content like headers, form data, multipart files, and parameters via simple Python libraries. It also allows you to access the response data of Python

In [3]:
# Load the packages
import requests
from bs4 import BeautifulSoup

### Making a GET request

In [4]:
# Defining the url of the site
base_site = "https://az.wikipedia.org/wiki/Az%C9%99rbaycanda_futbol"

# Making a get request
response = requests.get(base_site)
response.status_code

200

Printing status code is good, response code indicates that the request has succeeded.

Status Code 200 – This is the standard “OK” status code for a successful HTTP request.

In [5]:
# Extracting the HTML
html = response.content

# Checking that the reply is indeed an HTML code by inspecting the first 100 symbols
html[:100]

b'<!DOCTYPE html>\n<html class="client-nojs" lang="az" dir="ltr">\n<head>\n<meta charset="UTF-8"/>\n<title'

In [6]:
html

b'<!DOCTYPE html>\n<html class="client-nojs" lang="az" dir="ltr">\n<head>\n<meta charset="UTF-8"/>\n<title>Az\xc9\x99rbaycanda futbol \xe2\x80\x94 Vikipediya</title>\n<script>document.documentElement.className="client-js";RLCONF={"wgBreakFrames":false,"wgSeparatorTransformTable":[",\\t.",".\\t,"],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"dmy","wgMonthNames":["","yanvar","fevral","mart","aprel","may","iyun","iyul","avqust","sentyabr","oktyabr","noyabr","dekabr"],"wgRequestId":"3c77330b-f8f4-43a4-8d40-0f8c06a83150","wgCSPNonce":false,"wgCanonicalNamespace":"","wgCanonicalSpecialPageName":false,"wgNamespaceNumber":0,"wgPageName":"Az\xc9\x99rbaycanda_futbol","wgTitle":"Az\xc9\x99rbaycanda futbol","wgCurRevisionId":6774849,"wgRevisionId":6774849,"wgArticleId":52127,"wgIsArticle":true,"wgIsRedirect":false,"wgAction":"view","wgUserName":null,"wgUserGroups":["*"],"wgCategories":["Az\xc9\x99rbaycanda futbol","1911-ci ild\xc9\x99 yarananlar","6 iyunda yarananlar"],"wgPageContentLang

### Making the soup

Convert HTML to a BeautifulSoup object. This will allow us to parse out content from the HTML more easily

In [58]:
# Using the default parser as it is included in Python
soup = BeautifulSoup(html, "html.parser")

In [59]:
# The soup variable (BeautifulSoup object) we defined earlier can be seen as representing the whole document
soup

<!DOCTYPE html>

<html class="client-nojs" dir="ltr" lang="az">
<head>
<meta charset="utf-8"/>
<title>Azərbaycanda futbol — Vikipediya</title>
<script>document.documentElement.className="client-js";RLCONF={"wgBreakFrames":false,"wgSeparatorTransformTable":[",\t.",".\t,"],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"dmy","wgMonthNames":["","yanvar","fevral","mart","aprel","may","iyun","iyul","avqust","sentyabr","oktyabr","noyabr","dekabr"],"wgRequestId":"3c77330b-f8f4-43a4-8d40-0f8c06a83150","wgCSPNonce":false,"wgCanonicalNamespace":"","wgCanonicalSpecialPageName":false,"wgNamespaceNumber":0,"wgPageName":"Azərbaycanda_futbol","wgTitle":"Azərbaycanda futbol","wgCurRevisionId":6774849,"wgRevisionId":6774849,"wgArticleId":52127,"wgIsArticle":true,"wgIsRedirect":false,"wgAction":"view","wgUserName":null,"wgUserGroups":["*"],"wgCategories":["Azərbaycanda futbol","1911-ci ildə yarananlar","6 iyunda yarananlar"],"wgPageContentLanguage":"az","wgPageContentModel":"wikitext","wgRelevant

## Kinds of Filters

### A String
The simplest filter is a string. Pass a string to a search method and Beautiful Soup will perform a match against that exact string (tag name). This code finds all the < head > tags in the document:

In [219]:
print(soup.find_all('a'))


[<a id="top"></a>, <a class="mw-jump-link" href="#mw-head">Jump to navigation</a>, <a class="mw-jump-link" href="#searchInput">Jump to search</a>, <a class="new" href="/w/index.php?title=Az%C9%99rbaycan_futbol_klublar%C4%B1&amp;action=edit&amp;redlink=1" title="Azərbaycan futbol klubları (səhifə mövcud deyil)">Azərbaycan futbol klubları</a>, <a href="#Yaranması"><span class="tocnumber">1</span> <span class="toctext">Yaranması</span></a>, <a href="#1937-1948"><span class="tocnumber">2</span> <span class="toctext">1937-1948</span></a>, <a href="#1949-1959"><span class="tocnumber">3</span> <span class="toctext">1949-1959</span></a>, <a href="#1960-1972"><span class="tocnumber">4</span> <span class="toctext">1960-1972</span></a>, <a href='#"Qızıl"_il'><span class="tocnumber">4.1</span> <span class="toctext">"Qızıl" il</span></a>, <a href="#1973-1976"><span class="tocnumber">5</span> <span class="toctext">1973-1976</span></a>, <a href="#1977-1988"><span class="tocnumber">6</span> <span clas

In [220]:
print(soup.find_all('b'))

[]


In [81]:
print(soup.find_all('head'))

[<head>
<meta charset="utf-8"/>
<title>Azərbaycanda futbol — Vikipediya</title>
<script>document.documentElement.className="client-js";RLCONF={"wgBreakFrames":false,"wgSeparatorTransformTable":[",\t.",".\t,"],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"dmy","wgMonthNames":["","yanvar","fevral","mart","aprel","may","iyun","iyul","avqust","sentyabr","oktyabr","noyabr","dekabr"],"wgRequestId":"3c77330b-f8f4-43a4-8d40-0f8c06a83150","wgCSPNonce":false,"wgCanonicalNamespace":"","wgCanonicalSpecialPageName":false,"wgNamespaceNumber":0,"wgPageName":"Azərbaycanda_futbol","wgTitle":"Azərbaycanda futbol","wgCurRevisionId":6774849,"wgRevisionId":6774849,"wgArticleId":52127,"wgIsArticle":true,"wgIsRedirect":false,"wgAction":"view","wgUserName":null,"wgUserGroups":["*"],"wgCategories":["Azərbaycanda futbol","1911-ci ildə yarananlar","6 iyunda yarananlar"],"wgPageContentLanguage":"az","wgPageContentModel":"wikitext","wgRelevantPageName":"Azərbaycanda_futbol","wgRelevantArticleId":52127,"wg

If you pass in a byte string, Beautiful Soup will assume the string is encoded as UTF-8. You can avoid this by passing in a Unicode string instead.

### A regular expression
If you pass in a regular expression object, Beautiful Soup will filter against that regular expression using its search() method. This code finds all the tags whose names start with the letter “b”; in this case, the < body > tag:

In [78]:
import re
for tag in soup.find_all(re.compile("^b")):
    print(tag.name)

body


In [64]:
for tag in soup.find_all(re.compile("^h")):
    print(tag.name)

html
head
h1
h2
h2
h2
h2
h2
h3
h2
h2
h2
h2
h2
h2
h2
h2
h3
h3
h3
h3
h3
h3
h3
h3
h3
h3


This code finds all the tags whose names contain the letter ‘t’:

In [65]:
for tag in soup.find_all(re.compile("t")):
    print(tag.name)
# html
# title

html
meta
title
script
script
script
meta
meta
meta
meta
meta
meta
meta
meta
meta
meta
style
input
table
tbody
tr
th
tr
th
td
tr
th
td
tr
th
td
tr
th
td
table
tbody
tr
th
td
tr
th
td
tr
th
td
table
tbody
tr
th
td
tr
th
td
tr
th
td
table
tbody
tr
th
td
tr
th
td
tr
th
td
table
tbody
tr
th
td
tr
th
td
tr
th
td
tr
th
td
tr
th
td
table
tbody
tr
th
td
tr
th
td
table
tbody
tr
th
tr
td
noscript
input
input
input
input
input
input
footer
script
script
script
script


### A list
If you pass in a list, Beautiful Soup will allow a string match against any item in that list. This code finds all the < a > tags and all the < b > tags:

In [75]:
soup.find_all(["a", "b"])

[<a id="top"></a>,
 <a class="mw-jump-link" href="#mw-head">Jump to navigation</a>,
 <a class="mw-jump-link" href="#searchInput">Jump to search</a>,
 <a class="new" href="/w/index.php?title=Az%C9%99rbaycan_futbol_klublar%C4%B1&amp;action=edit&amp;redlink=1" title="Azərbaycan futbol klubları (səhifə mövcud deyil)">Azərbaycan futbol klubları</a>,
 <a href="#Yaranması"><span class="tocnumber">1</span> <span class="toctext">Yaranması</span></a>,
 <a href="#1937-1948"><span class="tocnumber">2</span> <span class="toctext">1937-1948</span></a>,
 <a href="#1949-1959"><span class="tocnumber">3</span> <span class="toctext">1949-1959</span></a>,
 <a href="#1960-1972"><span class="tocnumber">4</span> <span class="toctext">1960-1972</span></a>,
 <a href='#"Qızıl"_il'><span class="tocnumber">4.1</span> <span class="toctext">"Qızıl" il</span></a>,
 <a href="#1973-1976"><span class="tocnumber">5</span> <span class="toctext">1973-1976</span></a>,
 <a href="#1977-1988"><span class="tocnumber">6</span> 

### True
The value True matches everything it can. This code finds all the tags in the document, but none of the text strings:

In [67]:
for tag in soup.find_all(True):
    print(tag.name)

html
head
meta
title
script
script
link
script
meta
link
meta
meta
meta
meta
meta
meta
meta
meta
meta
link
link
link
link
link
link
link
link
link
link
link
body
div
div
div
a
div
div
h1
span
div
div
div
div
div
a
a
div
div
style
div
a
div
input
div
h2
span
label
ul
li
a
span
span
li
a
span
span
li
a
span
span
li
a
span
span
ul
li
a
span
span
li
a
span
span
li
a
span
span
li
a
span
span
li
a
span
span
li
a
span
span
li
a
span
span
li
a
span
span
h2
span
span
span
span
a
span
a
span
p
a
a
a
p
a
a
a
a
a
p
p
p
a
a
p
p
p
h2
span
span
span
a
span
a
span
p
p
a
h2
span
span
span
a
span
a
span
p
p
p
a
h2
span
span
span
a
span
a
span
p
h3
span
span
span
span
a
span
a
span
p
p
ul
li
a
li
li
a
li
a
a
a
a
a
p
p
h2
span
span
span
a
span
a
span
p
p
a
p
a
a
a
a
a
a
p
a
a
a
a
p
a
a
a
a
a
h2
span
span
span
a
span
a
span
p
h2
span
span
span
a
span
a
span
p
p
h2
span
span
span
a
span
a
span
p
p
a
a
a
a
a
a
h2
span
span
span
span
a
span
a
span
p
a
a
a
a
a
a
a
a
a
p
a
a
a
a
a
a
a
a
a
a
a
a
a
p
a
a
a
h2
spa

## A function
If none of the other matches work for you, define a function that takes an element as its only argument. The function should return True if the argument matches, and False otherwise.

Here’s a function that returns True if a tag defines the “class” attribute but doesn’t define the “id” attribute:

In [69]:
def has_class_but_no_id(tag):
    return tag.has_attr('class') and not tag.has_attr('id')

Pass this function into find_all() and you’ll pick up all the < p > tags:

In [74]:
for tag in soup.find_all(has_class_but_no_id):
    print('\033[1m' + 'The tag is' + '\033[0m',tag.name)
    print(tag)

[1mThe tag is[0m html
<html class="client-nojs" dir="ltr" lang="az">
<head>
<meta charset="utf-8"/>
<title>Azərbaycanda futbol — Vikipediya</title>
<script>document.documentElement.className="client-js";RLCONF={"wgBreakFrames":false,"wgSeparatorTransformTable":[",\t.",".\t,"],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"dmy","wgMonthNames":["","yanvar","fevral","mart","aprel","may","iyun","iyul","avqust","sentyabr","oktyabr","noyabr","dekabr"],"wgRequestId":"3c77330b-f8f4-43a4-8d40-0f8c06a83150","wgCSPNonce":false,"wgCanonicalNamespace":"","wgCanonicalSpecialPageName":false,"wgNamespaceNumber":0,"wgPageName":"Azərbaycanda_futbol","wgTitle":"Azərbaycanda futbol","wgCurRevisionId":6774849,"wgRevisionId":6774849,"wgArticleId":52127,"wgIsArticle":true,"wgIsRedirect":false,"wgAction":"view","wgUserName":null,"wgUserGroups":["*"],"wgCategories":["Azərbaycanda futbol","1911-ci ildə yarananlar","6 iyunda yarananlar"],"wgPageContentLanguage":"az","wgPageContentModel":"wikitext","wgR

If you pass in a function to filter on a specific attribute like href, the argument passed into the function will be the attribute value, not the whole tag. Here’s a function that finds all a tags whose href attribute match a regular expression:

In [222]:
import re
def starts_with_19(href):
    return href and re.compile("^#19").search(href)

soup.find_all(href=starts_with_19)

[<a href="#1937-1948"><span class="tocnumber">2</span> <span class="toctext">1937-1948</span></a>,
 <a href="#1949-1959"><span class="tocnumber">3</span> <span class="toctext">1949-1959</span></a>,
 <a href="#1960-1972"><span class="tocnumber">4</span> <span class="toctext">1960-1972</span></a>,
 <a href="#1973-1976"><span class="tocnumber">5</span> <span class="toctext">1973-1976</span></a>,
 <a href="#1977-1988"><span class="tocnumber">6</span> <span class="toctext">1977-1988</span></a>,
 <a href="#1989-1991"><span class="tocnumber">7</span> <span class="toctext">1989-1991</span></a>,
 <a href="#1992-2006"><span class="tocnumber">8</span> <span class="toctext">1992-2006</span></a>]

Now we’re ready to look at the search methods in detail.

## Some BeautifulSoup methods and arguments
### prettify()

In [223]:
markup = '<html><head><body><a href="http://example.com/">I linked to <i>example.com</i></a>'
example_soup = BeautifulSoup(markup, 'html.parser')
print(example_soup.prettify())

print(example_soup.prettify())

<html>
 <head>
  <body>
   <a href="http://example.com/">
    I linked to
    <i>
     example.com
    </i>
   </a>
  </body>
 </head>
</html>
<html>
 <head>
  <body>
   <a href="http://example.com/">
    I linked to
    <i>
     example.com
    </i>
   </a>
  </body>
 </head>
</html>


In [92]:
print(soup.prettify())

<!DOCTYPE html>
<html class="client-nojs" dir="ltr" lang="az">
 <head>
  <meta charset="utf-8"/>
  <title>
   Azərbaycanda futbol — Vikipediya
  </title>
  <script>
   document.documentElement.className="client-js";RLCONF={"wgBreakFrames":false,"wgSeparatorTransformTable":[",\t.",".\t,"],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"dmy","wgMonthNames":["","yanvar","fevral","mart","aprel","may","iyun","iyul","avqust","sentyabr","oktyabr","noyabr","dekabr"],"wgRequestId":"3c77330b-f8f4-43a4-8d40-0f8c06a83150","wgCSPNonce":false,"wgCanonicalNamespace":"","wgCanonicalSpecialPageName":false,"wgNamespaceNumber":0,"wgPageName":"Azərbaycanda_futbol","wgTitle":"Azərbaycanda futbol","wgCurRevisionId":6774849,"wgRevisionId":6774849,"wgArticleId":52127,"wgIsArticle":true,"wgIsRedirect":false,"wgAction":"view","wgUserName":null,"wgUserGroups":["*"],"wgCategories":["Azərbaycanda futbol","1911-ci ildə yarananlar","6 iyunda yarananlar"],"wgPageContentLanguage":"az","wgPageContentModel":"wiki

You can call prettify() on the top-level BeautifulSoup object, or on any of its Tag objects:

In [224]:
print(soup.li.prettify())

<li class="toclevel-1 tocsection-1">
 <a href="#Yaranması">
  <span class="tocnumber">
   1
  </span>
  <span class="toctext">
   Yaranması
  </span>
 </a>
</li>



Since it adds whitespace (in the form of newlines), prettify() changes the meaning of an HTML document and should not be used to reformat one. The goal of prettify() is to help you visually understand the structure of the documents you work with.

### find()

Using class type, and then class name or class id inside find we get content of the attribute. find() returns only the first such result

soup.find("class", class_="class_name")

soup.find("class", id="class_id")

In [100]:
# This returns as the element with all its contents and nested elements inside
soup.find('head')

<head>
<meta charset="utf-8"/>
<title>Azərbaycanda futbol — Vikipediya</title>
<script>document.documentElement.className="client-js";RLCONF={"wgBreakFrames":false,"wgSeparatorTransformTable":[",\t.",".\t,"],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"dmy","wgMonthNames":["","yanvar","fevral","mart","aprel","may","iyun","iyul","avqust","sentyabr","oktyabr","noyabr","dekabr"],"wgRequestId":"3c77330b-f8f4-43a4-8d40-0f8c06a83150","wgCSPNonce":false,"wgCanonicalNamespace":"","wgCanonicalSpecialPageName":false,"wgNamespaceNumber":0,"wgPageName":"Azərbaycanda_futbol","wgTitle":"Azərbaycanda futbol","wgCurRevisionId":6774849,"wgRevisionId":6774849,"wgArticleId":52127,"wgIsArticle":true,"wgIsRedirect":false,"wgAction":"view","wgUserName":null,"wgUserGroups":["*"],"wgCategories":["Azərbaycanda futbol","1911-ci ildə yarananlar","6 iyunda yarananlar"],"wgPageContentLanguage":"az","wgPageContentModel":"wikitext","wgRelevantPageName":"Azərbaycanda_futbol","wgRelevantArticleId":52127,"wgI

If there is no result it returns None. None is not displayed in IPython unless print()

In [101]:
soup.find('video')

In [102]:
print(soup.find('video'))

None


In [110]:
soup.find("span", class_ = 'toctext')

<span class="toctext">Yaranması</span>

## Extracting the text¶

### .string and .text

To get the text inside the attribute

**.string**

- If the tag has a single string child then the return value is that string
- If the tag has no children or more than one child (it’s not clear what .string should refer to) then the return value is None
- If this tag has one child tag then the return value is the 'string' attribute of the child tag, recursively

**.text**

- Get all the child strings and return concatenated using the given separator

In [113]:
soup.find("span", class_ = 'mw-page-title-main').string

'Azərbaycanda futbol'

In [114]:
soup.find("span", class_ = 'mw-page-title-main').text

'Azərbaycanda futbol'

look at the differnce

In [121]:
soup.find("div", class_ = 'hatnote navigation-not-searchable').string

In [122]:
soup.find("div", class_ = 'hatnote navigation-not-searchable').text

'Həmçinin bax: Azərbaycan futbol klubları'

In [207]:
soup.text

'\n\n\n\nAzərbaycanda futbol — Vikipediya\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n \n\n\nAzərbaycanda futbol\n\nVikipediya, azad ensiklopediya\n\n\n\nJump to navigation\nJump to search\nHəmçinin bax: Azərbaycan futbol klubları\nMündəricat\n\n1 Yaranması\n2 1937-1948\n3 1949-1959\n4 1960-1972\n\n4.1 "Qızıl" il\n\n\n5 1973-1976\n6 1977-1988\n7 1989-1991\n8 1992-2006\n9 Klublar beynəlxalq arenada\n10 Həmçinin bax\n11 Xarici keçidlər\n\n\nYaranması[redaktə | mənbəni redaktə et]\n1911-ci ildə Azərbaycanda ilk futbol komandaları yaranmağa başlayıb. Həmin dövrdə ingilislərin neft yataqlarına meyl etməsi futbolun inkişafına müsbət və mənfi təsirlərini göstərib. Futbolun vətəni İngiltərə olduğundan onların Bakıya gəlməsi yerli əhali arasında da bu idman növünü populyarlaşdırdı. Elə Bakıda ilk futbol komandasının da adı "Britaniya klubu" oldu. Əvvəlcə burada oyunlar keçirən "Britaniya klubu" 1912-ci ildə Gürcüstana yola düşərək ilk beynəlxalq oyununu keçirib. Tbilisidə keç

In [216]:
# This paragraph has many nested elements, with lots of different fragments of text
p = soup.find_all('p')[1]
p

<p><a href="/wiki/1914" title="1914">1914</a>-cü ildə <a class="mw-redirect" href="/wiki/Bak%C4%B1_Futbol_%C4%B0ttifaq%C4%B1" title="Bakı Futbol İttifaqı">Bakı Futbol İttifaqı</a> (BFİ) yaransa da, bu təşkilatın ömrü çox sürməyib. 1917-ci ildə sovet hökuməti qurulandan sonra 20 komandanı birləşdirən BFİ süquta uğrayıb. 1920-ci ildə futbol həyatı Bakıya qayıdıb və ilk şəhər birinciliyinin qalibi "Sokol" olub. 1923-cü ilin yazında komsomolun Zaqafqaziya olimpiadası keçirilib. Tbilisidə düzənlənən yarışa meydan sahiblərilə yanaşı, <a href="/wiki/Bak%C4%B1" title="Bakı">Bakı</a>, <a href="/wiki/Batumi" title="Batumi">Batumi</a>, <a href="/wiki/%C4%B0r%C9%99van" title="İrəvan">İrəvan</a> komandaları da iştirak edib. Bütün görüşlərdə qələbə qazanan bakılılar ilk olimpiadanın qalibi olub. 1925-ci və 1926-cı illərdə də Bakı komandası birinci yeri tutub.
</p>

In [217]:
# .string returns None when there is more than 1 string
p.string

In [215]:
for s in p.strings:
    print(repr(s))

'1914'
'-cü ildə '
'Bakı Futbol İttifaqı'
' (BFİ) yaransa da, bu təşkilatın ömrü çox sürməyib. 1917-ci ildə sovet hökuməti qurulandan sonra 20 komandanı birləşdirən BFİ süquta uğrayıb. 1920-ci ildə futbol həyatı Bakıya qayıdıb və ilk şəhər birinciliyinin qalibi "Sokol" olub. 1923-cü ilin yazında komsomolun Zaqafqaziya olimpiadası keçirilib. Tbilisidə düzənlənən yarışa meydan sahiblərilə yanaşı, '
'Bakı'
', '
'Batumi'
', '
'İrəvan'
' komandaları da iştirak edib. Bütün görüşlərdə qələbə qazanan bakılılar ilk olimpiadanın qalibi olub. 1925-ci və 1926-cı illərdə də Bakı komandası birinci yeri tutub.\n'


In [218]:
# The extra whitespace can be removed by using the .stripped_strings iterator instead
for s in p.stripped_strings:
    print(repr(s))

'1914'
'-cü ildə'
'Bakı Futbol İttifaqı'
'(BFİ) yaransa da, bu təşkilatın ömrü çox sürməyib. 1917-ci ildə sovet hökuməti qurulandan sonra 20 komandanı birləşdirən BFİ süquta uğrayıb. 1920-ci ildə futbol həyatı Bakıya qayıdıb və ilk şəhər birinciliyinin qalibi "Sokol" olub. 1923-cü ilin yazında komsomolun Zaqafqaziya olimpiadası keçirilib. Tbilisidə düzənlənən yarışa meydan sahiblərilə yanaşı,'
'Bakı'
','
'Batumi'
','
'İrəvan'
'komandaları da iştirak edib. Bütün görüşlərdə qələbə qazanan bakılılar ilk olimpiadanın qalibi olub. 1925-ci və 1926-cı illərdə də Bakı komandası birinci yeri tutub.'


### findall()

The find_all() method looks through a tag’s descendants and retrieves all descendants that match your filters inside a list

In [115]:
soup.find_all("span", class_ = 'toctext')

[<span class="toctext">Yaranması</span>,
 <span class="toctext">1937-1948</span>,
 <span class="toctext">1949-1959</span>,
 <span class="toctext">1960-1972</span>,
 <span class="toctext">"Qızıl" il</span>,
 <span class="toctext">1973-1976</span>,
 <span class="toctext">1977-1988</span>,
 <span class="toctext">1989-1991</span>,
 <span class="toctext">1992-2006</span>,
 <span class="toctext">Klublar beynəlxalq arenada</span>,
 <span class="toctext">Həmçinin bax</span>,
 <span class="toctext">Xarici keçidlər</span>]

In [119]:
# Can you get only texts with .string?
soup.find_all("span", class_ = 'toctext').string

[<span class="toctext">Yaranması</span>,
 <span class="toctext">1937-1948</span>,
 <span class="toctext">1949-1959</span>,
 <span class="toctext">1960-1972</span>,
 <span class="toctext">"Qızıl" il</span>,
 <span class="toctext">1973-1976</span>,
 <span class="toctext">1977-1988</span>,
 <span class="toctext">1989-1991</span>,
 <span class="toctext">1992-2006</span>,
 <span class="toctext">Klublar beynəlxalq arenada</span>,
 <span class="toctext">Həmçinin bax</span>,
 <span class="toctext">Xarici keçidlər</span>]

In [120]:
# sonuncunu qaytarin
soup.find_all("span", class_ = 'toctext')

'Xarici keçidlər'

We use the dictionary approach and can use the or .get() method to find the attributes in the class

In [125]:
links = soup.find_all('a')
links

[<a id="top"></a>,
 <a class="mw-jump-link" href="#mw-head">Jump to navigation</a>,
 <a class="mw-jump-link" href="#searchInput">Jump to search</a>,
 <a class="new" href="/w/index.php?title=Az%C9%99rbaycan_futbol_klublar%C4%B1&amp;action=edit&amp;redlink=1" title="Azərbaycan futbol klubları (səhifə mövcud deyil)">Azərbaycan futbol klubları</a>,
 <a href="#Yaranması"><span class="tocnumber">1</span> <span class="toctext">Yaranması</span></a>,
 <a href="#1937-1948"><span class="tocnumber">2</span> <span class="toctext">1937-1948</span></a>,
 <a href="#1949-1959"><span class="tocnumber">3</span> <span class="toctext">1949-1959</span></a>,
 <a href="#1960-1972"><span class="tocnumber">4</span> <span class="toctext">1960-1972</span></a>,
 <a href='#"Qızıl"_il'><span class="tocnumber">4.1</span> <span class="toctext">"Qızıl" il</span></a>,
 <a href="#1973-1976"><span class="tocnumber">5</span> <span class="toctext">1973-1976</span></a>,
 <a href="#1977-1988"><span class="tocnumber">6</span> 

In [126]:
# How many links are on the page?
len(links)

351

In [226]:
# Let's choose one link to manipulate


'https://www.mediawiki.org/'

In [None]:
# Get the link's text


In [None]:
# Extract the link's URL


In [150]:
# Get all the links' texts

None
#mw-head
#searchInput
/w/index.php?title=Az%C9%99rbaycan_futbol_klublar%C4%B1&action=edit&redlink=1
#Yaranması
#1937-1948
#1949-1959
#1960-1972
#"Qızıl"_il
#1973-1976
#1977-1988
#1989-1991
#1992-2006
#Klublar_beynəlxalq_arenada
#Həmçinin_bax
#Xarici_keçidlər
/w/index.php?title=Az%C9%99rbaycanda_futbol&veaction=edit&section=1
/w/index.php?title=Az%C9%99rbaycanda_futbol&action=edit&section=1
/wiki/1911
/wiki/Az%C9%99rbaycan
/wiki/G%C3%BCrc%C3%BCstan
/wiki/1914
/wiki/Bak%C4%B1_Futbol_%C4%B0ttifaq%C4%B1
/wiki/Bak%C4%B1
/wiki/Batumi
/wiki/%C4%B0r%C9%99van
/wiki/Almaniya
/wiki/%C4%B0ngilt%C9%99r%C9%99
/w/index.php?title=Az%C9%99rbaycanda_futbol&veaction=edit&section=2
/w/index.php?title=Az%C9%99rbaycanda_futbol&action=edit&section=2
/wiki/%C6%8Fl%C9%99kb%C9%99r_M%C9%99mm%C9%99dov
/w/index.php?title=Az%C9%99rbaycanda_futbol&veaction=edit&section=3
/w/index.php?title=Az%C9%99rbaycanda_futbol&action=edit&section=3
/wiki/Sankt-Peterburq
/w/index.php?title=Az%C9%99rbaycanda_futbol&veaction=e

## Searching by attributes

### The name argument

Pass in a value for name and you’ll tell Beautiful Soup to only consider tags with certain names. Text strings will be ignored, as will tags whose names that don’t match.

This is the simplest usage:

In [129]:
soup.find_all("title")

[<title>Azərbaycanda futbol — Vikipediya</title>]

Recall from Kinds of filters that the value to name can be a string, a regular expression, a list, a function, or the value True.

### The keyword arguments

Any argument that’s not recognized will be turned into a filter on one of a tag’s attributes. If you pass in a value for an argument called id, Beautiful Soup will filter against each tag’s ‘id’ attribute:

In [130]:
soup.find('div', id = 'siteSub')

<div class="noprint" id="siteSub">Vikipediya, azad ensiklopediya</div>

If you pass in a value for href, Beautiful Soup will filter against each tag’s ‘href’ attribute:

In [135]:
soup.find_all(href=re.compile("^https"))

[<link href="https://creativecommons.org/licenses/by-sa/3.0/" rel="license"/>,
 <link href="https://az.wikipedia.org/wiki/Az%C9%99rbaycanda_futbol" rel="canonical"/>,
 <a class="external text" href="https://apa.az/az/doyus-novleri/-57972" rel="nofollow">Araşdırma: “Azərbaycandakı 100-dək futbol arenasının əksəriyyəti yenidən qurulmalıdır”</a>,
 <a class="external text" href="https://web.archive.org/web/20131219174651/http://serqqapisi.az/index.php/idman/1622-nakhdzh-van-n-peshaekar-futbolu-oezunae-zhaytar-l-r" rel="nofollow">Arxivləşdirilib</a>,
 <a dir="ltr" href="https://az.wikipedia.org/w/index.php?title=Azərbaycanda_futbol&amp;oldid=6774849">https://az.wikipedia.org/w/index.php?title=Azərbaycanda_futbol&amp;oldid=6774849</a>,
 <a accesskey="g" href="https://www.wikidata.org/wiki/Special:EntityPage/Q210449" title="Bağlanan məlumatların saxlanması elementinə keçid [g]"><span>Vikiverilənlər elementi</span></a>,
 <a href="https://commons.wikimedia.org/wiki/Category:Association_football

You can filter an attribute based on a string, a regular expression, a list, a function, or the value True.

This code finds all tags whose id attribute has a value, regardless of what the value is:

In [152]:
soup.find_all(id=True)

[<div class="noprint" id="mw-page-base"></div>,
 <div class="noprint" id="mw-head-base"></div>,
 <div class="mw-body" id="content" role="main">
 <a id="top"></a>
 <div id="siteNotice"><!-- CentralNotice --><!--esi <esi:include src="/esitest-fa8a495983347898/content" /> --> </div>
 <div class="mw-indicators">
 </div>
 <h1 class="firstHeading mw-first-heading" id="firstHeading"><span class="mw-page-title-main">Azərbaycanda futbol</span></h1>
 <div class="vector-body" id="bodyContent">
 <div class="noprint" id="siteSub">Vikipediya, azad ensiklopediya</div>
 <div id="contentSub"></div>
 <div id="contentSub2"></div>
 <div id="jump-to-nav"></div>
 <a class="mw-jump-link" href="#mw-head">Jump to navigation</a>
 <a class="mw-jump-link" href="#searchInput">Jump to search</a>
 <div class="mw-body-content mw-content-ltr" dir="ltr" id="mw-content-text" lang="az"><div class="mw-parser-output"><style data-mw-deduplicate="TemplateStyles:r6248307">.mw-parser-output .hatnote{font-style:italic}.mw-parse

You can filter multiple attributes at once by passing in more than one keyword argument:

In [164]:
soup.find_all('a', class_ = 'mw-jump-link')

[<a class="mw-jump-link" href="#mw-head">Jump to navigation</a>,
 <a class="mw-jump-link" href="#searchInput">Jump to search</a>]

You can use these attributes in searches by putting them into a dictionary and passing the dictionary into find_all() as the attrs argument:

In [162]:
links = soup.find_all('a', attrs={'href': re.compile("^https")})
for link in links:
    print(link.get('href'))

https://apa.az/az/doyus-novleri/-57972
https://web.archive.org/web/20131219174651/http://serqqapisi.az/index.php/idman/1622-nakhdzh-van-n-peshaekar-futbolu-oezunae-zhaytar-l-r
https://az.wikipedia.org/w/index.php?title=Azərbaycanda_futbol&oldid=6774849
https://www.wikidata.org/wiki/Special:EntityPage/Q210449
https://commons.wikimedia.org/wiki/Category:Association_football_in_Azerbaijan
https://ar.wikipedia.org/wiki/%D9%83%D8%B1%D8%A9_%D8%A7%D9%84%D9%82%D8%AF%D9%85_%D9%81%D9%8A_%D8%A3%D8%B0%D8%B1%D8%A8%D9%8A%D8%AC%D8%A7%D9%86
https://bg.wikipedia.org/wiki/%D0%A4%D1%83%D1%82%D0%B1%D0%BE%D0%BB_%D0%B2_%D0%90%D0%B7%D0%B5%D1%80%D0%B1%D0%B0%D0%B9%D0%B4%D0%B6%D0%B0%D0%BD
https://bn.wikipedia.org/wiki/%E0%A6%86%E0%A6%9C%E0%A6%BE%E0%A6%B0%E0%A6%AC%E0%A6%BE%E0%A6%87%E0%A6%9C%E0%A6%BE%E0%A6%A8%E0%A7%87_%E0%A6%AB%E0%A7%81%E0%A6%9F%E0%A6%AC%E0%A6%B2
https://ca.wikipedia.org/wiki/Futbol_a_l%27Azerbaidjan
https://ckb.wikipedia.org/wiki/%D8%AA%DB%86%D9%BE%DB%8C_%D9%BE%DB%8E_%D9%84%DB%95_%D8%A6%D8%A7%D8

In [166]:
soup.find('a', class_ = 'mw-jump-link', href = '#mw-head').string

'Jump to navigation'

## The string argument
With string you can search for strings instead of tags. As with name and the keyword arguments, you can pass in a string, a regular expression, a list, a function, or the value True. Here are some examples:

In [228]:
# soup.find_all(string="Azərbaycanda futbol")

soup.find_all(string=["Azərbaycanda", "Yaranması"])

# soup.find_all(string=re.compile("Azərbaycan"))

# def is_the_only_string_within_a_tag(s):
#     """Return True if this string is the only child of its parent tag."""
#     return (s.string == 'Azərbaycanda futbol')

# soup.find_all(string=is_the_only_string_within_a_tag)

['Yaranması', 'Yaranması', 'Azərbaycanda']

Although string is for finding strings, you can combine it with arguments that find tags: Beautiful Soup will find all tags whose .string matches your value for string. This code finds the < p > tags whose .string contains “Azərbaycan futbolu”:

In [184]:
soup.find_all("p", string=re.compile("Azərbaycan futbolu"))

[<p>1922-ci ildən SSRİ birincilikləri şəhərlərin yığma komandalarının iştirakıyla keçirilirdi. 1937-ci ildən isə qərara alındı ki, çempionat klub komandalarının iştirakıyla təşkil edilsin. Həmin vaxt Azərbaycanda bir neçə sahənin təmsilçisi olsa da, neft sahəsi sanki unudulmuşdu. Halbuki həmin dövrdə Bakı artıq neft şəhəri kimi şöhrət qazanmışdı. Buna görə də "qara qızıl" sahəsində çalışanlar tezliklə futbol komandası yaratdılar. Ad üzərində də çox fikirləşmək lazım gəlmədi. Elə öz adlarını da komandaya verdilər. Amma həmin dövrdə rus dili daha işlək olduğundan komanda əvvəlcə "Neftyannik" adlandırıldı. Komandanın geyimində və emblemində də onun neftçilərə məxsus olduğunu bildirən nişanələr əks olundu. Emblemdə neft buruğunun fonunda kiril əlifbasının "H" hərfi "Neftyannik" sözünün birinci hərfi idi. Təbii ki, "qara qızıl"ın da rəngi formanın əsasını təşkil etdi. Həmin dövrdə neftlə bərabər "ağ qızıl" adlandırılan pambıq da Azərbaycanın şöhrətlənməsində neftdən az rol oynamadığından qə

### The limit argument


find_all() returns all the tags and strings that match your filters. This can take a while if the document is large. If you don’t need all the results, you can pass in a number for limit. This works just like the LIMIT keyword in SQL. It tells Beautiful Soup to stop gathering results after it’s found a certain number.

There are three links in the “three sisters” document, but this code only finds the first two:

In [206]:
soup.find_all("a", limit=2)

[<a id="top"></a>,
 <a class="mw-jump-link" href="#mw-head">Jump to navigation</a>]