# Web Scraping with Python

## What is Web Scraping?
Web scraping is a technique to automatically access and extract large amounts of information from a website, which can save a huge amount of time and effort. In this tutorial, you will learn how to automatically extract useful information from a website using Python.

## Why Web Scraping?
- **Content Aggregation**: Web scraping is used to collect a large amount of data from websites and aggregate it into one location. For example, you can scrape the latest news from various news websites and display them in one place. 
- **Market Research**: Web scraping is used to collect data from various websites related to a particular product or service. This data can be used to analyze the market and make informed decisions.
- **Price Comparison**: Web scraping is used to collect price data from various e-commerce websites. This data can be used to compare prices and find the best deals.
- **Job Hunting**: Web scraping is used to collect job postings from various job websites. This data can be used to find job opportunities that match your skills and experience.
- **Social Media Monitoring**: Web scraping is used to collect data from social media websites. This data can be used to monitor trends, analyze user behavior, and track the performance of social media campaigns.
- **Academic Research**: Web scraping is used to collect data from academic websites. This data can be used to analyze research trends, track citations, and find collaborators.
- **Weather Forecasting**: Web scraping is used to collect weather data from various websites. This data can be used to create accurate weather forecasts and alerts.

## Web Scraping Tools
There are many tools available for web scraping, but Python is one of the most popular and widely used programming languages for web scraping. Python has many libraries that make web scraping easy and efficient. Some of the popular libraries for web scraping in Python are:
- **Beautiful Soup**: Beautiful Soup is a Python library for pulling data out of HTML and XML files. It provides simple methods and Pythonic idioms for navigating, searching, and modifying the parse tree.
- **Requests**: Requests is a Python library for sending HTTP requests. It allows you to send HTTP requests and get responses from web servers.
- **Scrapy**: Scrapy is a Python framework for web scraping. It provides a powerful and flexible set of tools for extracting data from websites.
- **Selenium**: Selenium is a web testing library. It is used to automate web browsers and simulate user interactions.
- **Pandas**: Pandas is a Python library for data manipulation and analysis. It provides data structures and functions for working with structured data.
- **NumPy**: NumPy is a Python library for numerical computing. It provides data structures and functions for working with arrays and matrices.
- **Matplotlib**: Matplotlib is a Python library for data visualization. It provides functions for creating plots, charts, and graphs.
- **Seaborn**: Seaborn is a Python library for data visualization. It provides functions for creating statistical graphics.
- **Plotly**: Plotly is a Python library for data visualization. It provides functions for creating interactive plots and dashboards.

## Web Scraping Ethics
Web scraping is a powerful tool, but it should be used responsibly and ethically. Here are some guidelines to follow when web scraping:
- **Respect Robots.txt**: Robots.txt is a file that tells web crawlers which pages or files they can or cannot access on a website. Make sure to check the robots.txt file of a website before scraping it.
- **Do Not Overload Servers**: Do not send too many requests to a website in a short period of time. This can overload the server and cause it to crash. Use a delay between requests to avoid this.
- **Do Not Violate Terms of Service**: Make sure to read and understand the terms of service of a website before scraping it. Do not violate the terms of service by scraping a website that prohibits it.
- **Do Not Steal Content**: Do not scrape copyrighted content from a website without permission. Make sure to respect the intellectual property rights of the website owner.
- **Do Not Misrepresent Yourself**: Do not pretend to be someone else when scraping a website. Make sure to identify yourself and your intentions when scraping a website.
- **Do Not Use Scraped Data for Illegal Activities**: Do not use scraped data for illegal activities, such as spamming, phishing, or hacking. Make sure to use scraped data responsibly and ethically.
- **Do Not Share Scraped Data Without Permission**: Do not share scraped data with others without permission. Make sure to respect the privacy and security of the data you scrape.
- **Do Not Use Scraped Data for Commercial Purposes**: Do not use scraped data for commercial purposes without permission. Make sure to respect the rights of the website owner and the data subjects.
- **Do Not Use Scraped Data for Malicious Purposes**: Do not use scraped data for malicious purposes, such as identity theft, fraud, or harassment. Make sure to use scraped data for legitimate purposes only.
- **Do Not Use Scraped Data to Violate Privacy**: Do not use scraped data to violate the privacy of individuals. Make sure to respect the privacy and security of the data you scrape.
- **Do Not Use Scraped Data to Discriminate**: Do not use scraped data to discriminate against individuals

## Web Scraping With Pandas
Pandas is a powerful library for data manipulation and analysis in Python. It provides data structures and functions for working with structured data. In this tutorial, you will learn how to use Pandas to scrape data from a website and analyze it. 

### Step 1: Install Pandas

In [1]:
!pip install pandas



### Step 2: Import Pandas

In [2]:
import pandas as pd

### Step 3: Scrape Data From a Website

In [3]:
url = 'https://en.wikipedia.org/wiki/List_of_countries_by_population_(United_Nations)'
tables = pd.read_html(url)

### Step 4: Analyze the Data

In [6]:
len(tables)

2

In [4]:
df = tables[0]
df.head()

Unnamed: 0,Location,Population (1 July 2022),Population (1 July 2023),Change,UN Continental Region[1],UN Statistical Subregion[1]
0,World,8021407192,8091734930,+0.88%,,
1,India,1425423212,1438069596,+0.89%,Asia,Southern Asia
2,China[a],1425179569,1422584933,−0.18%,Asia,Eastern Asia
3,United States,341534046,343477335,+0.57%,Americas,Northern America
4,Indonesia,276830529,278190067,+0.49%,Asia,South-eastern Asia


In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 238 entries, 0 to 237
Data columns (total 6 columns):
 #   Column                       Non-Null Count  Dtype 
---  ------                       --------------  ----- 
 0   Location                     238 non-null    object
 1   Population (1 July 2022)     238 non-null    int64 
 2   Population (1 July 2023)     238 non-null    int64 
 3   Change                       238 non-null    object
 4   UN Continental Region[1]     237 non-null    object
 5   UN Statistical Subregion[1]  237 non-null    object
dtypes: int64(2), object(4)
memory usage: 11.3+ KB


## Step 5: Save the Data

In [None]:
df.to_csv('countries_population.csv', index=False)

## Conclusion
In this tutorial, you learned how to use Pandas to scrape data from a website and analyze it. Pandas is a powerful library for data manipulation and analysis in Python. It provides data structures and functions for working with structured data. You can use Pandas to scrape data from websites, clean and preprocess the data, and analyze it.


## Interesting 
Copy clipboard from a website and paste it in a pandas dataframe :)

In [19]:
df2 = pd.read_clipboard()

In [20]:
x = df2.head() # Display the first 5 rows from clipboard :))))

Unnamed: 0,Name,Position,Office,Age,Start date,Salary
0,Airi Satou,Accountant,Tokyo,33,2008-11-28,"$162,700"
1,Angelica Ramos,Chief Executive Officer (CEO),London,47,2009-10-09,"$1,200,000"
2,Ashton Cox,Junior Technical Author,San Francisco,66,2009-01-12,"$86,000"
3,Bradley Greer,Software Engineer,London,41,2012-10-13,"$132,000"
4,Brenden Wagner,Software Engineer,San Francisco,28,2011-06-07,"$206,850"


In [None]:
## Read HTML Tags

In [21]:
from bs4 import BeautifulSoup
import requests

In [22]:
url = 'http://0.0.0.0:8000/new.html'
response = requests.get(url)
response.content



b'<html lang="tr" dir="ltr">\n<head>\n    <title>Day 10</title>\n</head>\n\n<body>\n    <marquee><span style="color: red; ">Welcome to Day 10</span></marquee>\n    <marquee direction=right><span style="color: blue; ">Welcome to Day 10</span></marquee>\n    <p></p>\n    <a href=https://cnn.com target=blank>CNN News</a>\n    <h1>Day 10</h1>\n    <p>Today is the day 10 of 100 days of code challenge.</p>\n\n    <p>Today I learned about marquee tag in HTML. It is used to scroll the text or image horizontally or vertically.</p>\n\n    <p>\n        <pre>\nNe hasta bekler sabah\xc4\xb1,\nNe taze \xc3\xb6l\xc3\xbcy\xc3\xbc mezar.\nNe de \xc5\x9feytan, bir g\xc3\xbcnah\xc4\xb1,\nSeni bekledi\xc4\x9fim kadar.\n\nGe\xc3\xa7ti istemem gelmeni,\nYoklu\xc4\x9funda buldum seni;\nB\xc4\xb1rak vehmimde g\xc3\xb6lgeni\nGelme, art\xc4\xb1k neye yarar?\n\nNecip Faz\xc4\xb1l K\xc4\xb1sak\xc3\xbcrek\n    </pre>\n    </p>\n</body>\n</html>'

In [31]:

soup = BeautifulSoup(response.content, 'html.parser')
print(soup.prettify)

<bound method Tag.prettify of <html dir="ltr" lang="tr">
<head>
<title>Day 10</title>
</head>
<body>
<marquee><span style="color: red; ">Welcome to Day 10</span></marquee>
<marquee direction="right"><span style="color: blue; ">Welcome to Day 10</span></marquee>
<p></p>
<a href="https://cnn.com" target="blank">CNN News</a>
<h1>Day 10</h1>
<p>Today is the day 10 of 100 days of code challenge.</p>
<p>Today I learned about marquee tag in HTML. It is used to scroll the text or image horizontally or vertically.</p>
<p>
<pre>
Ne hasta bekler sabahı,
Ne taze ölüyü mezar.
Ne de şeytan, bir günahı,
Seni beklediğim kadar.

Geçti istemem gelmeni,
Yokluğunda buldum seni;
Bırak vehmimde gölgeni
Gelme, artık neye yarar?

Necip Fazıl Kısakürek
    </pre>
</p>
</body>
</html>>


In [25]:
soup.title

<title>Day 10</title>

In [28]:
len(soup.body)

17

In [37]:
poem = soup.find('pre').text
poem

'\nNe hasta bekler sabahı,\nNe taze ölüyü mezar.\nNe de şeytan, bir günahı,\nSeni beklediğim kadar.\n\nGeçti istemem gelmeni,\nYokluğunda buldum seni;\nBırak vehmimde gölgeni\nGelme, artık neye yarar?\n\nNecip Fazıl Kısakürek\n    '

In [38]:
page = requests.get('https://www.karar.com/yazarlar/zafer-acar/verilerimiz-ne-kadar-guvende-1588225')

In [39]:
soup = BeautifulSoup(page.content, 'html.parser')

In [40]:
print(soup.prettify())

<!DOCTYPE html>
<html lang="tr">
 <head>
  <meta charset="utf-8"/>
  <meta content="IE=edge" http-equiv="X-UA-Compatible"/>
  <meta content="width=device-width, initial-scale=1" name="viewport"/>
  <title>
   Verilerimiz ne kadar güvende? - Zafer Acar
  </title>
  <meta content="Florida Eyaleti’nin Riviera isimli şehrinde polis istasyonuna bir email geldi. Bu emailin ekinde bir dosya vardı ve polis istasyonunda emaillere bakan..." name="description"/>
  <link href="https://www.karar.com/yazarlar/zafer-acar/verilerimiz-ne-kadar-guvende-1588225" rel="canonical"/>
  <link href="https://www.karar.com/amp/yazarlar/zafer-acar/verilerimiz-ne-kadar-guvende-1588225" rel="amphtml"/>
  <meta content="article" property="og:type"/>
  <meta content="KARAR" property="og:site_name"/>
  <meta content="https://www.karar.com/yazarlar/zafer-acar/verilerimiz-ne-kadar-guvende-1588225" property="og:url"/>
  <meta content="Verilerimiz ne kadar güvende? - Zafer Acar" property="og:title"/>
  <meta content="Flor

In [44]:
soup.select('h1.content-title')[0].text

'Verilerimiz ne kadar güvende?'

In [45]:
soup.select('article.article-content')[0].text

'\n\nFlorida Eyaleti’nin Riviera isimli şehrinde polis istasyonuna bir email geldi. Bu emailin ekinde bir dosya vardı ve polis istasyonunda emaillere bakan bir hanım tarafından açıldı. Olanlar işte tam bu sırada oldu ve polis istasyonunun ağından bütün belediye ve devlet kurumlarının bilgisayarlarındaki veriler fidye yazılımı ile şifrelendi ve bir daha açılmadı. Belediye Meclisi defalarca toplandı ve sonunda hackerlara 600 bin dolar vermeye razı oldu.\xa0Aynı olay başka belediyelerin de başına gelmişti lakin onlar ödeme yapmayı reddettiler ve verileri bir kez daha yerine koyamadılar ve yedekleri de yoktu. Hackerların istediği fidyeyi ödeselerdi bu işten bir kaç yüz bin dolar ile kurtulacaklardı ve eski verilerine kavuşacaklardı. Ancak suçlulara ödeme yapmak onları suç işlemeleri için ödüllendirmek olacağı için ödeme yapmadılar ve verileri bulabilmek için veya yeniden girmek için milyonlarca dolar ödedikleri halde bir sonuca varamadılar. Hala bir çok devlet verisi kayıp ve işlerini yapm

## All articles from a page

In [50]:
page = requests.get('https://www.karar.com/yazarlar/zafer-acar')
soup = BeautifulSoup(page.content, 'html.parser')

article_links = soup.find_all('article', {'class': 'item box-shadow'})
article_links

[<article class="item box-shadow">
 <a href="/yazarlar/zafer-acar/engellilerin-umudu-yapay-zeka-1590090">
 <h3>Engellilerin umudu yapay zeka</h3>
 <p>Yapay zeka her alanda büyük değişimler ve gelişimler vaad ediyor. Almanya’da yapılan yeni bir araştırma, görme engelli vatandaşlarımızın...</p>
 </a>
 <time datetime="2021-07-19 00:23:00">19.07.2021</time>
 </article>,
 <article class="item box-shadow">
 <a href="/yazarlar/zafer-acar/kuantum-yapay-zeka-1590019">
 <h3>Kuantum yapay zeka</h3>
 <p>Teknolojik gelişmeler baş döndürücü hızla ilerliyor. Önümüzdeki 30 yıl yapay zeka yılı olacak derken, kuantum bilgisayarlar büyük bir ilerleme...</p>
 </a>
 <time datetime="2021-07-12 00:06:00">12.07.2021</time>
 </article>,
 <article class="item box-shadow">
 <a href="/yazarlar/zafer-acar/astronot-001-1589950">
 <h3>Astronot 001</h3>
 <p>Uzay çalışmaları ve uçuşları küçüklüğümden beri hep ilgimi çekmiştir. Özellikle son 12 yıldır nerede bir astronomi etkinliği olursa,...</p>
 </a>
 <time datetime=

In [59]:
z_articles = []
z_titles = []
web_site = 'https://www.karar.com'
for article in article_links:
    z_article = web_site+article.select('a')[0]['href']
    z_title = article.select('h3')[0].text
    
    print(z_title)
    print(z_article)
    
    
    sub_page = requests.get(z_article)
    sub_soup = BeautifulSoup(sub_page.content, 'html.parser')
    z_sub_article = sub_soup.select('article.article-content')[0].text
    print(z_sub_article)
    
    
    z_titles.append(z_title)
    z_articles.append(z_sub_article)
    
    



    

Engellilerin umudu yapay zeka
https://www.karar.com/yazarlar/zafer-acar/engellilerin-umudu-yapay-zeka-1590090


Yapay zeka her alanda büyük değişimler ve gelişimler vaad ediyor. Almanya’da yapılan yeni bir araştırma, görme engelli vatandaşlarımızın gerçek dünyada gezinmelerine yardımcı olmak için GPU ile çalışan, taşınabilir bir sistem geliştirdi. Daha önce de yapay zeka ile görme engelli vatandaşlarımızın belirlenen ve işaretlenen yollarda rahatça koşmaları sağlanmıştı. Bu kez sırtınızda taşıyacağınız bir laptop ve gözlüğünüze monte edebileceğiniz bir kamera ile normal insan gibi gezmek, görmek, karşıdan gelen arkadaşlarınızı tanımak ve selam vermek artık problem olmaktan çıkacak.
Ülkemizde maalesef fiziksel ve zihinsel özürlü çok sayıda vatandaşımız var. Bunların en zoru muhtemelen görme ve işitme. Tekerlekli sandalyeye mahkum olan veya bir tekerlekli sandalye bile bulamayan çok sayıda engelli vatandaşımız da var. Devletimiz engelli vatandaşlarımıza bir miktar sahip çıksa da, özürlü 

In [60]:
df = pd.DataFrame({'Title': z_titles, 'Article': z_articles})
df.head()


Unnamed: 0,Title,Article
0,Engellilerin umudu yapay zeka,\n\nYapay zeka her alanda büyük değişimler ve ...
1,Kuantum yapay zeka,\n\nTeknolojik gelişmeler baş döndürücü hızla ...
2,Astronot 001,\n\nUzay çalışmaları ve uçuşları küçüklüğümden...
3,Çin’in uzay programı tam gaz,\n\nUzay çalışmalarında ne kadar ileride iseni...
4,Yapay zeka ile çip tasarımı,"\n\nGeçtiğimiz hafta Google, bilgisayar çipler..."


In [61]:
df.sample(5)

Unnamed: 0,Title,Article
9,Yapay zeka öğrenmek hiç bu kadar kolay olmamıştı,\n\nSon zamanlarda yapay zeka öğrenmek isteyen...
14,Yapay zekâyı ne yapmalı?,\n\nSon bir kaç gündür Konya’da iş insanları i...
13,Çocuklar için yapay zekâ,"\n\nSon 2 yıldır ilköğretim okullarında, lisel..."
8,Kariyerinize yapay zekayı ekleyin,\n\nYapay zeka her alanda ciddi ilerlemeler ka...
5,Venüs’ün iki ziyaretçisi,"\n\nGeçtiğimiz hafta NASA, atmosferini ve jeol..."


In [62]:
df.shape

(48, 2)

In [63]:
df.Article = df.Article.str.replace('\n', '')
df

Unnamed: 0,Title,Article
0,Engellilerin umudu yapay zeka,Yapay zeka her alanda büyük değişimler ve geli...
1,Kuantum yapay zeka,Teknolojik gelişmeler baş döndürücü hızla iler...
2,Astronot 001,Uzay çalışmaları ve uçuşları küçüklüğümden ber...
3,Çin’in uzay programı tam gaz,"Uzay çalışmalarında ne kadar ileride iseniz, b..."
4,Yapay zeka ile çip tasarımı,"Geçtiğimiz hafta Google, bilgisayar çiplerini ..."
5,Venüs’ün iki ziyaretçisi,"Geçtiğimiz hafta NASA, atmosferini ve jeolojik..."
6,Yapay zeka ile gerçekçi oyun grafikleri,"Yıllar yıllar önce, daha bilgisayarlarımız yok..."
7,Yapay zeka iş dünyasını derinden sarsıyor,"Yapay zeka (AI) teknolojisi, tüm iş sektörleri..."
8,Kariyerinize yapay zekayı ekleyin,Yapay zeka her alanda ciddi ilerlemeler kaydet...
9,Yapay zeka öğrenmek hiç bu kadar kolay olmamıştı,Son zamanlarda yapay zeka öğrenmek isteyen yüz...


## Selenium
Selenium is a web testing library. It is used to automate web browsers and simulate user interactions. In this tutorial, you will learn how to use Selenium to scrape data from a website.

### Step 1: Install Selenium
```python
!pip install selenium
```

### Step 2: Download WebDriver
You need to download a WebDriver for the web browser you want to automate. You can download the WebDriver from the following links:
- Chrome: https://sites.google.com/a/chromium.org/chromedriver/

### Step 3: Import Selenium
```python
from selenium import webdriver
```

### Step 4: Create a WebDriver
```python
driver = webdriver.Chrome('path/to/chromedriver')
```

### Step 5: Scrape Data From a Website
```python
url = 'https://www.google.com'
driver.get(url)
```

### Step 6: Find Elements
```python
element = driver.find_element_by_name('q')
element.send_keys('Python')
element.submit()
```

### Step 7: Extract Data
```python
results = driver.find_elements_by_css_selector('h3')
for result in results:
    print(result.text)
```

### Step 8: Close the WebDriver
```python
driver.quit()
```
