# Tuotteiden hintojen seuraaminen helposti: Python "Web-Scraping" fiksulle ostajalle

### Ongelma: Tuotteen hinnan seuraaminen useilla verkkosivustoilla voi olla työlästä ja aikaa vievää tehtävää. Vaikka asettaisin muistutuksia tai käyttäisin hintaseurantasivustoja, on mahdollista, että saatan ohittaa täydellisen hetken ostaa tuote.

### Ratkaisu: Tämä ohjelma käyttää web-kaavintaa automatisoidakseen tuotteen hinnan tarkistusprosessin verkkosivustolla ja lähettää sähköpostiini hälytyksen, kun hinta laskee tietyn kynnyksen alle. Ohjelma säästää aikaa, vaivaa ja varmistaa, että en koskaan menetä paljon haluamaani tuotetta. Sen käyttäjäystävällisen käyttöliittymän ja helpon asennuksen ansiosta voit seurata hintoja ja tehdä tietoisia ostopäätöksiä helposti.

### Kirjastojen tuonti: verkkojen kaapimiseen, päivämäärän ja kellonajan käsittelyyn ja tietojen käsittelyyn tarvittavien kirjastojen tuonti

In [1]:
import pandas as pd
from bs4 import BeautifulSoup
import requests
import time
import datetime
import smtplib

#### 1. Alustaa verkkosivuston ja otsikot: raavittavan verkkosivuston URL-osoite ja pyynnössä lähetettävät käyttäjäagenttiotsikot 
#### 2. Alustaa verkkosivuston ja otsikot: raavittavan verkkosivuston URL-osoite ja pyynnössä lähetettävät käyttäjäagenttiotsikot 
#### 3. Tekee pyynnön ja jäsentää sisällön: lähettää pyynnön verkkosivustolle ja jäsentää sisällön BeautifulSoupilla
#### 4. Tulostusotsikko ja hinta: Tulostaa tuotteen nimen ja hinnan, jotta voidaan tarkistaa, onnistuiko tietojen poimiminen.

In [26]:
# 1.
URL = 'https://www.jimms.fi/fi/Product/Show/185318/rog-strix-rtx4090-o24g-gaming/asus-geforce-rtx-4090-rog-strix-oc-edition-naytonohjain-24gb-gddr6x'

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36"}

# 2.
page = requests.get(URL, headers=headers)

soup1 = BeautifulSoup(page.content, "html.parser")

soup2 = BeautifulSoup(soup1.prettify(), "html.parser")

# 3.
title_element = soup2.find_all(itemprop="name")

title = title_element[-1].get_text()

price = soup2.find(itemprop="price").get_text()

# 4.
print(title)
print(price)


              GeForce RTX 4090 ROG Strix - OC Edition -näytönohjain, 24GB GDDR6X
             

                  2 599,90
                 


#### Otsikon ja hinnan puhdistaminen: Välilyöntien poistaminen otsikosta ja hinnasta

In [27]:
price = price.strip()
title = title.strip()

print(title)
print(price)

GeForce RTX 4090 ROG Strix - OC Edition -näytönohjain, 24GB GDDR6X
2 599,90


#### Nykyisen päivämäärän hakeminen: Hakee kyseisen päivän datetime moduulilla ja tallentaa nimeää sen tallennusta varten

In [28]:
today = datetime.date.today()

print(today)

2023-01-10


#### Tietojen kirjoittaminen csv-tiedostoon: Poistettujen tietojen kirjoittaminen csv-tiedostoon mukautetuilla sarakkeiden nimillä ja päivämäärällä

In [32]:
import csv 

header = ['Tuote', 'Hinta', 'Päivämäärä']
data = [title, price, today]


with open('Data - Jimmsnettisivustonkaavinta.csv', 'w', newline='', encoding='UTF8') as f:
    writer = csv.writer(f)
    writer.writerow(header)
    writer.writerow(data)

#### Tietojen lukeminen csv-tiedostosta ja näyttäminen datakehyksenä: lukee tietoja csv-tiedostosta ja näyttää nämä tietokehyksenä

In [33]:
df = pd.read_csv(r'C:\Koodia\Oma kansio\Folder - Web_scraping_pythonilla\Koodi1 - Web-Scraping_projekti.ipynb')

print(df)

                                               Tuote     Hinta  Päivämäärä
0  GeForce RTX 4090 ROG Strix - OC Edition -näytö...  2 599,90  2023-01-10


#### Uusien tietojen lisääminen: lisää uudet tiedot csv-tiedostoon, kun koodi suoritetaan uudelleen, uudella päivämäärällä ja hinnalla

In [None]:

with open('Data - Jimmsnettisivustonkaavinta.csv', 'a+', newline='', encoding='UTF8') as f:
    writer = csv.writer(f)
    writer.writerow(data)

#### Aliohjelma: Toiminnon määrittäminen hinnantarkistustehtävän aikataulutuksen helpottamiseksi, koska koodia voidaan ajaa toistuvana tehtävänä

In [34]:
def tarkista_hinta():
    URL = 'https://www.jimms.fi/fi/Product/Show/185318/rog-strix-rtx4090-o24g-gaming/asus-geforce-rtx-4090-rog-strix-oc-edition-naytonohjain-24gb-gddr6x'

    headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36"}

    page = requests.get(URL, headers=headers)

    soup1 = BeautifulSoup(page.content, "html.parser")

    soup2 = BeautifulSoup(soup1.prettify(), "html.parser")

    title_element = soup2.find_all(itemprop="name")
    title = title_element[-1].get_text()

    price = soup2.find(itemprop="price").get_text()
    price = price.strip()
    title = title.strip()

    import datetime

    today = datetime.date.today()
    
    import csv 

    header = ['Tuote', 'Hinta', 'Päivämäärä']
    data = [title, price, today]

    with open('Data - Jimmsnettisivustonkaavinta.csv', 'a+', newline='', encoding='UTF8') as f:
        writer = csv.writer(f)
        writer.writerow(data)
    # if price of the product gets under the listed price it will call subroutine
    if (price < 2000):
        send_mail()

#### While true looppi: kun niin halutaan ohjelma on päällä ikuisesti (tai niin pitkään kun kone on päällä)

##### time.sleep moduuli rajaa hinnantarkistuksen kerran viikkoon, sillä tuotteemme hinta ei ole nopeasti vaihteleva!!!

In [None]:
while(True):
    tarkista_hinta()
    time.sleep(604800)

#### Lukee tiedot csv-tiedostosta pandas-kirjaston avulla ja tallentaa ne tietokehykseen nimeltä df. Toinen rivitulostus (df) tulostaa datakehyksen, jolloin käyttäjä voi nähdä tiedot taulukkomuodossa.

In [None]:
df = pd.read_csv(r'C:\Koodia\Oma kansio\Folder - Web_scraping_pythonilla\Koodi1 - Web-Scraping_projekti.ipynb')

print(df)

#### käytetään sähköpostin lähettämiseen tietylle vastaanottajalle, kun tuotteen hinta putoaa tietyn kynnyksen alle. Tämä toiminto käyttää smtplib-kirjastoa vuorovaikutuksessa käytettävän sähköpostipalvelun (tässä tapauksessa Gmailin) Simple Mail Transfer Protocol (SMTP) -palvelimen kanssa.

In [None]:
def send_mail():
    server = smtplib.SMTP_SSL('smtp.gmail.com',465)
    server.ehlo()
    #server.starttls()
    server.ehlo()
    server.login('oula.nikkinen+pythonprogram@gmail.com','xxxxxxxxxxxxxx')
    server.login('oula.nikkinen+pythonprogram@gmail.com','xxxxxxxxxxxxxx')
    subject = "Käy ostamassa!"
    body = "Näytönohjain Asus GeForce RTX 4090 ROG Strix on nyt alle 2000€!!!  Tässä nopea linkki: https://www.jimms.fi/fi/Product/Show/185318/rog-strix-rtx4090-o24g-gaming/asus-geforce-rtx-4090-rog-strix-oc-edition-naytonohjain-24gb-gddr6x"
   
    msg = f"Subject: {subject}\n\n{body}"
    
    server.sendmail(
        'oula.nikkinen+pythonprogram@gmail.com',
        msg
     
    )

### Ohjelman loppu, kiitos käytöstä!