#### In acest laborator se vor prezenta urmatoarele:
1. Web Scraping
2. Text Analysis folosind RegEx
3. Ethics of Web Scraping

### **ATENTIE -> descarcati arhiva cu care vom lucra de pe acest [link](https://drive.google.com/file/d/1JZ60Gj6wFbLFlPlne6p3RBk6yrf3d9RY/view?usp=sharing)**

### 1. Web Scraping

Web Scraping este procesul de extragere de date din paginile web.

În primul rând, web scraper-ul va primi una sau mai multe adrese URL de încărcat înainte de scraping. Scraperul încarcă apoi întregul cod HTML pentru pagina în cauză. Scraperele mai avansate vor reda întregul site web, inclusiv elementele CSS și Javascript.

În mod ideal, utilizatorul va trece prin procesul de selectare a datelor specifice pe care le dorește de pe pagină. De exemplu, este posibil să doriți să extrageti o pagină de produse Amazon pentru prețuri și modele, dar nu sunteți neapărat interesați de recenziile produselor.

În cele din urmă, un web scraper va scoate toate datele care au fost colectate într-un format care este mai util utilizatorului. Majoritatea scraper-urilor web vor scoate date într-un format precum CSV sau Excel, în timp ce scraper-urile mai avansate vor suporta alte formate, cum ar fi JSON.

Pentru partea practica a laboratorului vom face scraping pe site-ul OLX [https://www.olx.ro/](https://www.olx.ro/) de unde vom extrage anunturi de apartamente de inchiriat in Sectorul 6, Bucuresti.

### requests

Primul pas pentru a face scraping este sa importam bibliotexa requests. Aceasta ne va permite sa facem request-uri HTTP.
Vom folosi functia get pentru a face request-ul HTTP pentru pagina pe care o dorim sa o extragem.


In [9]:
import requests

r = requests.get('https://www.olx.ro/d/imobiliare/apartamente-garsoniere-de-inchiriat/bucuresti/?search%5Bdistrict_id%5D=11&currency=EUR')

#### Atributele raspunsului HTTP - [requests.Response](https://requests.readthedocs.io/en/latest/api/#requests.Response)

```python
r.status_code - codul de stare HTTP
r.encoding - encodingul raspunsului
r.headers - antetul raspunsului HTTP
r.content - continutul raspunsului HTTP
r.text - continutul raspunsului HTTP ca string
r.json() - continutul raspunsului HTTP ca JSON (daca raspunsul nu este bine format, va fi generata o exceptie)
```

In [10]:
print("Status code:\n", r.status_code)
print("Headers:\n", r.headers)
# print("Content:\n", r.content)
# print("Text:\n", r.text)
print("Encoding:\n", r.encoding)

Status code:
 200
Headers:
 {'Content-Type': 'text/html; charset=utf-8', 'Transfer-Encoding': 'chunked', 'Connection': 'keep-alive', 'Date': 'Thu, 24 Oct 2024 13:34:17 GMT', 'Server': 'nginx', 'Referrer-Policy': 'strict-origin-when-cross-origin', 'Content-Security-Policy': "default-src 'self' *  ;style-src  https: data: 'unsafe-inline';img-src  https: blob: data:;child-src data:;object-src 'none';worker-src blob: https://*.olx.ro  ;frame-src  https: blob:;script-src  https: 'unsafe-inline' 'unsafe-eval';font-src data: 'self' https: ;connect-src 'self' * blob:", 'Cross-Origin-Resource-Policy': 'cross-origin', 'X-Permitted-Cross-Domain-Policies': 'none', 'X-DNS-Prefetch-Control': 'off', 'Expect-CT': 'max-age=0', 'X-Frame-Options': 'SAMEORIGIN', 'Strict-Transport-Security': 'max-age=15552000; includeSubDomains', 'X-Download-Options': 'noopen', 'X-Content-Type-Options': 'nosniff', 'X-XSS-Protection': '0', 'Permissions-Policy': 'accelerometer=(), ambient-light-sensor=(), autoplay=(), batter

#### Deoarece structura si clasele site-ului pe care vrem sa il scrape-uim se poate schimba, in acest laborator vom folosi fisierul **grzv1.html** in care este salvata pagina de la adresa [imobiliare grozavesti](https://www.olx.ro/d/imobiliare/apartamente-garsoniere-de-inchiriat/bucuresti/q-grozavesti/?search%5Bdistrict_id%5D=11&currency=EUR).

### LXML

În continuare, vom folosi biblioteca [lxml.html](https://lxml.de/lxmlhtml.html) pentru a extrage datele din paginile web. Aceasta este o bibliotecă de Python care permite utilizatorilor să parcurgă și să modifice fișiere XML și HTML.


Generarea unui arbore de elemente HTML poate fi efectuat folosind:
- [lxml.html.parse](https://lxml.de/api/lxml.html-module.html#parse) - parseaza un document HTML dintr-un fisier / URL
- [lxml.html.fromstring](https://lxml.de/api/lxml.html-module.html#fromstring) - parseaza un document HTML dintr-un string
- [lxml.html.fragment_fromstring](https://lxml.de/api/lxml.html-module.html#fragment_fromstring) - returneaza un fragment de HTML dintr-un string


In [11]:
html_data = open('grzv1.html', 'r', encoding="utf8").read()

In [12]:
from bs4 import BeautifulSoup

# Clean up the HTML using BeautifulSoup before passing to lxml
soup = BeautifulSoup(html_data, 'html.parser')
cleaned_html = soup.prettify()  # Ensures valid HTML structure

In [13]:
import lxml.html

# Parse the cleaned HTML content
tree = lxml.html.fromstring(cleaned_html)

# Now you can work with the HTML tree
print(lxml.html.tostring(tree, pretty_print=True).decode('utf-8'))

<html style="--vh:8.08px;">
 <head>
  <meta content="text/html; charset=utf-8" http-equiv="Content-Type">
  <meta content="width=device-width,initial-scale=1,maximum-scale=1,shrink-to-fit=no" name="viewport">
  <meta content="#f9f9f9" name="theme-color">
  <meta content="432a609c_3035911" name="version">
  <meta content="yes" name="mobile-web-app-capable">
  <meta content="yes" name="apple-mobile-web-app-capable">
  <link href="https://www.olx.ro/app/static/manifest/ro/manifest.json" rel="manifest">
  <title>
   grozavesti Bucuresti - Anunturi gratuite
  </title>
  <meta content="ro" data-react-helmet="true" http-equiv="Content-Language">
  <meta content="noindex,follow" data-react-helmet="true" name="robots">
  <link href="https://www.olx.ro/favicon.ico?v=5" rel="shortcut icon">
  <link crossorigin="" href="https://tracking.olx-st.com/" rel="preconnect">
  <link crossorigin="" href="https://ninja.data.olxcdn.com/" rel="preconnect">
  <link crossorigin="" href="https://frankfurt.apollo

In [14]:
print(type(tree))
print(tree.tag)
print(tree.text)
print(tree.attrib)
print(tree.tail)

<class 'lxml.html.HtmlElement'>
html

 
{'style': '--vh:8.08px;'}
None


#### Metodele elementelor HTML - [lxml.html.HtmlElement](https://lxml.de/api/lxml.html.HtmlElement-class.html) (mostenite de la [lxml.etree.Element](https://lxml.de/api/lxml.etree._Element-class.html)) pe care le vom folosi in acest laborator sunt:

\* De obicei cand facem scraping stim dupa ce ne uitam (tag-uri, clase, atribute). Iteratorii nu vor fi necesari pentru rezolvarea laboratorului.

```python
Metode mostenite lxml.etree.Element:

element.find() - returneaza primul element dupa tag sau path

element.findall() - returneaza toate elementele dupa tag sau path

element.getchildren() - returneaza o lista cu copiii elementului

element.getparent() - returneaza parintele elementului

element.getnext() - returneaza urmatorul element frate

element.getprevious() - returneaza elementul frate anterior

element.getroottree() - returneaza radacina arborelui

element.getiterator() - returneaza un iterator pentru toate elementele din arbore (elementele vor fi returnate depth-first)

element.items() - returneaza o lista cu perechi (atribut, valoare) pentru element

element.iter() - returneaza un iterator pentru toate elementele din arbore (elementele vor fi returnate depth-first)

element.xpath() - returneaza o lista cu elementele care corespund expresiei XPath

Metode specifice lxml.html.HtmlElement:

element.find_class() - returneaza o lista cu elementele care au clasa specificata

element.find_rel_links() - returneaza o lista cu elementele care au atributul rel specificat (<a rel="{rel}">)

element.text_content() - returneaza continutul text al elementului si a tuturor copiilor


#### Pentru a continua exemplul pentru scraping pe OLX, trebuie sa aflam care este tag-ul care contine anunturile de apartamente de inchiriat in Sectorul 6, Bucuresti. Pentru a afla acest lucru, vom folosi functia inspect din browser. Vom folosi metoda specifica lxml.html.HtmlElement find_class pentru a extrage elementele care au clasa specificata.

#### Vom construi un pd.DataFrame cu datele extrase din pagina web.

In [15]:
# extragem o lista cu elementele ce contin anunturile
ad_list =  tree.find_class('css-19ucd76')

In [16]:
art_list = []

# iteram prin lista de anunturi
for ad in ad_list:

    # extragem titlul anuntului
    title = ad.find_class('css-1pvd0aj-Text eu5v0x0')
    if len(title) > 0:
        title = title[0].text_content()


    # extragem pretul anuntului
    price = ad.find_class('css-1q7gvpp-Text eu5v0x0')
    if len(price) > 0:
        price = price[0].text_content()

    # extragem link-ul catre anunt
    link = ad.find_class('css-1bbgabe')
    if len(link) > 0:
        link = link[0].attrib['href']

    # extragem locatia si data anuntului
    location_date = ad.find_class('css-p6wsjo-Text eu5v0x0')
    if len(location_date) > 0:
        location_date = location_date[0].text_content()

    # extragem textul cu detalii despre pret negocibil
    negotiable = ad.find_class('css-1vxklie')
    if len(negotiable) > 0:
        negotiable = negotiable[0].text_content()

    # extragem suprafata
    surface = ad.find_class('css-1rxsz8l')
    if len(surface) > 0:
        surface = surface[0].tail

    art_list.append({
        'title': title,
        'price': price,
        'link': link,
        'location_date': location_date,
        'negotiable': negotiable,
        'surface': surface
    })

In [17]:
import pandas as pd
art_df = pd.DataFrame(art_list, columns=['title', 'price', 'link', 'location_date', 'negotiable', 'surface'])
art_df.head(30)

Unnamed: 0,title,price,link,location_date,negotiable,surface
0,\n Bloc NOU - Garsoniera decoma...,\n 70 000 €\n,https://www.storia.ro/ro/oferta/bloc-nou-garso...,"\n Bucuresti, Sectorul 6 - Reac...",[],\n 35 m²\n
1,\n Anunt Real Actual Avem Cheil...,\n 105 000 €\n,https://www.storia.ro/ro/oferta/anunt-real-act...,"\n Bucuresti, Sectorul 6 - Reac...",[],\n 50 m²\n
2,\n Apartament La Cheie 7/11 - G...,\n 109 400 €\n,https://www.storia.ro/ro/oferta/apartament-la-...,"\n Bucuresti, Sectorul 6 - Reac...",[],\n 50 m²\n
3,\n Apartament 2 camere Grozaves...,\n 127 000 €\n,https://www.storia.ro/ro/oferta/apartament-2-c...,"\n Bucuresti, Sectorul 6 - Reac...",[],\n 49 m²\n
4,\n 2 camere - Grozavesti Rezide...,\n 105 000 €\n,https://www.storia.ro/ro/oferta/2-camere-groza...,"\n Bucuresti, Sectorul 6 - Reac...",[],\n 50 m²\n
5,\n Apartament 2 camere de vânza...,\n 125 000 €\n,https://www.storia.ro/ro/oferta/apartament-2-c...,"\n Bucuresti, Sectorul 6 - Reac...",[],\n 50 m²\n
6,[],[],[],[],[],[]
7,\n Vanzare apartament 2 camere ...,\n 125 000 €\n,https://www.storia.ro/ro/oferta/vanzare-aparta...,"\n Bucuresti, Sectorul 6 - 03 o...",[],\n 50 m²\n
8,\n Vanzare apartament cu 2 came...,\n 125 000 €\n,https://www.storia.ro/ro/oferta/vanzare-aparta...,"\n Bucuresti, Sectorul 6 - 03 o...",[],\n 50 m²\n
9,\n Studio Grozavesti 43 mp\n ...,\n 87 500 €\n \n...,https://www.olx.ro/d/oferta/studio-grozavesti-...,"\n Bucuresti, Sectorul 6 - 22 s...",\n Prețul e negociabil\n ...,\n 43 m²\n


#### Acum avem primul set de informatii despre anunturi. Urmatorul pas este accesam pagina fiecarui anunt pentru a extrage informatii suplimentare - in exercitii.

### 2. Text Analysis folosind RegEx

#### Ce sunt regex-urile si cum functioneaza ?

O expresie regulata este o secventa de caractere speciale ce formeaza un pattern.

O expresie regulata va fi folosita pentru a cauta / a extrage unul sau mai multe string-uri ce respecta pattern-ul respectiv.

#### De ce folosim regex in stiinta datelor ?

+ Dorim sa vedem daca datele contin un anumit pattern

+ Vrem sa curatam datele raw

+ Vrem sa extragem si sa structuram datele raw

#### Caracterele speciale

``^`` - face match la inceputul stringului; este o ancora (anchor)

``$`` - face match la sfarsitul stringului; este o ancora (anchor)

``.`` - face match pe orice caracter in afara de newline

``|`` - A|B face match pe A sau B unde A si B sunt regex-uri

``\`` - folosit pentru escaparea caracterelor speciale

``\d`` - face match pe cifre

``\D`` - face match pe orice NU e cifra

``\s`` - face match pe orice space/newline (' ', '\t', '\n', '\r', '\f', '\v')

``\S`` - face match pe orice NU este space/newline

``\w`` - face match pe orice caracter alfanumeric (a-zA-Z0-9_)

``\W`` - face match pe orice caracter ce NU este alfanumeric

#### Cuantificatori

greedy match = incearca sa potriveasca cat mai mult text

``*`` - face greedy match de 0 sau mai multe ori pe regex-ul precedent acestuia.

``+`` - face greedy match o data sau de mai multe ori pe regex-ul precedent acestuia.

``?`` - face match pe 0 sau 1 repetitii ale regex-ului anterior

``{m}`` - face match pe exact m repetitii ale regex-ului precedent

``{m,n}`` - face greedy match pe intre m si n repetitii ale regex-ului precedent

``{m,n}?`` - face match pe intre m si n repetitii ale regex-ului precedent dar va incerca sa potriveasca cat mai putin text


#### Seturi de caractere

``[]`` - indica un set de caractere

``[abc]`` - face match pe a, b sau c

``[a-z]`` - face match pe un caracter din intervalul a-z (alte exemple ``[0-9]`` ``[A-Z]`` ``[a-zA-Z0-9])

``[^a]`` - face match pe orice caracter diferit de 'a'. Caracterul ``^`` atunci cand este folosit in seturi nu mai are rolul de a face match la inceputul stringului ci de a reprezeta **complementul setului**.

#### Grupuri

Acestea faciliteaza extragerea si structurarea datelor. Impartirea datelor in anumite subgrupuri face utila procesarea acestora pentru folosirea ulterioara in aplicatii de data science.

``()`` - este reprezentarea unui grup iar acesta trebuie sa contina o expresie regulata; rezultatul fiecarei expresii regulate dintr-un grup poate fi accesat folosind metoda ``re.Match.group(index)`` al obiectului returnat.

``(?:)`` - non-capturing group; se face match pe expresia regulata existenta in grup dar aceasta nu poate fi accesata; acest tip de grup este util cand vrem sa facem match pe anumite date inutile ce nu ne intereseaza (poate o structura a datelor).

``(?P<name>)`` - named group; face acelasi lucru ca ``()`` doar ca rezultatele pot fi accesate si folosind ``re.Match.group(name)``; in cazul in care avem o expresie regulata ce contine mai multe grupuri, rezultatul compilarii poate fi reprezentat sub forma de dictionar folosind ``re.Match.groupdict()``


#### Functii din ``re``

Biblioteca ``re`` ofera suport pentru expresii regulate Pearl-like in Python. In aceasta biblioteca erorile de compilare ale expresiilor regulate sunt identificate prin ``re.error``.

Functiile ``re.match()`` si ``re.search()`` din aceasta biblioteca folosesc obiectul ``re.Match`` pentru a determina daca s-a facut match cu pattern-ul dat ca parametru. Aceste obiecte contin atat substringul pe care s-a facut match cat si pozitia acestuia. Ex: ``<re.Match object; span=(0, 1), match='d'>``

#### Functiile utile pe care le vom folosi in aceasta parte sunt:

#### ``re.match(pattern, string, flags=0)``: returneaza un obiect Match daca pattern-ul se potriveste la inceputul stringului. Altfel returneaza None.


#### ``re.search(pattern, string, flags=0)``: returneaza un obiect Match care contine prima aparitie a pattern-ului. Altfel returneaza None.

#### ``re.split(pattern, string, maxsplit=0, flags=0)``: face split stringului la aparitiile pattern-ului.

#### ``re.findall(pattern, string, flags=0)``: returneaza toate aparitiile nesuprapuse ale pattern-ului (din string) intr-o lista.

#### ``re.finditer(pattern, string, flags=0)``: returneaza un iterator de obiecte ``re.Match`` pe toate aparitiile nesuprapuse ale pattern-ului.

\* Daca explicatiile de mai sus nu au fost suficiente:
https://docs.python.org/3/library/re.html

\* Un cheatsheet util: https://www.dataquest.io/wp-content/uploads/2019/03/python-regular-expressions-cheat-sheet.pdf


In [18]:
import re

s = "Ana are mere. Ana are pere. Ana le primeste de la Ion"
pattern = "Ana"

print("String: \n", s)
print("Pattern: \n", pattern, '\n')


# match returneaza daca pattern-ul se potriveste la inceputul stringului
print("Rezultatul folosind match():")
m = re.match(pattern, s)
print(m, '\n')

# search returneaza prima aparitie a pattern-ului in string (re.Match)
print("Rezultatul folosind search():")
m = re.search(pattern, s)
print(m, '\n')

# findall returneaza o lista cu toate aparitiile pattern-ului in string
print("Rezultatul folosind findall():")
m = re.findall(pattern, s)
print(m, '\n')

# finditer returneaza un iterator (re.Match) pe toate aparitiile pattern-ului in
# string
print("Rezultatul folosind finditer():")
m = re.finditer(pattern, s)
print(m)
print("Folosim iteratorul pentru a afisa rezultatele:")
for m_iter in m:
  print(m_iter)

String: 
 Ana are mere. Ana are pere. Ana le primeste de la Ion
Pattern: 
 Ana 

Rezultatul folosind match():
<re.Match object; span=(0, 3), match='Ana'> 

Rezultatul folosind search():
<re.Match object; span=(0, 3), match='Ana'> 

Rezultatul folosind findall():
['Ana', 'Ana', 'Ana'] 

Rezultatul folosind finditer():
<callable_iterator object at 0x0000018EFECF3700>
Folosim iteratorul pentru a afisa rezultatele:
<re.Match object; span=(0, 3), match='Ana'>
<re.Match object; span=(14, 17), match='Ana'>
<re.Match object; span=(28, 31), match='Ana'>


In [19]:
# Caractere speciale, cuantificatori si seturi

s = "Ana are 50 de mere. Ana are 100 de pere [easter egg].\
 Colab-ul e o mizerie.\
 Ana il stie pe Ion.\
 Ana le primeste de la Ion"

# facem match pe Ana daca se afla la inceputul stringului
pattern = "^Ana"
m = re.search(pattern, s)
print(m)
# <re.Match object; span=(0, 3), match='Ana'>

# facem match pe Ion daca se afla la sfarsitul stringului
pattern = "Ion$"
m = re.search(pattern, s)
print(m)
# <re.Match object; span=(105, 108), match='Ion'>

# extragem Ana sau Ion din string
pattern = "Ana|Ion"
m = re.findall(pattern, s)
print(m)
# ['Ana', 'Ana', 'Ana', 'Ion', 'Ana', 'Ion']

# extragem toate numerele din string
pattern = "\d+"
m = re.findall(pattern, s)
print(m)
# ['50', '100']

# extragem toate cuvintele cu litera mare
pattern = "[A-Z][a-z]*"
m = re.findall(pattern, s)
print(m)
# ['Ana', 'Ana', 'Colab', 'Ana', 'Ion', 'Ana', 'Ion']

# extragem easter egg-ul cu paranteze
pattern = "\[.*\]"
m = re.findall(pattern, s)
print(m)
# ['[easter egg]']

# extragem easter egg-ul fara paranteze folosind grup
pattern = "\[(.*)\]"
m = re.findall(pattern, s)
print(m)
# ['easter egg']


<re.Match object; span=(0, 3), match='Ana'>
<re.Match object; span=(118, 121), match='Ion'>
['Ana', 'Ana', 'Ana', 'Ion', 'Ana', 'Ion']
['50', '100']
['Ana', 'Ana', 'Colab', 'Ana', 'Ion', 'Ana', 'Ion']
['[easter egg]']
['easter egg']


  pattern = "\d+"
  pattern = "\[.*\]"
  pattern = "\[(.*)\]"


In [20]:
# Grupuri
# Pentru exemplificare vom construi un pattern prin care extragem email-urile
# si numele User-Agent-ului

s = \
'''From: author@example.com
User-Agent: Thunderbird (X11/20061227)
To: editor@example.com'''

pattern = r"(?:From: )" +\
          r"(?P<from>\w+@\w+\.\w+)"  +\
          r"(?:\s*User-Agent: )" +\
          r"(?P<agent>\w+)" +\
          r" \((?P<type>[A-Z]\d+)/(?P<number>\d+)\)" +\
          r"\s*(?:To: )" +\
          r"(?P<to>\w+@\w+\.\w+)"

m = re.search(pattern, s)
print(m.groupdict())


{'from': 'author@example.com', 'agent': 'Thunderbird', 'type': 'X11', 'number': '20061227', 'to': 'editor@example.com'}


``(?:From: )`` -> nu ne intereseaza => non-capturing group

``(?P<from>\w+@\w+\.\w+)`` -> named group care extrage email-ul

``(?:\s*User-Agent: )`` -> nu ne intereseaza => non-capturing group

``(?P<agent>\w+)`` named group care extrage user-agent-ul

`` \((?P<type>[A-Z]\d+)/(?P<number>\d+)\)`` -> extragem tipul si numarul din structura (tip/nr)

``\s*(?:To: )`` -> nu ne intereseaza => non-capturing group

``(?P<to>\w+@\w+\.\w+)`` -> named group care extrage email-ul

### 3. Etica in Web Scraping

**Modul API**

Unele site-uri web au propriile lor API-uri create special pentru extragerea datelor fără a fi nevoie de scraping. Aceasta înseamnă că ați face-o conform regulilor lor; ați fost autorizat să obțineți informațiile. Deci, dacă există un API, utilizați-l în loc să efectuati scraping.

**Respectați roboții.txt**

Cunoscut și ca standard de excludere a roboților, fișierul robots.txt este ceea ce indică software-ul de accesare cu crawlere pe web unde este permis (sau nu) pe site. Aceasta face parte din Robots Exclusion Protocol (REP), care reprezintă un grup de standarde web create ca o modalitate de a reglementa modul în care roboții accesează cu site-urile web.

**Citiți Termenii și Condițiile**

Acesta este principalul mod în care proprietarul site-ului vă spune regulile. Da, este mai ușor să faceți clic pe „Sunt de acord” sau „Accept” și sa va faceti treaba. Amintiți-vă că le-au scris pentru un motiv.

**Fii delicat**

Procesul de scraping poate fi destul de dur pe server, iar scrapingul agresiv poate duce uneori la probleme de funcționalitate, generând o experiență proastă pentru utilizatorii umani. Așadar, scrapingul este ideal facut în afara orelor de vârf. Și nu uitați să distanțați solicitările, astfel încât proprietarul site-ului web să nu vă încurce scraping-ul pentru un atac DDoS.

**Identifica-te**

Administratorul site-ului web poate observa un trafic neobișnuit. Manierele sunt pe primul loc, așa că spune-le cine ești, intențiile tale și cum să te contacteze pentru mai multe întrebări. Puteți face acest lucru adăugând pur și simplu **un string User-Agent cu informațiile dvs.**, astfel încât aceștia să le poată vedea.

**Cere permisiunea**

O oarecare curtoazie umană de bază este întotdeauna apreciată. Ei au ceva ce îți dorești, fii politicos și întreabă înainte de a presupune că informațiile sunt libere pentru tine. Rețineți: datele nu vă aparțin.

**Valorificați conținutul pe care îl păstrați**

Ar trebui să luați doar tipul de conținut de care aveți nevoie. Și aveți întotdeauna un motiv bun pentru a obține conținutul în primul rând. Scopul utilizării datelor este de a crea mai multă valoare, nu de a o duplica.

**Tratați datele cu respect**

Ți s-a dat permisiunea de a prelua conținutul, dar asta nu înseamnă că acum poți acorda acea permisiune altora.

**Dă înapoi când poți**

Acordați credit proprietarului site-ului într-un articol sau pe rețelele de socializare și încercați să atrageți trafic bun înapoi pe site-ul lor.


### **Exercitii**

#### 1. Pe dataframe-ul **art_df**: **(4p)**
    
    a. separati `location_date` in `location` si `date` (hint: folositi regex).
    
    b. transformati coloana `price` in float (hint: folositi regex) - aveti grija la "Pretul este negociabil".

    c. transformati coloana `surface` in float (hint: folositi regex).
    
    d. modificati coloana `negotiable` astfel incat sa contina doar valori 0 sau 1



In [21]:
art_df['location'] = art_df['location_date'].apply(lambda x: re.search(r"\n\s*(.*)-", x).group(1) if isinstance(x, str) else None)
art_df['date'] = art_df['location_date'].apply(lambda x: re.search(r".*-.*(\d+\s\w+\s\d+)", x).group(1) if isinstance(x, str) else None)
art_df.drop(columns=['location_date'], inplace=True)

In [22]:
import numpy

def string_to_float(s : str) -> float:
    if isinstance(s, str):
        match = re.search(r"(\d+)\s(\d*)", s)
        return float(match.group(1) + match.group(2)) if match else numpy.nan
    elif isinstance(s, float):
        return s
    else:
        return numpy.nan

art_df['price'] = art_df['price'].apply(string_to_float)
art_df['surface'] = art_df['surface'].apply(string_to_float)
art_df['negotiable'] = art_df['negotiable'].apply(lambda x: True if isinstance(x, str) else False)
art_df

Unnamed: 0,title,price,link,negotiable,surface,location,date
0,\n Bloc NOU - Garsoniera decoma...,70000.0,https://www.storia.ro/ro/oferta/bloc-nou-garso...,False,35.0,"Bucuresti, Sectorul 6",2 octombrie 2022
1,\n Anunt Real Actual Avem Cheil...,105000.0,https://www.storia.ro/ro/oferta/anunt-real-act...,False,50.0,"Bucuresti, Sectorul 6",2 octombrie 2022
2,\n Apartament La Cheie 7/11 - G...,109400.0,https://www.storia.ro/ro/oferta/apartament-la-...,False,50.0,"Bucuresti, Sectorul 6",3 octombrie 2022
3,\n Apartament 2 camere Grozaves...,127000.0,https://www.storia.ro/ro/oferta/apartament-2-c...,False,49.0,"Bucuresti, Sectorul 6",3 octombrie 2022
4,\n 2 camere - Grozavesti Rezide...,105000.0,https://www.storia.ro/ro/oferta/2-camere-groza...,False,50.0,"Bucuresti, Sectorul 6",3 octombrie 2022
5,\n Apartament 2 camere de vânza...,125000.0,https://www.storia.ro/ro/oferta/apartament-2-c...,False,50.0,"Bucuresti, Sectorul 6",3 octombrie 2022
6,[],,[],False,,,
7,\n Vanzare apartament 2 camere ...,125000.0,https://www.storia.ro/ro/oferta/vanzare-aparta...,False,50.0,"Bucuresti, Sectorul 6",3 octombrie 2022
8,\n Vanzare apartament cu 2 came...,125000.0,https://www.storia.ro/ro/oferta/vanzare-aparta...,False,50.0,"Bucuresti, Sectorul 6",3 octombrie 2022
9,\n Studio Grozavesti 43 mp\n ...,87500.0,https://www.olx.ro/d/oferta/studio-grozavesti-...,True,43.0,"Bucuresti, Sectorul 6",2 septembrie 2022


#### 2. Efectuati scraping pentru **apartamente.html** si extrageti coloanele in dataframe cu informatiile extrase: **(3p)**
    
    a. Pret
    
    b. Numărul de camere|||
    
    c. Suprafață
    
    d. Prețul pe metru pătrat
    
    e. Etaj



In [23]:
html_data = open('apartamente.html', 'r', encoding="utf8").read()

soup = BeautifulSoup(html_data, 'html.parser')
cleaned_html = soup.prettify()

tree = lxml.html.fromstring(cleaned_html)

print(lxml.html.tostring(tree, pretty_print=True).decode('utf-8'))

<html lang="ro">
 <head data-consent="ignore">
  <meta charset="utf-8">
  <meta content="width=device-width" name="viewport">
  <link href="https://statics.storia.ro/static/storiaro/naspersclassifieds-regional/verticalsre-atlas-web-storiaro/static/img/favicon.ico?v=5" rel="icon">
  <link href="https://statics.storia.ro/static/storiaro/naspersclassifieds-regional/verticalsre-atlas-web-storiaro/static/img/app-icon.png" rel="apple-touch-icon">
  <link href="https://statics.storia.ro/static/storiaro/naspersclassifieds-regional/verticalsre-atlas-web-storiaro/static/img/app-icon.png" rel="android-touch-icon">
  <meta content="1758851897729052" property="fb:app_id">
  <meta content="https://statics.storia.ro/static/storiaro/naspersclassifieds-regional/verticalsre-atlas-web-storiaro/static/img/fb/fb-image200x200.png?t=20-11-10" property="og:image">
  <meta content="website" property="og:type">
  <meta content="https://www.storia.ro/" property="og:url">
  <meta content="www.storia.ro/" property

In [29]:

pattern = r"(?:\s*Numărul de camere\s*)" + \
          r"(?P<rooms>\d+) (?:camere|cameră)\s*" + \
          r"(?:Suprafață\s*)" + \
          r"(?P<surface>\d+(?:\.?)\d*)\s*m²\s*" + \
          r"(?:Prețul pe metru pătrat\s*)" + \
          r"(?P<price>\d+)\s*€\s*/\s*\sm²\s*" + \
          r"(?:Etaj\s*)?" + \
          r"(?P<floor>\d+|parter)?.*"

def extract_app_info(input, data : str) -> str:
    
    input = str(input)
        
    match = re.search(pattern, input)

    if match is None:
        return None
            
    return match.groupdict()[data] if isinstance(input, str) else None

app_list =  tree.find_class('css-136g1q2')

prop_list = []

# iteram prin lista de anunturi
for app in app_list:

    title = app.find_class('css-u3orbr e1g5xnx10')
    if len(title) > 0:
        title = str(title[0].text_content()).strip()

    price = app.find_class('css-2bt9f1 evk7nst0')
    if len(price) > 0:
        price = str(price[0].text_content()).strip()

    rooms_sqm_pricesqm_floors = app.find_class('css-12dsp7a e1clni9t1')
    if len(rooms_sqm_pricesqm_floors) > 0:
        rooms_sqm_pricesqm_floors = str(rooms_sqm_pricesqm_floors[0].text_content()).strip()

    prop_list.append({
        'title': title,
        'price': price,
        'rooms_sqm_pricesqm_floors': rooms_sqm_pricesqm_floors,
    })
    
app_df = pd.DataFrame(prop_list, columns=['title', 'price', 'rooms_sqm_pricesqm_floors'])

app_df['rooms'] = app_df['rooms_sqm_pricesqm_floors'].apply(extract_app_info, args=('rooms',))
app_df['surface'] = app_df['rooms_sqm_pricesqm_floors'].apply(extract_app_info, args=('surface',))
app_df['price_sqm'] = app_df['rooms_sqm_pricesqm_floors'].apply(extract_app_info, args=('price',))
app_df['floor'] = app_df['rooms_sqm_pricesqm_floors'].apply(extract_app_info, args=('floor',))

app_df.drop(columns=['rooms_sqm_pricesqm_floors'], inplace=True)

display(app_df)

Unnamed: 0,title,price,rooms,surface,price_sqm,floor
0,"PIATA ABATOR - Ap 3 camere decomandate,",181 500 €,3,60.0,3025,2
1,BLOC NOU ARED IMAR direct de la dezvoltator R3...,95 333 €,2,48.0,1986,1
2,Apartament în Mamaia cu vedere lac,160 000 €,2,81.0,1975,3
3,Berceni-Metrou Berceni-Apartament 2 camere dec...,65 500 €,2,59.0,1110,6
4,Berceni-Metrou Berceni-Apartament 2 camere-Act...,58 000 €,2,42.0,1381,5
5,Berceni-Metrou Berceni-Apartament 2 camere dec...,57 500 €,2,55.4,1038,3
6,Berceni-Metrou Berceni-Garsoniera decomandata-...,39 700 €,1,34.0,1168,1
7,Berceni-Metrou Berceni-Apartament 2 camere-PRO...,55 900 €,2,41.0,1363,4
8,"Apartament 2 camere, Galaxy Park Residence, Li...",90 500 €,2,64.25,1409,6
9,Oferta 0% COMISION! Apartament 3 camere/parcar...,80 000 €,3,61.0,1311,1


#### 3. Pentru dataframe-ul facut mai sus realizati urmatoarele procesari: **(3p)**

    a. Convertiți prețul (pret) în float (eliminând € și spații)
    b. Convertiți suprafața (suprafata) în float (eliminând m²)
    c. Extrage numărul etajului din „etaj”
    d. Convertiți prețul pe metru pătrat (pret_mp2) în float
    e. Adăugați o nouă coloană cu preț în lei (presupunând cursul de schimb 1 euro = 4,95 lei)
    f. Adăugați o nouă coloană cu numărul de camere clasificate
    {
        1 camera -> MIC
        2 camere -> MEDIU
        3 camere -> MARE
      > 3 camere -> MARE
    }


In [25]:
app_df['price'] = app_df['price'].apply(string_to_float)
app_df['surface'] = app_df['surface'].apply(lambda x: float(x) if isinstance(x, str) else numpy.nan)
app_df['floor'] = app_df['floor'].apply(lambda x: 0 if x == 'parter' else int(x) if x is not None else -1)
app_df['price_sqm'] = app_df['price_sqm'].apply(float)
app_df['price_in_lei'] = app_df['price'] * 4.95
app_df['rooms'] = app_df['rooms'].apply(int)

# Adăugați o nouă coloană cu numărul de camere clasificate
app_df['category'] = app_df['rooms'].apply(lambda x: 'MIC' if x == 1 else 'MEDIU' if x == 2 else 'MARE' if x >= 3 else 'NEDEFINIT')
app_df

Unnamed: 0,title,price,rooms,surface,price_sqm,floor,price_in_lei,category
0,"PIATA ABATOR - Ap 3 camere decomandate,",181500.0,3,60.0,3025.0,2,898425.0,MARE
1,BLOC NOU ARED IMAR direct de la dezvoltator R3...,95333.0,2,48.0,1986.0,1,471898.35,MEDIU
2,Apartament în Mamaia cu vedere lac,160000.0,2,81.0,1975.0,3,792000.0,MEDIU
3,Berceni-Metrou Berceni-Apartament 2 camere dec...,65500.0,2,59.0,1110.0,6,324225.0,MEDIU
4,Berceni-Metrou Berceni-Apartament 2 camere-Act...,58000.0,2,42.0,1381.0,5,287100.0,MEDIU
5,Berceni-Metrou Berceni-Apartament 2 camere dec...,57500.0,2,55.4,1038.0,3,284625.0,MEDIU
6,Berceni-Metrou Berceni-Garsoniera decomandata-...,39700.0,1,34.0,1168.0,1,196515.0,MIC
7,Berceni-Metrou Berceni-Apartament 2 camere-PRO...,55900.0,2,41.0,1363.0,4,276705.0,MEDIU
8,"Apartament 2 camere, Galaxy Park Residence, Li...",90500.0,2,64.25,1409.0,6,447975.0,MEDIU
9,Oferta 0% COMISION! Apartament 3 camere/parcar...,80000.0,3,61.0,1311.0,1,396000.0,MARE


In [26]:
import re

re.search(r"(?P<ana>Ana)(?P<banana>Banana)?", "AnaBanan").groupdict()

{'ana': 'Ana', 'banana': None}