# OS SYS GLOB DATETIME

Zapoznamy się z modułami biblioteki standardowej:

* os, sys, glob oraz datetime

<br>


A w szczególności:

*  OS
    * getcwd, mkdir, chdir, listdir, remove, rmdir, rename, getpid, kill
    
    * os.path - dirname, basename, join, isfile, isdir, splitext

<br>

* SYS
    * argv, maxsize, getsizeof, modules, exit
    
<br>

* DATETIME
    * datetime


<br>


## OS
Moduł zawiera abstrakcję funkcji zależnych od systemu operacyjnego.

* getcwd: zwraca string do bieżącego katalogu roboczego
* mkdir: utwórz nowy folder w zadanej lokalizacji
* chdir: zmiana bieżącego katalogu roboczego na zodaną lokalizację
* listdir: zwraca listę zawierającą nazwy plików w katalogu
* remove: usówa plik
* rmdir: usówa folder
* rename: zmiana nazwy pliku
* getpid: zwraca id procesu
* kill: zabija program o podanym *pid*

## os.path
Moduł zawiera funkcjonalność przydatnych operacji na ścieżkach plików (ale **lepiej skorzystać z pathlib..**), które taktuje jako zmienne tekstowe.

* dirname: zwraca nazwę folderu z ścieżki
* basename: zwraca ostatni człon ścieżki
* join: zwraca string złączonych części ścieżki
* isfile: sprawdza czy ścieżka jest plikiem
* isdir: sprawdza czy ścieżka jest folderem
* splitext: zwraca krotkę dzieląc ścieżkę na ostatniej kropce (root, extension)

In [1]:
import os

root = os.getcwd()

print(root)

for p in os.listdir():
    
    if os.path.isfile(p):
        
        name, extension = os.path.splitext(p)

        if extension == ".pdf":
            print(name)
            
abs_path = os.path.join(root, name + extension)

print(abs_path, os.path.getsize(abs_path))

C:\Users\woyde\Documents\PhD\Dydaktyka\3
konta
lista_24_25Z_WBT-BFMK3_3_CW_3
lista_24_25Z_WBT-BFMK3_3_CW_4
Test_praktyczny 1
C:\Users\woyde\Documents\PhD\Dydaktyka\3\Untitled.ipynb 22711


## Pathlib

Pathlib traktuje ścieżki obiektowo. **Oprator / jest przeładowany**, ostateczne zwracana ścieżka zostanie dopasowana do platformy.

In [2]:
from pathlib import Path

# dir(Path)

path = Path.cwd() / "folder"
path.resolve() # utworzy ścieżkę bezwzględną z względnej

print(path, path.exists())
path.mkdir()
print(path.is_dir())

path = path / "plik.txt"
print(path.is_file())
path.touch()
print(path, path.exists())

path.write_text("ez")
print(path.read_text())

C:\Users\woyde\Documents\PhD\Dydaktyka\3\folder False
True
False
C:\Users\woyde\Documents\PhD\Dydaktyka\3\folder\plik.txt True
ez


In [3]:
print(path.suffix, path.parts) # itd.

.txt ('C:\\', 'Users', 'woyde', 'Documents', 'PhD', 'Dydaktyka', '3', 'folder', 'plik.txt')


In [5]:
path = Path.cwd()

for child in path.iterdir():
    if child.is_dir():
        print(child.parts) # zwracane obiekty są już obiektami klasy Path

('C:\\', 'Users', 'woyde', 'Documents', 'PhD', 'Dydaktyka', '3', '.ipynb_checkpoints')
('C:\\', 'Users', 'woyde', 'Documents', 'PhD', 'Dydaktyka', '3', 'folder')
('C:\\', 'Users', 'woyde', 'Documents', 'PhD', 'Dydaktyka', '3', 'gr3')
('C:\\', 'Users', 'woyde', 'Documents', 'PhD', 'Dydaktyka', '3', 'gr4')
('C:\\', 'Users', 'woyde', 'Documents', 'PhD', 'Dydaktyka', '3', 'Nowy folder')


## GLOB

In [6]:
import glob

for pdf_file in glob.glob("*.pdf"):
    print(f"Złapano: {pdf_file}")

Złapano: konta.pdf
Złapano: lista_24_25Z_WBT-BFMK3_3_CW_3.pdf
Złapano: lista_24_25Z_WBT-BFMK3_3_CW_4.pdf
Złapano: Test_praktyczny 1.pdf


##### Dopuszczalne 'dzikie karty'
? pojedyńczy znak\
\* zero lub więcej znaków\
\[\] dowolny znak z listy

### Pathlib z glob

In [7]:
sorted(path.glob('*.py')) # zwórcone scieżki będą od razu obiektami klasy Path nvm

[WindowsPath('C:/Users/woyde/Documents/PhD/Dydaktyka/3/test.py')]

In [None]:
# Pathlib również do przenoszenia plików 

# zamiast
import shutil

# i
shutil.move(file_name, new_path)

# można
Path.replace(new_path)

## SYS
Dostęp do zmiennych interpretera i funkcji zmieniających jego stany.

* argv: umożliwia dostęp do listy argumentów podanych przy wywoływaniu skryptu (**lepiej moduł *argparse***)
* maxsize: maksymalny rozmiar wskaźnika systemu
* getsizeof: rozmiar obiektu w bajtach
* modules: zwraca słownik zawierający moduły dostępne w środowisku
* exit: zamyka interpretator

* stdin, stdout, stderr: przekierowywanie strumieni danych (**lepiej moduł *logging***)

In [9]:
import sys

print(sys.platform, sys.version)

win32 3.11.4 | packaged by Anaconda, Inc. | (main, Jul  5 2023, 13:38:37) [MSC v.1916 64 bit (AMD64)]


## DATETIME
Manipulowanie czasem i datami..

In [10]:
import time
from datetime import date

today = date.today()
print(today)

print(today == date.fromtimestamp(time.time())) # przypomnienie: time.time() czas od początku pierwszej epoki

my_birthday = date(today.year, 8, 22)

if my_birthday < today:
    my_birthday = my_birthday.replace(year=today.year + 1)

print(my_birthday)

time_to_birthday = abs(my_birthday - today)

print(f"Bday in {time_to_birthday.days} days.")

2024-12-12
True
2025-08-22
Bday in 253 days.


In [11]:
with open("pamietniczek.txt", "a") as fp: # a: append, dodawanie na koniec
    
    fp.write(str(date.today()))
    fp.write("zjadlem bulke")
    
last_modified_time = os.path.getmtime("pamietniczek.txt")

print(time.ctime(last_modified_time)) # czy ktos cytal..

Thu Dec 12 22:34:31 2024


## TF-IDF
**TF-IDF** (ang. Term Frequency-Inverse Document Frequency) to metoda wektorowej reprezentacji tekstu, w której częstość wystąpienia danego słowa w dokumencie ważona jest przez częstość jego występowania w zbiorze dokumentów.

**TF** obliczyć bardzo prosto, zliczamy wystąpienai słowa "x" w dokumencie (np. *file_txt.count("x")*) a następnie dzielimy przez liczbę wszystkich jego słów (np. *len(file_txt.split())*).

Człon **IDF** jest logarytmem z ilorazu liczby dokumentów i liczby dokumentów z słowem "x", aby uniknąć dzielenia przez zero możemy to wyrazić jako:

   **idf = 1.0 + math.log((1 + liczba dokumentów) / (1 + liczba dokumentów z słowem "x"))**

   **tf-idf = tf * idf**
<br>
<br>
**Podobieństwo cosinusowe** pomiędzy wektorami A i B obliczamy jako iloczyn skalarny A i B podzielony przez iloczyn norm A i B.\
<br>
Iloczyn skalarny A = [a1, a2, ...], B = [b1, b2, ...] to suma iloczynów [a1\*b1, a2\*b2, ...]...
<br>
Norma to pierwiastek z sumy kwadratów, dla A = math.sqrt(sum([a**2 for a in A])...
<br>
<br>

**Zadanie 1.** Oblicz TF-IDF dla korpusu zawierającego poniższe zdania / dokumenty:

f1 = "Język programowania python jest super"
f2 = "Język programowania javascript odraża mnie"
<br>
<br>

**Zadanie 2.** Oblicz podobieństwo cosinusowe pomiędzy reprezentacjami f1 i f2.
<br>
<br>

**Zadanie 3.**

\**Twój pulpit jest zawalony publikacjami, pora coś z tym zrobić..\** 

\**daje zadanie studentom\**

<br>

Napisz klasę *TFIDF*, powinna przyjmować ścieżkę do folderu, w którym znajdują się publikacje (o rozszerzeniu *.pdf*). Należy wczytać ich tytuły i obliczyć dla nich tf-idf. Metoda *create_vector* powinna zwracać listę reprezentacji wektorowych tytułów publikacji, czyli listę list.

In [None]:
class TFIDF:
    def __init__(self, path_to_pubs):
        
        self.data = ... # lista list słów z tytułów publikacji
        self.vocab = set() # zbiór unikalnych słów występujących w korpusie
        self.word_to_index = {} # słownik przypisujący unikalny indeks każdemu słowu z korpusu (zbioru publikacji)
        self.idfs_ = {} # słownik zawierający idf każdego unikalnego słowa
    
    def _build_vocab(self):
        """
        Funkcja do zbudowania self.vocab
        """
    
    def _build_index(self):
        """
        Funkcja do zbudowania indeksu unikalnych słów z self.vocab
        """

        
    def _calculate_idfs(self):
        """
        Funkcja do obliczenia idf dla unikalnych słów z self.vocab
        """
        
        
    def _tfidf(self, input_sent):
        """
        Funkcja obliczająca tf-idf dla każdego tytułu publikacji, przyjmuje listę słów input_sent, zwraca listę float
        """

    def create_vectors(self):
        
        self._build_vocab()
        self._build_index()
        self._calculate_idfs()
        vectors = []
        
        for sent in self.data:
            sent_vector = self._tfidf(sent)
            vectors.append(sent_vector)

        return vectors