# Python jako narzędzie do serializacji zadań

<b> jupyter notebook - przypomnienie: </b>

* typ komórek w notatniku:
  1. code -- do pisania kodu (np. w Pythonie)
  2. markdown -- do pisania tekstu; język znaczników; rozszerzenie HTML
      * nagłówki: 
       jeden lub więcej znak #, po nim spacja i tekst,
       np. # To jest nagłówek
      * wyliczenia:   
       zaczynają się od gwiazdki (odpowiednik \item w LaTeXu); listy zagnieżdżone przy użyciu wcięć; listy numerowane zaczynaja się od 1. 2., czyli np. 1. To jest pierwsza linijka
      * wyrażenia w języku LaTeX: otaczane pojedynczym lub podwójnym znakiem dolara
         * przykładowe wyrażenie otoczone pojedynczymi dolarami: $P=\sin^2\left ( \frac{\Delta m^2 L}{4E} \right )$
         * i podwójnymi: $$ P=\sin^2\left ( \frac{\Delta m^2 L}{4E} \right ) $$
          
* wykonywanie polecenia (i przejście do kolejnej komórki): SHIFT + ENTER
* wykonywanie polecenia (bez przejścia do kolejnej komórki): CTRL + ENTER
       
* Za każdym notebook'iem kryje się <b> kernel </b> -- proces odpowiedzialny za wykonanie każdej komórki i przekazanie do niej wyników; wspólny dla wszystkich komórek $\Rightarrow$ biblioteki podłączane w jednej komórce, zmienne w niej deklarowane itp są też widoczne w innych komórkach.

* <b> Nadrzędna jest kolejność wykonywania kodu w komórkach w stosunku do kolejności w jakiej są zapisane w notatniku. </b>

* Jeżeli używamy wirtualnego środowiska w pythonie o (przykładowej) nazwie venv (tak jak w kontenerze NWP):
   * W terminalu uruchamiamy skrypt: source /opt/venv/bin/activate
   * Wirtualne środowisko (virtual environment) zmienia się w Menu: Kernel -> Change kernel -> python venv   
   * Przedtem w bash trzeba wykonać polecenia:
      * pip install ipykernel (jeśli wcześniej nie zainstalowane)
      * python -m ipykernel install --user --name=venv --display-name "python venv"


### Zadanie 1

Zamień komórkę ze standardowej (do pisania kodu - code) na komórkę do pisania tekstu (markdown). Wszystkie skróty klawiszowe można sprawdzić naciskając: Esc H  (zmiany w jedną i drugą stronę to: Esc M Esc Y). Usuwanie komórki ESC D D

## Podstawowe, modyfikowalne  struktury danych

1) Standardowy Python: <b> listy </b>-- jednowymiarowe pojemniki do przechowywania obiektów mieszanych typów
2) Biblioteka NumPy: <b> macierze numpy (numpy arrays)</b> -- pojemniki jedno- lub wielo- wymiarowe do przechowywania obiektów tego samego typu; do szybkiego wykonywania arytmetycznych operacji; zawiera funkcje matematyczne do zastosowania na całych macierzach, bez potrzeby używania struktury pętli 
3) Biblioteka Pandas: (<b> Series </b>) i <b> DataFrame </b> -- do wygodnej pracy z danymi mieszanych typów; odwoływanie się do elementów tablic za pomocą etykiet
  * (<b> Series </b> to obiekt przypominający jednowymiarową tablicę, wartości + etykiety (index)) 
  * <b> DataFrame </b> to tabela danych; w każdej kolumnie może być wartość innego typu a indeksy nie muszą być liczbami; łatwo wczytuje się nagłówki, które mogą być użyte do indeksowania

In [None]:
#listy
# pusta lista:
lista1=[]
lista2=[5,6,7,9,11,16]
lista2.append(20)
lista2[2]=111
print(lista2)
print(lista2[1:3])
# Długośc listy:
print("Długość listy=",len(lista2))
lista3=list('Ala ma kota')
print(lista3)
print(lista3[-4:])
#krotki to niemodyfikowalne listy
# pusta krotka:
krotka1=()
krotka1=(45.5,67.3,2.4)
print(krotka1)
#słowniki (mapy) to zbiór par klucz - wartość
# pusty słownik
#dict1={}
#dict2={'rok':[2020,2021,2022,2023,2024,2025],'miasto':['Warszawa','Kraków','Gdańsk']}
#print(dict2)
#print(dict2['rok'])

In [None]:
#macierze numpy
import numpy as np
arr1=np.array(lista2)
print(arr1)
arr2=2*arr1
print(arr2)
arr3=np.array([[1,2,4],[3,5,7]])
print("Cała macierz")
print(arr3)
print("pierwszy wiersz")
print(arr3[0,:])
print(arr3[0])
print("druga kolumna")
print(arr3[:,1])
# Jak sprawdzić rozmiar macierzy ? 
rozmiar=arr3.shape
nwierszy=arr3.shape[0]
print("rozmiar macierzy =",rozmiar)

In [None]:
# Series i DataFrame z biblioteki pandas
import pandas as pd

#serie
s1 = pd.Series(lista2)
print(s1)
print(s1.values)
print(s1.index)
s2=pd.Series(krotka1,index=['kol1','kol2','kol3'])
print(s2)

#ramki danych - prostokątne tabele danych; w każdej kolumnie mogą być dane innego typu
dane={'rok':[2020,2021,2022,2023,2024,2025],
        'miasto':['Gdańsk','Gdańsk','Gdańsk','Katowice','Katowice','Katowice'],
        'miejsce':[2,3,1,1,2,5]}
df1=pd.DataFrame(dane)
print(df1)
print(df1.values)
print(df1.index)

## Uruchamianie systemowych poleceń na Linuxie z wnętrza notatnika, poprzez wstawienie ! przed poleceniem, np:
 * kopiowanie w systemie Linux:
   * !cp alpha.txt beta.txt
 * kopiowanie w systemie Windows
   * !copy alpha.txt beta.txt

In [None]:
!pwd

## Metoda uruchamiania systemowych poleceń nie tylko w notatniku:

In [None]:
import os
#os.system("cp alpha.txt beta.txt") # Linux
#os.system("copy alpha.txt beta.txt")  # Windows
os.system("pwd")

## Dodawanie bibliotek, wspólne dla wszystkich zadań

In [None]:
#Dodawanie bibliotek, których będziemy używać
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import os

### Zadanie 2 Wczytywanie danych z pliku do macierzy Numpy i rysowanie wykresu 

W katalogu o nazwie pliki znajduje się N plików o nazwach dane0.txt, dane1.txt, ..., daneN.txt z wynikami pomiarów dla filtru dolnoprzepustowego RC. W każdym pliku są cztery kolumny: częstotliwość, amplituda napięcia wejściowego, amplituda napięcia wyjściowego i różnica faz. 

Za pomocą funkcji loadtxt z biblioteki Numpy wczytaj pierwszy plik (dane0.txt). Stwórz macierz T ze stosunkiem napięcia wyjściowego do wejściowego i używając biblioteki Matplotlib narysuj T w funkcji  częstotliwości.
Nie łącz punktów linią. Zmień skalę poziomej osi na logarytmiczną. Opisz osie.

### Przykład: tworzenie serii plików do użycia w dalszych zadaniach 

In [None]:
# Tworzenie serii plików wypełnionych losowymi liczbami
# Usuwanie starych plików, jeśli takie są
os.system("rm -f plik*.txt")

# Tworzenie plików z losowymi liczbami wygenerowanymi z rozkładu normalnego
def generuj(Nplik,mean,sigma,Nentries):
  for i in range(0,Nplik): 
    #Generowanie danych z rozkładu normalnego
    data=np.random.normal(mean,sigma,Nentries)
    #Tworzenie nazw plików za pomocą tzw. f-stringu
    filename=f'plik{i}.txt'
    #Zapisywanie do pliku
    np.savetxt(filename,data)    
   
generuj(25,5,1,500) 


# Tworzenie i rysowanie histogramów powstałych z danych z każdego pliku
nw=5
nk=5


def rysuj(Nplik):
  # axes - dwuwymiarowa tablica, .flat -> wypłaszczenie tablicy 
  fig,axes=plt.subplots(nrows=nw,ncols=nk,figsize=(15,15))
  for i,ax in enumerate(axes.flat[:Nplik]):
    data = np.loadtxt(f'plik{i}.txt')
    ax.hist(data,bins=10)
   
rysuj(25) 



### Zadanie 3

Mamy N=10 plików o nazwach: nowe1.txt, nowe2.txt, ... , nowe10.txt. Stwórz listę z nazwami tych (N) plików. Nazwy plików zapisuj w postaci f-stringu. Nie używaj żadnej dodatkowej biblioteki.

### Przykład
Modyfikacja zadania 2: w katalogu mamy nieznaną liczbę plików (z przykładu powyżej). Wypisz ile plików zostało znalezionych (jaka jest długość listy)

In [None]:
# Wersja, gdy nie znamy liczby plików
import glob
filenames_gen=sorted(glob.glob('plik*.txt'))
print(f'Mamy {len(filenames_gen)} plików')    

### Zadanie 4 Policzenie średnich wartości dla każdego pliku i zrobienie rozkładu (histogramu) wartości średniej 
Jeśli srednie to lista, to rozkład wartości średnich robi się za pomocą polecenia:
plt.hist(srednie) a zakres wartości na osi poziomej można zmienić pisząc: plt.xlim(4,6) 


In [None]:
# Wczytaj pliki w pętli;  użyj funkcji load i mean z biblioteki Numpy 


# Usuwanie plików na koniec   
os.system("rm -f plik*.txt")

### Zadanie 5
W katalogu o nazwie pliki znajduje się N plików o nazwach dane0.txt, dane1.txt, ..., daneN.txt z wynikami pomiarów dla filtru dolnoprzepustowego RC. W każdym pliku są cztery kolumny: częstotliwość, amplituda napięcia wejściowego, amplituda napięcia wyjściowego i różnica faz.

Wczytaj dane ze wszystkich plików i dla każdej częstotliwości policz średnią wartość amplitudy wyjściowego napięcia z N pomiarów (= z N plików) i błąd wartości średniej.


### Zadanie 6
Rozszerzenie zadania 6: wczytaj dane ze wszystkich plików do macierzy trójwymiarowej (trzeci wymiar to lista plików). W tym celu możesz wczytać macierze do listy, a następnie użyć funkcji stack z biblioteki Numpy.
Sprawdź rozmiar macierzy, dla każdej częstotliwości policz średnią wartość amplitudy wyjściowego napięcia z N pomiarów (= z N plików) i błąd wartości średniej. Wykorzystaj funkcje np.mean i np.sum. Nigdzie nie powinna zostać użyta struktura pętli


### Przykład ze strukturami DataFrame z biblioteki Pandas

Plik people2.dat znajduje się w lokalizacji  https://www.fuw.edu.pl/~kaste/people2.dat
Wczytujemy go wprost z podanego linku do DataFrame z biblioteki Pandas. Domyślnie pierwszy wiersz jest traktowany jako nagłówki kolumn, a indeksy wierszy to kolejne liczby całkowite

In [None]:
# Wczytywanie danych z pliku tekstowego, gdzie separatorem jest tabulator; przy czytaniu pomijana jest linijka 
# z samymi kreskami; nagłówki są używane jako indeksy, separatorem jest tabulator(\t). 
# Domyślny separator to przecinek.  
df=pd.read_csv('https://www.fuw.edu.pl/~kaste/people2.dat', sep='\t',skiprows=[1])
# df=pd.read_csv('people2.dat', sep='\t',skiprows=[1],index_col=)
# Wypisujemy całość z nagłówkami
print(df)
# A teraz wypisujemy same wartości w postaci numpy array
print(df.values)
# wybieramy z pliku linijki zawierające informacje o kobietach ...
df2=df[df['Gender']=='Female']
print(df2)
# ... i o ludziach młodszych niż 20 lat
df3=df[df['Age']<20]
print(df3)
# Wybieramy kolumny i wiersze: 
# df.loc[etykieta] -- wybieranie wierszy 
# df.loc[:,etykieta] -- wybieranie kolumn
# df.loc[etykieta1,etykieta2] -- wybieranie wierszy i kolumn
# Analogicznie df.iloc, ale zamiast etykiety używana jest liczba okreslajaca pozycję
print(df.loc[:,'Name'])
print(df.iloc[:,0])
print(df.loc[0])
print(df.iloc[[1,2],[1,2]])
      

In [None]:
# Jeśli w pliku nie ma nagłówków
dfnoheader=pd.read_csv('people3.dat',sep='\t',header=None)
print(dfnoheader)

### Przykład + zadanie
Wczytujemy do DataFrame zawartość pliku covid3.txt (separatorem są białe znaki (\s+)) z danymi dotyczącymi zachorowań w Polsce na początku pandemii. W pliku znajdują się trzy kolumny: numer dnia poczynając od 2.01.2020, liczba potwierdzonych przypadków zachorowań i liczba osób, które wyzdrowiały. Dane z serwisu kaggle. Narysuj  zależność liczby zachorowań, liczby osób które wyzdrowiały i liczby aktualnie chorych w funkcji numeru dnia. Dodaj legendę.

In [None]:
# wczytujemy plik, gdzie separatorem jest jeden lub więcej białych znaków (\s+)
# W pliku covid3.txt znajdują 
dfcovid=pd.read_csv('covid3.txt',sep=r"\s+",header=None)
#print(dfcovid)
# Dodajemy nagłówki
headers=['nday','confirmed','recovered']
dfcovid.columns=headers
print(dfcovid)

