# Warsztaty Python w Data Science

***

# Blok 1 - Wprowadzenie
## Python (1 z 2)

***

# https://github.com/MichalKorzycki/PythonDataScience
![github](img/githubzip.png)

***

# Python

Język Python jest:
- dynamicznym, silnie typowanym językiem skryptowym
- napędza takie sajty jak Youtube, Dropbox, Netflix czy Instagram
- są dwie "konkurencyjne" wersje języka - 2.7 (przestarzała) i tzw. py3k  (3.7, 3.8, 3.9)
- na wykładzie korzystamy z 3.7 ale późniejsze wersje też są OK
- może pracować jako skrypty (samodzielny program)
- albo notebook (to co widzimy)
- poważnym językiem programowania

![title](img/rossum.jpg)

![title](img/gosling.jpg)

![title](img/stroustrup.jpg)

![title](img/wall.jpg)

(Źródła zdjęć: wikipedia)

In [None]:
print ("Hello World")

In [None]:
import sys
print (sys.version)

![title](img/python_growth.png)

Żródło: https://stackoverflow.blog/2017/09/06/incredible-growth-python/

![tiobe](img/tiobe.png)

Źródło: https://www.tiobe.com/tiobe-index/

***

# Program Wykładu
## Język Python - wprowadzenie (2 spotkania)
- ### Podstawowe elementy składni
- ### Środowisko pracy do pracy z danymi – anaconda, jupyter
- ### Struktury danych
- ### Instrukcje sterujące

## Data Wrangling (4 spotkania)
- ### Tidy Data – co to jest
- ### Data wrangling, munging, tidying - podstawowe operacje
- ### Biblioteka Pandas 
- ### Czytanie danych
- ### Wybieranie kolumn i „krojenie danych”
- ### Czyszczenie danych
- ### Agregacja, grupowanie

## Wizualizacja danych (2 spotkania)
- ### Proste wykresy
- ### Konfiguracja wykresu, sztuczki i kruczki
 
## Zewnętrzne źródła danych (2 spotkania)
- ### Pojęcie API i korzystanie z nich. JSON
- ### Samodzielne pobieranie danych
- ### Konsumowanie API
- ### Scraping, Ściąganie danych z sieci
- ### Biblioteki Scrapy, Beautiful Soup, lxml
- ### Biblioteki 

## Machine Learning (4 spotkania)
- ### Regresja w ML
- ### Klasyfikacja w ML
- ### Inżynieria cech (Feature Engineering)
- ### Metryki skuteczności optymalizacja modeli
- ### Trening klasyfikatorów
- ### Wybór optymalnego modelu, walidacja krzyżowa
- ### Specyfika danych tekstowych
- ### Postawowe metryki dla danych tekstowych


---
# Jupyter Notebooks

... bo **Jupyter** jest *prosty* ale _**potężny**_

$$\sum_{i=1}^\infty \frac{1}{2^i} = 1$$

A to: $P(A \mid B) = \frac{P(B \mid A)P(A)}{P(B)}$ jest wzór _**Bayesa**_

In [None]:
import pandas as pd
import numpy as np

df = pd.DataFrame(np.random.randint(1,100, 100).reshape(-1, 10))
df.columns=[chr(i) for i in range(ord('A'),ord('J')+1)]

df["max"] = df.apply(max,axis=1)
df

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np

plt.style.use("dark_background")

x = np.linspace(0, 10, 100)
fig = plt.figure(figsize=(20,4))
plt.plot(x, np.sin(x), '-')
plt.plot(x, np.cos(x), '.');

# https://www.anaconda.com/download/
---

# Składnia języka

## Zmienne i ich Typy

In [None]:
s = 'Ala ma kota'

In [None]:
s

## Typy zmiennych
### Podstawowe
- liczby całkowite (int)
- liczby zmiennoprzecinkowe (float)
- Łańcuchy znaków (str)
- Boolowskie (True i False)

### Złożone
- listy - (list)
- krotki - (tuple)
- słowniki - (dict)
- ...


In [None]:
7+2

In [None]:
7/2

### Dzielenie całkowite

In [None]:
7//2

### Operacja modulo (reszta z dzielenia)

In [None]:
7%2

## Python jest językiem dynamicznym


In [None]:
s = 3
s

In [None]:
s = "Ala ma "

In [None]:
s = s + "kota"
s

In [None]:
n = 3

In [None]:
s = "Ala ma " + n + "koty"
s

## Python jest SILNIE typowany

Ale zawsze można skorzystać z konwersji

In [None]:
s = 'Ala ma ' + str(n) + ' koty '
s

In [None]:
s * 4

In [None]:
"10"

In [None]:
int("10")

## Formatowanie napisów

In [None]:
'%d jest liczbą' % 3

In [None]:
'Liczba Pi to jest mniej więcej %.2f'  % 3.141526

In [None]:
'%d jest liczbą, i %d też jest liczbą' % (3,7)

In [None]:
str(3) + ' jest liczbą, i ' + str(7) + ' też jest liczbą'

In [None]:
n = 3
m = 11117
f'{n} jest liczbą, i {m} też jest liczbą'

## Typ logiczny Boolean

In [None]:
n == 3

In [None]:
n != 3

In [None]:
not n == 3

In [None]:
n == 3 or n != 3

In [None]:
n == 3 and n != 3

In [None]:
if n == 3:
    print( "Trzy" )

In [None]:
if n == 4:
    print ("Cztery")
else:
    print("To nie cztery")

In [None]:
if n == 4:
    print ("Cztery")
elif n == 3:
    print ("Trzy")
else:
    print("Ani trzy ani cztery")

## Listy

In [None]:
a = [3,5,6,7]
a

In [None]:
a[1]

In [None]:
a[0]

In [None]:
a[0:2]

In [None]:
a[-1]

In [None]:
a[1:-1]

In [None]:
a[-4]

In [None]:
a[:-1]

In [None]:
a[1:-1]+a[0:-1]

In [None]:
len(a)

In [None]:
for i in a:
    print (i)
    print(".")

In [None]:
for i in range(len(a)):
    print(i)

In [None]:
for i in range(len(a)):
    print(a[i])

In [None]:
a.append(8)
a

In [None]:
a + a

In [None]:
a * 3

In [None]:
s

In [None]:
s[0]

In [None]:
" - ".join( ["Ala", "ma", "kota"] )

In [None]:
"".join( ["Ala", "ma", "kota"] )

In [None]:
s2 = '.|.'

In [None]:
s2.join(["Ala", "ma", "kota"] )

## Krotki (tuple)

In [None]:
t = (1, 2, 3, 4)
t

## Funkcje

In [None]:
def dodaj_2(x):
    wynik = x + 2
    return wynik

In [None]:
dodaj_2(5)

In [None]:
def is_odd(x):
    print ("*" * x)
    return (x % 2) == 1

In [None]:
is_odd(25)

In [None]:
is_odd(8)

In [None]:
def slownie(n):
    jednosci = { 0: "zero", 1: "jeden", 2: "dwa", 3: "trzy", 4: "cztery", 5: "pięć", 6: "sześć", 7: "siedem", 8: "osiem", 9: "dziewięć"}
    return jednosci[n]

In [None]:
slownie(6)

In [None]:
def dodaj_2_slownie(n):
    wynik = dodaj_2(n)
    return slownie(wynik)

In [None]:
dodaj_2_slownie(4)

## Słowniki (dict)

In [None]:
m = { 'a': 1, 'b': 2 }

In [None]:
m.keys()

In [None]:
m.values()

In [None]:
m['a']

In [None]:
m['c']

In [None]:
m.get('c', 0)

In [None]:
m = dict( [("a", 1), ("b", 2)] )

In [None]:
m

In [None]:
l = [ "a", "a", "a" ]
l

In [None]:
list(zip( range(len(l)),l ))

In [None]:
li = list(range(len(l)))
li

In [None]:
l

In [None]:
list(zip(li, l))

In [None]:
m = dict(zip( range(len(l)), l))
m

In [None]:
for k in m.keys():
    print (k, m[k])

In [None]:
for k in m:
    print( k, m[k])

In [None]:
{ (1,2): "a", (1,2,3): "b"}

In [None]:
{ [1,2]: "a", [1,2,3]: "b"}

In [None]:
list(range(12))

In [None]:
l = ["a"] * 7
l

In [None]:
li = list(range(7))
li

In [None]:
list(zip(li,l))

In [None]:
len(l)

---
## Zadanie 1 - łatwe

## Zadanie 2 - średnie

## Zadanie 3 - trudne

# Literatura (darmowe wersje online)

## Książki wprowadzające
- [Python 101](http://python101.pythonlibrary.org/) – pierwsze 10 rozdziałów wystarczy by zacząc efektywnie pracować z Pythonem
- [Automate the Boring Stuff with Python](https://automatetheboringstuff.com/) – bardzo praktyczne podejście do Pythona. Gorąco polecam.
- [Python Docs](https://docs.python.org/3/) – Dokumentacja do Pythona

## Książki dla osób z pewnym doświadczeniem
- [Python Data Science Handbook](https://jakevdp.github.io/PythonDataScienceHandbook/) – Prawie wszystko co może potrzebować data scientist do pracy
- [Dive into Python](https://diveintopython3.problemsolving.io/) –  Świetna książka do Pythona
    - [Zanurkuj w Pythonie](https://pl.wikibooks.org/wiki/Zanurkuj_w_Pythonie) – Polska wersja
- [Think Bayes](https://greenteapress.com/wp/think-bayes/) – Wprowadzenie do statystyki Bayesowskiej
- [Think Stats](https://greenteapress.com/wp/think-stats-2e/) – Wprowadzenie do statystyki Bayesowskiej
- [Natural Language Processing in Python](https://www.nltk.org/book/) – wprowadzenie do przetwarzania języka naturalnego w Pythonie

## Zaawansowane tematy
- [The Elements of Statistical Learning](https://web.stanford.edu/~hastie/Papers/ESLII.pdf) – prawdopodobnie najbardziej wyczerpująca książka o Machine Learning
- [Foundations of Statistical NLP](https://nlp.stanford.edu/fsnlp/) – książka o statystycznym przetwarzaniu języka naturalnego
- [Introduction to Information Retrieval](https://nlp.stanford.edu/IR-book/) – Podstawy formalne ekstrakcji informacji  

## Polecane lektury
- [Peter Norvig - The Unreasonable Effectiveness of Data](https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/35179.pdf)
- [Andrew Ng – Machine Learning Yearning](https://www.deeplearning.ai/machine-learning-yearning/)
- [Tidy Data](https://vita.had.co.nz/papers/tidy-data.pdf) - Klasyczny artykuł o tym jak doprowadzić dane do najlepszej postaci pod kątem analiz
