# Podstawy programowania w analizie danych

## Tomasz Rodak

2017/2018, semestr letni

Wykład II

# Zmienne. Operacja przypisania

## Przykład z C++

W C++ zmienna to obszar pamięci, do którego dostęp zapewnia nazwa zmiennej.

```c++
#include <iostream>

int main(){
    int a = 1, b = a;

    std::cout  << "a: " << a << ", b: " << b << std::endl;
    std::cout << "adres a: " << &a << ", adres b: " << &b << std::endl;

    a++; // wartosc a jest zmieniana, obszar w pamieci nie

    std::cout  << "\na: " << a << ", b: " << b << std::endl;
    std::cout << "adres a: " << &a << ", adres b: " << &b << std::endl;

    return 0;
}

```

```
a: 1, b: 1
adres a: 0x7ffd8f7dce80, adres b: 0x7ffd8f7dce84

a: 2, b: 1
adres a: 0x7ffd8f7dce80, adres b: 0x7ffd8f7dce84
```

* Zmienne w C++, C, Pascalu, ... można zilustrować metaforą *pudełka* -- każda zmienna to inne pudełko, do którego wkładana jest wartość.
* **Deklaracja zmiennej** to proces tworzenia pudełka. Często określany jest wtedy **typ** zmiennej.
* Zadeklarowana zmienna, której nie przypisano żadnej wartości jest zmienną **niezainicjalizowaną**.

## W Pythonie jest inaczej :-)

* Zmienna w Pythonie to etykieta (nazwa, *identifier*, *reference*) nadawana **obiektowi**.
* Jedyny sposób na utworzenie zmiennej, to wykonanie operacji przypisania.
* Zmiennych się nie deklaruje, zmienne nie mają typów.
* Na jeden obiekt może wskazywać wiele zmiennych; nazywa się je wtedy **aliasami**.

## Obiekty

* Obiekty są abstrakcjami danych.
* Każdy obiekt ma:
  * typ,
  * tożsamość,
  * wartość.

## Typ i wartość

* **Typ** to rodzaj danych definiowany przez zbiór wartości i operacji na nich.
    * Liczby całkowite (`int`) mają wartości `..., -2, -1, 0, 1, 2, ...` i operacje takie jak dodawanie, mnożenie, porównywanie itp.
    * Wartości typu listowego (`list`) to skończone sekwencje nazw obiektów a operacje na nich to np.: konkatenacja, dostęp do elementu, wycinki, `append()`, `count()` itd.
    * `...`
* Typ obiektu uzyskasz poleceniem `type()`.
* Operator `==` sprawdza, czy dwa obiekty mają tę samą wartość.

In [61]:
type('Ala'), type(1), type(1.0)

(str, int, float)

## Tożsamość 

* **Tożsamość** obiektu to miejsce w pamięci, w którym obiekt się znajduje.
* **Numer identyfikacyjny** to liczba całkowita reprezentująca tożsamość obiektu.
  * Numer identyfikacyjny jest niezmienny przez czas trwania obiektu.
  * Dwa obiekty mają te same tożsamości dokładnie wtedy, gdy mają równe numery identyfikacyjne.
  * Numer identyfikacyjny uzyskuje się poleceniem `id()`.
* Operator `is` sprawdza, czy dwa obiekty mają tę samą tożsamość.

## Czas życia obiektu

* Obiekty, do których nie ma żadnych referencji (nie wiszą na nich żadne etykiety) są usuwane z pamięci.
* Mechanizm automatycznego uwalniania pamięci nazywa się **odśmiecaniem pamięci** (**garbage collection**).


W module `sys` znajduje się funkcja `getrefcount()` zwracająca liczbę zmiennych odnoszących się do obiektu.

In [41]:
from sys import getrefcount

getrefcount(0), getrefcount('a'), getrefcount(123212345)

(6306, 360, 3)

## Identyczność vs równość

In [5]:
a = 123456
b = a
c = 123456

a == b, b == c, a is b, b is c

(True, True, True, False)

In [16]:
id(a), id(b), id(c), id(123456)

(140473455923024, 140473455923024, 140473455922928, 140473455752240)

* `a`, `b` są aliasami -- różnymi nazwami tego samego obiektu.
* Przypisanie `c = 123456` tworzy nowy obiekt o tej samej wartości.
  
  W tym przypadku wartość prawej strony jest obliczana. Interpreter nie sprawdza czy obiekt o tej samej wartości już się w pamięci znajduje. Dlatego musi powstać nowy obiekt.

Ogólnie:
* jeśli prawa strona przypisania jest zmienną, to tworzony jest alias;
* jeśli prawa strona przypisania jest wyrażeniem (zwraca wartość), to tworzony jest nowy obiekt.

Czasem jednak Python oszukuje.

In [22]:
a = 1
b = 3 - 2

a is b, id(a), id(b)

(True, 93965035540544, 93965035540544)

Dla niektórych "małych" lub często używanych wartości tworzony jest tylko jeden obiekt. Jest to kwestia wewnętrzna interpretera związana z optymalizacją.

## `is` vs `==`

`is` porównuje tożsamości, `==` porównuje wartości, dlatego częściej używa się `==`, gdyż zwykle interesują nas wartości.

Wyjątkiem jest przypadek testowania czy obiekt jest typu `None`. Zalecany kod:
```python
x is None
```
oraz
```python
x is not None
```

## Obiekty zmienne

Obiekt zmienny to taki, który może zmienić wartość.

In [40]:
a = [1, 2, 3]
b = a # a i b są nazwami tego samego obiektu.
c = [1, 2, 3] # c jest nazwą innego obiektu.

a.append('X') # Zmieniamy obiekt nazwany a i b.

print(a, b, c) # Obiekt o nazwie c się nie zmienił.
print(id(a), id(b), id(c))
print(a is b, b is c)

[1, 2, 3, 'X'] [1, 2, 3, 'X'] [1, 2, 3]
140473455905288 140473455905288 140473456545608
True False


Należy o tym pamiętać, gdy tworzymy do niego aliasy!

Chcemy utworzyć macierz `3 x 3` wypełnioną zerami. Próbujemy tak:

In [104]:
macierz = 3 * [[0, 0, 0]]
macierz

[[0, 0, 0], [0, 0, 0], [0, 0, 0]]

Niestety, nasza macierz zawiera trzy pozycje, z których każda jest referencją do tego samego obiektu.

In [103]:
macierz[0][0] = 1
macierz

[[1, 0, 0], [1, 0, 0], [1, 0, 0]]

Rozwiązanie wyrażeniem listowym:

In [108]:
macierz = [[0 for i in range(3)] for j in range(3)]
macierz[0][0] = 1
macierz

[[1, 0, 0], [0, 0, 0], [0, 0, 0]]

## `a += b` vs `a = a + b`

Przypisanie złożone `+=`, `*=`, `...` jest formą przypisania, w której po prawej stronie znajduje się wyrażenie.

Jeśli obiekt po lewej stronie przypisania złożonego `+=`, `*=`, `...` jest zmienny, to przypisanie wykonywane jest "w miejscu" i nowy obiekt nie jest tworzony.

In [48]:
a = [1, 2]
print(id(a))
a += [3]
print(id(a))
a = a + [4]
print(id(a))

140473455575880
140473455575880
140473455541768


## Typy zmienne (mutable types)

Przykłady wbudowanych typów zmiennych:

* `list` -- listy,
* `dict` -- słowniki,
* `set` -- zbiory,
* `bytearray` -- zmienne sekwencje bajtów,
* `...`

## Typy niezmienne (immutable types)

Przykłady wbudowanych typów niezmiennych:

* `int`, `float`, `complex`, `bool` -- wszystkie typy numeryczne,
* `str` -- łańcuchy,
* `tuple` -- krotki,
* `frozenset` -- zbiory "zamrożone",
* `range` -- zakresy,
* `bytes` -- sekwencje bajtów,
* `...`

## Zagadka

Jaki efekt będzie miało wykonanie poniższego kodu?

In [59]:
krotka = (1, 2, 3, [])
krotka[-1].append('X')

In [60]:
krotka

(1, 2, 3, ['X'])

Krotki, listy, słowniki i ogólnie kontenery nie przechowują obiektów a jedynie referencje do nich. W tym przykładzie obiekt zmienił wartość. Tym niemniej nadal wskazuje na niego ta sama referencja `krotka[-1]`.

## Kopie

Jeśli obiekt jest niezmienny, to utworzenie jego kopii sprowadza się do utworzenia aliasu. Nie jest to oczywiście prawdziwa kopia, ale z praktycznego punktu widzenia nie ma to żadnego znaczenia.

In [62]:
a = 'Ala ma kota'
b = a

Ten kod jest bezpieczny, gdyż nie ma metody, która mogłaby zmienić łańcuch, na który wskazują `a` i `b`.

Natomiast ten kod

In [63]:
a = [1, 2, 3]
b = a

nie jest ani bezpieczny, ani celowy.

Jeśli obiekt jest zmienny, to najlepiej:
* mieć dla niego tylko jedną nazwę;
* w razie potrzeby tworzyć kopie.

## Kopiowanie list

Listy kopiujemy stosując:
* wycinki,
* metodę `copy()`,
* funkcję `list()`.

In [68]:
a = [1, 2, 3]
b = a[:]
c = a.copy()
d = list(a)

id(a), id(b), id(c), id(d) # różne tożsamości.

(140473062113480, 140473062066696, 140473061713224, 140473060750920)

## Kopiowanie słowników i zbiorów

Słownik / zbiór skopiujesz stosując:
* metodę `copy()`,
* funkcję `dict() / set()`.

## Niestety to nie wszystko :-/

Zgadnij jaki efekt będzie miało wykonanie kodu:

In [94]:
d1 = {100: 'a', 2: [1, 2, 3]}
d2 = d1.copy()
d1[2].append('X')
d1[25] = 'b'

In [95]:
print('d1:', d1)
print('d2:', d2)

d1 is d2, d1[2] is d2[2]

d1: {25: 'b', 2: [1, 2, 3, 'X'], 100: 'a'}
d2: {2: [1, 2, 3, 'X'], 100: 'a'}


(False, True)

Listy, krotki, słowniki itp., zawierają nie obiekty, lecz referencje do tych obiektów

Omówione dotąd kopie są płytkie. Oznacza to, że tworzą one nowe obiekty zawierające nowe referencje... do starych obiektów.

W tym przykładzie `d1[2]` i `d2[2]` są różnymi referencjami do tego samego obiektu.

## Kopie głębokie

Funkcja `deepcopy()` z modułu `copy()` tworzy kopie głębokie obiektów.

In [83]:
from copy import deepcopy

d1 = {100: 'a', 2: [1, 2, 3]}
d2 = deepcopy(d1)
d1[2].append('X')

print('d1:', d1)
print('d2:', d2)

d1 is d2, d1[2] is d2[2]

d1: {2: [1, 2, 3, 'X'], 100: 'a'}
d2: {2: [1, 2, 3], 100: 'a'}


(False, False)

## Odwołanie cykliczne

Na jaką wartość wskazuje `lst` po wykonaniu tego kodu?

In [87]:
lst = [1]
lst.append(lst)

In [88]:
lst

[1, [...]]

Wielokropek wskazuje na odwołanie cykliczne. Zauważ, że ta lista ma nieskończoną głębokość!

Ile jest równe `lst[-1]`?

In [92]:
lst[-1]

[1, [...]]

Ponadto:

In [93]:
lst is lst[-1]

True

## Warto przeczytać

[https://nedbatchelder.com/text/names.html](https://nedbatchelder.com/text/names.html)