# Chapter 3. Built-in Data Structures, Functions, and Files

Andiamo a capire le strutture base di python:
- tuples
- lists
- dicts
- sets

## Tuple

#### Appunti
Ricorda che le tuple non sono mutabili; quindi dopo averle create non e' piu' possibile modificarle.
Pero' e' possibile modificare gli elementi modificabili all'interno (es: liste)

Esiste la funzione tuple() pero' spesso e' possibile crearle tramite "," 

Utili per restituire piu' valori in una funzione


In [2]:
tup = 4, 5, 6
tup

In [4]:
nested_tup = (4, 5, 6), (7, 8)
nested_tup

((4, 5, 6), (7, 8))

In [6]:
# ogni elemento puo' essere trasformato in una tupla 
tuple([4, 0, 2])
tup = tuple('prova')

In [7]:
tup[0]

'p'

In [8]:
# il + permette di combinare piu' liste in un'unica tupla di dimensione maggiore
(4, None, 'foo') + (6, 0) + ('bar',)

(4, None, 'foo', 6, 0, 'bar')

In [9]:
# moltiplicare una tupla * un valore intero permette di modificarne la dimensione
('foo', 'bar') * 4

('foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'bar')

In [10]:
# python immagina di spacchettare la tupla negli n elementi che vede
tup = (4, 5, 6)

a, b, c = tup

b

5

In [11]:
# unpacking tuples advanced 1.0
seq = [(1, 2, 3), (4, 5, 6), (7, 8, 9)]

for a, b, c in seq:
    print('a={0}, b={1}, c={2}'.format(a, b, c))

a=1, b=2, c=3
a=4, b=5, c=6
a=7, b=8, c=9


In [12]:
# unpacking advanced 2.0
values = 1, 2, 3, 4, 5

a,b, *rest = values # si puo' utilizzare anche solo *_ (non obbligatorio "rest")

print(a,b)

print(rest)

1 2
[3, 4, 5]


In [13]:
# metodi utili 
# nelle tuple poche non essendo un elemento modificabile
a = (1, 2, 2, 2, 3, 4, 2)

a.count(2)

4

## Liste

#### Appunti
Diversamente dalle tuple, le liste sono elementi modificabili.

Tramite parentesi quadre e' possibile trasformare una tupla in lista

Il metodo .insert e' da considerarsi computazionalmente pesante. Stessa cosa con .extend.
Creare ciclo con extend

Anche il controllo di presenza di un elemento all'interno di una lista e' piu' lento rispetto a dicts e sets

In [18]:
tup = ('foo', 'bar', 'baz')

tup_list = list(tup)

print(tup_list)

print(tup_list[1])

tup_list[1] = 'barbar'

print(tup_list[1])

['foo', 'bar', 'baz']
bar
barbar


In [19]:
# le liste vengono spesso utilizzate come elementi iterabilizzabili
gen = range(10)

print(gen)

list(gen) 

range(0, 10)


[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [24]:
# metodi utili
tup_list = list(tup)

tup_list.append('dwarf')

print(tup_list)

tup_list.insert(1, 'red')

print(tup_list)

tup_list.pop(2)

print(tup_list)

tup_list.remove('baz')

print(tup_list)


['foo', 'bar', 'baz', 'dwarf']
['foo', 'red', 'bar', 'baz', 'dwarf']
['foo', 'red', 'baz', 'dwarf']
['foo', 'red', 'dwarf']


In [26]:
# controllare presenza assenza di un valore in una lista
print('dwarf' in tup_list)

print('dwarf' not in tup_list)

True
False


In [30]:
# concatenazione
print([4, None, 'foo'] + [7, 8, (2, 3)])

# concatenzazione meno pesante a livello computazionale
x = [4, None, 'foo']

x.extend([7, 8, (2, 3)])

print(x)

[4, None, 'foo', 7, 8, (2, 3)]
[4, None, 'foo', 7, 8, (2, 3)]


In [3]:
# sorting
a = [7, 2, 5, 1, 3]
a.sort()
a

[1, 2, 3, 5, 7]

In [6]:
# tramite l'argomento key e' possibile ordinare per una logica (qui lunghezza stringa)
b = ['saw', 'small', 'He', 'foxes', 'six']
b.sort(key=len)
b

['He', 'saw', 'six', 'small', 'foxes']

In [7]:
# slicing
seq = [7, 2, 3, 7, 5, 6, 0, 1]
seq[1:5]

[2, 3, 7, 5]

In [9]:
# iteration | enumerate crea una doppia chiave di loop  dict(chiave, index)
some_list = ['foo', 'bar', 'baz']
mapping = {}

for i, v in enumerate(some_list):
    mapping[v] = i
    
mapping

{'foo': 0, 'bar': 1, 'baz': 2}

In [10]:
# sorting
sorted([7, 1, 2, 6, 0, 3, 2])

[0, 1, 2, 2, 3, 6, 7]

In [11]:
# zip crea una lista di tuple
seq1 = ['foo', 'bar', 'baz']
seq2 = ['one', 'two', 'three']

zipped = zip(seq1, seq2)

list(zipped)

[('foo', 'one'), ('bar', 'two'), ('baz', 'three')]

In [12]:
# zip ragiona utilizzando come dimensione la minore delle liste usate 
seq3 = [False, True]
list(zip(seq1, seq2, seq3))

[('foo', 'one', False), ('bar', 'two', True)]

In [14]:
# combinazione enumerate e zip
for i, (a, b) in enumerate(zip(seq1, seq2)):
    print('{0}: {1}, {2}'.format(i, a, b))

0: foo, one
1: bar, two
2: baz, three


In [18]:
# zip permette di creare delle liste a partire da una lista di tuple
pitchers = [('Nolan', 'Ryan'), ('Roger', 'Clemens'), ('Schilling', 'Curt')]

first_names, last_names = zip(*pitchers)

print(first_names)

print(last_names)

('Nolan', 'Roger', 'Schilling')
('Ryan', 'Clemens', 'Curt')


In [19]:
# per avere un ordine inverso
list(reversed(range(10)))

[9, 8, 7, 6, 5, 4, 3, 2, 1, 0]

## Dictionary

#### Appunti

Nomi alternativi: hash map o associative array.
Di fatto una collezione key:value.
Si crea con la parentesi graffa {key:value}

Mentre i values possono essere qualsiasi oggetto di python, le chiavi devono essere dei valori immutabili.
Questo e' esattamente il concetto di hashability (testabile con la funzione hash())

Es: integer, strings e tuple


In [1]:
empty_dict = {}

In [2]:
d1 = {'a' : 'some value', 'b' : [1, 2, 3, 4]}
d1

{'a': 'some value', 'b': [1, 2, 3, 4]}

In [3]:
# modificabile senza limiti per quanto riguarda la tipologia dei dati
d1[7] = 'an integer'
print(d1)

{'a': 'some value', 'b': [1, 2, 3, 4], 7: 'an integer'}


In [None]:
# per controllare la presenza stessa sintassi delle liste
'b' in d1

In [4]:
# per eliminare degli elementi si possono utilizzare ancora i metodi .remove e .pop
d1[5] = 'some value'
d1['dummy'] = 'another value'
print(d1)

del d1[5]
ret = d1.pop('dummy')
print(ret)
print(d1)

{'a': 'some value', 'b': [1, 2, 3, 4], 7: 'an integer', 5: 'some value', 'dummy': 'another value'}
another value
{'a': 'some value', 'b': [1, 2, 3, 4], 7: 'an integer'}


In [5]:
# ci sono 2 metodi fondamentali per estrarre chiavi e valori | ordine attuale non riordina
print(list(d1.keys()))
print(list(d1.values()))

['a', 'b', 7]
['some value', [1, 2, 3, 4], 'an integer']


In [6]:
# per aggiungere / cambiare dei valori nel dict
d1.update({'b' : 'foo', 'c' : 12})
d1

In [8]:
# per creare un dizionario zip risulta molto comodo
# mapping = {}
# for key, value in zip(key_list, value_list):
#     mapping[key] = value


mapping = dict(zip(range(5), reversed(range(5))))
mapping

{0: 4, 1: 3, 2: 2, 3: 1, 4: 0}

In [10]:
# per controllare se un elemento e' presente nel dizionario, altrimenti assegnargli un valore di default
# if key in some_dict:
#     value = some_dict[key]
# else:
#     value = default_value

words = ['apple', 'bat', 'bar', 'atom', 'book']

by_letter = {}

for word in words:
    letter = word[0]
    if letter not in by_letter:
        by_letter[letter] = [word]
    else:
        by_letter[letter].append(word)

by_letter

{'a': ['apple', 'atom'], 'b': ['bat', 'bar', 'book']}

## Sets

#### Appunti

Collezione non ordinata di elementi unici. Come dei dizionari ma senza valori (solo chiavi).

Due modi per crearli set([1,2,3]) o {1,2,3}

Controlla i molteplici metodi applicabili ai sets.

Anche in questo caso gli elementi dovrebbero essere tendenzialmente immutabili. Per aggirare il problema si possono usare le tuple

In [1]:
a = {1, 2, 3, 4, 5}
b = {3, 4, 5, 6, 7, 8}

In [2]:
# unione dei due insiemi
print(a.union(b))
print(a | b)

{1, 2, 3, 4, 5, 6, 7, 8}
{1, 2, 3, 4, 5, 6, 7, 8}


In [3]:
# intersezione
print(a.intersection(b))
print(a & b)

{3, 4, 5}
{3, 4, 5}


In [4]:
a_set = {1, 2, 3, 4, 5}

{1,2,3}.issubset(a_set)

True

In [5]:
# ricorda per essere uguali non devono essere ordinati
{1, 2, 3} == {3, 2, 1}

True

## List, Set and List Comprehension

List comprehension e' un metodo molto amato perché permette di creare nuove liste filtrando gli elementi di una collezione.

Quando si inizia a lavorare con le liste nested occorre prestare particolare attenzione perche' all'inizio puo' non sembrare banale

In [7]:
# logica 

# [expr for val in collection if condition]
# identico a:
# result = []
# for val in collection:
#     if condition:
#         result.append(expr)

strings = ['a', 'as', 'bat', 'car', 'dove', 'python']

[x.upper() for x in strings if len(x) > 2]

['BAT', 'CAR', 'DOVE', 'PYTHON']

In [10]:
# stesso discorso per dicts e sets
## dict
# dict_comp = {key-expr : value-expr for value in collection
#              if condition}
loc_mapping = {val : index for index, val in enumerate(strings)}
print(loc_mapping)
## set
# set_comp = {expr for value in collection if condition}
unique_lengths = {len(x) for x in strings}
print(unique_lengths)

{'a': 0, 'as': 1, 'bat': 2, 'car': 3, 'dove': 4, 'python': 5}
{1, 2, 3, 4, 6}


In [9]:
# bonus = equivalente
set(map(len, strings))

{1, 2, 3, 4, 6}

In [14]:
# nested list comprehension
some_tuples = [(1, 2, 3), (4, 5, 6), (7, 8, 9)]
flattened = [x for tup in some_tuples for x in tup]
flattened

# concettualmente questo e' l'equivalente tramite for loop
# flattened = []
# 
# for tup in some_tuples:
#     for x in tup:
#         flattened.append(x)

[1, 2, 3, 4, 5, 6, 7, 8, 9]

## Functions

#### Appunti

In linea di massima si devono utilizzare le funzioni quando occorre ripetere una operazione piu' di una volta e per rendere il codice molto piu' leggibile.

E' possibile inserire molteplici return all'interno della funzione; invece se non viene predisposto un return allora la funzione restituira' "None".

Per gli argomenti valgono le regole di keyword (per assegnare dei default) e posizionale

Ricorda sempre la distinzione tra namespace locale e globale

Tramite la gestione degli errori e' possibile gestire TypeError e ValueError che pero' ad ora mi sembrano concetti troppo specifici

In [3]:
# e' possibile restituire multi valori | tuple
def f():
    a = 5
    b = 6
    c = 7
    return a, b, c

a, b, c = f()

print(a)
print(b)
print(c)

def f():
    a = 5
    b = 6
    c = 7
    return {'a' : a, 'b' : b, 'c' : c}

dict_out = f()
print(dict_out)

5
6
7
{'a': 5, 'b': 6, 'c': 7}


In [5]:
# e' possibile ciclare anche sulle funzioni
import re

def remove_punctuation(value):
    return re.sub('[!#?]', '', value)

clean_ops = [str.strip, remove_punctuation, str.title]

def clean_strings(strings, ops):
    result = []
    for value in strings:
        for function in ops:
            value = function(value)
        result.append(value)
    return result

states = ['   Alabama ', 'Georgia!', 'Georgia', 'georgia', 'FlOrIda',
          'south   carolina##', 'West virginia?']

clean_strings(states, clean_ops)

['Alabama',
 'Georgia',
 'Georgia',
 'Georgia',
 'Florida',
 'South   Carolina',
 'West Virginia']

In [6]:
# lambda functions
def apply_to_list(some_list, f):
    return [f(x) for x in some_list]

ints = [4, 0, 1, 5, 6]
apply_to_list(ints, lambda x: x * 2)

[8, 0, 2, 10, 12]

In [7]:
# generators (ricontrollare)
import itertools 

first_letter = lambda x: x[0]

names = ['Alan', 'Adam', 'Wes', 'Will', 'Albert', 'Steven']

for letter, names in itertools.groupby(names, first_letter):
    print(letter, list(names)) # names is a generator
    
# per altri metodi utili di itertools guardare sul libro / stackoverflow

A ['Alan', 'Adam']
W ['Wes', 'Will']
A ['Albert']
S ['Steven']


In [8]:
# gestione errori
def attempt_float(x):
    try:
        return float(x)
    except:
        return x
    
print(attempt_float('1.232'))
print(attempt_float('daiprovaaconvertirequestoinnumero'))

1.232
daiprovaaconvertirequestoinnumero


## File & Operating Systems

#### Appunti

Il problema della lettura dei file nel 99,9999999% dei casi riguarda l'encoding, per maggiori info: 
https://docs.python.org/3/howto/unicode.html

In [None]:
path = 'examples/segismundo.txt'
f = open(path)

for line in f:
    pass

lines = [x.rstrip() for x in open(path)]
f.close()

In [1]:
import sys

sys.getdefaultencoding()

'utf-8'

In [23]:
import os

os.chdir('C:/Users/cg08900/Documents/Pandora/Personale/python_for_data_analysis/datasets/')

with open('FIFA_completo.csv', encoding='utf-8') as f:
    lines = f.readlines()
    data_out = []
    for line in lines:
        line_cl = line.replace('\n', '')
        line_cl = line_cl.split('|')
        data_out.append(line_cl)
    f.close()

In [24]:
data_out[:2]

[['NAME',
  'CLUB',
  'LEAGUE',
  'POSITION',
  'TIER',
  'RATING',
  'PACE',
  'SHOOTING',
  'PASSING',
  'DRIBBLING',
  'DEFENDING',
  'PHYSICAL',
  'LOADDATE',
  'YEAR'],
 ['Gonzalo Higuaín',
  'Napoli',
  'Serie A',
  'ST',
  'Gold',
  '95',
  '90',
  '98',
  '83',
  '93',
  '34',
  '85',
  '2018-08-14 12:05:04',
  '2016']]

In [25]:
# trasformo la lista in dataframe
import pandas as pd

headers = data_out.pop(0)

df = pd.DataFrame(data_out, columns=headers)

In [26]:
df.head(10)

Unnamed: 0,NAME,CLUB,LEAGUE,POSITION,TIER,RATING,PACE,SHOOTING,PASSING,DRIBBLING,DEFENDING,PHYSICAL,LOADDATE,YEAR
0,Gonzalo Higuaín,Napoli,Serie A,ST,Gold,95,90,98,83,93,34,85,2018-08-14 12:05:04,2016
1,Gonzalo Higuaín,Juventus,Serie A,ST,Gold,94,89,98,82,92,34,84,2018-08-14 12:05:04,2016
2,Gonzalo Higuaín,Napoli,Serie A,ST,Gold,93,88,97,82,92,34,83,2018-08-14 12:05:04,2016
3,Paul Pogba,Juventus,Serie A,CM,Gold,93,85,92,85,92,46,86,2018-08-14 12:05:04,2016
4,Francesco Totti,Roma,Serie A,CF,Gold,92,87,96,81,91,33,82,2018-08-14 12:05:04,2016
5,Gonzalo Higuaín,Napoli,Serie A,ST,Gold,92,90,90,88,93,31,68,2018-08-14 12:05:04,2016
6,Miranda,Inter,Serie A,CB,Gold,92,83,86,89,92,80,93,2018-08-14 12:05:04,2016
7,Paul Pogba,Juventus,Serie A,CM,Gold,92,95,94,88,92,43,85,2018-08-14 12:05:04,2016
8,Miralem Pjanić,Roma,Serie A,CM,Gold,91,93,92,87,96,32,73,2018-08-14 12:05:04,2016
9,Paulo Dybala,Juventus,Serie A,ST,Gold,91,82,81,89,87,90,89,2018-08-14 12:05:04,2016
