# PANDAS 6/10

# SERIES: : 1-Dimensional sequence of homogeneous elements

In [1]:
# now elements are associated to an explicit INDEX
# index elements can be either strings or integers

In [2]:
import pandas as pd
import numpy as np
# Creation from list
s1 = pd.Series([2.0, 3.1, 4.5]) # the values we want
# When not specified, index is set automatically with a progressive number --> indeces are integers
print(s1)

0    2.0
1    3.1
2    4.5
dtype: float64


In [3]:
# Creation from list, specifying index
# there is a specific attribute to specify indeces 
pd.Series([2.0, 3.1, 4.5], index=['mon', 'tue', 'wed'])

mon    2.0
tue    3.1
wed    4.5
dtype: float64

In [4]:
# Creation from dictionary: keys define the index
# le chiavi del dizionario rappresentano gli indici dei vallori associati alle chiavi
pd.Series({'c':2.0, 'b':3.1, 'a':4.5})

c    2.0
b    3.1
a    4.5
dtype: float64

In [5]:
# Obtaining values and index from a Series
s1 = pd.Series([2.0, 3.1, 4.5], index=['mon', 'tue', 'wed'])
print(s1.values) # Numpy array
print(s1.index) # Index is a custom Python object defined in Pandas --> classe Index definita per descrivere gli indici della serie

[2.  3.1 4.5]
Index(['mon', 'tue', 'wed'], dtype='object')


In [6]:
# ACCESS BY INDEX
# Explicit: the one specified while creating a Series
# - Use the Series.loc attribute
# Implicit: number associated to the element order (similarly to Numpy arrays)
# - Use the Series.iloc attribute
s1 = pd.Series([2.0, 3.1, 4.5], index=['a', 'b', 'c'])
print(s1.loc['a']) # With explicit index # uso proprio l'indice str
print(s1.iloc[0]) # With implicit index # uso l'indice implicito int associato agli array numpy
s1.loc['b'] = 10 # Allows editing values # il valore associato agll'indice 'b' è cambiato
print(f"Series:\n{s1}")

2.0
2.0
Series:
a     2.0
b    10.0
c     4.5
dtype: float64


In [7]:
# ACCESS WITH SLICING
s1 = pd.Series([2.0, 3.1, 4.5], index=['a', 'b', 'c'])
print(s1.loc['b':'c']) # explicit index (stop element included) # accedo ai valori dalla chiave 'b' alla chiave 'c'
print(s1.iloc[1:3]) # implicit index (stop element excluded) # accedo ai valori con indice implicito dal secondo al terzo

b    3.1
c    4.5
dtype: float64
b    3.1
c    4.5
dtype: float64


In [8]:
# ACCESS WITH MASKING
s1 = pd.Series([2.0, 3.1, 4.5], index=['a', 'b', 'c'])
print(s1[(s1>2) & (s1<10)]) # la mascheera prende i valori maggiori di 2 e minori di 10<

b    3.1
c    4.5
dtype: float64


In [9]:
# ACCESS WITH FANCY INDEXING
s1 = pd.Series([2.0, 3.1, 4.5], index=['a', 'b', 'c'])
print(s1.loc[['a', 'c']]) # indico gli indici espliciti di cui voglio ottenere il valore
print(s1.iloc[[0, 2]]) # indico gli indici impliciti di cui voglio ottenere il valore

a    2.0
c    4.5
dtype: float64
a    2.0
c    4.5
dtype: float64


# DATA FRAME : 2-dimensional array

In [10]:
# Can be thought as a table where columns are Series objects that share the same index
# - Each column has a name
# ogni colonna ha un nome ed è vista come una serie in cui ogni elemento ha un indice associato.
# ogni serie (colonna) ha per i suoi valori gli stessi indici

# Creation fron Series
# Use a dictionary to set column names
# ogni colonna condivide gli stessi indici (che diventeranno gli indici di una delle due dimensioni
price = pd.Series([1.0, 1.4, 5], index=['a', 'b', 'c']) 
quantity = pd.Series([5, 10, 8], index=['a', 'b', 'c'])
liters = pd.Series([1.5, 0.3, 1], index=['a', 'b', 'c'])
df = pd.DataFrame({'Price':price, 'Quantity':quantity, 'Liters':liters}) 
# il df ha 3 colonne che sono le serie e 3 righe in cui gli indici sono quelli specificati per ciascuna colonna
print(df)

   Price  Quantity  Liters
a    1.0         5     1.5
b    1.4        10     0.3
c    5.0         8     1.0


In [11]:
# Creation from dictionary of key-list pairs
#- Each value (list) is associated to a column --> Column name given by the key
# - Index is automatically set to a progressive number --> Unless explicitly passed as parameter (index=…)
dct = { "c1": [0, 1, 2], "c2": [0, 2, 4] } # creo un dizionario a cui associo una lista di valori --> le colonne
df = pd.DataFrame(dct) # gli indici vengono assegnati con numeri porgressivi
print(df)

   c1  c2
0   0   0
1   1   2
2   2   4


In [12]:
# Creation from list of dictionaries
# - Each dictionary is associated to a row
# - Index is automatically set to a progressive number --> Unless explicitly passed as parameter (index=…)
dic_list = [{'c1':i, 'c2':2*i} for i in range(3)] # il dizionario costruisce le row --> 3 in questo caso, le chiavi sono i nomi delle colonne
df = pd.DataFrame(dic_list) # gli indici vengono assegnati progressivamente
print(df)

   c1  c2
0   0   0
1   1   2
2   2   4


In [13]:
# Creation from 2D Numpy array
arr = np.arange(6).reshape((3,2)) # creo un array di 6 elementi [0,1,2,3,4,5] e lo ridimensiono a (3,2) [[0,1], [2,3], [3,4]]
df = pd.DataFrame(arr, columns=['c1', 'c2'], index=['a', 'b', 'c']) 
# attributo columns indica il nome delle colonne, attributo index quelli degli indici
print(df)

   c1  c2
a   0   1
b   2   3
c   4   5


# dataFrame and I/O

In [14]:
pd.DataFrame([ {'c1': 1 * 10 ** x} for x in range(0,4)])
# l = []
# for x in range(0,4):
#    l.append(1 * 10 ** x )

Unnamed: 0,c1
0,1
1,10
2,100
3,1000


In [25]:
# LOAD DATA CSV # deve esistere il file nella cartella
# Allows specifying the column delimiter (sep)
# Automatically read header from first line of the file (after skipping the specified number of rows)
# Column data types are inferred
df = pd.read_csv('./mycsv.csv', sep=',', skiprows=1) 
# we can specicy some attributes as the separator and how many rows you must skip before read the file

In [23]:
# If it contains null values, you can specify how to recognize them
# Empty columns are converted to “NaN” (Not a Number) --> Using np.nan (NumPy’s representation of NaN)
# The string 'NaN' is automatically recognized
df = pd.read_csv('./mycsv.csv', sep=',', na_values=['no info', 'x'])

In [17]:
# Save DataFrame to csv
df.to_csv('./savedcsv.csv', sep=',')

In [18]:
# Use index=False to avoid writing the index
df.to_csv('./savedcsv.csv', sep=',', index=False)

In [26]:
# Load DataFrame from json file # deve esistere il file nella cartella
#  df = pd.read_json('./myjson.json')
# Use pd.to_json(path) to save a DataFrame in json format