<a href="https://colab.research.google.com/github/simonebugo/Big_Data/blob/main/4a_Using_Pandas_Part_I.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
import numpy as np
import pandas as pd
#operazioni per trasdormare i dati di un dataframe. spesso serve trasformare i dati per es perrendere le variabili categoriche, delle variabili numeriche.
#operazioni per arrivare a ottenere dati uoni da utilizzare sia per la parte di analisi che di predizionoi
#una situazione comune è quella di avere nel dataset dei dati mancanti.

- In Data Analysis, a significant amount of time is spent on data preparation: loading, cleaning, transforming, and rearranging.
    - Such tasks are often reported to take up 80% or more of an analyst’s time.
- Pandas provides you with a high-level, flexible, and fast set of tools to enable you to manipulate data into the right form.
- Much of the design and implementation of pandas has been driven by the needs of real-world applications.

## Handling Missing Data
- Missing data occurs commonly in many data analysis applications.
    - All of the descriptive statistics on pandas objects exclude missing data by default.
- The missing data is represented in pandas with the floating-point value NaN (Not a Number).
    - We call this a sentinel value that can be easily detected.

- In pandas, missing data is also referred  as  NA (i.e., "not available").
- In statistics applications, NA means
    - data that does not exist
    - data that exists but was not observed

- When cleaning up data for analysis, it is often important to do analysis on the missing data itself to identify data
collection problems or potential biases in the data caused by missing data.
- The built-in Python None value is also treated as NA

In [2]:
#in python esistono vari modi per indicare il valore nullo, np.nan significa che abbiamo un valore nullo
string_data = pd.Series(['aardvark', 'artichoke', np.nan, 'avocado'])

In [3]:
string_data

Unnamed: 0,0
0,aardvark
1,artichoke
2,
3,avocado


In [4]:
string_data.isnull()

Unnamed: 0,0
0,False
1,False
2,True
3,False


In [5]:
#altro modo è quello di utilizzare None
string_data[0] = None

In [None]:
string_data

In [None]:
#anche il valore Non è considerato un valore nullo
string_data.isnull()

### Filtering Out Missing Data

- dropna: Remove missing values.

In [6]:
data = pd.Series([1, np.nan, 3.5, np.nan, 7])

In [7]:
data

Unnamed: 0,0
0,1.0
1,
2,3.5
3,
4,7.0


In [8]:
#funzione per eliminare i valori mancanti ovvero nulli, è il corrispettivo del drop per i valori nulli. dropna come drop non modifica la series
data.dropna()

Unnamed: 0,0
0,1.0
2,3.5
4,7.0


In [9]:
data

Unnamed: 0,0
0,1.0
1,
2,3.5
3,
4,7.0


In [10]:
#seleziona la series con solo i valori non nulli
data.notnull()

Unnamed: 0,0
0,True
1,False
2,True
3,False
4,True


In [11]:
#dropna is equivalent to,
data[data.notnull()]

Unnamed: 0,0
0,1.0
2,3.5
4,7.0


- dropna in Dataframe

In [12]:
data = pd.DataFrame([[1., 6.5, 3.], [1., np.nan, np.nan],
                     [np.nan, np.nan, np.nan], [np.nan, 6.5, 3.]])

In [13]:
data

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.5,3.0


In [14]:
data.dropna()

Unnamed: 0,0,1,2
0,1.0,6.5,3.0


In [15]:
cleaned = data.dropna(axis=1) #posso scegliere se applicarlo alle righe o alle colonne indicando l'asse

In [None]:
cleaned

In [None]:
data

- Passing how='all' will only drop rows that are all NA

In [None]:
data.dropna(how='all') #elimina tutte le righe che hanno tutti i valori nulli

In [None]:
data.dropna(how='any')    # default

- if you want to keep only rows containing a certain number of observations.

In [17]:
df = pd.DataFrame(np.random.randn(7, 3))
df.iloc[:4, 1] = np.nan
df.iloc[:2, 2] = np.nan

In [18]:
df

Unnamed: 0,0,1,2
0,-0.4724,,
1,0.478293,,
2,0.23266,,-0.675329
3,-0.705106,,-0.297479
4,0.697305,-0.521134,0.679448
5,-0.563708,2.300865,-1.209245
6,-0.343827,2.800307,1.705779


In [19]:
df.dropna(thresh=2) #specifico una soglia, in questo caso elimino le irghe che hanno almeno 2 valori nulli

Unnamed: 0,0,1,2
2,0.23266,,-0.675329
3,-0.705106,,-0.297479
4,0.697305,-0.521134,0.679448
5,-0.563708,2.300865,-1.209245
6,-0.343827,2.800307,1.705779


### Filling In Missing Data

- *fillna*: Fill NA/NaN values using the specified method

In [20]:
#posso dire di essere in grado di sostiruire i valori nulli con un valore buono.
df

Unnamed: 0,0,1,2
0,-0.4724,,
1,0.478293,,
2,0.23266,,-0.675329
3,-0.705106,,-0.297479
4,0.697305,-0.521134,0.679448
5,-0.563708,2.300865,-1.209245
6,-0.343827,2.800307,1.705779


In [None]:
df.fillna(42) #in questo caso sostituisco tutti i valori nulli con 42, però fare ciò potrebbe non avere senso siccome le colonne indicano feature
#diverse quindi è difficile che vada bene lo stessso valore con tutte le colonne

In [None]:
df

In [23]:
#if the value to fill in depends on the column. valori nulli colonna 1 sostituisti con 0.5 e la seconda co 2. si fa con un dizionario in cui ho in
#chiave il numero della colonna e il secondo valore è il valore che voglio inserire
df.fillna({1: 0.5, 2: 0})

Unnamed: 0,0,1,2
0,-0.4724,0.0,0.0
1,0.478293,0.0,0.0
2,0.23266,0.0,-0.675329
3,-0.705106,0.0,-0.297479
4,0.697305,-0.521134,0.679448
5,-0.563708,2.300865,-1.209245
6,-0.343827,2.800307,1.705779


In [24]:
df

Unnamed: 0,0,1,2
0,-0.4724,0.0,0.0
1,0.478293,0.0,0.0
2,0.23266,0.0,-0.675329
3,-0.705106,0.0,-0.297479
4,0.697305,-0.521134,0.679448
5,-0.563708,2.300865,-1.209245
6,-0.343827,2.800307,1.705779


In [25]:
df.fillna(0, inplace=True) #con inplace=true la mdoifica viene applicata direttamente sul dataframe

In [26]:
df

Unnamed: 0,0,1,2
0,-0.4724,0.0,0.0
1,0.478293,0.0,0.0
2,0.23266,0.0,-0.675329
3,-0.705106,0.0,-0.297479
4,0.697305,-0.521134,0.679448
5,-0.563708,2.300865,-1.209245
6,-0.343827,2.800307,1.705779


- computing a value

In [27]:
df = pd.DataFrame(np.random.randn(6, 3))
df.iloc[2:, 1] = np.nan
df.iloc[4:, 2] = np.nan
df

Unnamed: 0,0,1,2
0,1.002265,-0.327152,-1.670617
1,-0.448448,1.044545,0.072342
2,-1.105049,,-0.066667
3,0.082202,,-0.270492
4,0.908183,,
5,0.799372,,


In [28]:
df.fillna(method='ffill') #per ogni colonna sostituisco i valori nulli con l'ultimo valore non nullo

  df.fillna(method='ffill') #per ogni colonna sostituisco i valori nulli con l'ultimo valore non nullo


Unnamed: 0,0,1,2
0,1.002265,-0.327152,-1.670617
1,-0.448448,1.044545,0.072342
2,-1.105049,1.044545,-0.066667
3,0.082202,1.044545,-0.270492
4,0.908183,1.044545,-0.270492
5,0.799372,1.044545,-0.270492


In [29]:
#limit for forward and backward filling, maximum number of consecutive periods to fill
df.fillna(method='ffill', limit=2) #impongo una soglia per cui riporti il valore non nullo nella colonna considerata per un numero di righe limitata
#in questo caso con limit = 2 vengono coperti solo i primi 2

  df.fillna(method='ffill', limit=2) #impongo una soglia per cui riporti il valore non nullo nella colonna considerata per un numero di righe limitata


Unnamed: 0,0,1,2
0,1.002265,-0.327152,-1.670617
1,-0.448448,1.044545,0.072342
2,-1.105049,1.044545,-0.066667
3,0.082202,1.044545,-0.270492
4,0.908183,,-0.270492
5,0.799372,,-0.270492


In [30]:
#we can use other functions.  possimao rimpiazzare i valori nulli con i risultati di funzioni che possono essere più semplici o complesse.
# in questo caso con la media dei valori non nulli di quella feature (quindi colonna)
df.fillna(df.mean())

Unnamed: 0,0,1,2
0,1.002265,-0.327152,-1.670617
1,-0.448448,1.044545,0.072342
2,-1.105049,0.358696,-0.066667
3,0.082202,0.358696,-0.270492
4,0.908183,0.358696,-0.483859
5,0.799372,0.358696,-0.483859


## Data Transformation


### Removing Duplicates

- *duplicated*
- drop_duplicated

In [31]:
data = pd.DataFrame({'k1': ['one', 'two'] * 3 + ['two'],
                     'k2': [1, 1, 2, 3, 3, 4, 4]})
data

Unnamed: 0,k1,k2
0,one,1
1,two,1
2,one,2
3,two,3
4,one,3
5,two,4
6,two,4


In [32]:
data.duplicated() #ritorna se tutta la riga è duplicata

Unnamed: 0,0
0,False
1,False
2,False
3,False
4,False
5,False
6,True


In [33]:
#verifico se una specifica colonna è dupplicata o no. specifico tra le [] il nome della colonna
# data['k1'].duplicated() is equivalent to.
data.duplicated(['k1'])

Unnamed: 0,0
0,False
1,False
2,True
3,True
4,True
5,True
6,True


In [None]:
data.drop_duplicates() #va a tenere solo la prima occorrenza dei duplicati

In [None]:
data['v1'] = range(7)
data

In [None]:
data.drop_duplicates(['k1', 'k2'], keep='last') #per tenere solo l'ultima occorrenza duplicata

### Transforming Data Using a Function or Mapping

- map: Map values of Series according to input correspondence.

In [34]:
data = pd.DataFrame({
    'device': ['iPhone', 'Galaxy S21', 'MacBook Pro', 'Pixel 6',
               'ThinkPad', 'iPad', 'Surface Pro', 'galaxy tab', 'Macbook air'],
    'price': [999, 799, 1299, 599, 1099, 799, 999, 649, 999]
})
#map permette di applicare una funzione a tutte le righe del dataframe.

1. passing dictionary

In [35]:
#supponiamo di voler creare una colonna brand che sia collegata al device. il valore del brand dipende dalla colonna device, costruisco un
#dizionario in cui metto in correlazione il device con il brand
device_to_brand = {
    'iphone': 'Apple',
    'macbook pro': 'Apple',
    'macbook air': 'Apple',
    'ipad': 'Apple',
    'galaxy s21': 'Samsung',
    'galaxy tab': 'Samsung',
    'pixel 6': 'Google',
    'thinkpad': 'Lenovo',
    'surface pro': 'Microsoft'
}

In [36]:
data['brand'] = data['device'].str.lower().map(device_to_brand) #con la funzinoe map creo una nuova colonna nel dataframe che contenga l'informazione sul brand
#nuova colonna si chiamera brand, e avrà i seguenti valori considera il valore del device, la converte a striga e poi applico la funzione map
#la funzione map viene applicata a tutte le istanze delle colonne device, prende in input la series device, e applica la funzione (nel nostro caso un dizionario)
#che indica quali sono le relazioni tra il device e il brand. creo nuova colonna che dipende dai dati di device dove le corrispondenze sono legate
#con il dizionario creato prima
data

Unnamed: 0,device,price,brand
0,iPhone,999,Apple
1,Galaxy S21,799,Samsung
2,MacBook Pro,1299,Apple
3,Pixel 6,599,Google
4,ThinkPad,1099,Lenovo
5,iPad,799,Apple
6,Surface Pro,999,Microsoft
7,galaxy tab,649,Samsung
8,Macbook air,999,Apple


### Replacing Values

- *replace*: Replace values given in *to_replace* with value.

In [37]:
#sostituizione dei dati, supponiamo di avere la series qua sotto (funziona uguale con il dataframe) e supponiamo di avere che il valore -999 rappresenti
#info mancante. uso raplace per ripiazzare il valore -999 con altri valori
data = pd.Series([1., -999., 2., -999., -1000., 3.])
data

Unnamed: 0,0
0,1.0
1,-999.0
2,2.0
3,-999.0
4,-1000.0
5,3.0


In [38]:
#rimiazzo -999 con il nan
data.replace(-999, np.nan)

Unnamed: 0,0
0,1.0
1,
2,2.0
3,
4,-1000.0
5,3.0


In [39]:
#posso rimpiazzare più valori specificati nella lista con lo stesso valore in questo caso nan
data.replace([-999, -1000], np.nan)

Unnamed: 0,0
0,1.0
1,
2,2.0
3,
4,
5,3.0


In [None]:
#se voglio invece cambiare 2valori con 2 valori diversi devo usare 2 liste di = dimensione
data.replace([-999, -1000], [np.nan, 0])

In [None]:
#si può fare con un dizionario altrimenti in cui indico come chiave il valore che voglio sostituire con il valore specificato
data.replace({-999: np.nan, -1000: 0})

### Discretization and Binning

- *cut*: Bin values into discrete intervals. Use cut when you need to segment and sort data values into bins

In [41]:
#se voglio raggruppare delle liste di grandi dimensioni può essere comodo per fare delle analisi più approfondite sui gruppi
ages = [20, 22, 25, 27, 21, 23, 37, 31, 59, 45, 41, 32]

In [42]:
bins = [18, 25, 35, 60, 100]

In [44]:
values = pd.cut(ages, bins)
#funzion cut di pandas a cui passo i valori in questo caso dell'età e i valori degli estremi degli intervalli. per es in questo caso voglio creare
#l'intervalli 18-25,25-35,35-60,60-100.
#di default in cut a sinsitra l'intervallo è aperto e a sinistra è chiuso

In [45]:
values
#i codici sono gli intervalli di appartenenza, ad ogni valore di età è stato assegnato uno dei gruppi. di base per ogni elemento della lista abbiamo l'intervallo in cui rientra
#oltre ai codici abbiamo le categorie ovvero gli intervalli considerati.


[(18, 25], (18, 25], (18, 25], (25, 35], (18, 25], ..., (25, 35], (35, 60], (35, 60], (35, 60], (25, 35]]
Length: 12
Categories (4, interval[int64, right]): [(18, 25] < (25, 35] < (35, 60] < (60, 100]]

In [None]:
type(values)

In [46]:
#si riesce a trasformare la feature di prima in cui c'erano tanti valori di età in una feature che contiene solo l'indice del gruppo a cui tale valore appartiene
values.codes

array([0, 0, 0, 1, 0, 0, 2, 1, 2, 2, 2, 1], dtype=int8)

In [47]:
values.categories

IntervalIndex([(18, 25], (25, 35], (35, 60], (60, 100]], dtype='interval[int64, right]')

In [48]:
values

[(18, 25], (18, 25], (18, 25], (25, 35], (18, 25], ..., (25, 35], (35, 60], (35, 60], (35, 60], (25, 35]]
Length: 12
Categories (4, interval[int64, right]): [(18, 25] < (25, 35] < (35, 60] < (60, 100]]

In [49]:
#These are the bin counts for the result of pandas.cut.
pd.value_counts(values) #per ogni gruppo mi dice quanti elementi vi rientrano

  pd.value_counts(values)


Unnamed: 0,count
"(18, 25]",5
"(35, 60]",4
"(25, 35]",3
"(60, 100]",0


In [51]:
#parenthesis means that the side is open,
#while the square bracket means it is closed (inclusive).
#You can change which side is closed by passing right=False:
pd.cut(ages, [18, 26, 36, 61, 100], right=False) #right = false andarà a modificare il comportamento per cui avrò a destra chiuso e a sinsitra aperto

[[18, 26), [18, 26), [18, 26), [26, 36), [18, 26), ..., [26, 36), [36, 61), [36, 61), [36, 61), [26, 36)]
Length: 12
Categories (4, interval[int64, left]): [[18, 26) < [26, 36) < [36, 61) < [61, 100)]

In [52]:
#You can also pass your own bin names by passing a list or array to the labels option:
group_names = ['Youth', 'YoungAdult', 'MiddleAged', 'Senior']
new_ages = pd.cut(ages, bins, labels=group_names)

In [53]:
new_ages.categories

Index(['Youth', 'YoungAdult', 'MiddleAged', 'Senior'], dtype='object')

In [54]:
pd.value_counts(new_ages)

  pd.value_counts(new_ages)


Unnamed: 0,count
Youth,5
MiddleAged,4
YoungAdult,3
Senior,0


In [55]:
# passing an integer, it will compute
#equal-length bins based on the minimum and maximum values in the data.
data = np.random.rand(20)
data

array([0.21770938, 0.19145624, 0.50475531, 0.8497309 , 0.92202612,
       0.74080339, 0.61482171, 0.02171792, 0.14021543, 0.44676808,
       0.05012431, 0.09534054, 0.82322272, 0.3032189 , 0.79330476,
       0.99763985, 0.24848255, 0.05413137, 0.97181939, 0.23477665])

In [57]:
pd.cut(data, 13).categories #in questo modo i dati vengono divisi in automatico in 13 gruppi. non mi vado a preoccupare di specificare i vari intervalli
#vengono creati tutti gruppi della stessa ampiezza.

IntervalIndex([(0.0207, 0.0968],  (0.0968, 0.172],   (0.172, 0.247],
                 (0.247, 0.322],   (0.322, 0.397],   (0.397, 0.472],
                 (0.472, 0.547],   (0.547, 0.622],   (0.622, 0.697],
                 (0.697, 0.772],   (0.772, 0.847],   (0.847, 0.923],
                 (0.923, 0.998]],
              dtype='interval[float64, right]')

### Computing Indicator/Dummy Variables/ One Hot Encoding (OHE)
- This converts a categorical variable into a “dummy” or “indicator” matrix.

- If a column in a DataFrame has k distinct values,
    - you would derive a matrix or DataFrame with k columns containing all 1s and 0s.
- pandas has a get_dummies function for doing this

In [58]:

#one hot encoding, se abiamo feature categoriche come per es livello di istruzione che ptorebbe avere i valori  laurea triennal, magistrale, diploma
#non ci va bene perchè per allenare dei mdoelli ho visgono fi valori non stringhe. devo trasformare queste feature. ciò si può fare con un map con un dizionario
#oppure posso trasformare questa feature in 3 feature che contengono solo valori uguali a 0 o 1 in base alla colonna vlaore di istruzione. e ciò è datto 1 hot encoding
df = pd.DataFrame({'key': ['b', 'b', 'a', 'c', 'a', 'b'],
                   'data1': range(6)})

In [59]:
df
#colonna key è categorica conteine abc

Unnamed: 0,key,data1
0,b,0
1,b,1
2,a,2
3,c,3
4,a,4
5,b,5


In [60]:
pd.get_dummies(df['key']) #get_dummies è la funzione che prende in input la feature su cui vogli applicare il 1 hot encoding. ritorna un dataframe
#con tante colonne quanti sono i valori unici all'interno della colonna di partenza. siccome erano abc crea 3 colonne che hanno valori true o false
#in base al fatto che nella colonna key avevamo a b o c. di default ritorna booleani
#con one hot encoding

Unnamed: 0,a,b,c
0,False,True,False
1,False,True,False
2,True,False,False
3,False,False,True
4,True,False,False
5,False,True,False


In [61]:
pd.get_dummies(df['key'], dtype='int') #per usare 0 e 1 anzi che true e false

Unnamed: 0,a,b,c
0,0,1,0
1,0,1,0
2,1,0,0
3,0,0,1
4,1,0,0
5,0,1,0


In [62]:
#abbiamo però perso la colonna data1. mi salvo quindi il risultato in dummies
dummies = pd.get_dummies(df['key'], prefix='key') #il predix key ci mantiene l'info della colonna di partenza da cui derivavano i dati

In [63]:
dummies

Unnamed: 0,key_a,key_b,key_c
0,False,True,False
1,False,True,False
2,True,False,False
3,False,False,True
4,True,False,False
5,False,True,False


In [64]:
df[['data1']]

Unnamed: 0,data1
0,0
1,1
2,2
3,3
4,4
5,5


In [65]:
#to join the result in the original dataframe
df_with_dummy = df[['data1']].join(dummies) #faccio un join tra dummies e data1 in modo da mantere tutte le info che avevamo prima
df_with_dummy

Unnamed: 0,data1,key_a,key_b,key_c
0,0,False,True,False
1,1,False,True,False
2,2,True,False,False
3,3,False,False,True
4,4,True,False,False
5,5,False,True,False
