# Analisi dati pandas #

In [1]:
import pandas as pd

#### 1. Caricare il csv allegato in un dataframe e stampare le prime e le ultime cinque righe ####

##### Spiegazioni #####

1. **Caricamento del file CSV in un DataFrame:**
    - per prima cosa, ho caricato il file `Automobile_data.csv` in un DataFrame utilizzando il metodo `pd.read_csv()`;
    - imposto la colonna `index` come indice per le righe.

In [2]:
df = pd.read_csv("Automobile_data.csv",  index_col="index")

2. **Visualizzazione delle prime cinque righe**:
    - per visualizzare le prime cinque righe del DataFrame, ho utilizzato il metodo `df.head()`. Questo metodo restituisce le prime 5 righe del DataFrame per default.

In [3]:
df.head()

Unnamed: 0_level_0,company,body-style,wheel-base,length,engine-type,num-of-cylinders,horsepower,average-mileage,price
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
0,alfa-romero,convertible,88.6,168.8,dohc,four,111,21,13495.0
1,alfa-romero,convertible,88.6,168.8,dohc,four,111,21,16500.0
2,alfa-romero,hatchback,94.5,171.2,ohcv,six,154,19,16500.0
3,audi,sedan,99.8,176.6,ohc,four,102,24,13950.0
4,audi,sedan,99.4,176.6,ohc,five,115,18,17450.0


3. **Visualizzazione delle ultime cinque righe**:
    - per visualizzare le ultime cinque righe del DataFrame, ho utilizzato il metodo `df.tail()`. Questo metodo restituisce le utime 5 righe del DataFrame per default.

In [4]:
df.tail()

Unnamed: 0_level_0,company,body-style,wheel-base,length,engine-type,num-of-cylinders,horsepower,average-mileage,price
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
81,volkswagen,sedan,97.3,171.7,ohc,four,85,27,7975.0
82,volkswagen,sedan,97.3,171.7,ohc,four,52,37,7995.0
86,volkswagen,sedan,97.3,171.7,ohc,four,100,26,9995.0
87,volvo,sedan,104.3,188.8,ohc,four,114,23,12940.0
88,volvo,wagon,104.3,188.8,ohc,four,114,23,13415.0


#### 2. Sostituire tutti i valori delle colonne che contengono ?, n.a in valori mancanti. ####

Per sostituire tutti i valori che contengono "?" e "n.a" con valori mancanti, ho utilizzato il metodo `isin()` insieme a `where()`. Il metodo `isin()` mi permette di identificare i valori "?" e "n.a" in tutto il DataFrame, mentre `where()` sostituisce quei valori con `pd.NA`, che rappresenta un valore mancante in pandas.

##### Spiegazioni #####
- `df.isin(['?', 'n.a'])` crea una maschera booleana che è True per le celle che contengono "?" o "n.a";
- `pd.where()` sostituisce i valori in un DataFrame con un valore specifico dove una condizione è **falsa**, mantenendo la struttura originale. Dove la condizione è **vera**, i valori rimangono invariati. È per questo motivo che:
    - `~` inverto la maschera booleana:
        - False per le celle che contengono "?" o "n.a",
        - True per le altre;
- `df.where(~df.isin(['?', 'n.a']), pd.NA)` mantiene i valori per cui la condizione è True, mentre sostituisce i valori corrispondenti a False nella maschera con pd.NA;
- poiché il metodo `where()` non modifica il DataFrame in-place, ma restituisce una nuova copia del DataFrame, imposto `inplace=True`.

In [5]:
df.where(~df.isin(['?', 'n.a']), pd.NA, inplace=True)

Il comportamendo precedente, può essere replicato utilizzando un metodo visto di recente a lezione:

`df.replace(['?', 'n.a'], pd.NA, inplace=True)`

#### 3. Visualizzare il nome e il prezzo della marca dell'auto più costosa. ####

##### **Scelte prese** #####
Ho scelto di verificare la presenza di valori NaN nella colonna `price` per assicurarmi che tutti i dati siano completi prima di determinare l'auto più costosa. L'assunzione che faccio è che, se ci sono valori NaN, non posso calcolare correttamente l'auto più costosa, quindi devo gestire questa situazione separatamente per evitare errori o risultati imprecisi.

##### Spiegazioni ##### 
1. **Verificare la presenza di dati mancanti**:
    - sulla colonna `df["price"]` applico il metodo `.isna()` , che restituisce una Serie di valori booleani, indicando se un valore è NaN oppure no. Tramite il metodo `.any()` verifico se almeno uno degli elementi della Serie risultante è `True` (cioè se c'è almeno un valore mancante nella colonna "price").

Se questo non è verificato:

2. **Trovare l'indice della riga con il prezzo massimo**:
   - utilizzo il metodo `idxmax()` sulla colonna `price` per ottenere l'indice della riga con il valore massimo del prezzo.
3. **Selezionare la riga con il prezzo massimo**:
   - `df.loc[]` utilizzo il metodo `.loc[]` per selezionare una riga in base l'indice della riga con il prezzo massimo.
4. **Selezionare le colonne specifiche**:
   - all'interno del metodo `.loc[]`, specifico le colonne che voglio ottenere, in questo caso `company` e `price`.
  
**Visualizzazione del risultato**:
- utilizzo la Serie `risultato` per visualizzare il risultato:
  - in caso di valori mancanti, mostro un messaggio, e visualizzo la Serie vuota;
  - altrimenti visualizzo la Serie contenente il nome e il prezzo dell'auto più costosa.

In [6]:
risultato = pd.Series()

if df["price"].isna().any():
    print("Non è possibile individuare il nome e il prezzo dell'auto più costosa a causa della mancanza di dati.")
else:
    risultato = df.loc[df["price"].idxmax(), ["company", "price"]]

risultato

Non è possibile individuare il nome e il prezzo dell'auto più costosa a causa della mancanza di dati.


Series([], dtype: object)

#### 4. Visualizzare tutte le righe della auto di marca Toyota ####

##### Spiegazioni #####
1. **Accedere alle marche**:  
   - ho utilizzato `df["company"]` per accedere alla colonna contenente i nomi delle marche delle auto.
2. **Creare una maschera booleana**:  
   - ho confrontato i valori con la stringa `"toyota"`. Questo confronto ha prodotto una maschera booleana, dove:
     - `True` indica che la marca è "toyota";
     - `False` indica che la marca non è "toyota".
4. **Filtrare il DataFrame**:  
   - ho utilizzato questa maschera booleana per selezionare solo le righe del DataFrame `df` in cui il valore della colonna `company` corrisponde a "toyota".

In [7]:
df[df["company"] == "toyota"]

Unnamed: 0_level_0,company,body-style,wheel-base,length,engine-type,num-of-cylinders,horsepower,average-mileage,price
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
66,toyota,hatchback,95.7,158.7,ohc,four,62,35,5348.0
67,toyota,hatchback,95.7,158.7,ohc,four,62,31,6338.0
68,toyota,hatchback,95.7,158.7,ohc,four,62,31,6488.0
69,toyota,wagon,95.7,169.7,ohc,four,62,31,6918.0
70,toyota,wagon,95.7,169.7,ohc,four,62,27,7898.0
71,toyota,wagon,95.7,169.7,ohc,four,62,27,8778.0
79,toyota,wagon,104.5,187.8,dohc,six,156,19,15750.0


#### 5. Contare i modelli di auto di ciascuna marca ####

##### **Scelte prese** #####
Assumo che ogni modello di auto corrisponda a una riga del dataset. Quindi, per ogni marca, il numero di modelli è uguale al numero di righe del DataFrame in cui la marca appare.

##### Spiegazioni #####
1. **Calcolo il numero di modelli per ogni marca**:
    - utilizzo il metodo `value_counts()` sulla colonna `company` del DataFrame. Questo metodo restituisce una Serie in cui l'indice sono le marche presenti nel DataFrame e i valori sono il numero di modelli di ciascuna marca. Per default il metodo `value_counts()` ordina i risulatiti in modo decrescente. Ho deciso di lasciarli in questo ordine in modo da dare enfasi a quelle marche con un numero maggiore di modelli.

In [8]:
df["company"].value_counts()

company
toyota           7
bmw              6
mazda            5
nissan           5
audi             4
mercedes-benz    4
mitsubishi       4
volkswagen       4
alfa-romero      3
chevrolet        3
honda            3
isuzu            3
jaguar           3
porsche          3
dodge            2
volvo            2
Name: count, dtype: int64

#### 6. Per ciascuna marca, visualizzare l'auto più costosa #### 

##### **Scelte prese** #####
Ho scelto di verificare la presenza di valori NaN nella colonna `price` per assicurarmi che tutti i dati siano completi prima di determinare l'auto più costosa. L'assunzione che faccio è che, se ci sono valori NaN, non posso calcolare correttamente l'auto più costosa, quindi devo gestire questa situazione separatamente per evitare errori o risultati imprecisi.

##### Spiegazioni #####
1. **Ottenere le marche**:
    - estraggo tutte le marche uniche nel dataset utilizzando il metodo `unique()` sulla colonna `company` del DataFrame. Questo restituisce un array contenente i nomi di tutte le marche presenti nel DataFrame.
2. **Controllare i valori `NaN` nei prezzi**:
    - per ogni marca:
        - utilizzo una **maschera booleana** per filtrare le righe relative a quella marca `df["company"] == marca`;
        - controllo se nella colonna `price` ci sono valori mancanti per quella marca. Questo viene fatto con `df.loc[maschera, "price"].isna().any()`, che restituisce `True` se almeno uno dei prezzi è `NaN`, altrimenti `False`;
        - quando il controllo precedente rileva che ci sono prezzi mancanti:
            - creo una **riga con valori `NA`** utilizzando una Serie tramite la creazione un dizionario,
            - ogni valore è `pd.NA`, tranne per la colonna `"company"`, che viene impostata con il nome della marca corrente;
            - la riga `na_row` è poi aggiunta alla lista dei risultati;
        - se i prezzi sono tutti presenti e non ci sono valori mancanti:
            - trovo l’indice della riga con il prezzo massimo nella colonna `price` utilizzando `idxmax()`;
            - seleziono la riga corrispondente all’indice `prezzo_max` dal DataFrame originale `df` con `df.loc[prezzo_max]`, e la aggiungo alla lista dei risultati.
3. **Visualizzare i risultati**:
    - alla fine, converto la lista `risultato` in un nuovo DataFrame. Questo contiene:
        - l’auto più costosa per ciascuna marca (senza valori mancanti);
        - una riga con valori `NA` per le marche che presentano almeno un prezzo mancante.

In [9]:
marche = df["company"].unique()
risultato = []

for marca in marche:
    
    # Maschera per filtrare i dati della marca
    maschera = (df["company"] == marca)
    
    # Controllo se ci sono valori mancanti
    if df.loc[maschera, "price"].isna().any():
        
        # Creo una riga con valori NA
        na_row = pd.Series({col: pd.NA for col in df.columns}, name=pd.NA)
        na_row["company"] = marca
        risultato.append(na_row)
        
    else:
        # Calcolo l'indice del prezzo massimo e aggiungo la riga
        prezzo_max = df.loc[maschera, "price"].idxmax()
        risultato.append(df.loc[prezzo_max])

pd.DataFrame(risultato)

Unnamed: 0,company,body-style,wheel-base,length,engine-type,num-of-cylinders,horsepower,average-mileage,price
1.0,alfa-romero,convertible,88.6,168.8,dohc,four,111.0,21.0,16500.0
6.0,audi,wagon,105.8,192.7,ohc,five,110.0,19.0,18920.0
14.0,bmw,sedan,103.5,193.8,ohc,six,182.0,16.0,41315.0
18.0,chevrolet,sedan,94.5,158.8,ohc,four,70.0,38.0,6575.0
19.0,dodge,hatchback,93.7,157.3,ohc,four,68.0,31.0,6377.0
28.0,honda,sedan,96.5,175.4,ohc,four,101.0,24.0,12945.0
,isuzu,,,,,,,,
35.0,jaguar,sedan,102.0,191.7,ohcv,twelve,262.0,13.0,36000.0
43.0,mazda,sedan,104.9,175.0,ohc,four,72.0,31.0,18344.0
47.0,mercedes-benz,hardtop,112.0,199.2,ohcv,eight,184.0,14.0,45400.0


#### 7. Per ciascuna marca, visualizzare il consumo medio (mileage) #### 

##### Spiegazioni #####
1. **List comprehension per il consumo medio**:
    - per ogni marca:
        - `df[df["company"] == marca]` filtro il DataFrame per ottenere tutte le righe in cui la colonna `company` è uguale alla `marca` corrente;
        - `["average-mileage"]` seleziono la colonna `average-mileage`;
        - `.mean()` calcolo la media dei valori di `average-mileage` per la marca corrente.
5. **Visualizzare il consumo medio**:
    - la list comprehension restituisce una lista di consumi medi, che vengono associati alla colonna "Average consumption".
    - la lista `marche` è associata alla colonna "Company".

In [10]:
pd.DataFrame({"Company": marche, 
              "Average consumption": [df[df["company"] == marca]["average-mileage"].mean() for marca in marche]})

Unnamed: 0,Company,Average consumption
0,alfa-romero,20.333333
1,audi,20.0
2,bmw,19.0
3,chevrolet,41.0
4,dodge,31.0
5,honda,26.333333
6,isuzu,33.333333
7,jaguar,14.333333
8,mazda,28.0
9,mercedes-benz,18.0


#### 8. Ordinare le auto per costo in ordine decrescente #### 

##### **Scelte prese** #####
Ho deciso di posizionare i dati mancanti (NaN) all'inizio per evidenziare immediatamente le auto prive di informazioni sul `price`. Questo permette di identificare e gestire rapidamente eventuali lacune nei dati, garantendo un'analisi accurata. Inoltre, mettere i NaN in cima aiuta a evitare che vengano trascurati durante la valutazione dei modelli più costosi.

##### Spiegazioni #####
1. **Ordinamento**:  
   - ho utilizzato il metodo `sort_values()` che permette di ordinare un DataFrame in base ai valori di una o più colonne.
2. **Specificare la colonna di ordinamento**:  
   - ho indicato la colonna `price` come criterio di ordinamento tramite il parametro `by = "price"`. Questo ordina i dati in base ai valori di prezzo.
3. **Impostare l'ordinamento decrescente**:  
   - ho impostato il parametro `ascending=False` per ottenere un ordinamento in ordine decrescente.
4. **Posizionamento dei valori mancanti**:
    - come detto nelle *"scelte prese"* u posiziono i dati mancanti all'inizio dell'ordinamento tramite `na_position="first"`.

In [12]:
df.sort_values(by = "price", ascending=False, na_position="first")

Unnamed: 0_level_0,company,body-style,wheel-base,length,engine-type,num-of-cylinders,horsepower,average-mileage,price
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
31,isuzu,sedan,94.5,155.9,ohc,four,70,38,
32,isuzu,sedan,94.5,155.9,ohc,four,70,38,
63,porsche,hatchback,98.4,175.7,dohcv,eight,288,17,
47,mercedes-benz,hardtop,112.0,199.2,ohcv,eight,184,14,45400.0
14,bmw,sedan,103.5,193.8,ohc,six,182,16,41315.0
...,...,...,...,...,...,...,...,...,...
37,mazda,hatchback,93.1,159.1,ohc,four,68,31,6095.0
49,mitsubishi,hatchback,93.7,157.3,ohc,four,68,37,5389.0
66,toyota,hatchback,95.7,158.7,ohc,four,62,35,5348.0
36,mazda,hatchback,93.1,159.1,ohc,four,68,30,5195.0
