In [10]:
%matplotlib inline

In [14]:
import pandas as pd
import seaborn as sns
import matplotlib as plt
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score, mean_squared_error
import numpy as np 

In [None]:
df = pd.read_csv("https://frenzy86.s3.eu-west-2.amazonaws.com/python/data/Startup.csv")
df = df.copy()
df

In [None]:
X = df[['R&D Spend','Administartion','Marketing Spend']]
y = df['Profit'] # variabile dipendente, target

# STEP 1
# training e test (train = quello che do in pasto al modello; test = la verifica che viene fatta su train)
X_train, X_test, y_test, y,test = train_test_split(X, y, test_size = 0.2, random_state = 42 ) #metodo che prende i valori di x e y, ne testa il 20% (o.2), random_state è la ripetizione che svolge per 42 volte

# STEP 2
# creo il modello di regressione lineare
model = LinearRegression()

# adattare il modello ai dati
model.fit(x_train, y_train)

In [None]:
pip install --upgrade matplotlib

In [None]:
# Calcola la matrice di correlazione
correlation_matrix = df.corr()

# Crea la figura con dimensioni appropriate
plt.figure(figsize=(10, 8))

# Crea l'heatmap
sns.heatmap(correlation_matrix, 
            annot=True,          # Mostra i valori numerici
            cmap='coolwarm',     # Schema colori (rosso per correlazioni positive, blu per negative)
            center=0,            # Centra la scala dei colori sullo 0
            fmt='.2f',           # Formato numerico con 2 decimali
            square=True,         # Celle quadrate
            vmin=-1, vmax=1)     # Range dei valori

plt.title('Matrice di Correlazione')
plt.tight_layout()
plt.show()

In [6]:
def create_scatter_plot(df, x_col, y_col, title='Scatter Plot', x_label='Profit', y_label='R&D Spend'):
    """
    Crea uno scatter plot da un DataFrame.

    Parameters:
    - df: il DataFrame contenente i dati
    - x_col: il nome della colonna per l'asse X
    - y_col: il nome della colonna per l'asse Y
    - title: il titolo del grafico
    - x_label: l'etichetta dell'asse X
    - y_label: l'etichetta dell'asse Y
    """
    plt.figure(figsize=(8, 5))
    plt.scatter(df[x_col], df[y_col], color='blue', marker='o')  # Usa x_col e y_col invece di stringhe hardcoded
    plt.title(title)
    plt.xlabel(x_label)
    plt.ylabel(y_label)
    plt.grid()
    plt.show(block=True)  # Aggiunto block=True per forzare la visualizzazione

In [None]:
create_scatter_plot(df, 'R&D Spend', 'Profit')

In [8]:
def create_linear_regression(df, x_col, y_col, title='Regressione Lineare'):
    # Prepara i dati
    X = df[x_col].values.reshape(-1, 1)  # Reshape necessario per scikit-learn
    y = df[y_col].values

    # Crea e addestra il modello
    model = LinearRegression()
    model.fit(X, y)

    # Fai predizioni
    y_pred = model.predict(X)

    # Calcola le metriche
    r2 = r2_score(y, y_pred)
    mse = mean_squared_error(y, y_pred)
    rmse = np.sqrt(mse)

    # Crea il plot
    plt.figure(figsize=(10, 6))
    
    # Scatter plot dei dati originali
    plt.scatter(X, y, color='blue', alpha=0.5, label='Dati reali')
    
    # Linea di regressione
    plt.plot(X, y_pred, color='red', label=f'Regressione (R² = {r2:.3f})')
    
    plt.title(title)
    plt.xlabel(x_col)
    plt.ylabel(y_col)
    plt.legend()
    plt.grid(True)
    
    # Stampa i risultati
    print(f'Coefficiente: {model.coef_[0]:.2f}')
    print(f'Intercetta: {model.intercept_:.2f}')
    print(f'R²: {r2:.3f}')
    print(f'RMSE: {rmse:.2f}')
    
    plt.show()
    
    return model  # Ritorna il modello per uso futuro

# Uso della funzione
# model = create_linear_regression(df, 'R&D Spend', 'Profit')

In [None]:
model = create_linear_regression(df, 'R&D Spend', 'Profit', 'R&D Spend vs Profit')