# Assistant AI Intégré

## Expliquer le contenu du code 
>L'assistant AI de Databrick peut être utilisé pour expliquer le contenu d'une cellule.
- Selectionner la cellule du bas.
- Ouvrir la fenêtre de l'assistant AI (CTRL-I)
- Écrire la commande suivante /explain
- Appuyer sur Generer

In [0]:
# Import necessary libraries
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split

# Sample dataset
X = np.array([1, 2, 3, 4, 5]).reshape(-1, 1)  # Independent variable
y = np.array([1.5, 3.7, 2.8, 4.9, 6.1])      # Dependent variable

# Split the dataset into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Create and train the Linear Regression model
model = LinearRegression()
model.fit(X_train, y_train)

# Make predictions
y_pred = model.predict(X_test)

# Print model coefficients
print(f"Coefficient (slope): {model.coef_[0]}")
print(f"Intercept: {model.intercept_}")

# Plot the results
plt.scatter(X, y, color='blue', label='Data points')
plt.plot(X, model.predict(X), color='red', label='Regression line')
plt.xlabel('Independent Variable')
plt.ylabel('Dependent Variable')
plt.legend()
plt.show()

## Refactorisation du code (standardisé PEP8)
>L'assistant AI de Databrick peut être utilisé pour réorganiser votre code, afin de le rendre plus lisible.
- Selectionner la cellule du bas.
- Ouvrir la fenêtre de l'assistant AI (CTRL-I)
- Écrire la prompt suivante : refactor the code to be complaint with PEP8
- Appuyer sur Generer

In [0]:
# Import necessary libraries
import numpy as np
import matplotlib.pyplot as plt

#Les noms de fonctions doivent etre en miniscule
#Séparer les noms par des underscore _
def GenererDonneesAleatoires(n):
    return np.random.rand(n, 2) * 100

#Les nom de variables doivent etre en miniscule
#Les noms doivent être séparer par un underscore _ ex : montant_total
GENERATED-DATA = GenererDonneesAleatoires(100)
X = GENERATED-DATA[:, 0].reshape(-1, 1)

## Detections et correction des erreurs
>L'assistant AI de databrick peut détecter automatiquement les erreures et vous proposer des solutions
- Selectionner la cellule du bas.
- Ouvrir la fenêtre de l'assistant AI (CTRL-I)
- Executer la cellule
- Appuyer sur Diagnosic Error
- Utiliser l'outil de correction integré pour corriger le problème

In [0]:
import numpy as np
np.random.seed(42)

animaux = {"1":"Chien", "2":"Chat", "3":"Souris", "4":"Poisson", "5":"Ours"}
baleine = animaux["6"] # Depassement de memoire

print(baleine)




## Convertion SQL en Python (et inversement)
>L'assistant AI de databrick peut convertir le language SQL en Python et inverssement.
- Selectionner la cellule du bas.
- Ouvrir la fenêtre de l'assistant AI (CTRL-I).
- Écrire la prompt ci-dessous.
- Appuyer sur Generer
***
*Considering that system.serving.endpoint_usage is related to databrick system database. Convert the SQL code into python code using pyspark as library.*

[Note] Nous devons, dans ce cas-ci indiquer à l'assistant AI le context, car dans le monde de Python le chemin system, peut référencer sur autre chose qu'une base de données. Nous devons donc spécifier à l'assistant que system.service.endpoint_usage est un chemin vers une base de données.

In [0]:
%sql
SELECT * FROM system.serving.endpoint_usage t where t.status_code = 200

## Convertion entre librairies Python (Pandas convertie en pyspark)
>L'assistant AI de databrick peut convertir aussi entre deux librairie Python. Dans le cas ci-présent on convertie de Pandas vers Pyspark, ce qui va nous permettre d'augmenter la perfomance de calcul
- Selectionner la cellule du bas.
- Ouvrir la fenêtre de l'assistant AI (CTRL-I)
- Écrire la prompt ci-dessous
- Appuyer sur Generer
***
*Convert the code from the pandas librarie into pyspark librarie code. make sure the import are converted too.*

In [0]:
import pandas as pd

#Cree un jeux de données
df = pd.DataFrame({
    'Nom': [1, 2, 3],
    'Code Postal': [4, 5, 6],
    'Age': [38, 21, 19]
    })

#Modifier nom de colone
df = df.rename(columns={'Code Postal': 'CP'})

## Generation de code
>L'assistant AI de Datbrick peut générer du code de qualité pour vous à partir de vos instructions.
- Selectionner la cellule du bas (la cellule est vide, c'est normal).
- Ouvrir la fenêtre de l'assistant AI (CTRL-I)
- Écrire la prompt ci-dessous
- Appuyer sur Generer
***
*Create a linear regression of type y = mx+b and test the regression using b = 0, m = 0.5 and x = 10, 15, 20, 25, 35, 45, 70 and create a plot diagrame to show the distribution*

## Manipulation & Transformation des données
>L'assistant AI de Datbrick peut modifier et transformer votre jeux de données.
- Selectionner la cellule du bas (la celulle est vide, c'est normal).
- Ouvrir la fenêtre de l'assistant AI (CTRL-I)
- Écrire la prompt suivante ci-dessous
- Appuyer sur generer
***
*Using pyspark.pandas, load the CSV file located at /databricks-datasets/airlines/part-00000. 
Just bring back those columns Year, Month, ArrTime, UniqueCarrier, FlightNum, Distance. 
Remove all rows where the Column Distance have a null or NaN. 
Convert the values in the Distance column into a float32 type and reshape the value into a 2D array.
Normalize the values in the column Distance.
Finally export the Distance column values into a numpy array and display a plot diagramme of the numpy array values*