In [1]:
!apt-get install -y r-base
!pip install rpy2


Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
r-base is already the newest version (4.4.3-1.2204.0).
0 upgraded, 0 newly installed, 0 to remove and 29 not upgraded.


In [2]:
%load_ext rpy2.ipython


In [3]:
!R --version


R version 4.4.3 (2025-02-28) -- "Trophy Case"
Copyright (C) 2025 The R Foundation for Statistical Computing
Platform: x86_64-pc-linux-gnu

R is free software and comes with ABSOLUTELY NO WARRANTY.
You are welcome to redistribute it under the terms of the
GNU General Public License versions 2 or 3.
For more information about these matters see
https://www.gnu.org/licenses/.



In [4]:
%%R
install.packages("MASS", repos="http://cran.rstudio.com")
install.packages("caTools", repos="http://cran.rstudio.com")


Installing package into ‘/usr/local/lib/R/site-library’
(as ‘lib’ is unspecified)
trying URL 'http://cran.rstudio.com/src/contrib/MASS_7.3-65.tar.gz'
Content type 'application/x-gzip' length 510322 bytes (498 KB)
downloaded 498 KB


The downloaded source packages are in
	‘/tmp/RtmpGZ42t9/downloaded_packages’
Installing package into ‘/usr/local/lib/R/site-library’
(as ‘lib’ is unspecified)
also installing the dependency ‘bitops’

trying URL 'http://cran.rstudio.com/src/contrib/bitops_1.0-9.tar.gz'
Content type 'application/x-gzip' length 10941 bytes (10 KB)
downloaded 10 KB

trying URL 'http://cran.rstudio.com/src/contrib/caTools_1.18.3.tar.gz'
Content type 'application/x-gzip' length 65825 bytes (64 KB)
downloaded 64 KB


The downloaded source packages are in
	‘/tmp/RtmpGZ42t9/downloaded_packages’


In [5]:
%%R
library(MASS)
library(caTools)


In [7]:
#Ce code entraîne un modèle de régression linéaire multiple pour prédire le profit (Profit) d'une startup en fonction de plusieurs variables (R&D Spend, Administration, Marketing Spend, State).
# Multiple Linear Regression
#partie 1 ex2
%%R
# Importer le dataset
dataset = read.csv('50_Startups.csv')

# Encodage des données catégorielles,Convertit la colonne State (état de la startup) en valeurs numériques (1 = New York, 2 = California, 3 = Florida). Ceci est nécessaire car lm() ne peut pas traiter directement des chaînes de caractères.
dataset$State = factor(dataset$State,
                       levels = c('New York', 'California', 'Florida'),
                       labels = c(1, 2, 3))

# Splitting the dataset into the Training set and Test set
# install.packages('caTools')  # Décommenter si besoin d'installer caTools
library(caTools)

# Fixer la graine pour rendre la séparation reproductible
set.seed(123)

# Split dataset into training dataset (80%) and testing dataset (20%)
split = sample.split(dataset$Profit, SplitRatio = 0.8)
training_set = subset(dataset, split == TRUE)
test_set = subset(dataset, split == FALSE)

# Feature Scaling (non utilisé ici, mais peut être activé si nécessaire)
# training_set = scale(training_set)
# test_set = scale(test_set)

#  Fitting Multiple Linear Regression to the Training set
regressor = lm(formula = Profit ~ ., data = training_set)

# Predicting the Test set results
y_pred = predict(regressor, newdata = test_set)

# Afficher les valeurs réelles et prédites
results = data.frame(Real_Profit = test_set$Profit, Predicted_Profit = y_pred)
print(results)

   Real_Profit Predicted_Profit
4    182901.99        173981.09
5    166187.94        172655.64
8    155752.60        160250.02
11   146121.95        135513.90
16   129917.04        146059.36
20   122776.86        114151.03
21   118474.03        117081.62
24   108733.99        110671.31
31    99937.59         98975.29
32    97483.56         96867.03


# Rapport d'Analyse : Modèle de Régression Linéaire Multiple pour la Prédiction du Profit des Startups

## Résumé
Ce rapport présente l'analyse d'un modèle de régression linéaire multiple développé pour prédire le profit des startups en fonction de leurs dépenses en R&D, administration, marketing, ainsi que de leur localisation géographique.

## Méthodologie
Le modèle a été construit à partir du jeu de données "50_Startups.csv", contenant des informations sur 50 startups. Les variables explicatives utilisées sont les dépenses en R&D, les dépenses administratives, les dépenses marketing et l'état d'implantation (New York, Californie, Floride). La variable cible est le profit.

Les données ont été prétraitées en encodant la variable catégorielle "State" en valeurs numériques (1, 2, 3). Ensuite, le jeu de données a été divisé en ensemble d'entraînement (80%) et ensemble de test (20%), avec une graine aléatoire fixée à 123 pour assurer la reproductibilité.

Un modèle de régression linéaire multiple a été entraîné sur l'ensemble d'entraînement en utilisant la fonction lm() de R, selon la formule `Profit ~ R.D.Spend + Administration + Marketing.Spend + State`.

## Résultats
Les résultats montrent que le modèle présente des performances variables selon les observations. Pour les startups avec des profits inférieurs à 100 000, les prédictions sont très précises avec des écarts inférieurs à 1%. Pour les profits moyens (entre 100 000 et 150 000), les écarts sont généralement contenus entre 1% et 7%. Pour les profits élevés (supérieurs à 150 000), les écarts peuvent atteindre jusqu'à 12%.

L'écart moyen absolu est d'environ 4.29%, ce qui représente une précision globale satisfaisante. L'écart maximal est observé pour l'observation 16, avec une surestimation de 12.43% du profit réel. À l'inverse, l'écart minimal est de seulement 0.63% pour l'observation 32.

Les prédictions sont tantôt surestimées, tantôt sous-estimées, sans tendance systématique apparente, ce qui suggère que le modèle n'est pas biaisé dans une direction particulière.

## Analyse des performances
L'analyse des résultats révèle que le modèle est plus précis pour les profits modérés et bas. Pour les profits élevés, la précision diminue légèrement, ce qui pourrait indiquer que la relation entre les variables explicatives et le profit n'est pas parfaitement linéaire sur toute la plage des données.

Les écarts semblent plus importants pour les startups à profit élevé, ce qui pourrait suggérer que d'autres facteurs non pris en compte par le modèle influencent davantage ces entreprises à forte rentabilité.

## Conclusion
Le modèle de régression linéaire multiple démontre une capacité satisfaisante à prédire le profit des startups. La majorité des prédictions présente un écart inférieur à 5%, ce qui est acceptable dans ce contexte d'analyse prédictive.

Cependant, quelques prédictions présentent des écarts plus importants, notamment pour les profits élevés. L'observation 16 en particulier présente une surestimation significative de 12.43%.
