In [1]:
import pandas as pd
import numpy as np

### Partie A - Nettoyage des données

#### Question 1 :  Cleaning variable availability

La variable availability contient des chaînes de caractères. Transformer ces valeurs en des valeurs de type datetime en faisant l'hypothèse que nous sommes le 01/01/2023 (ie pour les occurences 'Immediate Possession' et 'Ready To Move') et que l'année de toutes les dates est 2023. On remplacera les valeurs de la colonne availability par ces valeurs.

In [2]:
df = pd.read_csv("./data/dataset.csv")

df.loc[df['availability'] == 'Immediate Possession', 'availability'] = '01-Jan'
df.loc[df['availability'] == 'Ready To Move', 'availability'] = '01-Jan'
df['availability'] = pd.to_datetime(df['availability'], format='%d-%b')
df['availability'] = df['availability'] +  pd.DateOffset(years=123)

df

Unnamed: 0,area_type,availability,location,size,society,total_sqft,bath,balcony,price
0,Super built-up Area,2023-12-19,Electronic City Phase II,2 BHK,Coomee,1056,2.0,1.0,39.07
1,Plot Area,2023-01-01,Chikka Tirupathi,4 Bedroom,Theanmp,2600,5.0,3.0,120.00
2,Built-up Area,2023-01-01,Uttarahalli,3 BHK,,1440,2.0,3.0,62.00
3,Super built-up Area,2023-01-01,Lingadheeranahalli,3 BHK,Soiewre,1521,3.0,1.0,95.00
4,Super built-up Area,2023-01-01,Kothanur,2 BHK,,1200,2.0,1.0,51.00
...,...,...,...,...,...,...,...,...,...
13315,Built-up Area,2023-01-01,Whitefield,5 Bedroom,ArsiaEx,3453,4.0,0.0,231.00
13316,Super built-up Area,2023-01-01,Richards Town,4 BHK,,3600,5.0,,400.00
13317,Built-up Area,2023-01-01,Raja Rajeshwari Nagar,2 BHK,Mahla T,1141,2.0,1.0,60.00
13318,Super built-up Area,2023-06-18,Padmanabhanagar,4 BHK,SollyCl,4689,4.0,1.0,488.00


#### Question 2:  Cleaning variable size

La variable size contient des chaînes de caractères. Regarder des valeurs et comprendre ce qu'elles veulent dire (on pourra en chercher quelques une sur internet), afin de transformer ces valeurs en des valeurs d'un type numérique (attention il y a des valeurs manquantes). On remplacera les valeurs de la colonne size par ces valeurs.

df['size'] = df['size'].replace(to_replace ='[A-Za-z]', value ='', regex = True)
df = df.fillna(0) 
#Est ce qu'on veut remplacer les NaN par des 0 ? Puis cette ligne remplace toutes cellules vides
#de toutes les colonnes par 0.

df['size'] = df['size'].astype(int)

In [3]:
df['size'] = df['size'].replace(to_replace ='[A-Za-z]', value ='', regex = True)
df['size'] = df['size'].fillna(np.NaN)
df.loc[pd.notnull(df['size']), 'size'] = df.loc[pd.notnull(df['size']), 'size'].astype(float)
df['size'] = pd.to_numeric(df['size'], errors='coerce') #Si je rajoute pas cette ligne, j'obtient un dtype = Object
# au lieu d'un dtype = float64 comme indiqué dans la partie Vérification

# Bloc à n'executer qu'une seule fois sinon les valeurs repassent en float

In [4]:
df

Unnamed: 0,area_type,availability,location,size,society,total_sqft,bath,balcony,price
0,Super built-up Area,2023-12-19,Electronic City Phase II,2.0,Coomee,1056,2.0,1.0,39.07
1,Plot Area,2023-01-01,Chikka Tirupathi,4.0,Theanmp,2600,5.0,3.0,120.00
2,Built-up Area,2023-01-01,Uttarahalli,3.0,,1440,2.0,3.0,62.00
3,Super built-up Area,2023-01-01,Lingadheeranahalli,3.0,Soiewre,1521,3.0,1.0,95.00
4,Super built-up Area,2023-01-01,Kothanur,2.0,,1200,2.0,1.0,51.00
...,...,...,...,...,...,...,...,...,...
13315,Built-up Area,2023-01-01,Whitefield,5.0,ArsiaEx,3453,4.0,0.0,231.00
13316,Super built-up Area,2023-01-01,Richards Town,4.0,,3600,5.0,,400.00
13317,Built-up Area,2023-01-01,Raja Rajeshwari Nagar,2.0,Mahla T,1141,2.0,1.0,60.00
13318,Super built-up Area,2023-06-18,Padmanabhanagar,4.0,SollyCl,4689,4.0,1.0,488.00


#### Question 3 :  Cleaning de la variable total_sqft

La variable total_sqft est la surface du bien immobilier mais est encodé en tant que string. Convertir cette valeur en une valeur d'un type numérique. On remplacera les valeurs de la colonne total_sqft par ces valeurs (il n'y a pas besoin de gérer tous les cas, on peut se contenter de 80 / 90 % des lignes qui auront une valeur non nulle renseignée et renvoyer np.nan pour les autre 10 / 20 % cas).



In [5]:
df['total_sqft'] = df['total_sqft'].str.replace('[^0-9.]', '',  regex=True) 
# Supprimer tous les caractères qui ne sont pas des chiffres ou des points décimaux
df['total_sqft'] = df['total_sqft'].str.replace(r'^(\d+\.\d+)\..*', r'\1', regex=True)
# Keeps only the part of the string that matches the pattern inside the parentheses,
# The first decimal point in the string if it is preceded by at least one digit
df['total_sqft'] = df['total_sqft'].apply(lambda x: float(x.split(' ')[0]))
df['total_sqft'] = df['total_sqft'].fillna(np.NaN)
df.loc[pd.notnull(df['total_sqft']), 'total_sqft'] = df.loc[pd.notnull(df['total_sqft']), 'total_sqft'].astype(float)

In [6]:
df

Unnamed: 0,area_type,availability,location,size,society,total_sqft,bath,balcony,price
0,Super built-up Area,2023-12-19,Electronic City Phase II,2.0,Coomee,1056.0,2.0,1.0,39.07
1,Plot Area,2023-01-01,Chikka Tirupathi,4.0,Theanmp,2600.0,5.0,3.0,120.00
2,Built-up Area,2023-01-01,Uttarahalli,3.0,,1440.0,2.0,3.0,62.00
3,Super built-up Area,2023-01-01,Lingadheeranahalli,3.0,Soiewre,1521.0,3.0,1.0,95.00
4,Super built-up Area,2023-01-01,Kothanur,2.0,,1200.0,2.0,1.0,51.00
...,...,...,...,...,...,...,...,...,...
13315,Built-up Area,2023-01-01,Whitefield,5.0,ArsiaEx,3453.0,4.0,0.0,231.00
13316,Super built-up Area,2023-01-01,Richards Town,4.0,,3600.0,5.0,,400.00
13317,Built-up Area,2023-01-01,Raja Rajeshwari Nagar,2.0,Mahla T,1141.0,2.0,1.0,60.00
13318,Super built-up Area,2023-06-18,Padmanabhanagar,4.0,SollyCl,4689.0,4.0,1.0,488.00


#### Question 4 :  Vérification


Après toutes ces étapes, la méthode `.info()` appliquée sur la DataFrame `df` doit afficher l'output suivant (où les XXXXX sont des valeurs qui dépendent de vos traitements): 

|   |              |                |                |
|--:|--------------|----------------|----------------|
| 0 | area_type    | 13320 non-null | object         | 
| 1 | availability | 13320 non-null | datetime64[ns] |
| 2 | location     | 13319 non-null | object         |
| 3 | size         | XXXXX non-null | float64        |
| 4 | society      | 7818 non-null  | object         |
| 5 | total_sqft   | XXXXX non-null | float64        |
| 6 | bath         | 13247 non-null | float64        |
| 7 | balcony      | 12711 non-null | float64        |
| 8 | price        | 13320 non-null | float64        | 

In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13320 entries, 0 to 13319
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype         
---  ------        --------------  -----         
 0   area_type     13320 non-null  object        
 1   availability  13320 non-null  datetime64[ns]
 2   location      13319 non-null  object        
 3   size          13304 non-null  float64       
 4   society       7818 non-null   object        
 5   total_sqft    13320 non-null  float64       
 6   bath          13247 non-null  float64       
 7   balcony       12711 non-null  float64       
 8   price         13320 non-null  float64       
dtypes: datetime64[ns](1), float64(5), object(3)
memory usage: 936.7+ KB
