# Import données

In [1]:
import numpy as np
import pandas as pd
from typing import List

In [2]:
from serde import deserialize, serialize
from serde.json import from_json
from dataclasses import dataclass

In [3]:
import os

In [4]:
path = os.path.dirname(os.getcwd())

In [5]:
## ajouter [] pour faire une liste
with open(path + "\Donnees\data_complete_1.json", "r") as fichier:
    data_frame_1 = fichier.read()
    
with open(path + "\Donnees\data_complete_2.json", "r") as fichier:
    data_frame_2 = fichier.read()

In [6]:
@serialize
@deserialize
@dataclass
class Annonce:
    etat : str
    marque : str
    prix : str
    serie : str
    couleur : str
    taille_ecran : str
    capacite_stockage : str
    modele : str
    megapixel : str
    systeme_exploitation : str
    resolution_ecran : str
    reseau : str
    date_de_sortie : str
    memoire : str
    vitesse_processeur : str
    nombre_coeur : str
    connecteur : str
    double_sim : str
    port_carte_SD : str
    pliable : str
    reseau_5G : str
    appareil_photo : str
    poids : str
    hauteur : str
    largeur : str
    profondeur : str
    lien : str

In [7]:
annonces_1 = from_json(List[Annonce], data_frame_1)
annonces_2 = from_json(List[Annonce], data_frame_2)

## Regroupement des bases

In [8]:
data_1 = pd.DataFrame(annonces_1)
data_2 = pd.DataFrame(annonces_2)

In [9]:
data = pd.concat([data_1, data_2], ignore_index=True)

In [10]:
## remove spaces at the beginning
for i in range(0, data.shape[1]-1):
    data.iloc[:,i] = data.iloc[:,i].str.replace("^ ", "", regex=True)

In [11]:
data = data.drop_duplicates(ignore_index=True)

In [12]:
data.describe().iloc[:,0:15]

Unnamed: 0,etat,marque,prix,serie,couleur,taille_ecran,capacite_stockage,modele,megapixel,systeme_exploitation,resolution_ecran,reseau,date_de_sortie,memoire,vitesse_processeur
count,4375,4375,4375,4375.0,4375,4375,4375,4375,4375,4375,4375.0,4375,4375,4375,4375.0
unique,3,29,1028,56.0,65,53,9,311,26,5,108.0,5,87,12,44.0
top,Parfait état,Samsung,Déjà vendu,,Noir,61,128 Go,iPhone 11,12,Android,,4G,Octobre 2020,4 Go,
freq,1490,1802,1136,1690.0,1369,576,1659,100,1800,3061,620.0,3354,325,1262,1788.0


In [13]:
data.describe().iloc[:,16:27]

Unnamed: 0,connecteur,double_sim,port_carte_SD,pliable,reseau_5G,appareil_photo,poids,hauteur,largeur,profondeur,lien
count,4375,4375,4375,4375,4375.0,4375.0,4375,4375.0,4375.0,4375.0,4375
unique,7,2,3,3,1.0,6.0,107,72.0,59.0,40.0,1227
top,USB-C + Jack 3.5mm,Non,Oui,Non,,,194 g,,,,https://www.backmarket.fr/oneplus-oneplus-8t-...
freq,1535,2764,2453,4299,4375.0,1665.0,204,3103.0,3103.0,3159.0,7


## Etat

In [14]:
data["etat"].unique()

array(['État correct', 'Très bon état', 'Parfait état'], dtype=object)

## Marques

In [15]:
data["marque"] = data["marque"].str.lower()

In [16]:
data["marque"] = data["marque"].str.replace("croscall", "crosscall").replace("xiaiomi", "xiaomi")

In [17]:
list(data["marque"].unique())

['asus',
 'apple',
 'samsung',
 'huawei',
 'google',
 'oppo',
 'xiaomi',
 'sony',
 'crosscall',
 'm.t.t',
 'oneplus',
 'nokia',
 'wiko',
 'motorola',
 'blackberry',
 'doro',
 'doogee',
 'vivo',
 'orange',
 'realme',
 'caterpillar',
 'honor',
 'alcatel']

## Prix

On enlève les smartphones déjà vendus :

In [18]:
data = data[data.prix != "Déjà vendu"]
data = data.drop_duplicates(ignore_index=True)

In [19]:
data.loc[:,"prix"] = data["prix"].str.replace(",", ".").replace("\u20AC", "", regex=True).replace("\xa0", "").replace("\u202f1", "", regex=True).replace("\u202f0", "", regex=True)
data["prix"] = data["prix"].str.replace("\u202f2", "", regex=True).replace("\u202f3", "", regex=True).replace("\u202f4", "", regex=True).astype("float")
data = data.rename(columns={"prix":"prix_euro"})

In [20]:
data.prix_euro.unique()

array([598.  , 201.  , 213.  , 263.  , 358.  , 379.  , 375.  , 354.  ,
       382.  , 380.  , 507.  , 528.  , 549.  , 210.  , 232.  , 239.  ,
       319.  , 335.  , 364.  , 204.  , 233.  , 368.8 , 389.  , 378.  ,
       145.  , 155.  , 199.  , 386.  , 395.  , 488.  , 505.  , 240.  ,
       404.  , 413.  , 536.  , 559.  , 615.  , 353.  , 419.  , 514.  ,
       208.  , 207.  , 212.  , 336.  , 338.  , 345.  , 194.  , 193.  ,
       195.  , 339.9 , 325.  , 318.  , 539.  , 529.  , 589.  , 621.  ,
       673.  , 700.  , 404.8 , 424.  , 401.  , 235.  , 254.  , 211.  ,
       680.  , 676.  , 750.  , 390.  , 436.  , 394.  , 487.  , 499.  ,
       597.  , 641.  , 658.  , 260.  , 259.  , 359.  , 376.  , 384.  ,
       115.  , 123.  , 299.99, 305.  , 377.  , 423.  , 430.  , 405.  ,
       351.  , 172.84, 191.  , 602.04, 574.  , 595.  , 179.  , 230.  ,
       406.  , 416.  , 308.  , 341.  , 269.  , 262.  ,  98.  , 429.  ,
       399.  , 349.  , 289.  , 229.  , 245.  , 604.  , 611.  , 639.  ,
      

## Série

In [21]:
data["serie"] = data["serie"].str.lower()

In [22]:
list(data["serie"].sort_values().unique())

['',
 '11t pro',
 'find x',
 'galaxy',
 'galaxy a',
 'galaxy a6',
 'galaxy core',
 'galaxy j',
 'galaxy j6',
 'galaxy j7',
 'galaxy note',
 'galaxy s',
 'galaxy s3',
 'galaxy s4',
 'galaxy s5',
 'galaxy s6',
 'galaxy s8',
 'galaxy s9',
 'galaxy xcover',
 'galaxy z',
 'google pixel',
 'google pixel 3',
 'huawei mate',
 'huawei p',
 'huawei p smart',
 'huawei p30',
 'huawei p8',
 'huawei p9',
 'huawei y',
 'iphone 11',
 'iphone 12',
 'iphone 13',
 'iphone 6',
 'iphone 7',
 'iphone 8',
 'iphone se',
 'iphone x, xr, xs',
 'motorola moto g',
 'oneplus 5',
 'oneplus 6',
 'oneplus 7',
 'p',
 'p series',
 'pixel',
 'poco x',
 'redmi',
 'redmi note',
 'xiaomi mi',
 'xiaomi mi 9',
 'xiaomi redmi note',
 'xperia',
 'xperia e',
 'xperia l',
 'xperia xa',
 'xperia xz']

## Couleur

In [23]:
data["couleur"] = data["couleur"].str.lower().replace("(product)red", "rouge")

In [24]:
data["couleur"].unique()

array(['argent', 'gris sidéral', 'noir', 'or', 'noir carbone', 'rouge',
       'mauve', 'ultra violet', 'blanc', 'bleu corail', 'bleu', 'vert',
       'vert nuit', 'corail', 'gris titane', 'bleu pacifique', 'or rose',
       'jaune', 'graphite', 'or (sunrise gold)', 'gris orchidée', 'rose',
       'bleu aurore', 'gris', 'noir de jais', 'nacré', 'bleu subtil',
       'bourgogne', 'argent stellaire', 'noir prisme', 'violet',
       'argent polaire', 'gris de minuit', 'rose pourpre', 'blanc prisme',
       'gris cosmique', 'bronze', 'phantom black', 'argent givré',
       'lavande', 'emeraude', 'twilight', 'minuit', 'azur',
       'vert tropical', 'noir cosmique', 'blanc céramique',
       'plus que blanc', 'noir/orange', 'vert prisme', 'beige', 'marron',
       'bleu horizon', 'amande', 'orange', 'midgnight black', 'noir/bleu',
       'cyan', 'noir/rouge', 'noir céramique', 'bleu argent',
       'prism crush black', '', 'menthe'], dtype=object)

## Taille écran

In [25]:
data["taille_ecran"] = data["taille_ecran"].str.replace(",", ".").astype("float")
data = data.rename(columns={"taille_ecran":"taille_ecran_pouce"})

In [26]:
data["taille_ecran_pouce"].unique()

array([5.9 , 4.7 , 6.1 , 5.8 , 6.2 , 6.4 , 5.5 , 4.  , 6.7 , 5.1 , 5.2 ,
       6.5 , 5.4 , 6.15, 5.  , 5.6 , 4.5 , 6.  , 7.6 , 6.8 , 6.9 , 6.3 ,
       5.84, 6.57, 6.53, 4.95, 6.55, 6.67, 5.7 , 6.6 , 6.58, 6.47, 6.44,
       6.28, 6.39, 6.78, 6.81, 6.41, 6.21, 8.  , 6.43, 5.3 , 5.45, 5.99,
       6.52, 6.26, 6.22, 4.3 , 7.3 , 6.09, 6.01, 4.2 , 2.4 ])

## Capacité de stockage

In [27]:
data = data.rename(columns={"capacite_stockage":"capacite_stockage_Go"})

In [28]:
data["capacite_stockage_Go"] = data["capacite_stockage_Go"].str.replace(",", ".")
data["capacite_stockage_Go"] = data["capacite_stockage_Go"].str.replace(" Go", "").astype("float")

In [29]:
data["capacite_stockage_Go"].unique()

array([1.28e+02, 6.40e+01, 3.20e+01, 2.56e+02, 1.60e+01, 8.00e+00,
       5.12e+02, 4.00e+00, 4.00e-03])

## Modèle

In [30]:
data["modele"] = data["modele"].str.replace("\(", "", regex=True).replace("\)", "", regex=True)
data["modele"] = data["modele"].str.replace("\+", " plus", regex=True)

In [31]:
data["modele"] = data["modele"].str.lower()

Lorsqu'il y a l'année, le téléphone est bien différent.

In [24]:
list(data["modele"].sort_values(ascending=True).unique())

['ASUS Smartphone Zenfone 8 Silver 128 Go 5G',
 'Alcatel 2053D',
 'BlackBerry Leap',
 'Caterpillar S30',
 'Crosscall Action X3',
 'Crosscall Core M4',
 'Crosscall Core X3',
 'Crosscall Core X4',
 'Crosscall Trekker M1 Core',
 'Crosscall Trekker X3',
 'Crosscall Trekker X4',
 'Doogee S96 Pro',
 'Doro 8042',
 'Galaxy A01 Core',
 'Galaxy A02',
 'Galaxy A02S',
 'Galaxy A03S',
 'Galaxy A03s',
 'Galaxy A10',
 'Galaxy A10S',
 'Galaxy A12',
 'Galaxy A20',
 'Galaxy A20E',
 'Galaxy A20e',
 'Galaxy A21S',
 'Galaxy A22',
 'Galaxy A22 5G',
 'Galaxy A3',
 'Galaxy A3 2014',
 'Galaxy A3 2015',
 'Galaxy A3 2016',
 'Galaxy A3 2017',
 'Galaxy A30s',
 'Galaxy A32',
 'Galaxy A32 5G',
 'Galaxy A40',
 'Galaxy A41',
 'Galaxy A42 5G',
 'Galaxy A5 2015',
 'Galaxy A5 2016',
 'Galaxy A5 2017',
 'Galaxy A50',
 'Galaxy A51',
 'Galaxy A51 5G',
 'Galaxy A52',
 'Galaxy A52 5G',
 'Galaxy A52S 5G',
 'Galaxy A52s',
 'Galaxy A52s 5G',
 'Galaxy A6',
 'Galaxy A6 2018',
 'Galaxy A6 Plus 2018',
 'Galaxy A7',
 'Galaxy A7 2018'

Parce qu'il y a beaucoup de modèles différents, cette variable sera enlevée dans le machine learning mais elle reste importante pour limiter le nombre de doublons.

## Megapixels

In [32]:
data["megapixel"] = data["megapixel"].str.replace("MP", "").replace("\s", "", regex=True)
data["megapixel"] = data["megapixel"].replace("\+", "/", regex=True)
data["megapixel"].unique()

array(['', '12', '16', '13', '24', '48', '40', '64', '12/16', '5', '25',
       '19', '24/8/2', '108', '8', '32', '12,2', '50', '20', '23', '3',
       '12/12/16', '18', '8/10/12/12/16', '13/8'], dtype=object)

## Système d'exploitation

In [33]:
data["systeme_exploitation"].unique()

array(['', 'iOS', 'Android', 'Huawei Mobile Services', 'BlackBerry OS'],
      dtype=object)

## Résolution écran

In [34]:
data["resolution_ecran"] = data["resolution_ecran"].str.lower().replace("full hd", "1920x1080")
data["resolution_ecran"] = data["resolution_ecran"].str.replace("pixels", "").replace("\*", "x", regex=True).replace("\×", "x", regex=True)
data["resolution_ecran"] = data["resolution_ecran"].str.replace("6.42 inches", "", regex=True).replace("\s", "", regex=True)

In [35]:
len(data["resolution_ecran"].unique())

76

In [36]:
data.loc[:, "resolution_ecran"]

0                
1        750x1334
2        750x1334
3        750x1334
4        828x1792
          ...    
3234    1080x2640
3235             
3236             
3237      480x854
3238      480x854
Name: resolution_ecran, Length: 3239, dtype: object

In [44]:
for i in data.index:
    resolution = data.loc[i,"resolution_ecran"]
    if resolution != "":
        resolution_1, resolution_2 = resolution.split("x")
        if int(resolution_1) > int(resolution_2):
            data.loc[i,"resolution_ecran"] = data.loc[i,"resolution_ecran"].replace(resolution, f"{resolution_2}x{resolution_1}")

len(data["resolution_ecran"].unique())

51

## Réseau

In [37]:
data["reseau"].unique()

array(['', '4G', '5G', '3G', '2G'], dtype=object)

## Date de sortie

In [38]:
data["date_de_sortie"] = data["date_de_sortie"].str.replace("25", "").replace("[A-Z, a-z, é, û]", "", regex=True)

In [39]:
data["date_de_sortie"].unique()

array(['', '2017', '2018', '2019', '2020', '2016', '2015', '2010', '2014',
       '2021', '2013', '2012'], dtype=object)

## Mémoire

In [40]:
data["memoire"] = data["memoire"].str.replace("[A-Z, a-z]", "", regex=True).replace("", np.NaN).astype("float")

In [41]:
data["memoire"].unique()

array([   nan,  2.   ,  3.   ,  4.   ,  8.   ,  6.   , 15.   , 12.   ,
        1.   ,  1.5  ,  0.512])

## Vitesse processeur

In [42]:
data["vitesse_processeur"] = data["vitesse_processeur"].str.replace(",", ".").replace(" GHz", "", regex=True)
data["vitesse_processeur"] = data["vitesse_processeur"].replace("", np.NaN).astype("float")

In [43]:
data["vitesse_processeur"].unique()

array([   nan,   2.39,   2.5 ,   2.66,   2.34,   2.7 ,   1.7 ,   2.73,
         3.1 ,   1.84,   2.3 ,   1.9 ,   2.65,   2.8 ,   1.6 ,   2.36,
         2.2 ,   1.4 ,   2.23,   1.5 ,   1.2 ,   2.6 ,   2.35,   1.77,
         2.4 ,   2.84, 266.  ,  16.  ,   2.  ,   1.8 ,   1.78,   1.3 ,
         2.53,   1.  ,   2.42,   2.1 ,   2.9 ,   2.45,   8.  ,   2.15,
        24.  ,   1.45,   2.96,   1.1 ])

In [44]:
data = data.rename(columns={"vitesse_processeur":"vitesse_processeur_GHz"})

## Connecteur

In [45]:
data["connecteur"].unique()

array(['', 'Lightning', 'micro USB + Jack 3.5mm', 'USB-C + Jack 3.5mm',
       'Lightning + Jack 3.5mm', 'USB-C', 'micro USB'], dtype=object)

## Double sim

In [46]:
data["double_sim"].unique()

array(['Oui', 'Non'], dtype=object)

## Port carte SD

In [47]:
data["port_carte_SD"].unique()

array(['', 'Non', 'Oui'], dtype=object)

In [48]:
data["port_carte_SD"] = data["port_carte_SD"].str.replace(" ", "").replace("", "Non")

In [49]:
data["port_carte_SD"].unique()

array(['Non', 'Oui'], dtype=object)

## Pliable

In [50]:
data["pliable"] = data["pliable"].str.replace(" ", "").replace("", "Non")

In [51]:
data["pliable"].unique()

array(['Non', 'Oui'], dtype=object)

## Réseau 5G

In [52]:
data["reseau_5G"].unique()

array([''], dtype=object)

Problème avec cette variable, elle sera enlevée.

In [53]:
data = data.drop(columns="reseau_5G")

## Appareil photo

In [54]:
data["appareil_photo"].unique()

array(['', 'Simple (1x)', 'Double (2x)', 'Triple (3x)', 'Quadruple (4x)',
       'Quintuple (5x)'], dtype=object)

## Poids

In [55]:
data["poids"] = data["poids"].str.replace(" g", "").astype("int")

In [56]:
data[data.poids==2500]

Unnamed: 0,etat,marque,prix_euro,serie,couleur,taille_ecran_pouce,capacite_stockage_Go,modele,megapixel,systeme_exploitation,...,connecteur,double_sim,port_carte_SD,pliable,appareil_photo,poids,hauteur,largeur,profondeur,lien
2,Parfait état,asus,598.0,,argent,5.9,128.0,asus smartphone zenfone 8 silver 128 go 5g,,,...,,Oui,Non,Non,,2500,,,,https://www.backmarket.fr/asus-asus-smartphon...


Après recherche sur internet, le poids du téléphone de 2,5 kg est de 169g en réalité. Il s'agissait d'une erreur sur le site.

In [57]:
data["poids"] = data["poids"].replace(2500, 169)

In [58]:
data["poids"].unique()

array([ 169,  148,  194,  174,  163,  138,  177,  155,  157,  164,  188,
        189,  143,  175,  202,  113,  150,  152,  198,  226,  208,  187,
        135,  140,  160,  145,  159,  158,  205,  172,  132,  200,  165,
        141,  173,  154,  168,  171,  192,  123,  193,  201,  282,  196,
        186,  180,  133,  190,  222,  144,  149,  183,  217,  130,  195,
        213,  184,  162,  199,  214,  120,  206,  179,  147,  209,  203,
        131,  166,  151,  176,  216,  218,  227,  126,  185,  182,  181,
        142,  156,  178,  240,  215,  170,  161,  220,  250,  271,  310,
        111,  107,  110,  153,  146,  234,  136,  167,  263,  197,  490,
        418,  191,  204, 1150,  207,  115,   90])

In [59]:
data = data.rename(columns={"poids":"poids_g"})

## Hauteur

In [60]:
data["hauteur"] = data["hauteur"].str.replace(" cm", "").replace(",", ".", regex=True)

In [61]:
data["hauteur"] = data["hauteur"].replace("", np.NaN).astype("float")

In [62]:
data["hauteur"].unique()

array([    nan,  13.84 ,  14.36 ,  15.09 ,  13.83 ,  14.89 ,  14.67 ,
        15.84 ,  12.38 ,  14.24 ,  14.61 ,  14.4  ,  13.15 ,  15.8  ,
        13.54 ,  14.44 ,  14.62 ,  15.82 ,  16.08 ,  14.48 ,  14.34 ,
        13.4  ,  15.76 ,  14.7  ,  14.2  ,  13.29 ,  13.9  ,  16.19 ,
        15.52 ,  14.9  ,  14.23 ,  15.95 ,  14.58 , 152.   ,  15.2  ,
        15.5  ,  15.35 ,  14.3  ,  14.68 ,  15.9  ,  14.53 , 160.9  ,
        13.676,  13.45 ,  14.5  ,  16.2  ,  15.77 ,  14.6  ,  14.99 ,
        12.16 ,  15.42 ,  14.21 ,  15.83 ,  15.   ,  16.04 ,  13.11 ,
       160.1  ,  15.81 ,  13.3  ,  15.7  ,   6.2  ,  16.4  ,  13.   ,
       153.5  ,  12.   ,   7.   ])

In [63]:
data = data.rename(columns={"hauteur":"hauteur_cm"})

## Largeur

In [64]:
data["largeur"] = data["largeur"].str.replace(" cm", "").replace(",", ".", regex=True).replace("", np.NaN).astype("float")

In [65]:
data["largeur"].unique()

array([  nan,  6.73,  7.09,  7.57,  6.71,  6.81,  7.15,  7.81,  5.86,
        6.96,  7.14,  6.42,  7.78,  6.62,  6.92,  7.13,  7.79,  7.1 ,
        7.05,  6.5 ,  7.41,  6.9 ,  6.99,  7.01,  7.34,  6.97,  7.64,
        6.4 ,  7.23, 79.  ,  7.25,  7.2 ,  7.5 ,  7.86,  7.26,  6.93,
       74.4 ,  6.52,  7.48,  7.47,  7.  ,  7.06,  7.04,  6.3 ,  7.67,
        6.48, 76.1 ,  7.4 ,  3.05,  7.6 ,  6.7 , 71.9 ,  4.  ])

In [66]:
data = data.rename(columns={"largeur":"largeur_cm"})

## Profondeur

In [67]:
data["profondeur"] = data["profondeur"].str.replace(" cm", "").replace(",", ".", regex=True).replace("", np.NaN).astype("float")

In [68]:
data["profondeur"].unique()

array([   nan,  0.73 ,  0.77 ,  0.83 ,  0.71 ,  0.81 ,  0.74 ,  0.75 ,
        0.76 ,  0.79 ,  6.92 ,  0.8  ,  0.68 ,  0.7  ,  0.78 ,  0.84 ,
        1.   ,  0.67 ,  0.88 ,  0.795, 12.   ,  0.85 ,  6.98 ,  8.1  ,
        0.82 ,  9.9  ,  0.725,  0.91 ,  8.2  ,  0.3  ,  8.5  ,  1.5  ,
        4.   ])

In [69]:
data = data.rename(columns={"profondeur":"profondeur_cm"})

## Lien

Les liens peuvent être amenés à changer du jour au lendemain. Par conséquence, nous ne garderons pas la variable.

In [70]:
data = data.drop(columns="lien")

# Autre

In [71]:
data = data.drop_duplicates(ignore_index=True)

In [72]:
round(data.describe(), 2)

Unnamed: 0,prix_euro,taille_ecran_pouce,capacite_stockage_Go,memoire,vitesse_processeur_GHz,poids_g,hauteur_cm,largeur_cm,profondeur_cm
count,3072.0,3072.0,3072.0,2972.0,1915.0,3072.0,996.0,996.0,950.0
mean,377.25,5.97,134.28,5.27,2.73,177.2,15.9,7.75,0.92
std,220.77,0.67,109.71,2.84,8.57,33.48,13.53,6.53,1.13
min,29.0,2.4,0.0,0.51,1.0,90.0,6.2,3.05,0.3
25%,200.0,5.5,64.0,3.0,2.2,157.0,13.84,6.73,0.73
50%,319.5,6.1,128.0,4.0,2.5,176.0,14.67,7.15,0.74
75%,513.0,6.5,128.0,8.0,2.7,194.0,15.52,7.57,0.79
max,999.0,8.0,512.0,15.0,266.0,1150.0,160.9,79.0,12.0


On remplace les valeurs manquantes par un NA.

In [73]:
data = data.replace("", np.NaN)

On calcule la somme des valeurs manquantes pour chaque variable.

In [74]:
data.isnull().sum()

etat                         0
marque                       0
prix_euro                    0
serie                     1006
couleur                      1
taille_ecran_pouce           0
capacite_stockage_Go         0
modele                       0
megapixel                   92
systeme_exploitation         3
resolution_ecran           406
reseau                       2
date_de_sortie              83
memoire                    100
vitesse_processeur_GHz    1157
nombre_coeur              1118
connecteur                   2
double_sim                   0
port_carte_SD                0
pliable                      0
appareil_photo            1081
poids_g                      0
hauteur_cm                2076
largeur_cm                2076
profondeur_cm             2122
dtype: int64

Variables à garder :
- etat
- marque
- prix_euro
- couleur
- taille_ecran_pouce
- capacite_stockage_Go
- modele
- megapixel
- systeme_exploitation
- resolution_ecran
- reseau
- date_de_sortie
- memoire
- connecteur
- double_sim
- port_carte_SD
- pliable
- poids_g

In [75]:
data_final = data.loc[:,
     [
         "etat", "marque", "prix_euro", "couleur", "taille_ecran_pouce", "capacite_stockage_Go", "modele", 
         "megapixel", "systeme_exploitation", "resolution_ecran", "reseau", "date_de_sortie", "memoire", 
         "connecteur", "double_sim", "port_carte_SD", "pliable", "poids_g"
     ]
    ]

In [76]:
data_final = data_final.dropna().drop_duplicates(ignore_index=True)
data_final = data_final.drop(axis=1, columns="modele")

In [77]:
path = os.path.dirname(os.getcwd())
data_final.to_csv(path + "\Donnees\complete_database.csv")

In [78]:
round(data_final.describe(), 2)

Unnamed: 0,prix_euro,taille_ecran_pouce,capacite_stockage_Go,memoire,poids_g
count,2505.0,2505.0,2505.0,2505.0,2505.0
mean,380.59,5.9,130.45,5.07,174.8
std,217.86,0.66,109.42,2.76,27.08
min,39.0,4.0,4.0,0.51,110.0
25%,205.0,5.5,64.0,3.0,155.0
50%,327.0,6.1,128.0,4.0,175.0
75%,519.0,6.4,128.0,6.0,193.0
max,999.0,8.0,512.0,15.0,490.0
