# Bases de python et manipulation des tables des données
### Date de soumission: jeudi 08 juin 2023 à 12 H
#### Dans ce notebook nous allons reaboder les bases de python et de la manipulation des tables des données
#### Nous travaillerons avec la base des données des prix des propriétes en amérique du sud. Cette base est disponible ici
- [data price house (url)](https://drive.google.com/file/d/1Sr39gVhzewZzb1Qd2qaH37-SRrXCSL-O/view?usp=sharing)

### 1. Importation et compréhension de la base

**Tâche 1.1:** Importer la base des données dans `df` et en faire une copie.

In [195]:
# Exécuter cette cellule pour importer la table des données.
url = "https://drive.google.com/file/d/119T69YZ0ZGNrtXx8m7MRH-BgMyEVT8Pu/view?usp=sharing" # l'adresse 
                                                                                          # indiquéé ci-haut
path = 'https://drive.google.com/uc?export=download&id='+url.split('/')[-2] # Accès à la table
df = pd.read_csv(path) # Lecture de la table des données avec pandas, table nommée df.

In [196]:
# Vérifier la forme ou les dimensions de df 
# Vous devriez trouver 26 colonnes et 102283 observations
df.shape

(102283, 26)

In [191]:
# Faites une copie de la base des données pour ne pas être obligé 
# de refaire l'importation à chaque fois en éxécutant ce code. les manipulations ultérieures se feront
# dans df_copy
df_copy = df.copy()

In [None]:
# Obtenir les informations clés de df
df_copy.info()

**Tâche 1.2:** Compréhension de la base

- [Imprimer les 3 premières observations à l'écran]()
- [Imprimer la liste de toutes les colonnes]()
- [Créer une liste de colonnes contenant les colonnes clés suivantes: 'location','surface_covered','lat', 'lon', 'price']()

In [None]:
# 3 premières observations
First_tree_obs = ...

In [None]:
First_tree_obs = df_copy.head(3)
First_tree_obs

In [None]:
# Liste des colonnes 
list_col = ...

In [None]:
# Colonnes clés
key_col = ...

In [None]:
# Sauvegarder la base contenant les colonnes clés dans la base 'df_key' et 
# imprimer les dimensions de 'df_key'
df_key = ...
print("df_key shape:", ...)

**Tâche 1.3:** Ecrire une fonction `clean` qui permet de: 1)Supprimer le sigle $ de la colonne nommée`price`. 2) Changer les valeurs de la colonne `price` en valeurs numériques. 3)Nettoyer `df_key` en supprimant les lignes avec les valeurs manquantes. 

- [Types des données-Variables en python](https://github.com/pefura/IFPERA-data-science/blob/main/Tutorial%20d%E2%80%99introduction%20%C3%A0%20l%E2%80%99analyse%20des%20donn%C3%A9es%20avec%20Python.pdf)
- [Remplacer les chaînes de caractères en utilisant pandas](https://pandas.pydata.org/docs/reference/api/pandas.Series.str.replace.html)
- [Supprimer les lignes avec les valeurs manquantes](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.dropna.html)

In [None]:
# la base néttoyée est df_clean.Vous devez trouver une base avec 5 colonnes et 50209 observations
df_key_copy = df_key.copy() # Faire une copie de df_key et utiliser la copie pour ne pas avoir d'erreur
df_clean = ...                # ou utiliser une version non transformée
df_clean.info()

In [124]:
df_key_copy = df_key.copy()

**Tâche 1.4:** Ecrire une fonction `wrangle` qui permet de: 1)Inclure les modifications de la fonction `clean`. 2) Séparer la colonne `location` en `2` colonnes dont l'une est le pays (`country`)de la propriété et l'autre l'état où se trouve la propriété (`state`); Notez que le `pays` et `l'état` se trouvent respectivement en première et en deuxième position des modalités de la colonne `location`. 

- [Fonction imbriquée]()
- [Scinder les chaînes de caractères dans une colonne pour créer d'autres en utilisant pandas](https://pandas.pydata.org/docs/reference/api/pandas.Series.str.split.html)


In [None]:
# Résulats de la fonction wrangle
# Attention d'utiliser une version non transformée de df_key
df_wrangle = ...
df_wrangle.info()

**Tâche 1.5:** Utiliser la boucle `for` et la méthode `split` pour créer `country` et `state` de la `tâche 1.4.
- [Boucle for](https://docs.python.org/3/tutorial/controlflow.html#for-statements)
- [Créer un dataframe en utilisant le dictionnaire](https://docs.python.org/3/tutorial/datastructures.html#dictionaries)


In [None]:
# Résulats de la fonction wrangle
# Attention d'utiliser une version non transformée de df_key
df_for = ...
df_for.info()

**Tâche 1.6:** Supprimer la colonne `location` table de données à l'aide de la méthode `drop`.
- [Supprimer une ou plusieurs colonnes](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop.html)


In [None]:
# Quels sont les pays existant dans la base des données et leurs effectifs?
country = ...
country

In [None]:
# Déterminer les effectifs des états
effectif = ...
effectif

In [1]:
# Tracer l'histogramme et la boite à moustache horizontale des prix avec matplotlib. 
# Quelles conclusions tirez-vous? 


**Tâche 1.7:** Selectionner à l'aide des masques les propriétes 1) se trouvant en `Argentine` 2) dans l'état de `Capital Federal` 3) coûtant au maximum 400 milles USD 4) avec exlusion des prix n'ont compris entre le 10ème et le 90ème percentiles (pour exclure les valeurs extrèmes). Utiliser une fonction pour faire cette manipulation. La base obtenue sera nommée df_final.
- [Filter les colonnes et lignes selon certaines conditions]()

### 2. Visualisation des données

**Task 2.1:** Create a scatter plot showing price vs. surface_covered  in `Capital federal` that has the largest number of properties. Be sure to label the x-axis `"Area [sq meters]"` and the y-axis `"Price [USD]"`; and use the title `Price vs. Area`. Use Matplotlib (`plt`).

**Task 2.2:** calculate the correlation coefficient between price and surface_covered

In [None]:
corr = ...

In [217]:
p_correlation = df_final.surface_covered.corr(df_final.price)
print(p_correlation)

0.3452071033861359


**Task 2.3:** Develop and evaluate regression model to predict price according to surface_covered, using SKlean package

**Task 2.4:** Rewrite the price as p = ax + b