# Data aquisition

## Data aquisition

Un modèle de data science se décompose comme suit:

1. Collecte des données
2. Nettoyage des données
3. Modélisation des données
4. Prédiction des données

**Ce jupyter porte uniquement sur le point 1, la collecte de données**

## Techniques de collecte de données

Il existe plusieurs techniques de collecte de données:

- Scraper
- Web scraping
- Web scraping avec Selenium
- REST API
- DataSets (Kaggle, UCI, yfinance, seaborn, etc.)

### Scrapper

Le scrapper est une technique de collecte de données qui permet de collecter les données d'une page web ou autre support.

### Web scraping

Le web scraping est une technique de collecte de données qui permet de collecter les données d'une page web statique.

### Web scraping avec Selenium

Le web scraping avec Selenium est une technique de collecte de données qui permet de collecter les données d'une page web dynamique. Contrairement au web scraping, le web scraping avec Selenium permet de collecter les données d'une page web dynamique. Il agit comme un humain et permet de collecter des données qui sont visible seulement après certaines actions (clic, scroll, etc.).


### REST API

Les API REST sont des API en ligne qui permettent de retourner des données à la suite d'une requête HTTP. Les données sont retournées dans un format standardisé (JSON, XML, etc.).

### DataSets

Les DataSets sont des jeux de données qui sont disponibles en ligne. Ils sont souvent utilisés pour l'entrainement de modèles de machine learning.

## L'objet requests

L'objet requests permet de faire des requêtes HTTP. Il permet de récupérer le contenu d'une page web.
Nous utiliseront cet objet pour faire du web scraping. Car il faut récupérer le contenu d'une page web à l'aide d'une requête avant de pouvoir faire du web scraping.

Pour installer l'objet requests, il faut utiliser la commande suivante:

```bash
conda install -c anaconda requests
```

In [5]:
import requests

wiki = requests.get("https://en.wikipedia.org/wiki/Python_(programming_language)")

print(wiki.status_code)
print(wiki.text)

200
<!DOCTYPE html>
<html class="client-nojs vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-sticky-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-clientpref-1 vector-feature-main-menu-pinned-disabled vector-feature-limited-width-clientpref-1 vector-feature-limited-width-content-enabled vector-feature-zebra-design-enabled vector-feature-custom-font-size-clientpref-0 vector-feature-client-preferences-disabled vector-feature-client-prefs-pinned-disabled vector-toc-available" lang="en" dir="ltr">
<head>
<meta charset="UTF-8">
<title>Python (programming language) - Wikipedia</title>
<script>(function(){var className="client-js vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-sticky-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-clientpref-1 vector-feature-main-menu-pinned-disabled vector-feature-

### Web scraping

Pour faire du web scraping **simple**, on peut utiliser la librairie BeautifulSoup.

pour installer executer la commande suivante dans l'environement conda:

```bash
conda install -c anaconda beautifulsoup4
```

#### BeautifulSoup

BeautifulSoup est une librairie qui permet de faire du web scraping. Elle permet de récupérer des données d'une page web statique.
Elle permet de `parser` le code HTML d'une page web et de récupérer les données qui nous intéresse.

In [6]:
from bs4 import BeautifulSoup
import requests

In [23]:
url = "https://quotes.toscrape.com/tag/love/"

# Get the HTML page
response = requests.get(url)
#print(response.text)

# Parse the HTML page
soup = BeautifulSoup(response.text, "html.parser")
print(soup.prettify())

<!DOCTYPE html>
<html lang="en">
 <head>
  <meta charset="utf-8"/>
  <title>
   Quotes to Scrape
  </title>
  <link href="/static/bootstrap.min.css" rel="stylesheet"/>
  <link href="/static/main.css" rel="stylesheet"/>
 </head>
 <body>
  <div class="container">
   <div class="row header-box">
    <div class="col-md-8">
     <h1>
      <a href="/" style="text-decoration: none">
       Quotes to Scrape
      </a>
     </h1>
    </div>
    <div class="col-md-4">
     <p>
      <a href="/login">
       Login
      </a>
     </p>
    </div>
   </div>
   <h3>
    Viewing tag:
    <a href="/tag/love/page/1/">
     love
    </a>
   </h3>
   <div class="row">
    <div class="col-md-8">
     <div class="quote" itemscope="" itemtype="http://schema.org/CreativeWork">
      <span class="text" itemprop="text">
       “It is better to be hated for what you are than to be loved for what you are not.”
      </span>
      <span>
       by
       <small class="author" itemprop="author">
        André Gid

In [29]:
# Get the quotes
quotes = soup.find_all("div", class_="quote")
#quotes = soup.select(".quote")
print(len(quotes))

# Get the author and the quote
for quote in quotes:
    author = quote.find("small", class_="author").text
    quote_text = quote.find("span", class_="text").text
    print(f"{author} said: {quote_text}")

10
André Gide said: “It is better to be hated for what you are than to be loved for what you are not.”
Marilyn Monroe said: “This life is what you make it. No matter what, you're going to mess up sometimes, it's a universal truth. But the good part is you get to decide how you're going to mess it up. Girls will be your friends - they'll act like it anyway. But just remember, some come, some go. The ones that stay with you through everything - they're your true best friends. Don't let go of them. Also remember, sisters make the best friends in the world. As for lovers, well, they'll come and go too. And baby, I hate to say it, most of them - actually pretty much all of them are going to break your heart, but you can't give up because if you give up, you'll never find your soulmate. You'll never find that half who makes you whole and that goes for everything. Just because you fail once, doesn't mean you're gonna fail at everything. Keep trying, hold on, and always, always, always believe

In [28]:
tags_dict = {}
# count all tags
for quote in quotes:
    tags = quote.find_all("a", class_="tag")
    for tag in tags:
        tag_text = tag.text
        if tag_text in tags_dict:
            tags_dict[tag_text] += 1
        else:
            tags_dict[tag_text] = 1

print(tags_dict)
print(max(tags_dict, key=tags_dict.get))

{'life': 2, 'love': 10, 'friends': 1, 'heartbreak': 1, 'inspirational': 2, 'sisters': 1, 'activism': 1, 'apathy': 1, 'hate': 1, 'indifference': 1, 'opposite': 1, 'philosophy': 1, 'friendship': 2, 'lack-of-friendship': 1, 'lack-of-love': 1, 'marriage': 1, 'unhappy-marriage': 1, 'poetry': 1, 'girls': 1}
love


#### BeautifulSoup Methods

voici une liste des methodes de BeautifulSoup:

| Methode | Description |
| --- | --- |
| `find()` | Retourne le premier élément qui correspond au filtre |
| `find_all()` | Retourne tous les éléments qui correspondent au filtre |
| `find_parent()` | Retourne le parent de l'élément |
| `find_next_sibling()` | Retourne le prochain élément du même niveau |
| `find_previous_sibling()` | Retourne le précédent élément du même niveau |
| `find_next()` | Retourne le prochain élément |
| `find_previous()` | Retourne le précédent élément |
| `find_all_next()` | Retourne tous les éléments suivants |
| `find_all_previous()` | Retourne tous les éléments précédents |
| `select()` | Retourne tous les éléments qui correspondent au filtre CSS |
| `select_one()` | Retourne le premier élément qui correspond au filtre CSS |
| `prettify()` | Retourne le code HTML formaté |


#### BeautifulSoup Attributes

voici une liste des attributs de BeautifulSoup:

| Attribut | Description |
| --- | --- |
| `name` | Retourne le nom de la balise |
| `attrs` | Retourne les attributs de la balise |
| `string` | Retourne le contenu de la balise |
| `text` | Retourne le contenu de la balise |
| `contents` | Retourne le contenu de la balise |
| `children` | Retourne les enfants de la balise |
| `parent` | Retourne le parent de la balise |
| `next_sibling` | Retourne le prochain élément du même niveau |
| `previous_sibling` | Retourne le précédent élément du même niveau |
| `next` | Retourne le prochain élément |
| `previous` | Retourne le précédent élément |

### Web scraping with Selenium

Pour faire du web scraping **avancé**, on peut utiliser la librairie Selenium. Elle permet de faire du web scraping sur des pages web dynamiques.
Selenium permet de simuler un navigateur web et d'interagir avec une page web comme un humain. On pourra donc récupérer des données qui sont visible seulement après certaines actions (clic, scroll, etc.).

**Note: `Selenium` est souvent utilisé pour faire du web unit testing**

#### Selenium Installation

Pour utiliser Selenium, il faut d'abord installer la librairie:

```bash
conda install -c conda-forge selenium
```

Ensuite il faut installer le driver du navigateur web que l'on souhaite utiliser:

- Chrome : https://googlechromelabs.github.io/chrome-for-testing/#stable
- Edge : https://developer.microsoft.com/en-us/microsoft-edge/tools/webdriver/
- Firefox : https://github.com/mozilla/geckodriver/releases

#### Selenium - XPATH

XPATH est un langage de requête qui permet de sélectionner des éléments dans un document XML ou HTML. Il permet de sélectionner des éléments dans une page web. voir [ici](https://www.w3schools.com/xml/xpath_syntax.asp). Il est possible d'utiliser XPATH dans Selenium.

##### XPATH Syntax

| Expression | Description |
| --- | --- |
| `nodename` | Selects all nodes with the name "nodename" |
| `/` | Selects from the root node |
| `//` | Selects nodes in the document from the current node that match the selection no matter where they are |
| `.` | Selects the current node |
| `..` | Selects the parent of the current node |
| `@` | Selects attributes |

##### XPATH Examples

| Expression | Description |
| --- | --- |
| `//span[@class='a-size-medium a-color-base a-text-normal']` | Selects all span elements with the class "a-size-medium a-color-base a-text-normal" |
| `//span[@class='a-size-medium a-color-base a-text-normal']/text()` | Selects all span elements with the class "a-size-medium a-color-base a-text-normal" and returns the text |
| `//div[@id='nav-xshop']/a` | Selects all a elements in the div with the id "nav-xshop" |

#### Selenium - CSS

CSS est un langage qui permet de définir le style d'un document HTML. Il permet de sélectionner des éléments dans une page web. voir [ici](https://www.w3schools.com/cssref/css_selectors.asp). Il est possible d'utiliser CSS dans Selenium.

##### CSS Syntax

| Expression | Description |
| --- | --- |
| `*` | Selects all elements |
| `#id` | Selects the element with the id "id" |
| `.quote` | Selects all elements with the class "class" |
| `element` | Selects all elements with the tag "element" |
| `element.class` | Selects all elements with the tag "element" and the class "class" |
| `element,element` | Selects all elements with the tag "element" or "element" |
| `element element` | Selects all elements with the tag "element" inside the element with the tag "element" |

##### CSS Examples

| Expression | Description |
| --- | --- |
| `span.a-size-medium.a-color-base.a-text-normal` | Selects all span elements with the class "a-size-medium a-color-base a-text-normal" |
| `span.a-size-medium.a-color-base.a-text-normal` | Selects all span elements with the class "a-size-medium a-color-base a-text-normal" |
| `div#nav-xshop a` | Selects all a elements in the div with the id "nav-xshop" |

## Selenium example

#### Selenium Methods

voici une liste des methodes de Selenium:

| Methode | Description |
| --- | --- |
| `get()` | Ouvre une page web |
| `find_element_by_id()` | Retourne le premier élément qui correspond à l'id |
| `find_element_by_name()` | Retourne le premier élément qui correspond au name |
| `find_element_by_xpath()` | Retourne le premier élément qui correspond au xpath |
| `find_element_by_link_text()` | Retourne le premier élément qui correspond au link text |
| `find_element_by_partial_link_text()` | Retourne le premier élément qui correspond au partial link text |
| `find_element_by_tag_name()` | Retourne le premier élément qui correspond au tag name |
| `find_element_by_class_name()` | Retourne le premier élément qui correspond au class name |
| `find_element_by_css_selector()` | Retourne le premier élément qui correspond au css selector |
| `find_elements_by_id()` | Retourne tous les éléments qui correspondent à l'id |
| `find_elements_by_name()` | Retourne tous les éléments qui correspondent au name |
| `find_elements_by_xpath()` | Retourne tous les éléments qui correspondent au xpath |
| `find_elements_by_link_text()` | Retourne tous les éléments qui correspondent au link text |
| `find_elements_by_partial_link_text()` | Retourne tous les éléments qui correspondent au partial link text |
| `find_elements_by_tag_name()` | Retourne tous les éléments qui correspondent au tag name |
| `find_elements_by_class_name()` | Retourne tous les éléments qui correspondent au class name |
| `find_elements_by_css_selector()` | Retourne tous les éléments qui correspondent au css selector |
| `click()` | Clique sur l'élément |
| `clear()` | Efface le contenu de l'élément |
| `send_keys()` | Envoie des données à l'élément |
| `submit()` | Soumet le formulaire |


### REST API

Les API REST sont des API en ligne qui permettent de retourner des données à la suite d'une requête HTTP. Les données sont retournées dans un format standardisé (JSON, XML, etc.).

L'url d'une API REST est appelé `endpoint`. Il permet de faire une requête HTTP à l'API REST.

L'API rest se comporte differement en fonction de la méthode HTTP utilisée.

you can find an example of a mock rest api [here](https://jsonplaceholder.typicode.com/)

In [39]:
import requests

url = "https://jsonplaceholder.typicode.com/users"

users = requests.get(url)
users = users.json()
for user in users:
    print(user["address"]["geo"]["lat"])

-37.3159
-43.9509
-68.6102
29.4572
-31.8129
-71.4197
24.8918
-14.3990
24.6463
-38.2386


In [None]:
posts = requests.get("https://jsonplaceholder.typicode.com/posts").json()

post_count = {}
for post in posts:
    if post["userId"] in post_count:
        post_count[post["userId"]] += 1
    else:
        post_count[post["userId"]] = 1
post_count

### DATASETS

Les datasets sont des fichiers qui contiennent des données. Ils sont crées par d'autres personnes et mis à disposition sur internet. Ils sont souvent utilisés pour l'entrainement de modèles de machine learning.

Différents moyen de récupérer des datasets:
- [Google Colab](https://colab.research.google.com/)
- [Kaggle](https://www.kaggle.com/)
- [UCI](https://archive.ics.uci.edu/ml/index.php)
- [Seaborn](https://seaborn.pydata.org/generated/seaborn.load_dataset.html)
- [yfinance](https://pypi.org/project/yfinance/)
- [pandas_datareader](https://pandas-datareader.readthedocs.io/en/latest/)
- [scikit-learn](https://scikit-learn.org/stable/datasets/index.html)
- [tensorflow_datasets](https://www.tensorflow.org/datasets/catalog/overview)
- [pytorch_datasets](https://pytorch.org/docs/stable/data.html#torch.utils.data.Dataset)
- [pytorch_datasets](https://pytorch.org/docs/stable/data.html#torch.utils.data.Dataset)

#### Datasets - Seaborn, titanic

Le dataset suivant est une base de données qui contient les informations relatives à la survie des passagers du titanic.

In [None]:
import seaborn as sns
import pandas as pd
import matplotlib.pyplot as plt

titanic = sns.load_dataset('titanic')
print(titanic.head())


In [None]:
# Plot the distribution of the age
sns.distplot(titanic['age'])