#  Consignes

## Description

Ouvrir le fichier ks-projects-201801.csv, il recense environ 100 000 projets KickStarter. Intégrer les données directement avec L'API Python dans une base de données Mongo. 

Il conviendra de bien spécifier manuellement l'ID du document. Pensez aussi à bien formatter le type des données pour profiter des méthodes implémentées par Mongo. L'ensemble de données n'est pas forcément nécessaire, c'est à vous de créer votre modèle de données.

## Questions

- 1) Récupérer les 5 projets ayant reçu le plus de promesse de dons.
- 2) Compter le nombre de projets ayant atteint leur but.
- 3) Compter le nombre de projets pour chaque catégorie.
- 4) Compter le nombre de projets français ayant été instanciés avant 2016.
- 5) Récupérer les projets américains ayant demandé plus de 200 000 dollars.
- 6) Compter le nombre de projet ayant "Sport" dans leur nom

In [None]:
!pip install 'pymongo[srv]'

In [None]:
import pandas as pd
import pymongo

In [None]:
# client = pymongo.MongoClient("mongodb://dbUser:aTerribleSecret@cluster0-shard-00-00.nxr70.mongodb.net:27017,cluster0-shard-00-01.nxr70.mongodb.net:27017,cluster0-shard-00-02.nxr70.mongodb.net:27017/?ssl=true&authMechanism=SCRAM-SHA-1")
client = pymongo.MongoClient("mongo")
database = client['exercices']
collection = database['kickstarter']

serverStatusResult = database.command("serverStatus")
print(serverStatusResult)

In [None]:
df_ks = pd.read_csv("./data/ks-projects-201801-sample.csv")
df_ks.head()

Ce warning intervient lorsque pandas n'arrive pas à inférer le type de données. Il est sympa il précise les colones 6,8,10,12. 

In [None]:
df_ks.columns[[6,8,10,12]]

## Question 0

### Nettoyer les données

In [None]:
df_ks['launched'] = pd.to_datetime(df_ks['launched'], errors='coerce')
df_ks = df_ks.dropna(subset=['launched'])
df_ks.rename(columns={'ID':'_id'}, inplace=True)
l_d =df_ks.to_dict(orient='records')

### Importer les données

In [None]:
collection.drop()
for entry in l_d: 
    # print (type(entry),entry,  "\n")
    collection.insert_one(entry)

## Question 1  

In [None]:
sortedList = list(collection.find().sort("pledged", -1).limit(5))
sortedList

## Question 2

In [None]:
numberOfSuccessfullProjects = collection.count({"goal": {"$lte": "parseInt($usd_pledged_real)" }})
numberOfSuccessfullProjects

## Question 3

In [None]:
countOfCategories = collection.aggregate([{
    '$group':{
        '_id':"$category", 
        "count": {"$sum" : 1 }
    }
}]);
list(countOfCategories)

## Question 4

In [None]:
from datetime import datetime

frenchProjectsBefore2016 = collection.find({
    '$and': [
        {'country': {
            '$eq': "FR"
        }},
        {'launched': {
            '$lt': datetime(2016,1,1)
        }}
    ]
})
list(frenchProjectsBefore2016)

## Question 5

In [None]:
from datetime import datetime

americanProjectsWithLotOfDollars = collection.find({
    '$and': [
        {'country': {
            '$eq': "US"
        }},
        {'goal': {
            '$gte': 200000.0
        }}
    ]
})
list(americanProjectsWithLotOfDollars)

## Question 6 

In [None]:
import re
projectsWithSportsInName = collection.count({
    'name': re.compile("sport", re.IGNORECASE)
})
projectsWithSportsInName