#  Consignes

## Description

Ouvrir le fichier ks-projects-201801.csv, il recense environ 100 000 projets KickStarter. Intégrer les données directement avec L'API Python dans une base de données Mongo. 

Il conviendra de bien spécifier manuellement l'ID du document. Pensez aussi à bien formatter le type des données pour profiter des méthodes implémentées par Mongo. L'ensemble de données n'est pas forcément nécessaire, c'est à vous de créer votre modèle de données.

## Questions

- 1) Récupérer les 5 projets ayant reçu le plus de promesse de dons.
- 2) Compter le nombre de projets ayant atteint leur but.
- 3) Compter le nombre de projets pour chaque catégorie.
- 4) Compter le nombre de projets français ayant été instanciés avant 2016.
- 5) Récupérer les projets américains ayant demandé plus de 200 000 dollars.
- 6) Compter le nombre de projet ayant "Sport" dans leur nom

In [1]:
import pandas as pd
import pymongo

In [3]:
client = pymongo.MongoClient()
database = client['exercices']
collection = database['kickstarter']

In [4]:
df_ks = pd.read_csv("./data/ks-projects-201801-sample.csv")
df_ks.head()

  df_ks = pd.read_csv("./data/ks-projects-201801-sample.csv")


Unnamed: 0,ID,name,category,main_category,currency,deadline,goal,launched,pledged,state,backers,country,usd pledged,usd_pledged_real
0,872782264,"Scott Cooper's Solo CD ""A Leg Trick"" (Canceled)",Rock,Music,USD,2011-09-16,2000.0,2011-08-17 06:31:31,1145.0,canceled,24,US,1145.0,1145.0
1,1326492673,Ohceola jewelry,Fashion,Fashion,USD,2012-08-22,18000.0,2012-07-23 20:46:48,1851.0,failed,28,US,1851.0,1851.0
2,1688410639,Sluff Off & Harald: Two latest EGGs are Classi...,Tabletop Games,Games,USD,2016-07-19,2000.0,2016-07-01 21:55:54,7534.0,successful,254,US,3796.0,7534.0
3,156812982,SketchPlanner: Create and Plan- all in one bea...,Art Books,Publishing,USD,2017-09-27,13000.0,2017-08-28 15:47:02,16298.0,successful,367,US,2670.0,16298.0
4,1835968190,Proven sales with custom motorcycle accessories,Sculpture,Art,CAD,2016-02-24,5000.0,2016-01-25 17:37:10,1.0,failed,1,CA,0.708148,0.738225


Ce warning intervient lorsque pandas n'arrive pas à inférer le type de données. Il est sympa il précise les colones 6,8,10,12. 

In [5]:
df_ks.columns[[6,8,10,12]]

Index(['goal', 'pledged', 'backers', 'usd pledged'], dtype='object')

## Question 0

### Nettoyer les données

In [15]:
# Préciser les types pour les colonnes 6,8,10,12 <=> ['goal', 'pledged', 'backers', 'usd pledged']

df_ks = df_ks[df_ks['deadline'] != 'USD'] # La ligne est ne correspondait pas
df_ks = df_ks.dropna() # Pour ne pas avoir des valeurs nulles

df_ks['deadline'] = pd.to_datetime(df_ks['deadline'])
df_ks['launched'] = pd.to_datetime(df_ks['launched'])

n_types = {'ID':int,'name':str,'category':str,'main_category':str,'currency':str,'state':str,'goal': float, 'pledged': float, 'backers': int, 'usd pledged': float,'country':str,'usd_pledged_real':float}
df_ks=df_ks.astype(n_types)

df_ks.info()

<class 'pandas.core.frame.DataFrame'>
Index: 148515 entries, 0 to 149999
Data columns (total 14 columns):
 #   Column            Non-Null Count   Dtype         
---  ------            --------------   -----         
 0   ID                148515 non-null  int32         
 1   name              148515 non-null  object        
 2   category          148515 non-null  object        
 3   main_category     148515 non-null  object        
 4   currency          148515 non-null  object        
 5   deadline          148515 non-null  datetime64[ns]
 6   goal              148515 non-null  float64       
 7   launched          148515 non-null  datetime64[ns]
 8   pledged           148515 non-null  float64       
 9   state             148515 non-null  object        
 10  backers           148515 non-null  int32         
 11  country           148515 non-null  object        
 12  usd pledged       148515 non-null  float64       
 13  usd_pledged_real  148515 non-null  float64       
dtypes: dateti

### Importer les données

In [16]:
data=df_ks.to_dict(orient='records')
collection.insert_many(data)

InsertManyResult([ObjectId('656f925d3ba4fac2b76e546e'), ObjectId('656f925d3ba4fac2b76e546f'), ObjectId('656f925d3ba4fac2b76e5470'), ObjectId('656f925d3ba4fac2b76e5471'), ObjectId('656f925d3ba4fac2b76e5472'), ObjectId('656f925d3ba4fac2b76e5473'), ObjectId('656f925d3ba4fac2b76e5474'), ObjectId('656f925d3ba4fac2b76e5475'), ObjectId('656f925d3ba4fac2b76e5476'), ObjectId('656f925d3ba4fac2b76e5477'), ObjectId('656f925d3ba4fac2b76e5478'), ObjectId('656f925d3ba4fac2b76e5479'), ObjectId('656f925d3ba4fac2b76e547a'), ObjectId('656f925d3ba4fac2b76e547b'), ObjectId('656f925d3ba4fac2b76e547c'), ObjectId('656f925d3ba4fac2b76e547d'), ObjectId('656f925d3ba4fac2b76e547e'), ObjectId('656f925d3ba4fac2b76e547f'), ObjectId('656f925d3ba4fac2b76e5480'), ObjectId('656f925d3ba4fac2b76e5481'), ObjectId('656f925d3ba4fac2b76e5482'), ObjectId('656f925d3ba4fac2b76e5483'), ObjectId('656f925d3ba4fac2b76e5484'), ObjectId('656f925d3ba4fac2b76e5485'), ObjectId('656f925d3ba4fac2b76e5486'), ObjectId('656f925d3ba4fac2b76e54

## Question 1  

In [30]:
cur=collection.find().sort("usd pledged", -1).limit(5)
for c in cur:
    print(c["name"])

COOLEST COOLER: 21st Century Cooler that's Actually Cooler
Pebble 2, Time 2 + All-New Pebble Core
OUYA: A New Kind of Video Game Console
Pono Music - Where Your Soul Rediscovers Music
The Veronica Mars Movie Project


## Question 2

In [32]:
nb_doc=collection.count_documents({'state': 'successful'})
print(nb_doc)

52998


## Question 3

In [41]:
nb_catego=collection.aggregate([{"$group": {"_id": "$category", "count": {"$sum":1}}}])

for resultat in nb_catego:
    print(f"Catégorie: {resultat['_id']}, Nombre de documents: {resultat['count']}")

Catégorie: Community Gardens, Nombre de documents: 115
Catégorie: Wearables, Nombre de documents: 508
Catégorie: Video Games, Nombre de documents: 4797
Catégorie: Hardware, Nombre de documents: 1430
Catégorie: Shorts, Nombre de documents: 4857
Catégorie: Fabrication Tools, Nombre de documents: 96
Catégorie: Ceramics, Nombre de documents: 128
Catégorie: Couture, Nombre de documents: 108
Catégorie: Experimental, Nombre de documents: 357
Catégorie: Immersive, Nombre de documents: 131
Catégorie: Taxidermy, Nombre de documents: 7
Catégorie: Kids, Nombre de documents: 109
Catégorie: Art Books, Nombre de documents: 1065
Catégorie: Sound, Nombre de documents: 255
Catégorie: Horror, Nombre de documents: 525
Catégorie: Thrillers, Nombre de documents: 302
Catégorie: Crafts, Nombre de documents: 1834
Catégorie: Television, Nombre de documents: 401
Catégorie: Live Games, Nombre de documents: 394
Catégorie: Graphic Novels, Nombre de documents: 702
Catégorie: Literary Journals, Nombre de documents: 1

## Question 4

In [48]:
#launched avant 2016
#country France
from datetime import datetime

date_reference = datetime.strptime("2016-01-01","%Y-%m-%d")
nb_l = collection.count_documents({"$and": [{'country': 'FR'}, {'launched': {"$lt": date_reference}}]})

print(f"Nombre de documents pour le pays 'FR' avec une date antérieure à 2016 : {nb_l}")

Nombre de documents pour le pays 'FR' avec une date antérieure à 2016 : 330


## Question 5

In [49]:
recup = collection.find({"$and": [{'country': 'US'}, {'pledged': {"$gte": 200000}}]})
for resultat in recup:
    print(resultat['name'])

The uKeg Pressurized Growler for Fresh Beer
Redux COURG - Hybrid Watches with Missions to Tackle
Legion Solar - A Better Way to Energy Independence
Edyn: Welcome to the connected garden.
Period Panties
Smartkase for iPhone 7 - Dual Sim +Memory Card +Battery Case
Shadowrun: Hong Kong
Kurt Vonnegut: Unstuck in Time
Battle Worlds: Kronos - Turn-based strategy revisited
Hie Diaper Bag: Your New Best Friend
Hemingwrite - A Distraction Free Digital Typewriter
Dobot: Robotic Arm for Everyone, Arduino & Open Source
ECLIPSE - Say Goodbye to Messy Cables
PolySmooth & Polysher: 3D Prints Without Layers
Sails of Glory - Miniatures Ship Combat
The Temperfect Mug: Coffee and Tea at The Perfect Temp
Planetary Annihilation - A Next Generation RTS
Volt Planner - Reach Your Goals in 2017
Aeon's End: War Eternal
XERISCOPE: The Orbiting Mechanical Automatic Watch by XERIC
Canary in a Coal Mine
Akaneiro: Demon Hunters
MYTH: Journeyman
The ultimate sleep sanctuary: Kokoon EEG headphones
Iota: Never lose sig

## Question 6 

In [51]:
nb_doc=collection.count_documents({"name": {"$regex": "Sport", "$options": "i"}})
print(nb_doc)

500
