# Mongodb

Dans ce TP nous allons utiliser la librairie pymongo, pour créer une base de données dans mongodb avec python puis la questionner.

### Data
Voici des données au format csv, elles sont une partie d'un dataset recensant les crimes au Etats-Unis entre 1984 et 2014.

https://drive.google.com/file/d/10z7kUXDO4BHffJ6ZfVc42CgIs5558vGd/view?usp=sharing

### Création de la BDD

In [2]:
from pymongo import MongoClient
import json
import streamlit as st
from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()

Créez une fonction python pour passer ce csv dans une base de données mongo, chaque lignes devra être un document.

### Requêter la BDD

Créez un connecteur pour votre BDD

In [3]:
client = MongoClient(
    'mongo',
    port=27017,
    username='root',
    password='root',
    authMechanism='SCRAM-SHA-256'
)
db = client.spotify
table = db.documents

In [4]:
# Lecture du csv
df = spark.read.format('csv').options(header=True).load('data/Spotify/genres_v2.csv')
df.dtypes
# df.write.csv("hdfs://spark-master:7077/spotify.csv")

[('danceability', 'string'),
 ('energy', 'string'),
 ('key', 'string'),
 ('loudness', 'string'),
 ('mode', 'string'),
 ('speechiness', 'string'),
 ('acousticness', 'string'),
 ('instrumentalness', 'string'),
 ('liveness', 'string'),
 ('valence', 'string'),
 ('tempo', 'string'),
 ('type', 'string'),
 ('id', 'string'),
 ('uri', 'string'),
 ('track_href', 'string'),
 ('analysis_url', 'string'),
 ('duration_ms', 'string'),
 ('time_signature', 'string'),
 ('genre', 'string'),
 ('song_name', 'string'),
 ('Unnamed: 0', 'string'),
 ('title', 'string')]

In [5]:
# En une seule fois
if table.count_documents({}) == 0:    
    records = df.to_dict(orient='records')
    table.insert_many(records)

ServerSelectionTimeoutError: localhost:27017: [Errno 111] Connection refused, Timeout: 30s, Topology Description: <TopologyDescription id: 601bad98e8ee705b7805f139, topology_type: Single, servers: [<ServerDescription ('localhost', 27017) server_type: Unknown, rtt: None, error=AutoReconnect('localhost:27017: [Errno 111] Connection refused')>]>

In [None]:
# Ligne par ligne
if table.count_documents({}) == 0:
    json_docs = df.apply(lambda x: x.to_json(), axis=1)
    for document in json_docs:

        json_doc = json.loads(document)
        table.insert_one(json_doc)

##### Quelles sont les armes utilisées par les criminel?
Retournez par rapport à tous les documents les valeurs uniques de la clef weapon.

In [16]:
table.distinct("Weapon")

list(table.aggregate([
    { "$group": {
        "_id": "$Weapon", "count" : {"$sum": 1}
    }},
    { "$sort": {"count": -1}}
]))

[{'_id': 'Handgun', 'count': 45748},
 {'_id': 'Knife', 'count': 19586},
 {'_id': 'Blunt Object', 'count': 11150},
 {'_id': 'Shotgun', 'count': 7419},
 {'_id': 'Rifle', 'count': 4968},
 {'_id': 'Firearm', 'count': 3629},
 {'_id': 'Unknown', 'count': 3134},
 {'_id': 'Strangulation', 'count': 1742},
 {'_id': 'Fire', 'count': 1254},
 {'_id': 'Suffocation', 'count': 600},
 {'_id': 'Drowning', 'count': 265},
 {'_id': 'Gun', 'count': 212},
 {'_id': 'Drugs', 'count': 101},
 {'_id': 'Poison', 'count': 80},
 {'_id': 'Explosives', 'count': 61},
 {'_id': 'Fall', 'count': 50}]

##### Combien de crimes ont été commis en 1980?

In [None]:
table.count_documents({"Year":1980})

##### Combien de crimes ont été commis par des hommes au Texas?

In [None]:
table.count_documents({"Perpetrator Sex": "Male", "State": "Texas"})

##### Combien de crimes ont été commis par chaque sexe en Alaska?

In [None]:
maleAndFemalePerpetratorsInAlaska = table.aggregate([
    { "$match": { "State": "Alaska" }},
    { "$group": {"_id": "$Perpetrator Sex", "crimes commis": {"$sum": 1}}},
])

list(maleAndFemalePerpetratorsInAlaska)

##### Combien y a-t'il eu de victimes dans chaque état?

In [None]:
victimInEachState = table.aggregate([
    { "$group" : {
        "_id": "$State", "victimes": {"$sum": "$Victim Count"}
    }},
    { "$sort": { "victimes": -1}}
])

list(victimInEachState)

### Bonus

Installez la librairie streamlit
Créez un dashboard qui donne la posibilité de séléctionner une année pour retourner un barplot du nombre de crime commis avec chaque arme.

In [None]:
victimWithEachWeapon = table.aggregate([
    {"$match": {"Year": 1980}},
    { "$group" : {
        "_id": "$Weapon", "victimes": {"$sum": "$Victim Count"}
    }}
])
    
list(victimWithEachWeapon)

In [None]:
# QCM 2
victimWithEachAge = table.aggregate([
    { "$group" : {
        "_id": "$Victim Age", "victimes": {"$sum": 1}
    }},
    { "$sort" : {
        "victimes": -1
    }}
])
    
list(victimWithEachAge)



In [None]:
# QCM 3
victimWithEachAgeByVictim = table.aggregate([
    {"$match": { "Weapon": "Drowning"}},
    { "$group" : {
        "_id": "$Victim Age", "victimes": {"$sum": 1}
    }},
    { "$sort" : {
        "victimes": -1
    }}
])
    
list(victimWithEachAgeByVictim)

In [None]:
# QCM 4
victimWithEachAgeByVictim = table.aggregate([
    {"$match": { "Weapon": "Fall"}},
    { "$group" : {
        "_id": "$State", "victimes": {"$sum": 1}
    }},
    { "$sort" : {
        "victimes": -1
    }}
])
    
list(victimWithEachAgeByVictim)

In [None]:
# QCM 5
victimWithEachAgeByVictim = table.aggregate([
    { "$group" : {
        "_id": "$State", "Moyenne": {"$avg": "$Victim Count"}
    }},
    { "$sort" : {
        "Moyenne": -1
    }}
])
    
list(victimWithEachAgeByVictim)