# S18 T01: Tasca base de dades NoSQL
**Descripció**

Comencem a familiaritzar-nos amb bases de dades NoSQL !!! Comencem amb uns quants exercicis bàsics

## Nivell 1
### - Exercici 1

Crea una base de dades NoSQL utilitzant MongoDB. Afegeix-li algunes dades d'exemple que et permetin comprovar que ets capaç de processar-ne la informació de manera bàsica.



Me he registrado en el servicio en la nube que ofrece mongoDB, **MongoDB Atlas**

---

![imagen.png](attachment:imagen.png)

---

En el registro básico tienes un servidor con 512 mb.



Una vez registrado he creado un cluster y he descargado un conjunto de bases de datos de muestra con diferentes coleciones para poder hacer este ejercicio. 

---


![imagen.png](attachment:imagen.png)


---



A través de la aplicación podemos obtener la URI para conectarnos a nuestro servidor.

---

![imagen.png](attachment:imagen.png)

--- 


En este servidor disponemos de diferentes bases de datos con lo que podemos trabajar.

Para realizar el ejercicio, también podía haber abierto un servidor local con **mongoDB** y haber cargado alguna base de datos con la ayuda de la interfaz gráfica **MongoDB Compass** pero en este caso nos decantaremos por la primera opción.

### - Exercici 2

Connecta la base de dades NoSQL a Python utilitzant per exemple pymongo.



In [1]:
## Librerías

# Data análisis
import pandas as pd
import numpy as np

# Data visualization
%matplotlib inline
import matplotlib.pyplot as plt

import seaborn as sns



# Mongo Conector
import pymongo
import dns

En primer lugar tengo que abrir la conexión con mi base de datos que está en la nube.


In [2]:
# Conexión con mi cluster
client = pymongo.MongoClient("mongodb+srv://m001-student:m001-mongodb-basics@sandbox.p3lle.mongodb.net/myFirstDatabase?retryWrites=true&w=majority")


In [3]:
# Ver las bases de datos que hay en el servidor

client.list_database_names()

['sample_airbnb',
 'sample_analytics',
 'sample_geospatial',
 'sample_mflix',
 'sample_restaurants',
 'sample_supplies',
 'sample_training',
 'sample_weatherdata',
 'admin',
 'local']

In [4]:
# Selecciono la base de datos "sample_training"
db = client.sample_training

In [5]:
# Lista de colecciones de la base de datos
db.list_collection_names()

['trips', 'grades', 'routes', 'posts', 'zips', 'inspections', 'companies']

## Nivell 2
### - Exercici 1

Carega algunes consultes senzilles a un Pandas Dataframe. 


Hasta ahora, hemos conectado con nuestro servidor en la nube y hemos explorado las colecciones que hay dentro de la base de datos sample_training.

Vamos a explorar ahora la colección _"inspections"_.

MongoDB Compass es una interfaz gráfica que nos facilita el trabajo de exploración de nuestra base de datos Mongodb.

Podemos ver que inspections tiene 80047 documentos que tienen una estructura similar a:

![imagen.png](attachment:imagen.png)




En este caso voy a hacer una consulta que me devuelva el las diez ciudades que más inspecciones han hecho: 


In [6]:
# Creo cursor de la colección

col_inspections = db.inspections


In [7]:
# Query - Número de inspecciones por ciudad
query = [{'$project':{'address': 1,'_id': 0}}, 
         {'$group': {'_id': '$address.city','Count': {'$sum': 1}}},
         {'$sort' : {'Count' : -1 }},
         {'$limit': 10}]

In [8]:
inspecciones_ciudad=col_inspections.aggregate(query)

In [9]:
pd.DataFrame(list(inspecciones_ciudad))#.sort_values(by = 'Count', ascending = False)

Unnamed: 0,_id,Count
0,BROOKLYN,25846
1,NEW YORK,18279
2,BRONX,12148
3,ASTORIA,2913
4,STATEN ISLAND,2643
5,JAMAICA,2104
6,FLUSHING,1513
7,CORONA,1128
8,JACKSON HEIGHTS,1008
9,SOUTH RICHMOND HILL,768


In [10]:
# Query - 2 Número de inspecciones por ciudad y resultado.

query2 = [
    {
        '$project': {
            'address': 1, 
            'result': 1, 
            '_id': 0
        }
    }, {
        '$group': {
            '_id': {
                'ciudad': '$address.city', 
                'resultado': '$result'
            }, 
            'Total': {
                '$sum': 1
            }
        }
    }, {
        '$sort': {
            '_id.ciudad':1,
            'Total':-1
        }
    }
]

In [11]:
col_inspections.aggregate(query2)

<pymongo.command_cursor.CommandCursor at 0x138dfe085e0>

In [12]:
# Guardo el cursor en una variable
lista = (list(col_inspections.aggregate(query2)))

In [13]:
# Transformo la lista de diccionarios para quedarme con los campos que necesito
lista_inspecciones = [(element['_id']['ciudad'],element['_id']['resultado'],element['Total']) for element in lista]

# COnvierto en dataframe
df2 = pd.DataFrame(lista_inspecciones, columns = ['Ciudad','Resultado', 'Toltal'])
df2

Unnamed: 0,Ciudad,Resultado,Toltal
0,,Pass,94
1,,Unable to Locate,19
2,,No Violation Issued,15
3,,Out of Business,5
4,,Violation Issued,4
...,...,...,...
793,brooklyn,Fail,1
794,jamaica,Violation Issued,1
795,manhattan,No Violation Issued,1
796,staten island,No Violation Issued,2


Vamos a mejorar la query y en este caso voy a filtrar eliminar los registros que no tienen información sobre la ciudad.

In [14]:
# Numero de inspecciones por tipo y ciudad eliminando valores nulos
query3 = [
    {
        '$project': {
            'address': 1, 
            'result': 1, 
            '_id': 0
        }
    },{
        '$match':{
            'address.city':{
                '$ne':''
            }
        }
    },{
        '$group': {
            '_id': {
                'ciudad': '$address.city', 
                'resultado': '$result'
            }, 
            'Total': {
                '$sum': 1
            }
        }
    }, {
        '$sort': {
            '_id.ciudad':1,
            'Total':-1
        }
    }
]

In [15]:
col_inspections.aggregate(query3)

<pymongo.command_cursor.CommandCursor at 0x138dfeed190>

In [16]:
# Transformo la lista de diccionarios para quedarme con los campos que necesito

lista_query_3 = list(col_inspections.aggregate(query3))

lista_inspecciones_limpia = [(element['_id']['ciudad'],element['_id']['resultado'],element['Total']) for element in lista_query_3]

# COnvierto en dataframe
df3 = pd.DataFrame(lista_inspecciones_limpia, columns = ['Ciudad','Resultado', 'Total'])
df3

Unnamed: 0,Ciudad,Resultado,Total
0,ALBERTSON,Pass,2
1,ALLENTOWN,Violation Issued,1
2,ARLINGTON,Violation Issued,1
3,ARVERNE,No Violation Issued,20
4,ARVERNE,Pass,19
...,...,...,...
783,brooklyn,No Violation Issued,1
784,jamaica,Violation Issued,1
785,manhattan,No Violation Issued,1
786,staten island,No Violation Issued,2


Por último podría llegar a filtrar también por ciudad, por ejemplo en la siguiente query quiero ver el número de resultados total en la ciudad de nueva york.

In [17]:
query4 = [
    {
        '$project': {
            'address.city':1,'result': 1, 
            '_id': 0
        }
    },{
        '$match':{
            'address.city':'NEW YORK'
                 }
    },{
        '$group': {
            '_id': { 
                'resultado': '$result'
            }, 
            'Total': {
                '$sum': 1
            }
        }
    }, {
        '$sort': {
            '_id.resultado':1,
            'Total':-1
        }
    }
]

In [18]:
# Transformo la lista de diccionarios para quedarme con los campos que necesito

lista_query_4 = list(col_inspections.aggregate(query4))

lista_inspecciones_NY = [(element['_id']['resultado'],element['Total']) for element in lista_query_4]


# COnvierto en dataframe
df4 = pd.DataFrame(lista_inspecciones_NY, columns = ['Resultado', 'Total'])
df4

Unnamed: 0,Resultado,Total
0,Business Padlocked,1
1,Closed,216
2,Completed,9
3,ECB Summons Issued,13
4,ECB Warning Issued,126
5,Fail,126
6,Licensed,43
7,NOH Withdrawn,37
8,No Evidence of Activity,557
9,No Violation Issued,8259


Como observación, las querys utilizadas en esta parte del ejercicio he utilizado el framework aggregate de **MongoDB**. Con esta función he obtenido datos agrupados y los he pasado a un dataframe.

Es posible hacer búsquedas más sencillas utilizando la sintaxis MLP de **MongoDB**, con el comando find().

Para obtener el dataframe número 4, podría haber usado la siguiente query.

In [19]:
# Query 5 / Encuentra todas las inspecciones que se han hecho en Nueva York.

query_5 = {'address.city':'NEW YORK'},{'result': 1, '_id': 0}

In [20]:
NY = list(col_inspections.find({'address.city':'NEW YORK'},{'result': 1, '_id': 0}))
NY

[{'result': 'Violation Issued'},
 {'result': 'No Violation Issued'},
 {'result': 'No Violation Issued'},
 {'result': 'No Violation Issued'},
 {'result': 'No Violation Issued'},
 {'result': 'Violation Issued'},
 {'result': 'Violation Issued'},
 {'result': 'No Violation Issued'},
 {'result': 'No Violation Issued'},
 {'result': 'No Violation Issued'},
 {'result': 'Violation Issued'},
 {'result': 'Violation Issued'},
 {'result': 'Violation Issued'},
 {'result': 'Pass'},
 {'result': 'Violation Issued'},
 {'result': 'Violation Issued'},
 {'result': 'Violation Issued'},
 {'result': 'Violation Issued'},
 {'result': 'No Violation Issued'},
 {'result': 'Violation Issued'},
 {'result': 'Out of Business'},
 {'result': 'Violation Issued'},
 {'result': 'No Violation Issued'},
 {'result': 'Pass'},
 {'result': 'Pass'},
 {'result': 'No Violation Issued'},
 {'result': 'Violation Issued'},
 {'result': 'Pass'},
 {'result': 'Pass'},
 {'result': 'Pass'},
 {'result': 'Pass'},
 {'result': 'Pass'},
 {'result':

In [21]:
pd.DataFrame(NY).groupby('result')[['result']].count()

Unnamed: 0_level_0,result
result,Unnamed: 1_level_1
Business Padlocked,1
Closed,216
Completed,9
ECB Summons Issued,13
ECB Warning Issued,126
Fail,126
Licensed,43
NOH Withdrawn,37
No Evidence of Activity,557
No Violation Issued,8259


## Nivell 3
### - Exercici 1

Genera un resum estadístic de la informació que conté la base de dades.

Vamos a hacer un resumen estadístico del dataframe 3, con los datos de ciudad, resultado y número de inspecciones.

In [22]:
df.info()

NameError: name 'df' is not defined

In [None]:
# Categóricas
df3.describe(exclude = np.number)

El dataset tiene 788 observaciones que incluyen información sobre el número de inspecciones que se han hecho clasificadas por resultado y ciudad.

En total hay 235 ciudades y hasta 23 tipos de resultado diferentes.

In [None]:
number_inspections = df3.groupby('Ciudad')[['Total']].sum().sort_values(by = 'Total', ascending = False).head(10)

sns.catplot(data = number_inspections.reset_index() ,
            x = 'Ciudad',
            y = 'Total',
            height = 6,
            aspect = 2.5,
            kind = 'bar');

Las diez ciudades con más inspecciones están representadas en el gráfico de arriba.

In [None]:
(df3.groupby('Resultado')[['Total']].sum().sort_values(by = 'Total', ascending = False)/79899*100).round(2)

Tan solo pasaron un 19.29 % de todas las inspecciones. Además en un 17% de las ocasiones se detecto que se cometía una infracción.