# SQL $\rightarrow$ No-SQL

El objetivo de este cuaderno es subir una base de datos SQL al formato de colecciones de No-SQL, para ello se deben poseer dos cosas elementales:
1. Evidentemente lo primero es tener la base de datos SQL, en este caso se usará una base de datos en formato CSV.
2. Las credenciales de conexión a la base de datos No-SQL, en este caso se usará MongoDB como base de datos no relacional.

## Importar librerías
Las librerías necesarias para poder generar una conexión con MongoDB son:
1. PyMongo $\rightarrow$ esta es la librería más esencial para poder generar la conexión a MongoDb.
2. DNSPython $\rightarrow$ al menos en mi caso, esta librería fue solicitada al momento de crear la conexión con MongoDB.
3. Pandas $\rightarrow$ permitirá cargar nuestra base de datos, en este caso en formato **CSV**.

In [13]:
from pymongo.mongo_client import MongoClient
from pymongo.server_api import ServerApi
import pandas as pd

## Pre-configuración
Necesitamos configurar la conexion de las direcciones IP de nuestros ordenadores donde estemos trabajando. Esta configuración la haremos en el sitio oficial de [Atlas](https://cloud.mongodb.com/), al costado izquierdo de la página nos encontramos con diferentes opciones de configuración del servicio de las bases de datos de MongoDb. Nos enfocaremos en la sección de *"Security"* en la opción de *"Network Acces"* (como lo indica la siguiente foto).


<center><img align="center" src='Screenshots/Setting Network Section.png'> </center>
<br>

Ya ubicados en esta sección nos saldrá un menu con la configuración de acceso a nuestras base de datos, por lo general MongoDB ya detecta que la dirección IP el equipo no está registrada dentro de los accesos permitidos y nos permitirá de manera sencilla (como se ve en la imágen) agregarla con solo un click, más especificamente donde dice ***ADD CURRENT IP ADDRESS***


<img align="center" src='Screenshots/Alert not IP Address.png'> 


Una vez fue agregada la dirección IP nos saldrá una alerta de confirmación, en este momento ya podemos acceder a nuestra base de datos desde nuestro equipo.


<img align="center" src='Screenshots/Alert IP added.png'> 


Más sin embargo, sí queremos dejar el acceso abierto para cualquier usuario, debemos ir a la sección de ***ADD IP ADDRES*** y agregar la dirección IP donde cada octeto y la máscara de subred son cero ***0.0.0.0/0***, tal y como se observa en la imágen. Para este punto ya tenemos acceso a la base de datos desde nuestro equipo.


<center><img align="center" src='Screenshots/Access to everyone.png'> </center>

<br>

## Conexión a Mongo
Los datos que obligatoriamente necesitamos para poder generar la conexión son:

* ***User*** de la cuenta, el usuario que se establece al crear la cuenta de MongoDB.
* ***Password*** del usuario (que no es la misma clave de la cuenta).
* ***Server*** donde se aloja la base de datos.
* ***Cluster*** que hace referencia a base de datos.
* ***Colección*** 

Acá toca aclarar que la ***Password*** y ***Server*** son específicamente de la base de datos, más no de la cuenta. Para obtener estos datos debemos dirigirnos a la página oficial de [Atlas](https://cloud.mongodb.com/) y crear un nuevo cluster o trabajar sobre uno ya existente. En este caso trabajaremos con la base de datos o cluster ***grupalTDB***.

<center><img align="center" src='Screenshots/Menu cluster.png'> </center>
<br>

### Obtener server (y código general de conexión)
Ubicados en la página de [Atlas](https://cloud.mongodb.com/), seleccionamos la opción de **Connect** y seguido nos saldrá una ventana donde podemos elegir el método de conección a la base de datos, en este caso seleccionaremos **Drivers**.

<center><img align="center" src='Screenshots/Connect options.png'> </center>

<br>

Por último seleccionaremos el lenguaje de programación desde el que queremos realizar la conexión con MongoDB y copiaremos el enlace que aparece en el numéral 3 (tal como en la imágen). Cabe recalcar que el ***servidor*** es lo que se ubica después del **@** y antes del  **?**.

<center><img align="center" src='Screenshots/Select programming lenguaje.png'> </center>
<br>

### Obtener la clave del usuario


Para obtener la clave del usuario nos dirigimos a ***Database Access*** en el menu mencionado en la parte de establecer IP.
<center><img align="center" src='Screenshots/Setting Network Section.png'> </center>
<br>

Nos mostrará un listado de cada usuario en nuestra cuenta de MongoDB, seleccionamos el botón ***EDIT*** para acceder a las configuraciones del usuario.

<center><img align="center" src='Screenshots/User description.png'> </center>
<br>

Para obtener la clave nos enfocamos únicamente en la sección de este estilo y presionamos ***EDIT PASSWORD***.

<center><img align="center" src='Screenshots/Password first view.png'> </center>
<br>

Por último oprimimos el botón ***Autogenerate Secure Password***  y copiamos la clave, en este punto
<center><img align="center" src='Screenshots/Password second view.png'> </center>
<br>

In [14]:
# ---------- Datos de conexión ----------

user =  'sigir'
password = '31wwwvjEvNQwJBDa'
cluster = "grupalTDB"
colecion_name = "Connect_Mongo"


In [15]:
# ---------- Establecer conexión con el servidor de Mongo ----------

# URL de conexión con MongoDB
uri = f"mongodb+srv://{user}:{password}@grupaltdb.wvwrda2.mongodb.net/?retryWrites=true&w=majority"

# Crear un nuevo cliente y conexión al servidor
client = MongoClient(uri, server_api=ServerApi('1'))

# Enviar una petición que verifique nuestra conexión
try:
    client.admin.command('ping')
    print("Pinged your deployment. You successfully connected to MongoDB!")
except Exception as e:
    print(e)


Pinged your deployment. You successfully connected to MongoDB!


In [16]:
# ---------- Establecer conexión con el cluster y colexión ----------

# Establecer el cliente con el cluster
db = client[cluster]

# Crear la colección
coleccion = db[colecion_name]

## Cargar dataset

Para cargar nuestro dataset usamos el método ***read_csv*** de **pandas**, en caso de querer cambiar el nombre de los campos (como en este caso) tenemos que modificar la variable de instancia ***columns*** (como se observa en la última línea del siguiente bloque de código).

Imputamos los datos faltantes con ***-*** para evitar problemas al momento de cargar la base de datos a MongoDB, y por último pasamos el formato SQL a diccionarios, el formato de diccionario es una estructura de datos legible para MongoDB.

In [23]:
# ---------- Cargar y configurar dataset ----------

dataset = pd.read_csv('~/Documents/University/Semester 4/Data Base/Task/Connection to Mongo/Dashboard.csv')

# Renombrar columnas
dataset = dataset[dataset.columns[2:]]
dataset.columns = ['Fecha de actualización', 'Fecha de publicación', 'Estudiante', 'URL', 'Título de la noticia', 'Resumen', 'Keywords']

In [26]:
dataset = dataset.fillna("-") # Proceso de imputación
df = dataset.to_dict("records") # Pasar a estrucura de MongoDB

In [21]:
# Importar los datos
coleccion.insert_many(df)


<pymongo.results.InsertManyResult at 0x7f89fb563e50>

Finalmente nuestros datos se han cargado con éxito a MongoDB.

<center><img align="center" src='Screenshots/Results.png'> </center>
<br>
