# Caso 3: Estudio de viabilidad de un dataset proveniente de distintas fuentes

## Suponga que trabaja para la consultora DATACONSUL. Un cliente se ha puesto en contacto con la empresa para que se le haga un estudio preliminar de una dataset para estudiar la posibilidad de sacar valor insights a dichos datos.  

La situación de los datos es la siguiente:  
Por falta de tiempo la salida del pipeline de datos no llegó a una única fuente. Los datos se encuentran en tres fuentes distintas, una parte en MySQL Workbench, otra parte de los datos están en SQL Server Management Studio y una tercera parte están guardadas en un Clúster de MongoDB (corriendo AWS de fondo) como una base de datos NoSQL en estructura de catálogos.  

- Para las primeras dos fuentes el cliente ha enviado los esquemas en ficheros sql. El esquema que proviene de la bases de datos de mysql workbench se llama **telecomdb_mysql.sql** y el que proviene de SQL Server se llama **telecomdb_sqlserver.sql**.
  
- Para los datos que están en MongoDB Atlas el cliente no ha enviado el fichero sino que ha proporcionado una cadena de conexión para que , desde jupyter notebook o VSCODE utilizando la libreria **pymongo** , para descargar los catálogos y cargarlos un dataframe de pandas.

Los datos están relacionados a una empresa de telecomunicaciones. Las tres fuentes contienen tres tablas: Employees, Customers y Transactions

## Las instrucciones son:

# Para MySQL Workbench:

### 1- Cargar el script **telecomdb_mysql.sql** a tu gestor MySQL Worbench de forma local. 

### 2 - Después desde tu notebook de preferencia usar `SQLAlchemy` para generar una conexión hacia tu base de datos local y cargar las tablas en tres dataframes distintas (Employees, customers y Transactions). 

In [None]:
# !pip install pymysql
# !pip install sqlalchemy

### Hacer la conexión a tu MySQL Local

In [12]:
from sqlalchemy import create_engine
import pandas as pd

# Reemplaza con tu cadena de conexión a MySQL
engine = create_engine('mysql+pymysql://root:Data2024@localhost:3306/telecomdb')
# Cambiar el password puesto arriba por el password de tu conexión

### Ejecutar consulta y cargar datos en un DataFrame

In [27]:
employees_mysql = pd.read_sql_query('SELECT * FROM Employees', engine)
customers_mysql = pd.read_sql_query('SELECT * FROM Customers', engine)
transactions_mysql = pd.read_sql_query('SELECT * FROM Transactions', engine)

### Hacer un .head() de cada dataframe para 'ver los datos'

# Para SQL Server

### 1- Cargar el script **telecomdb_sqlserver.sql** a tu gestor SSMS

### 2- Desde tu notebook de preferencia usar `SQLAlchemy` para generar una conexión hacia tu base de datos local y cargar las tablas en tres dataframes distintas (Employees, customers y Transactions).

In [14]:
from sqlalchemy import create_engine
import pandas as pd

# Crear la cadena de conexión usando SQLAlchemy
engine = create_engine('mssql+pyodbc://BALRODJJ/TelecomDB?driver=SQL+Server&trusted_connection=yes')
# Cambiar BALRODJJ por le nombre del server que tiene tu base de datos TelecomDB

### Ejecutar consulta y cargar datos en un DataFrame

In [26]:
employees_sql = pd.read_sql_query('SELECT * FROM Employees', engine)
customers_sql = pd.read_sql_query('SELECT * FROM Customers', engine)
transactions_sql = pd.read_sql_query('SELECT * FROM Transactions', engine)

### Hacer un .head() de cada dataframe para 'ver los datos'

# Para MongoDB

In [None]:
#!pip install pymongo

### 1- Usando pymongo conectarse al cluster de mongodb altas con la cadena de conexión suministrada por la empresa:

In [16]:
from pymongo import MongoClient

#  cadena de conexión 
uri = "mongodb+srv://student77:tajamar77@prueba.6okhd9u.mongodb.net/?retryWrites=true&w=majority&appName=Prueba"

# Conectar a la base de datos
client = MongoClient(uri)

# Seleccionar la base de datos
db = client['TelecomDB']

# Acceder a las colecciones
employees_collection = db['Employees']
customers_collection = db['Customers']
transactions_collection = db['Transactions']

### Ejemplo de consulta: Obtener todos los documentos de la colección Employees

In [17]:
employees = employees_collection.find()
print("Employees:")
for employee in employees:
    print(employee)

Employees:
{'_id': ObjectId('6687b6767f84c33cbfc9c33d'), 'EmployeeID': 8, 'FirstName': 'Hannah', 'LastName': 'Walker', 'Email': 'hannah.walker@example.com', 'HireDate': datetime.datetime(2019, 11, 21, 0, 0), 'Salary': 58000}
{'_id': ObjectId('6687b6767f84c33cbfc9c34e'), 'EmployeeID': 25, 'FirstName': 'Yvonne', 'LastName': 'Sanchez', 'Email': 'yvonne.sanchez@example.com', 'HireDate': datetime.datetime(2021, 6, 5, 0, 0), 'Salary': 63000}
{'_id': ObjectId('6687b6767f84c33cbfc9c337'), 'EmployeeID': 2, 'FirstName': 'Betty', 'LastName': 'Jones', 'Email': 'betty.jones@example.com', 'HireDate': datetime.datetime(2019, 4, 12, 0, 0), 'Salary': 62000}
{'_id': ObjectId('6687b6767f84c33cbfc9c33f'), 'EmployeeID': 10, 'FirstName': 'Julia', 'LastName': 'Allen', 'Email': 'julia.allen@example.com', 'HireDate': datetime.datetime(2021, 1, 10, 0, 0), 'Salary': 61000}
{'_id': ObjectId('6687b6767f84c33cbfc9c34c'), 'EmployeeID': 23, 'FirstName': 'Wendy', 'LastName': 'Collins', 'Email': 'wendy.collins@example.

### Ejemplo de consulta: Obtener todos los documentos de la colección Customers

In [18]:
customers = customers_collection.find()
print("\nCustomers:")
for customer in customers:
    print(customer)


Customers:
{'_id': ObjectId('6687b6a17f84c33cbfc9c379'), 'CustomerID': 18, 'FirstName': 'Ruby', 'LastName': 'Phillips', 'Email': 'ruby.phillips@example.com', 'SignupDate': datetime.datetime(2018, 5, 30, 0, 0), 'MonthlyIncome': 4900}
{'_id': ObjectId('6687b6a17f84c33cbfc9c371'), 'CustomerID': 10, 'FirstName': 'Jack', 'LastName': 'Allen', 'Email': 'jack.allen@example.com', 'SignupDate': datetime.datetime(2021, 2, 14, 0, 0), 'MonthlyIncome': 4800}
{'_id': ObjectId('6687b6a17f84c33cbfc9c369'), 'CustomerID': 2, 'FirstName': 'Brian', 'LastName': 'Johnson', 'Email': 'brian.johnson@example.com', 'SignupDate': datetime.datetime(2020, 5, 25, 0, 0), 'MonthlyIncome': 4800}
{'_id': ObjectId('6687b6a17f84c33cbfc9c368'), 'CustomerID': 1, 'FirstName': 'Amelia', 'LastName': 'Smith', 'Email': 'amelia.smith@example.com', 'SignupDate': datetime.datetime(2021, 3, 15, 0, 0), 'MonthlyIncome': 4600}
{'_id': ObjectId('6687b6a17f84c33cbfc9c36c'), 'CustomerID': 5, 'FirstName': 'Ella', 'LastName': 'Wilson', 'Ema

### Ejemplo de consulta: Obtener todos los documentos de la colección Transactions

In [19]:
transactions = transactions_collection.find()
print("\nTransactions:")
for transaction in transactions:
    print(transaction)


Transactions:
{'_id': ObjectId('6687b6d07f84c33cbfc9c39f'), 'TransactionID': 6, 'CustomerID': 6, 'Product': 'TV Plan', 'TransactionDate': datetime.datetime(2021, 10, 11, 0, 0), 'Amount': 65}
{'_id': ObjectId('6687b6d07f84c33cbfc9c3be'), 'TransactionID': 37, 'CustomerID': 37, 'Product': 'TV Plan', 'TransactionDate': datetime.datetime(2021, 9, 3, 0, 0), 'Amount': 75}
{'_id': ObjectId('6687b6d07f84c33cbfc9c3a2'), 'TransactionID': 9, 'CustomerID': 9, 'Product': 'TV Plan', 'TransactionDate': datetime.datetime(2021, 7, 18, 0, 0), 'Amount': 75}
{'_id': ObjectId('6687b6d07f84c33cbfc9c3ae'), 'TransactionID': 21, 'CustomerID': 21, 'Product': 'Phone Plan', 'TransactionDate': datetime.datetime(2021, 10, 10, 0, 0), 'Amount': 45}
{'_id': ObjectId('6687b6d07f84c33cbfc9c39c'), 'TransactionID': 3, 'CustomerID': 3, 'Product': 'TV Plan', 'TransactionDate': datetime.datetime(2021, 11, 20, 0, 0), 'Amount': 75}
{'_id': ObjectId('6687b6d07f84c33cbfc9c39e'), 'TransactionID': 5, 'CustomerID': 5, 'Product': 'P

### Crear DataFrames a partir de las Colecciones de MongoDB:

In [20]:
employees_mongo = pd.DataFrame(list(db.Employees.find()))
customers_mongo = pd.DataFrame(list(db.Customers.find()))
transactions_mongo = pd.DataFrame(list(db.Transactions.find()))

### Eliminar la Columna _id:

In [21]:
employees_mongo.drop(columns=['_id'], inplace=True)
customers_mongo.drop(columns=['_id'], inplace=True)
transactions_mongo.drop(columns=['_id'], inplace=True)

### Mostrar los DataFrames para Confirmar la Operación:

In [22]:
print("Employees DataFrame:")
print(employees_mongo.head())

Employees DataFrame:
   EmployeeID FirstName LastName                       Email   HireDate  \
0           8    Hannah   Walker   hannah.walker@example.com 2019-11-21   
1          25    Yvonne  Sanchez  yvonne.sanchez@example.com 2021-06-05   
2           2     Betty    Jones     betty.jones@example.com 2019-04-12   
3          10     Julia    Allen     julia.allen@example.com 2021-01-10   
4          23     Wendy  Collins   wendy.collins@example.com 2019-06-29   

   Salary  
0   58000  
1   63000  
2   62000  
3   61000  
4   60000  


In [23]:
print("\nCustomers DataFrame:")
print(customers_mongo.head())


Customers DataFrame:
   CustomerID FirstName  LastName                      Email SignupDate  \
0          18      Ruby  Phillips  ruby.phillips@example.com 2018-05-30   
1          10      Jack     Allen     jack.allen@example.com 2021-02-14   
2           2     Brian   Johnson  brian.johnson@example.com 2020-05-25   
3           1    Amelia     Smith   amelia.smith@example.com 2021-03-15   
4           5      Ella    Wilson    ella.wilson@example.com 2017-09-22   

   MonthlyIncome  
0           4900  
1           4800  
2           4800  
3           4600  
4           5300  


In [24]:
print("\nTransactions DataFrame:")
print(transactions_mongo.head())


Transactions DataFrame:
   TransactionID  CustomerID     Product TransactionDate  Amount
0              6           6     TV Plan      2021-10-11      65
1             37          37     TV Plan      2021-09-03      75
2              9           9     TV Plan      2021-07-18      75
3             21          21  Phone Plan      2021-10-10      45
4              3           3     TV Plan      2021-11-20      75


# Unir todos los Dataframes de las tres fuentes dadas: Un solo dataframe para Empleados(Employees), otra para Clientes (Customers) y otra para Transacciones

### Guardar los dataframes en tres csv's distintos

### Utilizando pandas hacer la carga de cada csv y evaluar viabilidad de los datos

### Hacer estadisticas descriptivas sencillas sobre cada csv para desarrollar conclusiones de cada csv.

### De los tres csv generar un unico csv de trabajo (Martes 09)