# Caso 3: Estudio de viabilidad de un dataset proveniente de distintas fuentes

## Suponga que trabaja para la consultora DATACONSUL. Un cliente se ha puesto en contacto con la empresa para que se le haga un estudio preliminar de una dataset para estudiar la posibilidad de sacar valor insights a dichos datos.  

La situación de los datos es la siguiente:  
Por falta de tiempo la salida del pipeline de datos no llegó a una única fuente. Los datos se encuentran en tres fuentes distintas, una parte en MySQL Workbench, otra parte de los datos están en SQL Server Management Studio y una tercera parte están guardadas en un Clúster de MongoDB (corriendo AWS de fondo) como una base de datos NoSQL en estructura de catálogos.  

- Para las primeras dos fuentes el cliente ha enviado los esquemas en ficheros sql. El esquema que proviene de la bases de datos de mysql workbench se llama **telecomdb_mysql.sql** y el que proviene de SQL Server se llama **telecomdb_sqlserver.sql**.
  
- Para los datos que están en MongoDB Atlas el cliente no ha enviado el fichero sino que ha proporcionado una cadena de conexión para que , desde jupyter notebook o VSCODE utilizando la libreria **pymongo** , para descargar los catálogos y cargarlos un dataframe de pandas.

Los datos están relacionados a una empresa de telecomunicaciones. Las tres fuentes contienen tres tablas: Employees, Customers y Transactions

## Las instrucciones son:

# Para MySQL Workbench:

### 1- Cargar el script **telecomdb_mysql.sql** a tu gestor MySQL Worbench de forma local. 

### 2 - Después desde tu notebook de preferencia usar `SQLAlchemy` para generar una conexión hacia tu base de datos local y cargar las tablas en tres dataframes distintas (Employees, customers y Transactions). 

In [6]:
 #!pip install pymysql
#!pip install sqlalchemy
 #!pip install cryptography
#!pip install mysqlclient

Collecting mysqlclient
  Downloading mysqlclient-2.2.4-cp312-cp312-win_amd64.whl.metadata (4.6 kB)
Downloading mysqlclient-2.2.4-cp312-cp312-win_amd64.whl (203 kB)
   ---------------------------------------- 0.0/203.3 kB ? eta -:--:--
   -- ------------------------------------- 10.2/203.3 kB ? eta -:--:--
   --- ----------------------------------- 20.5/203.3 kB 330.3 kB/s eta 0:00:01
   --------------- ----------------------- 81.9/203.3 kB 762.6 kB/s eta 0:00:01
   ---------------------------------------- 203.3/203.3 kB 1.4 MB/s eta 0:00:00
Installing collected packages: mysqlclient
Successfully installed mysqlclient-2.2.4



[notice] A new release of pip is available: 24.0 -> 24.1.2
[notice] To update, run: python.exe -m pip install --upgrade pip


### Hacer la conexión a tu MySQL Local

In [7]:
from sqlalchemy import create_engine
import pandas as pd

# Reemplaza con tu cadena de conexión a MySQL
#engine = create_engine('mysql+pymysql://root:Data2024@localhost:3306/telecomdb')
engine = create_engine('mysql+pymysql://root:Mizos05023@localhost:3306/telecomdb')
# Cambiar el password puesto arriba por el password de tu conexión

### Ejecutar consulta y cargar datos en un DataFrame

In [8]:
from sqlalchemy import create_engine
import pandas as pd

employees_mysql = pd.read_sql_query('SELECT * FROM Employees', engine)
customers_mysql = pd.read_sql_query('SELECT * FROM Customers', engine)
transactions_mysql = pd.read_sql_query('SELECT * FROM Transactions', engine)

print(employees_mysql.head())
print()
print(customers_mysql.head())
print()
print(transactions_mysql.head())

   EmployeeID FirstName  LastName                        Email    HireDate  \
0           1     Alice    Miller     alice.miller@example.com  2019-03-10   
1           2       Bob     Brown        bob.brown@example.com  2020-05-22   
2           3   Charlie   Johnson  charlie.johnson@example.com  2018-07-14   
3           4     Diana    Garcia     diana.garcia@example.com  2021-01-25   
4           5      Evan  Martinez    evan.martinez@example.com  2017-09-18   

    Salary  
0  58000.0  
1  54000.0  
2  62000.0  
3  60000.0  
4  67000.0  

   CustomerID FirstName  LastName                       Email  SignupDate  \
0           1      Adam     Smith      adam.smith@example.com  2021-03-11   
1           2     Betty   Johnson   betty.johnson@example.com  2020-05-22   
2           3   Charlie     Brown   charlie.brown@example.com  2019-07-14   
3           4     Daisy  Williams  daisy.williams@example.com  2021-01-25   
4           5     Ethan     Jones     ethan.jones@example.com  2017

### Hacer un .head() de cada dataframe para 'ver los datos'

# Para SQL Server

### 1- Cargar el script **telecomdb_sqlserver.sql** a tu gestor SSMS

### 2- Desde tu notebook de preferencia usar `SQLAlchemy` para generar una conexión hacia tu base de datos local y cargar las tablas en tres dataframes distintas (Employees, customers y Transactions).

In [9]:
from sqlalchemy import create_engine
import pandas as pd

# Crear la cadena de conexión usando SQLAlchemy
#engine = create_engine('mssql+pyodbc://BALRODJJ/TelecomDB?driver=SQL+Server&trusted_connection=yes')
engine = create_engine('mssql+pyodbc://DESKTOP-MAM6T2F/TelecomDB?driver=SQL+Server&trusted_connection=yes')
# Cambiar BALRODJJ por le nombre del server que tiene tu base de datos TelecomDB

### Ejecutar consulta y cargar datos en un DataFrame

In [10]:
employees_sql = pd.read_sql_query('SELECT * FROM Employees', engine)
customers_sql = pd.read_sql_query('SELECT * FROM Customers', engine)
transactions_sql = pd.read_sql_query('SELECT * FROM Transactions', engine)

print(employees_sql.head())
print()
print(customers_sql.head())
print()
print(transactions_sql.head())



   EmployeeID FirstName  LastName                        Email    HireDate  \
0           1      John       Doe         john.doe@example.com  2020-01-15   
1           2      Jane     Smith       jane.smith@example.com  2019-03-22   
2           3   Michael   Johnson  michael.johnson@example.com  2021-06-12   
3           4  Patricia     Brown   patricia.brown@example.com  2018-11-05   
4           5     Linda  Williams   linda.williams@example.com  2017-04-23   

    Salary  
0  60000.0  
1  55000.0  
2  70000.0  
3  65000.0  
4  72000.0  

   CustomerID FirstName  LastName                      Email  SignupDate  \
0           1     Alice   Johnson  alice.johnson@example.com  2021-05-10   
1           2       Bob  Williams   bob.williams@example.com  2020-11-01   
2           3    Robert     Smith   robert.smith@example.com  2019-07-15   
3           4      Mary     Davis     mary.davis@example.com  2018-12-30   
4           5     James    Garcia   james.garcia@example.com  2022-01-18

### Hacer un .head() de cada dataframe para 'ver los datos'

# Para MongoDB

In [11]:
!pip install pymongo

Collecting pymongo
  Downloading pymongo-4.8.0-cp312-cp312-win_amd64.whl.metadata (22 kB)
Collecting dnspython<3.0.0,>=1.16.0 (from pymongo)
  Downloading dnspython-2.6.1-py3-none-any.whl.metadata (5.8 kB)
Downloading pymongo-4.8.0-cp312-cp312-win_amd64.whl (680 kB)
   ---------------------------------------- 0.0/680.4 kB ? eta -:--:--
    --------------------------------------- 10.2/680.4 kB ? eta -:--:--
   ----- ---------------------------------- 92.2/680.4 kB 1.1 MB/s eta 0:00:01
   --------------------- ------------------ 358.4/680.4 kB 3.2 MB/s eta 0:00:01
   ---------------------------------------  675.8/680.4 kB 4.3 MB/s eta 0:00:01
   ---------------------------------------- 680.4/680.4 kB 3.6 MB/s eta 0:00:00
Downloading dnspython-2.6.1-py3-none-any.whl (307 kB)
   ---------------------------------------- 0.0/307.7 kB ? eta -:--:--
   ----------------------------------- ---- 276.5/307.7 kB 8.6 MB/s eta 0:00:01
   ---------------------------------------- 307.7/307.7 kB 4.8 MB/


[notice] A new release of pip is available: 24.0 -> 24.1.2
[notice] To update, run: python.exe -m pip install --upgrade pip


### 1- Usando pymongo conectarse al cluster de mongodb altas con la cadena de conexión suministrada por la empresa:

In [12]:
from pymongo import MongoClient

#  cadena de conexión 
uri = "mongodb+srv://student77:tajamar77@prueba.6okhd9u.mongodb.net/?retryWrites=true&w=majority&appName=Prueba"

# Conectar a la base de datos
client = MongoClient(uri)

# Seleccionar la base de datos
db = client['TelecomDB']

# Acceder a las colecciones
employees_collection = db['Employees']
customers_collection = db['Customers']
transactions_collection = db['Transactions']

### Ejemplo de consulta: Obtener todos los documentos de la colección Employees

In [13]:
employees = employees_collection.find()
print("Employees:")
for employee in employees:
    print(employee)

Employees:
{'_id': ObjectId('6687b6767f84c33cbfc9c336'), 'EmployeeID': 1, 'FirstName': 'Aaron', 'LastName': 'Smith', 'Email': 'aaron.smith@example.com', 'HireDate': datetime.datetime(2018, 1, 15, 0, 0), 'Salary': 59000}
{'_id': ObjectId('6687b6767f84c33cbfc9c337'), 'EmployeeID': 2, 'FirstName': 'Betty', 'LastName': 'Jones', 'Email': 'betty.jones@example.com', 'HireDate': datetime.datetime(2019, 4, 12, 0, 0), 'Salary': 62000}
{'_id': ObjectId('6687b6767f84c33cbfc9c338'), 'EmployeeID': 3, 'FirstName': 'Carl', 'LastName': 'Brown', 'Email': 'carl.brown@example.com', 'HireDate': datetime.datetime(2020, 7, 18, 0, 0), 'Salary': 60000}
{'_id': ObjectId('6687b6767f84c33cbfc9c339'), 'EmployeeID': 4, 'FirstName': 'Diana', 'LastName': 'Davis', 'Email': 'diana.davis@example.com', 'HireDate': datetime.datetime(2021, 2, 24, 0, 0), 'Salary': 61000}
{'_id': ObjectId('6687b6767f84c33cbfc9c33a'), 'EmployeeID': 5, 'FirstName': 'Evan', 'LastName': 'Wilson', 'Email': 'evan.wilson@example.com', 'HireDate': d

### Ejemplo de consulta: Obtener todos los documentos de la colección Customers

In [14]:
customers = customers_collection.find()
print("\nCustomers:")
for customer in customers:
    print(customer)


Customers:
{'_id': ObjectId('6687b6a17f84c33cbfc9c368'), 'CustomerID': 1, 'FirstName': 'Amelia', 'LastName': 'Smith', 'Email': 'amelia.smith@example.com', 'SignupDate': datetime.datetime(2021, 3, 15, 0, 0), 'MonthlyIncome': 4600}
{'_id': ObjectId('6687b6a17f84c33cbfc9c369'), 'CustomerID': 2, 'FirstName': 'Brian', 'LastName': 'Johnson', 'Email': 'brian.johnson@example.com', 'SignupDate': datetime.datetime(2020, 5, 25, 0, 0), 'MonthlyIncome': 4800}
{'_id': ObjectId('6687b6a17f84c33cbfc9c36a'), 'CustomerID': 3, 'FirstName': 'Clara', 'LastName': 'Brown', 'Email': 'clara.brown@example.com', 'SignupDate': datetime.datetime(2019, 7, 20, 0, 0), 'MonthlyIncome': 5000}
{'_id': ObjectId('6687b6a17f84c33cbfc9c36b'), 'CustomerID': 4, 'FirstName': 'David', 'LastName': 'Davis', 'Email': 'david.davis@example.com', 'SignupDate': datetime.datetime(2021, 1, 28, 0, 0), 'MonthlyIncome': 5200}
{'_id': ObjectId('6687b6a17f84c33cbfc9c36c'), 'CustomerID': 5, 'FirstName': 'Ella', 'LastName': 'Wilson', 'Email':

### Ejemplo de consulta: Obtener todos los documentos de la colección Transactions

In [15]:
transactions = transactions_collection.find()
print("\nTransactions:")
for transaction in transactions:
    print(transaction)


Transactions:
{'_id': ObjectId('6687b6d07f84c33cbfc9c39a'), 'TransactionID': 1, 'CustomerID': 1, 'Product': 'Internet Plan', 'TransactionDate': datetime.datetime(2022, 1, 10, 0, 0), 'Amount': 55}
{'_id': ObjectId('6687b6d07f84c33cbfc9c39b'), 'TransactionID': 2, 'CustomerID': 2, 'Product': 'Phone Plan', 'TransactionDate': datetime.datetime(2022, 2, 15, 0, 0), 'Amount': 35}
{'_id': ObjectId('6687b6d07f84c33cbfc9c39c'), 'TransactionID': 3, 'CustomerID': 3, 'Product': 'TV Plan', 'TransactionDate': datetime.datetime(2021, 11, 20, 0, 0), 'Amount': 75}
{'_id': ObjectId('6687b6d07f84c33cbfc9c39d'), 'TransactionID': 4, 'CustomerID': 4, 'Product': 'Internet Plan', 'TransactionDate': datetime.datetime(2022, 2, 5, 0, 0), 'Amount': 55}
{'_id': ObjectId('6687b6d07f84c33cbfc9c39e'), 'TransactionID': 5, 'CustomerID': 5, 'Product': 'Phone Plan', 'TransactionDate': datetime.datetime(2021, 9, 12, 0, 0), 'Amount': 45}
{'_id': ObjectId('6687b6d07f84c33cbfc9c39f'), 'TransactionID': 6, 'CustomerID': 6, 'Pro

### Crear DataFrames a partir de las Colecciones de MongoDB:

In [16]:
employees_mongo = pd.DataFrame(list(db.Employees.find()))
customers_mongo = pd.DataFrame(list(db.Customers.find()))
transactions_mongo = pd.DataFrame(list(db.Transactions.find()))

### Eliminar la Columna _id:

In [17]:
employees_mongo.drop(columns=['_id'], inplace=True)
customers_mongo.drop(columns=['_id'], inplace=True)
transactions_mongo.drop(columns=['_id'], inplace=True)

### Mostrar los DataFrames para Confirmar la Operación:

In [18]:
print("Employees DataFrame:")
print(employees_mongo.head())

Employees DataFrame:
   EmployeeID FirstName LastName                    Email   HireDate  Salary
0           1     Aaron    Smith  aaron.smith@example.com 2018-01-15   59000
1           2     Betty    Jones  betty.jones@example.com 2019-04-12   62000
2           3      Carl    Brown   carl.brown@example.com 2020-07-18   60000
3           4     Diana    Davis  diana.davis@example.com 2021-02-24   61000
4           5      Evan   Wilson  evan.wilson@example.com 2017-06-19   64000


In [19]:
print("\nCustomers DataFrame:")
print(customers_mongo.head())


Customers DataFrame:
   CustomerID FirstName LastName                      Email SignupDate  \
0           1    Amelia    Smith   amelia.smith@example.com 2021-03-15   
1           2     Brian  Johnson  brian.johnson@example.com 2020-05-25   
2           3     Clara    Brown    clara.brown@example.com 2019-07-20   
3           4     David    Davis    david.davis@example.com 2021-01-28   
4           5      Ella   Wilson    ella.wilson@example.com 2017-09-22   

   MonthlyIncome  
0           4600  
1           4800  
2           5000  
3           5200  
4           5300  


In [20]:
print("\nTransactions DataFrame:")
print(transactions_mongo.head())


Transactions DataFrame:
   TransactionID  CustomerID        Product TransactionDate  Amount
0              1           1  Internet Plan      2022-01-10      55
1              2           2     Phone Plan      2022-02-15      35
2              3           3        TV Plan      2021-11-20      75
3              4           4  Internet Plan      2022-02-05      55
4              5           5     Phone Plan      2021-09-12      45


# Unir todos los Dataframes de las tres fuentes dadas: Un solo dataframe para Empleados(Employees), otra para Clientes (Customers) y otra para Transacciones

In [21]:
import pandas as pd

employees_combined = pd.concat([employees_mysql, employees_sql, employees_mongo])

# Opcional: Resetear el índice del dataframe combinado si es necesario
#employees_combined.reset_index(drop=True, inplace=True)

# Verificar el dataframe combinado
print(employees_combined)


    EmployeeID FirstName  LastName                        Email  \
0            1     Alice    Miller     alice.miller@example.com   
1            2       Bob     Brown        bob.brown@example.com   
2            3   Charlie   Johnson  charlie.johnson@example.com   
3            4     Diana    Garcia     diana.garcia@example.com   
4            5      Evan  Martinez    evan.martinez@example.com   
..         ...       ...       ...                          ...   
45          46      Tina    Brooks      tina.brooks@example.com   
46          47       Uma     Kelly        uma.kelly@example.com   
47          48    Victor   Sanders   victor.sanders@example.com   
48          49     Wendy     Price      wendy.price@example.com   
49          50    Xander   Bennett   xander.bennett@example.com   

               HireDate   Salary  
0            2019-03-10  58000.0  
1            2020-05-22  54000.0  
2            2018-07-14  62000.0  
3            2021-01-25  60000.0  
4            2017-09

In [38]:
import pandas as pd

customers_combined = pd.concat([customers_mysql, customers_sql, customers_mongo])

# Opcional: Resetear el índice del dataframe combinado si es necesario
#employees_combined.reset_index(drop=True, inplace=True)

# Verificar el dataframe combinado
print(customers_combined)


    CustomerID FirstName  LastName                       Email  \
0            1      Adam     Smith      adam.smith@example.com   
1            2     Betty   Johnson   betty.johnson@example.com   
2            3   Charlie     Brown   charlie.brown@example.com   
3            4     Daisy  Williams  daisy.williams@example.com   
4            5     Ethan     Jones     ethan.jones@example.com   
..         ...       ...       ...                         ...   
45          46      Tina    Brooks     tina.brooks@example.com   
46          47       Uma     Kelly       uma.kelly@example.com   
47          48    Victor   Sanders  victor.sanders@example.com   
48          49     Wendy     Price     wendy.price@example.com   
49          50    Xander   Bennett  xander.bennett@example.com   

             SignupDate  MonthlyIncome  
0            2021-03-11         4500.0  
1            2020-05-22         4800.0  
2            2019-07-14         5000.0  
3            2021-01-25         5200.0  
4 

In [40]:
import pandas as pd

transactions_combined = pd.concat([transactions_mysql, transactions_sql, transactions_mongo])
# Opcional: Resetear el índice del dataframe combinado si es necesario
#employees_combined.reset_index(drop=True, inplace=True)

# Verificar el dataframe combinado
print(transactions_combined)


    TransactionID  CustomerID        Product      TransactionDate  Amount
0               1           1  Internet Plan           2022-01-10    60.0
1               2           2     Phone Plan           2022-02-15    40.0
2               3           3        TV Plan           2021-11-20    80.0
3               4           4  Internet Plan           2022-02-05    60.0
4               5           5     Phone Plan           2021-09-12    50.0
..            ...         ...            ...                  ...     ...
45             46          46        TV Plan  2021-08-25 00:00:00    65.0
46             47          47  Internet Plan  2022-01-13 00:00:00    55.0
47             48          48     Phone Plan  2021-10-01 00:00:00    35.0
48             49          49        TV Plan  2021-09-19 00:00:00    75.0
49             50          50  Internet Plan  2022-02-10 00:00:00    55.0

[150 rows x 5 columns]


### Guardar los dataframes en tres csv's distintos

In [44]:
employees_combined.to_csv('employees_combined.csv', index=False)
customers_combined.to_csv('customers_combined.csv', index=False)
transactions_combined.to_csv('transactions_combined.csv', index=False)

### Utilizando pandas hacer la carga de cada csv y evaluar viabilidad de los datos

In [49]:
import pandas as pd

df_employees_combined = pd.read_csv('employees_combined.csv')


def evaluate_dataframe(df):
    print(f"EVALUANDO A {df}")
    print("------------------------")
    print()
    print("INSPECCION INICIAL, CARGA DE PRIMEROS REGISTROS, ULTIMOS REGISTROS")
    print("INFORMACION GENERAL")
    print("------------------------------------------------------------------")
    print(df.head())
    print()
    print(df.tail())
    print()
    print(df.info())
    print()
    print("CHEQUEO DE VALORES NULOS")
    print("------------------------")
    print(df.isnull().sum())
    print()
    print("CHEQUEO DE DUPLICADOS")
    print("------------------------")
    print(df.duplicated().sum())
    
evaluate_dataframe(df_employees_combined)


EVALUANDO A      EmployeeID FirstName  LastName                        Email  \
0             1     Alice    Miller     alice.miller@example.com   
1             2       Bob     Brown        bob.brown@example.com   
2             3   Charlie   Johnson  charlie.johnson@example.com   
3             4     Diana    Garcia     diana.garcia@example.com   
4             5      Evan  Martinez    evan.martinez@example.com   
..          ...       ...       ...                          ...   
145          46      Tina    Brooks      tina.brooks@example.com   
146          47       Uma     Kelly        uma.kelly@example.com   
147          48    Victor   Sanders   victor.sanders@example.com   
148          49     Wendy     Price      wendy.price@example.com   
149          50    Xander   Bennett   xander.bennett@example.com   

                HireDate   Salary  
0             2019-03-10  58000.0  
1             2020-05-22  54000.0  
2             2018-07-14  62000.0  
3             2021-01-25  6

In [50]:
import pandas as pd

df_customers_combined = pd.read_csv('customers_combined.csv')


def evaluate_dataframe(df):
    print(f"EVALUANDO A {df}")
    print("------------------------")
    print()
    print("INSPECCION INICIAL, CARGA DE PRIMEROS REGISTROS, ULTIMOS REGISTROS")
    print("INFORMACION GENERAL")
    print("------------------------------------------------------------------")
    print(df.head())
    print()
    print(df.tail())
    print()
    print(df.info())
    print()
    print("CHEQUEO DE VALORES NULOS")
    print("------------------------")
    print(df.isnull().sum())
    print()
    print("CHEQUEO DE DUPLICADOS")
    print("------------------------")
    print(df.duplicated().sum())
    

evaluate_dataframe(df_customers_combined)



EVALUANDO A      TransactionID  CustomerID        Product      TransactionDate  Amount
0                1           1  Internet Plan           2022-01-10    60.0
1                2           2     Phone Plan           2022-02-15    40.0
2                3           3        TV Plan           2021-11-20    80.0
3                4           4  Internet Plan           2022-02-05    60.0
4                5           5     Phone Plan           2021-09-12    50.0
..             ...         ...            ...                  ...     ...
145             46          46        TV Plan  2021-08-25 00:00:00    65.0
146             47          47  Internet Plan  2022-01-13 00:00:00    55.0
147             48          48     Phone Plan  2021-10-01 00:00:00    35.0
148             49          49        TV Plan  2021-09-19 00:00:00    75.0
149             50          50  Internet Plan  2022-02-10 00:00:00    55.0

[150 rows x 5 columns]
------------------------

INSPECCION INICIAL, CARGA DE PRIMEROS 

In [51]:
import pandas as pd

df_trasactions_combined = pd.read_csv('employees_combined.csv')

def evaluate_dataframe(df):
    print(f"EVALUANDO A {df}")
    print("------------------------")
    print()
    print("INSPECCION INICIAL, CARGA DE PRIMEROS REGISTROS, ULTIMOS REGISTROS")
    print("INFORMACION GENERAL")
    print("------------------------------------------------------------------")
    print(df.head())
    print()
    print(df.tail())
    print()
    print(df.info())
    print()
    print("CHEQUEO DE VALORES NULOS")
    print("------------------------")
    print(df.isnull().sum())
    print()
    print("CHEQUEO DE DUPLICADOS")
    print("------------------------")
    print(df.duplicated().sum())
    
evaluate_dataframe(df_trasactions_combined)


EVALUANDO A      EmployeeID FirstName  LastName                        Email  \
0             1     Alice    Miller     alice.miller@example.com   
1             2       Bob     Brown        bob.brown@example.com   
2             3   Charlie   Johnson  charlie.johnson@example.com   
3             4     Diana    Garcia     diana.garcia@example.com   
4             5      Evan  Martinez    evan.martinez@example.com   
..          ...       ...       ...                          ...   
145          46      Tina    Brooks      tina.brooks@example.com   
146          47       Uma     Kelly        uma.kelly@example.com   
147          48    Victor   Sanders   victor.sanders@example.com   
148          49     Wendy     Price      wendy.price@example.com   
149          50    Xander   Bennett   xander.bennett@example.com   

                HireDate   Salary  
0             2019-03-10  58000.0  
1             2020-05-22  54000.0  
2             2018-07-14  62000.0  
3             2021-01-25  6

### Hacer estadisticas descriptivas sencillas sobre cada csv para desarrollar conclusiones de cada csv.

In [None]:
import pandas as pd


selected_columns = df[['A', 'B']]

# Aplicar el método describe
description = selected_columns.describe()

# Renombrar la columna en la descripción
description = description.rename(columns={'A': 'Columna_A'})

# Mostrar el resultado con print
print(description)


In [35]:
print('df_EmployeeID_mysql')
print('-------------------')
print(df_employees_mysql['Salary'].describe())

df_EmployeeID_mysql
-------------------
count       50.000000
mean     61700.000000
std       3025.402655
min      54000.000000
25%      59250.000000
50%      61500.000000
75%      64000.000000
max      67000.000000
Name: Salary, dtype: float64


In [36]:
print('df_employees_sql')
print('-------------------')
print(df_employees_sql['Salary'].describe())

df_employees_sql
-------------------
count       50.00000
mean     63040.00000
std       3800.96658
min      55000.00000
25%      60000.00000
50%      62000.00000
75%      65750.00000
max      72000.00000
Name: Salary, dtype: float64


In [37]:
print('employees_mongo')
print('-------------------')
print(employees_mongo['Salary'].describe())


employees_mongo
-------------------
count       50.00000
mean     62380.00000
std       1817.03953
min      58000.00000
25%      61000.00000
50%      62000.00000
75%      64000.00000
max      65000.00000
Name: Salary, dtype: float64


### De los tres csv generar un unico csv de trabajo (No hacer por ahora)