# **Taller Practico 4 - Base de datos 2**
Juan Felipe Hurtado Villani - 44353

Este es el link de donde se saco la informacion:
https://www.kaggle.com/datasets/tawfikelmetwally/employee-dataset/

Link donde se alojo la información para no tener que cargar el archivo:
https://raw.githubusercontent.com/Skpow1234/Dataset_Employee/main/data/Employee.csv

En caso de que el archivo no funcione correctamente, descargar desde:
https://colab.research.google.com/drive/12v2hjKtECxRz-Zwq3D1hBntobrQLtX6p?usp=sharing

## **Importaciones e instalaciones necesarias para correr el notebook:**

In [None]:
%pip install pymongo
import pandas as pd
import json
import matplotlib.pyplot as plt
import seaborn as sns
from pymongo.mongo_client import MongoClient
from pymongo.server_api import ServerApi

## **Carga de datos y tranformación de los datos** **(Punto 1)**

In [None]:
url = "https://raw.githubusercontent.com/Skpow1234/Dataset_Employee/main/data/Employee.csv"

# Lee los datos en un DataFrame de Pandas
df = pd.read_csv(url)

# Convierte el DataFrame a formato JSON de registros
json_data = df.to_json(orient='records')


## **Conexión a base de datos MongoDB** **(Punto 2)**

In [None]:
uri = "mongodb+srv://jfhvjfhv0015:Skpow1234@db2.2zv4bew.mongodb.net/?retryWrites=true&w=majority"

# Create a new client and connect to the server
client = MongoClient(uri, server_api=ServerApi('1'))

# Send a ping to confirm a successful connection
try:
    client.admin.command('ping')
    print("Pinged your deployment. You successfully connected to MongoDB!")
except Exception as e:
    print(e)

## Conexion e inserción a base de datos mongoDB **(Punto 3)**

In [None]:
db = client['Taller4']

collection = db['DataTaller4']

# Convierte los datos JSON en una lista de diccionarios
data_list = json.loads(json_data)

# Inserta los datos en la colección
result = collection.insert_many(data_list)

# Verifica si la inserción fue exitosa
if result.acknowledged:
    print(f"Se insertaron {len(result.inserted_ids)} documentos en la colección {collection.name}.")
else:
    print("La inserción falló.")

## **Descomentar y ejecutar esta celda en caso tal de ya haber una inserción, de lo contrario, pasar de largo**

In [None]:
# Borra todos los registros de la colección
#result = collection.delete_many({})

# Verifica si la eliminación fue exitosa
#if result.deleted_count > 0:
#    print(f"Se han eliminado {result.deleted_count} registros de la colección {collection.name}.")
#else:
#    print("No se encontraron registros para eliminar en la colección.")


## **Lectura de los datos, creación de dataframe y operaciones de filtrado y transformación de datos** **(Punto 4)**

In [None]:
# Lee los datos desde la colección y conviértelos en una lista de diccionarios
data = list(collection.find())

# Crea un DataFrame de pandas con los datos
df = pd.DataFrame(data)
df

### **Filtrar por condición**

In [None]:
df_filtered = df[df['Age'] > 30]
df

### **Ordenar los datos**

In [None]:
df_sorted = df.sort_values(by='JoiningYear', ascending=True)
df

### **Agrupar y resumir datos**

In [None]:
education_age_mean = df.groupby('Education')['Age'].mean()
education_age_mean

### **Renombrar columnas**

In [None]:
df = df.rename(columns={'JoiningYear': 'YearJoined'})
df

### **Agregar nuevas columnas**

In [None]:
def categorize_age(age):
    if age < 30:
        return 'Young'
    elif age < 50:
        return 'Middle-aged'
    else:
        return 'Elderly'

df['AgeGroup'] = df['Age'].apply(categorize_age)
df

### **Filtrar filas con valores nulos**

In [None]:
df = df.dropna()
df

### **Reemplazar valores**

In [None]:
df['Gender'] = df['Gender'].replace({'Male': 0, 'Female': 1})
df

## **Uso de función apply y lambda** **(Punto 5)**

La función apply se utiliza en la columna 'PaymentTier' para aplicar una función lambda que multiplica cada valor por 2 y lo coloca en la nueva columna 'DoubleSalary'.

In [None]:
# Utilizando la función apply
df['DoubleSalary'] = df['PaymentTier'].apply(lambda x: x * 2)
df

## **Punto 6**

# Histograma de edades

In [None]:
plt.hist(df['Age'], bins=20, color='skyblue', edgecolor='black')
plt.xlabel('Edad')
plt.ylabel('Frecuencia')
plt.title('Histograma de Edades')
plt.show()


# Gráfico de barras de género

In [None]:

sns.countplot(data=df, x='Gender', palette='Set2')
plt.xlabel('Género')
plt.ylabel('Cantidad')
plt.title('Distribución de Género')
plt.show()


# Diagrama de barras apiladas de Educación y Género

In [None]:
plt.figure(figsize=(10, 6))
sns.countplot(data=df, x='Education', hue='Gender', palette='coolwarm')
plt.xlabel('Educación')
plt.ylabel('Cantidad')
plt.title('Diagrama de Barras Apiladas de Educación y Género')
plt.legend(title='Género')
plt.xticks(rotation=45)
plt.show()


# Gráfico de tarta de Nivel de Pago

In [None]:
import matplotlib.pyplot as plt

# Crear un gráfico de tarta de Nivel de Pago
payment_tier_counts = df['PaymentTier'].value_counts()
plt.figure(figsize=(8, 8))
plt.pie(payment_tier_counts, labels=payment_tier_counts.index, autopct='%1.1f%%', startangle=90, colors=['lightblue', 'lightgreen', 'lightcoral'])
plt.title('Distribución de Nivel de Pago')
plt.show()


# Diagrama de violín de Experiencia en el Dominio Actual

In [None]:
plt.figure(figsize=(10, 6))
sns.violinplot(data=df, x='ExperienceInCurrentDomain', y='Age', hue='Gender', palette='Set2', split=True)
plt.xlabel('Experiencia en el Dominio Actual (años)')
plt.ylabel('Edad')
plt.title('Diagrama de Violín de Experiencia en el Dominio Actual')
plt.legend(title='Género')
plt.show()



Basado en las visualizaciones realizadas, aquí se encuentran los  hallazgos clave del análisis de datos realizado:

1. **Histograma de Edades**:
   - La mayoría de los empleados tienen edades comprendidas entre 25 y 40 años.
   - Hay una menor cantidad de empleados mayores de 40 años en comparación con los más jóvenes.

2. **Gráfico de Barras de Género**:
   - La distribución de género muestra una proporción significativamente mayor de empleados masculinos en comparación con los empleados femeninos.
   - El desequilibrio de género en la empresa es evidente.

3. **Diagrama de Barras Apiladas de Educación y Género**:
   - La mayoría de los empleados tienen educación de nivel de "Bachelors" (Licenciatura).
   - En todos los niveles de educación, la proporción de empleados masculinos supera a la de empleados femeninos.

4. **Gráfico de Tarta de Nivel de Pago**:
   - La mayoría de los empleados se encuentran en el nivel de pago "3".
   - Los niveles de pago "1" y "2" tienen una proporción más pequeña de empleados en comparación con el nivel "3".

5. **Diagrama de Violín de Experiencia en el Dominio Actual**:
   - La mayoría de los empleados tienen poca o ninguna experiencia en el dominio actual.
   - A medida que aumenta la experiencia en el dominio actual, la distribución de edades tiende a ser más amplia, y hay una mayor variabilidad en la edad de los empleados con experiencia.

En resumen, los hallazgos sugieren una distribución de edades típica en la empresa con una mayor representación de empleados jóvenes y una proporción desigual de género con predominio masculino. Además, la mayoría de los empleados tienen al menos una licenciatura y se concentran en el nivel de pago "3". La experiencia en el dominio actual es variada, pero la mayoría de los empleados tienen poca experiencia en ese aspecto. Estos hallazgos son un punto de partida para un análisis más profundo y pueden ayudar a tomar decisiones estratégicas en recursos humanos y gestión de talento.