1. Listado de variables y selección
    - ~~Por cada variable explicar en una oración el contenido de dicha variable y definir si será utilizada como variable de entrada, de salida, o no será utilizada.~~\
    - ~~Para la variable de salida especificar los valores posibles que puede tener.~~
    - ~~Por cada variable que no se vaya a utilizar, explicar brevemente el motivo.~~
2. Análisis detallado de un conjunto de variables
    - ~~Para la variable de salida, explicar y graficar su distribución. Analizar posibles consecuencias o consideraciones a tener en cuenta.~~\
    - ~~Realizar un análisis individual de cada variable de entrada que será utilizada. A partir del mismo debería poder conocerse la distribución de los datos, si existen valores raros, su relación con la variable de salida, etc.~~\
    - ~~Para cada una de las variables de entrada elegidas, explicar si se debería realizar o no alguna transformación para poder utilizarla como entrada de un modelo y por qué.~~\
    - ~~Analizar si las variables de entrada seleccionadas presentan valores nulos y/o extremos. En caso de encontrar dichas condiciones, indicar qué tratamiento se podría darle a las mismas y por qué.~~\
    ~~Verificar si existen variables altamente correlacionadas linealmente. En dicho caso, explicar por qué considera que esto pasa.
    "Generar un listado de todas las posibles dudas/preguntas que quisieran realizarle al encargado de proveer los datos.~~
3. Hipótesis sobre los datos
    - Formular y describir de forma coloquial al menos una hipótesis sobre los datos que podría explicar el valor de la variable \"target\" bajo determinadas condiciones. Realizar un análisis para contrastar si dicha hipótesis se valida o, por el contrario, se refuta. **WIP**
    - Describa y presente cualquier otro hallazgo que sea capaz de encontrar en los datos. Explique el impacto que podría tener en la creación de un modelo.
    - Analice si la creación de nuevas variables a partir de los datos existentes puede ser beneficiosa para el problema presentado.

# Trabajo práctico Machine Learning 

#### Se utilizará este [dataset](https://www.kaggle.com/datasets/tawfikelmetwally/employee-dataset/) para realizar el trabajo práctico.

1 # Listado de variables y selección

## Variables de entrada

1. **Education**
   - **Descripción**: Nivel de educación del empleado.
   - **Posibles valores**: Bachelors, Masters, PHD.
   - **Uso**: Variable de entrada.
   - **Motivo**: El nivel de educación puede influir en la probabilidad de que un empleado deje la empresa

2. **JoiningYear**
   - **Descripción**: Año en que el empleado se unió a la empresa.
   - **Posibles valores**: 2017, 2013, 2014, 2016, 2015, 2012, 2018
   - **Uso**: Variable de entrada.
   - **Motivo**: El tiempo que un empleado ha estado en la empresa puede afectar su decisión de quedarse o irse.

3. **City**
   - **Descripción**: Ciudad en la que trabaja el empleado.
   - **Posibles valores**: Bangalore, Pune, New Delhi
   - **Uso**: Variable de entrada.
   - **Motivo**: La ubicación geográfica puede tener un impacto en la retención de empleados.

4. **PaymentTier**
   - **Descripción**: Nivel de pago del empleado (1, 2 o 3).
   - **Posibles valores**: 3, 1, 2
   - **Uso**: Variable de entrada.
   - **Motivo**: El nivel de pago puede influir en la satisfacción y retención del empleado.

5. **Age**
   - **Descripción**: Edad del empleado.
   - **Posibles valores**: 34, 28, 38, 27, 24, 22, 23, 37, 32, 39, 29, 30, 36, 31, 25, 26, 40, 35, 33, 41
   - **Uso**: Variable de entrada.
   - **Motivo**: La edad puede ser un factor importante en la decisión de un empleado de dejar la empresa.

6. **Gender**
   - **Descripción**: Género del empleado.
   - **Posibles valores**: Male, Female
   - **Uso**: Variable de entrada.
   - **Motivo**: El género puede influir en las decisiones de carrera y retención.

7. **EverBenched**
   - **Descripción**: Indica si el empleado ha estado alguna vez sin proyectos asignados.
   - **Posibles valores**: No, Yes
   - **Uso**: Variable de entrada.
   - **Motivo**: Estar sin proyectos puede afectar la moral y la decisión de un empleado de dejar la empresa.

8. **ExperienceInCurrentDomain**
   - **Descripción**: Años de experiencia del empleado en su dominio actual.
   - **Posibles valores**: 0, 3, 2, 5, 1, 4, 7, 6
   - **Uso**: Variable de entrada.
   - **Motivo**: La experiencia en el dominio actual puede influir en la estabilidad del empleo.

## Variable Target

9. **LeaveOrNot**
   - **Descripción**: Indica si el empleado ha dejado la empresa (1) o no (0).
   - **Posibles valores**: 0, 1
   - **Uso**: Variable de salida.
   - **Motivo**: Esta es la variable objetivo que estamos tratando de predecir. Los valores posibles son 0 (No dejó la empresa) y 1 (Dejó la empresa).

## Variables no utilizadas

No hay variables que no se vayan a utilizar, ya que todas parecen relevantes para el análisis de la retención de empleados.


# 2.  Análisis detallado de un conjunto de variables

In [None]:
# Imports

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import re
import scipy.stats as stats

In [None]:
# Utils

# Transform features to snake case
def to_snake_case(name):
    # Reemplaza espacios y caracteres especiales por guiones bajos
    name = re.sub(r'[\s]+', '_', name)  # Reemplaza espacios por guiones bajos
    name = re.sub(r'(?<!^)(?<!_)(?<!\s)(?<![A-Z])(?=[A-Z])', '_', name)
    # Convierte a minúsculas y reemplaza múltiples guiones bajos consecutivos por uno solo
    name = re.sub(r'_{2,}', '_', name)
    return name.lower()

In [None]:
# Cargar el conjunto de datos
df_employee = pd.read_csv('employee.csv')

# Renombrar columnas a snake case
df_employee.columns = [to_snake_case(col) for col in df_employee.columns]

# Mostrar las primeras filas del DataFrame para verificar los cambios
df_employee.head()


## Análisis previo

In [None]:
print(f'El dataset cuenta con {df_employee.shape[0]} filas y {df_employee.shape[1]} columnas.')

### Valores únicos por feature

In [None]:
# Obtener valores únicos por columna
for column in df_employee.columns:
    print(f'{column}: {df_employee[column].unique()}')

### Tipos de datos de cada feature

In [None]:
print(df_employee.dtypes.reset_index(name='type').rename(columns={'index': 'column'}).set_index('column'))


### Cantidad de nulos por feature

In [None]:
# Verificar la cantidad de valores nulos en cada columna
df_employee.isnull().sum()

### Estadísticos generales

In [None]:
df_employee.describe().round(2)

### 1. Tendencias de Contratación (`joining_year`)
La mayoría de los empleados se unieron entre 2013 y 2017, con una media de 2015, indicando que la empresa ha tenido una política de contratación activa durante este período, lo que sugiere que la antigüedad en la empresa podría ser una característica importante a considerar en un modelo predictivo sobre la rotación de empleados.

### 2. Niveles de Pago (`payment_tier`)
La mayoría de los empleados están en el nivel 3 de pago, con una media de 2.70 y una desviación estándar baja (0.56), lo que sugiere que el nivel de pago podría estar correlacionado con la retención y la experiencia, y que explorar cómo estos niveles afectan la rotación de empleados podría ser útil.

### 3. Edad (`age`)
La edad promedio es de 29.39 años, con un rango de 22 a 41 años y la mayoría de los empleados tienen entre 26 y 32 años, y podemos inferir que la edad puede influir en la experiencia y la estabilidad en el trabajo.

### 4. Experiencia en el Dominio Actual (`experience_in_current_domain`)
La experiencia promedio en el dominio actual es de 2.91 años, con un rango de 0 a 7 años y la mayoría de los empleados tienen entre 2 y 4 años de experiencia.

### 5. Rotación de Empleados (`leave_or_not`)
Aproximadamente el 34% de los empleados han dejado la empresa, con una distribución equilibrada entre los que se quedan y los que se van.


In [None]:
# Calcular la distribución de la variable de salida
leaveornot_distribution = df_employee['leave_or_not'].value_counts(normalize=True)
print(leaveornot_distribution)

### Conclusiones 

- El 65.6% de los empleados del dataset no han dejado la empresa, mientras que 34.4% de los empleados han dejado la empresa.

- Aunque no es un equilibrio perfecto, la distribución entre los que se quedan y los que se van no está extremadamente desbalanceada. Sin embargo, aún hay una diferencia notable, con una mayoría que se queda.

- La retención de empleados parece ser relativamente alta, con más de la mitad de los empleados permaneciendo en la empresa. Esto podría indicar una buena satisfacción laboral o políticas efectivas de retención.

### Para la variable de salida, explicar y graficar su distribución. Analizar posibles consecuencias o consideraciones a tener en cuenta.

1. Descripción de la Variable de Salida
La variable de salida leave_or_not es binaria y representa si un empleado ha dejado la empresa (1) o no (0). Analizar su distribución te ayudará a entender el equilibrio entre las clases y las posibles implicaciones para el modelado.



In [None]:
# Graficar la distribución de `leave_or_not`
plt.figure(figsize=(8, 6))
sns.countplot(x='leave_or_not', data=df_employee, hue='leave_or_not', palette='viridis', legend=False)
plt.title('Distribución de la variable de salida: leave_or_not')
plt.xlabel('Dejó la empresa')
plt.ylabel('Número de empleados')
plt.xticks(ticks=[0, 1], labels=['No', 'Sí'])
plt.show()

# Preprocesamiento de datos

### Feature gender

Es necesario realizar la comprobación y conversión de la columna *gender* a valor numerico por varias razones:

Si bien como vimos anteriormente no tenemos datos nulls en esta columna. Los modelos de machine learning generalmente requieren que las variables categóricas sean numéricas, y convertir Male a 1 y Female a 0 estandariza esta variable. Además, las conversiones a valores numéricos permiten que los datos sean procesados de manera más eficiente.

In [None]:
# Comprobación y conversión de la columna `gender`
df_employee['gender'] = df_employee['gender'].apply(lambda x: 1 if x == 'Male' else (0 if x == 'Female' else x))

# Si el valor es 'Male', lo convierte en 1.
# Si el valor es 'Female', lo convierte en 0.
    
# Obtener una muestra aleatoria del DataFrame
df_employee.sample(5)


### Feature ever_benched

Convertir los valores de ever_benched a booleanos (True o False) asegura que la columna tenga un tipo de datos consistente. 

- Claridad: Los valores booleanos proporcionan una indicación clara del estado de "benched".
- Eficiencia: Las operaciones y análisis sobre datos booleanos pueden ser más eficientes y directos.
- Estandarización: Mantiene la columna ever_benched en un formato estandarizado que es comúnmente utilizado en el análisis de datos y machine learning.

In [None]:
# Comprobación y conversión de la columna `ever_benched`
df_employee['ever_benched'] = df_employee['ever_benched'].apply(lambda x: 1 if x == 'Yes' else (0 if x == 'No' else x))

# Obtener una muestra aleatoria del DataFrame
df_employee.sample(5)

### Feature education y city

Es necesario realizar la codificación One-Hot en las columnas *education* y *city* por las siguientes razones:
- No suposiciones implícitas: Al usar columnas binarias, se evita cualquier suposición sobre una relación ordinal entre las categorías.
- Preparación para modelos: Facilita el uso de algoritmos de machine learning que requieren datos numéricos.
- Claridad y simplicidad: Hace que las features education y city sean más claras y fáciles de interpretar en el análisis de datos.
- Flexibilidad: Permite a los modelos captar mejor las relaciones entre las categorías y otras características.

Realizar la codificación One-Hot es una práctica estándar en el preprocesamiento de datos para asegurar que los modelos de machine learning puedan trabajar de manera eficiente.

In [None]:
# Codificación One-Hot para las columnas 'education' y 'city'
df_employee = pd.get_dummies(df_employee, columns=['education', 'city'])

# Renombrar columnas a snake case
df_employee.columns = [to_snake_case(col) for col in df_employee.columns]

# Convertir las columnas a 0 o 1
columns_to_convert = [
    'education_bachelors', 'education_masters', 'education_phd',
    'city_bangalore', 'city_new_delhi', 'city_pune'
]

df_employee[columns_to_convert] = df_employee[columns_to_convert].astype(int)

# Obtener una muestra aleatoria del DataFrame
df_employee.sample(5)

## Análisis individual de cada variable de entrada que será utilizada

 ### Año de Ingreso (joining_year)

In [None]:
# Distribución de la variable joining_year
plt.figure(figsize=(10, 6))
sns.histplot(df_employee['joining_year'], bins=10, kde=True)
plt.title('Distribución de año de ingreso')
plt.xlabel('Año de ingreso')
plt.ylabel('Frecuencia')
plt.show()

In [None]:
# Relación entre joining_year y leave_or_not
plt.figure(figsize=(10, 6))
sns.boxplot(x='leave_or_not', hue='leave_or_not', y='joining_year', data=df_employee, palette='viridis')
plt.title('Relación entre año de ingreso y rotación de empleados')
plt.xlabel('Rotación de empleados')
plt.ylabel('Año de ingreso')
plt.show()

Conclusiones:

- La mayoría de los empleados se unieron entre 2013 y 2017.
- La antigüedad en la empresa puede ser un factor importante a considerar en la predicción de la rotación.

## Nivel de Pago (payment_tier)

In [None]:
# Distribución de la variable payment_tier
plt.figure(figsize=(10, 6))
sns.countplot(x='payment_tier', hue= 'payment_tier', data=df_employee, palette='viridis')
plt.title('Distribución de nivel de pago')
plt.xlabel('Nivel de pago')
plt.ylabel('Frecuencia')
plt.show()

Conclusiones:

- La mayoría de los empleados están en el nivel 3 de pago.
- Puede existir una relación entre el nivel de pago y la probabilidad de rotación.

 ## Edad (age)

In [None]:
# Distribución de la variable age
plt.figure(figsize=(10, 6))
sns.histplot(df_employee['age'], bins=10, kde=True)
plt.title('Distribución de edad')
plt.xlabel('Edad')
plt.ylabel('Frecuencia')
plt.show()

In [None]:
# Relación entre age y leave_or_not
plt.figure(figsize=(10, 6))
sns.boxplot(x='leave_or_not', hue='leave_or_not', y='age', data=df_employee, palette='viridis')
plt.title('Relación entre edad y rotación de empleados')
plt.xlabel('Rotación de empleados')
plt.ylabel('Edad')
plt.show()

Conclusiones:

- La edad promedio de los empleados es de alrededor de 29 años.
- La edad puede ser un factor determinante en la estabilidad laboral.

## Género (gender)

In [None]:
# Distribución de la variable gender
plt.figure(figsize=(10, 6))
sns.countplot(x='gender', hue= 'gender', data=df_employee, palette='viridis')
plt.title('Distribución de género')
plt.xlabel('Género')
plt.ylabel('Frecuencia')
plt.xticks([0, 1], ['Masculino', 'Femenino'])
plt.show()

In [None]:
# Relación entre gender y leave_or_not
plt.figure(figsize=(10, 6))
sns.countplot(x='gender', hue='leave_or_not', data=df_employee, palette='viridis')
plt.title('Relación entre Género y Rotación de Empleados')
plt.xlabel('Género')
plt.ylabel('Frecuencia')
plt.xticks([0, 1], ['Masculino', 'Femenino'])
plt.show()

Conclusiones:

- Existe una distribución relativamente equilibrada entre géneros.
- Puede ser útil investigar si el género tiene una influencia significativa en la rotación.

## Experiencia en el Dominio Actual (experience_in_current_domain)

In [None]:
# Distribución de la variable experience_in_current_domain
plt.figure(figsize=(10, 6))
sns.histplot(df_employee['experience_in_current_domain'], bins=10, kde=True)
plt.title('Distribución de experiencia en el dominio actual')
plt.xlabel('Experiencia en el dominio actual (años)')
plt.ylabel('Frecuencia')
plt.show()

In [None]:
# Relación entre experience_in_current_domain y leave_or_not
plt.figure(figsize=(10, 6))
sns.boxplot(x='leave_or_not', hue='leave_or_not', y='experience_in_current_domain', data=df_employee, palette='viridis')
plt.title('Relación entre experiencia en el dominio actual y rotación de empleados')
plt.xlabel('Rotación de empleados')
plt.ylabel('Experiencia en el dominio actual (años)')
plt.show()

Conclusiones:

- La mayoría de los empleados tienen entre 2 y 4 años de experiencia en su dominio actual.
- La experiencia en el dominio puede estar correlacionada con la retención de empleados.

## ever_benched

In [None]:
# Distribución de la variable ever_benched
plt.figure(figsize=(10, 6))
sns.countplot(x='ever_benched', hue= 'ever_benched', data=df_employee, palette='viridis')
plt.title('Distribución de ever benched')
plt.xlabel('Ever benched')
plt.ylabel('Frecuencia')
plt.xticks([False, True], ['No', 'Yes'])
plt.show()

In [None]:
# Relación entre ever_benched y leave_or_not
plt.figure(figsize=(10, 6))
sns.countplot(x='ever_benched', hue='leave_or_not', data=df_employee, palette='viridis')
plt.title('Relación entre ever benched y rotación de empleados')
plt.xlabel('Ever benched')
plt.ylabel('Frecuencia')
plt.xticks([False, True], ['No', 'Yes'])
plt.show()

Conclusiones:

- La mayoría de los empleados no han sido 'benched'.
- Ser 'benched' podría tener un impacto significativo en la rotación de empleados.

## Educación (education)

In [None]:
# Distribución de la variable education
plt.figure(figsize=(10, 6))
education_counts = df_employee[['education_bachelors', 'education_masters', 'education_phd']].sum()
education_counts.plot(kind='bar')
plt.title('Distribución de nivel de educación')
plt.xlabel('Nivel de educación')
plt.ylabel('Frecuencia')
plt.xticks([0, 1, 2], ['Bachelors', 'Masters', 'PhD'])
plt.show()

In [None]:
# Relación entre education y leave_or_not
plt.figure(figsize=(10, 6))
sns.countplot(x='education', hue='leave_or_not', data=df_employee.melt(id_vars='leave_or_not', value_vars=['education_bachelors', 'education_masters', 'education_phd'], var_name='education', value_name='value'), palette='viridis')
plt.title('Relación entre educación y rotación de empleados')
plt.xlabel('Nivel de educación')
plt.ylabel('Frecuencia')
plt.show()

Conclusiones:

- La mayoría de los empleados tienen un título de bachiller o una maestría.
- Es importante analizar si el nivel educativo afecta la rotación de empleados.

## Ciudad (city)

In [None]:
# Distribución de la variable city
plt.figure(figsize=(10, 6))
city_counts = df_employee[['city_bangalore', 'city_new_delhi', 'city_pune']].sum()
city_counts.plot(kind='bar')
plt.title('Distribución de ciudades')
plt.xlabel('Ciudad')
plt.ylabel('Frecuencia')
plt.xticks([0, 1, 2], ['Bangalore', 'New Delhi', 'Pune'])
plt.show()

In [None]:
# Relación entre city y leave_or_not
plt.figure(figsize=(10, 6))
sns.countplot(x='city', hue='leave_or_not', data=df_employee.melt(id_vars='leave_or_not', value_vars=['city_bangalore', 'city_new_delhi', 'city_pune'], var_name='city', value_name='value'), palette='viridis')
plt.title('Relación entre ciudad y rotación de empleados')
plt.xlabel('Ciudad')
plt.ylabel('Frecuencia')
plt.show()

Conclusiones:

- La distribución de empleados es bastante uniforme entre las ciudades principales.

## Outliders

In [None]:
# Filtrar solo las columnas numéricas
df_numeric = df_employee.select_dtypes(include=[np.number])

# Calcular Q1 y Q3
Q1 = df_numeric.quantile(0.25)
Q3 = df_numeric.quantile(0.75)
IQR = Q3 - Q1

# Identificar valores fuera del rango de 1.5*IQR
outliers = ((df_numeric < (Q1 - 1.5 * IQR)) | (df_numeric > (Q3 + 1.5 * IQR))).sum()
print(outliers)


In [None]:
# Distribución de la variable payment_tier, education_bachelors, city_new_delhi, education_masters, ever_benched
columns_to_check = [
    'payment_tier', 'education_bachelors', 'city_new_delhi',
    'education_masters', 'ever_benched'
]

for column in columns_to_check:
    print(f"Value counts for {column}:\n{df_employee[column].value_counts()}\n")


### Conclusión
 
No es necesario preocuparse por outliers en la variable **payment_tier**, ya que la detección de outliers es inapropiada para variables categóricas u ordinales con valores definidos y limitados como 1, 2 y 3. La distribución simplemente muestra que la mayoría de los empleados están en el nivel 3, lo cual es una característica natural del dataset y no un problema de datos.

Para las variables **education_bachelors**, **city_new_delhi**, **education_masters**, y **ever_benched**, la distribución observada no indica un problema en los datos.

- education_bachelors: La mayoría de los empleados tienen un título de licenciatura, lo cual es esperable en muchos contextos laborales, especialmente si se trata de un campo que tradicionalmente requiere un título universitario.

- city_new_delhi: La menor cantidad de empleados en city_new_delhi en comparación con otras ciudades puede simplemente reflejar la distribución geográfica de la empresa, en lugar de un problema en los datos.

- education_masters: Aunque hay menos empleados con una maestría en comparación con una licenciatura, esto es coherente con la tendencia general de que menos personas obtienen grados de educación avanzada.

- ever_benched: La mayoría de los empleados nunca han sido "benched" (no asignados a proyectos), lo que podría indicar una alta tasa de ocupación en la empresa. Este no es un problema de datos, sino más bien una indicación de la eficiencia en la asignación de personal.

En resumen, las distribuciones de estas variables son consistentes con lo que se podría esperar en un entorno laboral y no sugieren la presencia de outliers o problemas de calidad de datos.



## Matriz de correlación

In [None]:
correlation_matrix = df_employee.corr()

In [None]:
plt.figure(figsize=(12, 8))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm')
plt.title('Matriz de Correlación')
plt.show()


Al observar la matriz de correlación, se pueden hacer varios análisis sobre la relación entre las variables del dataset

- ***education_bachelors*** y ***education_masters***: Existe una correlación negativa alta de -0.89 entre estas dos variables. Esto es esperado, ya que un empleado no puede tener simultáneamente una licenciatura y una maestría. Este tipo de correlación es lógica porque ambas representan niveles educativos mutuamente excluyentes.
- ***education_masters*** y ***education_phd***: La correlación negativa alta de -0.96 entre estas variables sugiere que, de manera similar, si un empleado tiene un título de maestría, es menos probable que tenga un PhD, ya que son títulos de educación diferentes y normalmente consecutivos.
- ***city_bangalore*** y ***city_pune***: Existe una correlación negativa alta de -0.59 entre estas dos variables, lo que también tiene sentido, ya que si un empleado está ubicado en una ciudad, no estará en otra.
- ***education_masters*** y ***city_new delhi***: Hay una correlación negativa moderada de -0.55, lo que sugiere que los empleados con maestría pueden ser menos propensos a trabajar en New Delhi, o viceversa.
- ***city_bangalore*** y ***city_new delhi***: También existe una correlación negativa moderada de -0.43, indicando que empleados de Bangalore y New Delhi tienden a estar distribuidos de manera inversa.

La mayoría de las demás variables muestran correlaciones muy bajas (cercanas a 0), lo que indica que no hay una fuerte relación lineal entre ellas.

#### Posibles preguntas
- ¿Por qué las variables de ciudad (Bangalore, Pune, New Delhi) muestran correlaciones negativas? ¿Hay alguna explicación organizacional para la distribución geográfica de los empleados?
- ¿Se espera que los empleados tengan niveles de educación mutuamente excluyentes, o es posible que existan combinaciones de títulos?
- ¿Por qué existe una fuerte relación inversa entre los niveles educativos? ¿Se refleja esto en la política de contratación de la empresa?
- ¿Hay algún sesgo en la recolección de datos que pueda estar influyendo en las correlaciones observadas?
- ¿Hay alguna política organizacional que explique las correlaciones negativas entre la educación y la ubicación?

## Hipótesis:
Los empleados con más experiencia en su dominio actual tienen menos probabilidades de abandonar la empresa ("leave_or_not").

### Descripción coloquial:
La idea detrás de esta hipótesis es que los empleados que han pasado más tiempo en su dominio actual probablemente estén más familiarizados con su trabajo, se sientan más cómodos y seguros en sus roles, y hayan desarrollado relaciones más fuertes con sus colegas y superiores. Esto podría hacer que estén menos inclinados a dejar la empresa, ya que cambiar de trabajo podría significar perder esas ventajas y tener que empezar de nuevo en un entorno desconocido.

### Pasos para contrastar la hipótesis:
Explorar la distribución de la variable de experiencia:
Primero, vamos a observar cómo se distribuye la variable experience_in_current_domain entre los empleados que han dejado la empresa y los que no.

### Análisis estadístico:
Realizaremos un análisis estadístico para comparar la media de la experiencia en el dominio actual entre los empleados que dejaron la empresa y los que se quedaron. Esto se puede hacer utilizando una prueba t-test de muestras independientes.

### Visualización:
Crearemos un gráfico de caja (box plot) que compare la distribución de la experiencia en el dominio actual entre los dos grupos (quienes se fueron y quienes se quedaron).

In [None]:
# Relación entre experience_in_current_domain y leave_or_not
plt.figure(figsize=(10, 6))
sns.boxplot(x='leave_or_not', hue='leave_or_not', y='experience_in_current_domain', data=df_employee, palette='viridis')
plt.title('Relación entre Experiencia en el Dominio Actual y Rotación de Empleados')
plt.xlabel('Dejó la Empresa (0 = No, 1 = Sí)')
plt.ylabel('Experiencia en el Dominio Actual (años)')
plt.show()

In [None]:
# Dividir los datos en dos grupos: quienes se fueron y quienes se quedaron
experience_stayed = df_employee[df_employee['leave_or_not'] == 0]['experience_in_current_domain']
experience_left = df_employee[df_employee['leave_or_not'] == 1]['experience_in_current_domain']

# Prueba t-test
t_stat, p_value = stats.ttest_ind(experience_stayed, experience_left)

print(f"T-statistic: {t_stat:.2f}")
print(f"P-value: {p_value:.4f}")

# Interpretación
if p_value < 0.05:
    print("Existe una diferencia estadísticamente significativa en la experiencia entre quienes se quedaron y quienes se fueron.")
else:
    print("No hay una diferencia estadísticamente significativa en la experiencia entre quienes se quedaron y quienes se fueron.")


### Interpretación de resultados
#### T-statistic (2.08)
Este valor indica la magnitud de la diferencia entre los dos grupos (empleados que se quedaron y empleados que se fueron) en términos de experiencia en su dominio actual. Un valor positivo sugiere que, en promedio, los empleados que se quedaron tienen más experiencia en su dominio actual que aquellos que se fueron.

#### P-value (0.0375)
Dado que el p-value es menor que el umbral de significancia comúnmente utilizado de 0.05, podemos concluir que la diferencia en experiencia entre los dos grupos es estadísticamente significativa. Esto significa que es poco probable que la diferencia observada se deba al azar.

#### Conclusión:
La hipótesis se valida, existe una diferencia significativa en la experiencia en el dominio actual entre los empleados que se quedaron y los que se fueron. Específicamente, parece que aquellos con más experiencia en su dominio actual tienen menos probabilidades de abandonar la empresa.

