#### FUNCIÓN PARA LA SELECCIÓN DE SCRUM MASTER

In [1]:
import random

def elegir_finalista():
    candidatas = ["Yeri", "Ana", "Samai"]
    return random.choice(candidatas)

if __name__ == "__main__":
    print("La finalista es:", elegir_finalista())


La finalista es: Samai


In [1]:
import pandas as pd

df = pd.read_csv("ABC_data.csv", index_col = 0)

df

Unnamed: 0,age,attrition,businesstravel,dailyrate,department,distancefromhome,education,educationfield,employeecount,employeenumber,...,yearsatcompany,yearsincurrentrole,yearssincelastpromotion,yearswithcurrmanager,sameasmonthlyincome,datebirth,salary,roledepartament,numberchildren,remotework
0,51,No,,2015.722222,,6,3,,1,1,...,20,,15,15,"16280,83$",1972,"195370,00$",,,Yes
1,52,No,,2063.388889,,1,4,Life Sciences,1,2,...,33,,11,9,,1971,"199990,00$",,,1
2,42,No,travel_rarely,1984.253968,Research & Development,4,2,Technical Degree,1,3,...,22,,11,15,,1981,"192320,00$",ManaGER - Research & Development,,1
3,47,No,travel_rarely,1771.404762,,2,4,Medical,1,4,...,20,,5,6,"14307,50$",1976,"171690,00$",,,False
4,46,No,,1582.771346,,3,3,Technical Degree,1,5,...,19,,2,8,"12783,92$",1977,,,,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1673,43,No,,488.944444,,-26,3,Medical,1,824,...,3,,1,2,"3949,17$",1980,,,,Yes
1674,47,No,,1973.984127,,26,4,,1,1087,...,5,,1,0,"15943,72$",1976,"191324,62$",,,False
1675,29,No,travel_rarely,290.035510,,15,3,,1,528,...,6,,1,5,,1994,"28111,13$",,,False
1676,47,No,travel_rarely,1032.487286,,4,3,Life Sciences,1,76,...,22,,14,10,"8339,32$",1976,"100071,84$",,,Yes


#### ANÁLISIS EDA

In [2]:
import pandas as pd
import numpy as np
from IPython.display import display

In [3]:
# ver todas las columnas
pd.set_option('display.max_columns', None)

In [4]:
# ver todas las filas
pd.set_option('display.max_rows', None)

In [None]:
df # saldría todo el dataframe con todas las filas y todas las columnas

In [6]:
def analisis_eda(df):
    print("ANÁLISIS EXPLORATORIO DE DATOS\n")

    # Primeras filas
    print("Primeras 10 filas del DataFrame:")
    display(df.head(10))

    # Dimensiones
    print("\nDimensiones (filas, columnas):")
    print(df.shape)

    # Información general
    print("\nInformación general:")
    df.info()

    # Tipos de datos
    print("\nTipos de datos por columna:")
    print(df.dtypes)

    # Estadísticas numéricas. Hay que tener en cuenta que estos valores no están limpios. Es una primera aproximación. Bien para comparar con el posterior análisis después de tratar los datos
    print("\nEstadísticas columnas numéricas:")
    num_cols = df.select_dtypes(include='number').columns
    if len(num_cols) > 0:
        # Usamos describe para calcular estadísticas
        estadisticas = df[num_cols].describe().T  # .T para transponer y tener columnas como filas
        # Renombramos las columnas para mayor claridad
        estadisticas = estadisticas.rename(columns={
            'count': 'Conteo',
            'mean': 'Media',
            'std': 'Desviación estándar',
            'min': 'Mínimo',
            '25%': 'Percentil 25',
            '50%': 'Mediana',     #la mediana es el percentil 50
            '75%': 'Percentil 75',
            'max': 'Máximo'
        }).round(2)  # redondeamos a 2 decimales
        display(estadisticas)

    # Estadísticas categóricas
    print("\nDescripción de columnas categóricas:")
    cat_cols = df.select_dtypes(include='object').columns
    if len(cat_cols) > 0:
        display(df[cat_cols].describe())

    # Valores nulos (contamos los valores nulos y también mostramos porcentaje)
    print("\nValores nulos por columna (conteo y porcentaje):")
    nulls_count = df.isnull().sum()
    nulls_percent = (nulls_count / df.shape[0] * 100).round(2)  # nulos en porcentaje, redondeados a 2 decimales
    nulls_df = nulls_count.to_frame(name='Conteo')   # pasamos la serie a DataFrame y le llamamos 'Conteo'
    nulls_df['Porcentaje'] = nulls_percent          # añadimos una columna con los porcentajes
    display(nulls_df[nulls_df['Conteo'] > 0].sort_values(by='Porcentaje', ascending=False))
    if nulls_count.sum() == 0:
        print("No hay valores nulos en el DataFrame.")

    # Filas duplicadas
    print("\nFilas duplicadas:")
    dup_count = df.duplicated().sum()     # sumamos los duplicados
    print(f"Duplicadas: {dup_count}")
    if dup_count > 0:
        print("Duplicados (primeras 10 filas):")
        display(df[df.duplicated()].head(10))
    else:
        print("No hay filas duplicadas.")

    # Valores únicos por columna
    print("\nValores únicos por columna:")   # valores distintos en cada columna del DataFrame df
    unique_counts = df.nunique().sort_values(ascending=False)  # orden columnas de mayor a menor según cantidad de valores únicos
    display(unique_counts)

    # Distribución de variables categóricas
    print("\nDistribución de variables categóricas:")
    for col in cat_cols:
        print(f"\nColumna: {col}")
        display(df[col].value_counts().head())


In [None]:
analisis_eda(df)

In [14]:
df_copy = df.copy()

Este es un primer EDA sin haber tratado los nulos, las columnas redundantes y los resultados inconsistentes, por lo que si bien es una primera aproximación de los datos que tenemos, los resultados reales podrían estar bastante alejados de estos resultados. Es necesario en cada momento contextualizar las condiciones en las que se han obtenido los datos.

A partir de aquí, comenzaría la limpieza, tratamiento y filtrado de datos. 

### 🗑️ Plan de eliminación de columnas redundantes

💰 **monthlyincome, sameasmonthlyincome y salary**  
- 📊 Todas parecen expresar ingresos mensuales o anuales en distintas unidades/formatos.  
- 🔁 `sameasmonthlyincome` explícitamente es un duplicado de `monthlyincome`.  
✅ Nos quedamos con **monthlyincome** y **salary**  
❌ Eliminamos **sameasmonthlyincome**

---

🏢 **department, roledepartament y jobrole**  
- ⚠️ `roledepartament` mezcla el rol con el departamento (ejemplo: *Manager - Research & Development*), mientras que `department` y `jobrole` ya lo tienen separado.  
✅ Nos quedamos con **department** y **jobrole**  
❌ Eliminamos **roledepartament**  
💡 *Más adelante podemos fusionar `department` y `jobrole` si es necesario.*

---

👥 **employeecount y employeenumber**  
- 🔂 `employeecount` es siempre 1 → columna inútil.  
- 🆔 `employeenumber` parece ser solo un identificador único → no aporta al análisis predictivo.  
❌ Eliminamos **employeecount**

---

🎂 **age y datebirth**  
- 📐 Son equivalentes: de `datebirth` se puede calcular la edad.  
❌ Eliminamos **age**

---

👶 **numberchildren**  
- 🚫 Está completamente vacío (0 valores válidos).  
❌ Eliminamos **numberchildren**


In [15]:
def drop_redundant_columns(df_copy: pd.DataFrame) -> pd.DataFrame:
    """
    Elimina columnas redundantes de un DataFrame y devuelve una copia limpia.

    Columnas eliminadas:
    - sameasmonthlyincome
    - roledepartament
    - employeecount
    - age
    - numberchildren
    """
    cols_to_drop = [
        "sameasmonthlyincome",
        "roledepartament",
        "employeecount",
        "age",
        "numberchildren"
    ]

    # Eliminar columnas si existen
    df_clean = df_copy.drop(columns=[c for c in cols_to_drop if c in df_copy.columns])

    return df_clean
    

In [18]:
df_copy = drop_redundant_columns(df_copy)
df_copy.head(3)

Unnamed: 0,attrition,businesstravel,dailyrate,department,distancefromhome,education,educationfield,employeenumber,environmentsatisfaction,gender,hourlyrate,jobinvolvement,joblevel,jobrole,jobsatisfaction,maritalstatus,monthlyincome,monthlyrate,numcompaniesworked,over18,overtime,percentsalaryhike,performancerating,relationshipsatisfaction,standardhours,stockoptionlevel,totalworkingyears,trainingtimeslastyear,worklifebalance,yearsatcompany,yearsincurrentrole,yearssincelastpromotion,yearswithcurrmanager,datebirth,salary,remotework
0,No,,2015.722222,,6,3,,1,1,0,,3,5,resEArch DIREcToR,3,,"16280,83$","42330,17$",7,Y,No,13,30,3,Full Time,0,,5,30.0,20,,15,15,1972,"195370,00$",Yes
1,No,,2063.388889,,1,4,Life Sciences,2,3,0,,2,5,ManAGeR,3,,,"43331,17$",0,,,14,30,1,,1,340.0,5,30.0,33,,11,9,1971,"199990,00$",1
2,No,travel_rarely,1984.253968,Research & Development,4,2,Technical Degree,3,3,0,,3,5,ManaGER,4,Married,,"41669,33$",1,,No,11,30,4,,0,220.0,3,,22,,11,15,1981,"192320,00$",1


### ✨ Plan de normalización y limpieza de columnas

🖥️ **Columna `remotework`**  
- 🔄 Normalizar valores a `yes` / `no`.

---

👫 **Columna `gender`**  
- 🔄 Normalizar valores a `M` / `F`.

---

🔤 **Columnas categóricas (texto)**  
- 📝 Corregir fallos tipográficos (ejemplo: combinación de mayúsculas y minúsculas).  
- 🔠 Capitalizar la primera letra de cada valor.  
- ⚙️ Implementar una función que recorra todas las columnas categóricas para normalizar texto.

---

🔢 **Columnas numéricas**  
- 🔧 Corregir fallos tipográficos:  
  - ➡️ Reemplazar `,` por `.` en valores numéricos.  
  - 🎯 Redondear decimales a 2 dígitos.  
- ⚙️ Implementar una función que recorra todas las columnas numéricas y normalice sus valores.

---

📏 **Columna `distancefromhome`**  
- 🔄 Convertir valores negativos a valor absoluto.

---

🔍 **Detección y corrección de valores mal escritos en categóricas**  
- 👀 Identificar valores con `unique()` durante el EDA.  
- ✏️ Reemplazar cada error con la palabra correctamente escrita.  
  - Ejemplo: `marreid` → `married`.

---

🏷️ **Nombres de columnas**  
- ✨ Renombrar y normalizar: todas las columnas con formato `.title`.  
  - Ejemplo: `distancefromhome` → `Distancefromhome`.



En esta parte:
- Quitamos espacios extra en columnas de texto.  
- Organizamos un poco mejor los nombres de roles y departamentos.  
- Creamos columnas nuevas para analizar la antigüedad (que agrupa a los empleados según los años en la empresa. Esto es útil porque no es lo mismo alguien que lleva 1 año que alguien que lleva 20. ) y el teletrabajo (para indicar con un 1 si la persona trabaja en remoto y 0 si no.)



In [None]:
# LIMPIEZA DE DATOS 

import pandas as pd

# 1. Cargo el dataset original
df = pd.read_csv("ABC_data.csv", index_col=0)

# 2. Hago una copia para trabajar sin tocar el original
df_copy = df.copy()

# 3. Limpio columnas de texto (jobrole y department)
#    - Quito espacios extra
#    - Pongo formato con mayúscula inicial
df_copy["jobrole"] = df_copy["jobrole"].str.strip().str.title()
df_copy["department"] = df_copy["department"].str.strip().str.title()

# 4. Creo una nueva columna de antigüedad agrupada (TenureGroup)
#    Agrupo los años en la empresa en intervalos (0-2, 3-5, 6-10, etc.)
bins = [0,2,5,10,20,40]                        # límites de los grupos
labels = ["0-2","3-5","6-10","11-20","20+"]    # nombres de los grupos
df_copy["TenureGroup"] = pd.cut(df_copy["yearsatcompany"], 
                                bins=bins, labels=labels, include_lowest=True)

# 5. Creo una nueva columna para teletrabajo (RemoteWork_flag)
#    Si la persona trabaja en remoto → 1, si no → 0
df_copy["RemoteWork_flag"] = df_copy["remotework"].astype(str).str.lower().isin(["yes","1","true"]).astype(int)

# 6. Muestro las primeras filas para comprobar la limpieza
df_copy.head()

In [None]:

attrition_by_tenure = df_copy.groupby("TenureGroup")["attrition"].apply(lambda x: (x=="Yes").mean())
print(attrition_by_tenure)

In [None]:
attrition_by_remote = df_copy.groupby("RemoteWork_flag")["attrition"].apply(lambda x: (x=="Yes").mean())
print(attrition_by_remote)

In [None]:
pip install matplotlib

In [None]:

# VISUALIZACIONES


import matplotlib.pyplot as plt   # 👈 esto es lo que faltaba

# 1. Attrition por TenureGroup
attrition_by_tenure = df_copy.groupby("TenureGroup")["attrition"].apply(lambda x: (x=="Yes").mean())

attrition_by_tenure.plot(kind="bar", title="Attrition por antigüedad (TenureGroup)")
plt.ylabel("Tasa de attrition")
plt.show()

# 2. Attrition por RemoteWork_flag
attrition_by_remote = df_copy.groupby("RemoteWork_flag")["attrition"].apply(lambda x: (x=="Yes").mean())

attrition_by_remote.plot(kind="bar", title="Attrition por teletrabajo (0 = No, 1 = Sí)")
plt.ylabel("Tasa de attrition")
plt.show()



- La **antigüedad en la empresa** influye bastante en el abandono:  
  los empleados más nuevos (0-2 años) tienen más probabilidad de irse, mientras que quienes llevan más años tienden a quedarse.  

- El **teletrabajo** también marca una diferencia:  
  hay variaciones claras en la tasa de abandono entre quienes trabajan remoto y quienes no.  

Esto es solo un primer análisis, pero ya da pistas de factores importantes para estudiar más a fondo.

YERI