# Ejercicio Práctico: Análisis de Datos de Empleados

**Módulo:** 5101 - Análisis de Datos con Python
**Profesor:** CE Programación Aplicaciones Python
**Duración Estimada:** 3-4 Horas
**Nivel:** Básico - Medio

## Contexto del Ejercicio

¡Enhorabuena! Has sido contratado como analista de datos junior en una empresa tecnológica. Tu primera tarea es tomar un pequeño conjunto de datos (un archivo CSV) que contiene información sobre los empleados de la compañía.

El departamento de Recursos Humanos te ha pedido que realices un análisis exploratorio inicial (EDA) para entender la composición de la plantilla. Sin embargo, te han advertido que los datos pueden estar "un poco sucios".

Tu objetivo es cargar los datos, limpiarlos, transformarlos y, finalmente, responder a algunas preguntas clave y generar visualizaciones simples.

### Apartado 0: Configuración Inicial

**Enunciado 0.1:** Importa las librerías necesarias: `pandas`, `numpy` y `matplotlib.pyplot`. Utiliza sus alias estándar.

In [None]:
# SOLUCIÓN ALUMNO (Apartado 0.1)


# Configuramos matplotlib para que los gráficos se muestren en el notebook
%matplotlib inline

---

### Apartado 1: Carga y Exploración Inicial de Datos (EDA)

**Enunciado 1.1:** Carga de datos.

Los datos de los empleados se proporcionan en una cadena de texto multilínea (simulando un archivo CSV). Utiliza `pd.read_csv` junto con `io.StringIO` para cargar estos datos en un DataFrame llamado `df`.

*(Nota: `io.StringIO` es una herramienta útil para simular un archivo en memoria a partir de una cadena de texto, lo que nos permite usar `read_csv` sin un archivo físico real).* 

In [None]:
import io

# Datos de los empleados (simulación de archivo CSV)
data_empleados = """ID,Nombre,Genero,Departamento,Edad,Salario,Antiguedad,Rating
E1001,John Doe,Male,Sales,34,60000,3,4.5
E1002,Jane Smith,Female,Engineering,28,85000,2,4.8
E1003,Mike Brown,Male,Marketing,45,55000,10,4.2
E1004,Sarah Lee,Female,Engineering,31,,5,4.9
E1005,Tom Wilson,Male,Sales,40,62000,8,3.9
E1006,Emily Davis,,Engineering,25,90000,1,4.7
E1007,Chris Evans,Male,Marketing,38,58000,7,
E1008,Anna Kim,Female,HR,52,70000,15,4.4
E1009,Peter Pan,Male,Sales,33,60000,3,4.5
E1010,Linda Ray,Female,Engineering,28,85000,2,4.8
E1011,Ken Jeong,Male,HR,48,,12,4.1
E1012,Susan Boyle,Female,Marketing,36,57000,6,4.3
E1010,Linda Ray,Female,Engineering,28,85000,2,4.8
E1013,Ben Stone,Male,Sales,29,61000,2,3.8
"""

# SOLUCIÓN ALUMNO (Apartado 1.1)
# Utiliza pd.read_csv y io.StringIO(data_empleados) para cargar el DataFrame



**Enunciado 1.2:** Inspección inicial.

Muestra las primeras 5 filas del DataFrame, las últimas 3 filas y la forma (`shape`) del DataFrame para entender su tamaño.

In [None]:
# SOLUCIÓN ALUMNO (Apartado 1.2)

# Mostrar 5 primeras filas


# Mostrar 3 últimas filas


# Mostrar la forma


**Enunciado 1.3:** Resumen técnico.

Utiliza el método `.info()` para obtener una visión general de las columnas, sus tipos de datos y la cantidad de valores no nulos.

In [None]:
# SOLUCIÓN ALUMNO (Apartado 1.3)


**Enunciado 1.4:** Análisis de la inspección.

En base a la salida de `.info()`, responde en la siguiente celda de Markdown:
1.  ¿Cuántas filas y columnas tiene el dataset?
2.  ¿Qué columnas tienen valores faltantes (nulos)?
3.  ¿Qué tipo de dato (`dtype`) tienen las columnas 'Salario' y 'Rating'? ¿Tiene sentido?



1.  *Respuesta...*
2.  *Respuesta...*
3.  *Respuesta...*


**Enunciado 1.5:** Resumen estadístico.

Utiliza el método `.describe()` para obtener las estadísticas descriptivas de las columnas numéricas. ¿Observas algo inusual en la 'Edad' o 'Antiguedad'?

In [None]:
# SOLUCIÓN ALUMNO (Apartado 1.5)




*Escribe tu análisis de la salida de `.describe()` aquí...*

---

### Apartado 2: Limpieza de Datos

Basado en nuestra exploración, hemos identificado varios problemas: duplicados, valores faltantes en 'Genero', 'Salario' y 'Rating'. Vamos a solucionarlos.

**Enunciado 2.1:** Eliminar duplicados.

Primero, identifica cuántas filas duplicadas hay. Luego, elimina las filas duplicadas del DataFrame `df`. Sobrescribe el DataFrame original (`df = ...`).

*(Pista: Revisa la salida de 1.2. Deberías haber visto 14 filas, pero algunas eran idénticas).* 

In [None]:
# SOLUCIÓN ALUMNO (Apartado 2.1)

# Contar filas duplicadas (antes de eliminar)


# Eliminar duplicados


# Verificar la nueva forma


**Enunciado 2.2:** Manejar valores faltantes (NaN) en 'Genero'.

La columna 'Genero' tiene un valor faltante. Es un dato categórico. Una estrategia común es rellenar los faltantes con el valor más frecuente (la **moda**).

1.  Calcula la moda de la columna 'Genero'.
2.  Usa `.fillna()` para rellenar los valores NaN en 'Genero' con la moda que has calculado. Guarda el resultado en el mismo DataFrame.

In [None]:
# SOLUCIÓN ALUMNO (Apartado 2.2)

# 1. Calcular la moda. .mode() devuelve una Serie, usamos [0] para tomar el primer valor.


# 2. Rellenar los NaN con la moda


# Comprobamos que ya no hay nulos en 'Genero'


**Enunciado 2.3:** Manejar valores faltantes en 'Salario'.

La columna 'Salario' tiene valores faltantes. Es un dato numérico. Rellenarlo con la media o mediana general puede ser una opción, pero es mejor rellenarlo con la **mediana del salario de su departamento**.

*(Pista de nivel medio: La forma más eficiente de hacer esto es usando `.groupby('Departamento')['Salario']` combinado con `.transform('median')`. Este resultado (una Serie) se puede usar para rellenar los NaN del 'Salario' original).* 

In [None]:
# SOLUCIÓN ALUMNO (Apartado 2.3)

# 1. Calculamos la mediana de salario por departamento


# 2. Usamos la Serie resultante para rellenar los NaN en la columna original


# Comprobamos que ya no hay nulos en 'Salario'


**Enunciado 2.4:** Manejar valores faltantes en 'Rating'.

Finalmente, a la columna 'Rating' le falta un valor. Rellena este valor faltante con la **media** (promedio) de toda la columna 'Rating'.

In [None]:
# SOLUCIÓN ALUMNO (Apartado 2.4)

# 1. Calcular la media de 'Rating'


# 2. Rellenar los NaN con la media


# 3. Comprobación final con .info()


---

### Apartado 3: Transformación y Creación de Características

Ahora que los datos están limpios, vamos a transformarlos y a crear nuevas columnas (Feature Engineering) para facilitar el análisis.

**Enunciado 3.1:** Cambiar tipos de datos.

Las columnas 'Salario' y 'Rating' son `float64`. La 'Edad' es `int64`. Convierte 'Salario' a tipo `int64` para que sea más limpio (ya no tiene decimales).

In [None]:
# SOLUCIÓN ALUMNO (Apartado 3.1)



**Enunciado 3.2:** Discretización de 'Antiguedad' (Binning).

Queremos agrupar a los empleados por su antigüedad. Utiliza `pd.cut` para crear una nueva columna `Categoria_Antiguedad` con las siguientes categorías:
* 0-2 años: 'Junior'
* 3-7 años: 'Semi-Senior'
* 8-15 años: 'Senior'

*(Pista: Los `bins` (cortes) serían `[0, 2, 7, 15]` y las `labels` (etiquetas) serían `['Junior', 'Semi-Senior', 'Senior']`)*.

In [None]:
# SOLUCIÓN ALUMNO (Apartado 3.2)



**Enunciado 3.3:** Codificación de 'Departamento' (One-Hot Encoding).

Para usar 'Departamento' en un modelo, necesitamos convertirlo a números. Como no hay un orden (Nominal), usaremos la codificación One-Hot.

Utiliza `pd.get_dummies()` para crear columnas *dummy* para 'Departamento'. Luego, une estas nuevas columnas al DataFrame `df` y elimina la columna 'Departamento' original.

In [None]:
# SOLUCIÓN ALUMNO (Apartado 3.3)

# 1. Crear Dummies


# 2. Unir al DataFrame original


# 3. Eliminar la columna original


---

### Apartado 4: Análisis y Agregación de Datos

Ahora que los datos están limpios y transformados, respondamos a las preguntas de RRHH.

**Enunciado 4.1:** ¿Cuál es el salario promedio por departamento (original)?

*(Pista: Como eliminamos la columna 'Departamento', tendrás que volver a cargar los datos limpios `df = pd.read_csv(io.StringIO(data_empleados))` y repetir los pasos de limpieza 2.1 a 2.4, pero **sin** hacer el paso 3.3. O, si lo prefieres, puedes usar las columnas dummy que creamos, aunque es más complejo).* 

**Vamos a hacerlo de la forma fácil: recargamos y limpiamos lo básico.**

In [None]:
# SOLUCIÓN ALUMNO (Apartado 4.1)

# Recargamos y limpiamos (solo lo necesario para esta pregunta)


# 1. Agrupar por 'Departamento' y calcular la media de 'Salario'



**Enunciado 4.2:** ¿Cuál es el `Rating` promedio por `Categoria_Antiguedad` y `Genero`?

Usa el DataFrame `df` (el que tiene la columna `Categoria_Antiguedad`). Utiliza `.pivot_table()` para crear una tabla que muestre el 'Rating' promedio, con 'Categoria_Antiguedad' como índice y 'Genero' como columnas.

In [None]:
# SOLUCIÓN ALUMNO (Apartado 4.2)



**Enunciado 4.3:** ¿Cuál es la correlación entre las variables numéricas?

Calcula la matriz de correlación para `['Edad', 'Salario', 'Antiguedad', 'Rating']`. ¿Qué variables parecen estar más correlacionadas?

In [None]:
# SOLUCIÓN ALUMNO (Apartado 4.3)




*Escribe tu análisis de la correlación aquí. (Ej: 'Salario' y 'Antiguedad' tienen una correlación positiva alta...)*

---

### Apartado 5: Visualización de Datos

Usa `matplotlib.pyplot` (alias `plt`) para visualizar tus hallazgos. No olvides poner títulos y etiquetas a los ejes.

**Enunciado 5.1:** Histograma de Salarios.

Crea un histograma de la columna 'Salario' (del DataFrame `df` limpio). Dale un título y etiqueta al eje X.

In [None]:
# SOLUCIÓN ALUMNO (Apartado 5.1)



**Enunciado 5.2:** Gráfico de Barras de Salario por Departamento.

Utiliza los datos de `salario_promedio_depto` (del Apartado 4.1) para crear un gráfico de barras (`.plot(kind='bar')`) que muestre el salario promedio por departamento.

In [None]:
# SOLUCIÓN ALUMNO (Apartado 5.2)



**Enunciado 5.3:** Gráfico de Dispersión (Scatter Plot).

Crea un gráfico de dispersión que muestre la relación entre 'Edad' (eje X) y 'Salario' (eje Y). ¿Parece haber alguna relación?

In [None]:
# SOLUCIÓN ALUMNO (Apartado 5.3)





*Escribe tu análisis de la relación Edad vs Salario aquí...*

---

### Apartado 6: Conclusiones

**Enunciado 6.1:** Resumen de Hallazgos.

Escribe 2 o 3 conclusiones principales que le presentarías al departamento de RRHH basándote en tu análisis (Apartados 4 y 5).



**Hallazgo 1:** *... (Ej: El departamento de Ingeniería es el que tiene el salario promedio más alto, con...)*

**Hallazgo 2:** *... (Ej: No parece haber una fuerte correlación directa entre la edad de un empleado y su salario, pero sí entre la antigüedad y el salario...)*

**Hallazgo 3:** *... (Ej: El rating promedio es más alto en...)*