# Descripción de Conjuntos de Datos para Proyectos

En esta sección, realizaremos una revisión básica de las variables presentes en cada uno de los conjuntos de datos disponibles para nuestros proyectos. Cada dataset ha sido seleccionado cuidadosamente para proporcionar información valiosa y relevante, facilitando el desarrollo de habilidades en análisis de datos y modelado predictivo.

Este proceso servirá como una base sólida para iniciar los proyectos, permitiendo a los estudiantes familiarizarse con los datasets de antemano para alcanzar eficazmente los objetivos establecidos.

In [2]:
import pandas as pd

### Descripción del Dataset de Ventas de Tienda

Este archivo contiene datos históricos que cubren las ventas desde el 5 de febrero de 2010 hasta el 1 de noviembre de 2012. Dentro de este archivo encontrarás los siguientes campos:

- **Tienda**: El número de la tienda.
- **Fecha**: La semana de las ventas.
- **Ventas_Semanales**: Las ventas para la tienda dada.
- **Indicador_Festivo**: Indica si la semana corresponde a una semana festiva especial:
  - `1` – Semana festiva
  - `0` – Semana no festiva
- **Temperatura**: Temperatura del día de las ventas.
- **Precio_Combustible**: Costo del combustible en la región.
- **IPC**: Índice de Precios al Consumidor vigente.
- **Desempleo**: Tasa de desempleo prevalente.

#### ¿Qué es el Índice de Precios al Consumidor (IPC)?

El **Índice de Precios al Consumidor** (IPC) es una medida que evalúa el cambio promedio en los precios de una canasta fija de bienes y servicios que consumen los hogares. Este índice es crucial para medir la inflación, que refleja cómo los precios aumentan con el tiempo, afectando el poder adquisitivo de la moneda. El IPC se utiliza ampliamente para ajustar los salarios, las pensiones y las políticas gubernamentales para asegurar que estos reflejen los cambios en el costo de vida. Diferentes versiones del IPC pueden excluir elementos volátiles como alimentos y energía para obtener una visión más estable de las tendencias inflacionarias.

In [7]:
# Cargar el archivo CSV en un DataFrame
df = pd.read_csv('Ventas_Tienda.csv')

# Mostrar las primeras filas del DataFrame
df.head()

Unnamed: 0,Tienda,Fecha,Ventas_Semanales,Indicador_Festivo,Temperatura,Precio_Combustible,IPC,Desempleo
0,1,05/02/2010,1643690.9,0,42.31,2.572,211.096358,8.106
1,1,12/02/2010,1641957.44,1,38.51,2.548,211.24217,8.106
2,1,19/02/2010,1611968.17,0,39.93,2.514,211.289143,8.106
3,1,26/02/2010,1409727.59,0,46.63,2.561,211.319643,8.106
4,1,05/03/2010,1554806.68,0,46.5,2.625,211.350143,8.106
5,1,12/03/2010,1439541.59,0,57.79,2.667,211.380643,8.106
6,1,19/03/2010,1472515.79,0,54.58,2.72,211.215635,8.106
7,1,26/03/2010,1404429.92,0,51.45,2.732,211.018042,8.106
8,1,02/04/2010,1594968.28,0,62.27,2.719,210.82045,7.808
9,1,09/04/2010,1545418.53,0,65.86,2.77,210.622857,7.808


### Descripción de Variables del Dataset de Atrición de Empleados

Este dataset proporciona una visión exhaustiva de los factores relacionados con la atrición de empleados en una organización. Contiene datos detallados sobre atributos personales y profesionales de los empleados, incluyendo su nivel educativo, satisfacción laboral, historial de empleo y mucho más. Está diseñado para ayudar a identificar las razones detrás de la decisión de los empleados de permanecer o dejar su lugar de trabajo, ofreciendo insights valiosos para estrategias de retención de talento. A continuación, se detallan las variables incluidas en el dataset, cada una de las cuales aporta información crucial para el análisis de atrición.

- **Edad**: Edad del empleado.
- **Atricion**: Indica si el empleado ha dejado la empresa (Sí o No).
- **Viajes_Negocio**: Frecuencia de viajes de negocio (Ninguno, Frecuente, Raro).
- **Tarifa_Diaria**: Costo diario asociado al empleado.
- **Departamento**: Departamento en el que trabaja el empleado.
- **Distancia_Desde_Casa**: Distancia en kilómetros desde la casa del empleado hasta el trabajo.
- **Educacion**: Nivel de educación del empleado, codificado como:
  - 1 'Por Debajo de Colegio'
  - 2 'Colegio'
  - 3 'Licenciatura'
  - 4 'Maestría'
  - 5 'Doctorado'
- **Campo_Educacion**: Área de estudio del empleado.
- **Conteo_Empleados**: Número de empleados totales (generalmente 1 por fila).
- **Numero_Empleado**: Identificador único del empleado.
- **Satisfaccion_Ambiente**: Nivel de satisfacción con el entorno laboral, codificado de 1 (Bajo) a 4 (Muy Alto).
- **Genero**: Género del empleado (Masculino, Femenino).
- **Tarifa_Horaria**: Tarifa por hora de trabajo del empleado.
- **Involucramiento_Trabajo**: Nivel de involucramiento del empleado con su trabajo, codificado de 1 (Bajo) a 4 (Muy Alto).
- **Nivel_Trabajo**: Nivel de puesto del empleado dentro de la empresa.
- **Rol_Trabajo**: Posición específica del empleado dentro de la empresa.
- **Satisfaccion_Trabajo**: Nivel de satisfacción del empleado con su trabajo, codificado de 1 (Bajo) a 4 (Muy Alto).
- **Estado_Civil**: Estado civil del empleado (Soltero, Casado, Divorciado).
- **Ingreso_Mensual**: Ingreso mensual del empleado en moneda local.
- **Tarifa_Mensual**: Costo mensual asociado al empleado.
- **Num_Empresas_Trabajadas**: Cantidad de diferentes empresas en las que el empleado ha trabajado.
- **Mayor18**: Si el empleado es mayor de 18 años (Sí).
- **Horas_Extras**: Indica si el empleado ha trabajado horas extras (Sí o No).
- **Incremento_Salarial**: Porcentaje de incremento en el salario del último año.
- **Calificacion_Desempeno**: Calificación del desempeño del empleado, codificada de 1 (Bajo) a 4 (Sobresaliente).
- **Satisfaccion_Relacion**: Nivel de satisfacción del empleado con sus relaciones en el trabajo, codificado de 1 (Bajo) a 4 (Muy Alto).
- **Horas_Estandar**: Número de horas de trabajo estándar.
- **Nivel_Opciones_Acciones**: Nivel de opciones sobre acciones del empleado.
- **Total_Anios_Trabajo**: Total de años de experiencia laboral del empleado.
- **Capacitaciones_Ultimo_Anio**: Número de veces que el empleado recibió capacitación en el último año.
- **Equilibrio_Vida_Laboral**: Calidad del equilibrio entre la vida laboral y personal del empleado, codificado de 1 (Malo) a 4 (Excelente).
- **Anios_Compania**: Total de años que el empleado ha trabajado en la compañía.
- **Anios_Rol_Actual**: Años que el empleado ha pasado en su posición actual.
- **Anios_Ultima_Promocion**: Años transcurridos desde la última promoción del empleado.
- **Anios_Con_Gerente_Actual**: Años que el empleado ha trabajado bajo el mismo gerente.

In [6]:
# Cargar el archivo CSV en un DataFrame
df = pd.read_csv('Empleados.csv')

# Mostrar las primeras filas del DataFrame
df.head()

Unnamed: 0,Edad,Atricion,Viajes_Negocio,Tarifa_Diaria,Departamento,Distancia_Desde_Casa,Educacion,Campo_Educacion,Conteo_Empleados,Numero_Empleado,...,Satisfaccion_Relacion,Horas_Estandar,Nivel_Opciones_Acciones,Total_Anios_Trabajo,Capacitaciones_Ultimo_Anio,Equilibrio_Vida_Laboral,Anios_Compania,Anios_Rol_Actual,Anios_Ultima_Promocion,Anios_Con_Gerente_Actual
0,41,Yes,Travel_Rarely,1102,Sales,1,2,Life Sciences,1,1,...,1,80,0,8,0,1,6,4,0,5
1,49,No,Travel_Frequently,279,Research & Development,8,1,Life Sciences,1,2,...,4,80,1,10,3,3,10,7,1,7
2,37,Yes,Travel_Rarely,1373,Research & Development,2,2,Other,1,4,...,2,80,0,7,3,3,0,0,0,0
3,33,No,Travel_Frequently,1392,Research & Development,3,4,Life Sciences,1,5,...,3,80,0,8,3,3,8,7,3,0
4,27,No,Travel_Rarely,591,Research & Development,2,1,Medical,1,7,...,4,80,1,6,3,3,2,2,2,2


### Descripción de Variables del Dataset de Marketing Bancario

Este dataset contiene datos de una campaña de marketing bancario, donde se recopiló información sobre interacciones con clientes con el objetivo de predecir la efectividad de las campañas y mejorar las estrategias futuras. Los datos ofrecen una visión comprensiva sobre las características de los clientes y su respuesta a las campañas de telemarketing, permitiendo a los analistas explorar y descubrir patrones que pueden mejorar la efectividad de las futuras acciones de marketing. El análisis de este dataset ayudará a responder preguntas clave como la influencia del perfil demográfico y financiero del cliente en su disposición a suscribir nuevos servicios bancarios.

- **Edad**: Edad del cliente.
- **Trabajo**: Tipo de trabajo del cliente (ej. 'admin.', 'technician', 'services', etc.).
- **Estado_Civil**: Estado civil del cliente (ej. 'married', 'single', 'divorced').
- **Educacion**: Nivel educativo del cliente (ej. 'primary', 'secondary', 'tertiary').
- **Default**: Indica si el cliente tiene crédito en mora ('yes', 'no').
- **Balance**: Saldo anual promedio, en euros.
- **Vivienda**: Indica si el cliente tiene un préstamo de vivienda ('yes', 'no').
- **Prestamo**: Indica si el cliente tiene un préstamo personal ('yes', 'no').
- **Contacto**: Tipo de comunicación de contacto utilizada (ej. 'telephone', 'cellular', 'unknown').
- **Dia**: Día del mes en que se realizó el último contacto.
- **Mes**: Mes del año en que se realizó el último contacto (ej. 'jan', 'feb', 'mar', etc.).
- **Duracion**: Duración del último contacto, en segundos.
- **Campania**: Número de contactos realizados durante esta campaña y para este cliente.
- **Pdias**: Número de días que pasaron después de que el cliente fue contactado por última vez desde una campaña anterior.
- **Anterior**: Número de contactos realizados antes de esta campaña y para este cliente.
- **Resultado_Anterior**: Resultado de la campaña de marketing anterior (ej. 'failure', 'nonexistent', 'success').
- **Deposito**: Indica si el cliente ha suscrito un depósito a plazo ('yes', 'no').

In [12]:
# Cargar el archivo CSV en un DataFrame
df = pd.read_csv('Marketing.csv')

# Mostrar las primeras filas del DataFrame
df.head(15)

Unnamed: 0,Edad,Trabajo,Estado_Civil,Educacion,Default,Balance,Vivienda,Prestamo,Contacto,Dia,Mes,Duracion,Campania,Pdias,Anterior,Resultado_Anterior,Deposito
0,59,admin.,married,secondary,no,2343,yes,no,unknown,5,may,1042,1,-1,0,unknown,yes
1,56,admin.,married,secondary,no,45,no,no,unknown,5,may,1467,1,-1,0,unknown,yes
2,41,technician,married,secondary,no,1270,yes,no,unknown,5,may,1389,1,-1,0,unknown,yes
3,55,services,married,secondary,no,2476,yes,no,unknown,5,may,579,1,-1,0,unknown,yes
4,54,admin.,married,tertiary,no,184,no,no,unknown,5,may,673,2,-1,0,unknown,yes
5,42,management,single,tertiary,no,0,yes,yes,unknown,5,may,562,2,-1,0,unknown,yes
6,56,management,married,tertiary,no,830,yes,yes,unknown,6,may,1201,1,-1,0,unknown,yes
7,60,retired,divorced,secondary,no,545,yes,no,unknown,6,may,1030,1,-1,0,unknown,yes
8,37,technician,married,secondary,no,1,yes,no,unknown,6,may,608,1,-1,0,unknown,yes
9,28,services,single,secondary,no,5090,yes,no,unknown,6,may,1297,3,-1,0,unknown,yes


### Descripción del Dataset de la Cadena de Suministro

Este dataset proporciona un registro detallado de las operaciones de la cadena de suministro de una compañía global que utiliza estos datos para analizar y mejorar sus procesos. El conjunto de datos incluye información sobre transacciones, envíos, descuentos, y más, permitiendo el uso de algoritmos de aprendizaje automático para optimizar las actividades de provisión, producción, ventas y distribución comercial. También se integran datos estructurados con no estructurados para la generación de conocimiento, apoyando en la toma de decisiones estratégicas.

- **Tipo_Transaccion**: Tipo de transacción realizada.
- **Dias_Envio_Real**: Días reales de envío del producto comprado.
- **Dias_Envio_Programado**: Días programados para la entrega del producto comprado.
- **Beneficio_Por_Orden**: Ganancias por orden colocada.
- **Ventas_Por_Cliente**: Total de ventas realizadas por cada cliente.
- **Estado_Entrega**: Estado de entrega de los pedidos (ej. envío anticipado, entrega tardía, envío cancelado, envío a tiempo).
- **Riesgo_Entrega_Tardia**: Variable categórica que indica si el envío es tardío (1) o no (0).
- **Id_Categoria**: Código de categoría del producto.
- **Nombre_Categoria**: Descripción de la categoría del producto.
- **Ciudad_Cliente**: Ciudad donde el cliente realizó la compra.
- **Pais_Cliente**: País donde el cliente realizó la compra.
- **Email_Cliente**: Email del cliente.
- **Nombre_Cliente**: Nombre del cliente.
- **Id_Cliente**: ID del cliente.
- **Apellido_Cliente**: Apellido del cliente.
- **Contraseña_Cliente**: Contraseña del cliente enmascarada.
- **Segmento_Cliente**: Tipo de cliente (Consumidor, Corporativo, Oficina en casa).
- **Estado_Cliente**: Estado al que pertenece la tienda donde se registró la compra.
- **Calle_Cliente**: Calle al que pertenece la tienda donde se registró la compra.
- **Codigo_Postal_Cliente**: Código postal del cliente.
- **Id_Departamento**: Código del departamento de la tienda.
- **Nombre_Departamento**: Nombre del departamento de la tienda.
- **Latitud**: Latitud correspondiente a la ubicación de la tienda.
- **Longitud**: Longitud correspondiente a la ubicación de la tienda.
- **Mercado**: Mercado al que se entrega el pedido (África, Europa, LATAM, Asia Pacífico, USCA).
- **Ciudad_Orden**: Ciudad de destino del pedido.
- **Pais_Orden**: País de destino del pedido.
- **Id_Orden_Cliente**: Código del cliente del pedido.
- **Fecha_Orden**: Fecha en que se realizó el pedido.
- **Id_Orden**: Código del pedido.
- **Id_Producto_Pedido**: Código del producto generado a través del lector RFID.
- **Descuento_Producto**: Valor del descuento del ítem del pedido.
- **Tasa_Descuento_Producto**: Porcentaje de descuento del ítem del pedido.
- **Id_Item_Pedido**: Código del ítem del pedido.
- **Precio_Producto_Item**: Precio de los productos sin descuento.
- **Ratio_Beneficio_Producto**: Ratio de beneficio del ítem del pedido.
- **Cantidad_Producto**: Número de productos por pedido.
- **Ventas**: Valor en ventas.
- **Total_Item_Pedido**: Monto total por pedido.
- **Beneficio_Por_Orden**: Beneficio por pedido.
- **Region_Orden**: Región del mundo donde se entrega el pedido.
- **Estado_Orden**: Estado de la región donde se entrega el pedido.
- **Estado_Pedido**: Estado del pedido (COMPLETO, PENDIENTE, CERRADO, PAGO_PENDIENTE, CANCELADO, EN PROCESO, FRAUDE SOSPECHOSO, EN ESPERA, REVISIÓN DE PAGO).
- **Codigo_Postal_Orden**: Código postal del pedido.
- **Id_Tarjeta_Producto**: Código del producto.
- **Id_Categoria_Producto**: Código de categoría del producto.
- **Descripcion_Producto**: Descripción del producto.
- **Imagen_Producto**: Enlace de visita y compra del producto.
- **Nombre_Producto**: Nombre del producto.
- **Precio_Producto**: Precio del producto.
- **Estado_Producto**: Estado del stock del producto (1 no disponible, 0 disponible).
- **Fecha_Envio**: Fecha y hora exacta del envío.
- **Modo_Envio**: Modos de envío disponibles (Clase Estándar, Primera Clase, Segunda Clase, Mismo Día).

In [9]:
# Cargar el archivo CSV en un DataFrame
df = pd.read_csv('Registro_Cadena_Suministros.csv', encoding='latin1')

# Mostrar las primeras filas del DataFrame
df.head()

Unnamed: 0,Tipo_Transaccion,Dias_Envio_Real,Dias_Envio_Programado,Beneficio_Por_Orden,Ventas_Por_Cliente,Estado_Entrega,Riesgo_Entrega_Tardia,Id_Categoria,Nombre_Categoria,Ciudad_Cliente,...,Codigo_Postal_Orden,Id_Tarjeta_Producto,Id_Categoria_Producto,Descripcion_Producto,Imagen_Producto,Nombre_Producto,Precio_Producto,Estado_Producto,Fecha_Envio,Modo_Envio
0,DEBIT,3,4,91.25,314.640015,Advance shipping,0,73,Sporting Goods,Caguas,...,,1360,73,,http://images.acmesports.sports/Smart+watch,Smart watch,327.75,0,02/03/2018 22:56,Standard Class
1,TRANSFER,5,4,-249.089996,311.359985,Late delivery,1,73,Sporting Goods,Caguas,...,,1360,73,,http://images.acmesports.sports/Smart+watch,Smart watch,327.75,0,1/18/2018 12:27,Standard Class
2,CASH,4,4,-247.779999,309.720001,Shipping on time,0,73,Sporting Goods,San Jose,...,,1360,73,,http://images.acmesports.sports/Smart+watch,Smart watch,327.75,0,1/17/2018 12:06,Standard Class
3,DEBIT,3,4,22.860001,304.809998,Advance shipping,0,73,Sporting Goods,Los Angeles,...,,1360,73,,http://images.acmesports.sports/Smart+watch,Smart watch,327.75,0,1/16/2018 11:45,Standard Class
4,PAYMENT,2,4,134.210007,298.25,Advance shipping,0,73,Sporting Goods,Caguas,...,,1360,73,,http://images.acmesports.sports/Smart+watch,Smart watch,327.75,0,1/15/2018 11:24,Standard Class


### Descripción del Dataset de Comercio Electrónico

Este dataset comprende vectores de características de 12,330 sesiones de usuarios en un sitio de comercio electrónico durante un periodo de un año. El objetivo principal es analizar el comportamiento de navegación y compra en línea para potenciar las estrategias de marketing y mejorar la experiencia en el sitio web.

- **Administrativo**: Cantidad de páginas administrativas que un usuario ha visitado durante una sesión.
- **Duracion_Administrativo**: Tiempo total, en segundos, que un usuario ha pasado en páginas administrativas.
- **Informativo**: Cantidad de páginas informativas visitadas por un usuario durante una sesión.
- **Duracion_Informativo**: Tiempo total, en segundos, que un usuario ha pasado en páginas informativas.
- **Relacionado_Producto**: Cantidad de páginas de productos que un usuario ha visitado.
- **Duracion_Relacionado_Producto**: Tiempo total, en segundos, que un usuario ha pasado en páginas relacionadas con productos.
- **Tasa_Rebote**: Porcentaje de visitas que terminan en la misma página donde empezaron, sin interactuar con la página.
- **Tasa_Salida**: Porcentaje de todas las visualizaciones de página que fueron la última interacción del usuario en una sesión. Una tasa de salida elevada en una página específica puede indicar problemas de contenido, usabilidad o diseño que hacen que los usuarios terminen su sesión después de visitar esa página.
- **Valor_Pagina**:  Representa el valor económico promedio generado por cada página vista que precede a una transacción de comercio electrónico. Este valor ayuda a identificar qué páginas contribuyen más directamente a generar ingresos, asignando un valor económico a cada página basado en su capacidad de llevar a los usuarios hacia una transacción.
- **Dia_Especial**: Indica qué tan cerca está la visita del usuario a días especiales como el Día de la Madre o San Valentín, donde 1 es el máximo de cercanía.
- **Mes**: Mes en el que ocurrió la sesión, con nombres como enero, febrero, marzo, etc.
- **Sistema_Operativo**: Sistema operativo del dispositivo que el usuario utilizó para acceder al sitio.
- **Navegador**: Navegador web utilizado por el usuario para acceder al sitio.
- **Region**: Región geográfica del usuario.
- **Tipo_Trafico**: Identifica la fuente del tráfico web que llevó al usuario al sitio. Las fuentes de tráfico pueden incluir diferentes canales como tráfico directo (el usuario escribe directamente la URL del sitio), tráfico de referencia (el usuario llega a través de otro sitio web), tráfico de búsqueda (el usuario llega a través de un motor de búsqueda), entre otros. Cada tipo de tráfico está categorizado con un número, lo que permite analizar cuáles canales son más efectivos para atraer visitantes que completan compras.
- **Tipo_Visitante**: Clasificación del usuario como 'Nuevo Visitante', 'Visitante Recurrente' o 'Otro'.
- **Fin_Semana**: Indicador de si la visita ocurrió durante un fin de semana.
- **Compra_Realizada**: Indica si la sesión resultó en una transacción comercial, es decir, si el usuario realizó una compra.

In [11]:
# Cargar el archivo CSV en un DataFrame
df = pd.read_csv('ECommerce.csv')

# Mostrar las primeras filas del DataFrame
df.head(20)

Unnamed: 0,Administrativo,Duracion_Administrativo,Informativo,Duracion_Informativo,Relacionado_Producto,Duracion_Relacionado_Producto,Tasa_Rebote,Tasa_Salida,Valor_Pagina,Dia_Especial,Mes,Sistema_Operativo,Navegador,Region,Tipo_Trafico,Tipo_Visitante,Fin_Semana,Compra_Realizada
0,0,0.0,0,0.0,1,0.0,0.2,0.2,0.0,0.0,Feb,1,1,1,1,Returning_Visitor,False,False
1,0,0.0,0,0.0,2,64.0,0.0,0.1,0.0,0.0,Feb,2,2,1,2,Returning_Visitor,False,False
2,0,0.0,0,0.0,1,0.0,0.2,0.2,0.0,0.0,Feb,4,1,9,3,Returning_Visitor,False,False
3,0,0.0,0,0.0,2,2.666667,0.05,0.14,0.0,0.0,Feb,3,2,2,4,Returning_Visitor,False,False
4,0,0.0,0,0.0,10,627.5,0.02,0.05,0.0,0.0,Feb,3,3,1,4,Returning_Visitor,True,False
5,0,0.0,0,0.0,19,154.216667,0.015789,0.024561,0.0,0.0,Feb,2,2,1,3,Returning_Visitor,False,False
6,0,0.0,0,0.0,1,0.0,0.2,0.2,0.0,0.4,Feb,2,4,3,3,Returning_Visitor,False,False
7,1,0.0,0,0.0,0,0.0,0.2,0.2,0.0,0.0,Feb,1,2,1,5,Returning_Visitor,True,False
8,0,0.0,0,0.0,2,37.0,0.0,0.1,0.0,0.8,Feb,2,2,2,3,Returning_Visitor,False,False
9,0,0.0,0,0.0,3,738.0,0.0,0.022222,0.0,0.4,Feb,2,4,1,2,Returning_Visitor,False,False
