In [3]:
import pandas as pd
from tabulate import tabulate # Tener encuenta que si no tienes la librería tabulate debes instalarla con pip install tabulate

In [4]:
## Colocar la ruta de los archivos de la prueba
ruta_base = r"C:\Users\ANDECUMO\Documents\01 INFORMACIÓN PERSONAL\prueba\Prueba 5\Prueba\Data\prueba_colsubsidio_tecnico\Archivos_csv"

In [5]:
## Leer los archivos CSV con la codificación 'latin1'
empresa_df = pd.read_csv(ruta_base + r"\Empresa.csv", sep=';', encoding='latin1')
persona_df = pd.read_csv(ruta_base + r"\Persona.csv", sep=';', encoding='latin1')
consumo_df = pd.read_csv(ruta_base + r"\Consumo.csv", sep=';', encoding='latin1')
## Realice cambios en la  columna 'Valor' a tipo float, reemplazando comas por puntos

consumo_df['Valor'] = consumo_df['Valor'].astype(str).str.replace(',', '.').astype(float)

In [None]:
print("¿Existen temporadas de mayor venta de productos?")

# realice la agrupación de "periodo, ues, producto" 
ventas_por_periodo = consumo_df.groupby(['Periodo', 'UES', 'Producto'])['Valor'].sum().reset_index()

# Encontrar el índice de la fila con la venta máxima por periodo y UES
indices_maximos = ventas_por_periodo.groupby(['Periodo', 'UES'])['Valor'].idxmax()

# Obtener las filas con las ventas máximas por periodo y UES
ventas_maximas_por_periodo = ventas_por_periodo.loc[indices_maximos]

# Ordenar el DataFrame por 'Periodo' y 'UES' para una mejor presentación
ventas_maximas_por_periodo = ventas_maximas_por_periodo.sort_values(by=['Periodo', 'UES'], ascending=False)

# Formatear la columna 'Valor' como moneda
ventas_maximas_por_periodo['Valor'] = ventas_maximas_por_periodo['Valor'].map(lambda x: f"${x:,.2f}")

print(ventas_maximas_por_periodo.to_string(index=False))


In [None]:
print("cual es la participación de consumo de personas afiliadas y no afiliadas")
# Rellenar los valores nulos en la columna 'UES' con "SIN UES"
consumo_df['UES'] = consumo_df['UES'].fillna("SIN UES")

# Personas afiliadas: están en consumo_df y en persona_df
personas_afiliadas = consumo_df[consumo_df['NumIdPersona'].isin(persona_df['NumIdPersona'])]['NumIdPersona'].unique()
#  Personas no afiliadas: están en consumo_df pero no en persona_df
personas_no_afiliadas = consumo_df[~consumo_df['NumIdPersona'].isin(persona_df['NumIdPersona'])]['NumIdPersona'].unique()

# Calcular el total de personas que consumieron
total_personas_consumo = consumo_df['NumIdPersona'].nunique()

# Calcular los porcentajes
porcentaje_afiliadas = (len(personas_afiliadas) / total_personas_consumo) * 100
porcentaje_no_afiliadas = (len(personas_no_afiliadas) / total_personas_consumo) * 100

# Resultados de afiliados y no afiliados 
print(f"Porcentaje de personas afiliadas que consumieron: {porcentaje_afiliadas:.2f}%")
print(f"Porcentaje de personas no afiliadas que consumieron: {porcentaje_no_afiliadas:.2f}%")


In [None]:
print("¿Cuál es el consumo total por unidad de negocio?")

# Calcular el consumo total por UES
consumo_total_por_ues = consumo_df.groupby('UES')['Valor'].sum().reset_index()

# Ordenar el DataFrame por la columna 'Valor' de mayor a menor
consumo_total_por_ues = consumo_total_por_ues.sort_values(by='Valor', ascending=False)

# Formatear la columna 'Valor' como moneda
consumo_total_por_ues['Valor'] = consumo_total_por_ues['Valor'].map(lambda x: f"${x:,.2f}")
# Imprimir el resultado en formato tabulado
print("Estos son los valores de las unidades de negocio (UES):")
print(consumo_total_por_ues.to_string(index=False))

In [None]:
print("¿Cuáles son las unidades y productos de mayor uso en cada categoría??")

# agrupamos UES y Producto, y contar la frecuencia
uso_por_ues_producto = consumo_df.groupby(['UES', 'Producto']).size().reset_index(name='Frecuencia')

# total total de registros por UES
total_por_ues = consumo_df.groupby('UES').size().reset_index(name='Total_UES')

# DataFrames para calcular el porcentaje de frecuencia por UES
uso_por_ues_producto = pd.merge(uso_por_ues_producto, total_por_ues, on='UES', how='left')
uso_por_ues_producto['% Mayor-Uso'] = (uso_por_ues_producto['Frecuencia'] / uso_por_ues_producto['Total_UES']) * 100

# Redondear a 3 decimales
uso_por_ues_producto['% Mayor-Uso'] = uso_por_ues_producto['% Mayor-Uso'].round(3)

# Identificar el producto más usado por cada UES, solo dejar valores unicos.
uso_por_ues_producto_sorted = uso_por_ues_producto.sort_values(by='Frecuencia', ascending=False)
producto_mas_usado_por_ues = uso_por_ues_producto_sorted.drop_duplicates(subset=['UES'])

#salida como una tabla
tabla_resultados = producto_mas_usado_por_ues[['UES', 'Producto', '% Mayor-Uso']]
tabla_resultados.columns = ['UES', 'Producto', '% Mayor-Uso'] 

# Mostrar la tabla
print(tabulate(tabla_resultados, headers='keys', tablefmt='pretty', showindex=False))


In [None]:
print ("Identifique los clientes (afiliados y no afiliados) con mayor frecuencia de uso y mayor valor neto de venta.")

# Identificar si un cliente es afiliado o no afiliado
consumo_df['Tipo_Cliente'] = consumo_df['NumIdPersona'].isin(persona_df['NumIdPersona']).map({True: 'Afiliado', False: 'No Afiliado'})

# Calcular la frecuencia de uso y el valor neto de venta por cliente
clientes_analisis = consumo_df.groupby(['NumIdPersona', 'Tipo_Cliente']).agg(
    Frecuencia=('Valor', 'size'), 
    Valor_Neto=('Valor', 'sum')   
).reset_index()

# Identificar los clientes con mayor frecuencia de uso
clientes_mayor_frecuencia = clientes_analisis.sort_values(by='Frecuencia', ascending=False).head(30)

# Identificar los clientes con mayor valor neto de venta
clientes_mayor_valor = clientes_analisis.sort_values(by='Valor_Neto', ascending=False).head(30)

# convertir valor en moneda
clientes_mayor_frecuencia['Valor_Neto'] = clientes_mayor_frecuencia['Valor_Neto'].map(lambda x: f"${x:,.2f}")
clientes_mayor_valor['Valor_Neto'] = clientes_mayor_valor['Valor_Neto'].map(lambda x: f"${x:,.2f}")

# Mistrar los reultados
print("Clientes con mayor frecuencia de uso:")
print(tabulate(clientes_mayor_frecuencia, headers='keys', tablefmt='pretty', showindex=False))

print("\nClientes con mayor valor neto de venta (ordenados de mayor a menor):")
print(tabulate(clientes_mayor_valor, headers='keys', tablefmt='pretty', showindex=False))

In [None]:
print ("¿Cómo ha sido el porcentaje histórico de penetración en la población afiliada de los servicios Colsubsidio?")

# Identificar si un cliente es afiliado o no afiliado
consumo_df['Tipo_Cliente'] = consumo_df['NumIdPersona'].isin(persona_df['NumIdPersona']).map({True: 'Afiliado', False: 'No Afiliado'})

# Contar el número de afiliados y no afiliados que realizaron  compras por período
transacciones_por_periodo = consumo_df.groupby(['Periodo', 'Tipo_Cliente'])['NumIdPersona'].nunique().reset_index()
transacciones_por_periodo.columns = ['Periodo', 'Tipo_Cliente', 'Clientes_Con_Consumo']

# Calcular el total de afiliados y no afiliados en todos los períodos
total_afiliados = transacciones_por_periodo[transacciones_por_periodo['Tipo_Cliente'] == 'Afiliado']['Clientes_Con_Consumo'].sum()
total_no_afiliados = transacciones_por_periodo[transacciones_por_periodo['Tipo_Cliente'] == 'No Afiliado']['Clientes_Con_Consumo'].sum()

# Calcular el porcentaje de penetración
transacciones_por_periodo.loc[transacciones_por_periodo['Tipo_Cliente'] == 'Afiliado', 'Porcentaje_Penetracion'] = (
    transacciones_por_periodo.loc[transacciones_por_periodo['Tipo_Cliente'] == 'Afiliado', 'Clientes_Con_Consumo'] / total_afiliados) * 100
transacciones_por_periodo.loc[transacciones_por_periodo['Tipo_Cliente'] == 'No Afiliado', 'Porcentaje_Penetracion'] = (
    transacciones_por_periodo.loc[transacciones_por_periodo['Tipo_Cliente'] == 'No Afiliado', 'Clientes_Con_Consumo'] / total_no_afiliados) * 100

#   Redondear el porcentaje a 2 decimales
transacciones_por_periodo['Porcentaje_Penetracion'] = transacciones_por_periodo['Porcentaje_Penetracion'].round(2)

# simplificar los resultados.
transacciones_por_periodo['Clientes_Con_Consumo'] = transacciones_por_periodo['Clientes_Con_Consumo'].apply(lambda x: f"{x:,.0f}")

#Se muestra en una tabla el periodo, clientes consumo, porcentaje
afiliados_por_periodo = transacciones_por_periodo[transacciones_por_periodo['Tipo_Cliente'] == 'Afiliado']
no_afiliados_por_periodo = transacciones_por_periodo[transacciones_por_periodo['Tipo_Cliente'] == 'No Afiliado']

print(tabulate(afiliados_por_periodo[['Periodo', 'Clientes_Con_Consumo', 'Porcentaje_Penetracion']],
               headers=['Periodo', 'Afiliados con Consumo', 'Porcentaje (%)'],
               tablefmt='pretty', showindex=False))

print(tabulate(no_afiliados_por_periodo[['Periodo', 'Clientes_Con_Consumo', 'Porcentaje_Penetracion']],
               headers=['Periodo', 'No Afiliados con Consumo', 'Porcentaje (%)'],
               tablefmt='pretty', showindex=False))


In [None]:
print ("¿Cuáles son los productos más consumidos en el cada segmento poblacional? ")

# Combinar consumo_df con persona_df para obtener el segmento poblacional
consumo_con_segmento = pd.merge(consumo_df, persona_df[['NumIdPersona', 'Segmento_poblacional']], on='NumIdPersona', how='left')

# 'Segmento_poblacional' y 'Producto' para contar la frecuencia
productos_por_segmento = consumo_con_segmento.groupby(['Segmento_poblacional', 'Producto']).size().reset_index(name='Frecuencia')

# frecuencia total de productos consumidos por cada segmento
frecuencia_total_por_segmento = productos_por_segmento.groupby('Segmento_poblacional')['Frecuencia'].sum().reset_index(name='Frecuencia_Total')

# frecuencia total con el DataFrame original
productos_por_segmento = pd.merge(productos_por_segmento, frecuencia_total_por_segmento, on='Segmento_poblacional')

# Calcular el porcentaje de frecuencia por segmento
productos_por_segmento['Porcentaje'] = (productos_por_segmento['Frecuencia'] / productos_por_segmento['Frecuencia_Total']) * 100

# porcentaje de frecuencia de cada producto respecto al total
# Ordenar por segmento y frecuencia (de mayor a menor)
productos_por_segmento_sorted = productos_por_segmento.sort_values(by=['Segmento_poblacional', 'Frecuencia'], ascending=[True, False])

# 2 productos más consumidos por cada segmento poblacional
productos_top2_por_segmento = productos_por_segmento_sorted.groupby('Segmento_poblacional').head(2)

# Redondear los porcentajes a 2 decimales
productos_top2_por_segmento['Porcentaje'] = productos_top2_por_segmento['Porcentaje'].round(2)

# Mostrar los resultados
print("Los dos productos más consumidos por cada segmento poblacional con su frecuencia en porcentaje:")
print(tabulate(productos_top2_por_segmento[['Segmento_poblacional', 'Producto', 'Porcentaje']], 
               headers='keys', tablefmt='pretty', showindex=False))


In [8]:
print("¿Cuáles son las mejores empresas en cuanto a consumo individual de sus empleados?")

# Combinar consumo_df con persona_df para obtener la empresa de cada persona
consumo_persona_empresa = pd.merge(consumo_df, persona_df[['NumIdPersona', 'id_empresa']], on='NumIdPersona', how='left')

# Calcular el consumo total por persona
consumo_por_persona = consumo_persona_empresa.groupby('NumIdPersona')['Valor'].sum().reset_index(name='Consumo_Total')

# valor de  empresa a cada consumo individual
consumo_por_persona = pd.merge(consumo_por_persona, persona_df[['NumIdPersona', 'id_empresa']], on='NumIdPersona', how='left')

# Calcular el consumo promedio por empleado en cada empresa 
consumo_por_empresa = consumo_por_persona.groupby('id_empresa')['Consumo_Total'].mean().reset_index(name='Consumo_Promedio_Empleado')

# Unir con los nombres de las empresas (columna correcta: 'Piramide2')
consumo_por_empresa = pd.merge(consumo_por_empresa, empresa_df[['id_empresa', 'Piramide2']], on='id_empresa', how='left')

# empresas de mayor a menor consumo promedio por empleado
empresas_top_consumo = consumo_por_empresa.sort_values(by='Consumo_Promedio_Empleado', ascending=False)

# consumo promedio como moneda
empresas_top_consumo['Consumo_Promedio_Empleado'] = empresas_top_consumo['Consumo_Promedio_Empleado'].apply(lambda x: "${:,.2f}".format(x))

# Mostrar los resultados
print("\n Las Mejores empresas segun consumo promedio individual de sus empleados 🏆\n")
print(tabulate(empresas_top_consumo[['id_empresa', 'Piramide2', 'Consumo_Promedio_Empleado']], 
               headers=['ID Empresa', 'Empresa', 'Consumo Promedio por Empleado'], tablefmt='pretty', showindex=False))

¿Cuáles son las mejores empresas en cuanto a consumo individual de sus empleados?

 Las Mejores empresas segun consumo promedio individual de sus empleados 🏆

+------------+---------------------------------------+-------------------------------+
| ID Empresa |                Empresa                | Consumo Promedio por Empleado |
+------------+---------------------------------------+-------------------------------+
|  64938.0   |           4.5 Transaccional           |        $64,000,000.93         |
|  44567.0   |           4.5 Transaccional           |        $63,060,621.52         |
|   941.0    |   4.7 Transaccional - Independiente   |        $61,781,361.03         |
|  38591.0   |           4.5 Transaccional           |        $60,000,001.18         |
|   2893.0   |   4.7 Transaccional - Independiente   |        $56,375,159.06         |
|   8750.0   |    4.8 Transaccional - Pensionado     |        $55,197,086.00         |
|  24936.0   |    4.8 Transaccional - Pensionado     |    