## Cálculo de información por subclases

*Ladino Álvarez Ricardo Arturo*

El siguiente código está diseñado para mostrar un enfoque eficiente para calcular el valor de una métrica en función de múltiples subclases dentro de diversas clases.


In [1]:
### Librerias
import pandas as pd

> Supongase la siguiente base de datos, se hara el proceso en dos formas, **paso a paso** y en un **loop** tambien conocido como **for**

In [2]:
### Datos de ejemplo
Datos_Base = {'CVE_UNIDAD': ['R6_16A', 'R6_16A', 'R6_16A', 'R6_16A', 'R6_16A', 'R6_16A', 'R6_16A', 'R6_16A', 'R6_16A', 'R6_16A', 
                             'R6_16A', 'R6_16A', 'R6_29B', 'R6_29B', 'R6_29B', 'R6_29B', 'R6_29B', 'R6_29B', 'R6_29B', 'R6_29B'],
              'GENERAL': ['AGSC', 'AGSC', 'AGSC', 'AGSC', 'AGSC', 'AGSC', 'AGAFF', 'AGAFF', 'AGAFF', 'AGAFF', 
                          'AGAFF', 'AGAFF', 'AGSC', 'AGSC', 'AGSC', 'AGSC', 'AGAFF', 'AGAFF', 'AGAFF', 'AGAFF'],
              'V1': [1, 0, 1, 1, 0, 4, 5, 3, 5, 2, 8, 10, 9, 6, 7, 0, 1, 0, 1, 0],
              'V2': [2, 1, 0, 1, 1, 3, 4, 5, 9, 1, 7, 2, 0, 0, 1, 1, 0, 1, 0, 1],
              'V3': [1, 2, 3, 4, 5, 6, 8, 7, 2, 4, 4, 3, 2, 1, 20, 0, 1, 0, 12, 2],
              'V4': [1, 1, 1, 1, 0, 4, 5, 3, 5, 2, 8, 10, 9, 6, 7, 0, 1, 0, 1, 2]}

Datos_uso = pd.DataFrame(Datos_Base)
Datos_uso.head(6)

Unnamed: 0,CVE_UNIDAD,GENERAL,V1,V2,V3,V4
0,R6_16A,AGSC,1,2,1,1
1,R6_16A,AGSC,0,1,2,1
2,R6_16A,AGSC,1,0,3,1
3,R6_16A,AGSC,1,1,4,1
4,R6_16A,AGSC,0,1,5,0
5,R6_16A,AGSC,4,3,6,4


### 1. PASO A PASO

In [3]:
### Paso 1: Sumar los valores de las columnas V1, V2, V3, y V4 por fila
Datos_uso['SUMA'] = Datos_uso[['V1', 'V2', 'V3', 'V4']].sum(axis=1)
Datos_uso.head(6)

Unnamed: 0,CVE_UNIDAD,GENERAL,V1,V2,V3,V4,SUMA
0,R6_16A,AGSC,1,2,1,1,5
1,R6_16A,AGSC,0,1,2,1,4
2,R6_16A,AGSC,1,0,3,1,5
3,R6_16A,AGSC,1,1,4,1,7
4,R6_16A,AGSC,0,1,5,0,6
5,R6_16A,AGSC,4,3,6,4,17


In [4]:
### Paso 2: Generar una nueva columna 'Min' donde se extrae el valor mínimo para cada subclase (GENERAL) dentro de la clase (CVE_UNIDAD)
Datos_uso['Min'] = Datos_uso.groupby(['CVE_UNIDAD', 'GENERAL'])['SUMA'].transform('min')
Datos_uso.head(6)

Unnamed: 0,CVE_UNIDAD,GENERAL,V1,V2,V3,V4,SUMA,Min
0,R6_16A,AGSC,1,2,1,1,5,4
1,R6_16A,AGSC,0,1,2,1,4,4
2,R6_16A,AGSC,1,0,3,1,5,4
3,R6_16A,AGSC,1,1,4,1,7,4
4,R6_16A,AGSC,0,1,5,0,6,4
5,R6_16A,AGSC,4,3,6,4,17,4


In [5]:
### Paso 3: Generar una nueva columna 'Max' donde se extrae el valor máximo para cada subclase (GENERAL) dentro de la clase (UNIDAD)
Datos_uso['Max'] = Datos_uso.groupby(['CVE_UNIDAD', 'GENERAL'])['SUMA'].transform('max')
Datos_uso.head(6)

Unnamed: 0,CVE_UNIDAD,GENERAL,V1,V2,V3,V4,SUMA,Min,Max
0,R6_16A,AGSC,1,2,1,1,5,4,17
1,R6_16A,AGSC,0,1,2,1,4,4,17
2,R6_16A,AGSC,1,0,3,1,5,4,17
3,R6_16A,AGSC,1,1,4,1,7,4,17
4,R6_16A,AGSC,0,1,5,0,6,4,17
5,R6_16A,AGSC,4,3,6,4,17,4,17


In [6]:
### Paso 4: Aplicar la normalización manualmente utilizando la fórmula Normalización = (Sum - Min) / (Max - Min)
Datos_uso['Normalizacion'] = (Datos_uso['SUMA'] - Datos_uso['Min']) / (Datos_uso['Max'] - Datos_uso['Min'])
Datos_uso.head(6)

Unnamed: 0,CVE_UNIDAD,GENERAL,V1,V2,V3,V4,SUMA,Min,Max,Normalizacion
0,R6_16A,AGSC,1,2,1,1,5,4,17,0.076923
1,R6_16A,AGSC,0,1,2,1,4,4,17,0.0
2,R6_16A,AGSC,1,0,3,1,5,4,17,0.076923
3,R6_16A,AGSC,1,1,4,1,7,4,17,0.230769
4,R6_16A,AGSC,0,1,5,0,6,4,17,0.153846
5,R6_16A,AGSC,4,3,6,4,17,4,17,1.0


In [7]:
### Paso 5: Mostrar los resultados
Datos_F1 = Datos_uso[['CVE_UNIDAD', 'GENERAL', 'Normalizacion']]
Datos_F1.head(6)

Unnamed: 0,CVE_UNIDAD,GENERAL,Normalizacion
0,R6_16A,AGSC,0.076923
1,R6_16A,AGSC,0.0
2,R6_16A,AGSC,0.076923
3,R6_16A,AGSC,0.230769
4,R6_16A,AGSC,0.153846
5,R6_16A,AGSC,1.0


### 2. LOOP - FOR

In [8]:
Datos_uso2 = pd.DataFrame(Datos_Base)
Datos_uso2.head(6)

Unnamed: 0,CVE_UNIDAD,GENERAL,V1,V2,V3,V4
0,R6_16A,AGSC,1,2,1,1
1,R6_16A,AGSC,0,1,2,1
2,R6_16A,AGSC,1,0,3,1
3,R6_16A,AGSC,1,1,4,1
4,R6_16A,AGSC,0,1,5,0
5,R6_16A,AGSC,4,3,6,4


In [9]:
### Paso 0: Sumar los valores de las variables en las que se necesita calcular el riesgo
Datos_uso2['SUM'] = Datos_uso2[['V1', 'V2', 'V3', 'V4']].sum(axis=1)

### Paso 1: Se genera una iteración sobre las combinaciones únicas de CVE_UNIDAD y GENERAL
for (cve_unidad, general), group_df in Datos_uso2.groupby(['CVE_UNIDAD', 'GENERAL']):
    
    ### Paso 2: Se calculan el valor mínimo y máximo de la columna 'Sum' dentro de las combinaciones únicas de CVE_UNIDAD y GENERAL
    min_val = group_df['SUM'].min()
    max_val = group_df['SUM'].max()
    
    ### Paso 3: Se calcula la normalización manualmente en una nueva columna llamada "Normalizacion" y se añade al dataframe base
    Datos_uso2.loc[group_df.index, 'Normalizacion'] = (group_df['SUM'] - min_val) / (max_val - min_val)

Datos_F2 = Datos_uso2[['CVE_UNIDAD', 'GENERAL', 'Normalizacion']]
Datos_F2.head(6)

Unnamed: 0,CVE_UNIDAD,GENERAL,Normalizacion
0,R6_16A,AGSC,0.076923
1,R6_16A,AGSC,0.0
2,R6_16A,AGSC,0.076923
3,R6_16A,AGSC,0.230769
4,R6_16A,AGSC,0.153846
5,R6_16A,AGSC,1.0
