In [None]:
import pandas as pd

# Reemplaza 'archivo.csv' con el nombre o la ruta de tu archivo CSV
df = pd.read_csv('mi_archivo.csv', encoding='utf-8')  # Usa encoding='latin1' si tienes caracteres especiales

# Verifica las primeras filas
print(df.head())
# comentario 


        RUT DV_x  COD_SUBTIPO                              RAZON_SOCIAL  \
0  50032710    3          211  CENTRO DE PERFECCIONAMIENTO TECNICO LTDA   
1  50032710    3          211  CENTRO DE PERFECCIONAMIENTO TECNICO LTDA   
2  50032710    3          211  CENTRO DE PERFECCIONAMIENTO TECNICO LTDA   
3  50032710    3          211  CENTRO DE PERFECCIONAMIENTO TECNICO LTDA   
4  50032710    3          211  CENTRO DE PERFECCIONAMIENTO TECNICO LTDA   

  FECHA_INICIO_VIG FECHA_TG_VIG  Año_comercial DV_y  \
0       01-01-1993          NaN           2005    3   
1       01-01-1993          NaN           2006    3   
2       01-01-1993          NaN           2007    3   
3       01-01-1993          NaN           2008    3   
4       01-01-1993          NaN           2009    3   

                               Razon_social  Tramo_segun_ventas  ...  \
0  CENTRO DE PERFECCIONAMIENTO TECNICO LTDA                   7  ...   
1  CENTRO DE PERFECCIONAMIENTO TECNICO LTDA                   7  ...   
2 

In [3]:
# Asegura que estas columnas sean numéricas o convertibles si aplica
df['Anno_comercial'] = pd.to_numeric(df['Año_comercial'], errors='coerce')
df['Numero_trabajadores_dependientes'] = pd.to_numeric(df['Numero_trabajadores_dependientes'], errors='coerce')
df['Tramo_segun_ventas'] = pd.to_numeric(df['Tramo_segun_ventas'], errors='coerce')  # Solo si son valores numéricos

# Columnas informativas (las que se mantienen como 'first')
columnas_informativas = [
    'DV_x', 'COD_SUBTIPO', 'RAZON_SOCIAL', 'FECHA_INICIO_VIG',
    'FECHA_TG_VIG', 'DV_y', 'Razon_social',
    'Fecha_inicio_actividades_vigente', 'Fecha_termino_giro',
    'Fecha_primera_inscripcion_ac', 'Tipo_termino_giro',
    'Tipo_contribuyente', 'Subtipo_contribuyente'
]

# Diccionario de agregación
agg_dict = {col: 'first' for col in columnas_informativas}
agg_dict.update({
    'Anno_comercial': ['min', 'max'],
    'Numero_trabajadores_dependientes': ['min', 'max'],
    'Tramo_segun_ventas': ['min', 'max']
})

# Aplicar agrupamiento
agrupado = df.groupby('RUT').agg(agg_dict)

# Aplanar columnas
agrupado.columns = ['_'.join(col).strip() if isinstance(col, tuple) else col for col in agrupado.columns]

# Renombrar columnas para mayor claridad
agrupado = agrupado.rename(columns={
    'Anno_comercial_min': 'Anno_min',
    'Anno_comercial_max': 'Anno_max',
    'Numero_trabajadores_dependientes_min': 'Trabajadores_min',
    'Numero_trabajadores_dependientes_max': 'Trabajadores_max',
    'Tramo_segun_ventas_min': 'Ventas_min',
    'Tramo_segun_ventas_max': 'Ventas_max'
})

# Calcular número de años
agrupado['Numero_de_annos'] = agrupado['Anno_max'] - agrupado['Anno_min'] + 1

# Reset index
agrupado = agrupado.reset_index()

# Mostrar resultado
print(agrupado)


             RUT DV_x_first  COD_SUBTIPO_first  \
0       47003012          7                414   
1       47003969          8                414   
2       50000100          3                311   
3       50000430          4                311   
4       50000510          6                311   
...          ...        ...                ...   
360227  99599800          9                213   
360228  99599810          6                213   
360229  99599830          0                213   
360230  99599850          5                213   
360231  99599860          2                213   

                            RAZON_SOCIAL_first FECHA_INICIO_VIG_first  \
0                  TACONIC  OPPORTUITY FUND LP                   None   
1               RUT CUSTODIO LARRAIN VIAL S A.                   None   
2          FUNDACION ARTURO IRARRAZAVAL CORREA             01-01-1993   
3          SAAVEDRA GALLARDO JAVIER Y HERMANOS             01-01-1993   
4                  TORREJON CASTRO

In [13]:
print(agrupado.columns)
print(agrupado)

Index(['RUT', 'DV_x_first', 'COD_SUBTIPO_first', 'RAZON_SOCIAL_first',
       'FECHA_INICIO_VIG_first', 'FECHA_TG_VIG_first', 'DV_y_first',
       'Razon_social_first', 'Fecha_inicio_actividades_vigente_first',
       'Fecha_termino_giro_first', 'Fecha_primera_inscripcion_ac_first',
       'Tipo_termino_giro_first', 'Tipo_contribuyente_first',
       'Subtipo_contribuyente_first', 'Anno_min', 'Anno_max',
       'Trabajadores_min', 'Trabajadores_max', 'Ventas_min', 'Ventas_max',
       'Numero_de_annos'],
      dtype='object')
             RUT DV_x_first  COD_SUBTIPO_first  \
0       47003012          7                414   
1       47003969          8                414   
2       50000100          3                311   
3       50000430          4                311   
4       50000510          6                311   
...          ...        ...                ...   
360227  99599800          9                213   
360228  99599810          6                213   
360229  99599830  

In [15]:
# Por ejemplo, si quieres filtrar el RUT '12345678-9'
rut_especifico = 50032710

df_rut = agrupado[agrupado['RUT'] == rut_especifico]

# Ver las primeras filas del resultado
print(df_rut.head())


         RUT DV_x_first  COD_SUBTIPO_first  \
91  50032710          3                211   

                          RAZON_SOCIAL_first FECHA_INICIO_VIG_first  \
91  CENTRO DE PERFECCIONAMIENTO TECNICO LTDA             01-01-1993   

   FECHA_TG_VIG_first DV_y_first                        Razon_social_first  \
91               None          3  CENTRO DE PERFECCIONAMIENTO TECNICO LTDA   

   Fecha_inicio_actividades_vigente_first Fecha_termino_giro_first  ...  \
91                             1993-01-01                     None  ...   

   Tipo_termino_giro_first    Tipo_contribuyente_first  \
91                    None  PERSONA JURIDICA COMERCIAL   

      Subtipo_contribuyente_first Anno_min  Anno_max  Trabajadores_min  \
91  SOC. RESPONSABILIDAD LIMITADA     2005      2009                21   

    Trabajadores_max  Ventas_min  Ventas_max  Numero_de_annos  
91                33           7           7                5  

[1 rows x 21 columns]
