## Separar RUT

Existen RUT que pueden ser ingresado en diversos formatos. A continuacion veremos los más comunes

**Nota**: Los RUT indicados no son necesariamente reales y tampoco buscan confirmar si el DV es el correcto. El objetivo es mostrar como separa el DV y quitar los separadores de miles.

In [None]:
# Importar bibliotecas
import pandas as pd
import re

In [None]:
# Crear DataFrame
df_contable = pd.DataFrame({'RUT_PRINCIPAL':['10.235.359-7', '60.523-9', '14253698-4',
                                             '10256365.3','10.258.258.9', '10253235'],
                            'RUT_PRINCIPAL2':['10.235.380-9', '60.523-k', '14253698-4',
                                             '10256375.1','10.258.258.9', '10253235']})

In [None]:
df_contable

Unnamed: 0,RUT_PRINCIPAL,RUT_PRINCIPAL2
0,10.235.359-7,10.235.380-9
1,60.523-9,60.523-k
2,14253698-4,14253698-4
3,10256365.3,10256375.1
4,10.258.258.9,10.258.258.9
5,10253235,10253235


Por medio de expresiones regulares para seleccionar los elementos que son parte de RUT y los que son parte del DV.

In [None]:
df_contable['RUT_PRINCIPAL'].str.extract(r'(\d{1,2}\.*\d{1,3}\.*\d{3})\-*\.*(\w*)')

Unnamed: 0,0,1
0,10.235.359,7.0
1,60.523,9.0
2,14253698,4.0
3,10256365,3.0
4,10.258.258,9.0
5,10253235,


df_contable
Para adionar el resultado al dataframe, podemos asignarlo con el nombre que deseamos indicar. Para esto usaremos al función `str.extract()`

In [None]:
df_contable[['RUT_PRINCIPAL_MOD','RUT_PRINCIPAL_DV_MOD']] = df_contable['RUT_PRINCIPAL'].str.extract(r'(\d{1,2}\.*\d{1,3}\.*\d{3})\-*\.*(\w*)')

In [None]:
df_contable[['RUT_PRINCIPAL2_MOD','RUT_PRINCIPAL2_DV_MOD']] = df_contable['RUT_PRINCIPAL2'].str.extract(r'(\d{1,2}\.*\d{1,3}\.*\d{3})\-*\.*(\w*)')

In [None]:
df_contable

Unnamed: 0,RUT_PRINCIPAL,RUT_PRINCIPAL2,RUT_PRINCIPAL_MOD,RUT_PRINCIPAL_DV_MOD,RUT_PRINCIPAL2_MOD,RUT_PRINCIPAL2_DV_MOD
0,10.235.359-7,10.235.380-9,10.235.359,7.0,10.235.380,9
1,60.523-9,60.523-k,60.523,9.0,60.523,k
2,14253698-4,14253698-4,14253698,4.0,14253698,4
3,10256365.3,10256375.1,10256365,3.0,10256375,1
4,10.258.258.9,10.258.258.9,10.258.258,9.0,10.258.258,9
5,10253235,10253235,10253235,,10253235,


Luego de esto, procederemos a quitar los puntos a las nuevas columnas creadas usando la función `replace()`

In [None]:
df_contable['RUT_PRINCIPAL_MOD'] = [c.replace('.', '') for c in df_contable['RUT_PRINCIPAL_MOD']]

In [None]:
df_contable['RUT_PRINCIPAL2_MOD'] = [c.replace('.', '') for c in df_contable['RUT_PRINCIPAL2_MOD']]

In [None]:
df_contable

Unnamed: 0,RUT_PRINCIPAL,RUT_PRINCIPAL2,RUT_PRINCIPAL_MOD,RUT_PRINCIPAL_DV_MOD,RUT_PRINCIPAL2_MOD,RUT_PRINCIPAL2_DV_MOD
0,10.235.359-7,10.235.380-9,10235359,7.0,10235380,9
1,60.523-9,60.523-k,60523,9.0,60523,k
2,14253698-4,14253698-4,14253698,4.0,14253698,4
3,10256365.3,10256375.1,10256365,3.0,10256375,1
4,10.258.258.9,10.258.258.9,10258258,9.0,10258258,9
5,10253235,10253235,10253235,,10253235,


Finalmente, realizaremos una función generalizadora de esto a fin de aplicar las modificaciones a todas las columnas que inicien con la palabra **RUT**

In [None]:
# Crear DataFrame
df_contable = pd.DataFrame({'RUT_PRINCIPAL':['10.235.359-7', '60.523-9', '14253698-4',
                                             '10256365.3','10.258.258.9', '10253235'],
                            'RUT_PRINCIPAL2':['10.235.380-9', '60.523-k', '14253698-4',
                                             '10256375.1','10.258.258.9', '102532355']})

In [None]:
def fn_separa_rut(df):
  # Seleccionar columnas cuyo nombre comiencen con RUT
  col_rut = list(df.columns[df.columns.str.startswith("RUT")])
  # Pasar a mayúsculas
  df[col_rut] = df[col_rut].apply(lambda x: x.str.upper())
  for col in col_rut:
    # Generar nuevas columnas
    df[[col+'_MOD', col+'_DV_MOD']] = df[col].str.extract(r'(\d{1,2}\.*\d{1,3}\.*\d{3})\-*\.*(\w*)')
    # Reemplazar puntos
    df[col+'_MOD'] = [c.replace('.', '') for c in df[col+'_MOD']]
  return df

In [None]:
df_contable = fn_separa_rut(df_contable)

In [None]:
df_contable

Unnamed: 0,RUT_PRINCIPAL,RUT_PRINCIPAL2,RUT_PRINCIPAL_MOD,RUT_PRINCIPAL_DV_MOD,RUT_PRINCIPAL2_MOD,RUT_PRINCIPAL2_DV_MOD
0,10.235.359-7,10.235.380-9,10235359,7.0,10235380,9
1,60.523-9,60.523-K,60523,9.0,60523,K
2,14253698-4,14253698-4,14253698,4.0,14253698,4
3,10256365.3,10256375.1,10256365,3.0,10256375,1
4,10.258.258.9,10.258.258.9,10258258,9.0,10258258,9
5,10253235,102532355,10253235,,10253235,5
