# Separar nombres de un archivo .csv con una columna llamada `Name`

Recuerde que para correr cada celda debe: 
1. Dar click dentro de la celda 
2. Usar el comando `Ctrl+Enter` o dar click en la opción _Run_ que aparece arriba.

Asegúrese de correr las celdas en el orden en el que aparecen en este documento.

In [1]:
columna_nombre = 'Name'

---------

Escriba en la casilla de abajo el nombre del archivo .csv que se quiere utilizar, entre comillas (ejemplo: 'test_desaparecidxs.csv').

In [2]:
data_file_path = 'test_desaparecidxs.csv'

In [3]:
import pandas as pd
import re
from copy import deepcopy

In [4]:
df_nombres = pd.read_csv(data_file_path)

In [5]:
def separa_nombres(nombre):
    nombre_limpio = re.sub(r'[^a-zA-Z0-9\u00C0-\u00FF ]', '', nombre) #se quitan caracteres especiales y números
    nombre_limpio = ' '.join(nombre_limpio.strip().split(' '))
    lista_nombre = nombre_limpio.split(' ')
    if len(lista_nombre) > 4:
        nombre1 = lista_nombre[0].lower().capitalize()
        nombre2 = lista_nombre[1].lower().capitalize()
        apellido1 = lista_nombre[-2].lower().capitalize()
        apellido2 = lista_nombre[-1].lower().capitalize()
    elif len(lista_nombre) == 4:
        nombre1 = lista_nombre[0].lower().capitalize()
        nombre2 = lista_nombre[1].lower().capitalize()
        apellido1 = lista_nombre[2].lower().capitalize()
        apellido2 = lista_nombre[3].lower().capitalize()
    elif len(lista_nombre) == 3:
        nombre1 = lista_nombre[0].lower().capitalize()
        nombre2 = ''
        apellido1 = lista_nombre[1].lower().capitalize()
        apellido2 = lista_nombre[2].lower().capitalize()
    elif len(lista_nombre) == 2:
        nombre1 = lista_nombre[0].lower().capitalize()
        nombre2 = ''
        apellido1 = lista_nombre[1].lower().capitalize()
        apellido2 = ''
    elif len(lista_nombre) == 1:
        nombre1 = lista_nombre[0].lower().capitalize()
        nombre2 = ''
        apellido1 = ''
        apellido2 = ''
    
    return nombre1, nombre2, apellido1, apellido2

In [6]:
df_nombres['nombre1'] = df_nombres[columna_nombre].apply(lambda nom: separa_nombres(nom)[0])
df_nombres['nombre2'] = df_nombres[columna_nombre].apply(lambda nom: separa_nombres(nom)[1])
df_nombres['nombre3'] = df_nombres[columna_nombre].apply(lambda nom: separa_nombres(nom)[2])
df_nombres['nombre4'] = df_nombres[columna_nombre].apply(lambda nom: separa_nombres(nom)[3])

Acá se muestra un preview de los datos habiendo añadido las columnas `nombre1`, `nombre2`, `nombre3` y `nombre4`.

In [7]:
df_nombres

Unnamed: 0,Name,Identificación,ID,Edad,ESTADO,Lugar,fecha de desaparición,Sexo,MBU,ORG. que activó el mecanismo,nombre1,nombre2,nombre3,nombre4
0,Adrian Ruiz Mosquera,,,,Ya apareció,NO REPORTA,28 de abril de 2021 10:39,hombre,,,Adrian,,Ruiz,Mosquera
1,ALDAIR CUARTAS NOGUERA,1.005945e+09,C.C.,23.0,Ya apareció,NO REPORTA,30 de abril de 2021 11:15,hombre,,,Aldair,,Cuartas,Noguera
2,ALEJANDRO MUÑOZ RODRIGUEZ,1.005892e+09,C.C.,,Ya apareció,LA LUNA,,hombre,,,Alejandro,,Muñoz,Rodriguez
3,ANDRES MAURICIO POSSO,,,,Ya apareció,Palmira,,hombre,,,Andres,,Mauricio,Posso
4,Anthony Armando Barrio Mejia,,,,Ya apareció,14 DE CALIMA,2 de mayo de 2021 10:44,hombre,,,Anthony,Armando,Barrio,Mejia
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
188,VANESSA NAVIA,,,,sin información,Palmira,,mujer,,,Vanessa,,Navia,
189,VERÓNICA VALENCIA,1.002653e+09,C.C.,,sin información,NO REPORTA,,mujer,,,Verónica,,Valencia,
190,VICTOR MANUEL AGUDELO,,,,sin información,NO REPORTA,1 de mayo de 2021 11:03,hombre,,,Victor,,Manuel,Agudelo
191,WILLIAM JEFFERSON QUIÑONEZ GOMEZ,1.144153e+09,C.C.,,sin información,PORTADA DE LA LIBERTAD / EL ANCLA,,hombre,,,William,Jefferson,Quiñonez,Gomez


In [8]:
df_nombres.to_csv(f'NOMBRES_SEPARADOS-{data_file_path}')

print(f'Archivo exportado en la ruta: NOMBRES_SEPARADOS-{data_file_path}')

Archivo exportado en la ruta: NOMBRES_SEPARADOS-test_desaparecidxs.csv


En este punto se tiene:
1. Un archivo .csv idéntico al de entrada pero con 4 columnas nuevas (`nombre1`, `nombre2`, `nombre3`, `nombre4`) que separan la columna `Name` en 4 partes.
2. La configuración necesaria para buscar duplicados en ciertas columnas.

-----------------
# Busqueda de duplicados

En esta seccion usted puede buscar duplicados en las filas del conjunto de datos, en la siguiente celda seleccione las columnas sobre las cuales quiere encontrar duplicados. 

Debe escribir el nombre de las columnas entre comillas y separadas por coma:

**Ejemplos** 
- Si se quiren buscar duplicados sobre la columna de `nombre1` => `grupo_busqueda = ['nombre1']`
- Si quiere buscar sobre las columnas `Identificacion` y `nombre2` => `grupo_busqueda = ['Identificacion', 'nombre2']`

_Nota: Poner dos columnas implica que se mostrarán aquellos registros que compartan el valor EN LAS DOS COLUMNAS_

In [9]:
grupo_busqueda = ['nombre1', 'nombre2']

In [10]:
df_tmp = deepcopy(df_nombres)
for columna in grupo_busqueda:
    df_tmp = df_tmp[~df_tmp[columna].isna()]
    df_tmp = df_tmp[~df_tmp[columna].eq('')]

La siguiente celda muestra un preview de los datos duplicados, ordenados por la columna que se está analizando. Recuerde que el número del registor aparece a la izquierda y éste le permite modificar el archivo que exportó arriba en caso de encontrar duplicados. 

Estos previews se muestran completos máximos hasta un tamaño de 60 filas, si se tienen más entonces se mostrará con unos puntos suspensivos (`...`) en la mitad y para poder visualizarlo completamente vaya al final de este documento y siga las instrucciones

In [11]:
valores_duplicados = df_tmp[df_tmp[grupo_busqueda].duplicated(keep=False)].sort_values(grupo_busqueda)
valores_duplicados

Unnamed: 0,Name,Identificación,ID,Edad,ESTADO,Lugar,fecha de desaparición,Sexo,MBU,ORG. que activó el mecanismo,nombre1,nombre2,nombre3,nombre4
38,JOSE DAVID MONSALVE ARISMENDY,,,,Ya apareció,NO REPORTA,,hombre,,,Jose,David,Monsalve,Arismendy
123,Jose David Hurtado Moreno,,,,sin información,LA LUNA,,hombre,,,Jose,David,Hurtado,Moreno
168,Nombre en indagación - Mujer afrodescendiente,,,,sin información,NO REPORTA,,mujer,,,Nombre,En,Mujer,Afrodescendiente
169,Nombre en indagación - NNA,,,13.0,sin información,PASO DEL COMERCIO,1 de mayo de 2021 11:11,no identificado,,,Nombre,En,,Nna
170,Nombre en indagación mujer melendez 8M,,,,sin información,MELENDEZ,8 de mayo de 2021 11:01,mujer,,,Nombre,En,Melendez,8m
171,Nombre en indagación persona en melendez 8M,,,,sin información,MELENDEZ,8 de mayo de 2021 11:01,no identificado,,,Nombre,En,Melendez,8m


------
Esta parte es completamente opciones y sólo debe correrla si necesita visualizar completamente el conjunto de datos anterior, para eso lo exportaremos como otro .csv

Para esto debe borrar el símbolo de numeral (`#`) al inicio de la siguiente celda y correrla normalmente

In [12]:
#valores_duplicados.to_csv('VALORES_DUPLICADOS.csv')