In [None]:
import pandas as pd

## *Carga de datos*

En este paso cargamos las tablas que queremos comparar

In [52]:
# Montar Google Drive
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [54]:
# Ruta de las planillas (ajusta según las ubicaciones en tu Drive)
ruta_alumnos = '/content/drive/My Drive/Inscripciones_2025/Planilla_Alumnos.xlsx'
ruta_bienestar = '/content/drive/My Drive/Inscripciones_2025/Planilla_Bienestar.xlsx'

In [55]:
# Cargar las planillas en DataFrames
alumnos_df = pd.read_excel(ruta_alumnos)
bienestar_df = pd.read_excel(ruta_bienestar)

## *Limpieza de datos*

En este paso, buscamos eliminar espacios en las celdas y convertir todo a minúsculas o mayúsculas

In [56]:
# Eliminar espacios iniciales y finales en todas las celdas de 'Apellido' y 'Nombre'
alumnos_df['Apellido'] = alumnos_df['Apellido'].str.strip()
alumnos_df['Nombre'] = alumnos_df['Nombre'].str.strip()

bienestar_df['Apellido'] = bienestar_df['Apellido'].str.strip()
bienestar_df['Nombre'] = bienestar_df['Nombre'].str.strip()

In [57]:
# Convertir todo a minúsculas para evitar problemas de mayúsculas/minúsculas
alumnos_df['Apellido'] = alumnos_df['Apellido'].str.lower()
alumnos_df['Nombre'] = alumnos_df['Nombre'].str.lower()
bienestar_df['Apellido'] = bienestar_df['Apellido'].str.lower()
bienestar_df['Nombre'] = bienestar_df['Nombre'].str.lower()

In [58]:
# Asegurarnos de que las columnas de comparación tengan nombres consistentes
# Por ejemplo: "Apellido", "Nombre" y "Correo"
alumnos_df.columns = alumnos_df.columns.str.strip()
bienestar_df.columns = bienestar_df.columns.str.strip()

# Estudio de datos

In [75]:
# Crear sets con los correos electrónicos
alumnos_set = set(alumnos_df['Correo'])
bienestar_set = set(bienestar_df['Correo'])

# Correos que están en Planilla_Alumnos pero no en Planilla_Bienestar
solo_en_alumnos = alumnos_df[~alumnos_df['Correo'].isin(bienestar_set)]

# Correos que están en Planilla_Bienestar pero no en Planilla_Alumnos
solo_en_bienestar = bienestar_df[~bienestar_df['Correo'].isin(alumnos_set)]

In [76]:
# Limpiar los correos electrónicos (minúsculas y sin espacios)
alumnos_df['Correo'] = alumnos_df['Correo'].str.strip().str.lower()
bienestar_df['Correo'] = bienestar_df['Correo'].str.strip().str.lower()

In [77]:
# Verificar los primeros registros
print("Alumnos solo en Planilla_Alumnos:")
print(solo_en_alumnos.head())

print("Alumnos solo en Planilla_Bienestar:")
print(solo_en_bienestar.head())

Alumnos solo en Planilla_Alumnos:
                     Apellido         Nombre                         Correo
0                      alaniz         yanina      yanina_natali@hotmail.com
1  alvarez de olivera dorrego    juan martin          juanmanox06@gmail.com
4                    arequipa         leonel      leonelarequipa3@gmail.com
5                       arias  candela aylén          candespam53@gmail.com
6                   asselborn       victoria  asselbornvictoria17@gmail.com
Alumnos solo en Planilla_Bienestar:
    Apellido               Nombre                       Correo
3    aramayo       luciano daniel   lucianoaramayo06@gmail.com
4      arias        candela aylén       candearias29@gmail.com
8   betancud       dulce victoria      betancuddulce@gmail.com
13   cabrera       cynthia denise      cabreracyn200@gmail.com
21       cos  jaime daniel flavio  jaimedanielflavio@gmail.com


In [78]:
# Correos que están en Planilla_Alumnos pero no en Planilla_Bienestar
solo_en_alumnos = alumnos_df[~alumnos_df['Correo'].isin(bienestar_set)]

In [79]:
# Correos que están en Planilla_Bienestar pero no en Planilla_Alumnos
solo_en_bienestar = bienestar_df[~bienestar_df['Correo'].isin(alumnos_set)]

In [80]:
# Mostrar todos los resultados
print("Correos solo en Planilla_Alumnos:")
print(solo_en_alumnos)

print("\nCorreos solo en Planilla_Bienestar:")
print(solo_en_bienestar)

Correos solo en Planilla_Alumnos:
                       Apellido         Nombre                         Correo
0                        alaniz         yanina      yanina_natali@hotmail.com
1    alvarez de olivera dorrego    juan martin          juanmanox06@gmail.com
4                      arequipa         leonel      leonelarequipa3@gmail.com
5                         arias  candela aylén          candespam53@gmail.com
6                     asselborn       victoria  asselbornvictoria17@gmail.com
..                          ...            ...                            ...
248                     ferraro   lucas andrés     lucasferraro11@hotmail.com
250                     gamarra           axel        axelgamarra16@gmail.com
256                       ochoa        lorenzo         lorenzolihue@gmail.com
259                paez morales   mara julieta     mara.paezmorales@gmail.com
267                   torrekens        martina        m4r.ssnewonce@gmail.com

[114 rows x 3 columns]

Corre

In [81]:
# Guardar los resultados en archivos Excel si es necesario
solo_en_alumnos.to_excel('solo_en_alumnos_por_correo.xlsx', index=False)
solo_en_bienestar.to_excel('solo_en_bienestar_por_correo.xlsx', index=False)

print("Archivos de salida creados: solo_en_alumnos_por_correo.xlsx y solo_en_bienestar_por_correo.xlsx")

Archivos de salida creados: solo_en_alumnos_por_correo.xlsx y solo_en_bienestar_por_correo.xlsx


In [83]:
from google.colab import files

# Descargar los archivos creados
files.download('solo_en_alumnos_por_correo.xlsx')
files.download('solo_en_bienestar_por_correo.xlsx')

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

# Estudio de dos nuevas tablas


In [84]:
# Cargar las tablas desde los archivos Excel
alumnos_df = pd.read_excel('solo_en_alumnos_por_correo.xlsx')
bienestar_df = pd.read_excel('solo_en_bienestar_por_correo.xlsx')

In [89]:
# Filtrar solo la columna "Apellido" de cada tabla
apellidos_alumnos = alumnos_df[['Apellido']]
apellidos_bienestar = bienestar_df[['Apellido']]

In [91]:
# Comparar los apellidos entre las dos tablas
apellidos_comunes = pd.merge(apellidos_alumnos, apellidos_bienestar, on='Apellido', how='inner')
# Obtener los apellidos comunes como una lista
apellidos_comunes_lista = apellidos_comunes['Apellido'].unique()

# Filtrar los registros en Planilla_Alumnos que tienen apellidos comunes
registros_alumnos_comunes = alumnos_df[alumnos_df['Apellido'].isin(apellidos_comunes_lista)]

# Filtrar los registros en Planilla_Bienestar que tienen apellidos comunes
registros_bienestar_comunes = bienestar_df[bienestar_df['Apellido'].isin(apellidos_comunes_lista)]

# Mostrar los registros con apellidos comunes
print("Registros de Planilla_Alumnos con apellidos comunes:")
print(registros_alumnos_comunes)

print("\nRegistros de Planilla_Bienestar con apellidos comunes:")
print(registros_bienestar_comunes)

Registros de Planilla_Alumnos con apellidos comunes:
              Apellido             Nombre                             Correo
3                arias      candela aylén              candespam53@gmail.com
15              farias             débora            debiifarias06@gmail.com
31   maldonado marcano  gabriel maldonado               gaboel2005@gmail.com
33               merlo             julián           julianmerlo243@gmail.com
39           naumionok          valentina       valentinanaumionok@gmail.com
49           petroccia    gaston federico              zeta_ve1@yahoo.com.ar
50          provenzano                dan      dany_traducing@hotmail.com.ar
53               reyes  gisela jacqueline                  gise8ar@gmail.com
74           fernandez                dan            caubetanabela@gmail.com
77             galarza             adrian  galarza.adrian.ezequiel@gmail.com
94               perla             adrian              c14adrian@hotmail.com
109            ferraro 

In [92]:
# Lista de apellidos a excluir (por ejemplo, los apellidos que ya eliminaste)
apellidos_a_excluir = ['arias', 'farias', 'maldonado marcano','merlo','naumionok','petroccia','provenzano','reyes','galarza','perla','ferraro','torrekens']

In [93]:
# Filtrar las filas en Planilla_Alumnos para excluir los apellidos a eliminar
alumnos_filtrados = alumnos_df[~alumnos_df['Apellido'].isin(apellidos_a_excluir)]
# Filtrar las filas en Planilla_Bienestar para excluir los apellidos a eliminar
bienestar_filtrados = bienestar_df[~bienestar_df['Apellido'].isin(apellidos_a_excluir)]

In [94]:
# Mostrar las tablas filtradas
print("Planilla de Alumnos filtrada:")
print(alumnos_filtrados)

print("\nPlanilla de Bienestar filtrada:")
print(bienestar_filtrados)

# Guardar las tablas filtradas en archivos Excel
alumnos_filtrados.to_excel('solo_en_alumnos_filtrados.xlsx', index=False)
bienestar_filtrados.to_excel('solo_en_bienestar_filtrados.xlsx', index=False)

print("\nArchivos de salida creados: solo_en_alumnos_filtrados.xlsx y solo_en_bienestar_filtrados.xlsx")

Planilla de Alumnos filtrada:
                       Apellido        Nombre                         Correo
0                        alaniz        yanina      yanina_natali@hotmail.com
1    alvarez de olivera dorrego   juan martin          juanmanox06@gmail.com
2                      arequipa        leonel      leonelarequipa3@gmail.com
4                     asselborn      victoria  asselbornvictoria17@gmail.com
5                          baez          eros       baezerosdaniel@gmail.com
..                          ...           ...                            ...
107               bulus peñalva        ariana          ariana.ijme@gmail.com
108            delvalle caceres       soledad          soledaddc17@gmail.com
110                     gamarra          axel        axelgamarra16@gmail.com
111                       ochoa       lorenzo         lorenzolihue@gmail.com
112                paez morales  mara julieta     mara.paezmorales@gmail.com

[102 rows x 3 columns]

Planilla de Bienestar

In [95]:
# Guardar los archivos filtrados (de ejemplo, usando 'solo_en_alumnos_filtrados.xlsx')
alumnos_filtrados.to_excel('solo_en_alumnos_filtrados.xlsx', index=False)
bienestar_filtrados.to_excel('solo_en_bienestar_filtrados.xlsx', index=False)

# Descargar los archivos filtrados
files.download('solo_en_alumnos_filtrados.xlsx')
files.download('solo_en_bienestar_filtrados.xlsx')

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

Hacemos una comparación entre nombre y apellido, luego de filtrar los correos

In [50]:
# Eliminar duplicados en Nombres y Apellidos
duplicados_alumnos = solo_en_alumnos[solo_en_alumnos.duplicated(subset=['Nombre', 'Apellido'], keep=False)]
duplicados_bienestar = solo_en_bienestar[solo_en_bienestar.duplicated(subset=['Nombre', 'Apellido'], keep=False)]

# Mostrar los duplicados encontrados
print("Duplicados en Planilla_Alumnos (Nombre y Apellido):")
print(duplicados_alumnos)

print("\nDuplicados en Planilla_Bienestar (Nombre y Apellido):")
print(duplicados_bienestar)

Duplicados en Planilla_Alumnos (Nombre y Apellido):
Empty DataFrame
Columns: [Apellido, Nombre, Correo]
Index: []

Duplicados en Planilla_Bienestar (Nombre y Apellido):
Empty DataFrame
Columns: [Apellido, Nombre, Correo]
Index: []


In [51]:
# Ver solo los Nombres y Apellidos duplicados
duplicados_alumnos_nombres_apellidos = duplicados_alumnos[['Nombre', 'Apellido']]
duplicados_bienestar_nombres_apellidos = duplicados_bienestar[['Nombre', 'Apellido']]

print("Duplicados Nombres y Apellidos en Planilla_Alumnos:")
print(duplicados_alumnos_nombres_apellidos)

print("\nDuplicados Nombres y Apellidos en Planilla_Bienestar:")
print(duplicados_bienestar_nombres_apellidos)

Duplicados Nombres y Apellidos en Planilla_Alumnos:
Empty DataFrame
Columns: [Nombre, Apellido]
Index: []

Duplicados Nombres y Apellidos en Planilla_Bienestar:
Empty DataFrame
Columns: [Nombre, Apellido]
Index: []


# Hacemos comparación con las columnas "nombre" y "apellido"

In [38]:
# 1. Alumnos que están en Planilla_Alumnos pero no en Planilla_Bienestar
solo_en_alumnos = alumnos_df[
    ~alumnos_df[['Apellido', 'Nombre']].apply(tuple, axis=1).isin(
        bienestar_df[['Apellido', 'Nombre']].apply(tuple, axis=1)
    )
]

In [39]:
# 2. Alumnos que están en Planilla_Bienestar pero no en Planilla_Alumnos
solo_en_bienestar = bienestar_df[
    ~bienestar_df[['Apellido', 'Nombre']].apply(tuple, axis=1).isin(
        alumnos_df[['Apellido', 'Nombre']].apply(tuple, axis=1)
    )
]

In [40]:
# Mostrar los resultados
print("\nAlumnos que están en Planilla_Alumnos pero no en Planilla_Bienestar:")
print(solo_en_alumnos[['Apellido', 'Nombre', 'Correo']])

print("\nAlumnos que están en Planilla_Bienestar pero no en Planilla_Alumnos:")
print(solo_en_bienestar[['Apellido', 'Nombre', 'Correo']])


Alumnos que están en Planilla_Alumnos pero no en Planilla_Bienestar:
                       Apellido       Nombre                       Correo
0                        alaniz       yanina    yanina_natali@hotmail.com
1    alvarez de olivera dorrego  juan martin        juanmanox06@gmail.com
2                        alvira         fran         alvirafran@gmail.com
3                  andrada bovo        belén       andrada.bovo@gmail.com
4                      arequipa       leonel    leonelarequipa3@gmail.com
..                          ...          ...                          ...
260                        pare     valentin  orielvalentin2006@gmail.com
262            pereira gonzalez        david    pereiradavid613@gmail.com
264               sanchez mouzo       melina      melinabelensm@gmail.com
268                      vargas        david       david.vrgs96@gmail.com
270                      zárate        carla       carzarate006@gmail.com

[199 rows x 3 columns]

Alumnos que están

In [34]:
# Opcional: guardar los resultados en nuevos archivos de Excel
solo_en_alumnos.to_excel("Solo_en_Alumnos.xlsx", index=False)
solo_en_bienestar.to_excel("Solo_en_Bienestar.xlsx", index=False)

In [35]:
print("\nLos resultados se guardaron como 'Solo_en_Alumnos.xlsx' y 'Solo_en_Bienestar.xlsx'. Descárgalos abajo.")
files.download("Solo_en_Alumnos.xlsx")
files.download("Solo_en_Bienestar.xlsx")


Los resultados se guardaron como 'Solo_en_Alumnos.xlsx' y 'Solo_en_Bienestar.xlsx'. Descárgalos abajo.


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>