In [None]:
import pandas as pd

datosEjemplo1 = {
    'ID': [101, 102, 103, 104, 105],
    'Nombre': ['Juan', 'Ana', None, 'Pedro', 'Maria'],
    'Edad': [25, None, 30, 40, None],
    'Ciudad': ['Bogotá', 'Medellín', 'Cali', None, 'Barranquilla']
}

dfEjemplo1 = pd.DataFrame(datosEjemplo1)


In [None]:
import numpy as np

datosEjemplo2 = {
    'ID': [201, 202, 203, 204, 205],
    'Nombre': ['Carlos', 'Diana', np.nan, 'Luis', 'Sofia'],
    'Edad': [np.nan, 28, 35, np.nan, 45],
    'Ciudad': ['Manizales', np.nan, 'Cartagena', 'Bucaramanga', 'Cúcuta']
}

dfEjemplo2 = pd.DataFrame(datosEjemplo2)


## Código 1 - Uso de iterrows()
Este código recorre el DataFrame fila por fila usando iterrows() y verifica si alguna celda contiene un valor faltante (NaN o None). Si encuentra un valor faltante, agrega el índice de esa fila a una lista y luego devuelve el DataFrame filtrado con solo esas filas.

- iterrows(): Permite recorrer las filas del DataFrame como pares (index, fila), donde fila es una serie de Pandas con los valores de la fila actual.
- valor != valor: En Python, los valores NaN no son iguales a sí mismos, por lo que esta comparación permite detectarlos.
- break: Se usa para salir del bucle interno al encontrar el primer valor NaN en una fila, evitando comparaciones innecesarias.

Observacion: iterrows() es lento en comparación con otros métodos porque convierte cada fila en una serie de Pandas, lo que agrega sobrecarga.

In [None]:
def encontrarValoresFaltantesIterrows(df):
    """
    Identifica filas con valores faltantes recorriendo con iterrows().
    """
    filasConNulos = []

    for index, fila in df.iterrows():
        for valor in fila:
            if valor != valor:  # En Python, NaN no es igual a sí mismo
                filasConNulos.append(index)
                break  # Pasar a la siguiente fila si se encuentra un NaN

    return df.loc[filasConNulos]


print("Resultados con dfEjemplo1:")
print(encontrarValoresFaltantesIterrows(dfEjemplo1))

print("\nResultados con dfEjemplo2:")
print(encontrarValoresFaltantesIterrows(dfEjemplo2))


## Código 2 - Uso de iloc con índices

Recorre el DataFrame utilizando índices numéricos en lugar de iterrows(). Se accede directamente a cada celda mediante iloc[i, j], detectando valores NaN con la misma lógica (valor != valor). Si se encuentra un NaN, se agrega la fila a la lista de resultados.


- range(len(df)): Permite recorrer las filas usando índices numéricos.
- iloc[i, j]: Accede a la celda específica en la posición [i, j] del DataFrame.
- break: Se usa para salir del bucle interno una vez que se detecta un NaN en la fila.

Observación: Más rápido que iterrows(), ya que evita la conversión de filas en series de Pandas.


In [None]:
def encontrarValoresFaltantesIndices(df):
    """
    Encuentra filas con valores faltantes recorriendo índices en lugar de iterrows().
    """
    filasConNulos = []

    for i in range(len(df)):
        for j in range(len(df.columns)):
            if df.iloc[i, j] != df.iloc[i, j]:  # Comparación de NaN
                filasConNulos.append(i)
                break  # Si se encuentra un NaN, se agrega la fila y se pasa a la siguiente

    return df.iloc[filasConNulos]


print("Resultados con dfEjemplo1:")
print(encontrarValoresFaltantesIndices(dfEjemplo1))

print("\nResultados con dfEjemplo2:")
print(encontrarValoresFaltantesIndices(dfEjemplo2))


## Código 3 - Uso de máscara booleana con listas por comprensión

Crea una matriz booleana (lista de listas) donde cada celda indica si hay un NaN. Luego, usa enumerate() para extraer los índices de las filas con valores faltantes y filtra el DataFrame usando iloc.


- df.to_numpy(): Convierte el DataFrame en una matriz NumPy para mejorar el rendimiento en comparación con iloc.
- Lista por comprensión: Se usa para recorrer el array y generar la matriz booleana en una sola línea:
    mascaraNulos = [[valor != valor for valor in fila] for fila in df.to_numpy()]
- enumerate(): Se usa para obtener el índice de las filas donde hay True en la máscara booleana.
- any(fila): Verifica si al menos un valor de la fila es True (es decir, tiene un NaN).

Observación: Más eficiente que los métodos anteriores porque usa operaciones vectorizadas con NumPy.


In [None]:
def encontrarValoresFaltantesMascara(df):
    """
    Identifica filas con valores faltantes utilizando una máscara booleana personalizada.
    """
    mascaraNulos = [[valor != valor for valor in fila] for fila in df.to_numpy()]
    filasConNulos = [i for i, fila in enumerate(mascaraNulos) if any(fila)]

    return df.iloc[filasConNulos]


print("Resultados con dfEjemplo1:")
print(encontrarValoresFaltantesMascara(dfEjemplo1))

print("\nResultados con dfEjemplo2:")
print(encontrarValoresFaltantesMascara(dfEjemplo2))


## Código 4 - Uso de listas y tolist()

Convierte el DataFrame en una lista de listas (df.values.tolist()) y luego recorre la lista con bucles anidados. Si encuentra un NaN, agrega el índice de la fila a la lista de resultados.


- df.values.tolist(): Convierte el DataFrame en una lista de listas para un acceso más rápido.
- Bucle for anidado: Recorre la lista externa (filas) y luego los elementos internos (columnas).
- break: Se usa para salir del bucle interno al encontrar un NaN.

Observacion: Menos eficiente en grandes conjuntos de datos en comparación con el uso de NumPy.

In [None]:
def encontrarValoresFaltantesLista(df):
    """
    Identifica filas con valores faltantes recorriendo el DataFrame convertido en lista.
    """
    filasConNulos = []
    datosLista = df.values.tolist()  # Convertir el DataFrame en lista de listas

    for i in range(len(datosLista)):
        for j in range(len(datosLista[i])):
            if datosLista[i][j] != datosLista[i][j]:  # Comparación de NaN
                filasConNulos.append(i)
                break  # Si se encuentra un NaN, se pasa a la siguiente fila

    return df.iloc[filasConNulos]


print("Resultados con dfEjemplo1:")
print(encontrarValoresFaltantesLista(dfEjemplo1))

print("\nResultados con dfEjemplo2:")
print(encontrarValoresFaltantesLista(dfEjemplo2))
