## Calidad de datos
Es el proceso de evaluación y mantenimiento de la precisión, completitud, consistencia y validez de la información para garantizar su confiabilidad en el análisis y la toma de decisiones



In [None]:
import pandas as pd

#Datos del dataframe
datos = {'Producto': ['Producto A', 'Producto B', 'Producto C'],
         'Precio': [10000, -5000, None]
         }

#Crear un dataframe
df = pd.DataFrame(datos)
df.head()
#Funcion normal que los precios sean correctos
def validar_precio(x):
   if pd.notnull(x) and x>=0:
     return 'Válido'
   else:
     return'Inválido'

df['Validación Precio'] = df['Precio'].apply(validar_precio)

#Función anonima
df['Validación Precio'] = df['Precio'].apply(lambda x: 'Válido' if pd.notnull(x) and x >= 0 else 'Invalido' )

print(df)

     Producto   Precio Validación Precio
0  Producto A  10000.0            Válido
1  Producto B  -5000.0          Invalido
2  Producto C      NaN          Invalido


## Integridad de datos
Es el principio que garantiza la exactitud y consistencia de la información almacenada en una base de datos, evitando errores y redundancias.

In [None]:
#datos con duplicados
clientes={'IDCliente':[1,2,2,3,2],
          'Nombre':['Ana','Luis','Luis','Marta','Luis']}

#Convertir mi diccionario en un dataframe
df_clientes=pd.DataFrame(clientes)

#Identificar los duplicados
duplicados=df_clientes[df_clientes.duplicated('IDCliente', keep="first")]
total_duplicados= df_clientes.duplicated('IDCliente').sum()
print(duplicados)
print(f"El total de registros duplicados en el dataframe es: ",total_duplicados)
#df_clientes.head()

   IDCliente Nombre
2          2   Luis
4          2   Luis
El total de registros duplicados en el dataframe es:  2


## Seguridad de datos
Es el conjunto de medidas que protegen la información contra accesos no autorizados o alteraciones, garantizando su confidencialidad e integridad.

In [None]:
from cryptography.fernet import Fernet

# Generar una clave de cifrado aleatoria
key = Fernet.generate_key()

# Crear un objeto Fernet utilizando la clave generada
cipher_suite = Fernet(key)

# Definir los datos sensibles a proteger
datos_sensibles = "1234-5678-91011121".encode()

# Ciframos los datos
datos_encriptados = cipher_suite.encrypt(datos_sensibles)

# Desencriptar los datos cifrados
datos_desencriptados = cipher_suite.decrypt(datos_encriptados)

# Mostrar los resultados
print(key)
print("Datos Encriptados:", datos_encriptados)
print("Datos Desencriptados:", datos_desencriptados.decode())


b'un0mJ4WwYg5BXWZH4vKyp1HPGGlIBtNAz7BS16ks2Jc='
Datos Encriptados: b'gAAAAABn5E_kmgk_Pf2X-IuQdAFjr8HZlUFsMmzGzeek0UGgJlbw1encmwXDmfKSVFukKkHcGTZfy0XARwf6SIV_tIVyzdYIPfGk2wsYJfmcpkObGZgpw0E='
Datos Desencriptados: 1234-5678-91011121


**Trazabilidad y auditoría de datos**

Rastrear el origen y modificación de los datos

In [None]:
import datetime, pytz
from zoneinfo import ZoneInfo
#Crear una lista vacia
auditoria = []

zona_horaria_colombia = ZoneInfo('America/Bogota')
zona_horaria_colombia = pytz.timezone('America/Bogota')

#Crear una función para tomar la hora de de la modificación y decir que cambio se realizo
def registrar_auditoria(usuario, cambio):
   hora = datetime.datetime.now(tz=zona_horaria_colombia).strftime("%Y-%m-%d %H:%M:%S")
   auditoria.append({'Usuario': usuario, 'Cambio': cambio, 'Hora': hora})

#Usamos la función registrar auditoria
registrar_auditoria('usuario1', 'Actualización de precio en Producto A')
registrar_auditoria('usuario2', 'Eliminación de Producto B')
print(auditoria)

[{'Usuario': 'usuario1', 'Cambio': 'Actualización de precio en Producto A', 'Hora': '2025-03-26 14:09:29'}, {'Usuario': 'usuario2', 'Cambio': 'Eliminación de Producto B', 'Hora': '2025-03-26 14:09:29'}]


**Backups y Recuperación**
Realizar copias de seguridad es importante para prevenir pérdidas en caso de fallas o incidentes.

In [None]:
#Ejemplo conceptual para guardar un backup de un Dataframe
df.to_csv('backup_ventas.csv')
'backup_ventas.csv'

'backup_ventas.csv'

#Ejemplo

In [None]:
import pandas as pd

#Datosoriginales
data={'Nombre':['Juan','Ana','Pedro','María','Luis','Carla','José', 'Patricia','Raúl','Sergio',
                'Manuel','Camila','Rosa','Pablo','Julia','Diana','Tomás', 'Elisa','Mario','Clara'],

      'Edad':[28,34,None,45,38,34,42,None,31,29,40,33,None,39,36,None,41,25,37,44],

      'Salario':['3000','4000','4500','cincomil','5000','4000','6000','4500',None,'3200',
                 '7000',None,'4700',None,'5200','cincomil','6800',None,'5100','5400'],

      'Puesto':['Analista','Gerente',None,'Gerente','Analista','Desarrollador','Ingeniero',
                'Gerente','Analista','Ingeniero','Director','Gerente','Ingeniero','Analista','Director',
                'Analista','Ingeniero','Desarrollador','Analista','Gerente'],

      'FechaIngreso': ['2021-01-15', '2020/03/12', '2022-07-01', '2021/12/01', None, '2020-03-12','2021-06-15',
                       '2019/09/25', '2022/01/10',None, '2018-08-22', '2020/02/15', '2021/05/30', '2019-12-15',
                       '2018/05/25','2020-01-12','2021-10-25','2022/04/14',None,'2019/11/21']}

df=pd.DataFrame(data)
print(df)

      Nombre  Edad   Salario         Puesto FechaIngreso
0       Juan  28.0      3000       Analista   2021-01-15
1        Ana  34.0      4000        Gerente   2020/03/12
2      Pedro   NaN      4500           None   2022-07-01
3      María  45.0  cincomil        Gerente   2021/12/01
4       Luis  38.0      5000       Analista         None
5      Carla  34.0      4000  Desarrollador   2020-03-12
6       José  42.0      6000      Ingeniero   2021-06-15
7   Patricia   NaN      4500        Gerente   2019/09/25
8       Raúl  31.0      None       Analista   2022/01/10
9     Sergio  29.0      3200      Ingeniero         None
10    Manuel  40.0      7000       Director   2018-08-22
11    Camila  33.0      None        Gerente   2020/02/15
12      Rosa   NaN      4700      Ingeniero   2021/05/30
13     Pablo  39.0      None       Analista   2019-12-15
14     Julia  36.0      5200       Director   2018/05/25
15     Diana   NaN  cincomil       Analista   2020-01-12
16     Tomás  41.0      6800   

#### Paso 1: Identificar y contar valores faltantes  


In [None]:
#Sumar los valores faltantes
valores_faltantes = df.isnull().sum()

#Mostrar datos
print("Valores faltantes por columna:")
print(valores_faltantes)

Valores faltantes por columna:
Nombre          0
Edad            4
Salario         4
Puesto          0
FechaIngreso    3
dtype: int64


#### Paso 2: Verificar el formato de 'Salario'

In [None]:
# Primero, reemplazamos los valores None con una cadena vacía para poder procesarlos
df['Salario'] = df['Salario'].fillna('')

# Verificar formato de 'Salario'
salarios_incorrectos = df[~df['Salario'].str.replace('[^0-9]', '', regex=True).str.isdigit()]

#Mostrar datos
print("\nSalarios con formato incorrecto:")
print(salarios_incorrectos)


Salarios con formato incorrecto:
    Nombre  Edad   Salario         Puesto FechaIngreso
3    María  45.0  cincomil        Gerente   2021/12/01
8     Raúl  31.0                 Analista   2022/01/10
11  Camila  33.0                  Gerente   2020/02/15
13   Pablo  39.0                 Analista   2019-12-15
15   Diana   NaN  cincomil       Analista   2020-01-12
17   Elisa  25.0            Desarrollador   2022/04/14


#### Paso 3: Validar y estandarizar 'FechaIngreso' a formato YYYY-MM-DD

In [None]:
#convertir FechaIngreso a tipo datetime
df['FechaIngreso']= pd.to_datetime(df['FechaIngreso'], errors='coerce', format='%Y-%m-%d')

#Mostrar datos
print("\nDatos después de estandarizar 'FechaIngreso':")
print(df['FechaIngreso'])


Datos después de estandarizar 'FechaIngreso':
0    2021-01-15
1           NaT
2    2022-07-01
3           NaT
4           NaT
5    2020-03-12
6    2021-06-15
7           NaT
8           NaT
9           NaT
10   2018-08-22
11          NaT
12          NaT
13   2019-12-15
14          NaT
15   2020-01-12
16   2021-10-25
17          NaT
18          NaT
19          NaT
Name: FechaIngreso, dtype: datetime64[ns]


#### Paso 4: Verificar empleados con información faltante en "Puesto" y "Salario"

In [None]:
# Filtrar empleados con información faltante en 'Salario' o 'Puesto'
empleados_faltantes = df[(df['Salario'] == '') | (df['Puesto'].isnull())]

# Mostrar resultados
print("\nEmpleados con información faltante en 'Puesto' o 'Salario':")
print(empleados_faltantes)


Empleados con información faltante en 'Puesto' o 'Salario':
    Nombre  Edad Salario         Puesto FechaIngreso
2    Pedro   NaN    4500           None   2022-07-01
8     Raúl  31.0               Analista          NaT
11  Camila  33.0                Gerente          NaT
13   Pablo  39.0               Analista   2019-12-15
17   Elisa  25.0          Desarrollador          NaT


# Laboratorio

Cargar el dataframe del laba con Pandas y usar funciones isnull(), duplicated(), y
value_counts() sobre la columna “City”.

In [None]:
#Cargar el dataframe
