<a href="https://colab.research.google.com/github/yuneidy1703-png/Analisis-datos-fac-equipo-Yun/blob/main/Reportes/Calidad_de_datos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Calidad de Datos**

**Responsabilidades:**
* Identificar datos faltantes y errores
* Proponer estrategias de limpieza
* Documentar problemas de calidad

In [1]:
# calidad_datos.py
import pandas as pd
import matplotlib.pyplot as plt

In [2]:
#Conectar a drive
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [3]:
# Leer los datos
df = pd.read_excel('/content/drive/MyDrive/Python/JEFAB_2024.xlsx')

In [4]:
# Explorar estructura básica
print("=== INFORMACIÓN GENERAL ===")
print(f"Total de registros: {len(df)}")
print(f"Total de columnas: {len(df.columns)}")

=== INFORMACIÓN GENERAL ===
Total de registros: 6423
Total de columnas: 231


# **Preguntas a responder:**

1. ¿Qué columnas tienen más datos faltantes?
2. ¿Hay registros duplicados?
3. ¿Qué problemas de encoding se detectan?

# **1. ¿Qué columnas tienen más datos faltantes?**

In [7]:
print("=== ANÁLISIS DE DATOS FALTANTES ===")
missing_data = df.isnull().sum()
missing_percent = (missing_data / len(df)) * 100
print("Top 10 columnas con más datos faltantes:")
missing_info = pd.DataFrame({
'Columna': missing_data.index,
'Datos_Faltantes': missing_data.values,
'Porcentaje': missing_percent.values
}).sort_values('Datos_Faltantes', ascending=False)
print(missing_info.head(10))


=== ANÁLISIS DE DATOS FALTANTES ===
Top 10 columnas con más datos faltantes:
                                   Columna  Datos_Faltantes  Porcentaje
213  NUMERO_PERSONAS_APORTE_SOSTENIMIENTO2             3928   61.155223
212               NUMERO_HABITAN_VIVIENDA2             3808   59.286938
31                            NUMERO_HIJOS             3217   50.085630
32                          HIJOS_EN_HOGAR             3200   49.820956
216                       EDAD_RANGO_PADRE             1939   30.188385
17                              EDAD_PADRE             1939   30.188385
215                       EDAD_RANGO_MADRE              889   13.840884
13                              EDAD_MADRE              885   13.778608
7                                    EDAD2               13    0.202398
214                             EDAD_RANGO               13    0.202398


Esto indica que el mayor problema de completitud se concentra en variables de composición familiar y condiciones del hogar, lo cual puede afectar la representatividad en análisis sociodemográficos si no se realiza imputación o un manejo adecuado de los nulos.

Recomedaciones : Las variables con más de un 50% de faltantes requieren un análisis crítico; en algunos casos será mejor excluirlas segun su utilidad. En cambio, las variables de edad y número de hijos podrían beneficiarse de imputaciones condicionales o recodificación en categorías especiales, dependiendo del contexto de análisis.

# **2. ¿Hay registros duplicados?**



In [12]:
# Análisis de duplicados
print(f"\n=== ANÁLISIS DE DUPLICADOS ===")
if n_duplicados > 0:
    print("Se recomienda eliminarlos para evitar distorsiones.")
else:
    print("No se encontraron registros duplicados.")
print(f"Registros duplicados: {df.duplicated().sum()}")


=== ANÁLISIS DE DUPLICADOS ===
No se encontraron registros duplicados.
Registros duplicados: 0


Esto significa que no existen filas repetidas que nos puedan generar sesgos o inflar frecuencias en posteriores análisis estadísticos

# **3. ¿Qué problemas de encoding se detectan?**

In [14]:
# Análisis de tipos de datos
print(f"\n=== TIPOS DE DATOS ===")
print(df.dtypes.value_counts())
# Identificar columnas problemáticas
print(f"\n=== COLUMNAS CON CARACTERES ESPECIALES ===")
problematic_columns = [col for col in df.columns if 'Ã' in col or 'â' in col]
print(f"Columnas con encoding problemático: {len(problematic_columns)}")
for col in problematic_columns[:5]:
    print(f" - {col}")


=== TIPOS DE DATOS ===
int64      153
object      66
float64     12
Name: count, dtype: int64

=== COLUMNAS CON CARACTERES ESPECIALES ===
Columnas con encoding problemático: 0


La base está conformada principalmente por:

* 153 columnas de tipo entero (int64)
* 66 columnas categóricas (object)
* 12 columnas numéricas decimales (float64)

Predominan las variables enteras y categóricas esto refleja que gran parte de la información corresponde a conteos y clasificaciones (edad, hijos, rangos, etc.), lo cual es consistente con bases de encuestas sociodemográficos.