<a href="https://colab.research.google.com/github/bonillahermes/Data_Science_Projects/blob/main/DataCleaning.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Hermes Yate Bonilla
**Data Scientist**
---

**Contact:**
- **Email:** [bonillahermes@gmail.com](mailto:bonillahermes@gmail.com)
- **LinkedIn:** [linkedin.com/in/bonillahermes](https://www.linkedin.com/in/bonillahermes/)
- **GitHub:** [github.com/bonillahermes](https://github.com/bonillahermes)
- **Webpage:** [bonillahermes.com](https://bonillahermes.com/)
---

#Limpieza de datos

### Descripción de los Problemas y Soluciones en el Dataset

1. **Valores Nulos en 'City' y 'State'**
   - **Descripción del problema**: La columna `City` tenía valores nulos y la columna `State` también tenía algunos valores nulos.
   - **Cómo se ha detectado**: Mediante el uso de `data.info()`, que muestra el recuento de valores no nulos en cada columna.
   - **Por qué es un problema**: Los valores nulos pueden causar errores en el análisis y en ciertas operaciones de datos.
   - **Ejemplo del dataset**: Cualquier registro donde `City` o `State` sean nulos.
   - **Solución adoptada**: Imputación de valores nulos con el valor 'Desconocido'.
   - **Justificación**: La imputación mantiene la integridad del dataset y permite realizar análisis sin interrupciones por falta de datos.

2. **Columna 'Range' Vacía**
   - **Descripción del problema**: La columna `Range` estaba completamente vacía sin valores no nulos.
   - **Cómo se ha detectado**: Observando el recuento de valores no nulos mediante `data.info()`.
   - **Por qué es un problema**: Una columna completamente vacía no aporta información y ocupa espacio innecesario.
   - **Ejemplo del dataset**: La columna `Range` entera.
   - **Solución adoptada**: Eliminar la columna `Range`.
   - **Justificación**: Eliminar una columna completamente vacía reduce la complejidad del dataset y mejora la eficiencia del almacenamiento y procesamiento.

3. **Inconsistencia en 'OriginalCrimeTypeName'**
   - **Descripción del problema**: Presencia de valores numéricos, alfanuméricos y palabras incompletas en `OriginalCrimeTypeName`.
   - **Cómo se ha detectado**: Al revisar los valores únicos y ejemplos específicos de esta columna.
   - **Por qué es un problema**: Esto podría indicar errores de entrada de datos o falta de estandarización en la categorización de los crímenes.
   - **Ejemplo del dataset**: Valores como "500E", "917/811", o "JO".
   - **Solución adoptada**: Reemplazo de valores numéricos, alfanuméricos y palabras cortas con 'Desconocido' y normalización a mayúsculas.
   - **Justificación**: Esto asegura consistencia y claridad en la categorización de los tipos de crimen, mejorando la calidad y uniformidad de los datos para análisis futuros.

4. **Registros Duplicados**
   - **Descripción del problema**: Posible presencia de registros duplicados en el dataset.
   - **Cómo se ha detectado**: Al realizar una comprobación de duplicados en el dataset.
   - **Por qué es un problema**: Los duplicados pueden distorsionar el análisis y llevar a conclusiones erróneas.
   - **Ejemplo del dataset**: Cualquier par de filas idénticas en el dataset.
   - **Solución adoptada**: Eliminación de registros duplicados.
   - **Justificación**: Esto garantiza que cada registro en el dataset sea único, lo que es crucial para la precisión del análisis de datos.

5. **Formato y Separación de Fecha y Hora en 'OffenseDate', 'CallTime' y 'CallDateTime'**
   - **Descripción del problema**: Las columnas `OffenseDate`, `CallTime` y `CallDateTime` tienen formatos de fecha y hora mezclados que podrían no ser ideales para el análisis.
   - **Cómo se ha detectado**: Al inspeccionar las columnas, se observó que las fechas y las horas estaban combinadas en una sola columna o en formatos que no facilitan el análisis.
   - **Por qué es un problema**: Tener la fecha y la hora en la misma columna o en formatos no estándar dificulta la realización de análisis basados en tiempo y fecha.
   - **Ejemplo del dataset**: Valores en `CallDateTime` como '2016-04-01T12:04:00', donde la fecha y la hora están combinadas.
   - **Solución adoptada**:
     - Convertir `OffenseDate` a formato de fecha y extraer la hora en una nueva columna `OffenseTime`.
     - Convertir `CallDateTime` a formato de fecha y hora, luego separar en dos columnas: `CallDate` y `CallTime`.
     - Eliminar la columna original `CallDateTime` después de la separación.
   - **Justificación**: Separar las fechas y las horas en columnas distintas permite un análisis más fácil y flexible de los datos temporales. La estandarización del formato mejora la coherencia y la eficiencia en el manejo de los datos.

6. **Eliminación de la Columna 'OffenseTime'**
   - **Descripción del problema**: La columna `OffenseTime` solo contenía ceros, lo que indica que no proporcionaba información útil.
   - **Cómo se ha detectado**: Al realizar la conversión y separación de la columna `OffenseDate`, se observó que la columna `OffenseTime` generada solo contenía valores cero.
   - **Por qué es un problema**: Una columna que solo contiene un valor único (en este caso, cero) no aporta valor analítico y puede ser engañosa durante el análisis de datos.
   - **Ejemplo del dataset**: La columna `OffenseTime` entera, donde todos los registros eran cero.
   - **Solución adoptada**: Eliminar la columna `OffenseTime` del dataset.
   - **Justificación**: Eliminar columnas que no aportan información útil reduce la complejidad del dataset, mejora la claridad y evita confusiones durante el análisis de datos. Además, ayuda a optimizar el uso de recursos de memoria y procesamiento.




## Preliminares

In [None]:
import pandas as pd
import numpy as np

In [None]:
from google.colab import drive

# Monta tu Google Drive
drive.mount('/content/drive')

## Cargar Base de Datos

In [None]:
# Ruta del archivo Excel en un Google Drive
ruta_archivo = '/content/drive/MyDrive/Bases/data_act_01.csv'

# Cargar el archivo Excel en un DataFrame de Pandas
data = pd.read_csv(ruta_archivo)
data = pd.read_csv(ruta_archivo, sep=';')

# Mostrar las primeras filas para entender la estructura
data.head()

## Información Adicional del Dataset

In [None]:
# Información general sobre el DataFrame
info = data.info()

## Análisis de Valores Nulos

In [None]:
# Valores nulos
valores_nulos = data.isnull().sum()
valores_nulos

In [None]:
# Imputar valores nulos
# Aquí estoy asumiendo que queremos llenar los valores nulos de 'City' y 'State' con una cadena 'Desconocido'
data['City'].fillna('Desconocido', inplace=True)
data['State'].fillna('Desconocido', inplace=True)

## Normalizar Datos

In [None]:
# Normalizar datos
# Convertir a mayúsculas algunas columnas para mantener la consistencia
columns_to_normalize = ['OriginalCrimeTypeName', 'Disposition', 'Address', 'City', 'State', 'AddressType']
data[columns_to_normalize] = data[columns_to_normalize].apply(lambda x: x.str.upper())

## Limpiar Columnas

In [None]:
# Función para limpiar la columna 'OriginalCrimeTypeName'
def clean_crime_type_name(value):
    if isinstance(value, str):
        if value.isdigit() or len(value) < 3 or '/' in value:
            return 'Desconocido'
        else:
            return value.upper()
    return value

# Aplicar la función de limpieza a 'OriginalCrimeTypeName'
data['OriginalCrimeTypeName'] = data['OriginalCrimeTypeName'].apply(clean_crime_type_name)

## Eliminar Variable Sin Asignaciones

In [None]:
# Eliminar la columna 'Range'
data.drop('Range', axis=1, inplace=True)

## Eliminar Duplicados

In [None]:
# Contar el número de filas antes de eliminar duplicados
num_rows_before = data.shape[0]
print(num_rows_before)

# Eliminar duplicados
data.drop_duplicates(inplace=True)

# Contar el número de filas después de eliminar duplicados
num_rows_after = data.shape[0]
print(num_rows_after)

# Calcular el número de filas duplicadas eliminadas
num_duplicates_removed = num_rows_before - num_rows_after

print(f"Número de filas duplicadas eliminadas: {num_duplicates_removed}")

## Convertir y Separar Variables

In [None]:
# Convertir y separar las columnas de fecha y hora
data['OffenseDate'] = pd.to_datetime(data['OffenseDate']).dt.date
data['OffenseTime'] = pd.to_datetime(data['OffenseDate']).dt.time
data['CallDateTime'] = pd.to_datetime(data['CallDateTime'])
data['CallDate'] = data['CallDateTime'].dt.date
data['CallTime'] = data['CallDateTime'].dt.time
data.drop('CallDateTime', axis=1, inplace=True)

# Guardar Base de Datos

In [None]:
# Guardar los datos limpios en un nuevo archivo CSV
data.to_csv('data_cleaned.csv', index=False)

# **Guardar en Formato JSON**

In [None]:
import pandas as pd
import json

# Cargar y limpiar los datos (asumiendo que las transformaciones ya se han realizado)
data_cleaned = pd.read_csv('data_cleaned.csv')

# Convertir cada fila del DataFrame a un documento JSON
json_data = data_cleaned.apply(lambda x: x.to_json(), axis=1)

# Guardar los datos JSON en un archivo (opcional)
with open('data_cleaned.json', 'w') as file:
    file.write(json_data.to_json(orient='records'))

# Visualizar los primeros documentos JSON como ejemplo
print(json_data.head())


# Metodología de Limpieza de Datos

Según lo observado en el dataset, se propone la siguiente metodología:


1. **Evaluación Inicial del Dataset**:
   - Realizar una revisión preliminar para entender la estructura, dimensiones y tipos de datos (numéricos, textuales, fechas, etc.).
   - Identificar formatos de archivo y herramientas necesarias para manipular los datos (por ejemplo, hojas de cálculo, bases de datos, software de análisis de datos).

2. **Corrección de Formatos y Delimitadores**:
   - Verificar y ajustar, si es necesario, los delimitadores y formatos de archivo para garantizar que los datos estén correctamente estructurados y accesibles.

3. **Tratamiento de Valores Faltantes o Nulos**:
   - Identificar columnas con valores faltantes o nulos.
   - Decidir sobre la imputación o eliminación de estos valores basándose en el contexto y relevancia para el análisis.

4. **Normalización de Datos Textuales**:
   - Estandarizar textos para mantener la consistencia (por ejemplo, unificar mayúsculas/minúsculas, corregir errores tipográficos).
   - Unificar términos y categorías similares para evitar duplicidades.

5. **Manejo de Datos Atípicos o Anómalos**:
   - Identificar datos que no se ajustan a los patrones esperados o que son extremos.
   - Evaluar su impacto y decidir sobre su ajuste o eliminación.

6. **Validación de la Integridad y Lógica de los Datos**:
   - Asegurar que los datos cumplan con las reglas de negocio o lógica inherente (por ejemplo, secuencia cronológica en fechas, coherencia en identificadores).

7. **Eliminación de Duplicados**:
   - Detectar y eliminar registros duplicados para asegurar la unicidad y precisión en los datos.

8. **Transformación y Creación de Nuevas Variables**:
   - Desarrollar nuevas variables o transformar las existentes para facilitar análisis específicos (por ejemplo, categorización, bandas de edad).

9. **Documentación del Proceso de Limpieza**:
   - Registrar los pasos realizados y las decisiones tomadas durante la limpieza para garantizar la reproducibilidad y comprensión del proceso.

10. **Almacenamiento y Preservación de los Datos Limpio**:
    - Guardar el dataset limpio en un formato adecuado para su uso futuro.
    - Asegurar que los datos estén almacenados de manera segura y accesible.



# Propuestas de Mejoras para el Conjunto de Datos

## Mejora 1: Estandarización y Validación en la Captura de Datos

1. **Descripción de la Mejora**:
   - Implementar un sistema integral de validación y estandarización directamente en el punto de captura de datos. Este sistema garantizará la coherencia y la exactitud de los datos desde el inicio, reduciendo errores y datos atípicos.

2. **Procedimiento de Implementación**:
   - **Desarrollo de Reglas de Validación**: Establecer un conjunto claro de normas para cada tipo de dato (p.ej., formatos estandarizados para fechas, números y texto).
   - **Integración en el Sistema de Captura de Datos**: Incorporar estas reglas en las interfaces de entrada de datos, como formularios web o aplicaciones móviles.
   - **Retroalimentación en Tiempo Real**: Configurar el sistema para que proporcione alertas inmediatas en caso de datos mal ingresados, permitiendo correcciones al momento.
   - **Capacitación y Concienciación**: Realizar sesiones de formación con los usuarios que ingresan datos para enfatizar la importancia de la precisión y mostrar cómo usar el sistema de manera efectiva.

## Mejora 2: Auditoría y Limpieza Periódica de Datos

1. **Descripción de la Mejora**:
   - Establecer un protocolo de auditoría y limpieza de datos regular para revisar y corregir problemas en los datos almacenados. Esto incluirá la identificación de duplicados, correcciones de inexactitudes y actualizaciones de datos obsoletos.

2. **Procedimiento de Implementación**:
   - **Planificación de Auditorías**: Definir un calendario fijo para la revisión de datos (p.ej., cada trimestre).
   - **Herramientas de Análisis de Datos**: Utilizar software especializado para detectar y resolver problemas comunes en los datos.
   - **Registro y Seguimiento**: Mantener un historial de todas las auditorías realizadas, incluyendo los problemas encontrados y las soluciones aplicadas.
   - **Revisión Continua de Procesos**: Basándose en los resultados de las auditorías, ajustar y mejorar las reglas de validación y los procesos de captura de datos.

---

Estas mejoras, al ser implementadas y mantenidas de manera continua, asegurarán la alta calidad del conjunto de datos a lo largo del tiempo. Esto no solo reduce la carga de trabajo asociada con la limpieza de datos posterior, sino que también aumenta significativamente la confiabilidad y utilidad de los datos para el análisis y la toma de decisiones.
