# **Análisis y limpieza de datos de denuncias**

## **Introducción**
Este cuaderno aborda el proceso de limpieza, transformación y análisis de datos utilizando Python y pandas. El objetivo es explorar y preparar un conjunto de datos relacionado con denuncias, estructurándolo para un análisis claro y eficiente.

---

## **1. Teoría explicativa de las funciones y métodos en pandas**
En esta sección, explicaremos en detalle las funciones y métodos utilizados en pandas para la manipulación de datos:

### **1.1. Exploración inicial de datos**

#### **`head()`**
Muestra las primeras filas de un DataFrame. Por defecto, devuelve 5 filas, aunque puedes especificar el número deseado

In [1]:
# Es importante llamar a la libreria

import pandas as pd 

# Mostrar las primeras 5 filas del DataFrame

data.head()

# Mostrar las primeras 10 filas

data.head(10)

NameError: name 'data' is not defined

#### **`info(buf=None)`**
Proporciona un resumen del DataFrame, incluyendo:
- Número de entradas (filas).
- Columnas y su tipo de dato.
- Valores no nulos.
- Uso de memoria.

El parámetro `buf=None` indica que la salida se imprime en la consola. Si quisieras guardarlo en un archivo, podrías usar un buffer como un archivo:

In [None]:
# Resumen del DataFrame
data.info()

#### **`isnull()` y `sum()`**
- `isnull()` devuelve un DataFrame booleano indicando dónde hay valores nulos (`NaN`).
- `sum()` suma los valores nulos por columna.

In [None]:
# Identificar valores nulos
data.isnull()

# Contar valores nulos por columna
data.isnull().sum()

#### **`isnull()` y `sum()`**
- `isnull()` devuelve un DataFrame booleano indicando dónde hay valores nulos (`NaN`).
- `sum()` suma los valores nulos por columna.


In [None]:
# Identificar valores nulos
data.isnull()

# Contar valores nulos por columna
data.isnull().sum()

#### **`describe(include="all")`**
Proporciona estadísticas descriptivas de las columnas:
- Para columnas numéricas: media, desviación estándar, valores mínimo/máximo, etc.
- Para columnas categóricas: conteo, valores únicos, frecuencia del valor más común.

El parámetro `include="all"` asegura que se incluyan tanto columnas numéricas como categóricas:

In [None]:
# Estadísticas descriptivas
data.describe(include="all")

### **1.2. Manipulación de columnas y filas**

#### **`df.columns`**
Devuelve los nombres de las columnas del DataFrame. Es útil para inspeccionar y renombrar columnas.

In [None]:
# Ver los nombres de las columnas
data.columns

#### **`iloc`**
Permite seleccionar filas y columnas por posición numérica (índice). Funciona como:

In [None]:
# Seleccionar la primera fila
data.iloc[0]

# Seleccionar las primeras tres filas y dos primeras columnas
data.iloc[:3, :2]

#### **`reset_index(drop=True)`**
Reinicia el índice del DataFrame. Si `drop=True`, descarta el índice anterior y no lo agrega como una nueva columna.

In [None]:
# Reiniciar el índice
data.reset_index(drop=True)

#### **`drop()`**
Elimina filas o columnas del DataFrame. El parámetro `axis` especifica:
- `axis=0` (predeterminado): elimina filas.
- `axis=1`: elimina columnas.

In [None]:
# Eliminar una columna por nombre
data.drop("Columna", axis=1)

# Eliminar una fila por índice
data.drop(0, axis=0)

### **1.3. Operaciones con strings**

#### **`strip()`**
Elimina espacios en blanco al inicio y al final de los valores en una columna.

In [None]:
# Eliminar espacios en blanco en la columna "Año"
data["Año"] = data["Año"].str.strip()

#### **`replace()`**
Reemplaza valores específicos en una columna. Puede utilizarse con expresiones regulares (`regex=True`).

In [None]:
# Reemplazar '.00' al final de los valores con vacío
data["Año"] = data["Año"].str.replace(r'\.00$', '', regex=True)

## **2. Carga de datos**
Primero, importamos pandas y cargamos el archivo CSV.

In [None]:
import pandas as pd 

# Ruta del archivo
file_path = r"C:\Users\apicn\Proyectos\Python_notes\Proyecto analisis denuncias\ConocimientoMediosDenuncia.csv"

# Leer el archivo CSV con la codificación adecuada
data = pd.read_csv(file_path, encoding='latin-1')

# Mostrar información inicial del DataFrame
summary = {
    "Head": data.head(),  # Primeras filas
    "Info": data.info(buf=None),  # Información del DataFrame
    "Null_sum": data.isnull().sum(),  # Valores nulos por columna
    "Describe": data.describe(include="all")  # Estadísticas descriptivas
}

print(summary)

## **3. Limpieza de datos**

### Cambiar la fila 3 como encabezado
En algunos casos, los encabezados reales están en una fila específica. Aquí configuramos la fila 3 como encabezado del DataFrame:

In [None]:
# Usar la fila 3 como encabezado
data.columns = data.iloc[3]

# Eliminar las filas previas al encabezado y reiniciar el índice
data = data[4:].reset_index(drop=True)

# Verificar el resultado
print(data.head(5))

### Eliminar columnas innecesarias
En este caso, eliminamos la primera columna porque está vacía o no es relevante.

In [None]:
# Eliminar la primera columna por su posición
data = data.drop(data.columns[0], axis=1)

# Mostrar el DataFrame actualizado
print(data.columns)

## **4. Formateo y transformación de datos**

### Eliminar espacios y ajustar formatos
Ajustamos los datos de la columna "Año" para eliminar espacios en blanco y caracteres innecesarios, como `.00` al final.


In [None]:
# Eliminar espacios en blanco
data["Año"] = data["Año"].str.strip()  

# Reemplazar '.00' al final de los strings con vacío
data["Año"] = data["Año"].str.replace(r'\.00$', '', regex=True)

# Verificar el resultado
print(data.head(5))

### Crear nuevas columnas
Combinamos las columnas "Año" y "Trimestre" en una nueva columna llamada "Año-Trimestre", luego eliminamos las columnas originales.


In [None]:
# Crear una nueva columna combinada
data['Año-Trimestre'] = data['Año'] + ' ' + data['Trimestre']

# Eliminar las columnas "Año" y "Trimestre"
data = data.drop(["Año", "Trimestre"], axis=1)

# Verificar el DataFrame final
print(data.columns)

## **5. Conclusión**
Este cuaderno cubre cómo realizar:
1. Exploración inicial de los datos.
2. Limpieza para garantizar que los datos sean consistentes.
3. Transformación para preparar los datos para análisis más avanzados.

Estos pasos aseguran que el conjunto de datos esté listo para visualizaciones y análisis posteriores.
