<a href="https://colab.research.google.com/github/anyhann/EjerciciosAndroid/blob/master/Python__Biblioteca_Limpieza_Datos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Creacion de una biblioteca** personalizada de Python para limpieza de datos :
1. Crea una nueva carpeta para tu biblioteca, por ejemplo, data_cleaning_library.
2. Dentro de esta carpeta, crea un archivo vacío llamado __init__.py. Este archivo le indica a Python que la carpeta debe tratarse como un paquete.
3. Crea un archivo Python para definir tus funciones de limpieza, por ejemplo, cleaning_functions.py. En este archivo, puedes definir diferentes funciones para limpiar y dar formato a tus datos.

Aquí hay algunos ejemplos de funciones de limpieza que puedes incluir en tu biblioteca:

In [None]:
import pandas as pd

def eliminar_duplicados(df):
    """
    Elimina filas duplicadas de un DataFrame de pandas.
    """
    return df.drop_duplicates()

def eliminar_valores_faltantes(df, umbral):
    """
    Elimina las columnas con un porcentaje de valores faltantes mayor al umbral especificado.
    """
    proporcion_valores_faltantes = df.isnull().mean()
    columnas_a_eliminar = proporcion_valores_faltantes[proporcion_valores_faltantes > umbral].index
    return df.drop(columnas_a_eliminar, axis=1)

def rellenar_valores_faltantes(df, metodo='media'):
    """
    Rellena los valores faltantes utilizando el método especificado ('media', 'mediana' o 'moda').
    """
    if metodo == 'media':
        return df.fillna(df.mean())
    elif metodo == 'mediana':
        return df.fillna(df.median())
    elif metodo == 'moda':
        return df.fillna(df.mode().iloc[0])
    else:
        raise ValueError("El método especificado no es válido. Usa 'media', 'mediana' o 'moda'.")

In [None]:
import pandas as pd
import re

def convertir_a_minusculas(df, columnas):
    """
    Convierte el texto en las columnas especificadas a minúsculas.
    """
    for col in columnas:
        df[col] = df[col].str.lower()
    return df

def eliminar_caracteres_especiales(df, columnas):
    """
    Elimina los caracteres especiales de las columnas especificadas.
    """
    for col in columnas:
        df[col] = df[col].apply(lambda x: re.sub(r'[^\w\s]', '', x))
    return df

def convertir_a_fecha(df, columnas, formato):
    """
    Convierte las columnas especificadas a formato de fecha.
    """
    for col in columnas:
        df[col] = pd.to_datetime(df[col], format=formato)
    return df


In [None]:
import pandas as pd
import numpy as np

def eliminar_espacios_en_blanco(df, columnas):
    """
    Elimina los espacios en blanco al principio y al final de las cadenas de texto en las columnas especificadas.
    """
    for col in columnas:
        df[col] = df[col].str.strip()
    return df

def eliminar_outliers(df, columnas, umbral):
    """
    Elimina los valores atípicos (outliers) de las columnas especificadas utilizando el método del rango intercuartil (IQR).
    """
    for col in columnas:
        q1 = df[col].quantile(0.25)
        q3 = df[col].quantile(0.75)
        iqr = q3 - q1
        lower_bound = q1 - umbral * iqr
        upper_bound = q3 + umbral * iqr
        df = df[(df[col] >= lower_bound) & (df[col] <= upper_bound)]
    return df

def codificar_categorias(df, columnas):
    """
    Codifica las categorías en las columnas especificadas utilizando la técnica de one-hot encoding.
    """
    for col in columnas:
        df = pd.concat([df, pd.get_dummies(df[col], prefix=col)], axis=1)
        df = df.drop(col, axis=1)
    return df

In [None]:
import pandas as pd
import numpy as np
import re


def eliminar_palabras_vacias(df, columnas):
    """
    Elimina las palabras vacías (stop words) de las columnas especificadas.
    """
    from nltk.corpus import stopwords
    stop_words = set(stopwords.words('english'))
    for col in columnas:
        df[col] = df[col].apply(lambda x: ' '.join([word for word in x.split() if word.lower() not in stop_words]))
    return df

def normalizar_texto(df, columnas):
    """
    Normaliza el texto en las columnas especificadas eliminando acentos y caracteres especiales.
    """
    import unicodedata
    for col in columnas:
        df[col] = df[col].apply(lambda x: unicodedata.normalize('NFKD', x).encode('ASCII', 'ignore').decode('utf-8'))
    return df

def discretizar_columna(df, columna, bins):
    """
    Discretiza una columna numérica en intervalos especificados por el usuario.
    """
    df[columna] = pd.cut(df[columna], bins=bins, labels=False)
    return df


Una vez que hayas definido tus funciones de limpieza, puedes importarlas y utilizarlas en tus proyectos. Por ejemplo, si tienes un archivo main.py en la misma carpeta que tu carpeta data_cleaning_library, puedes usarlo de la siguiente manera:


In [None]:
import pandas as pd
from data_cleaning_library.cleaning_functions import eliminar_duplicados, eliminar_valores_faltantes, rellenar_valores_faltantes

# Cargar los datos
datos = pd.read_csv("data.csv")

# Usar las funciones de limpieza
datos = eliminar_duplicados(datos)
datos = eliminar_valores_faltantes(datos, umbral=0.5)
datos = rellenar_valores_faltantes(datos, metodo='media')


# Continuar con el análisis de datos


# **Normalzacion de Datos / Escala de Datos**
La librería sklearn tiene un módulo de pre-procesamiento (preprocessing) para implementar métodos de escalado estándar. El StandardScalar se muestra a continuación. Cada columna se normaliza a una media cero y una desviación estándar de uno. Los métodos de escalado comunes fit_transform(X) para ajuste y transform(X) transformación basado en otro ajuste, y inverse_transform(Xs) para volver a escalar a la representación original.

In [None]:
import pandas as pd
from sklearn.preprocessing import StandardScaler

def transformar_datos(datos):
    scaler = StandardScaler()
    ds = scaler.fit_transform(datos)
    #El valor ds se devuelve como un array numpy así que tenemos que convertirlo de nuevo a pandas DataFrame, 
    #reutilizando los nombres de columna datos.
    ds = pd.DataFrame(ds, columns=datos.columns)
    return ds.head()

**Aquí hay algunos ejemplos adicionales de código para la limpieza de datos utilizando pandas:**

In [None]:
#Eliminar caracteres no deseados de una columna:
df["columna"] = df["columna"].str.replace("[^a-zA-Z0-9]", "")

#Convertirá la columna de fechas al formato especificado ("%Y-%m-%d" en este ejemplo).
df["columna_fecha"] = pd.to_datetime(df["columna_fecha"], format="%Y-%m-%d")

#Establecer un valor predeterminado para valores faltantes en una columna:
df["columna"].fillna(valor_predeterminado, inplace=True)

#Eliminar valores atípicos o inconsistentes basados en un criterio:
df = df[(df["columna"] > limite_inferior) & (df["columna"] < limite_superior)]

#Convertir una columna de texto separada por comas en múltiples columnas:
nuevas_columnas = df["columna"].str.split(",", expand=True)
df = pd.concat([df, nuevas_columnas], axis=1)

#Estandarizar los valores de una columna utilizando mapeo:
mapeo = {"valor_original1": "valor_nuevo1", "valor_original2": "valor_nuevo2"}
df["columna"] = df["columna"].map(mapeo)

#Eliminar registros duplicados basados en múltiples columnas:
df = df.drop_duplicates(subset=["columna1", "columna2"])


In [None]:
import pandas as pd

# Cargar los datos
df = pd.read_csv("datos.csv")

# Verificar los datos
print(df.head())

# Realizar la limpieza de datos
# Ejemplo: Eliminar valores duplicados
df = df.drop_duplicates()

# Ejemplo: Eliminar filas con valores faltantes
df = df.dropna()

# Ejemplo: Eliminar columnas innecesarias
df = df.drop(["columna1", "columna2"], axis=1)

# Ejemplo: Renombrar columnas
df = df.rename(columns={"columna3": "nueva_columna"})

# Ejemplo: Convertir tipos de datos
df["columna4"] = pd.to_numeric(df["columna4"])

# Guardar los datos limpios en un nuevo archivo
df.to_csv("datos_limpios.csv", index=False)

# Verificar los datos limpios
print(df.head())


# **No dudes en agregar otras funciones de limpieza y formato según tus necesidades específicas.**


Prueba Nerea