## DATA CLEANING

**Limpieza de Datos**

La limpieza de datos es un paso fundamental en el proceso de análisis de datos que implica identificar y corregir errores, inconsistencias y datos incompletos en conjuntos de datos. Este proceso es crucial para garantizar la precisión y la fiabilidad de los resultados analíticos.

**Pasos de Limpieza de Datos**

1) Identificación de Datos Incorrectos o Faltantes:

    -   Revisar el conjunto de datos en busca de valores atípicos, valores nulos o valores que no tienen sentido.
    -   Identificar patrones y tendencias en los datos para comprender mejor la naturaleza de los errores.

2) Tratamiento de Valores Atípicos:

    -   Evaluar si los valores atípicos son errores de entrada o representan información relevante.
    -   Decidir si eliminar, corregir o mantener los valores atípicos según el contexto del análisis.

3) Manejo de Valores Nulos:

    -   Determinar si los valores nulos son resultado de errores o si indican información ausente.
    -   Estrategias comunes incluyen eliminar filas con valores nulos, imputar valores basados en estadísticas, o utilizar técnicas más avanzadas como modelos de imputación.

4) Normalización y Estandarización:

    -   Asegurarse de que los datos estén en un formato consistente y comparable.
    -   Normalizar datos categóricos, estandarizar unidades de medida y escalar características numéricas para evitar sesgos en el análisis.

5) Consolidación de Datos Duplicados:

    -   Identificar y eliminar duplicados en el conjunto de datos para evitar redundancias y mejorar la eficiencia del análisis.

In [2]:
import pandas as pd

In [3]:
#   Importamos nuestro dataset (se encuentra el repositorio de GitHub)
df = pd.read_excel('.././csv/Customer_Call_List.xlsx')
df
df_copy = df

FileNotFoundError: [Errno 2] No such file or directory: '.././csv/Customer_Call_List.xlsx'

**Seleccionar columnas que nos interesan**

-   .drop(): elimina una columna RECIBE POR PARÁMETRO CUAL COLUMNA

In [None]:
#   Eliminamos columna innecesaria

df.drop(columns='Not_Useful_Column')

In [None]:
#   Eliminamos del df definitivamente

df = df.drop(columns='Not_Useful_Column')

**Identificar y eliminar duplicados** 

 -  Para evitar redundancias y mejorar la eficiencia del análisis.**
 -  .drop_duplicates(): eliminar columnas duplicadas

In [None]:
#Eliminamos columnas duplicadas

df.drop_duplicates()

In [None]:
#Eliminamos definitivamente columnas duplicadas

df = df.drop_duplicates()

**Búsqueda de valores atípicos, valores nulos o valores que no tienen sentido.**

Funciones:
-   str(): Convierte el objeto en una representación de cadena.
-   strip(): Elimina los espacios en blanco al principio y al final de una cadena.
-   lstrip(): Elimina los espacios en blanco solo del lado izquierdo de una cadena.
-   fillna(): Rellena los valores nulos (NaN) con un valor específico.
-   dropna(): Elimina filas o columnas que contienen valores nulos.
-   isdigit(): Devuelve True si todos los caracteres de una cadena son dígitos, False de lo contrario.
-   isnull(): Devuelve True si el valor es nulo (NaN), False de lo contrario.

In [None]:
#   Mostramos DF

df

-   carácteres atípicos: / ... _ |
-   valores nulos: NaN N/a nan

In [None]:
#   Trabajamos con la columna Last_Name

df['Last_Name'].str.lstrip('.')
df['Last_Name'].str.strip('/._')


In [None]:
#   Modificamos el df

df['Last_Name'] = df['Last_Name'].str.strip('/._')

In [None]:
#   Mostramos columna Phone_Number

df['Phone_Number']

In [None]:
#   Función para limpiar datos numericos de 'Phone_Number'
#   join(): unir digitos filtrados en una única cadena
#   isdigit: filtrar digitos de una cadena str

def clean_phone_number(phone):
    if pd.isnull(phone): return None
    else: return ''.join(filter(str.isdigit, str(phone)))

df['Phone_Number'] = df['Phone_Number'].apply(clean_phone_number)
df['Phone_Number']

In [None]:
#   Aplicamos lambda para modificar a string la columna Number

df['Phone_Number'] = df['Phone_Number'].apply(lambda x: str(x))
df['Phone_Number']


In [None]:
#   Reemplazamos datos innecesarios

df['Phone_Number'] = df['Phone_Number'].str.replace('None', '')
df['Phone_Number']

**Subdivisión de columnas**

-   Separar datos contenidos en una misma columna, por ejemplo datos geograficos o fechas
-   Nos sirve para analizar de manera mas puntual un dato

In [None]:
#   Mostramos DF

df

In [None]:
#   Seleccionamos columna

df[['Street', 'City', 'Number']] = df['Address'].str.split(',',n=2, expand=True)
df

**UNIFICAR DATOS IGUALES CON DIFERENTE NOMBRE**

-   Por ejemplo: 1=uno, True=['Verdadero', 'V']
-   .replace(): reemplazar un dato por otro

In [None]:
#   Podemos seleccionar todas las columnas del dataFramecon un bucle

import numpy as np
for column in df.columns:
    df[column] = df[column].replace('No','N')
    df[column] = df[column].replace('Yes','Y')
    df[column] = df[column].replace('N/a','')
    df[column] = df[column].replace(np.nan,'-')
    
df

**Comparamos con el DF original**

In [None]:
df_copy.head

**CONCLUSIÓN**

*La limpieza de datos fue esencial para asegurar la calidad y consistencia de los datos. Se aplicaron técnicas como la eliminación de valores nulos y la estandarización de formatos, lo que resultó en un conjunto de datos más confiable y apto para el análisis. Este proceso mejora la eficacia y precisión de cualquier modelo o análisis posterior. La limpieza de datos es un paso crucial en cualquier proyecto de análisis o modelado de datos para garantizar la fiabilidad y validez de los resultados.*