## DATA CLEANING

**Limpieza de Datos**

La limpieza de datos es un paso fundamental en el proceso de análisis de datos que implica identificar y corregir errores, inconsistencias y datos incompletos en conjuntos de datos. Este proceso es crucial para garantizar la precisión y la fiabilidad de los resultados analíticos.

**Pasos de Limpieza de Datos**

1) Identificación de Datos Incorrectos o Faltantes:

    -   Revisar el conjunto de datos en busca de valores atípicos, valores nulos o valores que no tienen sentido.
    -   Identificar patrones y tendencias en los datos para comprender mejor la naturaleza de los errores.

2) Tratamiento de Valores Atípicos:

    -   Evaluar si los valores atípicos son errores de entrada o representan información relevante.
    -   Decidir si eliminar, corregir o mantener los valores atípicos según el contexto del análisis.

3) Manejo de Valores Nulos:

    -   Determinar si los valores nulos son resultado de errores o si indican información ausente.
    -   Estrategias comunes incluyen eliminar filas con valores nulos, imputar valores basados en estadísticas, o utilizar técnicas más avanzadas como modelos de imputación.

4) Normalización y Estandarización:

    -   Asegurarse de que los datos estén en un formato consistente y comparable.
    -   Normalizar datos categóricos, estandarizar unidades de medida y escalar características numéricas para evitar sesgos en el análisis.

5) Consolidación de Datos Duplicados:

    -   Identificar y eliminar duplicados en el conjunto de datos para evitar redundancias y mejorar la eficiencia del análisis.

In [19]:
import pandas as pd

In [20]:
#   Importamos nuestro dataset (se encuentra el repositorio de GitHub)
df = pd.read_excel('../csv/Customer_Call_List.xlsx')
df_copy = df
df

Unnamed: 0,CustomerID,First_Name,Last_Name,Phone_Number,Address,Paying Customer,Do_Not_Contact,Not_Useful_Column
0,1001,Frodo,Baggins,123-545-5421,"123 Shire Lane, Shire",Yes,No,True
1,1002,Abed,Nadir,123/643/9775,93 West Main Street,No,Yes,False
2,1003,Walter,/White,7066950392,298 Drugs Driveway,N,,True
3,1004,Dwight,Schrute,123-543-2345,"980 Paper Avenue, Pennsylvania, 18503",Yes,Y,True
4,1005,Jon,Snow,876|678|3469,123 Dragons Road,Y,No,True
5,1006,Ron,Swanson,304-762-2467,768 City Parkway,Yes,Yes,True
6,1007,Jeff,Winger,,1209 South Street,No,No,False
7,1008,Sherlock,Holmes,876|678|3469,98 Clue Drive,N,No,False
8,1009,Gandalf,,N/a,123 Middle Earth,Yes,,False
9,1010,Peter,Parker,123-545-5421,"25th Main Street, New York",Yes,No,True


**Seleccionar columnas que nos interesan**

-   .drop(): elimina una columna RECIBE POR PARÁMETRO CUAL COLUMNA

In [21]:
#   Eliminamos columna innecesaria

df.drop(columns='Not_Useful_Column')

Unnamed: 0,CustomerID,First_Name,Last_Name,Phone_Number,Address,Paying Customer,Do_Not_Contact
0,1001,Frodo,Baggins,123-545-5421,"123 Shire Lane, Shire",Yes,No
1,1002,Abed,Nadir,123/643/9775,93 West Main Street,No,Yes
2,1003,Walter,/White,7066950392,298 Drugs Driveway,N,
3,1004,Dwight,Schrute,123-543-2345,"980 Paper Avenue, Pennsylvania, 18503",Yes,Y
4,1005,Jon,Snow,876|678|3469,123 Dragons Road,Y,No
5,1006,Ron,Swanson,304-762-2467,768 City Parkway,Yes,Yes
6,1007,Jeff,Winger,,1209 South Street,No,No
7,1008,Sherlock,Holmes,876|678|3469,98 Clue Drive,N,No
8,1009,Gandalf,,N/a,123 Middle Earth,Yes,
9,1010,Peter,Parker,123-545-5421,"25th Main Street, New York",Yes,No


In [22]:
#   Eliminamos del df definitivamente

df = df.drop(columns='Not_Useful_Column')

**Identificar y eliminar duplicados** 

 -  Para evitar redundancias y mejorar la eficiencia del análisis.**
 -  .drop_duplicates(): eliminar columnas duplicadas

In [23]:
#Eliminamos columnas duplicadas

df.drop_duplicates()

Unnamed: 0,CustomerID,First_Name,Last_Name,Phone_Number,Address,Paying Customer,Do_Not_Contact
0,1001,Frodo,Baggins,123-545-5421,"123 Shire Lane, Shire",Yes,No
1,1002,Abed,Nadir,123/643/9775,93 West Main Street,No,Yes
2,1003,Walter,/White,7066950392,298 Drugs Driveway,N,
3,1004,Dwight,Schrute,123-543-2345,"980 Paper Avenue, Pennsylvania, 18503",Yes,Y
4,1005,Jon,Snow,876|678|3469,123 Dragons Road,Y,No
5,1006,Ron,Swanson,304-762-2467,768 City Parkway,Yes,Yes
6,1007,Jeff,Winger,,1209 South Street,No,No
7,1008,Sherlock,Holmes,876|678|3469,98 Clue Drive,N,No
8,1009,Gandalf,,N/a,123 Middle Earth,Yes,
9,1010,Peter,Parker,123-545-5421,"25th Main Street, New York",Yes,No


In [24]:
#Eliminamos definitivamente columnas duplicadas

df = df.drop_duplicates()

**Búsqueda de valores atípicos, valores nulos o valores que no tienen sentido.**

Funciones:
-   str(): Convierte el objeto en una representación de cadena.
-   strip(): Elimina los espacios en blanco al principio y al final de una cadena.
-   lstrip(): Elimina los espacios en blanco solo del lado izquierdo de una cadena.
-   fillna(): Rellena los valores nulos (NaN) con un valor específico.
-   dropna(): Elimina filas o columnas que contienen valores nulos.
-   isdigit(): Devuelve True si todos los caracteres de una cadena son dígitos, False de lo contrario.
-   isnull(): Devuelve True si el valor es nulo (NaN), False de lo contrario.

In [25]:
#   Mostramos DF

df

Unnamed: 0,CustomerID,First_Name,Last_Name,Phone_Number,Address,Paying Customer,Do_Not_Contact
0,1001,Frodo,Baggins,123-545-5421,"123 Shire Lane, Shire",Yes,No
1,1002,Abed,Nadir,123/643/9775,93 West Main Street,No,Yes
2,1003,Walter,/White,7066950392,298 Drugs Driveway,N,
3,1004,Dwight,Schrute,123-543-2345,"980 Paper Avenue, Pennsylvania, 18503",Yes,Y
4,1005,Jon,Snow,876|678|3469,123 Dragons Road,Y,No
5,1006,Ron,Swanson,304-762-2467,768 City Parkway,Yes,Yes
6,1007,Jeff,Winger,,1209 South Street,No,No
7,1008,Sherlock,Holmes,876|678|3469,98 Clue Drive,N,No
8,1009,Gandalf,,N/a,123 Middle Earth,Yes,
9,1010,Peter,Parker,123-545-5421,"25th Main Street, New York",Yes,No


-   carácteres atípicos: / ... _ |
-   valores nulos: NaN N/a nan

In [26]:
#   Trabajamos con la columna Last_Name

df['Last_Name'].str.lstrip('.')
df['Last_Name'].str.strip('/._')


0        Baggins
1          Nadir
2          White
3        Schrute
4           Snow
5        Swanson
6         Winger
7         Holmes
8            NaN
9         Parker
10        Gamgee
11        Potter
12        Draper
13         Knope
14    Flenderson
15       Weasley
16         Scott
17          Kent
18        Braton
19     Skywalker
Name: Last_Name, dtype: object

In [27]:
#   Modificamos el df

df['Last_Name'] = df['Last_Name'].str.strip('/._')

In [28]:
#   Mostramos columna Phone_Number

df['Phone_Number']

0     123-545-5421
1     123/643/9775
2       7066950392
3     123-543-2345
4     876|678|3469
5     304-762-2467
6              NaN
7     876|678|3469
8              N/a
9     123-545-5421
10             NaN
11      7066950392
12    123-543-2345
13    876|678|3469
14    304-762-2467
15    123-545-5421
16    123/643/9775
17      7066950392
18             N/a
19    876|678|3469
Name: Phone_Number, dtype: object

In [29]:
#   Función para limpiar datos numericos de 'Phone_Number'
#   join(): unir digitos filtrados en una única cadena
#   isdigit: filtrar digitos de una cadena str

def clean_phone_number(phone):
    if pd.isnull(phone): return None
    else: return ''.join(filter(str.isdigit, str(phone)))

df['Phone_Number'] = df['Phone_Number'].apply(clean_phone_number)
df['Phone_Number']

0     1235455421
1     1236439775
2     7066950392
3     1235432345
4     8766783469
5     3047622467
6           None
7     8766783469
8               
9     1235455421
10          None
11    7066950392
12    1235432345
13    8766783469
14    3047622467
15    1235455421
16    1236439775
17    7066950392
18              
19    8766783469
Name: Phone_Number, dtype: object

In [30]:
#   Aplicamos lambda para modificar a string la columna Number

df['Phone_Number'] = df['Phone_Number'].apply(lambda x: str(x))
df['Phone_Number']


0     1235455421
1     1236439775
2     7066950392
3     1235432345
4     8766783469
5     3047622467
6           None
7     8766783469
8               
9     1235455421
10          None
11    7066950392
12    1235432345
13    8766783469
14    3047622467
15    1235455421
16    1236439775
17    7066950392
18              
19    8766783469
Name: Phone_Number, dtype: object

In [31]:
#   Reemplazamos datos innecesarios

df['Phone_Number'] = df['Phone_Number'].str.replace('None', '')
df['Phone_Number']

0     1235455421
1     1236439775
2     7066950392
3     1235432345
4     8766783469
5     3047622467
6               
7     8766783469
8               
9     1235455421
10              
11    7066950392
12    1235432345
13    8766783469
14    3047622467
15    1235455421
16    1236439775
17    7066950392
18              
19    8766783469
Name: Phone_Number, dtype: object

**Subdivisión de columnas**

-   Separar datos contenidos en una misma columna, por ejemplo datos geograficos o fechas
-   Nos sirve para analizar de manera mas puntual un dato

In [32]:
#   Mostramos DF

df

Unnamed: 0,CustomerID,First_Name,Last_Name,Phone_Number,Address,Paying Customer,Do_Not_Contact
0,1001,Frodo,Baggins,1235455421.0,"123 Shire Lane, Shire",Yes,No
1,1002,Abed,Nadir,1236439775.0,93 West Main Street,No,Yes
2,1003,Walter,White,7066950392.0,298 Drugs Driveway,N,
3,1004,Dwight,Schrute,1235432345.0,"980 Paper Avenue, Pennsylvania, 18503",Yes,Y
4,1005,Jon,Snow,8766783469.0,123 Dragons Road,Y,No
5,1006,Ron,Swanson,3047622467.0,768 City Parkway,Yes,Yes
6,1007,Jeff,Winger,,1209 South Street,No,No
7,1008,Sherlock,Holmes,8766783469.0,98 Clue Drive,N,No
8,1009,Gandalf,,,123 Middle Earth,Yes,
9,1010,Peter,Parker,1235455421.0,"25th Main Street, New York",Yes,No


In [33]:
#   Seleccionamos columna

df[['Street', 'City', 'Number']] = df['Address'].str.split(',',n=2, expand=True)
df

Unnamed: 0,CustomerID,First_Name,Last_Name,Phone_Number,Address,Paying Customer,Do_Not_Contact,Street,City,Number
0,1001,Frodo,Baggins,1235455421.0,"123 Shire Lane, Shire",Yes,No,123 Shire Lane,Shire,
1,1002,Abed,Nadir,1236439775.0,93 West Main Street,No,Yes,93 West Main Street,,
2,1003,Walter,White,7066950392.0,298 Drugs Driveway,N,,298 Drugs Driveway,,
3,1004,Dwight,Schrute,1235432345.0,"980 Paper Avenue, Pennsylvania, 18503",Yes,Y,980 Paper Avenue,Pennsylvania,18503.0
4,1005,Jon,Snow,8766783469.0,123 Dragons Road,Y,No,123 Dragons Road,,
5,1006,Ron,Swanson,3047622467.0,768 City Parkway,Yes,Yes,768 City Parkway,,
6,1007,Jeff,Winger,,1209 South Street,No,No,1209 South Street,,
7,1008,Sherlock,Holmes,8766783469.0,98 Clue Drive,N,No,98 Clue Drive,,
8,1009,Gandalf,,,123 Middle Earth,Yes,,123 Middle Earth,,
9,1010,Peter,Parker,1235455421.0,"25th Main Street, New York",Yes,No,25th Main Street,New York,


**UNIFICAR DATOS IGUALES CON DIFERENTE NOMBRE**

-   Por ejemplo: 1=uno, True=['Verdadero', 'V']
-   .replace(): reemplazar un dato por otro

In [34]:
#   Podemos seleccionar todas las columnas del dataFramecon un bucle

import numpy as np
for column in df.columns:
    df[column] = df[column].replace('No','N')
    df[column] = df[column].replace('Yes','Y')
    df[column] = df[column].replace('N/a','')
    df[column] = df[column].replace(np.nan,'-')
    
df.head(10)

Unnamed: 0,CustomerID,First_Name,Last_Name,Phone_Number,Address,Paying Customer,Do_Not_Contact,Street,City,Number
0,1001,Frodo,Baggins,1235455421.0,"123 Shire Lane, Shire",Y,N,123 Shire Lane,Shire,-
1,1002,Abed,Nadir,1236439775.0,93 West Main Street,N,Y,93 West Main Street,-,-
2,1003,Walter,White,7066950392.0,298 Drugs Driveway,N,-,298 Drugs Driveway,-,-
3,1004,Dwight,Schrute,1235432345.0,"980 Paper Avenue, Pennsylvania, 18503",Y,Y,980 Paper Avenue,Pennsylvania,18503
4,1005,Jon,Snow,8766783469.0,123 Dragons Road,Y,N,123 Dragons Road,-,-
5,1006,Ron,Swanson,3047622467.0,768 City Parkway,Y,Y,768 City Parkway,-,-
6,1007,Jeff,Winger,,1209 South Street,N,N,1209 South Street,-,-
7,1008,Sherlock,Holmes,8766783469.0,98 Clue Drive,N,N,98 Clue Drive,-,-
8,1009,Gandalf,-,,123 Middle Earth,Y,-,123 Middle Earth,-,-
9,1010,Peter,Parker,1235455421.0,"25th Main Street, New York",Y,N,25th Main Street,New York,-


**Comparamos con el DF original**

In [36]:
df_copy

Unnamed: 0,CustomerID,First_Name,Last_Name,Phone_Number,Address,Paying Customer,Do_Not_Contact,Not_Useful_Column
0,1001,Frodo,Baggins,123-545-5421,"123 Shire Lane, Shire",Yes,No,True
1,1002,Abed,Nadir,123/643/9775,93 West Main Street,No,Yes,False
2,1003,Walter,/White,7066950392,298 Drugs Driveway,N,,True
3,1004,Dwight,Schrute,123-543-2345,"980 Paper Avenue, Pennsylvania, 18503",Yes,Y,True
4,1005,Jon,Snow,876|678|3469,123 Dragons Road,Y,No,True
5,1006,Ron,Swanson,304-762-2467,768 City Parkway,Yes,Yes,True
6,1007,Jeff,Winger,,1209 South Street,No,No,False
7,1008,Sherlock,Holmes,876|678|3469,98 Clue Drive,N,No,False
8,1009,Gandalf,,N/a,123 Middle Earth,Yes,,False
9,1010,Peter,Parker,123-545-5421,"25th Main Street, New York",Yes,No,True


**CONCLUSIÓN**

*La limpieza de datos fue esencial para asegurar la calidad y consistencia de los datos. Se aplicaron técnicas como la eliminación de valores nulos y la estandarización de formatos, lo que resultó en un conjunto de datos más confiable y apto para el análisis. Este proceso mejora la eficacia y precisión de cualquier modelo o análisis posterior. La limpieza de datos es un paso crucial en cualquier proyecto de análisis o modelado de datos para garantizar la fiabilidad y validez de los resultados.*