<a href="https://colab.research.google.com/github/Cerino-rigo/EC3002C.602-2023/blob/main/Limpieza_datos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# LIMPIEZA DE DATOS CON PYTHON Y PANDAS

# 1. Problema del negocio

Una entidad bancaria contrata a una empresa de marketing encargada de contactar telefónicamente a posibles clientes para determinar si están interesados o no en adquirir un certificado de depósito a término con el banco.

¿Qué perfil tienen los clientes con mayor potencial de conversión?

#2. Base de datos

La información recolectada por la empresa de mercadeo se encuentra en un archivo CSV (`dataset_banco.csv`) con 45215 filas y 17 columnas.

Cada registro contiene 16 características (las primeras 16 columnas) y una categoría ("yes" o "no" dependiendo de si la persona está o no interesada en adquirir el producto). Las columnas son:

1. "age":  edad (numérica)
2. "job": tipo de trabajo (categórica: "admin.", "unknown", "unemployed", "management", "housemaid", "entrepreneur", "student", "blue-collar","self-employed", "retired", "technician", "services")
3. "marital": estado civil (categórica: "married", "divorced", "single")
4. "education": nivel educativo (categórica: "unknown", "secondary", "primary", "tertiary")
5. "default": si dejó de pagar sus obligaciones (categórica: "yes", "no")
6. "balance": saldo promedio anual en euros (numérica)
7. "housing": ¿tiene o no crédito hipotecario? (categórica: "yes", "no")
8. "loan": ¿tiene créditos de consumo? (categórica: "yes", "no")
9. "contact": medio a través del cual fue contactado (categórica: "unknown", "telephone", "cellular")
10. "day": último día del mes en el que fue contactada (numérica)
11. "month": último mes en el que fue contactada (categórica: "jan", "feb", "mar", ..., "nov", "dec")
12. "duration": duración (en segundos) del último contacto (numérica)
13. "campaign": número total de veces que fue contactada durante la campaña (numérica)
14. "pdays": número de días transcurridos después de haber sido contactado antes de la campaña actual (numérica. -1 indica que no fue contactado previamente)
15. "previous": número de veces que ha sido contactada antes de esta campaña (numérica)
16. "poutcome": resultado de la campaña de marketing anterior (categórica: "unknown", "other", "failure", "success")
17. "y": categoría ¿el cliente se suscribió a un depósito a término? (categórica: "yes", "no")

In [None]:
from google.colab import drive
drive.mount('/content/drive')

#3. Visualizar dataset

In [None]:
# Importar librerías
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
# Lectura


data = pd.read_csv("/content/drive/MyDrive/Machine Learning/dataset_banco.csv")

In [None]:
print(data.shape)
data.head()

In [None]:
# Identificar tipo de variables
data.info()

#4. Limpieza

Para el proceso de limpieza se tomarán en cuenta las situaciones más comunes:

1. Datos faltantes en algunas celdas
2. Columnas irrelevantes (que no responden al problema que queremos resolver)
3. Registros (filas) repetidos
4. Valores extremos (*outliers*) en el caso de las variables numéricas. Se deben analizar en detalle pues no necesariamente la solución es eliminarlos
5. Errores tipográficos en el caso de las variables categóricas

Al final de este proceso de limpieza deberíamos tener un set de datos **íntegro**, listo para la fase de Análisis Exploratorio.

## 4.1 Datos faltantes

Con la información visualizada anteriormente, se aprecio que los datos no están completos, debido a que no todas las columnas tienen la misma cantidad de registros (45,215).

Particularmente: "job", "marital", "education", "balance", "duration" y "pdays".

Por ser tan pocos los datos  faltantes optaremos por eliminar las filas correspondientes:

In [None]:
data.dropna(inplace=True) # Función para eliminar las filas completas con datos faltantes
data.info()

##4.2 Columnas irrelevantes

Una columna irrelevante puede ser:

- **Una columna que no contiene información relevante para el objetivo del problema que queremos resolver**. Por ejemplo en este caso podría ser una columna que no guarde relación con el posible perfil del cliente (música favorita, hobbies, comida favorita, etc.)
- **Una columna categórica pero con un sólo nivel**. Por ejemplo si en la columna "job" solo existiera el nivel "unknown".
- **Una columna numérica pero con un sólo valor**. Por ejemplo si en la columna "edad" todos tuvieran la misma edad.
- **Columnas con información redundante**. Por ejemplo si además de las columnas "month" y "day" tuviésemos la columna "month-day", resultado de combinar las dos anteriores.

En este caso todas las columnas pueden resultar relevantes, pero debemos verificar que no haya columnas categóricas con un sólo nivel, o columnas numéricas con un sólo valor:

In [None]:
# Conteo de los niveles en las diferentes columnas categóricas
cols_cat = ['job', 'marital', 'education', 'default', 'housing',
       'loan', 'contact', 'month', 'poutcome', 'y']

for col in cols_cat:
  print(f'Columna {col}: {data[col].nunique()} subniveles')

**DataFrame.nunique(axis=0, dropna=True)**

Cuenta el número de elementos distintos en el eje especificado.

Devuelve la serie con el número de elementos distintos. Puede ignorar valores NaN.


Todas las columnas categóricas tienen más de 1 subnivel. Entonces no se eliminará ninguna.

Ahora se analizarán las columnas numéricas:

In [None]:
data.describe()

Preservaremos todas las columnas numéricas.

##4.3 Filas repetidas

In [None]:
print(f'Tamaño del set antes de eliminar las filas repetidas: {data.shape}')
data.drop_duplicates(inplace=True) #Función para buscar filas que aparezcan dos o más veces
print(f'Tamaño del set después de eliminar las filas repetidas: {data.shape}')

##4.4 *Outliers* en las variables numéricas

Analizar de forma visual los *outliers* porque dependiendo de la variable numérica en cuestión, estos pueden contener información importante. Por lo que no siempre es recomendable eliminarlos.

Crear gráficas tipo "boxplot" de las columnas numéricas.

**El Diagrama de Caja y bigotes** (box and whisker plot en inglés ) es un tipo de gráfico que muestra un resumen de una gran cantidad de datos en cinco medidas descriptivas, además de intuir su morfología y simetría.

Este tipo de gráficos nos permite identificar valores atípicos y comparar distribuciones. Además de conocer de una forma cómoda y rápida como el 50% de los valores centrales se distribuyen.

In [None]:
# Generar gráficas individuales pues las variables numéricas
# están en rangos diferentes
cols_num = ['age', 'balance', 'day', 'duration', 'campaign',
            'pdays', 'previous']

fig, ax = plt.subplots(nrows=7, ncols=1, figsize=(8,30))
fig.subplots_adjust(hspace=0.5)

for i, col in enumerate(cols_num):
    sns.boxplot(x=col, data=data, ax=ax[i])
    ax[i].set_title(col)

**Análisis visual:**
- "age": hay sujetos con edades mucho mayores a 100 años
- "duration": hay valores negativos
- "previous": hay un valor extremadamente alto (cercano a 300)

In [None]:
# Aplicar filtro para eliminar filas con "age" > 100
print(f'Tamaño del set antes de eliminar registros de edad: {data.shape}')
data = data[data['age']<=100]
print(f'Tamaño del set después de eliminar registros de edad: {data.shape}')

In [None]:
# Aplicar filtro para eliminar filas con "duration" < 0
print(f'Tamaño del set antes de eliminar registros de duración: {data.shape}')
data = data[data['duration']>0]
print(f'Tamaño del set después de eliminar registros de duración: {data.shape}')

In [None]:
# Aplicar filtro para eliminar filas con "previous" > 100
print(f'Tamaño del set antes de eliminar registros de previous: {data.shape}')
data = data[data['previous']<=100]
print(f'Tamaño del set después de eliminar registros de previous: {data.shape}')

##4.5 Errores tipográficos en variables categóricas

En una variable categórica pueden aparecer sub-niveles a consecuencia de la mala captura de las respuestas. Por ejemplo "unknown" y "UNK" que, una persona entiende el mismo significado, pero para nuestro programa serían diferentes.

Se deben unificar estos sub-niveles

In [None]:
# Graficar los subniveles de cada variable categórica
cols_cat = ['job', 'marital', 'education', 'default', 'housing',
       'loan', 'contact', 'month', 'poutcome', 'y']

fig, ax = plt.subplots(nrows=10, ncols=1, figsize=(10,30))
fig.subplots_adjust(hspace=1)

for i, col in enumerate(cols_cat):
  sns.countplot(x=col, data=data, ax=ax[i])
  ax[i].set_title(col)
  ax[i].set_xticklabels(ax[i].get_xticklabels(),rotation=30)

Inicialmente se observa que hay sub-niveles con el mismo nombre pero escritos en minúscula, en mayúscula o con la primera letra en mayúscula.

Unifiquemos estos sub-niveles inicialmente:

In [None]:
for column in data.columns:
    # Representar en minúsculas sólo si la columna es categórica
    if column in cols_cat:
        data[column] = data[column].str.lower()

# Generar las gráficas nuevamente
fig, ax = plt.subplots(nrows=10, ncols=1, figsize=(10,30))
fig.subplots_adjust(hspace=1)

for i, col in enumerate(cols_cat):
  sns.countplot(x=col, data=data, ax=ax[i])
  ax[i].set_title(col)
  ax[i].set_xticklabels(ax[i].get_xticklabels(),rotation=30)

In [None]:
# job: unificar admin. y administrative
print(data['job'].unique()) # Analizar cuántos valores distintos hay
data['job'] = data['job'].str.replace('admin.','administrative', regex=False)
print(data['job'].unique())

**pandas.unique(valores)**

Devuelve valores únicos basados en una tabla hash.

Los valores únicos se devuelven por orden de aparición. Esto NO ordena.

In [None]:
# marital: unificar div. y divorced
print(data['marital'].unique()) # Analizar cuántos valores distintos hay
data['marital'] = data['marital'].str.replace('div.','divorced', regex=False)
print(data['marital'].unique())

In [None]:
# education: unificar sec. y secondary, unk y unknown
print(data['education'].unique()) # Analizar cuántos valores distintos hay
data['education'] = data['education'].str.replace('sec.','secondary', regex=False)
data.loc[data['education']=='unk','education'] = 'unknown'
print(data['education'].unique())

In [None]:
# contact: unificar telephone y phone
print(data['contact'].unique()) # Analizar cuántos valores distintos hay
data.loc[data['contact']=='phone','contact'] = 'telephone'
data.loc[data['contact']=='mobile','contact'] = 'cellular'
print(data['contact'].unique())

In [None]:
# poutcome: unificar unk y unknown
print(data['poutcome'].unique()) # Analizar cuántos valores distintos hay
data.loc[data['poutcome']=='unk','poutcome']='unknown'
print(data['poutcome'].unique())

In [None]:
data.shape

In [None]:
# Generar las gráficas nuevamente
fig, ax = plt.subplots(nrows=10, ncols=1, figsize=(10,30))
fig.subplots_adjust(hspace=1)

for i, col in enumerate(cols_cat):
  sns.countplot(x=col, data=data, ax=ax[i])
  ax[i].set_title(col)
  ax[i].set_xticklabels(ax[i].get_xticklabels(),rotation=30)


Originalmente tenía 45,215 registros y 17 columnas. El dataset resultante tiene 45,189 filas (26 menos) y 17 columnas.

El set de datos ya está listo para el Análisis Exploratorio.

In [None]:
ruta = "/content/drive/MyDrive/Machine Learning/dataset_banco_clean.csv"
data.to_csv(ruta, index=False)