<a href="https://colab.research.google.com/github/P-MATM/TalentoTech/blob/main/2_Limpieza_de_datos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

___________________________________________
# Práctica 2: LIMPIEZA DE DATOS CON PHYTON Y PANDAS

### 1. El problema del negocio

Una entidad bancaria contrata a una empresa de marketing encargada de contacta
telefónicamente a posibles clientes para determinar si están interesados o no en
adquirir un certificado de depósito a término con el banco. ¿Qué perfil tienen los clientes con mayor potencial de conversión?

### 2. Diccionario del dataset
La información recolectada por la empresa de mercadeo se encuentra en un archivo CSV (`dataset_banco.csv`) con 45215 filas y 17 columnas.

Cada registro contiene 16 características (las primeras 16 columnas)
y una categoría ("yes" o "no" dependiendo de si la persona está o no interesada en adquirir el producto). Las columnas son:

1. "age":  edad (numérica)
2. "job": tipo de trabajo (categórica: "admin.", "unknown", "unemployed", "management", "housemaid", "entrepreneur", "student", "blue-collar","self-employed", "retired", "technician", "services")
3. "marital": estado civil (categórica: "married", "divorced", "single")
4. "education": nivel educativo (categórica: "unknown", "secondary", "primary", "tertiary")
5. "default": si dejó de pagar sus obligaciones (categórica: "yes", "no")
6. "balance": saldo promedio anual en euros (numérica)
7. "housing": ¿tiene o no crédito hipotecario? (categórica: "yes", "no")
8. "loan": ¿tiene créditos de consumo? (categórica: "yes", "no")
9. "contact": medio a través del cual fue contactado (categórica: "unknown", "telephone", "cellular")
10. "day": último día del mes en el que fue contactada (numérica)
11. "month": último mes en el que fue contactada (categórica: "jan", "feb", "mar", ..., "nov", "dec")
12. "duration": duración (en segundos) del último contacto (numérica)
13. "campaign": número total de veces que la persona fue contactada durante la campaña (numérica)
14. "pdays": número de días transcurridos después de haber sido contactado antes de la campaña actual (numérica. -1 indica que no fue contactado previamente)
15. "previous": número de veces que ha sido contactada antes de esta campaña (numérica)
16. "poutcome": resultado de la campaña de marketing anterior (categórica: "unknown", "other", "failure", "success")
17. "y": categoría ¿el cliente se suscribió a un depósito a término? (categórica: "yes", "no")







# 3 Una primera mirada al dataset:

___________________________________________

In [None]:
# Importar las librerías

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
# Lectura

from google.colab import drive
drive.mount ('/content/drive')
ruta = '/content/drive/MyDrive/Colab Notebooks/Prácticas _(para _Github)/2.Practica2/dataset_banco.csv' #QUÍ VA MI RUTA
data = pd.read_csv(ruta)

# Dataframe es la variable data

Mounted at /content/drive


In [None]:
print(data.shape)
data.head()

(45215, 17)


Unnamed: 0,age,job,marital,education,default,balance,housing,loan,contact,day,month,duration,campaign,pdays,previous,poutcome,y
0,58,management,married,tertiary,no,2143.0,yes,no,unknown,5,may,261.0,1,-1.0,0,unknown,no
1,44,technician,single,secondary,no,29.0,yes,no,unknown,5,may,151.0,1,-1.0,0,unknown,no
2,33,entrepreneur,married,secondary,no,2.0,yes,yes,unknown,5,may,76.0,1,-1.0,0,unknown,no
3,47,blue-collar,married,unknown,no,1506.0,yes,no,unknown,5,may,92.0,1,-1.0,0,unknown,no
4,33,unknown,single,unknown,no,1.0,no,no,unknown,5,may,198.0,1,-1.0,0,unknown,no


In [None]:
# Veamos las variables categóricas y las numéricas

data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 45215 entries, 0 to 45214
Data columns (total 17 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   age        45215 non-null  int64  
 1   job        45213 non-null  object 
 2   marital    45214 non-null  object 
 3   education  45214 non-null  object 
 4   default    45215 non-null  object 
 5   balance    45213 non-null  float64
 6   housing    45215 non-null  object 
 7   loan       45215 non-null  object 
 8   contact    45215 non-null  object 
 9   day        45215 non-null  int64  
 10  month      45215 non-null  object 
 11  duration   45214 non-null  float64
 12  campaign   45215 non-null  int64  
 13  pdays      45214 non-null  float64
 14  previous   45215 non-null  int64  
 15  poutcome   45215 non-null  object 
 16  y          45215 non-null  object 
dtypes: float64(3), int64(4), object(10)
memory usage: 5.9+ MB


____________________________________________
#4. Limpieza

Realizaremos el proceso de limpieza teniendo en cuenta las situaciones más comunes:

1. Datos faltantes en algunas celdas
2. Columnas irrelevantes (que no responden al problema que queremos resolver)
3. Registros (filas) repetidos
4. Valores extremos (*outliers*) en el caso de las variables numéricas. Se deben analizar en detalle pues no necesariamente la solución es eliminarlos
5. Errores tipográficos en el caso de las variables categóricas

Al final de este proceso de limpieza deberíamos tener un set de datos **íntegro**, listo para la fase de Análisis Exploratorio.



## 4.1 Datos faltantes

Acá comenzamos a ver que los datos no están completos, pues no todas las columnas tienen la misma cantidad de registros.

El número total de registros debería ser 45.215. Sin embargo columnas como "job", "marital", "education", "balance", "duration" y "pdays".

Por ser tan pocos los datos  faltantes optaremos por eliminar las filas correspondientes:

____________________________________________

Por ser tan pocos los datos faltantes optaremos por eliminar las filas correspondientes:

In [None]:
data.isna().sum()

In [None]:
data.dropna(inplace=True)
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 45207 entries, 0 to 45214
Data columns (total 17 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   age        45207 non-null  int64  
 1   job        45207 non-null  object 
 2   marital    45207 non-null  object 
 3   education  45207 non-null  object 
 4   default    45207 non-null  object 
 5   balance    45207 non-null  float64
 6   housing    45207 non-null  object 
 7   loan       45207 non-null  object 
 8   contact    45207 non-null  object 
 9   day        45207 non-null  int64  
 10  month      45207 non-null  object 
 11  duration   45207 non-null  float64
 12  campaign   45207 non-null  int64  
 13  pdays      45207 non-null  float64
 14  previous   45207 non-null  int64  
 15  poutcome   45207 non-null  object 
 16  y          45207 non-null  object 
dtypes: float64(3), int64(4), object(10)
memory usage: 6.2+ MB


___________________________________________
##4.2 Columnas irrelevantes

Una columna irrelevante puede ser:

- **Una columna que no contiene información relevante para el problema que queremos resolver**. Por ejemplo en este caso podría ser una columna que no guarde relación con el posible perfil del cliente (deporte favorito, hobbies, comida favorita, etc.)
- **Una columna categórica pero con un sólo nivel**. Por ejemplo si en la columna "job" solo tuviésemos el nivel "unknown".
- **Una columna numérica pero con un sólo valor**. Por ejemplo si en la columna "edad" todos los valores fuesen iguales a 50.
- **Columnas con información redundante**. Por ejemplo si además de las columnas "month" y "day" tuviésemos la columna "month-day", resultado de combinar las dos anteriores.

Si tenemos la duda de si alguna columna puede ser relevante o no lo mejor es dejarla (y más adelante en posteriores etapas podremos darnos cuenta de si se debe preservar o no).

En este caso todas las columnas pueden resultar relevantes, pero debemos verificar que no haya columnas categóricas con un sólo nivel, o columnas numéricas con un sólo valor:

___________________________________________

In [None]:
# Conteo de los niveles en las diferentes columnas categóricas

cols_cat = ['job','marital','education','default','housing',
           'loan','contact','month','poutcome','y']

for col in cols_cat:
  print(f'Columna {col}:{data[col].nunique()} subniveles')

Columna job:18 subniveles
Columna marital:6 subniveles
Columna education:10 subniveles
Columna default:2 subniveles
Columna housing:2 subniveles
Columna loan:6 subniveles
Columna contact:5 subniveles
Columna month:12 subniveles
Columna poutcome:6 subniveles
Columna y:2 subniveles


____________________________________________

*   Todas las columnas tienen más de 1 subnivel. No eliminaremos niguna.
*   Verificaremos lo que ocurre con las columnas numéricas:

____________________________________________


In [None]:
data.describe()

____________________________________________

*   Todas las columnas numpercias tienen desviaciones estándar ("std") diferentes de cero, lo que indica que no tienen un único valor.

*   Preservaremos todas las columnas numéricas.

* ****La desviación estándar es una medida que nos indica qué tan dispersos o alejados están los valores de un conjunto de datos respecto a su media o promedio. En otras palabras, nos ayuda a entender cuánto varían los valores individuales de un conjunto de datos con respeceto a su valor promedio.****

* Imagina que tienes un conjunto de datos que representa a las alturas de los estudiantes en una clase. Si la desviación estándar es baja, significa que la mayoría de loe estudiantes tienen alturas muy similares entre sí y cercanas a la altura promedio de la clase. Por otro lado, si la desviación estándar es alta, significa que las alturas de los estudiantes están muy dispersas, algunos son muy altos y otros muy bajos en comparación con la altura promedio.

* ****Entonces, la desviación estándar nos da una idea de la dispersión o variablidad de los datos alrededor de su promedio. Una desviación estándar baja indica que los datos están más agrupados alrededor del promedio, mientras que una desviación estándar alta indica que los datos están más dispersos o separados del promedio.****

____________________________________________




In [None]:
# Cálcula la media del atributo "pdays: Días de contacto al usuario antes de la campaña actual "

media = data['pdays'].mean()
print("Promedio de días de contacto, media =",media)

In [None]:
# Graficar un histograma del atributo "pdays"
plt.hist(data['pdays'], bins=20, color='skyblue', edgecolor='black', alpha=0.7)

# Agregar una línea vertical para mostrar la media
plt.axvline(media, color='red', linestyle='deshed',linewidth=1)

# Etiquetas y título
plt.xlabel('Valor variable pdays')
plt.ylabel('Frecuencia')
plt.title('Histograma variable pdays, con media')

In [None]:
 # Cálcula desviación estándar del atributo(variable)"pdays"

 desviacion_estandar = data['pdays'].std()
 print("Desviación estándar de la variable pdays: ",desviacion_estandar)

In [None]:
# Graficar un histograma del atributo "pdays"
plt.hist(data['pdays'],bins=20, color='skyblue', edgecolor='black',alpha=0.7)

# Agregar una línea vertical para mostrar la desviación estándar
plt.axvline(desviacion_estandar, color='black',linestyle='deshed',linewidth=1)

# Etiquetas y título
plt.xlabel('Valor de la variable pdays')
plt.ylabel('Frecuencia')
plt.title('Histograma de la variable pdays, co desviación estándar')

# Mostrar la gráfica
plt.show()

In [None]:
# Conto para saber la cantidad de -1, de la variable "pdays"

cont-1_pdays = data['pdays'].value.counts()[-1]
print(con-1_pdays)

____________________________________________
# 4.3 Filas repetidas
____________________________________________

In [None]:
# Mostramos la cantidad de registros antes de aplicar una transformación, limpieza o filtro
print(f'Tamaño dataframe antes de eliminar las filas repetidas:{data.shape}')
data.drop_duplicates(inplace=True)
# Mostramos la cantidad de registros después de aplicar una transformación, limpieza o filtro
print(f'Tamaño del dataframe después de eliminar las filas repetidas:{data.shape}')

____________________________________________
# 4.4 ***Outliers*** en las variables numéricas

No siempre se deben eliminar los *ouliers* porque depensiendo de la variable numérrica analizada estos pueden contener información importante.

Creemos gráficos tipo "boxplot" de las columnas numéricas:
____________________________________________

In [None]:
# Generar gráficas individuales para las variables numéricas
# están en rangos diferentes
cols_num = ['age','balance','day','durantion','campaign','pdays','prevous']

fig,ax = plt.subplots(nrows=7, ncols=1, figsize=(8,30))
fig.subplots_adjust(hspace=0.5)

for i,col in enumerate(cols_num):
  sns.boxplot(x=col,data=data,ax=ax[i])
  ax[i].set_title(col)

_________________________________________
#Observaciones:
* ***age : *** hay sujetos con edades mucho mayores a 100 años.
* ***duration :*** hay valores negativos.
* ***previous :*** hay un valor extremadamente alto (cercano a 300).
_________________________________________

In [None]:
# Eliminar filas con  "age">100
print(f'Tamaño del set antes de eliminar registros de edad: {data.shape}')
data = data.drop(data[data['age']>100].index)
print(f'Tamañi del set después de eliminar registros de edad: {data.shape}')