# Fase 4: Visualización de los datos

#### 1. Importamos el archivo csv e instalamos las extensiones necesarias

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

df = pd.read_csv('../data/transform_data/bank_clean.csv', low_memory=False)

#### 2. Histograma columna 'age'

In [None]:
# Podemos observar la frecuencia de valores sobre la columna age
plt.figure(figsize=(10, 6))
sns.histplot(df['age'], kde=True)
plt.title('Distribución de Age')
plt.xlabel('Age')
plt.ylabel('Frecuencia')
plt.show()

#### 3. Countplot de la columna 'education'

In [None]:
# A través de un Countplot observamos la distribución en la columna 'education'
plt.figure(figsize=(10, 6))
sns.countplot(x='education', data=df)
plt.title('Distribución de Education')
plt.xlabel('Education')
plt.ylabel('Frecuencia')
plt.xticks(rotation=45)
plt.show()

#### 4. Scatter plot de 'age' y 'duration'

In [None]:
# Muestra la relación entre la edad de los clientes y la duración de la última llamada
plt.figure(figsize=(10, 6))
sns.scatterplot(x='age', y='duration', data=df)
plt.title('Relación entre Age y Duration')
plt.xlabel('Age')
plt.ylabel('Duration')
plt.show()

#### 5. Pie chart de la columna 'marital'

In [None]:
df["marital"].value_counts().plot.pie(autopct="%1.1f%%", figsize=(10, 6))
plt.title("Proporción Marital")
plt.ylabel("")
plt.show()

#### 6. Boxplot entre 'income' y 'marital'

In [None]:
# Muestra la distribución de los ingresos de los clientes según su estado civil
plt.figure(figsize=(10, 6))
sns.boxplot(x='marital', y='Income', data=df)
plt.title('Distribución de Ingresos según Marital')
plt.xlabel('Marital')
plt.ylabel('Income')
plt.show()

#### 7. Heatmap entre 'housing' y 'loan'

In [None]:
# Muestra la relación entre la posesión de un préstamo hipotecario (housing) y un préstamo personal (loan)
housing_loan = pd.crosstab(df['housing'], df['loan'], normalize='index')
plt.figure(figsize=(10, 6))
sns.heatmap(housing_loan, annot=True, cmap='Blues', fmt='.2f', cbar=False)
plt.title('Relación entre Housing y Loan')
plt.xlabel('Loan')
plt.ylabel('Housing')
plt.show()

#### 8. Barplot sobre la media de 'duration' según el 'poutcome'

In [None]:
# Muestra la media de la duración de las llamadas según el resultado de la campaña anterior
plt.figure(figsize=(10, 6))
sns.barplot(x='poutcome', y='duration', data=df)
plt.title('Duration según poutcome')
plt.xlabel('Poutcome')
plt.ylabel('Duration')
plt.xticks(rotation=45)
plt.show()

#### Conclusiones

1. **Histograma columna 'age'**:<br>
   La distribución de edades muestra un sesgo hacia la derecha, indicando que la mayoría de los clientes son más jóvenes. La mayoría de los registros se concentran en el rango de 20 a 50 años.<br><br>

2. **Countplot columna 'education'**:<br>
   La mayoría de los clientes tienen un nivel educativo bajo, específicamente con educación básica de 4 años. Esto puede sugerir que la campaña de marketing está dirigida a personas con un nivel educativo más bajo. <br><br>

3. **Scatter plot 'age' y 'duration'**:<br>
   No se observa una correlación fuerte entre la edad y la duración de las llamadas. Aunque algunas personas mayores tienen llamadas más largas, no hay un patrón claro que sugiera que la edad influye significativamente en la duración de la llamada.<br><br>

4. **Pie chart columna 'marital'**:<br>
   La mayoría de los clientes están casados, lo que podría indicar que la campaña está alcanzando predominantemente a personas casadas. El porcentaje de personas solteras es considerablemente menor.<br><br>

5. **Cálculo de frecuencias y proporciones**:<br>
   Podemos observae que los valores del heatmap, muestran una alta concentración de valores donde housing y loan son True o False juntos, podemos interpretar que las personas que tienen un préstamo hipotecario también tienen un préstamo personal, o que aquellas que no tienen ninguno de los dos, lo mantienen en conjunto.<br><br>