# Fase 3: Análisis descriptivo de los datos

#### 1. Importamos el archivo csv y procedemos a realizar el análisis de los datos

In [None]:
import pandas as pd
import numpy as np
df = pd.read_csv('../data/transform_data/bank_clean.csv', low_memory=False)

#### 2. Analizamos las estadísticas de nuestras columnas numéricas

In [None]:
# Calculamos la media, mediana, mínimo, máximo, percentiles, desviación estándar.
df.describe()

#### 3. Detección de valores atípicos (Outliers)

In [None]:
# Detección de outliers con IQR
Q1 = df["age"].quantile(0.25)
Q3 = df["age"].quantile(0.75)
IQR = Q3 - Q1

# Rango de valores esperados
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

# Filtramos valores atípicos
outliers = df[(df["age"] < lower_bound) | (df["age"] > upper_bound)]
outliers.shape

#### 4. Análisis de variables categóricas

In [None]:
# Valores únicos en cada variable categórica
for col in df.select_dtypes(include='object'):
    print(f"{col}: {df[col].unique()}")

#### 5. Análisis de correlación entre variables numéricas

In [None]:
# Seleccionar solo columnas numéricas
df_num = df.select_dtypes(include=["number"])

# Calcular matriz de correlación
correlaciones = df_num.corr()

# Mostrar solo correlaciones significativas (> 0.5 o < -0.5)
correlaciones[correlaciones.abs() > 0.5]

#### 6. Análisis de la disitribución y asimetría

In [None]:
from scipy.stats import skew, kurtosis

# Seleccionar una columna numérica específica
columna = "duration"

# Verificar si la columna es numérica
if np.issubdtype(df[columna].dtype, np.number):
    asimetria = skew(df[columna].dropna())
    curt = kurtosis(df[columna].dropna())

    # Mostrar resultados
    print(f"📊 Análisis de Asimetría y Curtosis")
    print(f"- Asimetría: {asimetria:.2f}")
    print(f"- Curtosis: {curt:.2f}")

    # Interpretación de la asimetría
    if asimetria > 1:
        print("🔸 Distribución sesgada positivamente (cola larga a la derecha).")
    elif asimetria < -1:
        print("🔹 Distribución sesgada negativamente (cola larga a la izquierda).")
    else:
        print("✅ Distribución aproximadamente simétrica.")

    # Interpretación de la curtosis
    if curt > 3:
        print("Alta curtosis: distribución con colas pesadas (leptocúrtica).")
    elif curt < 3:
        print("Baja curtosis: distribución más plana de lo normal (platicúrtica).")
    else:
        print("✅ Curtosis normal.")

else:
    print(f"⚠️ La columna '{columna}' no es numérica y no se puede analizar su distribución.")

#### 7. Con el groupby identificamos patrones cruzando en este caso 'education' y 'duration'

In [None]:
# En este caso, groupby nos da la media de duración de la llamada telefónica, en base a la educación del cliente
df.groupby('education')['duration'].mean()

#### 8. Cálculo de frecuencias y proporciones

In [None]:
# Value_counts hace una proporción de los valores sobre la columna 'marital', respecto a 1 del total
df['marital'].value_counts(normalize=True)

#### Conclusiones

1. **Detección de Outliers**:<br>
   Se indica que existen 10 filas de datos que contienen valores atípicos en la columna "age", y esas 10 filas tienen 29 columnas asociadas. 
   Aunque la mayoría de los valores de edad se encuentran dentro de los límites razonables establecidos por el IQR, existen algunos valores 
   extremos que se desvían significativamente del rango intercuartílico.<br><br>

2. **Análisis de variables categóricas**:<br>
   Al observar los valores únicos en cada variable categórica, se puede ver que algunas columnas tienen un número limitado de categorías, lo que facilita su interpretación. Sin embargo, otras columnas, como "job" o "education", contienen un número considerable de categorías, lo que puede hacer que el análisis de estas variables sea más complejo.<br><br>

3. **Análisis de la distribución y asimetría**:<br>
   La asimetría obtenida es 5, por lo que indica que es una distribución sesgada positivamente, es decir, hay una cola larga a la derecha (valores altos).
   La curtosis es de 46.36, es decir, indica que es una distribución leptocúrtica, con colas más pesadas y picos más pronunciados que la distribución normal.<br><br>

4. **Estructura de los datos**:<br>
   Al calcular el promedio de la columna "duration" para cada categoría en "education", se obtiene una visión clara de cómo varía la duración promedio según el nivel educativo de las personas. Podemos observar como todas las categorías tienen una media cercana, por ello no hay un predominio concreto de una de las categorías.<br><br>

5. **Cálculo de frecuencias y proporciones**:<br>
   Podemos observar como existe un predominio de personas casadas, respecto solteras y divorciadas. La desigual distribución de las categorías de estado civil también debe tenerse en cuenta en futuros análisis o modelos, ya que la categoría "casado" podría influir de manera desproporcionada en los resultados.<br><br>