# Fase 3: An√°lisis descriptivo de los datos

#### 1. Importamos el archivo csv y procedemos a realizar el an√°lisis de los datos

In [None]:
import pandas as pd
import numpy as np
df = pd.read_csv('../data/transform_data/bank_clean.csv', low_memory=False)

#### 2. Analizamos las estad√≠sticas de nuestras columnas num√©ricas

In [None]:
# Calculamos la media, mediana, m√≠nimo, m√°ximo, percentiles, desviaci√≥n est√°ndar.
df.describe()

#### 3. Detecci√≥n de valores at√≠picos (Outliers)

In [None]:
# Detecci√≥n de outliers con IQR
Q1 = df["age"].quantile(0.25)
Q3 = df["age"].quantile(0.75)
IQR = Q3 - Q1

# Rango de valores esperados
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

# Filtramos valores at√≠picos
outliers = df[(df["age"] < lower_bound) | (df["age"] > upper_bound)]
outliers.shape

#### 4. An√°lisis de variables categ√≥ricas

In [None]:
# Valores √∫nicos en cada variable categ√≥rica
for col in df.select_dtypes(include='object'):
    print(f"{col}: {df[col].unique()}")

#### 5. An√°lisis de correlaci√≥n entre variables num√©ricas

In [None]:
# Seleccionar solo columnas num√©ricas
df_num = df.select_dtypes(include=["number"])

# Calcular matriz de correlaci√≥n
correlaciones = df_num.corr()

# Mostrar solo correlaciones significativas (> 0.5 o < -0.5)
correlaciones[correlaciones.abs() > 0.5]

#### 6. An√°lisis de la disitribuci√≥n y asimetr√≠a

In [None]:
from scipy.stats import skew, kurtosis

# Seleccionar una columna num√©rica espec√≠fica
columna = "duration"

# Verificar si la columna es num√©rica
if np.issubdtype(df[columna].dtype, np.number):
    asimetria = skew(df[columna].dropna())
    curt = kurtosis(df[columna].dropna())

    # Mostrar resultados
    print(f"üìä An√°lisis de Asimetr√≠a y Curtosis")
    print(f"- Asimetr√≠a: {asimetria:.2f}")
    print(f"- Curtosis: {curt:.2f}")

    # Interpretaci√≥n de la asimetr√≠a
    if asimetria > 1:
        print("üî∏ Distribuci√≥n sesgada positivamente (cola larga a la derecha).")
    elif asimetria < -1:
        print("üîπ Distribuci√≥n sesgada negativamente (cola larga a la izquierda).")
    else:
        print("‚úÖ Distribuci√≥n aproximadamente sim√©trica.")

    # Interpretaci√≥n de la curtosis
    if curt > 3:
        print("Alta curtosis: distribuci√≥n con colas pesadas (leptoc√∫rtica).")
    elif curt < 3:
        print("Baja curtosis: distribuci√≥n m√°s plana de lo normal (platic√∫rtica).")
    else:
        print("‚úÖ Curtosis normal.")

else:
    print(f"‚ö†Ô∏è La columna '{columna}' no es num√©rica y no se puede analizar su distribuci√≥n.")

#### 7. Con el groupby identificamos patrones cruzando en este caso 'education' y 'duration'

In [None]:
# En este caso, groupby nos da la media de duraci√≥n de la llamada telef√≥nica, en base a la educaci√≥n del cliente
df.groupby('education')['duration'].mean()

#### 8. C√°lculo de frecuencias y proporciones

In [None]:
# Value_counts hace una proporci√≥n de los valores sobre la columna 'marital', respecto a 1 del total
df['marital'].value_counts(normalize=True)

#### Conclusiones

1. **Detecci√≥n de Outliers**:<br>
   Se indica que existen 10 filas de datos que contienen valores at√≠picos en la columna "age", y esas 10 filas tienen 29 columnas asociadas. 
   Aunque la mayor√≠a de los valores de edad se encuentran dentro de los l√≠mites razonables establecidos por el IQR, existen algunos valores 
   extremos que se desv√≠an significativamente del rango intercuart√≠lico.<br><br>

2. **An√°lisis de variables categ√≥ricas**:<br>
   Al observar los valores √∫nicos en cada variable categ√≥rica, se puede ver que algunas columnas tienen un n√∫mero limitado de categor√≠as, lo que facilita su interpretaci√≥n. Sin embargo, otras columnas, como "job" o "education", contienen un n√∫mero considerable de categor√≠as, lo que puede hacer que el an√°lisis de estas variables sea m√°s complejo.<br><br>

3. **An√°lisis de la distribuci√≥n y asimetr√≠a**:<br>
   La asimetr√≠a obtenida es 5, por lo que indica que es una distribuci√≥n sesgada positivamente, es decir, hay una cola larga a la derecha (valores altos).
   La curtosis es de 46.36, es decir, indica que es una distribuci√≥n leptoc√∫rtica, con colas m√°s pesadas y picos m√°s pronunciados que la distribuci√≥n normal.<br><br>

4. **Estructura de los datos**:<br>
   Al calcular el promedio de la columna "duration" para cada categor√≠a en "education", se obtiene una visi√≥n clara de c√≥mo var√≠a la duraci√≥n promedio seg√∫n el nivel educativo de las personas. Podemos observar como todas las categor√≠as tienen una media cercana, por ello no hay un predominio concreto de una de las categor√≠as.<br><br>

5. **C√°lculo de frecuencias y proporciones**:<br>
   Podemos observar como existe un predominio de personas casadas, respecto solteras y divorciadas. La desigual distribuci√≥n de las categor√≠as de estado civil tambi√©n debe tenerse en cuenta en futuros an√°lisis o modelos, ya que la categor√≠a "casado" podr√≠a influir de manera desproporcionada en los resultados.<br><br>