# Fase 3: Análisis descriptivo de los datos

El análisis descriptivo tiene como objetivo proporcionar una comprensión profunda de la estructura y los patrones de los datos antes de aplicar cualquier modelo predictivo o transformaciones más complejas. A través de este proceso, no solo identificamos patrones, sino también problemas de calidad de los datos que deben ser abordados.

#### 1. Importamos el archivo csv y procedemos a realizar el análisis de los datos

In [81]:
import pandas as pd
import numpy as np
df = pd.read_csv('../data/transform_data/bank_clean.csv', low_memory=False)

#### **2. Cálculo de Estadísticas Descriptivas Básicas**

Primero, es importante obtener las estadísticas descriptivas de las variables continuas. Esto nos permitirá obtener un panorama general sobre las medias, medianas, desviaciones estándar y valores atípicos. Este cálculo se debe realizar sobre las columnas numéricas: age, duration, campaign, pdays, previous, emp_var_rate, cons_price_idx, cons_conf_idx, euribor3m, nr_employed, income, kidhome, teenhome, numwebvisitsmonth. En nuestro caso, lo realizaremos para las columnas: age, duration y campaign. Para ello, usamos el método .describe() de Pandas:

In [82]:
# Calculamos estadísticas descriptivas
df[['age', 'duration', 'campaign']].describe()

Unnamed: 0,age,duration,campaign
count,43170.0,43170.0,43170.0
mean,35.078365,257.42921,2.564999
std,16.353714,258.203313,2.767058
min,0.0,0.0,1.0
25%,30.0,103.0,1.0
50%,36.0,179.0,2.0
75%,46.0,318.0,3.0
max,98.0,4918.0,56.0


Obtenemos las siguientes conclusiones:
1. Age:<br>
La media de la edad es de aproximadamente 35 años, lo que indica que la mayoría de los contactos en la campaña provienen de personas relativamente jóvenes.<br>
La desviación estándar de 16.35 años sugiere que hay una amplia variabilidad en las edades de las personas contactadas.

2. Duration:<br>
La media de la duración de la llamada es de aproximadamente 257 segundos, lo que sugiere que las llamadas, en promedio, duran alrededor de 4-5 minutos.<br>
La desviación estándar es considerablemente alta (258.2 segundos), lo que indica una gran variabilidad en la duración de las llamadas.

3. Campaign:<br>
El promedio de contactos realizados por persona durante la campaña es de aproximadamente 2.56, lo que indica que, en general, los contactos no son demasiados repetitivos, pero tampoco aislados.<br>
La desviación estándar de 2.77 muestra que hay algunas personas que recibieron muchos más contactos que la mayoría.

#### **3. Análisis de Frecuencia y Proporciones para Variables Categóricas**

Las variables categóricas, como el marital, education, y y (resultado de la campaña), pueden analizarse mediante el cálculo de frecuencias y proporciones. Esto nos ayudará a entender la distribución de estas variables en el conjunto de datos.

#### 3.1 Frecuencia y Proporción de Estado Civil (marital):

Para obtener las frecuencias de los diferentes estados civiles de los clientes, utilizamos value_counts():

In [83]:
# Frecuencia de estado civil
estado_civil_freq = df['marital'].value_counts()
estado_civil_proporciones = df['marital'].value_counts(normalize=True)

print(estado_civil_freq)
print(estado_civil_proporciones)

marital
MARRIED     26254
SINGLE      12105
DIVORCED     4811
Name: count, dtype: int64
marital
MARRIED     0.608154
SINGLE      0.280403
DIVORCED    0.111443
Name: proportion, dtype: float64


Obtenemos las siguientes conclusiones:
1. La mayoría de las personas en el dataset están casadas (26,254), lo que representa 60.82% del total.
2. Las personas solteras constituyen 28.04%, con 12,105 registros.
3. Las personas divorciadas son la minoría, representando 11.14% con 4,811 registros.

#### 3.2 Frecuencia y Proporción de Nivel Educativo (education):

De manera similar, calculamos la frecuencia y las proporciones para el nivel educativo:

In [84]:
# Frecuencia de nivel educativo
education_freq = df['education'].value_counts()
education_proporciones = df['education'].value_counts(normalize=True)

print(education_freq)
print(education_proporciones)

education
university.degree      14699
high.school             9925
basic.9y                6309
professional.course     5477
basic.4y                4356
basic.6y                2386
illiterate                18
Name: count, dtype: int64
education
university.degree      0.340491
high.school            0.229905
basic.9y               0.146143
professional.course    0.126871
basic.4y               0.100903
basic.6y               0.055270
illiterate             0.000417
Name: proportion, dtype: float64


Obtenemos las siguientes conclusiones:
1. La mayor parte de los clientes tienen un título universitario (34.05%) o han completado secundaria (22.99%).
2. La educación básica está dividida en varias categorías:<br>
Básica 9 años: 14.61%<br>
Básica 4 años: 10.09%<br>
Básica 6 años: 5.53%
3. La categoría "illiterate" (analfabetos) representa menos del 0.05% (solo 18 personas).

#### 3.3 Análisis de la Variable Objetivo (y):

Para entender la distribución de la variable de interés, que es el resultado de la campaña (y), también es útil calcular sus frecuencias y proporciones:

In [85]:
# Frecuencia de resultados de la campaña
resultado_freq = df['y'].value_counts()
resultado_proporciones = df['y'].value_counts(normalize=True)

print(resultado_freq)
print(resultado_proporciones)

y
no     38326
yes     4844
Name: count, dtype: int64
y
no     0.887792
yes    0.112208
Name: proportion, dtype: float64


Obtenemos las siguientes conclusiones:
1. El bajo porcentaje de conversión sugiere que la campaña podría no estar bien dirigida o que los clientes requieren incentivos adicionales para suscribirse. 
2. 88.78% de las personas no se suscribieron.
3. Solo 11.22% aceptaron la oferta.

#### **4. Análisis por Grupos (GroupBy)**

El análisis por grupos es útil para obtener insights sobre cómo ciertas características afectan a otras variables, especialmente la variable objetivo y. Aquí analizamos cómo las variables categóricas impactan la variable objetivo.

#### 4.1 Análisis de la Variable 'marital' vs 'y'

Podemos calcular las medias de las variables continuas segmentadas por el estado civil (marital), para ver si hay diferencias en la duración de la llamada, edad, ingresos, etc., según el estado civil:

In [86]:
# Análisis de duración por estado civil
duracion_por_estado_civil = df.groupby('marital')['duration'].mean()
print(duracion_por_estado_civil)

marital
DIVORCED    251.966951
MARRIED     256.794279
SINGLE      260.977200
Name: duration, dtype: float64


Obtenemos las siguientes conclusiones:
1. Se observa que las personas solteras tienen un valor más alto en la variable analizada.
2. Las personas casadas y divorciadas presentan valores más bajos y similares.
3. Esto sugiere que el estado civil podría estar relacionado con ciertas diferencias en el comportamiento del cliente dentro de la campaña.

#### 4.2 Análisis de la Variable 'education' vs 'y':
Igual que en el análisis anterior, pero ahora segmentado por nivel educativo:

In [87]:
# Análisis de duración por nivel educativo
duracion_por_educacion = df.groupby('education')['duration'].mean()
print(duracion_por_educacion)

education
basic.4y               264.402204
basic.6y               263.083822
basic.9y               260.404977
high.school            260.479295
illiterate             276.777778
professional.course    252.658755
university.degree      252.862031
Name: duration, dtype: float64


Obtenemos las siguientes conclusiones:
1. Sorprendentemente, las personas con menor educación (analfabetos) tienen el valor más alto en la variable analizada.
2. Los universitarios y quienes han tomado cursos profesionales tienen valores más bajos.
3. Esto podría indicar que las campañas de marketing son más efectivas en personas con menor educación formal, lo que podría estar relacionado con factores socioeconómicos y de acceso a la información.

#### 4.3 Análisis de la Variable 'income' vs 'y':
El análisis por grupo también se puede aplicar a variables continuas como los ingresos:

In [88]:
# Análisis de ingresos por resultado de la campaña
ingresos_por_resultado = df.groupby('y')['Income'].mean()
print(ingresos_por_resultado)

y
no     93308.669180
yes    92584.301197
Name: Income, dtype: float64


Obtenemos las siguientes conclusiones:
1. Las diferencias entre los valores no son muy significativas, lo que sugiere que la suscripción a la campaña no está fuertemente correlacionada con los ingresos que reciben las personas.
2. Sin embargo, la ligera diferencia puede indicar que quienes no se suscriben tienden a tener unos ingresos levemente más elevados.

#### **5. Análisis de la Distribución de Variables Continuas (Asimetría)**

#### 5.1 Cálculo de asimetría de la columna 'age'

Como se mencionó antes, la asimetría de la edad nos ayuda a entender si la distribución de edades está sesgada hacia un lado:

In [89]:
asimetria_age = df['age'].skew()
print(f'Asimetría de la edad: {asimetria_age}')

Asimetría de la edad: -0.6826750360913654


La asimetría de edad nos da un valor de -0.682, por lo que obtenemos las siguientes conclusiones:
1. Un valor negativo indica que la distribución está sesgada a la izquierda.
2. En este caso, hay una mayor concentración de valores en edades más altas, mientras que hay una menor cantidad de edades más bajas (cola más larga hacia la izquierda).
3. No es una asimetría extrema, pero sí sugiere que la mayoría de las edades están en un rango medio-alto.

#### 5.2 Cálculo de asimetría de la columna 'income'

De igual manera, calcular la asimetría de los ingresos nos dará una idea de si los datos están sesgados hacia valores bajos o altos:

In [90]:
asimetria_income = df['Income'].skew()
print(f'Asimetría de los ingresos: {asimetria_income}')

Asimetría de los ingresos: 0.0040749853534228705


La asimetría de ingresos nos da un valor de 0.004, por lo que obtenemos las siguientes conclusiones:
1. Un valor cercano a 0 indica que la distribución es aproximadamente simétrica.
2. Esto significa que los ingresos están distribuidos de manera bastante equilibrada, sin sesgo hacia valores más bajos o más altos.
3. Es una señal de que la media y la mediana probablemente sean bastante similares.

#### **Conclusiones Generales**

1. La mayoría de los clientes son casados y con educación universitaria o secundaria.<br>
Más del 60% de los clientes están casados, mientras que los solteros y divorciados representan un 40% combinado.<br>
Casi el 57% de los clientes tienen educación superior o secundaria, lo que sugiere que las estrategias de marketing deben estar alineadas con este nivel de educación.

2. Existe una clara dificultad para convertir clientes en la campaña de marketing.<br>
Menos del 12% de los clientes se suscribieron, lo que indica que la estrategia de contacto no ha sido del todo efectiva.<br>
Sería clave analizar qué factores (como duración de llamada o canal de contacto) pueden estar influyendo en esta baja tasa de conversión.

3. Las diferencias en estado civil y nivel educativo pueden influir en la suscripción.<br>
Se observa que la distribución de la variable "y" (suscripción) no es uniforme entre los distintos grupos.<br>
Los clientes con mayor educación pueden estar más dispuestos a considerar la oferta, mientras que los casados pueden ser más conservadores en sus decisiones financieras.

4. La distribución de la edad y los ingresos sugiere tendencias interesantes.<br>
La edad tiene una asimetría de -0.68, lo que indica que hay más clientes jóvenes que mayores en el dataset.<br>
Los ingresos tienen una asimetría cercana a 0 (0.004), lo que sugiere una distribución más equilibrada.<br>
Sería relevante cruzar estas variables con la tasa de suscripción para identificar patrones clave.<br>

5. El perfil del cliente ideal podría definirse mejor para optimizar la campaña.<br>
La información obtenida sugiere que se pueden segmentar mejor los clientes para mejorar la tasa de conversión.<br>
Se recomienda realizar un análisis más profundo de las características de quienes sí se suscribieron, para adaptar la estrategia comercial en función de esos perfiles.

