<a href="https://colab.research.google.com/github/JCaballerot/Statistics-DataScience/blob/main/01-Fundamentos-Estadistica-Descriptiva.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


<img src="https://storage.googleapis.com/kaggle-datasets-images/4471/6849/ef168f48f7a3fc4c669f4bd419c3f7ab/dataset-cover.jpg?t=2017-11-12-21-28-19" alt="HTML5 Icon" style="width: 600px; height: 450px;">
<div style="text-align: center"></div>

<h1 style="text-align: center;">Bank Marketing Dataset</h1>



**Introducción**

En este laboratorio, aprenderás a usar Python para analizar datos aplicando los fundamentos de estadística descriptiva. Trabajaremos con el conjunto de datos de marketing bancario para explorar las características de los clientes y comprender cómo aplicar técnicas estadísticas clave.

### Tabla de Contenidos

1. [Importación de librerías](#importacion-de-librerias)
2. [Lectura del dataset](#lectura-del-dataset)
3. [Análisis estadístico básico](#analisis-estadistico-basico)
   - [Media, mediana, moda, cuantiles](#media-mediana-moda-y-cuantiles)
   - [Desviación estándar y rangos](#desviacion-estandar-y-rangos)
4. [Visualización de datos](#visualizacion-de-datos)
   - [Histogramas](#histogramas)
   - [Boxplots](#boxplots)


---

## 1. Importación de librerías


Estas librerías son fundamentales para el análisis de datos. pandas y numpy nos permiten manejar y procesar datos eficientemente, mientras que seaborn y matplotlib nos ayudan a visualizarlos.

In [None]:
# Importamos las librerías necesarias para manejar datos y realizar visualizaciones.

import pandas as pd
import numpy as np
from sklearn.preprocessing import KBinsDiscretizer
import seaborn as sns
import matplotlib.pyplot as plt


## 2. Lectura del dataset


 En este paso, cargamos el archivo bank.csv que contiene datos sobre clientes de una campaña de marketing de un banco. Exploramos las primeras filas para asegurarnos de que el archivo se ha cargado correctamente.

In [None]:
# Cargamos los datos desde un archivo CSV y mostramos las primeras filas para verificar su correcta lectura.
pddf = pd.read_csv('bank.csv')
print("Primeras filas del dataset:")
print(pddf.head())


### 2.1. Exploración inicial de datos



Este análisis inicial nos permite entender el tamaño del conjunto de datos (número de filas y columnas) y los tipos de datos presentes en cada columna, lo cual es útil para preparar el análisis.

In [None]:
# Mostramos el tamaño del dataset y el tipo de datos para cada columna.
print("Dimensiones del dataset:", pddf.shape)
print("Tipos de datos en cada columna:")
print(pddf.dtypes)


## 3. Medidas de tendencia central


### 3.1. Media


La media nos proporciona el valor promedio de una variable. Aquí calculamos la media de la edad de los clientes.

In [None]:
# Calculamos la media de la edad.
print("Media de edad:", pddf['age'].mean())

### 3.2. Mediana


La mediana es el valor central de una distribución y es menos sensible a valores atípicos que la media.

In [None]:
# Calculamos la mediana de la edad.
print("Mediana de edad:", pddf['age'].median())

### 3.3. Cuantiles


Los cuantiles nos ayudan a dividir los datos en partes iguales. Aquí se muestran los valores de edad al 10%, 25%, 50% (mediana), 75% y 90%.

In [None]:
# Cuantiles de edad
print(np.percentile(pddf.age, [10, 25, 50, 75, 90]))


### 3.4. Análisis agrupado con groupby


**Media agrupada por estado civil**


In [None]:
# Agrupamos los datos por estado civil y calculamos la media de la edad para cada grupo.
print(pddf.groupby('marital')['age'].mean())


**Conteo de observaciones por estado civil**

In [None]:
# Mostramos el número de observaciones en cada grupo de estado civil.
print(pddf.groupby('marital')['age'].count())


El uso de groupby es crucial para realizar análisis estadísticos segmentados. Agrupar los datos por estado civil, por ejemplo, nos permite ver cómo se distribuyen las edades en función de esa variable.

**Media y conteo estándar por educación**


In [None]:
# Calculamos la media y desviación estándar de la duración de la llamada según el nivel educativo.
grouped = pddf.groupby('education')['duration'].agg(['count', 'mean'])
print(grouped)


## 4. Medidas de dispersión

### 4.1. Desviación estándar y rangos


La desviación estándar nos da una idea de la dispersión de los datos alrededor de la media. El rango aproximado nos permite observar el intervalo de valores donde se encuentra la mayoría de los datos.

In [None]:
# Calculamos la desviación estándar y el rango de la edad.
media_edad = pddf['age'].mean()
std_edad = pddf['age'].std()
print(f"Desviación estándar de la edad: {std_edad}")
print(f"Rango aproximado de edad: {media_edad - std_edad} - {media_edad + std_edad}")


### 4.2. Cálculo del coeficiente de variación (CV)


Coeficiente de Variación (CV) = (Desviación Estándar / Media) * 100
Esto nos da una métrica que nos permite comparar la variabilidad de dos o más variables independientemente de sus unidades o escalas.
Se multiplica por 100 para expresar el resultado en porcentaje, facilitando la interpretación.

In [None]:
# Calculamos el CV de la variable 'age' (edad).
mean_age = pddf['age'].mean()
std_age = pddf['age'].std()
cv_age = (std_age / mean_age) * 100
print(f"Coeficiente de variación de la edad (age): {cv_age:.2f}%")

In [None]:

# Calculamos el CV de la variable 'duration' (duración de las llamadas).
mean_duration = pddf['duration'].mean()
std_duration = pddf['duration'].std()
cv_duration = (std_duration / mean_duration) * 100
print(f"Coeficiente de variación de la duración (duration): {cv_duration:.2f}%")

**Interpretación:**

CV de la edad (26.78%): Esto indica que la edad tiene una variabilidad moderada respecto a su media.

CV de la duración (60.45%): La duración de las llamadas tiene una mayor variabilidad relativa que la edad, lo que sugiere que los tiempos de las llamadas son más dispersos en relación con su promedio.

### 4.3. Rango

El rango es la diferencia entre el valor máximo y el valor mínimo de una variable.



In [None]:
# Calculamos el rango de la edad.
rango_edad = pddf['age'].max() - pddf['age'].min()
print(f"Rango de la edad: {rango_edad}")


### 4.4 Cálculo de rangos estadísticos y conteo de casos


Primero, definimos los rangos de edad manualmente para dividir la población en intervalos (rangos), luego contamos cuántos casos caen dentro de cada rango.

In [None]:
# Definimos los intervalos de edad (por ejemplo, en intervalos de 10 años).
bins = [10, 20, 30, 40, 50, 60, 70, 80, 90]

# Usamos pd.cut para clasificar las edades en los rangos definidos.
pddf['rango_edad'] = pd.cut(pddf['age'], bins=bins, right=False)


In [None]:
# Mostramos el conteo de casos por cada rango de edad.
conteo_rangos = pddf['rango_edad'].value_counts().sort_index()

print(conteo_rangos)


## 5. Visualización de datos


### 5.1. Histogramas


El histograma nos ayuda a visualizar la frecuencia con la que aparecen ciertos valores de edad en el dataset.

In [None]:
# Histograma de la edad para visualizar la distribución.
pddf['age'].hist(bins=5)
plt.title("Distribución de edades")
plt.xlabel("Edad")
plt.ylabel("Frecuencia")
plt.show()


In [None]:
# Histograma más atractivo de la distribución de edades usando seaborn.
plt.figure(figsize=(10,6))
sns.histplot(pddf['age'], bins=10, kde=True, color='skyblue')
plt.title("Distribución de Edades de Clientes", fontsize=16)
plt.xlabel("Edad", fontsize=14)
plt.ylabel("Frecuencia", fontsize=14)
plt.grid(True)
plt.show()


### 5.2. Boxplots


In [None]:
# Boxplot de la duración de la llamada.
sns.boxplot(x='age', data=pddf)
plt.title("Boxplot de la Edad")
plt.show()


El boxplot nos permite visualizar la dispersión de los datos y detectar valores atípicos (outliers).



**Identificación de outliers usando el rango intercuartílico (IQR)**


In [None]:
# Calculamos los límites para detectar outliers.
Q1 = np.percentile(pddf['age'], 25)
Q3 = np.percentile(pddf['age'], 75)
RIC = Q3 - Q1
upper_limit = Q3 + 1.5*RIC
lower_limit = Q1 - 1.5*RIC
print(f"Límite superior: {upper_limit}")
print(f"Límite inferior: {lower_limit}")


El rango intercuartílico nos ayuda a identificar los outliers, o valores atípicos, que están muy alejados del rango normal de los datos.

## Conclusión:

Has completado el laboratorio de Introducción y Estadística Descriptiva utilizando Python. A lo largo del análisis, hemos utilizado diversas herramientas para explorar y entender el dataset de manera eficaz. Las técnicas mostradas aquí son aplicables a cualquier análisis de datos en Ciencia de Datos.

---

## Reto: Desafíos Estadísticos


A continuación, tienes seis preguntas retadoras para que pongas en práctica lo que has aprendido sobre estadística descriptiva y visualización de datos en Python. Utiliza el dataset de **Bank Marketing** para resolverlas. ¡Manos a la obra!


1. **¿Cuál es el coeficiente de variación del balance (`balance`) de los clientes?**  
   - Compara este coeficiente con el de las variables `age` (edad) y `duration` (duración). ¿Cuál de estas variables tiene mayor variabilidad relativa? ¿Por qué crees que ocurre esto?


2. **Realiza un análisis agrupado por nivel de educación (`education`) y calcula la media, mediana y desviación estándar del `balance` de los clientes.**  
   - ¿Existen diferencias significativas en el `balance` promedio entre los diferentes niveles educativos? ¿Qué implicaciones podría tener esto para una campaña de marketing?


3. **Calcula los rangos intercuartílicos (RIC) para las variables `duration` y `campaign` (número de contactos realizados durante la campaña).**  
   - Compara ambos RIC y discute cuál de las dos variables tiene una mayor dispersión alrededor de la mediana.


4. **Crea un histograma y un boxplot para la variable `balance`.**  
   - A partir de estos gráficos, identifica si existen valores atípicos (outliers) y describe cómo afectan la distribución del balance.


5. **Utilizando la función `groupby`, analiza la media y el rango intercuartílico (RIC) de la variable `duration` en función de la variable `job` (profesión).**  
   - ¿Qué profesiones tienden a tener mayor duración de llamadas? ¿Podrías identificar algún patrón que pueda interesar a un equipo de marketing?

6. **Usa el método de rangos estadísticos para dividir la variable `balance` en cinco categorías (bins).**  
   - Luego, crea una tabla que muestre el conteo de clientes en cada categoría y visualízalo en un gráfico de barras. ¿Qué puedes inferir sobre la distribución del `balance` de los clientes?



---
## Gracias por completar este laboratorio!