<a href="https://colab.research.google.com/github/joselopez11c/config-properties/blob/main/estadistica_descriptiva/caso_I.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


<h1 align=center><font size = 5>Bank Marketing Dataset
</font></h1>

---


<img src="https://storage.googleapis.com/kaggle-datasets-images/4471/6849/ef168f48f7a3fc4c669f4bd419c3f7ab/dataset-cover.jpg?t=2017-11-12-21-28-19" alt="HTML5 Icon" style="width: 600px; height: 450px;">
<div style="text-align: center"></div>

## Introducción

En este laboratorio, aprenderá a usar python para analizar datos haciendo uso de fundamentos de estadística.



## Tabla de Contenidos

<div class="alert alert-block alert-info" style="margin-top: 20px">

<font size = 3>
    
1. <a href="#item31">Importación de librerías</a>  
2. <a href="#item32">Lectura del dataset</a>  
3. <a href="#item34">Análisis estadístico básico</a>  
4. <a href="#item34">Visualización de datos</a>  

</font>
</div>

# 1. Importación de librerías


In [None]:
# Importamos las librerías necesarias para manejar datos y realizar visualizaciones.

import pandas as pd
import numpy as np

from sklearn.preprocessing import KBinsDiscretizer

import seaborn as sns
import matplotlib.pyplot as plt


# 2. Lectura del dataset

In [None]:
# Cargamos los datos desde un archivo CSV y mostramos las primeras filas para verificar su correcta lectura.
pddf = pd.read_csv('bank.csv')
print("Primeras filas del dataset:")
print(pddf.head())


In [None]:
# Exploración inicial de datos
# Mostramos el tamaño del dataset y el tipo de datos para cada columna.
print("Dimensiones del dataset:", pddf.shape)


In [None]:
print("Número de entradas en el dataset:", len(pddf))


In [None]:
print("Tipos de datos en cada columna:")
print(pddf.dtypes)


# 3. Análisis estadístico básico


## Media

In [None]:
## 4.1 Media
# Calculamos la media de la edad para entender la edad promedio de los individuos en el dataset.
print("Media de edad:", pddf['age'].mean())


In [None]:
pddf.groupby('marital')['age'].mean()

In [None]:
pddf.groupby('marital')['age'].count()

## mediana

In [None]:
# La mediana nos proporciona el valor central de la edad, reduciendo el impacto de valores atípicos.
print("Mediana de edad:", pddf['age'].median())


In [None]:
pddf.sort_values(by = 'age', ascending = False)['age']

## Cuantiles

In [None]:
np.percentile(pddf.age, 50)

In [None]:
np.percentile(pddf.age, 25)
# El 75% de los clientes tiene más de 32 años

In [None]:
# el 50% de los clientes tienen entre 32 y 49 años

In [None]:
# el 80% de los clientes tienen entre 28 y 58 años

In [None]:
# Los cuantiles proporcionan una visión clara de la distribución de la edad.
print("Cuantiles de edad al 10%, 25%, 50% (mediana), 75%, y 90%:")
print(np.percentile(pddf.age, [10, 25, 50, 75, 90]))


## Moda

In [None]:
pddf.groupby('marital')['age'].count()

## Desviación estándar

In [None]:
# Calculamos la media y desviación estándar de la edad para evaluar la variabilidad.
media_edad = pddf.age.mean()
std_edad = pddf.age.std()
print("Media de edad:", media_edad)
print("Desviación estándar de la edad:", std_edad)


In [None]:
pddf.age.mean()

In [None]:
pddf.age.std()

In [None]:
print("Rango aproximado de edad normal:", (media_edad - std_edad, media_edad + std_edad))

Los datos en promedio se encuentran entre 41 - 12 = 29 y 41 + 12 = 53 años

In [None]:
pddf.duration.mean()

In [None]:
pddf.duration.std()

In [None]:
media_duracion = pddf.duration.mean()
std_duracion = pddf.duration.std()
print("Media de duración:", media_duracion)
print("Desviación estándar de duración:", std_duracion)

## Rangos

In [None]:
# Definimos y calculamos rangos de edad para categorizar a los individuos.
maximo = pddf['age'].max()
minimo = pddf['age'].min()
amplitud = maximo - minimo
rangos = 5
amplitud_rango = amplitud / rangos
print("Amplitud de rango de edad:", amplitud_rango)


In [None]:
def rango_edad(x):
  if x <= 33:
    return 'a. 18 - 33'
  elif x <= 48:
    return 'b. 34 - 48'
  elif x <= 63:
    return 'c. 49 - 63'
  elif x <= 78:
    return 'd. 64 - 78'
  else:
    return 'e- 78 - 95'


In [None]:
pddf['rango_edad'] = pddf.age.apply(lambda x: rango_edad(x))

In [None]:
pddf.groupby('rango_edad')['age'].count()

In [None]:
pddf.age.hist(bins = 5)

In [None]:
from sklearn.preprocessing import KBinsDiscretizer

In [None]:
# fit: hacer el cálculo del procedimiento.
# transform: Usa el objeto entrenado
# fit_transform: Realiza el cálculo y además usa el objeto.

In [None]:
# Discretizar variables

from sklearn.preprocessing import KBinsDiscretizer

discretizer = KBinsDiscretizer(n_bins = 5,
                               encode = 'ordinal',
                               strategy = "uniform").fit(pddf[['age', 'duration']])


In [None]:
pddf[['age_cat', 'duration_cat']] = discretizer.transform(pddf[['age', 'duration']])

In [None]:
pddf[['age_cat', 'duration_cat']].head()

In [None]:
pddf.groupby('age_cat')['age'].count()

# 4. Visualización de datos

In [None]:
# Histograma de la edad para visualizar la distribución de edades en el dataset.
pddf.age.hist(bins = 5)
plt.title("Distribución de Edades")
plt.xlabel("Edad")
plt.ylabel("Frecuencia")
plt.show()

## Boxplot

In [None]:
sns.boxplot(data = pddf, x = 'age')

In [None]:
# Utilizamos el rango intercuartílico para identificar y reportar valores atípicos.

Q3 = np.percentile(pddf.age, 75)
Q1 = np.percentile(pddf.age, 25)
RIC = Q3 - Q1

upper_limit = Q3 + 1.5*RIC
lower_limit = Q1 - 1.5*RIC

print(f'El límite superior de los datos es: {upper_limit}')
print(f'El límite inferior de los datos es: {lower_limit}')

---
## Gracias por completar este laboratorio!