# Fase 3: Análisis descriptivo de los datos

#### 1. Importamos el archivo csv y procedemos a realizar el análisis de los datos

In [None]:
import pandas as pd
df = pd.read_csv('../data/transform_data/transform_Data.csv', low_memory=False)

#### 2. Analizamos las estadísticas de nuestras columnas numéricas

In [None]:
# Calculamos la media, mediana, mínimo, máximo, percentiles, desviación estándar.
df.describe()

Unnamed: 0.1,Unnamed: 0,age,default,housing,loan,duration,campaign,pdays,previous,emp.var.rate,latitude,longitude,Income,Kidhome,Teenhome,NumWebVisitsMonth
count,86170.0,37880.0,34019.0,41974.0,41974.0,43000.0,43000.0,43000.0,43000.0,43000.0,43000.0,43000.0,43170.0,43170.0,43170.0,43170.0
mean,14270.998596,39.977112,8.8e-05,0.535998,0.15562,257.739279,2.567233,962.330953,0.174023,0.077128,36.856697,-95.939067,93227.389622,1.004749,0.998633,16.59129
std,11159.482173,10.437957,0.00939,0.498708,0.362499,258.666033,2.772294,187.260394,0.497366,1.573898,7.225948,16.752282,50498.181989,0.815996,0.816008,9.241769
min,0.0,17.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,-3.4,24.396,-124.997,5841.0,0.0,0.0,1.0
25%,5351.25,32.0,0.0,0.0,0.0,102.0,1.0,999.0,0.0,-1.8,30.61475,-110.49425,49608.0,0.0,0.0,9.0
50%,11235.5,38.0,0.0,1.0,0.0,179.0,2.0,999.0,0.0,1.1,36.761,-95.8995,93009.5,1.0,1.0,17.0
75%,20600.75,47.0,0.0,1.0,0.0,319.0,3.0,999.0,0.0,1.4,43.11325,-81.42775,136740.5,2.0,2.0,25.0
max,41187.0,98.0,1.0,1.0,1.0,4918.0,56.0,999.0,7.0,1.4,49.384,-66.937,180802.0,2.0,2.0,32.0


#### 3. Confirmamos los valores recibidos en describe, calculando la duración media de las llamadas telefónicas

In [None]:
# Calculamos la media de la columna 'duration' en segundos
print(df['duration'].mean())

257.73927906976746


#### 4. Calculamos la varianza

In [None]:
# La varianza nos indica cómo de dispersos están los datos respecto de la duración media de la llamada
print(df['duration'].var())

66908.11679475455


#### 5. Calculamos el rango

In [None]:
# El rango es la diferencia entre el valor máximo y el valor mínimo, es decir, la diferencia entre la llamada de menor y mayor duración
print(df['duration'].max() - df['duration'].min())

4918.0


#### 6. Calculamos el coeficiente de variación (cv)

In [None]:
# El CV es la relación entre la desviación estándar y la media. La fórmula es: (DE / Media) * 100
print(df['duration'].std() / df['duration'].mean() * 100)

100.35957043722476


#### 7. Calculamos las estadísticas de variables categóricas

In [None]:
# Calculamos la frecuencia de la columna seleccionada
print(df['age'].value_counts())

age
31.0    1810
33.0    1704
32.0    1672
36.0    1649
34.0    1608
        ... 
98.0       2
89.0       2
95.0       1
87.0       1
94.0       1
Name: count, Length: 78, dtype: int64


#### 8. Calculamos el recuento total y el porcentaje de valores nulos

In [None]:
# Calculamos el porcentaje con el * 100, y con el .mean() obtenemos la media de valores
print(df.isnull().mean() * 100)

Unnamed: 0            0.000000
age                  56.040385
job                  50.499014
marital              50.197284
education            52.195660
default              60.521063
housing              51.289312
loan                 51.289312
contact              50.098642
duration             50.098642
campaign             50.098642
pdays                50.098642
previous             50.098642
poutcome             50.098642
emp.var.rate         50.098642
cons.price.idx       50.645236
cons.conf.idx        50.098642
euribor3m            60.840200
nr.employed          50.098642
y                    50.098642
date                 50.386445
latitude             50.098642
longitude            50.098642
id_                   0.000000
Income               49.901358
Kidhome              49.901358
Teenhome             49.901358
Dt_Customer          49.901358
NumWebVisitsMonth    49.901358
dtype: float64


#### 9. Calculamos el rango intercuartílico

In [None]:
# Calculamos el rango intercuartílico. Q1 es el cuartil 1, Q3 es el cuartil 3. Los outliers son valores que se encuentran alejados de la media.
Q1 = df['age'].quantile(0.25)
Q3 = df['age'].quantile(0.75)
IQR = Q3 - Q1
print(IQR)

15.0


#### 10. Con el groupby identificamos patrones cruzando en este caso 'education' y 'duration'

In [24]:
# En este caso, groupby nos da la media de duración de la llamada telefónica, en base a la educación del cliente
print(df.groupby('education')['duration'].mean())

education
basic.4y               264.402204
basic.6y               263.083822
basic.9y               260.404977
high.school            260.479295
illiterate             276.777778
professional.course    252.658755
university.degree      252.436567
Name: duration, dtype: float64


#### 11. Cálculo de frecuencias y proporciones

In [None]:
# Value_counts hace una proporción de los valores sobre la columna 'marital', respecto a 1 del total
print(df['marital'].value_counts(normalize=True))

marital
MARRIED     0.605825
SINGLE      0.282069
DIVORCED    0.112105
Name: proportion, dtype: float64
