# Fase 3: Análisis descriptivo de los datos

#### 1. Importamos el archivo csv y procedemos a realizar el análisis de los datos

In [None]:
import pandas as pd
df = pd.read_csv('../data/transform_data/transform_Data.csv', low_memory=False)

#### 2. Analizamos las estadísticas de nuestras columnas numéricas

In [None]:
# Calculamos la media, mediana, mínimo, máximo, percentiles, desviación estándar.
df.describe()

#### 3. Confirmamos los valores recibidos en describe, calculando la duración media de las llamadas telefónicas

In [None]:
# Calculamos la media de la columna 'duration' en segundos
print(df['duration'].mean())

#### 4. Calculamos la varianza

In [None]:
# La varianza nos indica cómo de dispersos están los datos respecto de la duración media de la llamada
print(df['duration'].var())

#### 5. Calculamos el rango

In [None]:
# El rango es la diferencia entre el valor máximo y el valor mínimo, es decir, la diferencia entre la llamada de menor y mayor duración
print(df['duration'].max() - df['duration'].min())

#### 6. Calculamos el coeficiente de variación (cv)

In [None]:
# El CV es la relación entre la desviación estándar y la media. La fórmula es: (DE / Media) * 100
print(df['duration'].std() / df['duration'].mean() * 100)

#### 7. Calculamos las estadísticas de variables categóricas

In [None]:
# Calculamos la frecuencia de la columna seleccionada
print(df['age'].value_counts())

#### 8. Calculamos el recuento total y el porcentaje de valores nulos

In [None]:
# Calculamos el porcentaje con el * 100, y con el .mean() obtenemos la media de valores
print(df.isnull().mean() * 100)

#### 9. Calculamos el rango intercuartílico

In [None]:
# Calculamos el rango intercuartílico. Q1 es el cuartil 1, Q3 es el cuartil 3. Los outliers son valores que se encuentran alejados de la media.
Q1 = df['age'].quantile(0.25)
Q3 = df['age'].quantile(0.75)
IQR = Q3 - Q1
print(IQR)

#### 10. Con el groupby identificamos patrones cruzando en este caso 'education' y 'duration'

In [None]:
# En este caso, groupby nos da la media de duración de la llamada telefónica, en base a la educación del cliente
print(df.groupby('education')['duration'].mean())

#### 11. Cálculo de frecuencias y proporciones

In [None]:
# Value_counts hace una proporción de los valores sobre la columna 'marital', respecto a 1 del total
print(df['marital'].value_counts(normalize=True))