In [2]:
from pydataset import data
import numpy as np
from scipy import stats 
import pandas as pd

# Estadística 1 26/07
1. Buscar un conjunto de datos a analizar:
Se recomienda que el conjunto de datos a analizar tenga variables numéricas y categóricas. Ya que también se analizarán.

In [3]:
df = pd.read_csv("data/german_credit_data.csv")
df.drop('Unnamed: 0',axis=1,inplace=True)
df.head()

Unnamed: 0,Age,Sex,Job,Housing,Saving accounts,Checking account,Credit amount,Duration,Purpose
0,67,male,2,own,,little,1169,6,radio/TV
1,22,female,2,own,little,moderate,5951,48,radio/TV
2,49,male,1,own,little,,2096,12,education
3,45,male,2,free,little,little,7882,42,furniture/equipment
4,53,male,2,free,little,little,4870,24,car


2. Extraer los siguentes estadísiticos del conjunto de datos para varias de las variables disponibles:
    * Media
    * Desviación con respecto de la media
    * Varianza
    * Desviación típica
    * Moda
    * Mediana
    * Media ponderada
    * Robustez
    * Coeficiente de variación
    * 
3. Interpretación de los resultados.
   
   * Ahora interpreta los resultados obtenidos de los diferentes estadísticos estudiados haciendo hincapié en aspectos interesantes de tus datos y explica lo mejor posible la naturaleza de los mismos.

Lo primero que hacemos es buscar si hay nulos en los datos para realizar el análisis sin esos datos para que tenga mayor robustez.

In [4]:
df.isna().sum()

Age                   0
Sex                   0
Job                   0
Housing               0
Saving accounts     183
Checking account    394
Credit amount         0
Duration              0
Purpose               0
dtype: int64

Hemos comprobado que Saving accounts y Checking accounts contenían nulos, pero como no los vamos a utilizar en este análisis no los vamos a eliminar.

Primero calculamos la media, la varianza, la desviación típica y la mediana de los valores numéricos.

In [5]:
#info
info = df[["Age","Credit amount","Duration"]].agg(['mean','var','std','median'])
display(info)

Unnamed: 0,Age,Credit amount,Duration
mean,35.546,3271.258,20.903
var,129.401285,7967843.0,145.415006
std,11.375469,2822.737,12.058814
median,33.0,2319.5,18.0


Vamos a comprobar que el método median ordena los valores antes de realizar el cálculo.

In [6]:
df["Age"].sort_values().median()

33.0

In [7]:
df["Credit amount"].sort_values().median()

2319.5

In [8]:
df["Duration"].sort_values().median()

18.0

Efectivamente, el método median ordena los valores previamente.

Con respecto a la edad, hemos constatado que la edad media para pedir un crédito es de 35.5 años, que no difieere mucho de la mediana que es de 33 años. Por lo tanto, encontramos robustez en los datos , dado que son muy cercanos. Por otro lado, los datos varían en once puntos con respecto a la media que si lo eleváramos al cuadrado coincidiría con el valor de la varianza. Al considerarse que la desviación es de once años, creemos que es una desviación a tener en cuenta.
En cuanto a la media de cantidad de crédito es de 3271 y esta vez difiere más de la mediana, ya que es de 2319, por lo que hay una diferencia mayor con respecto a la diferencia entre la media y la mediana de la edad. Esta diferencia puede ser porque realmente el valor de la cantidad de crédito es mucho más variable que la edad, es decir, podemos encontrar muchos tipos de cantidad para un crédito, en cambio hay menos rango de edad para solicitar un crédito. Lo mismo ocurre con la varianza y la desviación típica en este caso.
Con relación a la duración (en meses), encontramos que la media  es de 20.9 muy parecida a la mediana que es de 18 meses, por consiguiente hay robustez en los datos. La desviación típica es de un año, lo cual tiene sentido para el propósito que hemos visto en la tabla, como por ejemplo pedir un crédito para comprar un coche.

In [9]:
#Desviación con respecto de la media en valor absoluto (resultado positivo)
desviacion1 = np.abs(df["Age"] - df["Age"].mean())
desviacion1.head()


0    31.454
1    13.546
2    13.454
3     9.454
4    17.454
Name: Age, dtype: float64

En el caso de la edad, vemos que hay una desviación con respecto a la media ronda entorno a 14, lo que significa que hay que tenerlo en cuenta a la hora de realizar cálculos porque hay valores que se diferencian mucho como el primero que es 31 de diferencia.

In [10]:
desviacion2 = np.abs(df["Credit amount"] - df["Credit amount"].mean())
desviacion2.head()

0    2102.258
1    2679.742
2    1175.258
3    4610.742
4    1598.742
Name: Credit amount, dtype: float64

En el caso de la cantidad de crédito, vemos que hay bastante desviación con respecto a la media que ronda entorno a 2600, lo que significa que hay que tenerlo en cuenta a la hora de realizar cálculos porque hay valores que tienenmucha diferencia.

In [11]:
desviacion3 = np.abs(df["Duration"] - df["Duration"].mean())
desviacion3.head()

0    14.903
1    27.097
2     8.903
3    21.097
4     3.097
Name: Duration, dtype: float64

En este caso vemos un resultado muy similar a la columna edad.

Ahora procedemos a calcular la moda para identificar los valores que más se repiten.

In [12]:
#Moda
moda = df[["Age","Credit amount","Duration"]].mode()
display(moda)

Unnamed: 0,Age,Credit amount,Duration
0,27.0,1258,24.0
1,,1262,
2,,1275,
3,,1393,
4,,1478,


Podemos decir que solamente encontramos un valor que se repite tanto en edad como en duración.  Esto tiene sentido, ya que son valores aislados. En cambio con la cantidad de crédito, observamos que hay una gran variedad de valores que se repiten. Esto es debido a los valores pueden muy diferentes.

Ahora vamos a proceder a calcular la media ponderada para saber si todos los valores tienen el mismo peso para compararlo con la media.

In [13]:
#Media ponderada de Age
np.average(df["Age"])

35.546

In [14]:
#Media ponderada de Credit Amount
np.average(df["Credit amount"])

3271.258

In [15]:
#Media ponderada de Duration
np.average(df["Duration"])

20.903

Realmente como todos tienen el imsmo peso, se espera que sea igual que la media.

Ahora calculamos los coeficientes de variación para saber la relación entre el tamaño de la media y la desviación de la variable.

In [16]:
#Coeficiente de variación
df[["Age","Credit amount","Duration"]].std() / df[["Age","Credit amount","Duration"]].mean()

Age              0.320021
Credit amount    0.862890
Duration         0.576894
dtype: float64

Podemos decir que los coeficientes de variación son lógicos con respecto a la naturaleza de la variable. Los datos de la edad y de la duración son más homogéneos que los datos de la cantidad de crédito.

Vamos a comprobar si es robusto el análisis que estamos haciendo a través del método len para saber cuántos valores han sido analizados.

In [17]:
len(df[["Age","Credit amount","Duration"]])

1000

Podemos concluir que el análisis es robusto porque contiene mil datos.