In [32]:
import pandas as pd
df = pd.read_csv("Datasets/2022_forbes_billionaires.csv")
df.head(5)

Unnamed: 0.1,Unnamed: 0,rank,name,networth,age,country,source,industry
0,0,1,Elon Musk,$219 B,50,United States,"Tesla, SpaceX",Automotive
1,1,2,Jeff Bezos,$171 B,58,United States,Amazon,Technology
2,2,3,Bernard Arnault & family,$158 B,73,France,LVMH,Fashion & Retail
3,3,4,Bill Gates,$129 B,66,United States,Microsoft,Technology
4,4,5,Warren Buffett,$118 B,91,United States,Berkshire Hathaway,Finance & Investments


In [33]:
df["networth_numeric"] = df["networth"].apply(lambda x: x.replace("$","").replace("B", "")).astype(float)

In [34]:
df.head(3)

Unnamed: 0.1,Unnamed: 0,rank,name,networth,age,country,source,industry,networth_numeric
0,0,1,Elon Musk,$219 B,50,United States,"Tesla, SpaceX",Automotive,219.0
1,1,2,Jeff Bezos,$171 B,58,United States,Amazon,Technology,171.0
2,2,3,Bernard Arnault & family,$158 B,73,France,LVMH,Fashion & Retail,158.0


## ESTADISTICA DESCRIPTIVA <a class="anchor" id="posicion"></a>

##  Estadísticos de posición <a class="anchor" id="posicion"></a>

Los estadísticos de posición son aquellos que nos permiten dar una estimación del valor típico de la distribución de la variable. Hay que tener en cuenta que cuando trabajamos con datos, una columna puede tener varios miles de valores diferentes y necesitamos alguna medida que nos permita saber dónde se concentran la mayoría de los datos.




### Media <a class="anchor" id="media"></a>
La media es el valor promedio. Lo calculamos como la suma de todos los valores de la distribución dividido por el número de valores.


<img src="https://drive.google.com/uc?id=1uuQXTWE5-EVOR3Td66b2TINuFP_UjPFc" alt="drawing" width="350"/>




In [35]:
print("Edad media")
round(df["age"].mean(),2)

Edad media


64.27

In [36]:
print("Riqueza media (Billion $)")
round(df["networth_numeric"].mean(),2)

Riqueza media (Billion $)


4.86

### Media ponderada<a class="anchor" id="media_ponderada"></a>

La media ponderada se obtiene al multiplicar cada valor de la distribución por un peso específico y después dividiendo por la suma de todos los pesos. 

Esta métrica es útil para "disminuir" o "aumentar" el impacto de ciertas observaciones que, por su naturaleza, son menos precisas o más imprecisas. Por ejemplo, si estamos procesando datos que obtenemos de un sensor queremos que los valores de los sensores más precisos influyan más que los menos precisos. 


<img src="https://drive.google.com/uc?id=1FKhojcU53J1arnyRuI2pu35LBOjjKWyG" alt="drawing" width="400"/>


In [37]:
print("Edad media ponderando por la riqueza")
round((df["age"]*df["networth_numeric"]).sum()/ df["networth_numeric"].sum(),2)

Edad media ponderando por la riqueza


65.43

In [9]:
# Utilizando numpy
import numpy as np
round( np.average(df["age"], weights=df["networth_numeric"]),2)

65.43

In [10]:
# Riqueza media ponderada por la edad 
import numpy as np
round( np.average(df["networth_numeric"], weights=df["age"]),2)

4.95

### Mediana<a class="anchor" id="mediana"></a>

La mediana es la observación que se encuentra en la posición del centro al ordenar los datos de la distribución. En muchos casos, la mediana es un mejor estimador de la localización de la distribución ya que es menos sensible a posibles datos extremos que desvirtuarian la medida. Por ejemplo, con la riqueza de las personas más ricas del mundo, unas pocas personas tienen muchos más Billion que los demás y esto desplaza la media, sin embargo la mediana nos dará más sensibilidad sobre qué riqueza tiene la mayoría de los multimillonarios de Forbes.

In [11]:
print("Mediana de la riqueza (B $)")
print(df["networth_numeric"].median())

Mediana de la riqueza (B $)
2.4


In [12]:
print("Mediana de la edad")
print(df["age"].median())

Mediana de la edad
64.0


### Percentil
Los percentiles son una medida que nos indica la observación que ocupa cierta posición en los datos ordenados. La posición la indicamos con porcentaje, por ejemplo, qué dato ocupa la posición del 12%, el 62% o cualquier otro. Algunos percentiles tienen nombre especiales. Los cuartiles son los datos que ocupan la posición del 25%, 50% y 75%, además, el percentil 50% el la mediana.

In [13]:
print("Diferentes percentiles de la distribución de la riqueza")
df["networth_numeric"].quantile([0.1, 0.25, 0.5, 0.75, 0.9, 0.95, 0.99])

Diferentes percentiles de la distribución de la riqueza


0.10     1.200
0.25     1.500
0.50     2.400
0.75     4.500
0.90     8.400
0.95    14.000
0.99    47.319
Name: networth_numeric, dtype: float64

In [14]:
print("Diferentes percentiles de la distribución de la edad")
df["age"].quantile([0.1, 0.25, 0.5, 0.75, 0.9, 0.95, 0.99])

Diferentes percentiles de la distribución de la edad


0.10    48.0
0.25    55.0
0.50    64.0
0.75    74.0
0.90    81.0
0.95    86.0
0.99    94.0
Name: age, dtype: float64

### Mediana ponderada
Siguiendo la intuición detrás de la media ponderada, podemos, en vez de quedarnos con la observación del medio de la serie de datos utilizar los pesos para escoger la observación que separa la muestra en dos mitades cuyas sumas de peso resultan iguales.

In [36]:
# utilizando wquantiles
!pip install wquantiles
import wquantiles



In [37]:
round( wquantiles.median(df["age"], weights=df["networth_numeric"]),2)

65.0

### Media truncada
La media truncada se calcula como la media de los datos inferiores a cierta cota superior y superiores a cierta cota inferior. Esta medida nos ofrece un valor de media robusto ya que elimina los datos más extremos que podrían desvirturar la media.

In [40]:
print("Media truncada")
cota_inf = df["networth_numeric"].quantile([0.1]).iloc[0]
cota_sup = df["networth_numeric"].quantile([0.9]).iloc[0]
round(df.loc[(df["networth_numeric"] > cota_inf ) & (df["networth_numeric"] < cota_sup), "networth_numeric"].mean(),2)

Media truncada


3.01

In [39]:
# utilizando scipy
from scipy.stats import trim_mean
round(trim_mean(df["networth_numeric"], 0.1),2)

3.0

### Datos robustos y outliers

Los outliers o datos atípicos son aquellos que se encuentran muy deslocalizados con respecto a los datos habituales de la distribución. Los outliers pueden desvirtuar nuestras medidas, como por ejemplo la media. 

Es muy importante entender el origen de los outliers, ¿puede tratarse de un valor que indica un error? ¿está representando una situación que se aleja mucho de la tónica general y por tanto no interesa?  


Los outliers pueden tratarse estadísticamente o aplicar criterios de negocio para eliminarlos. En cualquier caso, lo ideal es tenerlos siempre analizados.

## MEDIDAS DE DISPERSION <a class="anchor" id="variacion"></a>

## Estadísticos de variación<a class="anchor" id="variacion"></a>

### Varianza
La estimación más común de la variabilidad es la varianza y la desviación estándar. 
La varianza es la media de las desviaciones al cuadrado. Se calcula como la sumatoria de todas las desviaciones individuales elevadas al cuadrado y se divide el resultado por el número total de observaciones.

<img src="https://drive.google.com/uc?id=16a-bnPRrDNYBLmog7IUMOR0AeGZf9Y14" alt="drawing" width="450"/>


In [16]:
import numpy as np
round(np.var(df["networth_numeric"]),2)

113.58

### Desviación estándar
<img src="https://drive.google.com/uc?id=1kfTmVza3kifNc7Ismir6gm41llhUzhUH" alt="drawing" width="450"/>

La desviación estandar es la raíz cuadrada de la varianza y siempre comparte la misma medida que los datos originales
con cuales se calculo la varianza. (La DS siempre esta en la misma medida que los datos)

La desviación estándar es un índice numérico de la dispersión de un conjunto de datos.
La desviación estándar es la distancia promedio de todos los valores medidos de una variable de la media de la distribución.Por tanto, indica cuánto se dispersan los valores individuales alrededor del valor medio. 
Mientras mayor es la desviación estándar, mayor es la dispersión.


In [17]:
round(df["networth_numeric"].std(),2)

10.66

Cuando vemos una DS =  a la media (en valores) ya podemos decir que los datos estan dispersos.  

In [18]:
import numpy as np
round(np.std(df["networth_numeric"]),2)

10.66

In [19]:
round(df["age"].std(),2)

13.22

### Desviación absoluta media
Una buena medida de la variabilidad es la estimación del valor típico de las desviaciones. Como hacer simplemente la media no nos daría mucha información ya que la combinación de desviaciones negativas anularian las desviaciones positivas, un acercamiento más simple consiste en tomar la media de los valores absolutos de las desviaciones.

<img src="https://drive.google.com/uc?id=19SviCTZxyE2Cs4sdpolJMBqphXshAbTo" alt="drawing" width="450"/>

In [20]:
round(df["networth_numeric"].mad(), 2)

4.07

### Estadísticos de órden
En ocasiones, para entender las desviaciones resulta útil centrarse en las observaciones que ocupan cierta posición ordenada dentro de la distribución y como de separadas se encuentran las mismas al ordendarse. Vamos a ver el rango y las estimaciones basadas en percentiles.

#### Rango
El rango es la diferencia entre el mayor y el menor valor de la distribución. Esta medida, en relación a los estimadores de posición y a los de desviación puede ayudarnos a entender mejor cómo se distribuyen los datos y si tenemos outliers.

In [38]:
rango = df["networth_numeric"].max() - df["networth_numeric"].min()
print(rango)
print(round(df["networth_numeric"].mean(), 2))
print(df["networth_numeric"].median())

218.0
4.86
2.4


In [39]:
rango = df["age"].max() - df["age"].min()
print(rango)
print(round(df["age"].mean(), 2))
print(df["age"].median())

81
64.27
64.0


#### Estimaciones basadas en percentiles
Ya hemos definido, en la sección de estadísticos de posición, los percentiles. Si medimos la distancia que existe entre ellos podemos tener medidas de la dispersión y desviación de la muestra. El cálculo más típcico es el IQR o rango intercuartílico que es la diferencia entre el percentil 0.75 y el 0.25.

Este valor, el IQR, nos puede ayudar a filtrar automáticamente los outliers. Resulta típico establecer un parámetro de filtrado,f , que puede ser 1.5, 3 (tipicamente) o más y filtrar todos aquellos valores que queden por encima de la mediana más f veces el rango intercuartílico y por debajo de la mediana menos f veces el rango intercuartílico.



In [26]:
IQR = df["networth_numeric"].quantile(0.75) - df["networth_numeric"].quantile(0.25)

In [27]:
print(IQR)
print([df["networth_numeric"].median() - 1.5*IQR,df["networth_numeric"].median() + 1.5*IQR])

3.0
[-2.1, 6.9]


by María Belén Camandone