# Estimados de Locación y Variabilidad

Hay dos grandes categorías de datos que manejamos en Ciencia de Datos: datos estructurados y datos no estructurados. Por el momento sólo vamos a hablar sobre datos estructurados. Los datos estructurados pueden subdividirse de la siguiente manera:

1. Numéricos: Datos representados por números que pueden tomar una cantidad no predefinida de valores. a) Discretos: Datos que sólo pueden tomar el valor de un número entero. b) Continuos: Datos que pueden toman cualquier valor dentro de un intervalo.
2. Categóricos: Datos que sólo pueden tomar un conjunto específico de valores que representan un conjunto de posibles categorías. a) Binarios: Datos categóricos que sólo tienen dos categorías posibles. b) Ordinales: Datos categóricos que tienen un orden explícito.

#**Estimados de locación**


Los estimados de locación nos sirven para determinar qué valor describe mejor un conjunto de datos. A este valor le llamamos el "valor típico" de nuestro conjunto. Dos estimados son los más comunes y lo más utilizados:

* Promedio (o media)
* Mediana

Veamos cómo se calculan usando pandas.

Vamos a utilizar un primer dataset para aprender a calcular estimados de locación usando pandas.

El dataset que usaremos en esta sesión contiene información acerca de propiedades que estuvieron (o están) en venta en la ciudad de Melbourne, Australia. El dataset contiene las características físicas de la propiedad, su locación, el tipo de vivienda que es y el precio de la propiedad.

Vamos a analizar la variable precio para entender cómo están distribuidos los precios de propiedades en esta ciudad.

In [None]:
import pandas as pd


In [None]:
df = pd.read_csv('/content/drive/MyDrive/Remoto Datasets/Remoto melbourne_housing-clean.csv', index_col=0)


In [None]:
df.describe()


Unnamed: 0,rooms,price,distance,postcode,bedroom_2,bathroom,car,land_size,latitude,longitude,property_count
count,11646.0,11646.0,11646.0,11646.0,11646.0,11646.0,11646.0,11646.0,11646.0,11646.0,11646.0
mean,2.885025,1068142.0,9.583059,3102.080543,2.859437,1.514855,1.564743,554.458097,-37.809574,144.992541,7455.297098
std,0.958165,643728.2,5.304187,84.043125,0.971155,0.690793,0.946698,1460.432326,0.072706,0.095678,4368.452377
min,1.0,85000.0,0.0,3000.0,0.0,0.0,0.0,0.0,-38.18255,144.43181,249.0
25%,2.0,640000.0,5.9,3044.0,2.0,1.0,1.0,162.0,-37.8554,144.9315,4385.0
50%,3.0,895500.0,9.1,3083.0,3.0,1.0,1.0,412.0,-37.8032,144.998,6567.0
75%,3.0,1325000.0,12.3,3146.0,3.0,2.0,2.0,656.0,-37.759163,145.052775,10331.0
max,8.0,9000000.0,47.4,3977.0,20.0,8.0,10.0,76000.0,-37.41381,145.52635,21650.0


In [None]:
df.info()
#dtype
#shape
#column names

<class 'pandas.core.frame.DataFrame'>
Int64Index: 11646 entries, 0 to 11645
Data columns (total 19 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   suburb          11646 non-null  object 
 1   address         11646 non-null  object 
 2   rooms           11646 non-null  int64  
 3   type            11646 non-null  object 
 4   price           11646 non-null  float64
 5   method          11646 non-null  object 
 6   seller_g        11646 non-null  object 
 7   date            11646 non-null  object 
 8   distance        11646 non-null  float64
 9   postcode        11646 non-null  float64
 10  bedroom_2       11646 non-null  float64
 11  bathroom        11646 non-null  float64
 12  car             11646 non-null  float64
 13  land_size       11646 non-null  float64
 14  council_area    11646 non-null  object 
 15  latitude        11646 non-null  float64
 16  longitude       11646 non-null  float64
 17  region_name     11646 non-null 

**La media o promedio**

La media o promedio se obtiene sumando todos los valores de un conjunto de datos numéricos y dividiéndolos entre la cantidad de valores que tenemos en nuestro conjunto.

Vamos a analizar la columna price. Veamos cuál es el "valor típico" obtenido usando la media (promedio):

In [None]:
df['price'].mean()


**La mediana**

La mediana se obtiene de la siguiente manera:

1. Primero ordenamos de manera ascendente nuestros datos
2. Luego tomamos el valor que está justo en medio de nuestra secuencia ordenada de valores.
3. Si nuestro conjunto tiene un número par de valores y por lo tanto no tiene un valor justo a la mitad de la secuencia, se toma el promedio de los dos valores que se encuentran a la mitad de la secuencia.

Ahora veamos el "valor típico" obtenido usando la mediana:

In [None]:
df['price'].median()


**RETO 1**

**a) Implementando estimados de locación**

Este Reto va a consistir en implementar el promedio y la mediana sin utilizar los métodos mean y median que vienen incluidos en pandas. Implementar algoritmos desde 0 es una excelente práctica que nos ayuda a entenderlos mejor y recordarlos con más precisión.

Puedes utilizar pandas y otras funciones vectorizadas o de reducción. Las únicas funciones que no están permitidas son mean y median. Las dos funciones que vas a crear deben recibir una serie de pandas y regresar un solo número.

In [None]:
def promedio_custom(serie):
    ## Tu código va aquí
    ## ...
    ## ...
    pass

In [None]:
def mediana_custom(serie):
    ## Tu código va aquí
    ## ...
    ## ...
    pass

**b) Estimados de locación de diámetros de meteoritos**

Ahora vamos a utilizar nuestras funciones custom para obtener estimados de locación de un conjunto de datos que contiene información acerca de objetos que orbitaron cerca de la Tierra durante el periodo de enero y febrero de 1995.

El dataset se llama 'near_earth_objects-jan_feb_1995-clean.csv' y la columna que vamos a analizar se llama 'estimated_diameter.meters.estimated_diameter_max'. Esta columna contiene el diámetro máximo estimado de cada objeto.

El reto es el siguiente:

Lee el dataset usando pandas.
Obtén el promedio y la mediana usando tus funciones custom y asígnalas a promedio_diametro y mediana_diametro.
Corre la celda que contiene el código para verificar tus resultado

In [None]:
#AQUÍ VA TU CÓDIGO

#**Valores atípicos**


Hemos aprendido a conseguir "valores típicos" se sirven para describir un conjunto de datos. Así como existen valores que se parecen a la norma, hay también valores que difieren mucho de la norma. Estos valores suelen sobresalir de nuestro conjunto de datos porque se encuentran a mucha distancia del grueso de las muestras.

Estos valores son los "valores atípicos". Hay veces en las que tener valores atípicos no nos preocupa, pero otras veces pueden ser peligrosos porque modifican nuestros estimados de locación, dándonos descripciones erróneas de nuestro conjunto de datos.

Más adelante aprenderemos a detectar valores atípicos, pero por lo pronto vamos a aprender un estimado de locación que es más robusto (menos sensible a valores atípicos) que el promedio y la mediana: la media truncada.



**Media Truncada**

La media truncada es un estimado de locación más robusto que el promedio y la mediana. Esto significa que es menos sensible a valores atípicos. La media truncada se obtiene de la siguiente manera:

1. Primero ordenamos nuestro conjunto de manera ascendente.
2. Después decidimos qué porcentaje de nuestros datos vamos a truncar. Los valores más comunes suelen variar entre 5% y 25%.
3. Divide el porcentaje acordado entre dos y elimina esa fracción de tus datos del inicio y del final de tu secuencia. Por ejemplo, si decides truncar un 5%, elimina el 2.5% de tus datos del inicio de tu secuencia y el otro 2.5% del final de tu secuencia.
4. Obtén el promedio de los valores restantes.

Afortunadamente, no tenemos que hacer esto manualmente. La librería scipy ya ofrece un método para obtener la media truncada fácilmente:



In [None]:
from scipy import stats


In [None]:
df = pd.read_csv('../../Datasets/melbourne_housing-clean.csv', index_col=0)


In [None]:
df.head()


In [None]:
stats.trim_mean(df['price'], 0.1)


Si obtenemos el promedio y la mediana podemos observar que la distancia entre la media truncada y la mediana es menor que la distancia entre el promedio y la mediana. Esto podría ser indicador de que tenemos valores atípicos en nuestro conjunto. Ya aprendemos después cómo determinar si esto es cierto o no.



#**Estimados de variabilidad**


Los estimados de locación se utilizan para intentar encontrar un "valor típico" que describa adecuadamente nuestro conjunto de datos. Los estimados de variabilidad, en cambio, nos sirven para determinar qué tan dispersos están los datos alrededor de nuestro valor típico. Nuestros datos pueden estar en general o muy cerca o muy distantes del valor típico, y los estimados de variabilidad nos ayudan a determinar esto.

Uno de los estimados más utilizados es la desviación estándar. Veamos cómo funciona.

**Desviación Estándar**

Para obtener la desviación estándar se llevan a cabo los siguientes pasos:

1. Primero se obtiene el promedio de nuestros datos.
2. Después sacamos todas las diferencias entre cada valor de nuesrto conjunto y nuestro valor típico.
2. Después elevamos todos los resultados al cuadrado.
3. Luego se suman todos estos valores.
4. Luego se dividen entre la cantidad de valores - 1.
5. Finalmente se saca la raíz cuadrada del valor resultante.

pandas tiene un método con el que podemos calcular la desviación estándar rápidamente:

In [None]:
df = pd.read_csv('../../Datasets/melbourne_housing-clean.csv', index_col=0)


In [None]:
df['price'].std()


Entre mayor sea nuestro resultado quiere decir que nuestros datos están más dispersos (es decir, hay muchos datos que se alejan de nuestro valor típico); entre menor sea el resultado quiere decir que nuestros datos están menos dispersos (es decir, están más cerca de nuestro valor típico).

Obviamente hay que tomar en cuenta el rango de nuestros valores para determinar si nuestra desviación estándar es pequeña o grande. Por ejemplo, una desviación estándar de 10 es muy pequeña si nuestros valores tienen un rango de 1 000 000. En cambio, una desviación estándar de 10 es mucho mayor si nuestros valores tienen un rango de 40.

**RETO 2**

Como ya vimos, la desviación estándar es la medida que nos da la "desviación típica" (o esperada) de nuestros datos a comparación del promedio. Eso quiere decir que normalmente vamos a esperar que una gran parte de nuestros datos se encuentren a 1 desviación estándar de distancia del promedio. Entre más nos alejamos, menos muestras deberíamos de encontrar.

Vamos a comprobar esto usando nuestro dataset de meteoritos que orbitan cerca de la Tierra. Tu Reto consiste en los siguientes pasos:

1. Crea un DataFrame con el dataset 'near_earth_objects-jan_feb_1995-clean.csv'.
2. Obtén la cantidad total de muestras en tu DataFrame.
3. Obtén la desviación estándar de la columna 'estimated_diameter.meters.estimated_diameter_max'. Los siguientes pasos realízalos todos utilizando esta columna.
4. Obtén el porcentaje de muestras que están a una distancia de 1 desviación estándar del promedio.
5. Obtén el porcentaje de muestras que están a una distancia de 2 desviaciones estándares del promedio.
6. Obtén el porcentaje de muestras que están a una distancia de 3 desviaciones estándares del promedio.

## Estadísticos de Orden



Existen otras formas de calcular la dispersión de nuestros datos que requieren que nuestros datos estén ordenados ascendentemente. Estos cálculos nos dan otra perspectiva acerca de la distribución de nuestros datos que puede sernos de mucha utilidad.

Tres de los estadísticos de orden más comunes son el Rango, los Percentiles y el Rango intercuartílico. Veamos cómo funcionan.

**Rango**

El rango es simplemente la diferencia entre el valor máximo de un conjunto y el valor mínimo de un conjunto. Por lo tanto, podemos obtenerla de esta manera:



In [None]:
df = pd.read_csv('../../Datasets/melbourne_housing-clean.csv', index_col=0)


In [None]:
df.head()


In [None]:
df['price'].max() - df['price'].min()


**Percentiles**

El percentil P es un valor que indica que por lo menos P% de los valores en el conjunto tienen este valor o un valor menor; mientras que (100-P)% de los valores tienen este valor o un valor mayor. Por ejemplo, para obtener el percentil 80 primero ordenamos nuestro conjunto de manera ascendente y después elegimos un valor de manera que el 80% de los valores en nuestro conjunto sean iguales o menores a ese valor.

En pandas, los percentiles están implementados como cuantiles, que es lo mismo que los percentiles pero en versión fracciones. Es decir, el percentil 80 es lo mismo que el cuantil 0.8.

In [None]:
df['price'].quantile(0.8)


En este caso, el 80% de los valores en nuestro conjunto de datos tienen un valor menor o igual a 1 440 000.

Como podrás ya haber imaginado, el valor mínimo equivale al percentil 0 y el valor máximo equivale al percentil 100, mientras que la mediana es exactamente igual que el percentil 50.

Sacando los percentiles podemos darnos una idea más o menos precisa de cómo están distribuidos nuestros datos.

Por ejemplo:

In [None]:
print(f'Valor mínimo: {df["price"].min()}')
print(f'Percentil 10: {df["price"].quantile(0.1)}')
print(f'Percentil 25: {df["price"].quantile(0.25)}')
print(f'Percentil 50: {df["price"].median()}')
print(f'Percentil 75: {df["price"].quantile(0.75)}')
print(f'Percentil 90: {df["price"].quantile(0.9)}')
print(f'Valor máximo: {df["price"].max()}')

Viendo estos números podemos inferir varias cosas:

* Casi todos nuestros datos están concentrados en valores menores a 2 000 000.
*Eso quiere decir que tenemos algunos valores atípicos demasiado grandes (si los comparamos con el resto de los valores)
*La mediana nos estaba dando un número más cercano al verdadero "valor típico" que el promedio.
*El promedio tenía un sesgo hacia arriba debido a los valores extremadamente grandes.
* El rango entre el valor máximo y mínimo no nos da una medida representativa de qué valores pueden tomar nuestros datos.


**Rango intercuartílico**


Otra medida muy común es lo que llamamos el rango intercuartílico, que es la diferencia entre el percentil 75 y el percentil 25. Este número nos da una idea del rango que tienen los valores más cercanos al valor típico.

En nuestro ejemplo, nuestro rango intercuartílico sería:

In [None]:
df["price"].quantile(0.75) - df["price"].quantile(0.25)


Podemos observar que el rango de los "valores típicos" es muchísimo menor al rango total de nuestros datos

**RETO**

Percentiles para evaluar nuestro dataset de meteoritos
Ahora vamos a aplicar los percentiles a nuestro dataset de objetos que han orbitado cerca de la Tierra. Queremos entender cómo están organizados nuestros datos.

En el Reto pasado, usamos la desviación estándar para obtener la "desviación esperada" de nuestros datos. Aprendimos que la mayoría de nuestros datos están a una distancia de 1 desviación estándar o menos del promedio. Entre más desviaciones estándares añadíamos, menos datos quedaban fuera de nuestros subconjuntos. Lo que no sabemos es dónde están concentrados nuestros datos.

Piensa en lo siguiente:

Si tenemos un dataset con rango de 1 a 10, y nuestra desviación estándar es 2.5, los datos pueden estar organizados de maneras muy distintas:

* Podría ser que el promedio es 3 y que la mayoría de los datos están en el rango de 0.5 a 5.5. En este caso podría haber datos muy distintos al resto en el parte superior del rango total (los valores entre 5.5 y 10).
* Podría ser que el promedio es 7 y que la mayoría de los datos están en el rango de 4.5 a 9.5. En este caso los datos atípicos estarían concentrados en la parte inferior del rango total.
* Podría ser que el promedio es 5 y que la mayoría de los datos están concentrados en el rango de 2.5 a 7.5. En este caso, lo más normal es que los datos estén alrededor del valor que está justo a la mitad del rango total y es cada vez más raro encontrar datos muy pequeños o muy grandes.

Hay muchas otras posibilidades, pero lo importante es darse cuenta de que saber solamente la desviación estándar nos da aún una descripción muy ambigua de nuestros datos. Saber el promedio ya es un primer indicador de lo que está pasando en realidad. Pero saber además los percentiles nos puede dar una idea muchísimo más clara de cómo están acomodados nuestros datos.

Lee el dataset 'near_earth_objects-jan_feb_1995-clean.csv' y obtén percentiles de la columna 'estimated_diameter.meters.estimated_diameter_max'. Comenta tus hipótesis acerca de qué podemos aprender sobre la organización de nuestros datos usando los percentiles.



# **Introducción a la visualización de datos: Distribuciones**

Si tomamos el valor mínimo y el valor máximo de nuestro conjunto de datos tenemos el rango dentro del cual están contenidos todos nuestros datos. Pero dentro de ese rango los valores pueden estar distribuidos de muchas maneras distintas. A veces están muy cerca del valor mínimo, a veces están muy cerca del valor máximo; a veces se amontonan casi todos alrededor de la mediana y sólo unos pocos toman los valores extremos; a veces generan incluso dos "montículos" alrededor de los cuales se concentran la mayoría de los datos. Hay muchísimas posibilidades.

Usando valores individuales es imposible tener una idea general de nuestro conjunto y es por eso que solemos utilizar algunas técnicas que toman en cuenta todo el conjunto de datos al mismo tiempo. Hoy vamos a aprender cómo a través de la visualización de datos podemos darnos una idea mucho más precisa de cómo están organizados los datos en nuestro conjunto.

**BOXPLOTS**

Los Boxplots (o diagramas de caja) son una manera de visualizar nuestros datos de forma que la organización de los percentiles se haga muy evidente.

Los Boxplots nos ayudan a discernir si nuestros datos están sesgados (si tienen una tendencia), si están dispersos o agrupados y si existen valores atípicos con valores extremos. 

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd

In [None]:
df = pd.read_csv('../../Datasets/melbourne_housing-clean.csv', index_col=0)


In [None]:
sns.set(style="whitegrid")
sns.boxplot(x=df['price'])

¿Qué significa todo esto?

* La caja está delimitada por 2 valores: El percentil 25 y el percentil 75.
* La línea vertical dentro de la caja indica el percentil 50 (o sea, la mediana).
* Los "bigotes" intentan abarcar el resto de los datos a la izquierda y derecha de la caja, PERO no se extienden más allá de una distancia equivalente a 1.5 * Rango Intercuartílico. Como bien recordarás, el rango intercuartílico es la diferencia entre el percentil 75 y el percentil 25. Si multiplicamos 1.5 por ese Rango Intercuartílico obtenemos el tamaño máximo de los bigotes.
* Los puntos individuales que están fuera de los bigotes son, obviamente, las muestras cuyo valor excede el tamaño máximo de los bigotes. No podemos tomar esto como una "Regla Absoluta", pero en general se considera que estos valores son los valores atípicos de nuestro conjunto.

Como puedes ver, esta gráfica nos da muchísima información muy útil.

* Ahora sabemos que la mayoría de nuestros datos están concentrados en valores menores a 2 000 000 y que los precios muy altos son anomalías en nuestro conjunto.
* Sabemos que, dentro del rango total de los datos, tenemos una distribución que tiende hacia los valores más pequeños.
*También sabemos que nuestros datos en general están muy concentrados (o sea, poco dispersos), pero que hay una "colita" de datos hacia la derecha que se extiende bastante lejos.

Vamos a ver qué pasa si graficamos una línea vertical justo donde está el promedio de nuestros datos. Para esto vamos a usar matplotlib, otra librería de visualizaciones de datos que aprenderemos a detalle más adelante:

In [None]:
sns.set(style="whitegrid")
sns.boxplot(x=df['price'])
plt.axvline(df['price'].mean(), c='y')

Como puedes ver, a pesar de los valores atípicos tan extremos, tenemos tantos valores en el rango menor de nuestros datos que el promedio queda bastante cercano a la mediana.

Los valores atípicos pueden significar múltiples cosas:

* A veces son errores de medición
* A veces son errores humanos de transcripción
* Podrían ser simplemente anomalías naturales causadas por fenómenos aleatorios
* O podrían tener un significado más profundo: por ejemplo, la riqueza de alguien como Carlos Slim es una anomalía en este país, pero que es un indicador de desigualdad muy fuerte que nos da información útil acerca de la distribución de la riqueza

Decidir cómo lidiar con estos valores atípicos (si eliminarlos o dejarlos) depende totalmente del contexto.

Dado que nuestro análisis de este conjunto aún no es muy profundo, por el momento vamos a asumir la posición de eliminar estos datos, solamente para ver cómo se haría este proceso.

**Rango Intercuartílico y valores atípicos**

Podemos utilizar la medida que utiliza el boxplot para limitar el tamaño de los bigotes y filtrar todos los datos que excedan ese límite. A esta medida se le suele llamar el Score de Rango Intercuartílico (IQR-Score). De esa manera estamos filtrando los valores atípicos (al menos lo que se considera valores atípicos bajo este esquema).



In [None]:
iqr = df['price'].quantile(0.75) - df['price'].quantile(0.25)
filtro_inferior = df['price'] > df['price'].quantile(0.25) - (iqr * 1.5)
filtro_superior = df['price'] < df['price'].quantile(0.75) + (iqr * 1.5)

df_filtrado = df[filtro_inferior & filtro_superior]

In [None]:
sns.boxplot(df_filtrado['price'])


**Tabla de frecuencias**



Los percentiles segmentan nuestros datos en segmentos de distinto tamaño en los que tenemos el mismo número de muestras. En cambio, las tablas de frecuencias segmentan nuestros datos en segmentos que miden lo mismo pero que contienen una cantidad distinta de muestras.

Esto puede darnos otra perspectiva de nuestros datos que también resulta muy útil. Vamos a aprender a generar una tabla de frecuencias usando pandas.



In [None]:
prices = df['price']
prices.max() - prices.min()

Tomando en cuenta nuestro rango, vamos a decidir dividir nuestro conjunto en 20 segmentos. Usemos ahora nuestro método cut para segmentar nuestros datos.



In [None]:
pd.cut(prices, 20)


¿Qué acaba de suceder? pd.cut toma el rango completo de nuestros datos, y luego crea 20 segmentos de igual tamaño. Después, revisa uno por uno nuestros datos, los ubica en uno de los segmentos y nos regresa una Serie donde tenemos cada índice clasificado en el segmento que lo toca.

Ahora, para dividir nuestro dataset por segmentos, podemos utilizar pd.groupby y pasarle la Serie que obtuvimos. Lo que hace groupby en este caso es leer la clasificación de cada índice y agruparlos de manera que todas las muestras que pertencen a la misma clasificación queden juntas.

Después de agruparlos, podemos usar un count para saber cuántas muestras hay en cada grupo:

In [None]:
segmentos = pd.cut(prices, 20)

df['price'].groupby(segmentos).count()