# Ejemplo 2: Tabla de frecuencias

## 1. Objetivos:
- Aprender a generar una tabla de frecuencias usando pd.cut
 
---
    
## 2. Desarrollo:

Como ya dijimos, las tablas de frecuencias dividen nuestro conjunto en segmentos de igual tamaño que contiene un número variable de muestras.

Para generar una tabla de frecuencias, lo primero que hay que hacer es decidir en cuántos segmentos vamos a dividir nuestros datos.

In [1]:
import pandas as pd

In [2]:
df = pd.read_csv('../../Datasets/melbourne_housing-clean.csv')
df.head()

Unnamed: 0.1,Unnamed: 0,suburb,address,rooms,type,price,method,seller_g,date,distance,postcode,bedroom_2,bathroom,car,land_size,council_area,latitude,longitude,region_name,property_count
0,0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,3067.0,2.0,1.0,1.0,202.0,Yarra,-37.7996,144.9984,Northern Metropolitan,4019.0
1,1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,3067.0,2.0,1.0,0.0,156.0,Yarra,-37.8079,144.9934,Northern Metropolitan,4019.0
2,2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,3067.0,3.0,2.0,0.0,134.0,Yarra,-37.8093,144.9944,Northern Metropolitan,4019.0
3,3,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,3067.0,3.0,2.0,1.0,94.0,Yarra,-37.7969,144.9969,Northern Metropolitan,4019.0
4,4,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,3067.0,3.0,1.0,2.0,120.0,Yarra,-37.8072,144.9941,Northern Metropolitan,4019.0


In [9]:
prices = df['price']
prices.max() - prices.min() #rango

8915000.0

Tomando en cuenta nuestro rango, vamos a decidir dividir nuestro conjunto en 20 segmentos. Usemos ahora nuestro método `cut` para segmentar nuestros datos.

In [4]:
pd.cut(prices, 20) # cut divide la serie en segmentos

0        (1422250.0, 1868000.0]
1         (976500.0, 1422250.0]
2        (1422250.0, 1868000.0]
3          (530750.0, 976500.0]
4        (1422250.0, 1868000.0]
                  ...          
11641      (530750.0, 976500.0]
11642     (976500.0, 1422250.0]
11643      (530750.0, 976500.0]
11644    (2313750.0, 2759500.0]
11645      (530750.0, 976500.0]
Name: price, Length: 11646, dtype: category
Categories (20, interval[float64]): [(76085.0, 530750.0] < (530750.0, 976500.0] < (976500.0, 1422250.0] < (1422250.0, 1868000.0] ... (7217000.0, 7662750.0] < (7662750.0, 8108500.0] < (8108500.0, 8554250.0] < (8554250.0, 9000000.0]]

Ok... ¿Qué acaba de suceder? `pd.cut` toma el rango completo de nuestros datos, y luego crea 20 segmentos de igual tamaño. Después, revisa uno por uno nuestros datos, los ubica en uno de los segmentos y nos regresa una `Serie` donde tenemos cada índice clasificado en el segmento que lo toca.

Ahora, para dividir nuestro dataset por segmentos, podemos utilizar `pd.groupby` y pasarle la `Serie` que obtuvimos. Lo que hace `groupby` en este caso es leer la clasificación de cada índice y agruparlos de manera que todas las muestras que pertencen a la misma clasificación queden juntas.

Después de agruparlos, podemos usar un `count` para saber cuántas muestras hay en cada grupo:

In [6]:
segmentos = pd.cut(prices, 20)

df['price'].groupby(segmentos).count() # SELECT price,  count(*) FROM df GROUP BY price

price
(76085.0, 530750.0]       1747
(530750.0, 976500.0]      4835
(976500.0, 1422250.0]     2664
(1422250.0, 1868000.0]    1278
(1868000.0, 2313750.0]     570
(2313750.0, 2759500.0]     261
(2759500.0, 3205250.0]     141
(3205250.0, 3651000.0]      67
(3651000.0, 4096750.0]      40
(4096750.0, 4542500.0]      16
(4542500.0, 4988250.0]      10
(4988250.0, 5434000.0]       5
(5434000.0, 5879750.0]       7
(5879750.0, 6325500.0]       1
(6325500.0, 6771250.0]       1
(6771250.0, 7217000.0]       0
(7217000.0, 7662750.0]       1
(7662750.0, 8108500.0]       1
(8108500.0, 8554250.0]       0
(8554250.0, 9000000.0]       1
Name: price, dtype: int64

¡Y Listo! Tenemos una tabla donde los índices son los 20 rangos en los que se dividió nuestro dataset y los valores de la tabla son los conteos de cada agrupación. De esta manera quedan aún en más evidencia los valores atípicos, ya que podemos ver varios segmentos donde la cantidad de muestras es muy baja.

Ésta podría ser aún otra manera de eliminar valores atípicos, ya que podríamos, por ejemplo, decidir eliminar todos los datos que se encuentran en segmentos con menos de 50 muestras.