## Reto 2: Tablas de frecuencias

### 1. Objetivos:
    - Aprender a generar tablas de frecuencias segmentando nuestros datos

---
    
### 2. Desarrollo:

#### a) Analizando distribución con tablas de frecuencias

Vamos a generar tablas de frecuencias de los siguientes datasets y columnas:

1. Dataset: 'near_earth_objects-jan_feb_1995-clean.csv'
    - Columnas a graficar: 'estimated_diameter.meters.estimated_diameter_max' y 'relative_velocity.kilometers_per_second'
2. Dataset: 'new_york_times_bestsellers-clean.json'
    - Columnas a graficar: 'price.numberDouble'
3. Dataset: 'melbourne_housing-clean.csv'
    - Columnas a graficar: 'land_size'
    
Estos conjuntos de datos son los mismos que graficamos en el Reto anterior. Antes de generar las tablas de frecuencias, revisa el rango de tus conjuntos de datos y decide el número de segmentos adecuado para cada uno.

Después, genera las tablas de frecuencias para cada uno de estos conjuntos de datos y compáralos con las gráficas de caja que realizaste en el Reto anterior. ¿Hay información nueva? ¿Qué ventajas o desventajas nos da esta nueva perspectiva?

Piensa cuál de las dos aproximaciones (boxplots y tablas de frecuencia) resulta más útil para detectar valores atípicos. ¿O simplemente son útiles en diferentes contextos?

In [1]:
import pandas as pd
#mount drive
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [2]:
#cargar datasets
near_earth_objects = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/Datasets/near_earth_objects-jan_feb_1995-reto_1.csv')
new_york_times_bestsellers = pd.read_json('/content/drive/MyDrive/Colab Notebooks/Datasets/new_york_times_bestsellers-clean.json')
melbourne_housing = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/Datasets/melbourne_housing-clean.csv')

In [6]:
#Rango y # de segmentos para estimated_diameter, max min
diameter_min = near_earth_objects['estimated_diameter.meters.estimated_diameter_max'].min()
diameter_max = near_earth_objects['estimated_diameter.meters.estimated_diameter_max'].max()
range_diameter = diameter_max - diameter_min
print('Rango_diam:',range_diameter)
diameter_seg=10

#Rango y # segmentos para relative velociti/second
velocity_min = near_earth_objects['relative_velocity.kilometers_per_second'].min()
velocity_max = near_earth_objects['relative_velocity.kilometers_per_second'].max()
range_velocity = velocity_max - velocity_min
print('Rango_vel:',range_velocity)
velocity_seg=5

#Rango y #seg para price
price_min = new_york_times_bestsellers['price.numberDouble'].min()
price_max = new_york_times_bestsellers['price.numberDouble'].max()
range_price = price_max - price_min
print('Rango_price:',range_price)
price_seg=5

#Rango y # seg para landsize
landsize_min = melbourne_housing['land_size'].min()
landsize_max = melbourne_housing['land_size'].max()
range_landsize = landsize_max - landsize_min
print('Rango_landsize:',range_landsize)
landsize_seg=10


Rango_diam: 6513.905031051
Rango_vel: 39.8459916905
Rango_price: 20.0
Rango_landsize: 76000.0


In [7]:
#funcion para hacer frecuencia
def frequency(df,column,n):
  bins=pd.cut(df[column],n)
  freq=bins.value_counts().sort_index()

  return freq

In [8]:
#tabla freq diameter
freq_diameter=frequency(near_earth_objects,'estimated_diameter.meters.estimated_diameter_max',diameter_seg)
freq_diameter

Unnamed: 0_level_0,count
estimated_diameter.meters.estimated_diameter_max,Unnamed: 1_level_1
"(-3.535, 654.369]",250
"(654.369, 1305.76]",36
"(1305.76, 1957.15]",9
"(1957.15, 2608.541]",2
"(2608.541, 3259.931]",2
"(3259.931, 3911.322]",1
"(3911.322, 4562.712]",0
"(4562.712, 5214.103]",0
"(5214.103, 5865.493]",0
"(5865.493, 6516.884]",1


In [9]:
#tabla freq vel rel
freq_velocity=frequency(near_earth_objects,'relative_velocity.kilometers_per_second',velocity_seg)
freq_velocity

Unnamed: 0_level_0,count
relative_velocity.kilometers_per_second,Unnamed: 1_level_1
"(0.642, 8.651]",71
"(8.651, 16.62]",118
"(16.62, 24.589]",72
"(24.589, 32.558]",32
"(32.558, 40.527]",8


In [10]:
#tabla freq precio
freq_price=frequency(new_york_times_bestsellers,'price.numberDouble',price_seg)
freq_price

Unnamed: 0_level_0,count
price.numberDouble,Unnamed: 1_level_1
"(14.97, 18.99]",14
"(18.99, 22.99]",66
"(22.99, 26.99]",1703
"(26.99, 30.99]",1238
"(30.99, 34.99]",12


In [11]:
#tabla freq tamaño
freq_landsize=frequency(melbourne_housing,'land_size',landsize_seg)
freq_landsize

Unnamed: 0_level_0,count
land_size,Unnamed: 1_level_1
"(-76.0, 7600.0]",11619
"(7600.0, 15200.0]",12
"(15200.0, 22800.0]",9
"(22800.0, 30400.0]",0
"(30400.0, 38000.0]",2
"(38000.0, 45600.0]",2
"(45600.0, 53200.0]",0
"(53200.0, 60800.0]",0
"(60800.0, 68400.0]",0
"(68400.0, 76000.0]",2
