## Reto 2: Tablas de frecuencias

### 1. Objetivos:
    - Aprender a generar tablas de frecuencias segmentando nuestros datos
 
---
    
### 2. Desarrollo:

#### a) Analizando distribución con tablas de frecuencias

Vamos a generar tablas de frecuencias de los siguientes datasets y columnas:

1. Dataset: 'near_earth_objects-jan_feb_1995-clean.csv'
    - Columnas a graficar: 'estimated_diameter.meters.estimated_diameter_max' y 'relative_velocity.kilometers_per_second'
2. Dataset: 'new_york_times_bestsellers-clean.json'
    - Columnas a graficar: 'price.numberDouble'
3. Dataset: 'melbourne_housing-clean.csv'
    - Columnas a graficar: 'land_size'
    
Estos conjuntos de datos son los mismos que graficamos en el Reto anterior. Antes de generar las tablas de frecuencias, revisa el rango de tus conjuntos de datos y decide el número de segmentos adecuado para cada uno.

Después, genera las tablas de frecuencias para cada uno de estos conjuntos de datos y compáralos con las gráficas de caja que realizaste en el Reto anterior. ¿Hay información nueva? ¿Qué ventajas o desventajas nos da esta nueva perspectiva?

Piensa cuál de las dos aproximaciones (boxplots y tablas de frecuencia) resulta más útil para detectar valores atípicos. ¿O simplemente son útiles en diferentes contextos?

In [12]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

In [13]:
def generate_frequence_table(df, column, number_of_classes):
    df = df.copy()
    df['class'] = pd.cut(df[column], number_of_classes)
    df = df.groupby('class').agg({column: ['count', 'min', 'max']})
    df.columns = ['count', 'min', 'max']
    df['range'] = df['max'] - df['min']
    df['relative_frequency'] = df['count'] / df['count'].sum()
    df['cumulative_relative_frequency'] = df['relative_frequency'].cumsum()
    df = df[['min', 'max', 'range', 'count', 'relative_frequency', 'cumulative_relative_frequency']]
    return df



In [14]:
filenames = ["near_earth_objects-jan_feb_1995-clean.csv", "new_york_times_bestsellers-clean.json", "melbourne_housing-clean.csv"]
near_earth_objects = pd.read_csv('../../Datasets/'+ filenames[0])
new_york_times_bestsellers = pd.read_json('../../Datasets/'+ filenames[1])
melbourne_housing = pd.read_csv('../../Datasets/'+ filenames[2])

In [15]:
generate_frequence_table(near_earth_objects, 'estimated_diameter.meters.estimated_diameter_max',10)
generate_frequence_table(near_earth_objects, 'relative_velocity.kilometers_per_second',10)
generate_frequence_table(new_york_times_bestsellers, 'price.numberDouble',10)
generate_frequence_table(melbourne_housing, 'land_size',10)

                              min          max       range  count  \
class                                                               
(-3.535, 654.369]        2.978791   651.688382  648.709592    274   
(654.369, 1305.76]     682.401509  1300.289270  617.887761     42   
(1305.76, 1957.15]    1425.738833  1794.898848  369.160015     10   
(1957.15, 2608.541]   2259.643771  2594.418179  334.774408      2   
(2608.541, 3259.931]  2844.722965  3119.176705  274.453740      2   
(3259.931, 3911.322]  3266.178974  3750.075218  483.896244      2   
(3911.322, 4562.712]          NaN          NaN         NaN      0   
(4562.712, 5214.103]          NaN          NaN         NaN      0   
(5214.103, 5865.493]          NaN          NaN         NaN      0   
(5865.493, 6516.884]  6516.883822  6516.883822    0.000000      1   

                      relative_frequency  cumulative_relative_frequency  
class                                                                    
(-3.535, 654.369]      