## Ejemplo 01

En este ejemplo, vamos a cargar un dataset de meteoritos, quitaremos datos que son NaN (Not a number) y haremos filtros por valores con el Dataframe de pandas

In [1]:
import pandas as pd
import numpy as np
import json

Abrimos la base de datos de meteoritos del archivo JSON, elegimos las columnas que necesitamos, e inspeccionamos los primeros 5 datos

In [2]:
with open("meteoritos.json","rt") as archivo:
    json_meteoritos = json.load(archivo)
    
df_meteoritos = pd.DataFrame.from_dict(json_meteoritos)
dataframe = df_meteoritos[['fall','id','mass','name','reclat','reclong']]
dataframe.head(5)

Unnamed: 0,fall,id,mass,name,reclat,reclong
0,Fell,1,21,Aachen,50.775,6.08333
1,Fell,2,720,Aarhus,56.18333,10.23333
2,Fell,6,107000,Abee,54.21667,-113.0
3,Fell,10,1914,Acapulco,16.88333,-99.9
4,Fell,370,780,Achiras,-33.16667,-64.95


El dato 976 tiene valores NaN (Not a Number) lo cual no nos sirve mucho... hay que quitar los datos que no sirven.

In [3]:
dataframe.iloc[976]

fall            Fell
id             23791
mass            1421
name       Talampaya
reclat           NaN
reclong          NaN
Name: 976, dtype: object

In [4]:
dataframe = dataframe.dropna(how='any', axis=0)
dataframe.head(5)

Unnamed: 0,fall,id,mass,name,reclat,reclong
0,Fell,1,21,Aachen,50.775,6.08333
1,Fell,2,720,Aarhus,56.18333,10.23333
2,Fell,6,107000,Abee,54.21667,-113.0
3,Fell,10,1914,Acapulco,16.88333,-99.9
4,Fell,370,780,Achiras,-33.16667,-64.95


Vamos a forzar a convertir los datos de cada columna. 

In [5]:
convert_dictionary= {
    'fall':str,
    'id':int,
    'mass':float,
    'name':str,
    'reclat':float,
    'reclong':float
}
df_converted = dataframe.astype(convert_dictionary)
df_converted.dtypes

fall        object
id           int64
mass       float64
name        object
reclat     float64
reclong    float64
dtype: object

## Filtrando por valores
Una vez que tenemos los dataframes limpios, podemos filtrar los datos de los meteoritos, por ejemplo, aquellos que solo tienen una masa mayor a 1000 

In [6]:
df_large = df_converted[df_converted['mass'] >= 1000]
df_large

Unnamed: 0,fall,id,mass,name,reclat,reclong
2,Fell,6,107000.0,Abee,54.21667,-113.00000
3,Fell,10,1914.0,Acapulco,16.88333,-99.90000
5,Fell,379,4239.0,Adhi Kot,32.10000,71.80000
7,Fell,392,30000.0,Agen,44.21667,0.61667
8,Fell,398,1620.0,Aguada,-31.60000,-65.23333
9,Fell,417,1440.0,Aguila Blanca,-30.86667,-64.55000
10,Fell,423,1000.0,Aioun el Atrouss,16.39806,-9.57028
11,Fell,424,24000.0,Aïr,19.08333,8.38333
14,Fell,427,1800.0,Akbarpur,29.71667,77.95000
15,Fell,432,3000.0,Akwanga,8.91667,8.43333
