## Ejemplo 6: Análisis Exploratorio de Datos

### 1. Objetivos:
    - Aprender las herramientas básicas para darle un primer vistazo a los datos que tenemos en nuestros `DataFrames`
 
---
    
### 2. Desarrollo:

In [1]:
import pandas as pd

Ok, tenemos aquí nuestro conjunto de datos del Ejemplo pasado:

In [2]:
df = pd.read_json('zomato_reviews-clean.json')
df

Unnamed: 0,has_online_delivery,price_range,currency,name,cuisines,location.address,location.city,user_rating.rating_text
0,1,3,Rs.,Hauz Khas Social,"Continental, American, Asian, North Indian","9-A & 12, Hauz Khas Village, New Delhi",New Delhi,Very Good
1,0,3,Rs.,Qubitos - The Terrace Cafe,"Thai, European, Mexican, North Indian, Chinese...","C-7, Vishal Enclave, Opposite Metro Pillar 417...",New Delhi,Excellent
2,1,2,Rs.,The Hudson Cafe,"Cafe, Italian, Continental, Chinese","2524, 1st Floor, Hudson Lane, Delhi University...",New Delhi,Very Good
3,0,3,Rs.,Summer House Cafe,"Italian, Continental","1st Floor, DDA Shopping Complex, Aurobindo Pla...",New Delhi,Very Good
4,0,3,Rs.,38 Barracks,"North Indian, Italian, Asian, American","M-38, Outer Circle, Connaught Place, New Delhi",New Delhi,Very Good
...,...,...,...,...,...,...,...,...
1175,0,3,£,The Boozy Cow,"Burger, Grill","17 Frederick Street, New Town, Edinburgh EH2 2EY",Edinburgh,Very Good
1176,0,3,£,La Favorita,Italian,"325-331 Leith Walk, Leith, Edinburgh EH6 8SA",Edinburgh,Excellent
1177,0,3,£,Roseleaf Bar Cafe,"Scottish, Cafe","23-24 Sandport Place, Leith, Edinburgh EH6 6EW",Edinburgh,Excellent
1178,0,3,£,Civerinos,"Pizza, Italian","5 Hunter Square, Royal Mile, Old Town, Edinbur...",Edinburgh,Good


Podemos saber la forma de nuestro `DataFrame` accediendo a la propiedad `shape`. El primer valor es el número de filas, mientras que el segundo es el número de columnas:

In [3]:
df.shape

(1180, 8)

Podemos ver un número determinado de filas comenzando desde el principio con `head`:

In [5]:
df.head(3)

Unnamed: 0,has_online_delivery,price_range,currency,name,cuisines,location.address,location.city,user_rating.rating_text
0,1,3,Rs.,Hauz Khas Social,"Continental, American, Asian, North Indian","9-A & 12, Hauz Khas Village, New Delhi",New Delhi,Very Good
1,0,3,Rs.,Qubitos - The Terrace Cafe,"Thai, European, Mexican, North Indian, Chinese...","C-7, Vishal Enclave, Opposite Metro Pillar 417...",New Delhi,Excellent
2,1,2,Rs.,The Hudson Cafe,"Cafe, Italian, Continental, Chinese","2524, 1st Floor, Hudson Lane, Delhi University...",New Delhi,Very Good


Podemos ver también las filas del final con `tail`:

In [6]:
df.tail()

Unnamed: 0,has_online_delivery,price_range,currency,name,cuisines,location.address,location.city,user_rating.rating_text
1175,0,3,£,The Boozy Cow,"Burger, Grill","17 Frederick Street, New Town, Edinburgh EH2 2EY",Edinburgh,Very Good
1176,0,3,£,La Favorita,Italian,"325-331 Leith Walk, Leith, Edinburgh EH6 8SA",Edinburgh,Excellent
1177,0,3,£,Roseleaf Bar Cafe,"Scottish, Cafe","23-24 Sandport Place, Leith, Edinburgh EH6 6EW",Edinburgh,Excellent
1178,0,3,£,Civerinos,"Pizza, Italian","5 Hunter Square, Royal Mile, Old Town, Edinbur...",Edinburgh,Good
1179,0,3,£,The Hanging Bat,American,"133 Lothian Road, Old Town, Edinburgh EH3 9AD",Edinburgh,Good


Podemos ver los `dtypes` de todas nuestras columnas accediendo a esa propiedad:

In [7]:
df.dtypes

has_online_delivery         int64
price_range                 int64
currency                   object
name                       object
cuisines                   object
location.address           object
location.city              object
user_rating.rating_text    object
dtype: object

En caso de que tengamos tantas columnas que no podamos verlas todas en el preview de arriba, podemos acceder a una `lista` de columnas usando las propiedad `columns`:

In [11]:
df.columns

Index(['has_online_delivery', 'price_range', 'currency', 'name', 'cuisines',
       'location.address', 'location.city', 'user_rating.rating_text'],
      dtype='object')

---
---

## Reto 5: Análisis Exploratorio de Datos

### 1. Objetivos:
    - Practicar leer archivos JSON usando pandas
    - Practicar hacerse preguntas acerca de los conjuntos de datos que tenemos
 
---
    
### 2. Desarrollo:

Vamos a practicar explorar conjuntos de datos y hacernos preguntas acerca de ellos.

Tenemos un conjunto de datos en formato JSON almacenado en '../../Datasets/new_york_times_bestsellers-clean.json' (en la carpeta /Datasets en el directorio raíz del módulo).

Primero que nada, lee el archivo JSON y crea un `DataFrame` con él:

In [12]:
## Realiza aquí los imports que necesites

## Crea aquí tu DataFrame
df = pd.read_json('new_york_times_bestsellers-clean.json')
df

Unnamed: 0,amazon_product_url,author,description,publisher,title,oid,bestsellers_date.numberLong,published_date.numberLong,rank.numberInt,rank_last_week.numberInt,weeks_on_list.numberInt,price.numberDouble
0,http://www.amazon.com/The-Host-Novel-Stephenie...,Stephenie Meyer,Aliens have taken control of the minds and bod...,"Little, Brown",THE HOST,5b4aa4ead3089013507db18c,1211587200000,1212883200000,2,1,3,25.99
1,http://www.amazon.com/Love-Youre-With-Emily-Gi...,Emily Giffin,A woman's happy marriage is shaken when she en...,St. Martin's,LOVE THE ONE YOU'RE WITH,5b4aa4ead3089013507db18d,1211587200000,1212883200000,3,2,2,24.95
2,http://www.amazon.com/The-Front-Garano-Patrici...,Patricia Cornwell,A Massachusetts state investigator and his tea...,Putnam,THE FRONT,5b4aa4ead3089013507db18e,1211587200000,1212883200000,4,0,1,22.95
3,http://www.amazon.com/Snuff-Chuck-Palahniuk/dp...,Chuck Palahniuk,An aging porn queens aims to cap her career by...,Doubleday,SNUFF,5b4aa4ead3089013507db18f,1211587200000,1212883200000,5,0,1,24.95
4,http://www.amazon.com/Sundays-at-Tiffanys-Jame...,James Patterson and Gabrielle Charbonnet,A woman finds an unexpected love,"Little, Brown",SUNDAYS AT TIFFANY’S,5b4aa4ead3089013507db190,1211587200000,1212883200000,6,3,4,24.99
...,...,...,...,...,...,...,...,...,...,...,...,...
3028,http://www.amazon.com/Six-Years-Harlan-Coben/d...,Harlan Coben,Jake Fisher discovers that neither the woman h...,Dutton,SIX YEARS,5b4aa4ead3089013507dc593,1366416000000,1367712000000,9,8,5,27.95
3029,http://www.amazon.com/The-Interestings-Novel-M...,Meg Wolitzer,Six friends meet in the 1970s at a summer arts...,Riverhead,THE INTERESTINGS,5b4aa4ead3089013507dc595,1366416000000,1367712000000,11,11,2,27.95
3030,http://www.amazon.com/Man-Without-Breath-Berni...,Philip Kerr,"Bernie Gunther, the Berlin cop, is sent to Smo...",Marian Wood/Putnam,A MAN WITHOUT BREATH,5b4aa4ead3089013507dc597,1366416000000,1367712000000,13,0,1,26.95
3031,http://www.amazon.com/The-Storyteller-Jodi-Pic...,Jodi Picoult,A New Hampshire baker finds herself in the mid...,Emily Bestler/Atria,THE STORYTELLER,5b4aa4ead3089013507dc598,1366416000000,1367712000000,14,10,8,28.99


Ahora, usando todas las herramientas que hemos aprendido en esta sesión (indexación de filas y columnas, `shape`, `dtypes`, `head`, `tail`, `columns`, `info`, etc) explora tu dataset y debate con el experto y tus compañeros las siguientes preguntas:

1. ¿Qué podemos saber de este dataset con tan sólo leer el nombre del archivo y los nombres de las columnas?
2. ¿Cuál es el tamaño (forma) de nuestro DataFrame? ¿Podríamos considerarlo un dataset grande o pequeño?
3. ¿Crees que los nombres de las columnas son suficientemente descriptivos? ¿Podrían ser más claros o limpios?
4. ¿Qué tipos de datos tenemos?
5. ¿Qué significa el formato en el que tenemos las fechas?
6. ¿Qué tipo de preguntas podríamos responder usando los datos numéricos de este dataset?
7. ¿Qué tipo de preguntas podríamos responder usando los datos no-numéricos? 

In [14]:
df.shape

(3033, 12)

In [15]:
df.head(2)

Unnamed: 0,amazon_product_url,author,description,publisher,title,oid,bestsellers_date.numberLong,published_date.numberLong,rank.numberInt,rank_last_week.numberInt,weeks_on_list.numberInt,price.numberDouble
0,http://www.amazon.com/The-Host-Novel-Stephenie...,Stephenie Meyer,Aliens have taken control of the minds and bod...,"Little, Brown",THE HOST,5b4aa4ead3089013507db18c,1211587200000,1212883200000,2,1,3,25.99
1,http://www.amazon.com/Love-Youre-With-Emily-Gi...,Emily Giffin,A woman's happy marriage is shaken when she en...,St. Martin's,LOVE THE ONE YOU'RE WITH,5b4aa4ead3089013507db18d,1211587200000,1212883200000,3,2,2,24.95


In [13]:
df.columns

Index(['amazon_product_url', 'author', 'description', 'publisher', 'title',
       'oid', 'bestsellers_date.numberLong', 'published_date.numberLong',
       'rank.numberInt', 'rank_last_week.numberInt', 'weeks_on_list.numberInt',
       'price.numberDouble'],
      dtype='object')

In [17]:
df.dtypes

amazon_product_url              object
author                          object
description                     object
publisher                       object
title                           object
oid                             object
bestsellers_date.numberLong      int64
published_date.numberLong        int64
rank.numberInt                   int64
rank_last_week.numberInt         int64
weeks_on_list.numberInt          int64
price.numberDouble             float64
dtype: object

In [18]:
import numpy as np