# Ejercicio 1. Análisis Exploratorio de los datos


**Objetivo**

Aprender las herramientas básicas para darle un primer vistazo a los datos que tenemos en nuestros `DataFrames`


In [8]:
import pandas as pd
import json


In [9]:
f = open('../../datasets/zomato_reviews-clean.json', 'r')
json_data = json.load(f)

f.close()

El método `pd.DataFrame.from_dict()` de la biblioteca **Pandas** se utiliza para crear un **DataFrame** a partir de un diccionario de datos. Es una manera flexible de construir estructuras tabulares a partir de información almacenada en forma de diccionarios.

In [10]:
df = pd.DataFrame.from_dict(json_data)
df

Unnamed: 0,has_online_delivery,price_range,currency,name,cuisines,location.address,location.city,user_rating.rating_text
0,1,3,Rs.,Hauz Khas Social,"Continental, American, Asian, North Indian","9-A & 12, Hauz Khas Village, New Delhi",New Delhi,Very Good
1,0,3,Rs.,Qubitos - The Terrace Cafe,"Thai, European, Mexican, North Indian, Chinese...","C-7, Vishal Enclave, Opposite Metro Pillar 417...",New Delhi,Excellent
2,1,2,Rs.,The Hudson Cafe,"Cafe, Italian, Continental, Chinese","2524, 1st Floor, Hudson Lane, Delhi University...",New Delhi,Very Good
3,0,3,Rs.,Summer House Cafe,"Italian, Continental","1st Floor, DDA Shopping Complex, Aurobindo Pla...",New Delhi,Very Good
4,0,3,Rs.,38 Barracks,"North Indian, Italian, Asian, American","M-38, Outer Circle, Connaught Place, New Delhi",New Delhi,Very Good
...,...,...,...,...,...,...,...,...
1175,0,3,£,The Boozy Cow,"Burger, Grill","17 Frederick Street, New Town, Edinburgh EH2 2EY",Edinburgh,Very Good
1176,0,3,£,La Favorita,Italian,"325-331 Leith Walk, Leith, Edinburgh EH6 8SA",Edinburgh,Excellent
1177,0,3,£,Roseleaf Bar Cafe,"Scottish, Cafe","23-24 Sandport Place, Leith, Edinburgh EH6 6EW",Edinburgh,Excellent
1178,0,3,£,Civerinos,"Pizza, Italian","5 Hunter Square, Royal Mile, Old Town, Edinbur...",Edinburgh,Good


El atributo `df.shape` en **Pandas** devuelve una tupla que representa las dimensiones del **DataFrame**. Es muy útil para obtener rápidamente información sobre el tamaño de los datos que estás manejando.

La tupla tiene la siguiente estructura:
	•	`df.shape[0]`: Número de filas en el **DataFrame**.
	•	`df.shape[1]`: Número de columnas en el **DataFrame**.




In [11]:
df.shape

(1180, 8)

El método `head()` en **Pandas** es una función muy útil que se utiliza para mostrar las primeras filas de un **DataFrame** o **Serie**. Es especialmente útil cuando quieres explorar un conjunto de datos para obtener una vista preliminar de su contenido.

In [12]:
df.head(5)

Unnamed: 0,has_online_delivery,price_range,currency,name,cuisines,location.address,location.city,user_rating.rating_text
0,1,3,Rs.,Hauz Khas Social,"Continental, American, Asian, North Indian","9-A & 12, Hauz Khas Village, New Delhi",New Delhi,Very Good
1,0,3,Rs.,Qubitos - The Terrace Cafe,"Thai, European, Mexican, North Indian, Chinese...","C-7, Vishal Enclave, Opposite Metro Pillar 417...",New Delhi,Excellent
2,1,2,Rs.,The Hudson Cafe,"Cafe, Italian, Continental, Chinese","2524, 1st Floor, Hudson Lane, Delhi University...",New Delhi,Very Good
3,0,3,Rs.,Summer House Cafe,"Italian, Continental","1st Floor, DDA Shopping Complex, Aurobindo Pla...",New Delhi,Very Good
4,0,3,Rs.,38 Barracks,"North Indian, Italian, Asian, American","M-38, Outer Circle, Connaught Place, New Delhi",New Delhi,Very Good


El método `tail()` en **Pandas** es el complemento de `head()` y se utiliza para mostrar las últimas filas de un DataFrame o una Serie. Esto resulta útil para explorar los datos al final de tu conjunto, especialmente en archivos grandes, sin imprimir todo el contenido.


In [13]:
df.tail(5)

Unnamed: 0,has_online_delivery,price_range,currency,name,cuisines,location.address,location.city,user_rating.rating_text
1175,0,3,£,The Boozy Cow,"Burger, Grill","17 Frederick Street, New Town, Edinburgh EH2 2EY",Edinburgh,Very Good
1176,0,3,£,La Favorita,Italian,"325-331 Leith Walk, Leith, Edinburgh EH6 8SA",Edinburgh,Excellent
1177,0,3,£,Roseleaf Bar Cafe,"Scottish, Cafe","23-24 Sandport Place, Leith, Edinburgh EH6 6EW",Edinburgh,Excellent
1178,0,3,£,Civerinos,"Pizza, Italian","5 Hunter Square, Royal Mile, Old Town, Edinbur...",Edinburgh,Good
1179,0,3,£,The Hanging Bat,American,"133 Lothian Road, Old Town, Edinburgh EH3 9AD",Edinburgh,Good


El atributo `dtypes` de **Pandas** se utiliza para verificar el tipo de dato de cada columna en un **DataFrame** o una **Serie**. Es fundamental para entender cómo están representados los datos en tu conjunto y asegurarte de que los tipos sean los correctos para las operaciones que planeas realizar.

In [14]:
df.dtypes

has_online_delivery         int64
price_range                 int64
currency                   object
name                       object
cuisines                   object
location.address           object
location.city              object
user_rating.rating_text    object
dtype: object

El método `info()` en **Pandas** proporciona un resumen detallado del contenido de un **DataFrame**. Es especialmente útil para explorar rápidamente la estructura, tipos de datos, y la cantidad de valores no nulos en cada columna. Este método ayuda a entender mejor cómo están organizados los datos y a identificar problemas como valores faltantes o tipos de datos incorrectos.

In [15]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 1180 entries, 0 to 1179
Data columns (total 8 columns):
 #   Column                   Non-Null Count  Dtype 
---  ------                   --------------  ----- 
 0   has_online_delivery      1180 non-null   int64 
 1   price_range              1180 non-null   int64 
 2   currency                 1180 non-null   object
 3   name                     1180 non-null   object
 4   cuisines                 1180 non-null   object
 5   location.address         1180 non-null   object
 6   location.city            1180 non-null   object
 7   user_rating.rating_text  1180 non-null   object
dtypes: int64(2), object(6)
memory usage: 83.0+ KB


El atributo `columns` en P`**ndas** es una propiedad de los **DataFrames** que te permite ver y manipular los nombres de las columnas. Es muy útil para explorar y renombrar columnas de un conjunto de datos.

In [17]:
df.columns

Index(['has_online_delivery', 'price_range', 'currency', 'name', 'cuisines',
       'location.address', 'location.city', 'user_rating.rating_text'],
      dtype='object')

A continuación utilizaremos el método `describe()` para obtener un resumen estadístico de las variables numéricas. 

El método `describe()` en **Pandas** genera estadísticas descriptivas de un **DataFrame** o una **Serie**. Es una herramienta útil para explorar rápidamente tus datos y obtener un resumen estadístico que incluye información clave como promedios, desviaciones estándar, valores mínimos y máximos, entre otros.

In [19]:
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
has_online_delivery,1180.0,0.112712,0.316374,0.0,0.0,0.0,0.0,1.0
price_range,1180.0,2.827119,0.863319,1.0,2.0,3.0,3.0,4.0


Para las variables categóricas obtendremos su distribución, mediante `describe(include='O')`.

In [20]:
df.describe(include='O').T

Unnamed: 0,count,unique,top,freq
currency,1180,13,Rs.,720
name,1180,1064,Barbeque Nation,19
cuisines,1180,654,Cafe,44
location.address,1180,1167,"4th Floor, Acropolis Mall, 1858/1, Rajdanga Ma...",2
location.city,1180,75,Surat,20
user_rating.rating_text,1180,6,Very Good,490
