### Pandas y Análisis Exploratorio de Datos

#### Importación de paquetes

In [6]:
#Importación del paquete (debe ser instalado previamente)
import pandas as pd

#### Series de Pandas

Las Series son parecidas a las listas en que son secuencias ordenadas de 1 dimensión que pueden contener diferentes tipos de valores.

In [2]:
serie = pd.Series([4, 5, 6, 7, 8])
print(serie)

0    4
1    5
2    6
3    7
4    8
dtype: int64


En Python, de las estructuras que conocemos, las listas y ahora las Series tienen 1 una sola dimensión. Eso significa que sólo puedes avanzar hacia adelante y hacia atrás.

Primero, para crear una Serie usamos el comando pd.Series. Aquí lo que estamos haciendo es llamar la librería de pandas y luego accediendo a uno de los objetos que ofrece la librería. Para acceder a objetos siempre escribimos el nombre de la librería o módulo (pd), seguido de un punto (pd.), seguido del nombre del objeto (pd.Series).

Ahora, para crear uno de estos objetos y poderlo utilizar, necesitamos "llamarlo". Esto se hace agregando paréntesis, como cuando llamamos funciones (pd.Series()). A esta creación le llamamos "instanciar un objeto".

A partir de ahora voy a llamar "instanciar" al proceso de creación de un objeto y voy a llamar "instancia" al objeto que ya está creado.

Por último, tenemos que pasarle algún dato a nuestra Serie para que pueda ser instanciada. El objeto Serie puede recibir una lista de Python para convertirla en una Serie de pandas. Así que le pasamos una lista.

Al correr la celda, podemos ver en el output cómo se ve la Serie que acabamos de crear:

¿Por qué hay dos columnas de números? ¿Y qué es eso de dtype: int64?

##### **índices**

La columna de la derecha es la lista que le pasamos, ¿recuerdas? Es lo mismo sólo que aquí está representada verticalmente. Sigue teniendo una sola dimensión, no te preocupes.

La columna de la izquierda es el índice de nuestra Serie. Esto es algo nuevo que las listas de Python no tienen. En una Serie, cada elemento de la Serie tiene un índice asociado. Esto es similar a los diccionarios donde cada valor tiene una llave asociada.

Entonces, podríamos pensar una Serie como una especie de mezcla entre listas y diccionarios. Se parece a las listas en cuanto a que es una secuencia de elementos ordenados en una sola dimensión. Se parece a los diccionarios en que cada elemento tiene un índice asociado. Si accedemos a uno de los índices en nuestra Serie, obtendremos el elemento que está asociado a ese índice:


In [12]:
#imprimiendo el valor asociado al índice 3
print(serie[2])

6


A diferencia de las listas, a las series es posible definirles índices en particular (números o cadenas):

In [16]:
serie = pd.Series([1, 2, 3, 4, 5, 6, 7, 8, 9], index = [11, 12, 13, 14, 15, 16, 17, 18, 19])
print(serie[14])

serie = pd.Series([1, 2, 3, 4, 5, 6, 7, 8, 9], index = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i'])
print(serie)
print(serie['c'])

4
a    1
b    2
c    3
d    4
e    5
f    6
g    7
h    8
i    9
dtype: int64
3


También es posible acceder a varios índices al mismo tiempo:

In [17]:
print(serie[['c', 'e', 'g']])

c    3
e    5
g    7
dtype: int64


In [19]:
serie['b'] = 18
print(serie)

a     1
b    18
c     3
d     4
e     5
f     6
g     7
h     8
i     9
dtype: int64
18


Acceder a los valores a partir de un índice determinado usando los ':'

In [22]:
#Se imprime a partir del índice c en adelante
print(serie['c':])

#Se imprime desde el inicio hasta el índice f
print(serie[:'f'])

#Se imprime desde el índice d hasta el h
print(serie['d':'h'])

c    3
d    4
e    5
f    6
g    7
h    8
i    9
dtype: int64
a     1
b    18
c     3
d     4
e     5
f     6
dtype: int64
d    4
e    5
f    6
g    7
h    8
dtype: int64


##### Tipos de datos en Pandas

Pandas tiene tres tipos de datos particulares: int64, float64 y object:

In [23]:
serie_int = pd.Series([3, 4, 5, 6])
serie_float = pd.Series([2.5, 6.7, 8.3, 7.1])
serie_object = pd.Series(['uno', 'dos', 'tres', 'cuatro'])
serie_object2 = pd.Series(['hola', 3, 6.9, True])

In [28]:
print(serie_int.dtype)
print(serie_float.dtype)
print(serie_object.dtype)
print(serie_object2.dtype)

int64
float64
object
object


#### Dataframes

A diferencia de las Series, que son estructuras de 1 dimensión. Los DataFrames son estructuras bidimensionales. Esto quiere decir que podemos "recorrerlas" en dos direcciones. Una referencia muy sencilla para entender cómo están estructurados los DataFrames son las tablas de MySQL o de Excel. Una tabla es una estructura bidimensional organizada en filas y columnas. Pues bueno, eso es exactamente cómo están organizados los DataFrames: como tablas.

Cada una de las columnas en un DataFrame es en realidad una Serie. Así que podemos pensar a un DataFrame como un diccionario de Series que comparten el mismo índice. Mira cómo fue que creamos este DataFrame:

In [34]:
data = {
    "Nombre": ["Juan", "Nora", "Miguel", "Laura", "Pedro"],
    "Edad": [8, 6, 12, 14, 7],
    "Tiene mascota": [True, False, False, True, False],
    "Color": ["verde", "rojo", "azul", "rosa", "amarillo"]
}

df = pd.DataFrame(data, index = ['a', 'b', 'c', 'd', 'e'])
df

Unnamed: 0,Nombre,Edad,Tiene mascota,Color
a,Juan,8,True,verde
b,Nora,6,False,rojo
c,Miguel,12,False,azul
d,Laura,14,True,rosa
e,Pedro,7,False,amarillo


In [9]:
#Mostrando todo un campo
df['Nombre']

a      Juan
b      Nora
c    Miguel
d     Laura
e     Pedro
Name: Nombre, dtype: object

In [10]:
#Mostrando varios campos
df[['Edad', 'Color']]

Unnamed: 0,Edad,Color
a,8,verde
b,6,rojo
c,12,azul
d,14,rosa
e,7,amarillo


In [21]:
#Se usa loc para acceder al índice y mostrar toda la fila
df.loc['b']

Nombre            Nora
Edad                 6
Tiene mascota    False
Color             rojo
Name: b, dtype: object

In [22]:
#Consultar campos específicos y multiples filas
df[['Nombre', 'Edad']].loc[['b', 'd']]

Unnamed: 0,Nombre,Edad
b,Nora,6
d,Laura,14


In [23]:
#Accediendo al valor específico
df.loc['a', 'Nombre']

'Juan'

In [24]:
#Accediendo a multiples campos específicos y multiples filas (otra opción)
df.loc[['b', 'd'], ['Nombre', 'Tiene mascota']]

Unnamed: 0,Nombre,Tiene mascota
b,Nora,False
d,Laura,True


##### Manipulación de columnas de un Dataframe

In [28]:
df

Unnamed: 0,Nombre,Edad,Tiene mascota,Color
a,Juan,8,True,verde
b,Nora,6,False,rojo
c,Miguel,12,False,azul
d,Laura,14,True,rosa
e,Pedro,7,False,amarillo


In [35]:
#Corrigiendo un campo completo
edad_correccion = pd.Series([10 , 12, 8, 9, 17], index = ['a', 'b', 'c', 'd', 'e'])
df['Edad'] = edad_correccion
df

Unnamed: 0,Nombre,Edad,Tiene mascota,Color
a,Juan,10,True,verde
b,Nora,12,False,rojo
c,Miguel,8,False,azul
d,Laura,9,True,rosa
e,Pedro,17,False,amarillo


In [36]:
#Agregando un nuevo campo
nuevo_campo = pd.Series([10.0, 10.0, 8.5, 9.2, 7.3], index = df.index)
df['Valoracion'] = nuevo_campo
df

Unnamed: 0,Nombre,Edad,Tiene mascota,Color,Valoracion
a,Juan,10,True,verde,10.0
b,Nora,12,False,rojo,10.0
c,Miguel,8,False,azul,8.5
d,Laura,9,True,rosa,9.2
e,Pedro,17,False,amarillo,7.3


In [42]:
#Eliminando columnas (solo en la vista), para que tenga efecto en el df se debe reasignar
df.drop(columns = ['Tiene mascota', 'Valoracion'])

Unnamed: 0,Nombre,Edad,Color
a,Juan,10,verde
b,Nora,12,rojo
c,Miguel,8,azul
d,Laura,9,rosa
e,Pedro,17,amarillo


In [43]:
df

Unnamed: 0,Nombre,Edad,Tiene mascota,Color,Valoracion
a,Juan,10,True,verde,10.0
b,Nora,12,False,rojo,10.0
c,Miguel,8,False,azul,8.5
d,Laura,9,True,rosa,9.2
e,Pedro,17,False,amarillo,7.3


In [40]:
df_dropped = df.drop(columns = ['Tiene mascota', 'Valoracion']) #Eliminando efectivamente las columas
df_dropped

Unnamed: 0,Nombre,Edad,Color
a,Juan,10,verde
b,Nora,12,rojo
c,Miguel,8,azul
d,Laura,9,rosa
e,Pedro,17,amarillo


#### Adquisición de datos

La adquisición de datos es la primera etapa de nuestro proceso ETL (extracción, transformación y carga de datos)

La adquisición de datos es el proceso a través del cual nosotros (los científicos de datos) obtenemos datos para procesarlos, analizarlos y visualizarlos.

Hay veces que los conjuntos de datos que queremos o necesitamos no existen. En estos casos toca salir al mundo (o al Internet) a hacer una recolección de datos. Esto puede suceder a través de experimentos científicos, encuestas, medición de fenómenos, recolección de datos de uso de aplicaciones, web scraping, etc. En este módulo no vamos a aprender cómo hacer esto. Vamos a asumir que el conjuntos de datos que queremos ya existe y está esperándonos en alguna parte.

Ahora, ¿de dónde podemos conseguir estos conjuntos de datos? Los conjuntos de datos pueden estar en diversos lugares y estar almacenados en diversos formatos.

Los formatos más comunes son los siguientes:

- JSON
- CSV

Los datos pueden estar guardados en formato JSON en un archivo .json, o en formato CSV en un archivo .csv. Muchas veces obtenemos estos archivos de plataformas como Kaggle, que es uno de los repositorios de conjuntos de datos más importantes del mundo (así como una plataforma de aprendizaje y profesionalización para científicos de datos). En estas plataformas, basta con descargar los archivos y utilizarlos en nuestro programa.

Otras veces, los datos no están disponibles como archivos y tenemos que "pedirlos" de algún lado. Estos datos están almacenados remotamente y a veces podemos acceder a ellos usando algún tipo de interfaz. Las dos fuentes más comunes que usamos para "pedir" datos son:

- APIs

- Bases de Datos

##### Lectura de JSON's

Vamos a empezar aprendiendo a leer un archivo JSON usando pandas. El primer paso hubiera sido ir a una plataforma como Kaggle y descargar este archivo. Ese paso lo he hecho por ustedes, pero si quieren saber de dónde conseguí el conjunto de datos que vamos a usar, pueden seguir este [link](https://www.kaggle.com/datasets/shrutimehta/zomato-restaurants-data?select=file2.json).

El conjunto de datos que vamos a usar ya ha sido pre-procesado para que sea adecuado para esta sesión. Entonces, ¿qué tenemos que hacer? El primer paso es importar nuestra librería pandas y una librería de Python para manejar formato JSON:


In [2]:
#Importando la librería para lectura de archivos json
import json

Ahora, primero tenemos que leer el archivo antes de pasárselo a pandas. Esto se hace con el siguiente código:

In [4]:
f = open('../Datasets/zomato_reviews-clean.json', 'r')
data_json = json.load(f)
f.close()

#El resultado de la lectura es un diccionario
print(type(data_json))

<class 'dict'>


Con esta parte del código le estamos diciendo a Python que queremos leer un archivo. El comando open sirve para leer archivos y recibe dos argumentos:
- El primero es la ruta (path) a nuestro archivo.
- El segundo es el tipo de acceso. En este caso hemos escrito 'r' que significa read. Para gran parte de lo que vamos a hacer como científicos de datos, el acceso 'r' bastará, pero si quieres conocer otros tipos de acceso y profundizar en el tema, [puedes hacerlo acá](https://www.pythonista.io/cursos/py101/escritura-y-lectura-de-archivos).

Después de leer el archivo, lo hemos asignado a una variable f.

El archivo que hemos leído está en formato json y por lo tanto Python requiere convertirlo a un formato que él (Señor Python) pueda entender. Usando el comando json.load leemos el objeto en formato JSON y lo convertimos en un diccionario de Python. Ya que el formato JSON y los diccionarios tienen una estructura muy similar, para Python esto es pan comido.

Al finalizar, usamos f.close() para cerrar el archivo que abrimos y evitar que cosas raras puedan pasarle a nuestro programa.

Vamos a convertir nuestro diccionario en un DataFrame para poder revisar la información mejor. El objeto pd.DataFrame tiene un método llamado from_dict con el que podemos construir un DataFrame a partir de un diccionario:

In [8]:
#Convertimos el diccionario a dataframe
df = pd.DataFrame.from_dict(data_json)

##### Análisis exploratorio de datos

El siguiente paso después de la Adquisición de Datos es lo que se llama Análisis Exploratorio de Datos.

Este paso es donde exploramos nuestro conjunto de datos para entenderlo mejor. En este momento, por ejemplo, tenemos un conjunto de datos que estaba almacenado en un archivo llamado 'reviews_restaurantes.json', pero no tenemos la menor idea de qué hay dentro de ese archivo.

El Análisis Exploratorio de Datos es el proceso a través del cual nos enteramos de qué hay en ese conjunto de datos. Este paso es esencial antes de realizar cualquier tipo de Procesamiento, Análisis Estadístico y Visualización.

Vamos a aprender un poco de exploración de DataFrames usando este conjunto de datos que tenemos en este momento.

Lo primero que podemos hacer es simplemente pedirle al Jupyter Notebooks el output de nuestra variable df (le puse así por que son las siglas de DataFrame):

In [9]:
df

Unnamed: 0,has_online_delivery,price_range,currency,name,cuisines,location.address,location.city,user_rating.rating_text
0,1,3,Rs.,Hauz Khas Social,"Continental, American, Asian, North Indian","9-A & 12, Hauz Khas Village, New Delhi",New Delhi,Very Good
1,0,3,Rs.,Qubitos - The Terrace Cafe,"Thai, European, Mexican, North Indian, Chinese...","C-7, Vishal Enclave, Opposite Metro Pillar 417...",New Delhi,Excellent
2,1,2,Rs.,The Hudson Cafe,"Cafe, Italian, Continental, Chinese","2524, 1st Floor, Hudson Lane, Delhi University...",New Delhi,Very Good
3,0,3,Rs.,Summer House Cafe,"Italian, Continental","1st Floor, DDA Shopping Complex, Aurobindo Pla...",New Delhi,Very Good
4,0,3,Rs.,38 Barracks,"North Indian, Italian, Asian, American","M-38, Outer Circle, Connaught Place, New Delhi",New Delhi,Very Good
...,...,...,...,...,...,...,...,...
1175,0,3,£,The Boozy Cow,"Burger, Grill","17 Frederick Street, New Town, Edinburgh EH2 2EY",Edinburgh,Very Good
1176,0,3,£,La Favorita,Italian,"325-331 Leith Walk, Leith, Edinburgh EH6 8SA",Edinburgh,Excellent
1177,0,3,£,Roseleaf Bar Cafe,"Scottish, Cafe","23-24 Sandport Place, Leith, Edinburgh EH6 6EW",Edinburgh,Excellent
1178,0,3,£,Civerinos,"Pizza, Italian","5 Hunter Square, Royal Mile, Old Town, Edinbur...",Edinburgh,Good


Ok, ya podemos ver algo de información. Este conjunto de datos tiene información acerca de algunos de los mejores restaurantes en diversas partes del mundo. La información fue extraída originalmente de una plataforma llamada Zomato, pero el archivo JSON fue descargado de Kaggle desde el link ya mostrado arriba. El conjunto de datos original tiene bastantes más datos pero fueron reducidos a lo esencial para que nuestros procesos sean más sencillos (por el momento).

Al ver el output de nuestro DataFrame una de las primeras cosas en las que podemos fijarnos es en el tamaño del DataFrame. Esta información está localizada en la parte inferior:

Tenemos un conjunto de datos que tiene 1180 filas y 8 columnas.

Es posible acceder a esta información leyendo la propiedad shape de nuestro DataFrame:

In [10]:
df.shape

(1180, 8)

También podemos observar que el índice tiene un orden secuencial, desde 0 hasta 1179:

Los 3 puntos que ves en medio (...) significan que hay más datos entre los índices 4 y 1175, pero que son demasiados como para mostrarlos.

También podemos ver los nombres de las columnas en la parte superior.

Veamos ahora qué métodos podemos utilizar para explorar un poco más nuestro DataFrame.

##### Head y Tail

Los métodos head y tail pueden usarse como un primer acercamiento para ver qué hay dentro de nuestro DataFrame. Al llamar head, pandas nos muestra las primeras 5 filas que hay en el DataFrame:

In [11]:
df.head()

Unnamed: 0,has_online_delivery,price_range,currency,name,cuisines,location.address,location.city,user_rating.rating_text
0,1,3,Rs.,Hauz Khas Social,"Continental, American, Asian, North Indian","9-A & 12, Hauz Khas Village, New Delhi",New Delhi,Very Good
1,0,3,Rs.,Qubitos - The Terrace Cafe,"Thai, European, Mexican, North Indian, Chinese...","C-7, Vishal Enclave, Opposite Metro Pillar 417...",New Delhi,Excellent
2,1,2,Rs.,The Hudson Cafe,"Cafe, Italian, Continental, Chinese","2524, 1st Floor, Hudson Lane, Delhi University...",New Delhi,Very Good
3,0,3,Rs.,Summer House Cafe,"Italian, Continental","1st Floor, DDA Shopping Complex, Aurobindo Pla...",New Delhi,Very Good
4,0,3,Rs.,38 Barracks,"North Indian, Italian, Asian, American","M-38, Outer Circle, Connaught Place, New Delhi",New Delhi,Very Good


También podemos pasarle un número como argumento para indicarle cuántas filas queremos ver (siempre empezando por la cabeza del DataFrame, o sea la primera fila):

In [12]:
df.head(10)

Unnamed: 0,has_online_delivery,price_range,currency,name,cuisines,location.address,location.city,user_rating.rating_text
0,1,3,Rs.,Hauz Khas Social,"Continental, American, Asian, North Indian","9-A & 12, Hauz Khas Village, New Delhi",New Delhi,Very Good
1,0,3,Rs.,Qubitos - The Terrace Cafe,"Thai, European, Mexican, North Indian, Chinese...","C-7, Vishal Enclave, Opposite Metro Pillar 417...",New Delhi,Excellent
2,1,2,Rs.,The Hudson Cafe,"Cafe, Italian, Continental, Chinese","2524, 1st Floor, Hudson Lane, Delhi University...",New Delhi,Very Good
3,0,3,Rs.,Summer House Cafe,"Italian, Continental","1st Floor, DDA Shopping Complex, Aurobindo Pla...",New Delhi,Very Good
4,0,3,Rs.,38 Barracks,"North Indian, Italian, Asian, American","M-38, Outer Circle, Connaught Place, New Delhi",New Delhi,Very Good
5,1,2,Rs.,Spezia Bistro,"Cafe, Continental, Chinese, Italian","2525, 1st Floor, Hudson Lane, Delhi University...",New Delhi,Excellent
6,0,4,Rs.,Manhattan Brewery & Bar Exchange,"Finger Food, American, Continental, North Indi...","1st Floor, Global Foyer Mall, Sector 43, Golf ...",Gurgaon,Excellent
7,0,4,Rs.,The Wine Company,"Italian, European","Cyber Hub, DLF Cyber City, Gurgaon",Gurgaon,Poor
8,0,4,Rs.,Farzi Cafe,Modern Indian,"38/39, Level 1, Block E , Inner Circle, Connau...",New Delhi,Very Good
9,1,3,Rs.,Indian Grill Room,"North Indian, Mughlai","315, 3rd Floor, Suncity Business Tower, Golf C...",Gurgaon,Excellent


Dándole un primer vistazo a nuestro conjunto de datos vemos que tiene la siguiente información:

- El nombre del restaurante y el estilo de comida que vende (name y cuisines)
- Datos sobre localización (location.address y location.city)
- Datos sobre costos (price_range y currency)
- Un booleano indicando si el restaurante ofrece pedidos online (has_online_delivery)
- Un pequeño texto que es una evaluación de un usuario (user_rating.rating_text)

Usando tail podemos echarle un vistazo a las últimas filas de nuestro DataFrame:

In [13]:
df.tail()

Unnamed: 0,has_online_delivery,price_range,currency,name,cuisines,location.address,location.city,user_rating.rating_text
1175,0,3,£,The Boozy Cow,"Burger, Grill","17 Frederick Street, New Town, Edinburgh EH2 2EY",Edinburgh,Very Good
1176,0,3,£,La Favorita,Italian,"325-331 Leith Walk, Leith, Edinburgh EH6 8SA",Edinburgh,Excellent
1177,0,3,£,Roseleaf Bar Cafe,"Scottish, Cafe","23-24 Sandport Place, Leith, Edinburgh EH6 6EW",Edinburgh,Excellent
1178,0,3,£,Civerinos,"Pizza, Italian","5 Hunter Square, Royal Mile, Old Town, Edinbur...",Edinburgh,Good
1179,0,3,£,The Hanging Bat,American,"133 Lothian Road, Old Town, Edinburgh EH3 9AD",Edinburgh,Good


##### Columnas y tipos de datos

Si queremos saber un poco más acerca de la estructura de nuestro DataFrame podemos acceder a las propiedades columns y dtypes.

columns nos da un objeto que contiene los nombres de todas las columnas:

In [14]:
df.columns

Index(['has_online_delivery', 'price_range', 'currency', 'name', 'cuisines',
       'location.address', 'location.city', 'user_rating.rating_text'],
      dtype='object')

Esto es muy útil cuando tenemos conjuntos de datos muy grandes y queremos saber qué columnas tenemos en un solo vistazo.

La propiedad dtypes nos da una Serie donde podemos ver cada columna y el tipo de dato que contiene:

In [15]:
df.dtypes

has_online_delivery         int64
price_range                 int64
currency                   object
name                       object
cuisines                   object
location.address           object
location.city              object
user_rating.rating_text    object
dtype: object

Podemos observar aquí que sólo las columnas has_online_delivery y price_range tienen valores numéricos. Todas las demás columnas tienen tipo object que en este caso parece que se refiere a strings.