# Introducción
Con todo lo que hemos aprendido hasta ahora ya estamos listos para empezar a hacer procesamiento de datos formalmente. No sé si te has dado cuenta pero de hecho ya hicimos bastante procesamiento de datos. Todo eso de transformar y filtrar listas usando filter y map. ¡Eso fue procesamiento de datos!

Pero si quisiéramos explorar, limpiar y estructurar grandes cantidades de datos con las herramientas que hemos aprendido hasta ahora, la cosa se pondría algo difícil. Es por eso que los científicos de datos han inventado algunas herramientas hechas especialmente para la ciencia de datos. Estas herramientas nos van a facilitar la vida muchísimo.

El día de hoy aprenderemos la primera de ellas: Pandas. Veremos cómo usarla como adquirir conjuntos de datos y explorarlos un poco.

# Objetivos

- Identificar las características básicas de las Series y DataFrames de Pandas.
- Leer JSONs usando Pandas.
- Utilizar herramientas básicas de exploración de datos.

# Importación de paquetes

Pandas es lo que se llama un paquete de Python. Un paquete es un conjunto de módulos. ¿Qué es un módulo? Es un archivo .py que contiene código de Python que podemos reutilizar en otras secciones de nuestro programa. Un paquete entonces tiene muchos módulos, cada módulo conteniendo código que cualquier persona puede utilizar para extender las capacidades de su programa.

Podríamos programar todo siempre desde cero, pero en ese caso todo tomaría muchísimo tiempo y además nunca lograríamos tanta eficiencia. Usar paquetes que han hecho otras personas es muy útil porque nos ahorra tiempo y energía y nos da "super poderes" que podemos utilizar en nuestro programa.

Para poder utilizar un paquete, lo primero que tenemos que hacer es instalarlo, pero afortunadamente Google Colab ya tiene instalados muchos de los paquetes más importantes de ciencia de datos. Por lo tanto, basta con realizar la importación en nuestro programa para poder utilizar estos paquetes.

Abre un Jupyter Notebook, escribe el comando import pandas as pd y corre la celda.

¡Listo! Ya podemos acceder a Pandas en nuestro programa. ¿Por qué agregamos lo de as pd? Bueno básicamente le estamos diciendo a Python que queremos poder escribir pd en vez de pandas cada vez que queramos usar el paquete en nuestro programa. Nos ahorra un poco de tecleo y además es un a convención. Todos los científicos de datos usan pd en vez de pandas.

¿Y ahora qué? ¿pandas con qué se come o qué?

Bueno, primero vamos a platicar de las dos estructuras de datos que pandas nos ofrece que vamos a estar utilizando muy constantemente: Las Series y los DataFrames. Tú ya conoces dos estructuras de datos: listas y diccionarios. Las estructuras de pandas se parecen bastante a éstas pero extienden sus funcionalidades. ¡Vamos a verlas!

# Series de Pandas

Las Series son parecidas a las listas en que son secuencias ordenadas de 1 dimensión que pueden contener diferentes tipos de valores. ¿1 dimensión? ¿Dónde estamos, en la Matrix? No, no, tranquilo. No es tan esotérico como parece. En geometría, una línea tiene una sola dimensión. Un punto tiene 0 dimensiones, mientras que un plano tiene 2 y un cubo tiene 3:

En Python, de las estructuras que conocemos, las listas y ahora las Series tienen 1 una sola dimensión. Eso significa que sólo puedes avanzar hacia adelante y hacia atrás.

Primero, para crear una Serie tenemos que usar el comando pd.Series. Aquí lo que estamos haciendo es llamar la librería de pandas y luego accediendo a uno de los objetos que ofrece la librería. Para acceder a objetos siempre escribimos el nombre de la librería o módulo (pd), seguido de un punto (pd.), seguido del nombre del objeto (pd.Series).

Ahora, para crear uno de estos objetos y poderlo utilizar, necesitamos "llamarlo". Esto se hace agregando paréntesis, como cuando llamamos funciones (pd.Series()). A esta creación le llamamos "instanciar un objeto". A partir de ahora voy a llamar "instanciar" al proceso de creación de un objeto y voy a llamar "instancia" al objeto que ya está creado.

Por último, tenemos que pasarle algún dato a nuestra Serie para que pueda ser instanciada. El objeto Serie puede recibir una lista de Python para convertirla en una Serie de pandas. Pasémosle entonces una lista:

In [1]:
import pandas as pd

In [2]:
pd.Series([3,7,5,8])

0    3
1    7
2    5
3    8
dtype: int64

Al correr esta celda, podemos ver en el output cómo se ve la Serie que acabamos de crear:

¿Por qué hay dos columnas de números? ¿Y qué es eso de dtype: int64?

## indices
Veamos de cerca las columnas:

![Columnas Serie](./images/image1.png)

La columna de la derecha es la lista que le pasamos, ¿recuerdas? Es lo mismo sólo que aquí está representada verticalmente. Sigue teniendo una sola dimensión, no te preocupes.

La columna de la izquierda es el índice de nuestra Serie. Esto es algo nuevo que las listas de Python no tienen. En una Serie, cada elemento de la Serie tiene un índice asociado. Esto es similar a los diccionarios donde cada valor tiene una llave asociada.

Entonces, podríamos pensar una Serie como una especie de mezcla entre ```listas``` y ```diccionarios```. Se parece a las listas en cuanto a que es una secuencia de elementos ordenados en una sola dimensión. Se parece a los diccionarios en que cada elemento tiene un índice asociado. Si accedemos a uno de los índices en nuestra Serie, obtendremos el elemento que está asociado a ese ìndice:

In [4]:
serie = pd.Series([3,7,5,8])
serie

0    3
1    7
2    5
3    8
dtype: int64

In [8]:
serie.loc[2]

5

Bueno, ¡esto es prácticamente igual a cuando accedemos una lista por su ìndice! ¿Cuál es la diferencia? Primero, que tenemos que usar el operador loc para indicarle a la Serie que vamos a acceder a los elementos por el nombre del índice. Otra gran diferencia es que el índice de una Serie puede tomar diferentes valores y diferentes órdenes. Si no le indicamos a la Serie de manera explícita qué índice tomar, la Serie va a asignar una secuencia numérica ascendente que comienza en 0 (exactamente igual a una lista). Pero podemos indicarle distintos ìndices a nuestra Serie de esta forma:

In [9]:
serie = pd.Series([3,7,5,8], index=[10,11,12,13])
serie

10    3
11    7
12    5
13    8
dtype: int64

In [14]:
serie.loc[12]

5

Le asignamos un índice que va desde 10 a 13 y a cada elemento le fue asignado el número que le correspondía. Ahora, para acceder a nuestro número 5 tuve que escribir serie.loc[12], ya que ese es el nuevo índice que le fue asignado.

Lo increíble es que también podemos asignarles strings como índices:

In [16]:
serie = pd.Series([3,7,5,8], index=['a','b','c', 'd'])
serie

a    3
b    7
c    5
d    8
dtype: int64

In [17]:
serie.loc['c']

5

## Otras acciones relacionadas con índices

Para asignar un valor nuevo a un índice en nuestra Serie basta con indexarlo y asignarle el nuevo valor (justo como sucede con las listas):

In [19]:
serie.loc['b'] = 100
serie

a      3
b    100
c      5
d      8
dtype: int64

Podemos también acceder a múltiples índices al mismo tiempo. Para pedir explícitamente los índices que queremos, le pasamos al operador de indexación ([]) una lista con los índices que queremos:

In [21]:
serie.loc[['b', 'c']]

b    100
c      5
dtype: int64

También podemos usar el operador dos puntos (:) para indicar lo siguiente:

In [23]:
serie = pd.Series([4,7,9,5,6,0,7,2,4,5,8])
serie

0     4
1     7
2     9
3     5
4     6
5     0
6     7
7     2
8     4
9     5
10    8
dtype: int64

In [24]:
serie.loc[5:]

5     0
6     7
7     2
8     4
9     5
10    8
dtype: int64

En este primer ejemplo, le pasamos al operador de indexación el índice 5 y después dos puntos (:). Esto significa, "dame los índices desde el 5 hasta el final".

También podemos pedir "dame desde el principio hasta el índice 5" de esta manera:

In [25]:
serie.loc[:5]

0    4
1    7
2    9
3    5
4    6
5    0
dtype: int64

Podemos también pedir rangos explícitos:

In [26]:
serie.loc[3:7]

3    5
4    6
5    0
6    7
7    2
dtype: int64

## Tipos de dato

Regresemos por un momento a la primera Serie que creamos, pero ahora vamos a fijarnos en la información que viene en la parte inferior de nuestro output:

![Tipo Dato](./images/image2.png)

¿Qué significa esto? Bueno, pandas tiene también sus tipos de dato, como los que tiene Python (int, float, bool, etc). Los tipos de datos más comunes en pandas son los siguientes:

1. object
1. int64
1. float64
1. bool

Hay otros, pero esos sólo te los toparas en sesiones más avanzadas.

Podemos pensar a int64 y a float64 como los equivalentes de int y float que ya conocemos. Veamos una serie con cada uno de estos tipos de datos. Primero int64:

In [27]:
int_series = pd.Series([1,4,7,4])
int_series

0    1
1    4
2    7
3    4
dtype: int64

Ahora float64:

In [29]:
float_series = pd.Series([1.4,3.5,7.8,9.8])
float_series

0    1.4
1    3.5
2    7.8
3    9.8
dtype: float64

bool es exactamente lo mismo tanto en Python estándar como en pandas, como puedes ver:

In [30]:
bool_series = pd.Series([True, False, False, True])
bool_series

0     True
1    False
2    False
3     True
dtype: bool

object es el tipo de dato que es un poco inusual. Si hacemos una Serie con puras strings, pandas nos indica que el tipo de dato es object:

In [31]:
str_series = pd.Series(['a', 'b', 'c', 'd'])
str_series

0    a
1    b
2    c
3    d
dtype: object

Pero también nos da object si tenemos una Serie con strings y otras cosas. O con una combinación entre números y otro tipo de dato:

In [33]:
obj_series = pd.Series(['a',1,3.5, True])
obj_series

0       a
1       1
2     3.5
3    True
dtype: object

In [34]:
mixed_series = pd.Series([1,2,True,False])
mixed_series

0        1
1        2
2     True
3    False
dtype: object

Entonces, cuando nos topemos con el tipo de dato object, lo más apropiado es asumir que pueden ser strings o una combinación de tipos de datos.

# DataFrames

A diferencia de las Series, que son estructuras de 1 dimensión. Los DataFrames son estructuras bidimensionales. Esto quiere decir que podemos "recorrerlas" en dos direcciones. Una referencia muy sencilla para entender cómo están estructurados los DataFrames son las tablas de MySQL o de Excel. Una tabla es una estructura bidimensional organizada en filas y columnas. Pues bueno, eso es exactamente cómo están organizados los DataFrames: como tablas. Vamos a ver cómo se ve uno:


![Dataframe](./images/image3.png)

Es una tabla, ¿ves? Cada una de las columnas en un DataFrame es en realidad una Serie. Así que podemos pensar a un DataFrame como un diccionario de Series que comparten el mismo índice. Mira cómo fue que creamos este DataFrame:

![Dataframe](./images/image4.png)

¡Es un diccionario de listas! Las llaves se convierten en los nombres de las columnas, mientras que las listas contienen los valores que corresponden a cada fila de la tabla. Una vez creado el DataFrame, esas listas son convertidas automáticamente en Series.


## Índexación

Después de crear nuestro DataFrame podemos revisar columnas por separado usando el operador de indexación con el nombre de la columna que queremos ver:

![imagen5](./images/image5.png)

Nuestra Serie tiene una nueva propiedad llamada Name. Esta propiedad es el nombre de la Serie y cuando esa Serie está en un DataFrame se convierte en el nombre de la columna.

También podemos observar más de una columna al mismo tiempo:

![imagen6](./images/image6.png)

Uso la palabra "observar" porque estas Series y DataFrames que obtenemos no son copias del DataFrame original. Sólo son "ventanas" para ver y modificar el DataFrame original con más detalle.

También podemos pedir combinaciones de filas y columnas usando el operador loc. El operador loc recibe nombres que se encuentren en nuestro índice y regresa la fila que le corresponde a ese índice:

![imagen7](./images/image7.png)

Podemos también pedir múltiples filas:

![imagen8](./images/image8.png)

Podemos pasarle un segundo argumento específicando también las columnas que queremos:

![imagen9](./images/image9.png)

¡También funciona con múltiples filas y columnas! Mira:

![imagen10](./images/image10.png)



## Manipulación de columnas
La asignación y creación de columnas nuevas a nuestro DataFrame funciona de una manera muy similar a cómo funcionan los diccionarios. Para asignar nuevos valores a una columna, simplemente accede a la columna y asígnale una Serie con los nuevos valores:

![imagen11](./images/image11.png)

Para que todo funcione correctamente, la nueva Serie tiene que tener la misma longitud que el número de filas en el DataFrame, y además debe de compartir el mismo índice.

Si quiero crear una nueva columna, basta con "acceder" a ella y pasarle una nueva Serie:

![imagen12](./images/image12.png)

En este último ejemplo usé un pequeño truco para evitar tener que volver a escribir el índice del DataFrame al crear la nueva Serie. Usé df.index para obtener el índice del DataFrame y se lo pasé directamente a la Serie. DataFrame.index entonces nos regresa el índice del DataFrame desde donde lo llamemos:

![imagen13](./images/image13.png)

Por último, vamos a ver como eliminar una columna. Los DataFrames de pandas tienen un método llamado drop, que podemos usar para eliminar columnas (o filas) en nuestro DataFrame. Simplemente llamamos la variable donde tenemos guardado nuestro DataFrame, llamamos el método drop y le pasamos a columns una lista con las columnas que queremos eliminar:

![imagen14](./images/image14.png)

Como todos estos métodos sólo regresan "vistas" de nuestro DataFrame original (como si fueran lupas a través de las cuales vemos nuestro DataFrame desde distintas perspectivas), si queremos obtener un DataFrame nuevo donde las columnas que eliminamos ya no existan, tenemos que asignar el resultado a una nueva variable:

![imagen15](./images/image15.png)

Nuestro DataFrame original está intacto:

![imagen16](./images/image16.png)


## Adquisición de Datos

Al fin ha llegado nuestro momento. Hasta ahora hemos estado usando puros conjunto de datos inventados por mí (sí, aunque no lo crean, esos conjunto de datoss eran inventados). Ha llegado el momento de explorar conjuntos de datos de verdad.

El primer paso en todo proyecto de Análisis de Datos es la llamada Adquisición de Datos. La adquisición de datos es el proceso a través del cual nosotros (los Análistas de datos) obtenemos datos para procesarlos, analizarlos y visualizarlos.

Hay veces que los conjuntos de datos que queremos o necesitamos no existen. En estos casos toca salir al mundo (o al Internet) a hacer una recolección de datos. Esto puede suceder a través de experimentos científicos, encuestas, medición de fenómenos, recolección de datos de uso de aplicaciones, web scraping, etc. En este módulo no vamos a aprender cómo hacer esto. Vamos a asumir que el conjuntos de datos que queremos ya existe y está esperándonos en alguna parte.

Ahora, ¿de dónde podemos conseguir estos conjuntos de datos? Los conjuntos de datos pueden estar en diversos lugares y estar almacenados en diversos formatos.

Los formatos más comunes son los siguientes:

1. JSON
2. CSV

Los datos pueden estar guardados en formato JSON en un archivo .json, o en formato CSV en un archivo .csv. Muchas veces obtenemos estos archivos de plataformas como [Kaggle](https://www.kaggle.com/), que es uno de los repositorios de conjuntos de datos más importantes del mundo (así como una plataforma de aprendizaje y profesionalización para científicos de datos). En estas plataformas, basta con descargar los archivos y utilizarlos en nuestro programa.





### Lectura de JSONs

Vamos a empezar aprendiendo a leer un archivo JSON usando pandas. El primer paso hubiera sido ir a una plataforma y descargar este archivo. Ese paso lo he hecho por ustedes, pero si quieren saber de dónde conseguí el conjunto de datos que vamos a usar, pueden seguir este [link](https://www.kaggle.com/datasets/shrutimehta/zomato-restaurants-data).

El conjunto de datos que vamos a usar ha sido pre-procesado por mí para que sea adecuado para esta sesión. Entonces, ¿qué tenemos que hacer? El primer paso es importar nuestra librería pandas y una librería de Python para manejar formato JSON:

![imagen17](./images/image17.png)

Ahora, primero tenemos que leer el archivo antes de pasárselo a pandas. Esto se hace con el siguiente código:

![imagen18](./images/image18.png)


In [3]:
import pandas as pd

In [4]:
import json

In [9]:
f = open('../../data/zomato_reviews-clean.json', 'r')
json_data = json.load(f)

In [10]:
f.close()

In [11]:
df = pd.DataFrame.from_dict(json_data)
df

Unnamed: 0,has_online_delivery,price_range,currency,name,cuisines,location.address,location.city,user_rating.rating_text
0,1,3,Rs.,Hauz Khas Social,"Continental, American, Asian, North Indian","9-A & 12, Hauz Khas Village, New Delhi",New Delhi,Very Good
1,0,3,Rs.,Qubitos - The Terrace Cafe,"Thai, European, Mexican, North Indian, Chinese...","C-7, Vishal Enclave, Opposite Metro Pillar 417...",New Delhi,Excellent
2,1,2,Rs.,The Hudson Cafe,"Cafe, Italian, Continental, Chinese","2524, 1st Floor, Hudson Lane, Delhi University...",New Delhi,Very Good
3,0,3,Rs.,Summer House Cafe,"Italian, Continental","1st Floor, DDA Shopping Complex, Aurobindo Pla...",New Delhi,Very Good
4,0,3,Rs.,38 Barracks,"North Indian, Italian, Asian, American","M-38, Outer Circle, Connaught Place, New Delhi",New Delhi,Very Good
...,...,...,...,...,...,...,...,...
1175,0,3,£,The Boozy Cow,"Burger, Grill","17 Frederick Street, New Town, Edinburgh EH2 2EY",Edinburgh,Very Good
1176,0,3,£,La Favorita,Italian,"325-331 Leith Walk, Leith, Edinburgh EH6 8SA",Edinburgh,Excellent
1177,0,3,£,Roseleaf Bar Cafe,"Scottish, Cafe","23-24 Sandport Place, Leith, Edinburgh EH6 6EW",Edinburgh,Excellent
1178,0,3,£,Civerinos,"Pizza, Italian","5 Hunter Square, Royal Mile, Old Town, Edinbur...",Edinburgh,Good
