## ¿Qué es Pandas?

Pandas es una de librería de Python para la manipulación y el análisis de datos basada en NumPy.

![](files/320px-Pandas_logo.png)



In [4]:
import pandas as pd
import numpy as np

### Series
La Serie es el componente básico de Pandas. Una serie es una estructura de datos unidimensional indexada basada en el array de NumPy.

La ventaja de las Series son:
- Posibilidad de asignarle un nombre.
- Mayor flexibilidad en los índices.

El constructor pd.Series() se utiliza para construir una serie a partir de distintos elemendos tales como valores escalares, listas, tuplas, diccionarios, arrays, etc.

Probemos definir una serie a partir de una lista:

In [5]:
s1 = pd.Series([1, 3, 5, np.nan, 6, 8])
s1

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

Las series se crean con un índice automático que empieza en cero y termina en seis (recordar que Python empieza a contar desde cero y se refiere al último elemento de un rango de forma EXclusive. 

In [6]:
s1.index

RangeIndex(start=0, stop=6, step=1)

En este caso el valor de stop coincide con la cantidad de elementos de nuestro índice, pero atención que esto solo sucede porque nuestro índice va uno en uno (step). Si nuestra intención es conocer cuántos elementos tiene nuestro índice, es más apropiado usar el método size.

In [7]:
s1.size

6

Nosotros podemos redefinir nuestro índice, probemos con un índice que empiece en 5 y se incremente de 5 en 5.

In [8]:
s1.index = pd.RangeIndex(start=5, stop=35, step=5)
s1

5     1.0
10    3.0
15    5.0
20    NaN
25    6.0
30    8.0
dtype: float64

Los índice también pueden ser del tipo string, ello lo podemos lograr pasándole una lista con strings en el argumento **index**:

In [9]:
s2 = pd.Series([1,2,3,4,5], index=["a","b","c","d","e"])
s2

a    1
b    2
c    3
d    4
e    5
dtype: int64

Como habíamos dicho, también podemos podemos crear series a partir de otros elementos, por ejemplo un diccionario.

**Recordemos que los diccionarios se definen de la siguiente manera:**
diccionario = {clave_1: valor_1, clave_2: valor_2, clave_n: valor_n}

Cuando convertimos un diccionario en una Serie, las claves de este pasarán a ser el índice. 


In [10]:
notas_parcial = {"Ana": 8, "Pedro": 7, "Laura": 9, "Martín": 8.5}
s3 = pd.Series(notas_parcial, name="Nota")
s3

Ana       8.0
Pedro     7.0
Laura     9.0
Martín    8.5
Name: Nota, dtype: float64

Además, aprovechamos y le agregamos un nombre a nuestra Serie con el argumento **name**, este nombre va ser el nombre de la columna en caso de convertir la Serie en una "tabla" o DataFrame (spoiler alert!).

In [11]:
df = pd.DataFrame(s3)
df

Unnamed: 0,Nota
Ana,8.0
Pedro,7.0
Laura,9.0
Martín,8.5


Antes de pasar a los dataframes, veámos algunos conceptos restantes de las series que también aplican a los dataframes. Recordemos a la que le habíamos cambiado el índice para que se incremente de 5 en 5.

#### reset_index

In [12]:
s1

5     1.0
10    3.0
15    5.0
20    NaN
25    6.0
30    8.0
dtype: float64

Si nosotros quisiéramos volver al índice original, deberíamos usar reset_index()

In [13]:
s1.reset_index()

Unnamed: 0,index,0
0,5,1.0
1,10,3.0
2,15,5.0
3,20,
4,25,6.0
5,30,8.0


In [14]:
type(s1.reset_index())

pandas.core.frame.DataFrame

¿Por qué Pandas convirtió nuestra serie en un dataframe? Recordemos que las series son unidimensionales, por lo tanto solo pueden tener una sola columna. Pandas creó un nuevo índice pero a nuestro viejo índice lo convirtió en la columna "index" y esto es importante porque Pandas evitó que perdiéramos datos. En este ejemplo resulta abstracto, pero en el caso de las Notas (s3), si Pandas no preservara el índice original, hubiéramos perdido el nombre de los alumnos.

Si no nos interesa conservar el índice anterior o queremos evitar que Pandas convierta la serie en un dataframe utilizamos el argumento drop en True. 

In [15]:
#Notas
s3.reset_index(drop=True)

0    8.0
1    7.0
2    9.0
3    8.5
Name: Nota, dtype: float64

#### Inplace

Nosotros podemos resetear el índice de dos maneras:

1. **Redefiniendo el objeto:** "pisándolo" con uno nuevo.
2. **Sobre el mismo objeto:** (inplace=True).

Veamos cómo hacerlo de las dos formas.

In [16]:
#1) Redefiniendo el objeto
#Creamos una serie para resetearle el índice
s4 = pd.Series([100,110,120,110], index=[1001,1002,1003,1004])
s4

1001    100
1002    110
1003    120
1004    110
dtype: int64

In [17]:
#Reseteamos el índice descartando el índice anterior (drop=True)
s4= s4.reset_index(drop=True)
s4

0    100
1    110
2    120
3    110
dtype: int64

**Lo que hicimos fue redefinir el objeto s4 indicándole que será igual al objeto s4 pero con el índice reseteado.**

Ahora probemos hacerlo de la segunda manera:

In [18]:
#2) Sobre el mismo objeto:

#Creamos una serie para resetearle el índice
s5 = pd.Series([100,110,120,110,np.nan], index=[1001,1002,1003,1004,1005])
s5

1001    100.0
1002    110.0
1003    120.0
1004    110.0
1005      NaN
dtype: float64

In [19]:
#Reseteamos el índice sin guardar el índice anterior (drop=True)
s5.reset_index(inplace= True, drop=True)
s5

0    100.0
1    110.0
2    120.0
3    110.0
4      NaN
dtype: float64

**En este caso, al utilizar el argumento inplace en True, no tuvimos necesidad de definir nuevamente el objeto (s5 = ...)**

#### value_counts
Con el método value_counts() podemos obtener la distribución de frecuencias de una serie, por defecto omite los valores nan.

* **ascending= True:** Ordena de menor a mayor.
* **normalize= True:** Expresa los resultados al tanto por uno.
* **dropna= True:** Omite los nan.

In [20]:
s5.value_counts()

110.0    2
100.0    1
120.0    1
dtype: int64

In [21]:
s5.value_counts(ascending=True, normalize=True, dropna=False)

100.0    0.2
120.0    0.2
NaN      0.2
110.0    0.4
dtype: float64

### DataFrames

Un DataFrame es una estructura de datos indexada bidimensional con columnas de tipos potencialmente diferentes. Puede pensarse como una tabla en un hoja de cálculo, una tabla de una base de datos SQL, o un diccionario de objetos.

Podemos construir dataframes a partir de listas anidadas, tuplas anidadas, arrays, diccionarios, series o a través de la lectura de archivos.

Cada columna del dataframe puede ser te un tipo distinto, más adelante veremos esto.

* **Desde listas anidadas:**

Cada una de las listas anidadas, será una fila de nuestro dataframe. La cantidad de elementos que contengan nuestras listas determinará la cantidad de columnas. En nuestro caso, nuestra primera lista anidada tiene solo tres elementos, pero las restantes contienen cuatro, por ello la primer fila se completa automáticamente con un valor NaN.

In [22]:
Lista_anidada = [[0,1,2] , [3,4,5,6] , [7,8,9,np.nan]]
Lista_anidada

[[0, 1, 2], [3, 4, 5, 6], [7, 8, 9, nan]]

In [23]:
pd.DataFrame(Lista_anidada)

Unnamed: 0,0,1,2,3
0,0,1,2,
1,3,4,5,6.0
2,7,8,9,


Pero nuestro dataframe todavía es muy poco legible, si no asignamos un nombre a priori, los nombres de las columnas estarán dados por números que, como todo en Python empiezan en cero. Empecemos bien y creemos un dataframe con nombres claros.

In [24]:
df1 = pd.DataFrame(Lista_anidada,
                   columns=["Columna_A", "Columna_B", "Columna_C","Columna_D"])
df1

Unnamed: 0,Columna_A,Columna_B,Columna_C,Columna_D
0,0,1,2,
1,3,4,5,6.0
2,7,8,9,


Al igual que en las series, también podemos personalizar los índices al crear el dataframe pasando los nombres de las columnas como una lista.

In [25]:
df1 = pd.DataFrame(Lista_anidada,
                   columns=["Columna_A", "Columna_B", "Columna_C","Columna_D"],
                  index= ["ID_1","ID_2","ID_3"])
df1

Unnamed: 0,Columna_A,Columna_B,Columna_C,Columna_D
ID_1,0,1,2,
ID_2,3,4,5,6.0
ID_3,7,8,9,


* **Desde tuplas anidadas:**

In [26]:
Tupla_anidada = ((0,1,2),(3,4,5,6),(7,8,9,np.nan))
Tupla_anidada

((0, 1, 2), (3, 4, 5, 6), (7, 8, 9, nan))

In [27]:
df2 = pd.DataFrame(Tupla_anidada,
                   columns=["Columna_A", "Columna_B", "Columna_C","Columna_D"],
                  index= ["ID_1","ID_2","ID_3"])
df2

Unnamed: 0,Columna_A,Columna_B,Columna_C,Columna_D
ID_1,0,1,2,
ID_2,3,4,5,6.0
ID_3,7,8,9,


El ejemplo anterior es bastante trivial, por eso utilizamos tuplas anidades en tuplas, lo más probable es que si nos encontramos con un script que convierte tuplas anidadas en un dataframe, estas estén anidadas en una lista ***[(x1,y1,z1),(x2,y2,z2)]*** en lugar de una tupla ya que las tuplas son elementos inmutables.

* **Desde diccionario:** 

En este caso, en cada clave definimos las columnas y en sus valores se encontrarán dentro de listas.

Diccionario = {"Clave: valor}

DataFrame desde diccionario = {"Columna": [cada,valor,de,la,columna]}

**Tener en cuenta que cuando creamos un dataframe desde un diccionario, cada lista que contenga los elementos debe tener la misma longitud.**

In [28]:
pd.DataFrame({"Columna_A": [0,3,7],
             "Columna_B": [1,4,8],
             "Columna_C": [2,5,9],
             "Columna_D": [np.nan,6,np.nan]
             })

Unnamed: 0,Columna_A,Columna_B,Columna_C,Columna_D
0,0,1,2,
1,3,4,5,6.0
2,7,8,9,


In [29]:
array = np.array([[0,1,2,np.nan],[3,4,5,6],[7,8,9,np.nan]])
pd.DataFrame(array, columns=["Columna_A", "Columna_B", "Columna_C","Columna_D"])

Unnamed: 0,Columna_A,Columna_B,Columna_C,Columna_D
0,0.0,1.0,2.0,
1,3.0,4.0,5.0,6.0
2,7.0,8.0,9.0,


#### Tipos de datos


| Pandas dtype     | Python type     | NumPy type     | Usage|
|-----------------|:---------------------:|:---------------------:|:---------------------:|
| object     | str     | string_, unicode_     | Text|
| int64     | int     | int_, int8, int16, int32, int64, uint8, uint16, uint32, uint64     | Integer numbers|
| float64     | float     | float_, float16, float32, float64     | Floating point numbers|
| bool     | bool     | bool_     | True/False values|
| datetime64     | NA     | datetime64[ns]     | Date and time values|
| timedelta[ns]     | NA     | NA     | Differences between two datetimes|
| category     | NA     | NA     | Finite list of text values |

**Recuerden que cada columna de puede contener datos de distinto tipo.**

Por ejemplo:

In [30]:
df3 = pd.DataFrame({
    'A': 1.,
    'B': pd.Timestamp('20210810'),
    'C': pd.Series(1, index=list(range(4)), dtype='float32'),
    'D': np.array([3] * 4, dtype='int32'),
    'E': pd.Categorical(["test", "train", "test", "train"]),
    'F': 'foo',
    'G': [1,2,1,2]
})
df3

Unnamed: 0,A,B,C,D,E,F,G
0,1.0,2021-08-10,1.0,3,test,foo,1
1,1.0,2021-08-10,1.0,3,train,foo,2
2,1.0,2021-08-10,1.0,3,test,foo,1
3,1.0,2021-08-10,1.0,3,train,foo,2


Inspeccionemos los tipos de nuestras columnas:

In [31]:
df3.dtypes

A           float64
B    datetime64[ns]
C           float32
D             int32
E          category
F            object
G             int64
dtype: object

En nuestro ejemplo, tenemos números fraccionarios y enteros con distinto nivel de precisión, fechas, una variable ordinal (category) y una de tipo object que contiene solo datos de tipo string. 

* **Importar datos desde archivos:**

En nuestro caso vamos a estudiar cómo importar archivos con extensión .csv pero también es posible convertir a dataframe archivos .txt, .json, .xlsx, xls, etc. Invitamos a leer la documentación de Pandas para ampliar este tema.

**¿Qué es un archivo .csv?**

Los archivos con extensión .csv (*comma-separated values*) son archivos de texto plano cuyos valores se encuentran separados por un delimitador, por lo general una ",".

Si abrimos un archivo csv en un bloc de notas veremos algo así:

*make,price,mpg,rep78,headroom,trunk,weight,length,turn,displacement,gear_ratio,foreign
AMC Concord,4099,22,3,2.5,11,2930,186,40,121,3.5799999,Domestic
AMC Pacer,4749,17,3,3,11,3350,173,40,258,2.53,Domestic
AMC Spirit,3799,22,,3,12,2640,168,35,121,3.0799999,Domestic
Buick Century,4816,20,3,4.5,16,3250,196,40,196,2.9300001,Domestic*

La primera fila representa el nombre de nuestras columnas (el header) y las restantes son las filas de nuestro dataframe. 

In [32]:
df4 = pd.read_csv(
    'data/auto.csv',     # file path
    delimiter=',',       # delimitador ',',';','|','\t'
    header=0,            # número de fila como nombre de columna
    names=None,          # nombre de las columnas (ojo con header)
    index_col=0,         # que col es el índice
    usecols=None,        # que col usar. Ej: [0, 1, 2], ['foo', 'bar', 'baz']
    dtype=None,          # Tipo de col {'a': np.int32, 'b': str} 
    skiprows=None,       # saltear filas al inicio
    skipfooter=0,        # saltear filas al final
    nrows=None,          # n de filas a leer
    decimal='.',         # separador de decimal. Ej: ',' para EU dat
    quotechar='"',       # char para reconocer str
    #encoding=None,      # archivos con tilde y ñ por lo general utilizan "utf-8" etc 
)

df4

Unnamed: 0_level_0,price,mpg,rep78,headroom,trunk,weight,length,turn,displacement,gear_ratio,foreig
make,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
AMC Concord,4099,22,3.0,2.5,11,2930,186,40,121,3.58,Domestic
AMC Pacer,4749,17,3.0,3.0,11,3350,173,40,258,2.53,Domestic
AMC Spirit,3799,22,,3.0,12,2640,168,35,121,3.08,Domestic
Buick Century,4816,20,3.0,4.5,16,3250,196,40,196,2.93,Domestic
Buick Electra,7827,15,4.0,4.0,20,4080,222,43,350,2.41,Domestic
...,...,...,...,...,...,...,...,...,...,...,...
VW Dasher,7140,23,4.0,2.5,12,2160,172,36,97,3.74,Foreign
VW Diesel,5397,41,5.0,3.0,15,2040,155,35,90,3.78,Foreign
VW Rabbit,4697,25,4.0,3.0,15,1930,155,35,89,3.78,Foreign
VW Scirocco,6850,25,4.0,2.0,16,1990,156,36,97,3.78,Foreign


Si quisiésemos hacer el camino inverso y guardar el dataframe en csv...

In [33]:
df4.to_csv("data/df4_a_csv.csv",
           index=False,       #Index false para que no guarde el índice como una columna
          encoding= "utf-8")  #No es el caso pero si estuvíeramos usando un df en español

Ahora revisemos un poco nuestro dataframe...

**Descripción del índice:**

In [34]:
df4.index

Index(['AMC Concord', 'AMC Pacer', 'AMC Spirit', 'Buick Century',
       'Buick Electra', 'Buick LeSabre', 'Buick Opel', 'Buick Regal',
       'Buick Riviera', 'Buick Skylark', 'Cad. Deville', 'Cad. Eldorado',
       'Cad. Seville', 'Chev. Chevette', 'Chev. Impala', 'Chev. Malibu',
       'Chev. Monte Carlo', 'Chev. Monza', 'Chev. Nova', 'Dodge Colt',
       'Dodge Diplomat', 'Dodge Magnum', 'Dodge St. Regis', 'Ford Fiesta',
       'Ford Mustang', 'Linc. Continental', 'Linc. Mark V', 'Linc. Versailles',
       'Merc. Bobcat', 'Merc. Cougar', 'Merc. Marquis', 'Merc. Monarch',
       'Merc. XR-7', 'Merc. Zephyr', 'Olds 98', 'Olds Cutl Supr',
       'Olds Cutlass', 'Olds Delta 88', 'Olds Omega', 'Olds Starfire',
       'Olds Toronado', 'Plym. Arrow', 'Plym. Champ', 'Plym. Horizon',
       'Plym. Sapporo', 'Plym. Volare', 'Pont. Catalina', 'Pont. Firebird',
       'Pont. Grand Prix', 'Pont. Le Mans', 'Pont. Phoenix', 'Pont. Sunbird',
       'Audi 5000', 'Audi Fox', 'BMW 320i', 'Datsun 200'

**Nombres de las columnas:**

Columns devuelve un array con los nombres de las columnas. Tenemos que tener en cuenta que el índice no es una columna, es una etiqueta para nuestras filas.

In [35]:
df4.columns

Index(['price', 'mpg', 'rep78', 'headroom', 'trunk', 'weight', 'length',
       'turn', 'displacement', 'gear_ratio', 'foreig'],
      dtype='object')

**Tipos de datos:**

dtypes devuelve una serie con el tipo de de cada columna.

In [36]:
df4.dtypes

price             int64
mpg               int64
rep78           float64
headroom        float64
trunk             int64
weight            int64
length            int64
turn              int64
displacement      int64
gear_ratio      float64
foreig           object
dtype: object

**Forma del dataframe:**

Shape devuelve una tupla con la cantidad de filas y de columnas (filas, columnas).

In [37]:
df4.shape

(74, 11)

También podemos descomponer la tupla para obtener la cantidad de filas o columnas individualmente:

In [38]:
df4.shape[0] #Filas

74

In [39]:
df4.shape[1] #Columnas

11

Contar solo las filas:

In [40]:
len(df4)

74

Contar solo las columnas.

In [41]:
len(df4.columns)

11

**Ver dataframe como un array de Numpy:**

In [42]:
df4.values[:5] #Utilizamos "[:5]" para ver lo que serían las primeras 5 filas y el output no sea eterno.

array([[4099, 22, 3.0, 2.5, 11, 2930, 186, 40, 121, 3.5799999,
        'Domestic'],
       [4749, 17, 3.0, 3.0, 11, 3350, 173, 40, 258, 2.53, 'Domestic'],
       [3799, 22, nan, 3.0, 12, 2640, 168, 35, 121, 3.0799999,
        'Domestic'],
       [4816, 20, 3.0, 4.5, 16, 3250, 196, 40, 196, 2.9300001,
        'Domestic'],
       [7827, 15, 4.0, 4.0, 20, 4080, 222, 43, 350, 2.4100001,
        'Domestic']], dtype=object)

In [43]:
type(df4.values)

numpy.ndarray

**Uso de memoria:**

memory_usage() nos devuelve una serie con la cantidad de memoria ram en bytes que ocupa cada columna del dataframe. Se recomienda utilizar el argumento deep para tener una respuesta de mayor precisión.

In [44]:
df4.memory_usage(deep=True) 

Index           5089
price            592
mpg              592
rep78            592
headroom         592
trunk            592
weight           592
length           592
turn             592
displacement     592
gear_ratio       592
foreig          4788
dtype: int64

Para ver el total de memoria utilzada por el dataframe:

In [45]:
df4.memory_usage(deep=True).sum()

15797

Expresado en megabytes:

In [46]:
df4.memory_usage(deep=True).sum()/(1024**2)

0.015065193176269531

1 kilobyte = 1024 bytes

1 megabyte = 1024 kilobytes

1 gigabyte = 1024 megabytes

1 terabyte = 1024 gigabytes
  
y así sucesivamente...

**Contar valores no NaN:**

In [47]:
df4.count()

price           74
mpg             74
rep78           69
headroom        74
trunk           74
weight          74
length          74
turn            74
displacement    74
gear_ratio      74
foreig          74
dtype: int64

**Resumen general:**

Devuelve gran parte de lo solicitado individualmente hasta ahora. Tener en cuenta que al solicitar todo lo anterior a la vez, en grandes dataframes esto puede demorar un poco.

Nota: El uso de memoria lo devuelve con el argumento deep en False.

In [48]:
df4.info()

<class 'pandas.core.frame.DataFrame'>
Index: 74 entries, AMC Concord to Volvo 260
Data columns (total 11 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   price         74 non-null     int64  
 1   mpg           74 non-null     int64  
 2   rep78         69 non-null     float64
 3   headroom      74 non-null     float64
 4   trunk         74 non-null     int64  
 5   weight        74 non-null     int64  
 6   length        74 non-null     int64  
 7   turn          74 non-null     int64  
 8   displacement  74 non-null     int64  
 9   gear_ratio    74 non-null     float64
 10  foreig        74 non-null     object 
dtypes: float64(3), int64(7), object(1)
memory usage: 6.9+ KB


**Contar valores NaN:**

In [49]:
df4.isnull().sum()

price           0
mpg             0
rep78           5
headroom        0
trunk           0
weight          0
length          0
turn            0
displacement    0
gear_ratio      0
foreig          0
dtype: int64

### JSON

JSON (JavaScript Object Notation) es un formato texto plano utilizado para almacenar datos, si bien surgió en JavaScript, al ser independiente de este lenguaje pudo lograr gran popularidad para el intercambio de datos.

Los archivos JSON dieron lugar a los formatos GeoJSON y TopoJSON que permiten almacenar datos espaciales. Una de las ventajas de estos últimos frente otros formatos de almacenamiento de datos espaciales, es que todos los datos se guardan en un único archivo, mientras que los tradicionales archivos shape se guardan en por lo menos en tres archivos distintos dependiendo  (.shp, .shx y .dbf) de los datos almacenados.

Probemos ahora guardar nuestro DataFrame de autos en JSON.

In [50]:
df4.to_json("data/auto.json")

Para leer un JSON y guardar un DataFrame como archivo JSON, Pandas ofrece varios parámetros, para profundizar en ellos consultar:

* https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_json.html

* https://pandas.pydata.org/docs/reference/api/pandas.io.json.read_json.html

Ahora abramos nuestro archivo auto.json

In [51]:
pd.read_json("data/auto.json")

Unnamed: 0,price,mpg,rep78,headroom,trunk,weight,length,turn,displacement,gear_ratio,foreig
AMC Concord,4099,22,3.0,2.5,11,2930,186,40,121,3.58,Domestic
AMC Pacer,4749,17,3.0,3.0,11,3350,173,40,258,2.53,Domestic
AMC Spirit,3799,22,,3.0,12,2640,168,35,121,3.08,Domestic
Buick Century,4816,20,3.0,4.5,16,3250,196,40,196,2.93,Domestic
Buick Electra,7827,15,4.0,4.0,20,4080,222,43,350,2.41,Domestic
...,...,...,...,...,...,...,...,...,...,...,...
VW Dasher,7140,23,4.0,2.5,12,2160,172,36,97,3.74,Foreign
VW Diesel,5397,41,5.0,3.0,15,2040,155,35,90,3.78,Foreign
VW Rabbit,4697,25,4.0,3.0,15,1930,155,35,89,3.78,Foreign
VW Scirocco,6850,25,4.0,2.0,16,1990,156,36,97,3.78,Foreign


In [52]:
import json
auto_json = open("data/auto.json")
auto_json = json.load(auto_json)

Como podemos ver, los archivos json se guardan por default con una estructura de diccionario anidado.

In [53]:
type(auto_json)

dict

In [54]:
auto_json

{'price': {'AMC Concord': 4099,
  'AMC Pacer': 4749,
  'AMC Spirit': 3799,
  'Buick Century': 4816,
  'Buick Electra': 7827,
  'Buick LeSabre': 5788,
  'Buick Opel': 4453,
  'Buick Regal': 5189,
  'Buick Riviera': 10372,
  'Buick Skylark': 4082,
  'Cad. Deville': 11385,
  'Cad. Eldorado': 14500,
  'Cad. Seville': 15906,
  'Chev. Chevette': 3299,
  'Chev. Impala': 5705,
  'Chev. Malibu': 4504,
  'Chev. Monte Carlo': 5104,
  'Chev. Monza': 3667,
  'Chev. Nova': 3955,
  'Dodge Colt': 3984,
  'Dodge Diplomat': 4010,
  'Dodge Magnum': 5886,
  'Dodge St. Regis': 6342,
  'Ford Fiesta': 4389,
  'Ford Mustang': 4187,
  'Linc. Continental': 11497,
  'Linc. Mark V': 13594,
  'Linc. Versailles': 13466,
  'Merc. Bobcat': 3829,
  'Merc. Cougar': 5379,
  'Merc. Marquis': 6165,
  'Merc. Monarch': 4516,
  'Merc. XR-7': 6303,
  'Merc. Zephyr': 3291,
  'Olds 98': 8814,
  'Olds Cutl Supr': 5172,
  'Olds Cutlass': 4733,
  'Olds Delta 88': 4890,
  'Olds Omega': 4181,
  'Olds Starfire': 4195,
  'Olds Toronad

No es la intención de este apartado profundizar en los archivos JSON, pero sí debemos familiarizarnos con ellos, ya que a partir de sus variantes que soportan datos geográficos, aprenderemos un poco de análisis espacial.