# <u>Librería Pandas</u>

 La librería Pandas desarrollada para el análisis. Fue desarrollada en NumPy. La librería Pandas trae la riqueza de R al mundo de Python. Tiene eficiente estructuras de datos para procesar los datos, unir datos y leerlos de varias fuentes.


In [None]:
# Importar la librería Pandas desde Python.
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
# para mostrar imágenes estáticas en Jupyter Notebook
%matplotlib inline

## Series

Una **serie** en Pandas es un vector unidimensional con un índice que puede especificarse o no. 

El objeto `Series` es básicamente igual que un arreglo unidimensional NumPy. **La diferencia esencial es la presencia del índice**: mientras que el arreglo NumPy tiene un índice entero implícitamente definido, usado para acceder a los valores, la serie Pandas tiene un índice explícitamente definido con valores.

In [None]:
# Creación de una serie a partir de 10 números aleatorios.
pd.Series(np.random.randint(0,10,10))

In [None]:
ser_1 = pd.Series(np.random.randint(0,10,10), index=['a','b','c','d','e','f','g','h','i','j'])

# también se puede crear una serie desde un diccionario pd.Series({'idx1': val1, 'idx2': val2}

In [None]:
ser_1

Como vemos en el resultado de la celda anterior, la Serie contiene una secuencia de valores y una secuencia de índices, a las cuales podemos acceder con los atributos `values` y `index`. Los valores son simplemente un arreglo de NumPy:

In [None]:
ser_1.values

El índice es un objeto tipo arreglo.

In [None]:
ser_1.index

Al igual que con un arreglo NumPy, los datos pueden ser accedidos por el índice asociado, haciendo uso de los corchetes:

In [None]:
ser_1[2] # indexing

In [None]:
ser_1[1:4] # slicing

In [None]:
print('Suma: ')
print(ser_1.sum())
print('Promedio: ')
print(ser_1.mean())
print('Mediana: ')
print(ser_1.median())
print('Mínimo: ')
print(ser_1.min())
print('Máximo: ')
print(ser_1.max())
print('Desviación estándar: ')
print(ser_1.std())
print('Cuantiles: ')
print(ser_1.quantile([0.2, 0.4, 0.6,0.8]))
print('Conteo de valores: ')
print(ser_1.value_counts())
print('Conteo de valores porcentuales: ')
print(ser_1.value_counts(normalize=True)*100)
print('Valores distintos listados: ')
print(ser_1.unique())
print('Valores distintos ordenados: ')
print(np.sort(ser_1.unique()))

In [None]:
ser_1.sort_values()

In [None]:
ser_1.sort_values(ascending=False)

In [None]:
ser_1.sort_index()

In [None]:
ser_1.sort_index(ascending=False)

In [None]:
ser_1 + 1 #las series pueden ser tratadas como arrays

In [None]:
np.sqrt(ser_1) # se puede aplicarle funciones matemáticas

In [None]:
np.exp(ser_1)

In [None]:
ser_1.append(pd.Series(10))

In [None]:
ser_1 = ser_1.append(pd.Series(10, index=['k']))

In [None]:
ser_1

In [None]:
ser_x = pd.Series(np.random.randint(0,20,3), index=['a','b','c'])
ser_y = pd.Series(np.random.randint(0,20,3), index=['b','c','d'])
print(ser_x)
print('--------------------------')
print(ser_y)
print('--------------------------')
print(ser_x+ser_y)
print('--------------------------')
print(ser_x.add(ser_y, fill_value=0))  # también se puede aplicar sub, mul y div

In [None]:
ax = ser_1.plot()
ax.set_xlabel('Index') # leyenda eje x
ax.set_ylabel('Valor') # leyenda eje y
ax.set_title('Mi primer gráfico') # título de gráfico
plt.show()

### Series como diccionario especializado

De esta manera, se puede pensar en una `Serie` Pandas un como un diccionario especializado. 

Un diccionario es una estructura que mapea llaves arbitrarias a un conjunto de valores arbitrarios, y una serie es una estructura que mapea llaves de un mismo tipo a un conjunto de valores de un mismo tipo. Este tipado (la exigencia de un tipo definido de dato) es importante: la información del tipo de datos de una serie Pandas la hace mucho más eficiente que los diccionarios Python para ciertas operaciones.

In [None]:
goles_favor_dict = {'Perú': 2, 
         'Brasil': 5, 
         'Colombia': 5, 
         'Argentina': 3, 
         'Uruguay': 5, 
         'Chile': 0}

goles_favor = pd.Series(goles_favor_dict)
goles_favor

In [None]:
goles_favor.sort_values(ascending=False)

Puedes notar que los índices han sido ordenados. Ese es el comportamiento por defecto de Pandas.

In [None]:
goles_favor["Perú"]

A diferencia de los diccionarios, las `Series` pueden soportar operaciones del tipo array tal como el **slicing**:

In [None]:
goles_favor["Brasil": "Argentina"]

## Data Frames

Un **DataFrame** son estructuras bidimensionales donde las columnas está etiquetadas con su valor y pueden ser de tipos distintos. Una analogía a un Dataframe podria ser una hoja de cálculo Excel o una tabla de una base de datos.

De forma opcional un Dataframe puede tener un índice. Ese índice será el nombre de las filas.

### DataFrame como un arreglo NumPy generalizado

Si una `Serie` es el análogo de un arreglo unidimensional con índices flexibles, un `DataFrame` es el análogo de un arreglo bidimensional con índices de fila y nombres de columna flexibles.

In [None]:
# Goles en contra
goles_contra_dict = {'Perú': 2, 
         'Brasil': 1, 
         'Colombia': 2, 
         'Argentina': 5, 
         'Uruguay': 0, 
         'Chile': 0}

goles_contra = pd.Series(goles_contra_dict)
goles_contra

Ahora con estas 2 series podemos utilizar un diccionario para construir un único objeto bidimensional que contenga esta información:

In [None]:
dfGoles = pd.DataFrame({'goles_a_favor': goles_favor,
                       'goles_en_contra': goles_contra})
dfGoles

In [None]:
dfGoles['diferencia_goles'] = dfGoles['goles_a_favor'] - dfGoles['goles_en_contra']

In [None]:
dfGoles

In [None]:
# Ver sólo la diferencia de goles
dfGoles["diferencia_goles"]

In [None]:
dfGoles[["diferencia_goles"]]

In [None]:
# Ver la diferencia de goles de Perú
dfGoles["diferencia_goles"]["Brasil"]

In [None]:
# Índices
dfGoles.index

In [None]:
# Columnas
dfGoles.columns

### DataFrame como diccionario especializado

De igual manera, podemos pensar en el `DataFrame` como la especialización de un diccionario. Tal como un diccionario asocia una llave a un valor, un `DataFrame` asocia un nombre de columna a una serie de datos. 

Por ejemplo, preguntar por el atributo **goles_a_favor** retorna el objeto `Serie` conteniendo las goles a favor que vimos antes:

In [None]:
dfGoles["goles_a_favor"]

In [None]:
dfGoles["goles_en_contra"]

In [None]:
# Data Frames que provienen de diccionarios de series.
d = {'c1': pd.Series(['A', 'B', 'C']),'c2': pd.Series([1., 2., 3., 4.])}
data1 = pd.DataFrame(d)
data1

In [None]:
# Data Frames que provienen de diccionarios de listas.
d = {'c1': ['A', 'B', 'C', 'D'],'c2': [1.0, 2.0, 3.0, 4.0]}
data2 = pd.DataFrame(d)
data2

#### Creación de un campo de fechas usando pandas

In [None]:
#date_range genera una lista de fechas.
dates = pd.date_range(start = '20180101',periods=10)
print(dates)

In [None]:
dates2 = pd.date_range(end = '20180101',periods=10)
print(dates2)

In [None]:
dates3 = pd.date_range(start='2018-01-01', end='2018-02-01', periods=4)
print(dates3)

In [None]:
dates4 = pd.date_range(start='1/1/2018', periods=5, freq='M')
print(dates4)

In [None]:
dates5 = pd.date_range(start='1/1/2018', periods=20, freq='T')  #'min'
print(dates5)

In [None]:
dates6 = pd.date_range(start='1/1/2018', periods=20, freq='5min')  #'min'
print(dates6)

https://pandas.pydata.org/docs/user_guide/timeseries.html#timeseries-offset-aliases

#### Continuamos con creación de dataframes:

Integramos el campo de fecha como índice de un dataframe

In [None]:
import pandas as pd
import numpy as np

In [None]:
dates = pd.date_range(start = '20180101',periods=10)

In [None]:
#index=> es el índice y indica el nombre de cada fila. en este caso metemos
#el array de dates del paso anterior. Columns identifica la etiqueta de las
#columnas.
df = pd.DataFrame(np.random.randint(0,100,(10,10)),index=dates,columns=list('ABCDEFGHIJ'))
df   # alternativamente se puede usar display(df)

In [None]:
print(df)

In [None]:
display(df)  # solo para pandas dataframes

Los tipos de datos de un dataframe pueden ser diferentes. Es la misma idea que una tabla de la base de datos. Cada columna puede ser de un tipo diferente.

In [None]:
serie = pd.Series([42,46,15,12,67],index=list(range(5)))
df2 = pd.DataFrame({'A':1.0,
                    'B':pd.Timestamp('20130102'), ### 'YYYYMMDD'
                    'C':serie,
                    'D':2,
                    'E':pd.Categorical(['test','train','test','train','test']),
                    'F': "foo" 
                   })
display(df2)
print(df2.dtypes)

Veamos algunas funciones útiles:
* pd.Timestamp(): genera una campo de tipo timestamp.
* pd.Series() Genera una serie de números. El index es el índice de la serie que es de tipo entero. Range genera los 4 primeros números.
* pd.Categorical() genera una lista de categorías.

#### Principales funciones con dataframes:

A continuación se muestran diversas funciones útiles para acceder a las 
características de un DataFrame

In [None]:
print(df.index)
print('----------------------------------------')
print(df.columns)
print('----------------------------------------')
print(df.values)
print('----------------------------------------')
display(df)   # solo funciona en jupyters notebooks
print("=========================================")
print(df.describe())    #principales estadisticos de un dataframe

In [None]:
#dataframe transpuesto
df.T

In [None]:
df.T.describe()

In [None]:
import matplotlib.pyplot as plt

In [None]:
# gráficas con pandas 

df.plot()
plt.show()

In [None]:
# el corchete en un dataframe jala columnas
df[['A','B']].plot()
plt.show()

In [None]:
#diagrama de barras
df['A'].plot.bar()
plt.show()

In [None]:
#histograma
df['A'].plot.hist()
plt.show()

In [None]:
#diagrama de cajas
df['A'].plot.box()
plt.show()

In [None]:
#diagrama de barras de todas las variables
df.plot.box()
plt.show()

In [None]:
#gráfico de área
df.plot.area()
plt.show()

In [None]:
#diagrama de dispersión
df.plot.scatter('A','B')
plt.show()

#### Ordenar un dataframe

In [None]:
#Ordenar por índices
display(df)
display(df.sort_index(axis=0,ascending=False)) # ordena las filas (axis 0)
display(df.sort_index(axis=1,ascending=False)) # ordena las columnas (axis 1)
display(df.sort_index(axis=1,ascending=False).sort_index(axis=0,ascending=False))

In [None]:
#Ordenar por columnas
#display(df)
display(df.sort_values(by=['C'],ascending=True)) 
# selecciona la columna que utilizaremos como criterio de ordenación

In [None]:
# ordenando por más de una variable a la vez
display(df.sort_values(by=['B','C'],ascending=True)) 

Las funciones head y tail nos muestran los primeros y últimos elementos respectivamente. Útiles para resumir el dataframe cuando estos son muy grandes.

In [None]:
display(df.head())  # por defecto muestra 5
display(df.tail(2))

In [None]:
display(df.sort_values(by=['C'],ascending=False).head(4)) 

#### Acceder a una columna.

In [None]:
display(df['B'])   # también es valido cuando la columna tiene espacios en blanco
display(df.B) # Ojo con los nombres de las columnas que sea palabras con espacio
display(df[['B']])  # devuelve un dataframe

#### Acceder a una fila.

In [None]:
display(df[1:4])
display(df['2018-01-02':'2018-01-04']) # selección por filas con un rango de numpy

In [None]:
df2 = df.sort_values(by=['C'],ascending=True)
type(df2)
df2[1:4]

In [None]:
display(df2)

In [None]:
display(df2['2018-01-02':'2018-01-04']) # solo vale cuando el index está ordenado

In [None]:
display(df2.sort_index()['2018-01-02':'2018-01-04'])

La función **loc()** define una selección a traves de nombres de indices, ya sea por filas o columnas

In [None]:
print(dates)
type(dates)
print(dates[2])

In [None]:
display(df)
print(dates[1])
display(df.loc[[dates[1]]])   #el doble corchete convierte la salida en un dataframe, el corchete simple devuelve una serie
display(df.loc[pd.Timestamp('2018-01-03')])
display(df.loc[:,['A','B']]) #selecciona todas las filas y las columnas A y B en una lista
display(df.loc['2018-01-01':'2018-01-02',['A','C']]) #selecciona las filas '2013-01-01' a '2013-01-02' y las columnas A y B

**iloc()** es similar, pero utiliza enteros en vez de los nombres de los campos (podemos aplicar indexing y slicing).

In [None]:
display(df.iloc[3])    # devuelve como resultado una serie
display(df.iloc[[3]])    # devuelve como resultado un dataframe
display(df.iloc[0:2,0:2])
display(df.iloc[[1,2,4],[0,2,3]])
display(df.iloc[:,[0,2,3]])
display(df.iloc[[0,2,4],:])

In [None]:
df.iloc[3].sum()

In [None]:
df.iloc[[3]]  # sugerencia: sólo para representaciones

In [None]:
display(df.loc['2018-01-01':'2018-01-02',['A','B']])

In [None]:
display(df.iloc[0:2,[0,1]])

**Filtrado condicional:** Similar a select where condition de sql. Permite consular solo los valores que cumplan con la condición.

In [None]:
display(df)
display(df[df.B > 50]) # muestra los valores de la tabla en cuya columna B su valor sea mayor que 0
display(df[(df['B']> 50) & (df.C < 50)])
display(df[df > 50]) 
# muestra los elementos de la tabla que sean mayores que el valor. El resto serán NaN

**Cruzado de datos (merge)** similar a la que se puede hacer en BBDD con join.

In [None]:
tabla1 = pd.DataFrame({'key1' : ['A','B','C','D'], 'lval':[1,2,3,4]})
tabla2 = pd.DataFrame({'key2' : ['C','D','E','F'], 'rval':[5,6,7,8]})
display(tabla1)
display(tabla2)
new1 = pd.merge(tabla1,tabla2,left_on='key1',right_on='key2', how="left")  
# si el campo para fusionar se llam igual en ambas tablas, basta con poner on=" "
#how : forma en la que combinamos con una intersección o con una unión, 
#sólo con la izquierda o sólo con la tabla de la derecha
#left, right, inner o outer.
display(new1)
new2 = pd.merge(tabla1,tabla2,left_on='key1',right_on='key2', how="inner") 
display(new2)

Pero veo que existe un método llamado **join()**. ¿Tienen la misma funcionalidad?

In [None]:
tabla1.set_index('key1').join(tabla2.set_index('key2'))

In [None]:
tabla1.set_index('key1').join(tabla2.set_index('key2'),how="inner")

Pues la respuesta es que **No**. El método `join()` se usa cuando se quiere cruzar dos DataFrames en base a sus índices o en base al(a los) índice(s) de un DataFrame con la(s) columna(s) de la otra.

In [None]:
tabla1 = pd.DataFrame({'key1' : ['A','B','C','D'], 'valor':[1,2,3,4]})
tabla2 = pd.DataFrame({'key1' : ['C','D','E','F'], 'valor':[5,6,7,8]})

#para juntar 2 dataframes con la misma estructura
tabla_conjunta = pd.concat([tabla1, tabla2])
tabla_conjunta

In [None]:
tabla_conjunta.reset_index().drop(columns = 'index')

#### Agrupaciones

Para hacer agrupaciones, podemos usar **groupby**

In [None]:
f = pd.DataFrame({'A' : ['foo', 'bar'] * 12,
                   'B' : ['one', 'two', 'three']*8,
                   'val1' : np.random.rand(24),
                   'val2' : np.random.rand(24)})
display(f)

In [None]:
group = f.groupby(['A','B'])
print("-------------")
display(group) 
# los grupos no se pueden mostrar directamente, 
# group está pensado para ejecutar posteriormente una acción
# por ejemplo sumar
print("-----suma agrupada------")
display(group.sum())
print("-----estadisticos agrupados------")
display(group.describe())

Una agrupación directa:

In [None]:
f.groupby(['A','B']).sum()

Ahora aplicamos un filtro sobre una agrupación (similar al having de SQL):

In [None]:
agrup = f.groupby(['A','B']).sum()
agrup[agrup.val1 > 2.0]

¿Te acuerdas de las tablas dinámicas de Excel? Pues, DataFrame tiene una funcionalidad parecida, con la función ***pivot_table***

In [None]:
display(f)

In [None]:
# pivot_table tiene 3 partes: index, columns and values (similar a excel)
# margins se refiere a los subtotales
f_pivote = f.pivot_table(index="A", columns="B", values="val1", aggfunc="mean", margins=True, margins_name='Subtotal')
f_pivote

In [None]:
f_pivote = f.pivot_table(index="A", columns="B", values="val1", aggfunc="sum", margins=False)
f_pivote

In [None]:
# podemos haces uns tabla cruzada simple con 2 variables de un dataframe
pd.crosstab(f.A, f.B)

In [None]:
f_pivote.stack()  #devuelve una serie con los datos apilados

In [None]:
a = f_pivote.stack()
a[a>2]

In [None]:
f_pivote.stack().unstack()   #regresa al dataframe pivoteado

In [None]:
f.stack()

### Programación Funcional con Pandas
Las funciones `lambda`, `map` y `filter` vistas en los notebooks anteriores, son utilizadas por los DataFrames.

##### Lambda

In [None]:
# Defino una función lambda para poder sumar una unidad a un valor
potencia = lambda x: x**3

In [None]:
# Sumar una unidad a una columna
f["val1"].apply(potencia)

¿Puedo hacer operaciones con más de una columna?

In [None]:
fraccion = lambda row: round(row["val1"] / row["val2"], 2) if row["val2"] > 0 else 0

In [None]:
# crear una nueva columna en mi dataframe que sea la división de los valores val1 y val2
f["fraccion"] = f.apply(fraccion, axis=1)
f

##### Map
Nos permite asociar un valor con otro

In [None]:
f["B"].unique().tolist()

In [None]:
ingreso_rng_dict = {v: k for k, v in enumerate(f["B"].unique().tolist())}
ingreso_rng_dict

In [None]:
f["B_COD"] = f["B"].map(ingreso_rng_dict)
f

# útil para recodificar variables

In [None]:
dict2 = {'one': 'uno', 'two': 'dos', 'three': 'tres'}

In [None]:
f["B_COD2"] = f["B"].map(dict2)
f

##### Filter
Nos permite filtrar en base a los índices en cualquiera de los axis.

In [None]:
f.filter(items=["A", "B"], axis=1)

In [None]:
# Filtrar solo las columnas que contengan con B
f.filter(like="B", axis=1)

***Un ejemplo adicional:***

In [None]:
df1 = pd.DataFrame({'col1': ['pizza', 'hamburger', 'hamburger', 'pizza', 'ice cream'], 
                    'col2': ['boy', 'boy', 'girl', 'girl', 'boy']}, index=range(1,6))
df2 = pd.DataFrame({'col1': ['pizza', 'pizza', 'chicken', 'cake', 'cake', 'chicken', 'ice cream'], 
                    'col2': ['boy', 'girl', 'girl', 'boy', 'girl', 'boy', 'boy']}, index=range(10,17))

In [None]:
df1['indicator'] = df1['col1'].str.cat(df1['col2'])
df2['indicator'] = df2['col1'].str.cat(df2['col2'])

In [None]:
df1

In [None]:
df2

In [None]:
# Primera forma de unir 2 tablas con merge:
pd.merge(df2, df1, how='inner')   # realiza el merge de manera automatica por lo campos en comun

In [None]:
pd.merge(df2, df1, how='inner', on='indicator') 

In [None]:
# Forma alternativa de unir 2 tablas con merge:
df2.merge(df1, how='inner')

In [None]:
pd.crosstab(df1.col1, df1.col2)

In [None]:
# concat permite unir data frames que tengan la misma estructura:
df3 = pd.concat([df1,df2])
df3

In [None]:
df3.reset_index(drop=True)

***isin*** es otro método que se utiliza para filtrar data frames. El método ayuda a seleccionar filas con un valor particular (o múltiple) en una columna en particular. Este método devuelve un data frame.

In [None]:
df2.indicator.isin(["pizzaboy"])

In [None]:
df2.loc[df2.indicator.isin(["pizzaboy"])]

In [None]:
f.loc[f.B.isin(["one","three"])]

### Importar y exportar datos en formato csv y txt

In [None]:
# Importar datos en formato csv.
# el parámetro encoding se usa para poder cargar texto con otra codificación
# UTF-8(8-bit Unicode Transformation Format) permite cargar caracteres especiales 
# (tildes y la letra ñ)
d_students = pd.read_csv('data/students.csv', sep=',', encoding = 'UTF-8')

In [None]:
# Leer los primeros registros
d_students.head()

In [None]:
# Importar datos en formato txt.
d_txt = pd.read_csv('data/students.txt', sep='|', encoding = 'UTF-8')

In [None]:
d_txt.head()

### Exportar datos de un data frame a un csv y txt

In [None]:
display(f)

In [None]:
f.to_csv('data/prueba.csv', sep=',', index=False)

In [None]:
f.to_csv('data/prueba.txt', sep='|', index=False)

### Ejemplo de uso de **read_csv** con *parse_dates*

In [None]:
import datetime as dt
dateparse = lambda x: dt.datetime.strptime(x, '%Y %m') 
# depende del formato que tenga la fecha en tu archivo
data = pd.read_csv("data/AirPassengers_2012_2016_2.csv", 
                   parse_dates= {'yearmonth':['Year', 'Month']}, 
                   date_parser=dateparse,
                   index_col='yearmonth')
data.head()

### Importar y exportar datos en formato xls/xlsx

In [None]:
# Importar datos en formato xls.
d = pd.read_excel('data/students.xls') #, sheet_name = 'Hoja1'

In [None]:
d.shape

In [None]:
d.head()

In [None]:
# ordenando por algún campo específico
d.sort_values('AREA NAME', ascending=False).head(3)

In [None]:
billboard = pd.read_excel("data/billboard.xlsx")  #, sheet_name = 'Hoja1'
# opcionalmente puedes colocar el nombre de la hoja con sheet_name
billboard.head()

In [None]:
songs_cols = ["year", "artist.inverted", "track", "time", "genre"]

In [None]:
songs = billboard[songs_cols].drop_duplicates() # Eliminamos posibles duplicados
songs.head(20)

In [None]:
songs = songs.reset_index(drop=True) # Se reinicia el índice eliminando el antiguo
songs.head()

In [None]:
songs["song_id"] = songs.index  #crea una variable a partir de un índice
songs.head()

### Exportar datos de un data frame a formato Excel

In [None]:
songs.head(10)

In [None]:
songs.to_excel("data/canciones.xlsx", sheet_name = 'Canciones')

### Juntar varias tablas con nombres consecutivos o parecidos

In [None]:
df1 = pd.read_csv('data/religion_income_1.csv')
df1.head()

In [None]:
df2 = pd.read_csv('data/religion_income_2.csv')
df2.head()

In [None]:
df3 = pd.read_csv('data/religion_income_3.csv')
df3.head()

In [None]:
from glob import glob

#permite juntar varias tablas con nombres consecutivos
filenames = glob('data/religion_income_*.csv')
dataframes = []
dataframes = [pd.read_csv(f) for f in filenames]
dff = pd.concat(dataframes)
dff

## para cargar todos los archivos de una carpeta sin importar el nombre
## filenames = glob('data/*.csv')

In [None]:
type(dff)

In [None]:
# para comprobar que los datafarmes tengan la misma estructura
for d in dataframes:
    print(d.columns)

In [None]:
dff.reset_index(inplace=True,drop = True) # inplace hace que el cambio sea permanente
dff

In [None]:
dff = dff.drop(columns = "index")

In [None]:
dff

In [None]:
# quiero cargar todos los archivos de una carpeta
# filenames = glob('data/*.csv')  # todos los archivos csv
# dataframes = [pd.read_csv(f) for f in filenames]
# dff = pd.concat(dataframes)
# dff

### Importar datos en formato JSON

In [None]:
# Importar el paquete JSON.
import json

In [None]:
json_data = open('data/students.json')

In [None]:
data = json.load(json_data)

In [None]:
data

In [None]:
json_data.close()

### Exportar un diccionario en formato JSON

In [None]:
my_dict = { 'Ali': 9, 'Sid': 1, 'Luna': 7, 'Sim': 12, 'Pooja': 4, 'Jen': 2}

In [None]:
with open('data.json', 'w') as fp:
    json.dump(my_dict, fp)

In [None]:
with open('data.json', 'r') as fp:
    data = json.load(fp)

In [None]:
print(data)

In [None]:
print(type(data))