# <img style="float: left; padding: 0px 10px 0px 0px;" src="https://upload.wikimedia.org/wikipedia/commons/thumb/8/84/Escudo_de_la_Pontificia_Universidad_Cat%C3%B3lica_de_Chile.svg/1920px-Escudo_de_la_Pontificia_Universidad_Cat%C3%B3lica_de_Chile.svg.png"  width="80" /> MDS2030 - Introducción a Ciencia de Datos
**Pontificia Universidad Católica de Chile**<br>
**Magister en Ciencia de Datos**<br>


# Tutorial 1: Importación y Manejo de Datos en Múltiple Formatos.

Este tutorial tiene com objetivo demostrar los principales métodos de la librería `pandas` de Python para leer y manipular datos en distintos formatos. En particular, abordaremos los siguientes temas: 

* Importación e inspección de datos estructurados en formatos `.csv`y `.xlsx`.
* Importación y manipulación de datos semiestructurados en formato `.json`.

La documentación de pandas asociada a métodos de lectura y escritura de datos está disponible en el siguiente link:

https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html

In [1]:
#Primero, importamos las librerías a utilizar
import pandas as pd

## 1. Importación e inspección de datos estructurados.

Para demostrar la lectura e inspección de datos estructurados, consideremos por ejemplo el siguiente dataset: 
- listado de productos de un negocio de artículos de librería, cada uno con un nombre, código, marca, costo, precio de venta, y número de unidades disponibles. 

Este conjunto de datos puede estar disponible en algún formato de datos estructurados como `.csv` o `.xlsx`, propio de software de planillas de cálculo como MS Excel.

### 1.1 Lectura de datos en formato de texto plano (csv)

https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html

In [2]:
data_file='https://github.com/paguirre-uc/mds3020_2022/blob/main/semana1/tutorial1_productos.csv?raw=true'

#alternativa si descargan localmente el archivo de datos:
#data_file=tutorial1_productos.csv

df=pd.read_csv(data_file,sep=';')
df

Unnamed: 0,Producto,Marca,CodigoSKU,Costo,PrecioVenta,Unidades
0,Cuaderno lineas,SVLUS,1003789,1210,1452.0,116
1,Cuaderno cuadros,SVLUS,1929835,1210,1452.0,165
2,Lapiz grafito,Lappau,1366925,470,564.0,194
3,Goma de borrar,Lappau,1461758,285,342.0,131
4,Corchetera,Officia,1835948,3250,3900.0,190
5,Pincel fino,ArtM,1992659,990,1188.0,139
6,Pincel grueso,ArtM,1959137,1100,1320.0,198
7,Acrilico 6 colores,ArtM,1124149,7320,8784.0,45
8,Mezclador 6,ArtM,1954385,890,1068.0,138
9,Toner,TechOf,1301317,15230,18276.0,145


### 1.2 Lectura de datos en formato binario (xlsx)


https://pandas.pydata.org/docs/reference/api/pandas.read_excel.html



In [3]:
data_file='https://github.com/paguirre-uc/mds3020_2022/blob/main/semana1/tutorial1_productos.xlsx?raw=true'

#alternativa si descargan localmente el archivo de datos:
#data_file='tutorial1_productos.xlsx'

df=pd.read_excel(data_file,sheet_name='productos',skiprows=2)
df

Unnamed: 0,Producto,Marca,CodigoSKU,Costo,PrecioVenta,Unidades
0,Cuaderno lineas,SVLUS,1003789,1210,1452.0,116
1,Cuaderno cuadros,SVLUS,1929835,1210,1452.0,165
2,Lapiz grafito,Lappau,1366925,470,564.0,194
3,Goma de borrar,Lappau,1461758,285,342.0,131
4,Corchetera,Officia,1835948,3250,3900.0,190
5,Pincel fino,ArtM,1992659,990,1188.0,139
6,Pincel grueso,ArtM,1959137,1100,1320.0,198
7,Acrilico 6 colores,ArtM,1124149,7320,8784.0,45
8,Mezclador 6,ArtM,1954385,890,1068.0,138
9,Toner,TechOf,1301317,15230,18276.0,145


### 1.3 Inspección del dataframe.

- https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.info.html
- https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.columns.html
- https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.head.html
- https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.tail.html
- https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.describe.html


In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 26 entries, 0 to 25
Data columns (total 6 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Producto     26 non-null     object 
 1   Marca        26 non-null     object 
 2   CodigoSKU    26 non-null     int64  
 3   Costo        26 non-null     int64  
 4   PrecioVenta  26 non-null     float64
 5   Unidades     26 non-null     int64  
dtypes: float64(1), int64(3), object(2)
memory usage: 1.3+ KB


In [5]:
df.columns

Index(['Producto', 'Marca', 'CodigoSKU', 'Costo', 'PrecioVenta', 'Unidades'], dtype='object')

In [6]:
df.head(10)

Unnamed: 0,Producto,Marca,CodigoSKU,Costo,PrecioVenta,Unidades
0,Cuaderno lineas,SVLUS,1003789,1210,1452.0,116
1,Cuaderno cuadros,SVLUS,1929835,1210,1452.0,165
2,Lapiz grafito,Lappau,1366925,470,564.0,194
3,Goma de borrar,Lappau,1461758,285,342.0,131
4,Corchetera,Officia,1835948,3250,3900.0,190
5,Pincel fino,ArtM,1992659,990,1188.0,139
6,Pincel grueso,ArtM,1959137,1100,1320.0,198
7,Acrilico 6 colores,ArtM,1124149,7320,8784.0,45
8,Mezclador 6,ArtM,1954385,890,1068.0,138
9,Toner,TechOf,1301317,15230,18276.0,145


In [7]:
df.tail(3)

Unnamed: 0,Producto,Marca,CodigoSKU,Costo,PrecioVenta,Unidades
23,Bol√≠grafo azul,Lappau,1039715,525,630.0,168
24,Bol√≠grafo negro,Lappau,1590428,530,636.0,142
25,Bol√≠grafo rojo,Lappau,1760135,530,636.0,73


In [8]:
df.sample(3)

Unnamed: 0,Producto,Marca,CodigoSKU,Costo,PrecioVenta,Unidades
14,Destacador verde,Lappau,1028765,1320,1584.0,21
3,Goma de borrar,Lappau,1461758,285,342.0,131
2,Lapiz grafito,Lappau,1366925,470,564.0,194


In [9]:
df.describe()

Unnamed: 0,CodigoSKU,Costo,PrecioVenta,Unidades
count,26.0,26.0,26.0,26.0
mean,1594304.0,2752.807692,3303.369231,105.038462
std,375784.0,3299.660007,3959.592008,60.166755
min,1003789.0,285.0,342.0,7.0
25%,1301684.0,796.25,955.5,46.75
50%,1789289.0,1320.0,1584.0,126.0
75%,1926896.0,3219.5,3863.4,144.25
max,1992659.0,15230.0,18276.0,198.0


## 2. Importación e inspección de datos semi-estructurados.


### 2.1 Importación de datos en formato JSON.

A continuación veremos algunos ejemplos de lectura y manejo de datos en formato JSON.

En primer lugar, supongamos que además de la lista de productos de una tienda de artículos de librería, tenemos otro conjunto de datos relativos a los locales de la cadena de tiendas, en formato JSON:

In [10]:
import json
import requests
# Pueden descargar desde github el archivo directamente con la url.
url = "https://raw.githubusercontent.com/paguirre-uc/mds3020_2022/main/semana1/tutorial1_locales.json"

response = requests.get(url)  
json_locales = response.json()  


In [11]:
# También pueden descargar el archivo desde github y, leerlo directamente desde su computador. 
#json_locales=json.load(open('tutorial1_locales.json','r'))
#json_locales

#### En pandas, podemos crear un dataframe directamente a partir de un objeto tipo JSON, que es equivalente a un diccionario de Python:

In [12]:
df=pd.DataFrame(json_locales)
df

Unnamed: 0,local,vendedores,info_local,clientes,encargados
0,Colina,20,"{'direccion': 'Las Condes 435', 'telefono': '5...","[{'nombre': 'Luis', 'apellido': 'Perez', 'mail...","{'gerente': 'Luis Perez', 'ventas': 'Mario Gon..."
1,Cisterna,10,"{'direccion': 'Las Gaviotas 872', 'telefono': ...","[{'nombre': 'Pedro', 'apellido': 'Sanchez', 'm...","{'gerente': 'Marta Vasquez', 'ventas': 'Sandra..."


### 2.2 Normalización de objetos JSON.

Una característica del formato JSON es que puede ser anidado: el valor de un atributo pueder ser un nuevo diccionario, o una lista de diccionarios. Este tipo de datos anidados es más conveniente de utilizar en formato "aplanado" o "flattened", de manera que pueda ser almacenado en un data frame. La librería `pandas` tiene una función `json_normalize()` que hace exactamente esto:


https://pandas.pydata.org/docs/reference/api/pandas.json_normalize.html


In [13]:
pd.json_normalize(json_locales)

Unnamed: 0,local,vendedores,clientes,info_local.direccion,info_local.telefono,encargados.gerente,encargados.ventas,encargados.operaciones
0,Colina,20,"[{'nombre': 'Luis', 'apellido': 'Perez', 'mail...",Las Condes 435,5698727564,Luis Perez,Mario Gonzalez,Paz Blanco
1,Cisterna,10,"[{'nombre': 'Pedro', 'apellido': 'Sanchez', 'm...",Las Gaviotas 872,5698727564,Marta Vasquez,Sandra Carrasco,Marcial Santos


In [14]:
pd.json_normalize(json_locales,record_path='clientes')

Unnamed: 0,nombre,apellido,mail,comprasMes,productos.Cuaderno cuadros,telefono,productos.Lapiz grafito,productos.Goma de borrar,productos.Impresora
0,Luis,Perez,luisperez@mail.com,178540.0,18.0,,,,
1,Victoria,Solar,vsolar@mail.com,237549.0,5.0,56962899045.0,10.0,8.0,
2,Pedro,Sanchez,psanchez@mail.com,654.0,,,25.0,,2.0
3,Luciana,Ramirez,luciram@mail.com,,32.0,5687763925.0,,9.0,


In [15]:
df=pd.json_normalize(json_locales,record_path='clientes',meta=['local'])
df

Unnamed: 0,nombre,apellido,mail,comprasMes,productos.Cuaderno cuadros,telefono,productos.Lapiz grafito,productos.Goma de borrar,productos.Impresora,local
0,Luis,Perez,luisperez@mail.com,178540.0,18.0,,,,,Colina
1,Victoria,Solar,vsolar@mail.com,237549.0,5.0,56962899045.0,10.0,8.0,,Colina
2,Pedro,Sanchez,psanchez@mail.com,654.0,,,25.0,,2.0,Cisterna
3,Luciana,Ramirez,luciram@mail.com,,32.0,5687763925.0,,9.0,,Cisterna


### 2.3 Escritura de archivos en formato JSON.

Los datos en formato JSON pueden leerse desde un archivo de texto plano, o también es posible exportar un dataframe a un archivo en formato JSON.

In [16]:
!pwd

/Users/jasonssdev/Dev/Learning/UC/mcd-data-science-intro


In [18]:
from utils.paths import DATA_PROCESSED_DIR

export_data_path = str(DATA_PROCESSED_DIR / 'clientes_out.json')
export_data_path

'/Users/jasonssdev/Dev/Learning/UC/mcd-data-science-intro/data/processed/clientes_out.json'

In [19]:
df.to_json(export_data_path)