# Diplomado en Big Data - Introducción a las Herramientas de la Nube

### **Profesor:** Germán Leandro Contreras Sagredo
### **Ayudantes**
### Jorge Becerra de la Torre
### Valentina Rojas Mercier

## Tarea - _Scripts_ de utilidad

A continuación, te facilitaremos algunos _scripts_ que te serán de utilidad para el desarrollo de tu tarea.

### 1) Transformación de códigos a valores de texto

Como te habrás dado cuenta, existen algunas columnas en el archivo CSV de campos numéricos que representan un valor en texto. ¿Cómo puedes llevar a cabo la transformación? Aquí te mostramos un ejemplo.

In [None]:
# Diccionario que transforma los códigos de tipo de dependencia en el valor
# de texto correspondiente.
COD_DEPE_DICT = {
  1: 'Corporación Municipal',
  2: 'Municipal DAEM',
  3: 'Particular Subvencionado',
  4: 'Particular Pagado',
  5: 'Corporación de Administración Delegada (DL 3166)',
  6: 'Servicio Local de Educación',
}

# Función que lleva a cabo la transformación.
def transform_cod_depe_field(value):
  # Si el código no existe, retornará None.
  return COD_DEPE_DICT.get(value)

In [None]:
print(transform_cod_depe_field(2))
print(transform_cod_depe_field(3))
print(transform_cod_depe_field(4))
print(transform_cod_depe_field(7)) # Esto debe imprimir "None".

Municipal DAEM
Particular Subvencionado
Particular Pagado
None


### 2) Creación de tabla si no existe

Nuestras funciones Lambda se podrían ejecutar más de una vez. Si esto gatilla la creación de una tabla, podría causar un error. No obstante, tenemos una consulta que se encarga de crear una tabla si, y solo si no existe.

```
CREATE TABLE IF NOT EXISTS establecimiento (
  id SERIAL PRIMARY KEY,
  arg1 VARCHAR(256),
  arg2 INT,
  ...
)
```

### 3) Lectura de archivo CSV como lista de diccionarios

En `Python`, cuando leemos un archivo CSV, generalmente tratamos cada fila como una lista de objetos `string` que vamos procesando según la posición de la columna. Por ejemplo:

```
import csv
with open('archivo.csv') as f:
    csv_reader = csv.reader(f, delimiter=',')
    row_count = 0
    for row in csv_reader:
        row_count += 1
        print(f'Fila nº {row_count}')
        print(f'Valor columna 1: {row[0]}')
        print(f'Valor columna 2: {row[1]}')
        ...
```

No obstante, para archivos CSV con una cantidad significativa de columnas, se vuelve tedioso obtener los valores de interés de una fila a partir del índice. Por lo tanto, les hacemos entrega de un método para tratar cada fila como un diccionario, esto es, aludiendo al valor de interés a partir del **nombre del _header_**.

In [None]:
# Descarga de personas.csv
!gdown --id 1ibVvf63HCnRTX7nwhE6H7dJKGz8pZ4iv

Downloading...
From: https://drive.google.com/uc?id=1ibVvf63HCnRTX7nwhE6H7dJKGz8pZ4iv
To: /content/personas.csv
  0% 0.00/628 [00:00<?, ?B/s]100% 628/628 [00:00<00:00, 1.28MB/s]


In [None]:
from csv import DictReader

with open('personas.csv', 'r') as f:
    # Pasamos el archivo a la clase DictReader().
    dict_reader = DictReader(f)
    # Iteramos sobre la lista de filas, que ahora es un diccionario.
    for row in dict_reader:
      # Ahora la fila es un diccionario. Podemos obtener los atributos de un
      # registro solo con su nombre.
      print(row['apellidos'])

Contreras Sagredo
Rojas Mercier
Becerra de la Torre
Triviño
Einstein
Curie
Sanchez
Mejillas
Bello
de arco


### 4) Actualización de filas en una tabla

Lo más probable es que necesiten actualizar algunas filas de sus tablas al leer otro archivo de datos (ejemplo: porcentaje de alumnos prioritarios). Para estos casos, puede utilizar el siguiente comando SQL.

```
UPDATE establecimiento
SET porcentaje_prioritarios = numero
WHERE rbd = rbd_establecimiento;
```

En este comando, debería reemplazar `numero` por el valor del porcentaje leído y `rbd_establecimiento` por el RBD leído del archivo.