# Análisis de derechos de agua (Parte I)

## Descarga de datos desde www.dga.cl

Es necesario un poco de relato respecto de este proceso para entender por qué lo hice de esta manera y no algo más simple.
Obviamente lo primero que intenté fue leer los archivos Excel, publicados por la DGA, usando Pandas, pero esto arrojaba error 500, pese a que navegando usando cualquier browser se pueden descargar, por ello traté también con urllib, pero también me fue mal, por lo que decidí usar selenium, y simular la navegación.

El problema de esto es que requiere un setup incial que las otras alternativas no tienen, obviamente lo primero es instalar selenium, esto lo podemos hacer con un simple (cabe mencionar que estoy usando OSX Mojave 10.14, por lo que algunas instrucciones serán distintas para Windows, actualmente no tengo ningún PC con ese OS, por lo que en cuanto tenga acceso actualizaré estas instrucciones para ese OS)

``` pip install selenium ```


Luego es necesario instalar el driver del browser que vamos a usar para navegar por el sitio
en mi caso usé gecko de Firefox. Para esta instalación seguí la siguiente guía https://www.kenst.com/2016/12/installing-marionette-firefoxdriver-on-mac-osx/ pero que es escencialmente instalar vía ***brew*** con el siguiente comando:

```brew install geckodriver```

Con eso ya estamos en condiciones de descargar los archivos, al menos en OSX :P

Ahora algunos puntos sobre la web donde se encuentran los archvivos. Lo primero es que existen un repositorio de archvios que se actualiza con cierta periodicidad en http://www.dga.cl/productosyservicios/derechos_historicos/Paginas/default.aspx y este será el que utilizaré para trabajar este proyecto. Existe además un buscador en http://derechosdeagua.dga.cl que está implementado en php y que arroja como resultado un xml con extensión xls, que sinceramente no pude trabajar de manera correcta con pandas.

A continuación una imagen del sitio: 

<img src="https://i.ibb.co/8c118VS/Captura-de-Pantalla-2019-10-06-a-la-s-09-12-23.png" alt="Captura-de-Pantalla-2019-10-06-a-la-s-09-12-23" border="0">

Quisiera hacer una mención al hecho que hayan "comprimido" el consolidado nacional y hayan logrado pasar de los 41,5 MB a unos maravillosos a 40,1 MB 🙄

### Descarga del archivo CONSOLIDADO al directorio de trabajo
Las siguientes instrucciones permiten descargar el archivo de derechos de agua de todas las regiones consolidado, y que esta descarga quede en nuestro actual directorio de trabajo para que sea mas fácil trabajar con el posteriormente

In [16]:
# Primero vamos a realizar algunas configuraciones necesarias para que posteriormente la descarga del archivo quede
# en el actual directorio de trabajo
import os
from selenium import webdriver

cwd = os.getcwd() # guardamos el actual directorio de trabajo en la variable cwd, se entiende que el actual directorio de trabajo será donde esté almacenado el notebook

# creamos un nuevo perfil de Firefox, para definir que las descargas sean al actial directorio de trabajo
profile = webdriver.FirefoxProfile() 
profile.set_preference("browser.download.folderList", 2)
profile.set_preference("browser.download.dir", cwd)
profile.set_preference("browser.download.manager.showWhenStarting", False)
profile.set_preference("browser.helperApps.neverAsk.saveToDisk", "application/x-gzip")

# Luego cargar las librerias que vamos a usar para la navegación y descarga
from selenium.webdriver.firefox.options import Options

# Generamos el setup para que navegar sin cabeceras
opts = Options()
opts.headless = True
assert opts.headless
browser = webdriver.Firefox(options=opts, firefox_profile=profile)

# Obtenemos la información del sitio
browser.get('http://www.dga.cl/productosyservicios/derechos_historicos/Paginas/default.aspx')

# Clickeamos en el link correspondiente
browser.find_element_by_link_text('Consolidado nacional').click()

### Descompresión del archivo CONSOLIDADO y carga en Pandas
El siguiente código permite descomprimir el archivo descargado, que como ya mencionamos está comprimido en ZIP, aunque con una particularidad, al descargar el archivo con Selenium, a la extensión del archivo se le agregó una extensión **'.part'**, bastante extraña, como si nunca quedara descargada definitivamente, por lo que si alguien sabe como mejorar este aspecto se agradece, por el momento yo tomé el camino largo de cambiar la extensión vía código. 

In [66]:
# Primero vamos a crear un función que recorra el actual directorio, usando la librería 'os' y encuentre archivos con la extensión que le definamos para luego almacenarlos en una lista
def buscaArchi(lista, directorio, extension):
    for r, d, f in os.walk(directorio): # r=root, d=directorios, f = archivos
        for file in f:
            if extension in file:
                lista.append(os.path.join(r, file))
    return lista


descargado = [] # creamos la lista de archivos donde se almacenará nuestra actual descarga
part = '.part' # creamos la variable con la extensión a buscar
buscaArchi(descargado, cwd, part) # aplicamos la función con los parámetros correspondientes

# Luego usando la misma librería (os) vamos a renombrar el archivo
archivoPart = descargado[0] # almacenamos la ruta en una variable
base = os.path.splitext(archivoPart)[0] # usamos la función splitext para separar el path y la extensión, dejando en la variable base solo la ruta al archivo zip
os.rename(archivoPart, base + "") # eliminamos la extensión .part

# Descomprimimos el archivo y eliminamos el zip
import zipfile

## Descompresión
with zipfile.ZipFile(base, 'r') as zip_ref:
    zip_ref.extractall(cwd)

## Eliminación
if os.path.exists(base):
    os.remove(base)
else:
    print("El archivo no existe")
    
# Renombramos el archivo Excel a derechos.xlsx, en esta parte no fui tan detallado en los comentarios pues el proceso es el mismo que cuando se borró la extensión .part
excel =[]
xlsxExt = '.xlsx'
buscaArchi(excel, cwd, xlsxExt)
nombreActual = excel[0]
nombreFinal = cwd + '/derechos.xlsx'
os.rename(nombreActual, nombreFinal)

# Finalmente hacemos la lectura del archivo Excel descargado y cargamos en un Pandas dataframe, haciendo una breve limpieza
import pandas as pd
data = pd.read_excel('derechos.xlsx') # Lectura y carga en un pandas dataframe

print('proceso finalizado')

proceso finalizado


### Limpieza Dataframe

Lamentablemente el archivo Excel descargado no fue pensado para que fuera directamente machine readable, por lo que hay que trabajarlo un poco

In [70]:
# Limpieza sacando las primeras filas que están vacias y dejando la primera fila con datos como header
data = data.loc[5:]
data.columns  = data.iloc[0]
derechos = data.drop([5], axis = 0) # eliminamos la fila que usamos de header

### Descripción general y ejemplos
A continuación se presentan algunos conteos para conocer un poco el tamaño del dataset

#### Ejemplos

In [11]:
# Ahora vamos a obtener algunas estadísticas de frequencia del dataframe, bastante gruesas y generales para tener alguna 
# idea de lo que contienen los datos
desc = derechos.describe(include = 'all')
print('El dataset tiene: ' + str(len(derechos)) + ' registros asociados')
print('La región con más registros es: ' + str(desc.iloc[2][3]).strip() + ', que tiene un total de '+ str(desc.iloc[3][3]) + ' registros asociados')
print('La provincia con más registros es: ' + str(desc.iloc[2][4]).strip() + ', que tiene un total de '+ str(desc.iloc[3][4]) + ' registros asociados')
print('La comuna con más registros es: ' + str(desc.iloc[2][5]).strip() + ', que tiene un total de '+ str(desc.iloc[3][5]) + ' registros asociados')
print('El solicitante con más resgistros es: ' + str(desc.iloc[2][6]).strip() + ', que tiene un total de '+ str(desc.iloc[3][6]) + ' registros asociados')
print('Así como estos cáclculos, se pueden obtener una serie de otros, en la medida que se quierea profrundizar en alguno de los puntos.')

El dataset tiene: 125752 registros asociados
La región con más registros es: De La Araucania, que tiene un total de 18535 registros asociados
La provincia con más registros es: Cautin, que tiene un total de 15090 registros asociados
La comuna con más registros es: Coyhaique, que tiene un total de 2520 registros asociados
El solicitante con más resgistros es: COMUNIDAD AGRICOLA JIMENEZ Y TAPIA, que tiene un total de 342 registros asociados
Así como estos cáclculos, se pueden obtener una serie de otros, en la medida que se quierea profrundizar en alguno de los puntos.


#### Missings

In [9]:
tMissing = derechos.isnull().sum()
tMissing = tMissing.iloc[1:]
tMissing = tMissing[tMissing > 0]
tMissing = tMissing.sort_values(ascending=False)
print(tMissing)

5
¿Posee \nmás de un \npunto de captación?        125752
Referencia a puntos conocidos de restitución    124134
Artículo \nTransitorio                          102424
Referencia a puntos conocidos de captación       95232
Uso del Agua                                     77638
N° Certificado/ Año                              71612
Longitud \nRestitución                           66855
Latitud \nRestitución                            66855
Datum                                            66721
Longitud \nCaptación                             66473
Latitud \nCaptación                              66473
Unidad\nDistancia                                64102
¿Caudal Ecológico Promedio?                      60458
C.B.R.                                           60151
Caudal Ecológico\n(l/s)                          53719
¿Caudal Promedio Anual?                          53571
Fecha Toma \nRazón                               53499
SubSubCuenca                                     41312
SubCuenc

In [73]:
derechos

5,N°,Código de \nExpediente,N° \nSolicitud,Región,Provincia,Comuna,Nombre Solicitante,Unidad de Resolución/ Oficio/ C.B.R.,Fecha de Resolución/ Envío al Juez/ Inscripción C.B.R.,N° Resolución/ \nOficio/ Fojas | \nN° CBR,...,Distancia,Unidad\nDistancia,Desnivel\n(m),C.B.R.,Fojas,N° CBR,Año,Código Expediente\nAntiguo,¿Posee \nmás de un \npunto de captación?,N° Certificado/ Año
6,1,ND-0503-4708,1,Valparaiso,San Felipe,Catemu,COMITE DE AGUA POTABLE RURAL LAS COMPUERTAS,DGA Quillota,2019-03-27 00:00:00,447,...,0,,0,,,0,0,6ºT,,
7,2,ND-0801-10342,1,Bio Bio,Ñuble,El Carmen,ALONSO EDUARDO ABARZÚA SAN MARTIN ...,DGA Concepción ...,2019-03-07 00:00:00,37,...,0,,0,,,0,0,(0-0-0),,
8,3,ND-0801-10359,1,Bio Bio,Ñuble,Pinto,CRISTOBAL JUAN JOSE COSTA ZAMBELLI ...,DGA Concepción ...,2019-03-07 00:00:00,38,...,0,,0,,,0,0,(0-0-0),,
9,4,VPC-0601-2130,1,OHiggins,Cachapoal,Qta. de Tilcoco,AGRICOLA SUCESION JUAN MOURA JAIME LTDA.,DGA Rancagua,2019-02-28 00:00:00,144,...,0,,0,,,0,0,(0-0-0),,
10,5,VPC-0601-2130,2,OHiggins,Cachapoal,Qta. de Tilcoco,AGRICOLA SUCESION JUAN MOURA JAIME LTDA.,DGA Rancagua,2019-02-28 00:00:00,144,...,0,,0,,,0,0,(0-0-0),,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
125753,125748,UA-0601-814113,4,OHiggins,Cachapoal,Rancagua,GUILLERMO BRADEN,Dirección General de Aguas,1907-01-30 00:00:00,44,...,0,,0,,,0,0,(0-0-0),,
125754,125749,UA-0202-809028,1,Antofagasta,El Loa,Calama,ANTOFAGASTA CHILI AND BOLIVIA RAILWAY P.L.C.,Decreto Supremo,1906-06-11 00:00:00,794,...,0,,0,C.B.R. Calama,2 VTA.,2,1990,PAG. 26 LIBRO II(0-0-0),,2778/2011
125755,125750,UA-0203-806163,1,Antofagasta,Antofagasta,Antofagasta,CIA. SALITRERA MARIA TERESA,Dirección General de Aguas,1905-12-18 00:00:00,3253,...,0,,0,,,0,0,(0-2-107),,
125756,125751,UA-0902-804148,1,De La Araucania,Cautin,Villarrica,SALOMON LARADO ...,Dirección General de Aguas ...,1901-03-31 00:00:00,6373,...,0,,0,,,0,0,(0-9-145),,
