# Depuracion datos Inventario Forestal Nacional

El presente notebook realiza la exploración inicial y depuración de datos del Inventario Forestal Nacional.

**Módulos requeridos:** Numpy y Pandas para la depuración de datos, SQLAlchemy para la inserción de información en las bases de datos.

Las siguientes variables indican la ubicación de las tablas de entrada en formato csv:

1. `detritos`: Contiene los mediciones realizadas en detritos de madera.

2. `ampie`: Mediciones de árboles muertos en pie.
    
3. `vegetacion`: Mediciones de árboles vivos.

4. `generalInfo`: Informacion general de cada conglomerado

5. `coordenadas`: Coordenadas de parcelas

También es necesario indicar las credenciales de accesos al servidor MySQL a través de las variables `user` (nombre de usuario) y `password` (clave de acceso).  



In [None]:
import pandas as pd
import numpy as np
import codecs as cd
import re
#import matplotlib.pyplot as plt

# Si se quieren realizar visualizaciones en las celdas:
# %matplotlib inline

# Si el script es ejecutado interactivamente (como un cuaderno Jupyter, por ejemplo)
# la variable `interactive` debe ser `True`, de lo contrario los reportes de error
# serán guardados en un archivo de texto (`logfile`).
interactive = False

# Archivo con reportes de error
logfile = u"revisar_20180323.txt"

logbuffer = u""

# MySQL user and password
password = u""
user = u""

# Asignar nombres de archivos a variables
#detritos = u"../data/IFN/detritos.csv"
#ampie =  u"../../data_2018/amp_to_clean.csv"
#vegetacion = u"../../data_2018/veg_to_clean.csv"
individuos = u"../../data_2018/ifn_to_clean.csv"
#generalInfo = u"../data/IFN/informacion_general/informacion_general.csv"
coordenadas = u"../../data_2018/ifn_coordenadas.csv"
#analizador = u"../data/IFN/suelos/analizador.csv"
#carbono = u"../data/IFN/suelos/carbono.csv"
#fertilidad = u"../data/IFN/suelos/fertilidad.csv"

# Leer archivos como Pandas dataframes
#det = pd.read_csv(detritos, encoding = 'utf8') 
#amp = pd.read_csv(ampie, encoding = 'utf8')
#veg = pd.read_csv(vegetacion, encoding = 'utf8')
inds = pd.read_csv(individuos, encoding = 'utf8')
#info = pd.read_csv(generalInfo, encoding = 'utf8')
coord = pd.read_csv(coordenadas, encoding = 'utf8')
#analiz = pd.read_csv(analizador, encoding = 'utf8')
#carb = pd.read_csv(carbono, encoding = 'utf8')
#fert = pd.read_csv(fertilidad, encoding = 'utf8')

# Vegetacion

In [None]:
PLOT = u"CODIGO_CONGLOMERADO" # Indice conglomerado (int)
SPF = u"CODIGO_SUBPARCELA" # Indice subparcela (int 1-5)
IND = u"NUMERO_ID" # Indice de individuo en el conglomerado (int)
NFUSTE = u"NUMERO_FUSTE" # Indice del fuste
TIPO1 = u'TIPO_FUSTE'
TIPO2 = u'IND_O_FUSTE'
TAMANO = u"TIPO_INDIVIDUO" # Tamaño del individuo (str: 'L', 'F', o 'FG')
AZIMUT = u"AZIMUT" # Orientacion del individuo desde el centro de la subparcela (int, 0-360)
DIST = u"DISTANCIA" # Distancia en m del individuo al centro de la parcela (float, 0-15.74)
DAP1 = u"DAP1" # Primer diámetro estimado del tallo en cm (float)
DAP2 = u"DAP2" # Segundo diámetro estimado del tallo en cm (float)
DAPA = u"Dapa" # Diametro promedio del tallo en cm (float)
ALTF = u"ALTURA_FUSTE" # Altura fuste en m (float)
ALTT = u"ALTURA_TOTAL" # Altura total en m (float)
FAMILIA = u"FAMILIA_CALCULADO" # Familia taxonomica (str)
GENERO = u"GENERO_CALCULADO" # Genero taxonomico (str)
EPITETO = u"ESPECIE_CALCULADA" # Epiteto taxonomico (str)
PI_cm = u"PENETRACION" # Penetracion del penetrometro en cm (float64).
PI_golpes = u"NUMERO_PENETRACIONES" # Golpes ejecutados con el penetrometro (float64). Por que es un numero
POM = u'POM' # Punto de observacion de la medida en m (float64). Hay medidas en cm.
ALT_EQUIPO = u'EQUIPO2' # Equipo usado en la medicion de la altura (str: 'HI', 'VT', 'CL', 'CM', 'VX', 'FL', 'CD'). Valores 'CM', 'VX', 'FL' y 'CD' no esta especificados en el manual del INF.???????????????????
DAP_EQUIPO = u"EQUIPO1" # Equipo empleado en la medicion de DAP (str: 'CD', 'FO', 'CA', 'CM'). Cuales son CM y CD? No estan especificados en el manual del INF.
FORMA_FUSTE = u'FORMA_FUSTE' # (str: 'CIL', 'RT','IRR','FA','HI','Q'). Clases de valores estan repetidos por insercion de espacios o uso de minusculas. Valores 'HI' y 'Q' no estan consignados en el manual del INF. ??????????
DANO = u'DANO' # Daño registrado (str: 'Q', 'DB', 'SD', 'DM', 'IRR', 'EB'). Valor 'IRR' no esta consignado en el manual del INF.?????
COND = u'CONDICION' # Condicion del individuo (str, 'MP', 'TO', 'VP', 'MC', 'M'). Valores TO, MC y M no estan consignados en el manual del INF. Que hacen individuos vivos (VP) en esta tabla?????
BRIG = u'TIPO_BRIGADA'

In [None]:
logbuffer = u"\n" + u"#" * 50 + u"\nTABLA VEGETACION\n"
for fi in [PLOT, SPF, IND]:
    if inds[fi].dtype != np.int64:
        logbuffer += u"\nCampo {0} tiene tipo inapropiado ({1} en vez de int64).\n".format(
            fi, inds[fi].dtype)
        if len(inds[fi][det[fi].isna()]) > 1:
            logbuffer += u"\nValores nulos son considerados np.float64:\n"
            logbuffer += inds[[fi, PLOT, SPF, IND]][inds[fi].isna()].to_string(
                            index = False) + "\n"
        else:
            logbuffer += u"\nValores np.float64 a revisar:\n"
            logbuffer += inds[fi, PLOT, SPF, IND][inds[fi].map(lambda x: x % 1.0 != 0)].dropna(
                            ).to_string(index = False) + "\n"
            
        
for fi in [AZIMUT, DIST, DAP1, DAP2, ALTT, ALTF, PI_cm, PI_golpes, POM]:
    if inds[fi].dtype != np.float64:
        logbuffer += u"\nCampo {0} tiene tipo inapropiado ({1}en vez de float64).\n".format(
            fi, inds[fi].dtype)

for fi in [FAMILIA, GENERO, EPITETO, TAMANO, ALT_EQUIPO, DAP_EQUIPO, FORMA_FUSTE, DANO]:
    non_strings = inds[fi].dropna()[~inds[fi].dropna().apply(type).eq(unicode)]
    if len(non_strings):
        logbuffer += u"\nCampo {0} tiene tipo inapropiado ({1} en vez de unicode).\n".format(
            fi, non_strings.dtype)

if interactive:
    print logbuffer 
    logbuffer = u""

In [None]:
######################################################################################
# Segregar datos de control de calidad de brigadas regulares
######################################################################################

#
# Incluir datos de control de calidad en la base de datos.
#

inds[BRIG].unique()
qa = inds[inds[BRIG] == u"calidad"]
inds = inds[inds[BRIG] == u"estandar"]

In [None]:
######################################################################################
# Homogenización de información de información registrada para individuos de multiples
# tallos: azimut y distancias están registrados en unos registros, diámetros en otros
######################################################################################
inds[(inds[TIPO1] == "multiple")][[PLOT, SPF, IND, NFUSTE, TIPO1, TIPO2, ALTT, DAP1, DAP2]]
inds[(inds[TIPO1] == "multiple")].iloc[:,:20]

for row in inds[inds[TIPO1] == "multiple"][[PLOT, SPF, IND, AZIMUT, DIST, TIPO2]].itertuples():
    if row[6] == "individuo":
        inds.loc[(inds[PLOT] == row[1]) & (inds[SPF] == row[2]) & (inds[IND] == row[3]) , AZIMUT] = row[4]
        inds.loc[(inds[PLOT] == row[1]) & (inds[SPF] == row[2]) & (inds[IND] == row[3]) , DIST] = row[5]

inds.drop(inds[(inds[TIPO1] == "multiple") & (inds[TIPO2] == "individuo")].index, inplace = True)

In [None]:
######################################################################################
# Individuos únicos usualmente no tienen número de fuste. A todos ellos se asigna 1
# en dicho campo
######################################################################################

fustesnan = inds[inds[NFUSTE].isna()][[PLOT, SPF, IND]]
fustesnan = fustesnan.merge(inds, on=[PLOT, SPF, IND], how='left').groupby([PLOT, SPF, IND]).size().reset_index()
fustesnan.drop(labels=fustesnan[fustesnan[0] > 1].index, inplace = True)
for row in fustesnan.itertuples():
    inds.loc[((inds[PLOT] == row[1]) & (inds[SPF] == row[2]) & (inds[IND] == row[3])), NFUSTE] = 1

In [None]:
######################################################################################
# Ahora se remueven los individuos duplicados. La version 2018 del reporte de la BD 
# maestra no contiene un indice unico de fuste, así que es necesario estimarlo 
# indirectamente usando el índice de conglomerado, de subparcela, de individuo y de fuste. 
# Cuando los registros duplicados no difieren en ninguna medida (azimut, daps, alturas,
# etc.) se conserva el primer registro duplicado, de lo contrario se eliminan todos 
# los duplicados.
######################################################################################
inds.loc[inds[NFUSTE].isna(), NFUSTE] = -1 # valores np.nan no son agrupados por `groupby`
dupfustes = inds.groupby([PLOT, SPF, IND, NFUSTE]).size().reset_index()
toremove = []
for row in dupfustes[dupfustes[0] > 1].itertuples():
    thdups = inds[(inds[PLOT] == row[1]) & (inds[SPF] == row[2]) & (inds[IND] == row[3]) &
         (inds[NFUSTE] == row[4])]
    toremove += thdups.index.tolist()
    
    if thdups[thdups.duplicated()].shape[0] == 1:
        toremove.remove(thdups[thdups.duplicated()].index.tolist()[0])
        
inds.drop(labels=toremove, inplace=True)

In [None]:
#####################################################
# 
# Ecuación alométrica diámetro-altura
#
#####################################################

from scipy.optimize import curve_fit
%matplotlib tk

# log(h) = a*log(d) + b

def hei(dap, a, b):
    return np.exp(a * np.log(dap) + b)

def loghei(dap, a, b):
    return a * np.log(dap) + b

curve_fit(loghei, inds[inds[DAP1].notna() & inds[ALTT].notna()][DAP1].as_matrix(), 
    np.log(inds[inds[DAP1].notna() & inds[ALTT].notna()][ALTT].as_matrix()))


plt.plot(np.linspace(0, 10, 100), map(lambda x: loghei(x, 0.48534394,  0.96669865), np.exp(np.linspace(0, 10, 100))))
plt.plot(np.linspace(0, 10, 100), map(lambda x: loghei(x, 0.48534394,  1.92), np.exp(np.linspace(0, 10, 100))))
plt.plot(np.linspace(0, 10, 100), map(lambda x: loghei(x, 0.48534394,  0), np.exp(np.linspace(0, 10, 100))))
plt.plot(np.log(inds[inds[DAP1].notna() & inds[ALTT].notna()][DAP1].as_matrix()), np.log(inds[inds[DAP1].notna() & inds[ALTT].notna()][ALTT]), 'ro')

In [None]:
for spf in inds[SPF].unique():
    if spf not in range(1,6):
        logbuffer += u"\nValor no valido de parcela: {0}\n".format(spf)

inds[TAMANO] = inds[TAMANO].str.upper()
for tam in inds[TAMANO].unique():
    if tam not in [u'B', u'L', u'F', u'FG']:
        logbuffer += u"\nValor no valido de tamaño de individuo: {0}\n".format(tam)
        
if inds[AZIMUT].min() < 0:
    logbuffer += u"\nAzimut contiene valores no aceptados (< 0).\n"

if inds[AZIMUT].max() > 360:
    logbuffer += u"\nAzimut contiene valores no aceptados (> 360):\n"
    
    logbuffer += inds[inds[AZIMUT] > 360][[PLOT, SPF, IND, AZIMUT]].to_string(index=False) + "\n"
    
    inds.loc[inds[AZIMUT] > 360, AZIMUT] = 360
    
#################################################
# Alturas
# ¿Que hacer con brinzales de altura mayor a 1 m?
# Brinzales de altura menor a 30 cm o 0?
#################################################
# Altura de brinzales deben ser menores a 2 m
if inds[(inds[TAMANO] == u'B') & (inds[ALTT] > 2)].shape[0] > 0:
    logbuffer += u"\nBrinzales con alturas sospechosas (> 2m):\n"
    
    logbuffer += inds[(inds[TAMANO] == u'B') & (inds[ALTT] > 2)][[PLOT, SPF, IND, TAMANO, 
        ALTT]].to_string(index=False) + "\n"

    inds.loc[(inds[TAMANO] == u'B') & (inds[ALTT] > 10), ALTT] /= 100.0
    inds.loc[(inds[TAMANO] == u'B') & (inds[ALTT] > 2), ALTT] /= 10.0

if inds[(inds[TAMANO] != u'B') & (inds[ALTT] > 50)].shape[0] > 0:
    logbuffer += u"\nIndividuos con alturas sospechosas (> 50m):\n"
    
    logbuffer += inds[(inds[TAMANO] != u'B') & (inds[ALTT] > 50)][[PLOT, SPF, IND, TAMANO, 
        ALTT]].to_string(index=False) + "\n"
    
    inds.loc[(inds[ALTT] >= 50) & ((inds[ALTT] / 10.0) > inds[ALTF]), ALTT ] = inds[
        (inds[ALTT] >= 50) & ((inds[ALTT] / 10.0) > inds[ALTF])][ALTT] / 10.0

    toswap = inds[((inds[ALTT] >= 50) | (inds[ALTF] >= 50)) & (inds[DAP1] < 20.0)].index
    inds.loc[toswap , ALTT] /= 10.0
    inds.loc[toswap , ALTF] /= 10.0

    inds.drop(inds[inds[ALTT] > 60].index, inplace=True)

# Verificar asignacion de clases diametricas

inds.loc[((inds[TAMANO] != u'b') & ((inds[ALTT] > 0.3) & (inds[DAP1] < 2.5))), DAP1] *= 10
inds.loc[((inds[TAMANO] != u'b') & ((inds[ALTT] > 0.3) & (inds[DAP2] < 2.5))), DAP2] *= 10

inds[DAPA] = inds[[DAP1, DAP2]].mean(axis=1)
if len(inds[(inds[TAMANO] != u'B') & (inds[DAPA] < 2.5)]):

    logbuffer += u"\nBrinzales están asignados a categoria erronea:\n"

    logbuffer += inds[[PLOT, SPF, IND, TAMANO, DAP1, DAP2, ALTT]][(inds[TAMANO] != u'B') 
                    & (inds[DAPA] < 2.5)].to_string(index=False) + "\n"

    inds.loc[(inds[TAMANO] != u'B') & (inds[DAPA] < 2.5), TAMANO] = u'B'
    
if len(inds[(inds[TAMANO] != u'L') & (inds[DAPA] < 10) & (inds[DAPA] >= 2.5)]):
    
    logbuffer += u"\nLatizales están asignados a categoria erronea:\n"
    
    logbuffer += inds[[PLOT, SPF, IND, TAMANO, DAP1, DAP2, ALTT]][(inds[TAMANO] != u'L') 
        & (inds[DAPA] < 10) & (inds[DAPA] >= 2.5)].to_string(index= False) + "\n"
    
    inds.loc[(inds[TAMANO] != u'L') & (inds[DAPA] < 10) & (inds[DAPA] >= 2.5), TAMANO] = u'L'
    
if len(inds[(inds[TAMANO] != u'F') & (inds[DAPA] < 30) & (inds[DAPA] >= 10)]):
    
    logbuffer += u"\nFustales están asignados a categoria erronea:\n"
    
    logbuffer += inds[[PLOT, SPF, IND, TAMANO, DAP1, DAP2, ALTT]][(inds[TAMANO] != u'F') & 
        (inds[DAPA] < 30) & (inds[DAPA] >= 10)].to_string(index=False) + "\n"
    
    inds.loc[(inds[TAMANO] != u'F') & (inds[DAPA] < 30) & (inds[DAPA] >= 10), TAMANO] = u'F'
    
if len(inds[(inds[TAMANO] != u'FG') & (inds[DAPA] >= 30)]):
    
    logbuffer += u"\nFustales grandes están asignados a categoria erronea:\n"
    
    logbuffer += inds[[PLOT, SPF, IND, TAMANO, DAP1, DAP2, ALTT]][(inds[TAMANO] != u'FG') 
        & (inds[DAPA] >= 30)].to_string(index = False) + "\n"
    
    inds.loc[(inds[TAMANO] != u'FG') & (inds[DAPA] >= 30), TAMANO] = u'FG'
    
# Eliminar individuos sin informacion necesaria para asignar clase diametrica
inds.drop(inds[~inds[TAMANO].isin([u'B', u'L', u'F', u'FG'])].index, inplace = True)

# Verificar si las distancias corresponden a las categorias de edad.
# Latizales y Fustales afuera de su area de medición son eliminados
if len(inds[(inds[DIST] > 3) & (inds[TAMANO] == u'L')]):
    
    logbuffer += u"\nLatizales registrados afuera del area aceptada:\n"
    
    logbuffer += inds[[TAMANO, DIST, PLOT, SPF, IND]][(inds[DIST] > 3) & (inds[TAMANO] == u'L')
        ].to_string(index=False) + "\n"
    
    inds.drop(inds[(inds[DIST] > 3) & (inds[TAMANO] == u'L')].index, inplace=True)
    
if len(inds[(inds[DIST] > 7) & (inds[TAMANO] == u'F')]):
    
    logbuffer += u"\nFustales registrados afuera del area aceptada:\n"
    
    logbuffer += inds[[TAMANO, DIST, PLOT, SPF, IND]][(inds[DIST] > 7) & (inds[TAMANO] == u'F')
        ].to_string(index=False) + "\n"
    
    inds.drop(inds[(inds[DIST] > 7) & (inds[TAMANO] == u'F')].index, inplace=True)
    
if len(inds[inds[DIST] > 15]):
    
    logbuffer += u"\nIndividuos registrados afuera del area de la subparcela:\n"
    
    logbuffer += inds[[TAMANO, DIST, PLOT, SPF, IND]][inds[DIST] > 15].to_string(index=
                    False) + "\n"
    
    inds.drop(inds[inds[DIST] > 15].index, inplace = True)

# Altura total siempre debe ser mayor a la altura del fuste
if inds[inds[ALTF] > inds[ALTT]].size:
    
    logbuffer += u"\nIndividuos con altura del fuste mayor a la altura total:\n"
    
    logbuffer += inds[[ALTF, ALTT, PLOT, SPF, IND]][inds[ALTF] > inds[ALTT]].to_string(index
                    =False) + "\n"
    
    indexes = inds[inds[ALTF] > inds[ALTT]].index
    myaltt = inds.loc[indexes, ALTT].copy()
    inds.loc[indexes, ALTT] = inds.loc[indexes, ALTF]
    inds.loc[indexes, ALTF] = myaltt
    
# Verificar determinaciones incongruentes entre tallos de individuos multiples
indsppcount = inds.groupby([PLOT, SPF, IND, GENERO, EPITETO]).size().reset_index()
indcount = indsppcount.groupby([PLOT, SPF, IND]).size().reset_index().rename(columns={0:u'dups'})
if len(indcount[indcount.dups > 1]):
    
    logbuffer += u"\nIndividuos de tallos multiples con determinaciones de varias especies:\n"
    
    logbuffer += indcount[indcount[u'size'] > 1].to_string(index = False) + u"\n"


# Informacion Penetrometro
if inds[PI_cm].min() < 0:
    
    logbuffer += u"\nHay valores negativos de entrada del penetrometro.\n"
    
if inds[PI_cm].max() > 20:
    
    logbuffer += u"\nValores maximos del entrada del penetrometro mayores al valor sugerido" \
                    +  u"en el manual:\n"

    logbuffer += inds[[PI_cm, PLOT, SPF, IND]][inds[PI_cm] > 20].to_string(index=False) + u"\n"
    
    # Valores mayores a 20 cm son reestablecidos a 20 cm
    inds.loc[inds[PI_cm] > 20 , PI_cm] = 20

if len(inds[PI_cm][(inds[PI_cm] > inds[DAP1]) | (inds[PI_cm] > inds[DAP2])]):
    
    logbuffer += u"\nValores de entrada del penetrómetro son mayores al diametro registrado:\n"
    
    logbuffer += inds[[PI_cm, DAP1, DAP2, PLOT, SPF, IND]][(inds[PI_cm] > inds[DAP1]) | (inds[PI_cm] 
                    > inds[DAP2])].to_string(index=False) + u"\n"
    
    # Se asume que la medida del penetrometro equivale al diametro
    inds.loc[(inds[PI_cm] > inds[DAP1]), PI_cm] = inds[DAP1][(inds[PI_cm] > inds[DAP1])]

if inds[PI_golpes].min() < 0:
    
    logbuffer += u"\nValores negativos de golpes al penetrometro.\n"
    
if inds[PI_golpes].max() > 25:
    
    logbuffer += u"\nValores maximos de golpes del penetrometro son dudosos:\n"
    
    logbuffer += inds[[PI_golpes, PLOT, SPF, IND]][inds[PI_golpes] > 20].to_string(index=False) + u"\n"

######################################################################################
# Depuración de nombres científicos
# Se eliminan los valores no válidos y se trata de indagar los valores apropiados 
# basados en los valores de las tres celdas.
######################################################################################

inds.loc[(inds[FAMILIA] == u"indeterminada") | (inds[FAMILIA] == u"tocón") | (inds[FAMILIA] == u"desconocido"), FAMILIA] = np.nan
inds.loc[:, FAMILIA] = inds[FAMILIA].str.replace("(\w+)acea$", "\1aceae")
inds.loc[inds[FAMILIA] == u"pitherellobium", GENERO]= "Pithecellobium"
inds.loc[inds[FAMILIA] == u"pitherellobium", FAMILIA]= "Fabaceae"
inds.loc[inds[FAMILIA].notna() & (inds[FAMILIA].str.contains("aceae$") == False), FAMILIA] = np.nan

inds.loc[(inds[GENERO].notna() & inds[GENERO].str.contains("indet")) , GENERO] = np.nan
indxs = inds[inds[GENERO].notna() & inds[GENERO].str.contains("\s+")].index
for row in inds.loc[indxs, [FAMILIA, GENERO, EPITETO]].itertuples():
    bits = re.split("\s+", row[2])
    inds.loc[row[0], GENERO] = bits[0]

inds.loc[:, EPITETO] = inds[EPITETO].str.replace("[^a-zA-Z]", " ")
inds.loc[:, EPITETO] = inds[EPITETO].str.replace("^\s+(\w+)$", "\1")
inds.loc[:, EPITETO] = inds[EPITETO].str.replace("^(\w+)\s$", "\1")
inds["bits"] = inds[EPITETO].str.split("\s+")
for row in inds[[GENERO, "bits"]].itertuples():
    #print row[1], row[2]
    if pd.notna(row[1]) and isinstance(row[2], list) and len(row[2]) > 1:
        if row[1] == row[2][0]:
            inds.loc[row[0], EPITETO] = row[2][1]
        else:
            inds.loc[row[0], GENERO] = row[2][0]
            inds.loc[row[0], EPITETO] = row[2][1]
inds.loc[(inds[EPITETO].notna() & inds[EPITETO].str.contains("indet")) , EPITETO] = np.nan            
inds.loc[(inds[EPITETO].notna() & inds[EPITETO].str.contains("^sp\d*$")) , EPITETO] = np.nan
inds.loc[(inds[EPITETO].notna() & inds[EPITETO].str.contains("\d")) , EPITETO] = np.nan
inds.loc[inds[EPITETO].notna() & inds[EPITETO].str.contains("\s"), EPITETO] = np.nan
inds.loc[:, FAMILIA] = inds[FAMILIA].str.title()
inds.loc[:, GENERO] = inds[GENERO].str.title()
inds.loc[:, EPITETO] = inds[EPITETO].str.lower()

inds[u"Brigada"] = u"Estandar"

if interactive:
    print logbuffer 
else:
    with cd.open(logfile, mode='a', encoding="utf-8") as fhandle:
        fhandle.write(logbuffer)
logbuffer = u""

# Coordenadas

In [None]:
#CONSC = u'Cons' # Indice coordenada (int64)
PLOTC = u'codigo_conglomerado' # Indice conglomerado (int64)
SPFC = u'codigo_subparcela' # Indice subparcela dentro del conglomerado (int64 1-5)
#SUBPLOT = u'SUBPLOT' # Concatenacion PLOT "_" SPF (str)
LATITUD = u'latitud' # Latitud en formato decimal (float64)
LONGITUD = u'longitud' # Longitud en formato decimal (float64)
#REGION = u'REGION' # Region biogeografica (str: 'Amazonia', 'Andes', 'Pacifico', 'Orinoquia',
                  # 'Caribe')
#ZV = u'ZV' # Zona de vida???????? (int64, 3, 4, 5, 6, 7, 13, 14, 15, 19, 20, 21, 27)
#ZONA_VIDA = u'ZONA_VIDA' # Zona de vida (str: "Bosque húmedo tropical",  
    # "Bosque muy húmedo tropical",  "Bosque húmedo montano bajo",  "Bosque pluvial premontano",  
    # "Bosque muy húmedo premontano",  "Bosque húmedo premontano",  "Bosque muy húmedo montano",  
    # "Bosque seco tropical",  "Bosque muy húmedo montano bajo",  "Bosque seco montano bajo",  
    # "Bosque muy seco tropical",  "Monte espinoso subtropical")
#EQ = u'EQ' # Ecuacion alometrica???? (int64: 1, 2, 4, 5, 6)
#E_CHAVE = u'E_CHAVE' # Coeficiente de la ecuacion de Chave (float64)

In [None]:
logbuffer = u"\n" + u"#" * 50 + u"\nTABLA COORDENADAS\n"

for fi in [PLOTC, SPFC]:
    
    if coord[fi].dtype != np.int64:
        
        logbuffer += u"\nCampo {0} tiene tipo inapropiado ({1} en vez de int64).\n".format(
                        fi, coord[fi].dtype)
        
        if len(coord[fi][coord[fi].isna()]) > 1:
            
            logbuffer += u"\nLos siguentes valores nulos son considerados np.float64 por Pandas:\n"
            
            logbuffer += coord[[fi, PLOTC, SPFC]][amp[fi].isna()].to_string(index=False) + u"\n"
            
        else:
            
            logbuffer += u"\nValores np.float64 a revisar:\n"
            
            logbuffer += coord[[fi, PLOTC, SPFC]][coord[fi].map(lambda x: x % 1.0 != 0)].dropna(
                            ).to_string(index=False) + u"\n"
            
            
for fi in [LATITUD, LONGITUD]:
    
    if coord[fi].dtype != np.float64:
        
        logbuffer += u"\nCampo {0} tiene tipo inapropiado ({1} en vez de float64)\n.".format(
                        fi, coord[fi].dtype)
        
if interactive:
    print logbuffer
    logbuffer = u""

In [None]:
# Verificar que los indices no están duplicados
if len(coord[coord[[PLOTC, SPFC]].duplicated()]):
    logbuffer += u"\nTabla {0} contiene indices duplicados\n.".format(coordenadas)

# Verificar rangos de coordenadas 
lat_range = (-5, 15)
lon_range = (-80, -65)

if coord[LATITUD].min() < lat_range[0] or coord[LATITUD].max() > lat_range[1]:
    
    logbuffer +=  "\nLatitud fuerra de rango aceptado.\n"
    
if coord[LONGITUD].min() < lon_range[0] or coord[LONGITUD].max() > lon_range[1]:
    
    logbuffer +=  "\nLongitud fuerra de rango aceptado\n"

# Verificar que todas las parcelas están georeferenciadas
integ = inds[[PLOT, SPF]].merge(coord[[PLOTC, SPFC, LATITUD, LONGITUD]].rename(columns = 
    {PLOTC:PLOT, SPFC:SPF}), on=[PLOT,SPF], how='left')

if len(integ[integ[LATITUD].isna() | integ[LONGITUD].isna()]):
    
    logbuffer +=  "\nAlgunas parcelas no tienen coordenadas geograficas:\n"
    
    logbuffer += integ[integ[LATITUD].isna() | integ[LONGITUD].isna()].to_string(index=
                    False) + u"\n"
    
if interactive:
    print logbuffer 
else:
    with open(logfile, 'a') as fhandle:
        fhandle.write(logbuffer)
logbuffer = u""

# Inclusion de información en la base de datos
Se incluyen los datos depurados en la base de datos MySQL a través del módulo SQLAlchemy. El esquema de la base de datos debe ser incluido con anterioridad al servidor local. Una copia del esquema está disponible en el archivo `Esquema_Inventario.sql`.

In [None]:
import sqlalchemy as al
import sys
sys.path.append('..')
from credentials import mysql_db

engine = al.create_engine(
    'mysql+mysqldb://{0}:{1}@localhost/IFN_2018?charset=utf8&use_unicode=1&unix_socket=/var/run/mysqld/mysqld.sock'.format(mysql_db['username'], mysql_db['password']), encoding='utf-8')
#    'mysql+mysqldb://{0}:{1}@localhost/IFN_2018?charset=utf8&use_unicode=1'.format(mysql_db['username'], mysql_db['password']), encoding='utf-8')

con = engine.connect()

# Desactivar la verificación de foreign keys para la inserción en lote
#con.execute('SET foreign_key_checks = 0')

In [None]:
# Tabla Coordenadas

coord[[PLOTC, SPFC, LATITUD, LONGITUD]].rename(columns = {PLOTC: u'Plot', SPFC: u'SPF', LATITUD:
    u'Latitud', LONGITUD: u'Longitud'}).to_sql('Coordenadas', con, if_exists = 'append', 
    index = False)

In [None]:
# Tabla Taxonomia

tax = {}

for row in inds[[FAMILIA, GENERO, EPITETO]].itertuples():
    tax[(row[1], row[2], row[3])] = 0
    
taxtemp = {FAMILIA:[], GENERO:[], EPITETO:[]}

for (fam, gen, epi) in tax:
    taxtemp[FAMILIA].append(fam)
    taxtemp[GENERO].append(gen)
    taxtemp[EPITETO].append(epi)
    #axtemp[AUTOR].append(tax[(fam, gen, epi)])

tax = None
taxdf = pd.DataFrame.from_dict(taxtemp)
taxtemp = None

if taxdf.index[0] == 0:
    taxdf.index += 1
    
taxdf[u'Fuente'] = 1

#"""
taxdf.rename(columns = {FAMILIA: u'Familia', GENERO: u'Genero', EPITETO: u'Epiteto'} ).to_sql( 
    'Taxonomia', con, if_exists='append', index_label=u'TaxonID')
#"""

In [None]:
# Tabla Determinaciones

if u'Taxon' not in taxdf.columns:
    taxdf[u'Taxon'] = taxdf.index

if 'Taxon' not in inds:
    inds = inds.merge(taxdf[[FAMILIA, GENERO, EPITETO, u'Taxon']], on=[FAMILIA, GENERO, EPITETO],
            how='left', suffixes = [u'_l', u'_r'])

deters = inds.groupby(by=[PLOT, SPF, IND, u'Taxon']).size().reset_index().drop(axis=1, labels=0)

if deters.index[0] == 0:
    deters.index += 1

deters[u'DetID'] = deters.index
deters[[u'Taxon', u'DetID']].to_sql('Determinaciones', con, if_exists='append', index=False)

In [None]:
# Tabla individuos

if u'DetID' not in inds.columns:
    inds = inds.merge(deters[[PLOT, SPF, IND, u'DetID']], on=[PLOT, SPF, IND], how='left')

inds.loc[inds[AZIMUT].isna() , AZIMUT] = u'NULO'
inds.loc[inds[DIST].isna() , DIST] = u'NULO'
trueinds = inds.groupby([PLOT, AZIMUT, IND, SPF, DIST, u'DetID', u'Brigada']).size().reset_index()
trueinds.loc[trueinds[AZIMUT] == u'NULO' , AZIMUT] = np.nan
trueinds.loc[trueinds[DIST] == u'NULO' , DIST] = np.nan
inds.loc[inds[AZIMUT] == u'NULO' , AZIMUT] = np.nan
inds.loc[inds[DIST] == u'NULO' , DIST] = np.nan

if u'IndividuoID' not in trueinds.columns:
    trueinds[u'IndividuoID'] = trueinds.index
    trueinds[u'IndividuoID'] += 1
    
if u'Individuo' not in inds.columns:
    inds = inds.merge(trueinds[[PLOT, SPF, IND, u'IndividuoID']], on = [PLOT, SPF, IND], how='left')

#"""
trueinds[[PLOT, AZIMUT, SPF, DIST, u'DetID', u'IndividuoID', u'Brigada']].rename(columns = {PLOT: u'Plot', 
    SPF: u'Subparcela', AZIMUT: u'Azimut', DIST: u'Distancia', u'DetID': u'Dets'}).to_sql(
    'Individuos', con, if_exists = 'append', index = False)
#"""

In [None]:
# Tabla Tallos

if inds.index[0] == 0:
    inds.index += 1

#"""
inds[[DAP1, DAP2, DAPA, TAMANO, ALTF, ALTT, u'IndividuoID', PI_cm, PI_golpes]].rename(columns = 
    {DAP1: u'Diametro1', DAP2: u'Diametro2', DAPA: u'DiametroP', TAMANO: u'Tamano', DANO: u"DANO",
    ALTF: u'AlturaFuste', ALTT: u'AlturaTotal', u'IndividuoID': u'Individuo', PI_cm: u'PetrProf', 
    PI_golpes: u'PetrGolpes'}).to_sql(u'Tallos', con, if_exists = 'append', index = True, 
    index_label = u'TalloID')
#"""

In [None]:
# Tabla Detritos

"""
PI_cm, PI_golpes = u'PI_cm', u'PI_golpes'

det[[CONS, PLOT, TRAN, SECC, PIEZA, TIPO, DIST, AZIMUT, D1, D2, INCL, PI_cm, PI_golpes, 
    PESO_RODAJA, PESO_MUESTRA, PESO_SECO, ESP1, ESP2, ESP3, ESP4, VOL, DENS]].rename(
    columns = {CONS: u'DETRITOID', PLOT: u'PLOT', TRAN: u'Transecto', SECC: u'Seccion', 
    PIEZA: u'Pieza', TIPO: u'Tipo', DIST: u'Distancia', AZIMUT: u'Azimut', D1: u'Diametro1', 
    D2: u'Diametro2', INCL: u'Inclinacion', PI_cm: u'PetrProf', PI_golpes: u'PetrGolpes',
    PESO_RODAJA: u'PesoRodaja', PESO_MUESTRA: u'PesoMuestra', PESO_SECO: u'PesoSeco', 
    ESP1: u'Espesor1', ESP2: u'Espesor2', ESP3: u'Espesor3', ESP4: u'Espesor4', 
    VOL: u'Volumen', DENS: u'Densidad'}).to_sql(u'Detritos', con, 
    if_exists = 'append', index = False)
"""

In [None]:
# Cerrar conexion
con.close()