# Minsait Land Classification

Modelo de clasificación automática de suelos en base a imágenes de satélite.
Grupo **Astralaria** del centro **Universitat Poltècnica de València** formado por **Asier Serrano Aramburu** y **Mario Campos Mocholí**

## 1. Procesamiento de los datos

#### 1.1 Consideraciones previas
Podemos observar claramente que tenemos un conjunto de muestras desbalanceado y debemos ajustarlo para que el modelo a entrenar no se especialice solo en la clase *RESIDENTIAL* e ignore las demás. En nuestro caso hemos optado por un equilibrado al por menor explicado más adelante.

#### 1.2 Preprocesamiento
Para entrenar nuestro modelo todas las variables deben ser numericas pero tras observar los datos descubrimos que una reducida cantidad de muestras que contienen variables con letras o simplemente vacias. Podriamos optar por eliminar estas muestras por considerarlas corruptas pero tras un analisis posterior descubrimos que son muy utilies, sobretodo para la clase *AGRICULTURE* por lo que optamos por modificarlas para que encaje en nuestro modelo.

In [27]:
import numpy as np

# Diccionario para codificar los nombres de las clases
categorical_encoder_class = {'RESIDENTIAL': 0,
    'INDUSTRIAL': 1,
    'PUBLIC': 2,
    'OFFICE': 3,
    'OTHER': 4,
    'RETAIL': 5,
    'AGRICULTURE': 6
}

# Diccionario para codificar las variables no númericas
categorical_encoder_catastral = {'A': -10,
    'B': -20,
    'C': -30,
    '""': 50
}

# Variable que contendrá las muestras
data = []

with open(r'Data\Modelar_UH2020.txt') as read_file:
    # La primera linea del documento es el nombre de las variables, no nos interesa
    read_file.readline()
    # Leemos línea por línea adaptando las muestras al formato deseado
    for line in read_file.readlines():
        line = line.replace('\n', '')
        line = line.split('|')
        if line[54] in categorical_encoder_catastral:
            line[54] = categorical_encoder_catastral[line[54]]
            if line[54] is 50:
                line[53] = -1
        line[55] = categorical_encoder_class[line[55]]
        # No nos interesa el identificador de la muestra, lo descartamos
        data.append(line[1:])

# Finalmente convertimos las muestras preprocesadas a una matriz de números
data = np.array(data).astype('float32')

#### 1.3 Equilibrado
Una vez preprocesados los datos en un formato deseable para entrenar modelos, procedemos a un equilibrado de estos al por menor. Contamos con 102892‬ muestras repartidas en 90173 de la clase *RESIDENTIAL*, 4490 de *INDUSTRIAL*, 2976 de tipo *PUBLIC*, 1828 de la clase *OFFICE*, 1332 de tipo *OTHER*, 2093 de *RETAIL* y 338 de la clase *AGRICULTURE*. Después de muchas pruebas hemos optado por añadir todas las muestras de cada clase excepto la de *RESIDENTIAL* que solo añadiremos X. Añadir más produce especialización hacía esa clase y empeora la precisión individual de las otras.

In [28]:
# Variable que contendra las muestras separadas por clase
data_per_class = []

# Añadimos una lista vacía por clase
for _ in range(7):         
    data_per_class.append([])
# Añadimos a la lista de cada clase las muestras de esta
for sample in data:
    data_per_class[int(sample[54])].append(sample)

# Variable que contendra los datos procesados
data_proc = []

# Muestras de la clase RESIDENTIAL
data_proc += data_per_class[0][0:5000]
# Muestras de las otras clases
for i in range(6):
    data_proc += data_per_class[i + 1]
    
# Volvemos a convertir los datos una vez procesados a una matriz y los mezclamos
data_proc = np.array(data_proc)
np.random.shuffle(data_proc)

#### 1.4 Separación
Finalmente separamos nuestro conjunto de muestras en muestras de entrenamiento y de validación.

In [29]:
from sklearn.model_selection import train_test_split

# Variable en el rango (0.0, 1.0) que indica el procentaje de muestras de validación
test_avg = 0.2

X_train, X_test, y_train, y_test = train_test_split(data_proc[:, :54], data_proc[:, 54], test_size = test_avg)

## 2. Entrenamiento del modelo

#### 2.1 Consideraciones previas
Contamos con un conjunto de entrenamiento considerable donde cada muestra tiene también un número elevado de variables y ademas siete clases a predecir. Es inutil entrenar un modelo basado en un separador lineal o alguna tecnica de clustering (ya que tenemos las muestras etiquetadas). Hemos optado por realizar un modelo basado en dos submodelos y por iteraciones, es decir, cada modelo sera entrenado varias veces y obtendremos su predicción local, seleccionando como predicción final aquella que se haya predicho más veces. **NOTA: Cada apartado se debera ejecutar secuencialmente pero solo a partir del 2.6 se obtendran resultados validos

#### 2.2 Entrenamiento modelo XGB


In [30]:
import xgboost as xgb

model = xgb.XGBClassifier()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

#### 2.3 Entrenamiento modelo RandomForest

In [31]:
from sklearn.ensemble import RandomForestClassifier

model = RandomForestClassifier()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

#### 2.4 Evaluación


In [18]:
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

# Util para observar clases con poca sepración entre si
print('Matriz de confusión:\n{}\n\n'.format(confusion_matrix(y_test, y_pred)))
# Útil para conocer la precisión de cada clase y demás estadisticas
print('Informe de clasificación:\n{}\n'.format(classification_report(y_test, y_pred)))
# Útil para conocer la precisión global del modelo
#print(accuracy_score(y_test, y_pred))

Matriz de confusión:
[[799  40  79  35  12  42   1]
 [ 83 633  51  40   9  33   6]
 [112  59 339  63  39  18   2]
 [ 67  86  50 116   6  27   0]
 [ 34  32  47   4 135   4   1]
 [120  60  84  35  15 129   1]
 [  4   7   6   0   0   0  47]]


Informe de clasificación:
              precision    recall  f1-score   support

         0.0       0.66      0.79      0.72      1008
         1.0       0.69      0.74      0.71       855
         2.0       0.52      0.54      0.53       632
         3.0       0.40      0.33      0.36       352
         4.0       0.62      0.53      0.57       257
         5.0       0.51      0.29      0.37       444
         6.0       0.81      0.73      0.77        64

    accuracy                           0.61      3612
   macro avg       0.60      0.56      0.58      3612
weighted avg       0.60      0.61      0.60      3612


0.6085271317829457


#### 2.5 Predicción 


In [32]:
# Variable que contendrá las muestras a predecir
data_predict = []

# Mismo procesamiento de datos que para el conjunto de entrenamiento
with open(r'Data\Estimar_UH2020.txt') as read_file:
    # La primera linea del documento es el nombre de las variables, no nos interesa
    read_file.readline()
    # Leemos línea por línea adaptando las muestras al formato deseado
    for line in read_file.readlines():
        line = line.replace('\n', '')
        line = line.split('|')
        if line[54] in categorical_encoder_catastral:
            line[54] = categorical_encoder_catastral[line[54]]
            if line[54] is 50:
                line[53] = -1
        data_predict.append(line)

# Finalmente convertimos las muestras preprocesadas a una matriz
data_predict = np.array(data_predict)

# Lista auxiliar que contendra las predicciones locales de cada módelo
predictions_aux = model.predict(data_predict[:, 1:].astype('float32'))

# Variable que contendra para cada muestra a predecir una lista con cada clase predicha
predictions = {}

# Añadimos a las predicciones globales la predicción del módelo local
for i in range(len(data_predict)):
    if (data_predict[i, 0] not in predictions):
        predictions[data_predict[i, 0]] = [int(predictions_aux[i])]
    else:
        predictions[data_predict[i, 0]].append(int(predictions_aux[i]))

#### 2.6 Predicción global

In [33]:
# Número de iteraciones total por módelo
iterations = 4

# Variable anterior, inicializada de nuevo
predictions = {}

# Muestra información de cada modelo local tras entrenarlo
debug_mode = True

for ite in range(iterations):
    print('Entrenamiento al {}%'.format(ite/iterations * 100))
    np.random.shuffle(data_proc)
    X_train, X_test, y_train, y_test = train_test_split(data_proc[:, :54], data_proc[:, 54], test_size = test_avg)
    
    model = xgb.XGBClassifier()
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    if debug_mode:
        print('Matriz de confusión:\n{}\n\n'.format(confusion_matrix(y_test, y_pred)))
        print('Informe de clasificación:\n{}\n'.format(classification_report(y_test, y_pred)))
    
    for i in range(len(data_predict)):
        if (data_predict[i, 0] not in predictions):
            predictions[data_predict[i, 0]] = [int(predictions_aux[i])]
        else:
            predictions[data_predict[i, 0]].append(int(predictions_aux[i]))
        
    model = RandomForestClassifier()
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    if debug_mode:
        print('Matriz de confusión:\n{}\n\n'.format(confusion_matrix(y_test, y_pred)))
        print('Informe de clasificación:\n{}\n'.format(classification_report(y_test, y_pred)))
    
    for i in range(len(data_predict)):
        if (data_predict[i, 0] not in predictions):
            predictions[data_predict[i, 0]] = [int(predictions_aux[i])]
        else:
            predictions[data_predict[i, 0]].append(int(predictions_aux[i]))

Entrenamiento al 0.0%
Entrenamiento al 25.0%
Entrenamiento al 50.0%
Entrenamiento al 75.0%


## 3.0 Evaluación global

In [38]:
categorical_decoder_class = {0: 'RESIDENTIAL',
    1: 'INDUSTRIAL',
    2: 'PUBLIC',
    3: 'OFFICE',
    4: 'OTHER',
    5: 'RETAIL',
    6: 'AGRICULTURE'}

def most_frequent(lst): 
    return max(set(lst), key = lst.count) 

with open(r'Minsait_Universitat Politècnica de València_Astralaria.txt', 'w') as write_file:
    write_file.write('ID|CLASE\n')
    for sample in data_predict:
        write_file.write('{}|{}\n'.format(sample[0], categorical_decoder_class[most_frequent(predictions[line[0]])]))