In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression

La base de datos 'ROCLOUD' calcula el tamaño de los Ciclones tropicales del Atlántico usando un radio desde el centro del CT hasta el punto mas lejano donde se reportan nubes en imagenes infrarrojas. 

Como tarea futura se busca a partir de datos de la condición de la atmosfera, poder predecir si los CTs son grandes, medianos o pequeños en función de ciertos parametros: 

A) Es grande si el radio del CT supera los 750 km 
B) Es pequeño si el radio del CT es menor a los 550 km 
C) Es medianao si el radio del CT está entre los dos valores anteriores. 

Los datos que quieren usarse son: 
 - La posición de la tormenta (lon,lat)
 - la velocidad máxima del viento (MWS)
 - la presión mínima en el centro de la tormenta
 - la humedad a 500 mb
 - la cizalladura del viento
 - la velocidad vertical
 - la vorticidad a 500 mb

Por lo que deberas:

a) Crear una nueva columna categorica para los tamaños del CT

b) Realizar una transformación de las variables para que cada uan tenga una media de cero y una desviación estandar de 1 (distribución normal o estándar)

c) dividir los datos para ingresar en los modelos y posteriormente secciona las variables en 70% para entrenamiento y 30% para prueba. 

d) utiliza los modelos de clasificación vistos en clase para predecir las variables. 

e) utilizando las métricas de evaluación aprendidas determina ¿cuál es el mejor modelo para alcanzar los objetivos?¿Es un buen modelo?


In [15]:
# Para el inciso A)
## Abrimos la base de datos: 
names = ['lat', 'lon', 'MWS', 'CPSL', 'hum', 'ciz', 'vvr', 'vor', 'Rp']
dfvar = pd.read_csv('var_na.csv' ).iloc[:,1:]

In [17]:
dfvar.head()

Unnamed: 0,lat,lon,MWS,CPSL,shum,ciz,vvr,vor,Rp
0,21.0,-93.0,46.25,1008,3741.69,13.24,-0.13,94.53,749.96
1,20.9,-92.8,46.25,1009,3777.23,14.9,-0.1,110.13,755.68
2,20.7,-93.1,46.25,1010,3750.44,15.63,-0.07,106.59,658.86
3,20.8,-93.5,46.25,1010,3670.07,16.07,-0.07,109.16,666.72
4,27.5,-95.0,74.0,1007,2348.03,15.49,-0.26,173.82,528.34


In [24]:
## Para el paso pueden abordarse diferentes tecnicas; se muestra la generación de una función

def tamano(x):
    if x >= 750: return 'Grande'
    elif x<= 550: return 'Pequeño'
    else: return 'Mediano'

## Se aplica la función a la columna con apply 

dfvar['cat_tamano'] = dfvar['Rp'].apply(tamano)

In [25]:
## como se decida las clases deben quedar:
dfvar.cat_tamano.value_counts()

cat_tamano
Mediano    1914
Grande     1481
Pequeño    1387
Name: count, dtype: int64

In [28]:
## inciso b: Para cumplir el inciso B es necesario separa los features y variable a predecir. 
## Tomar en cuenta que los features no deben incluir ni el 'Rp' ni la variable categorica descrita

features =  dfvar.drop(['Rp','cat_tamano'], axis=1).copy()
Y = dfvar['cat_tamano'].copy()

## Se aplica la transformación a los features
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
normalized_features = scaler.fit_transform(features)

In [30]:
## inciso c: la división de los datos se hara con ayuda de la función train_test_split. Verificar que el random state sea 10 y principalmente que se defina 
## TEST_SIZE = 0.3
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(features, Y, random_state=10, test_size=.3)

In [35]:
## inciso d: Para este punto se debera obtener los modelos de clasificacion: KNN, SVM y Arbol de decisión junto a sus metricas 
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn import svm

# Importación de herramientas de preprocesamiento de scikit-learn
from sklearn import preprocessing

from sklearn.metrics import jaccard_score, f1_score
from sklearn.metrics import accuracy_score
import sklearn.metrics as metrics

scaler_ = preprocessing.StandardScaler().fit(features)
## KNN


x_train_transf = scaler_.transform(x_train.astype(float))
x_test_transf = scaler_.transform(x_test.astype(float))
KNN = KNeighborsClassifier(n_neighbors=4).fit(x_train_transf, y_train)
predictions = KNN.predict(x_test_transf)
KNN_Accuracy_Score = accuracy_score(y_test, predictions)
KNN_JaccardIndex = jaccard_score(y_test, predictions, average='macro')
KNN_F1_Score = f1_score(y_test, predictions, average='macro')

## SVM 
SVM = svm.SVC(kernel='linear')
SVM.fit(x_train, y_train)
predictions = SVM.predict(x_test)
SVM_Accuracy_Score = accuracy_score(y_test, predictions)
SVM_JaccardIndex = jaccard_score(y_test, predictions, average='macro')
SVM_F1_Score = f1_score(y_test, predictions, average='macro')


## ARBOL DE DECISIÓN 
Tree = DecisionTreeClassifier(max_depth=4, criterion='entropy')
Tree.fit(x_train, y_train)
predictions = Tree.predict(x_test)
Tree_Accuracy_Score = accuracy_score(y_test, predictions)
Tree_JaccardIndex = jaccard_score(y_test, predictions, average='macro')
Tree_F1_Score = f1_score(y_test, predictions, average='macro')



In [36]:
## Opcion E. Creamos el reporte de las metricas para comparar cual sería la mejor opción: 
Report = pd.DataFrame(
    index=['KNN', 'Decision Tree', 'SVM'],
    data={
        'Accuracy': [KNN_Accuracy_Score, Tree_Accuracy_Score, SVM_Accuracy_Score],
        'Jaccard Index': [KNN_JaccardIndex, Tree_JaccardIndex, SVM_JaccardIndex],
        'F1-Score': [KNN_F1_Score, Tree_F1_Score, SVM_F1_Score]
    }
)

Report

Unnamed: 0,Accuracy,Jaccard Index,F1-Score
KNN,0.570732,0.401606,0.572793
Decision Tree,0.510105,0.295847,0.42676
SVM,0.536585,0.363405,0.5264


De acuerdo a las metricas calculadas debido a que en las tres métricas el modelo de KNN es superior, consideramos que es el **Mejor modelo** de los tres. Sin emabrgo, las bajas calificaciones indicarían que pueden hacerse mejoras en él y poder mejorar. Por lo que no es un buen modelo, apesar de ser el mejor de los 3. 