# Clasificación usando Scikit Learn

In [19]:
import pandas as pd 
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split #para generar el set de datos y de pruebas
from sklearn.metrics import accuracy_score

In [20]:
df = pd.read_csv('diario.csv')
df.columns

Index(['number', 'air_pressure_9am', 'air_temp_9am', 'avg_wind_direction_9am',
       'avg_wind_speed_9am', 'max_wind_direction_9am', 'max_wind_speed_9am',
       'rain_accumulation_9am', 'rain_duration_9am', 'relative_humidity_9am',
       'relative_humidity_3pm'],
      dtype='object')

In [21]:
#limpieza de la columna number y de los datos nulos
del df['number']
df = df.dropna()

In [22]:
#se añade una nueva columna binaria para clasificar por nivel de humedad alto o bajo (hace de filtro para clasificar los datos)
df['HUMEDAD_ALTA'] = (df['relative_humidity_3pm'] > 24.99)*1
print(df['HUMEDAD_ALTA'])

0       1
1       0
2       0
3       0
4       1
       ..
1090    1
1091    1
1092    1
1093    1
1094    0
Name: HUMEDAD_ALTA, Length: 1064, dtype: int32


In [23]:
df.columns #se ven todas las columnas de la tabla para elegir las necesarias para alimentar el sistema. Estas son las "features" (x) para predecir el "target" (y)

#se quitan las columnas relacionadas con la humedad
features = [
    'air_pressure_9am', 'air_temp_9am', 'avg_wind_direction_9am',
    'avg_wind_speed_9am', 'max_wind_direction_9am', 'max_wind_speed_9am',
    'rain_accumulation_9am', 'rain_duration_9am']
target = ['HUMEDAD_ALTA']

#se separan las features en x y el target en y
x = df[features]
y = df[target]

In [24]:
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.33, random_state=324) #33% de datos de test, en este caso no se aporta cierto grado de aleatoriedad

#se crea el clasificador
humidity_classifier = DecisionTreeClassifier(max_leaf_nodes=10, random_state=0) #se indica el nº de hojas
humidity_classifier.fit(x_train, y_train) #se aplica al dataset

In [25]:
#se predice utilizando el modelo creado
y_prediction = humidity_classifier.predict(x_test)
y_prediction[:15] #se muestran 15 valores de la predicción para comparar cuánto se parece a y_test, que es la salida real

array([0, 0, 1, 1, 1, 1, 0, 0, 0, 1, 0, 1, 0, 1, 0])

In [26]:
y_test[:15] #comparamos

Unnamed: 0,HUMEDAD_ALTA
456,0
845,0
693,1
259,1
723,1
224,1
300,1
442,0
585,1
1057,1


In [27]:
#se mide la precisión del modelo
precision  = accuracy_score(y_true = y_test, y_pred = y_prediction) #precisión del modelo
precision

0.8153409090909091