<p style="font-family: Arial; font-size:2.75em;color:purple; font-style:bold">
Classification<br><br>
Usando scikit-learn
<br><br>
</p>

<p style="font-family: Arial; font-size:1.75em;color:purple; font-style:bold"><br>
Análisis diario de datos meteorológicos</p>

En este cuaderno, utilizaremos scikit-learn para realizar una clasificación de datos meteorológicos basada en un árbol de decisiones.

<p style="font-family: Arial; font-size:1.75em;color:purple; font-style:bold"><br>
Importamos Librerías<br></p>

In [None]:
#!pip install sklearn

In [1]:
import pandas as pd
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier

<p style="font-family: Arial; font-size:1.75em;color:purple; font-style:bold"><br>


Creando un Pandas DataFrame desde un archivo CSV<br></p>


In [2]:
data = pd.read_csv('meteo/diario.csv')

<p style="font-family: Arial; font-size:1.75em;color:purple; font-style:bold">Descripción diaria de los datos meteorológicos</p>
<br>
El archivo ** daily_weather.csv ** es un archivo separado por comas que contiene datos meteorológicos.. La estación meteorológica está equipada con sensores que capturan mediciones relacionadas con el clima, como la temperatura del aire, la presión del aire y la humedad relativa. Los datos se recopilaron durante un período de tres años, de septiembre de 2011 a septiembre de 2014, para garantizar que se capturan datos suficientes para diferentes estaciones y condiciones climáticas.<br><br>

Veamos ahora todas las columnas en los datos.

In [3]:
data.columns

Index(['number', 'air_pressure_9am', 'air_temp_9am', 'avg_wind_direction_9am',
       'avg_wind_speed_9am', 'max_wind_direction_9am', 'max_wind_speed_9am',
       'rain_accumulation_9am', 'rain_duration_9am', 'relative_humidity_9am',
       'relative_humidity_3pm'],
      dtype='object')

<br>Cada fila en daily_weather.csv captura datos del tiempo para un día separado.

Las mediciones de los sensores de la estación meteorológica se capturaron a intervalos de un minuto. Estas mediciones fueron procesadas para generar valores para describir el clima diario. Dado que este conjunto de datos se creó para clasificar los días de baja humedad frente a los días de no baja humedad (es decir, días con humedad normal o alta), las variables incluidas son las mediciones del clima en la mañana, y en la tarde. La idea es usar los valores del clima de la mañana para predecir si el día tendrá poca humedad o no en función de la medición de la humedad relativa de la tarde.

Qué son cada variable?

* **number:** Número único para cada fila
* **air_pressure_9am:** presión atmosférica entre las  8:55am y las 9:04am (*Hectopascales*)
* **air_temp_9am:** temperatura promedio del aire entre las 8:55am y las 9:04am (*Grados Fahrenheit*)
* **air_wind_direction_9am:** Dirección del  8:55am to 9:04am (*Grados a donde el 0 es el Norte e incrementa en sentido antihorario*)
* **air_wind_speed_9am:** Velocidad promedio del viento de 8:55am a 9:04am (*Millas por hora*)
* ** max_wind_direction_9am:** Dirección promedio de ráfagas de 8:55am a 9:10am 
* **max_wind_speed_9am:** Velocidad promedio de las ráfagas de 8:55am a 9:04am (*Millas por hora*)
* **rain_accumulation_9am:** Cantidad de lluvia acumulada en las 24 horas previas a las 9am. (*Milímetros*)
* **rain_duration_9am:** Cantidad de tiempo en el que se registró la lluvia en las 24 horas previas a las 9 am (*segundos*)
* **relative_humidity_9am:** humedad relativa promedio de 8:55am a 9:04am (*por ciento*)
* **relative_humidity_3pm:** humedad relativa promedio de 2:55pm a 3:04pm (*por ciento*)


In [6]:
data.head(10)

Unnamed: 0,number,air_pressure_9am,air_temp_9am,avg_wind_direction_9am,avg_wind_speed_9am,max_wind_direction_9am,max_wind_speed_9am,rain_accumulation_9am,rain_duration_9am,relative_humidity_9am,relative_humidity_3pm
0,0,918.06,74.822,271.1,2.080354,295.4,2.863283,0.0,0.0,42.42,36.16
1,1,917.347688,71.403843,101.935179,2.443009,140.471548,3.533324,0.0,0.0,24.328697,19.426597
2,2,923.04,60.638,51.0,17.067852,63.7,22.100967,0.0,20.0,8.9,14.46
3,3,920.502751,70.138895,198.832133,4.337363,211.203341,5.190045,0.0,0.0,12.189102,12.742547
4,4,921.16,44.294,277.8,1.85666,136.5,2.863283,8.9,14730.0,92.41,76.74
5,5,915.3,78.404,182.8,9.932014,189.0,10.983375,0.02,170.0,35.13,33.93
6,6,915.598868,70.043304,177.875407,3.745587,186.606696,4.589632,0.0,0.0,10.657422,21.385657
7,7,918.07,51.71,242.4,2.527742,271.6,3.646212,0.0,0.0,80.47,74.92
8,8,920.08,80.582,40.7,4.518619,63.0,5.883152,0.0,0.0,29.58,24.03
9,9,915.01,47.498,163.1,4.943637,195.9,6.576604,0.0,0.0,88.6,68.05


In [5]:
data[data.isnull().any(axis=1)] #selecciono filas  (f i l a s por eso uso axis=1) que tengan valores null

Unnamed: 0,number,air_pressure_9am,air_temp_9am,avg_wind_direction_9am,avg_wind_speed_9am,max_wind_direction_9am,max_wind_speed_9am,rain_accumulation_9am,rain_duration_9am,relative_humidity_9am,relative_humidity_3pm
16,16,917.89,,169.2,2.192201,196.8,2.930391,0.0,0.0,48.99,51.19
111,111,915.29,58.82,182.6,15.613841,189.0,,0.0,0.0,21.5,29.69
177,177,915.9,,183.3,4.719943,189.9,5.346287,0.0,0.0,29.26,46.5
262,262,923.596607,58.380598,47.737753,10.636273,67.145843,13.671423,0.0,,17.990876,16.461685
277,277,920.48,62.6,194.4,2.751436,,3.869906,0.0,0.0,52.58,54.03
334,334,916.23,75.74,149.1,2.751436,187.5,4.183078,,1480.0,31.88,32.9
358,358,917.44,58.514,55.1,10.021491,,12.705819,0.0,0.0,13.88,25.93
361,361,920.444946,65.801845,49.823346,21.520177,61.886944,25.549112,,40.364018,12.278715,7.618649
381,381,918.48,66.542,90.9,3.467257,89.4,4.406772,,0.0,20.64,14.35
409,409,,67.853833,65.880616,4.328594,78.570923,5.216734,0.0,0.0,18.487385,20.356594


<p style="font-family: Arial; font-size:1.75em;color:purple; font-style:bold"><br>

Pasos de limpieza de datos<br><br>


No necesitaremos un número para cada fila por lo que podemos eliminar esa columna

In [7]:
del data['number'] #borro la columna number ya que no la necesito

Eliminando los valores nulos

In [8]:
before_rows = data.shape[0] #guardo la forma de la tabla antes de la limpieza (para comparar luego)
print(before_rows)

1095


In [9]:
data = data.dropna()

In [10]:
after_rows = data.shape[0]
print(after_rows)

1064


<p style="font-family: Arial; font-size:1.75em;color:purple; font-style:bold"><br>


¿Cuántas filas cayeron debido a la limpieza?<br><br></p>


In [11]:
before_rows - after_rows

31

<p style="font-family: Arial; font-size:1.75em;color:purple; font-style:bold">
Apliquemos Clasificación <br><br></p>
Binarizamos relative_humidity_3pm a 0 o 1.<br>


In [12]:
clean_data = data.copy() #compio un dataframe en  uno nuevo
clean_data['high_humidity_label'] = (clean_data['relative_humidity_3pm'] > 24.99)*1 
print(clean_data['high_humidity_label'])

0       1
1       0
2       0
3       0
4       1
       ..
1090    1
1091    1
1092    1
1093    1
1094    0
Name: high_humidity_label, Length: 1064, dtype: int32


<p style="font-family: Arial; font-size:1.75em;color:purple; font-style:bold"><br>

El objetivo lo guardamos en 'y'.
<br><br></p>


In [13]:
y=clean_data[['high_humidity_label']].copy()
#y

In [14]:
clean_data['relative_humidity_3pm'].head()

0    36.160000
1    19.426597
2    14.460000
3    12.742547
4    76.740000
Name: relative_humidity_3pm, dtype: float64

In [15]:
y.head()

Unnamed: 0,high_humidity_label
0,1
1,0
2,0
3,0
4,1


<p style="font-family: Arial; font-size:1.75em;color:purple; font-style:bold"><br>

Usaremos las señales de los sensores de 9 am como características para predecir la humedad a las 3 pm
<br><br></p>


In [16]:
morning_features = ['air_pressure_9am','air_temp_9am','avg_wind_direction_9am','avg_wind_speed_9am',
        'max_wind_direction_9am','max_wind_speed_9am','rain_accumulation_9am',
        ]

In [17]:
X = clean_data[morning_features].copy()

In [18]:
X.columns

Index(['air_pressure_9am', 'air_temp_9am', 'avg_wind_direction_9am',
       'avg_wind_speed_9am', 'max_wind_direction_9am', 'max_wind_speed_9am',
       'rain_accumulation_9am'],
      dtype='object')

In [19]:
y.columns

Index(['high_humidity_label'], dtype='object')

<p style="font-family: Arial; font-size:1.75em;color:purple; font-style:bold"><br>

Realizamos la partición de nuestro set de datos en set de entrenamiento y prueba

<br><br></p>



## REMINDER: Training Phase

En la ** fase de entrenamiento **, el algoritmo de aprendizaje utiliza los datos de entrenamiento para ajustar los parámetros del modelo para minimizar los errores. Al final de la fase de entrenamiento, obtienes el modelo entrenado.


En la ** fase de prueba **, el modelo entrenado se aplica a los datos de prueba. Los datos de prueba están separados de los datos de entrenamiento y el modelo no los ha visto anteriormente. Luego se evalúa el modelo sobre cómo se comporta los datos de prueba. El objetivo de construir un modelo clasificador que tenga un buen desempeño en la capacitación, así como con los datos de prueba.


In [20]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=324)

In [44]:
#type(X_train)
#type(X_test)
#type(y_train)
#type(y_test)
#X_train.head()
#y_train.describe()

<p style="font-family: Arial; font-size:1.75em;color:purple; font-style:bold"><br>

Ajustamos
<br><br></p>


In [22]:
#creo el clasificador, 
humidity_classifier = DecisionTreeClassifier(max_leaf_nodes=15, random_state=0)
#le paso los valores a entrenar
humidity_classifier.fit(X_train, y_train)

DecisionTreeClassifier(max_leaf_nodes=15, random_state=0)

In [23]:
type(humidity_classifier)

sklearn.tree._classes.DecisionTreeClassifier

<p style="font-family: Arial; font-size:1.75em;color:purple; font-style:bold"><br>

Predict on Test Set 

<br><br></p>


In [24]:
predictions = humidity_classifier.predict(X_test)
X_test

Unnamed: 0,air_pressure_9am,air_temp_9am,avg_wind_direction_9am,avg_wind_speed_9am,max_wind_direction_9am,max_wind_speed_9am,rain_accumulation_9am
456,918.800000,80.384000,189.600000,1.767183,80.300000,2.773806,0.000
845,921.613373,68.658973,70.703555,2.248932,96.844701,3.043049,0.000
693,917.900000,76.802000,154.100000,2.550112,199.400000,3.400149,0.000
259,914.830000,74.570000,175.500000,1.409272,153.800000,2.236940,0.000
723,917.010000,51.836000,130.200000,1.610597,159.900000,2.348787,0.000
...,...,...,...,...,...,...,...
46,917.900000,65.660000,183.700000,6.062107,188.500000,6.509495,0.021
116,919.561333,69.165521,137.144876,1.382894,123.019031,2.031607,0.000
799,917.650000,82.436000,108.000000,2.214571,62.800000,2.840914,0.000
350,917.120000,45.896000,179.200000,3.400149,195.000000,3.981753,0.000


In [25]:
predictions[:20]

array([0, 0, 1, 1, 1, 1, 1, 0, 1, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0])

In [26]:
y_test['high_humidity_label'][:20]

456     0
845     0
693     1
259     1
723     1
224     1
300     1
442     0
585     1
1057    1
770     1
81      1
150     0
493     1
321     0
39      0
430     0
109     0
1005    0
496     0
Name: high_humidity_label, dtype: int32

<p style="font-family: Arial; font-size:1.75em;color:purple; font-style:bold"><br>

Medimos la precisión

<br><br></p>


In [27]:
accuracy_score(y_true = y_test, y_pred = predictions)

0.8210227272727273