In [9]:
import pandas as pd
import numpy as np

def get_train_data(features, labels):
    """ 
    Input:
        str to csv with train features and labels

    Output:
        data_clean_dt, X, y
    
    """
    data = features.merge(labels)

    data_clean = data.dropna()
    print("Droped {:.2f}% of rows.".format((1 - data_clean.shape[0]/data.shape[0])*100))

    data_clean.loc[:,'log_total_cases'] = np.log1p(data_clean['total_cases'])
    data_clean_dt = get_dt_col(data_clean)

    y = data_clean_dt['log_total_cases']
    X = data_clean_dt.drop(columns=['total_cases','log_total_cases'])

    
    return data_clean_dt, X, y

In [2]:
def get_dt_col(X , column='week_start_date', format='%Y-%m-%d'):
    """
    Input:
        X
        col = weekofx

    Returns:
        X with X[col].dtype = datetime

    """
    X_new = X.copy()
    X_new[column] = pd.to_datetime(X_new[column], format=format)

    return X_new

In [24]:
from sklearn.ensemble import RandomForestRegressor

train_feats = ['reanalysis_max_air_temp_k','reanalysis_min_air_temp_k','station_precip_mm','reanalysis_dew_point_temp_k']

def get_model(X, y, feats):
    regr = RandomForestRegressor(random_state=0)
    regr.fit(X[feats], y)
    return regr

In [7]:
train_data = pd.read_csv('data/01_raw/dengue_features_train.csv')
labels = pd.read_csv('data/01_raw/dengue_labels_train.csv')

In [10]:
data_clean_dt, X, y = get_train_data(train_data, labels)

Droped 17.65% of rows.


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data_clean.loc[:,'log_total_cases'] = np.log1p(data_clean['total_cases'])


In [25]:
model = get_model(X, y, train_feats)

In [14]:
test_data = pd.read_csv('data/01_raw/dengue_features_test.csv')


In [30]:
predictions = np.round(model.predict(test_data[train_feats]))

TypeError: only length-1 arrays can be converted to Python scalars

In [29]:
predictions

array([2., 3., 3., 3., 3., 3., 3., 3., 3., 3., 3., 3., 3., 3., 4., 4., 3.,
       4., 5., 4., 4., 4., 3., 3., 4., 3., 3., 3., 4., 3., 3., 3., 2., 3.,
       2., 3., 3., 3., 3., 3., 3., 3., 2., 3., 2., 3., 2., 3., 3., 3., 3.,
       3., 3., 2., 3., 3., 3., 2., 3., 3., 3., 3., 3., 3., 3., 3., 3., 3.,
       3., 4., 4., 4., 3., 3., 4., 4., 4., 3., 2., 3., 3., 4., 3., 3., 3.,
       4., 3., 3., 2., 2., 3., 3., 2., 3., 3., 2., 2., 2., 3., 3., 3., 3.,
       3., 2., 3., 4., 3., 3., 4., 4., 4., 3., 3., 4., 4., 4., 4., 4., 3.,
       4., 4., 4., 4., 4., 4., 3., 3., 3., 4., 3., 3., 4., 3., 2., 3., 2.,
       3., 2., 2., 2., 3., 3., 3., 2., 3., 3., 3., 3., 2., 3., 2., 3., 3.,
       3., 3., 3., 3., 3., 3., 3., 3., 3., 3., 4., 4., 4., 4., 4., 3., 4.,
       4., 4., 3., 4., 4., 4., 3., 3., 3., 3., 3., 3., 3., 3., 3., 3., 3.,
       3., 3., 3., 3., 2., 3., 3., 3., 3., 2., 3., 2., 3., 3., 3., 3., 3.,
       3., 3., 3., 2., 2., 3., 3., 3., 3., 3., 3., 3., 3., 3., 4., 2., 3.,
       4., 3., 4., 4., 3.