**OBJETIVOS**

*  Entender la terminología básica de machine learning, por ejemplo, la diferencia entre clasificación y regresión, o la diferencia entre un modelo y un algoritmo de aprendizaje.
*    Dominar la librería scikit-learn y aprender a medir las métricas de evaluación y a entrenar modelos.
*    Aprender a examinar modelos y elegir el mejor.
*    Aprender terminología básica de machine learning
*    Descubrir qué es el aprendizaje supervisado y aprender los tipos de ejercicios que existen
*    Explorar la librería Scikit-learn

In [9]:
import pandas as pd

df = pd.read_csv('https://practicum-content.s3.us-west-1.amazonaws.com/datasets/train_data_us.csv')

print(df.shape)
display(df.head(5))

(6495, 14)


Unnamed: 0,last_price,total_area,bedrooms,ceiling_height,floors_total,living_area,floor,bike_parking,studio,open_plan,kitchen_area,balcony,airports_nearest,cityCenters_nearest
0,108000.0,59.0,2,2.87,4,31.5,2,0,0,0,6.6,0,20485,8180
1,264000.0,109.0,4,3.15,5,72.0,2,0,0,0,12.2,0,42683,8643
2,140000.0,74.5,3,2.58,10,49.0,9,0,0,0,10.8,0,14078,16670
3,64000.0,37.4,1,2.5,9,20.0,4,0,0,0,6.2,2,17792,17699
4,133000.0,64.9,3,2.65,12,41.9,11,0,0,0,10.4,0,14767,10573


Veamos los diferentes tipos de datos en nuestro conjunto de datos.

    last_price — precio al cierre (en dólares)
    total_area — superficie del apartamento en metros cuadrados (m²)
    bedrooms — número de dormitorios
    ceiling_height — altura del techo (m)
    floors_total — número total de pisos en el edificio
    living_area — superficie de sala de estar (m²)
    floor — piso
    bike_parking — estacionamiento de bicicletas en el edificio (tipo de dato booleano)
    is_studio — la propiedad es un estudio (tipo de dato booleano)
    is_open_plan — plan abierto (tipo de dato booleano)
    kitchen_area — área de cocina (m²)
    balconies — número de balcones
    airport_dist — distancia al aeropuerto más cercano en metros (m)
    city_center_dist — distancia al centro de la ciudad (m)

* aprendizaje supervisado. El "maestro" plantea preguntas (características) y da respuestas (el objetivo).
* prendizaje no supervisado: sin objetivo
* Aprendizaje semisupervisado: solo una parte de los datos de entrenamiento conoce el objetivo
* Recomendación: los usuarios y los elementos reemplazan las funciones y las observaciones (algo que puedas recomendar, por ejemplo, películas o vecindarios).

Las tareas de clasificación se ocupan de objetivos categóricos (por ejemplo, determinar especies de animales en una imagen). Si solo tenemos dos categorías, por ejemplo, si un cliente volverá a visitar el sitio web o no, es una clasificación binaria.

Si el objetivo es numérico, entonces es una tarea de regresión

In [10]:
print(df['last_price'].median())

113000.0


Cambia la tarea original a una tarea de clasificación. Crea una nueva característica llamada price_class. Para precios mayores a $113 000, asigna price_class a 1. Para precios menores o iguales a \\$113 000, asigna 'price_class' a 0. Imprime las primeras cinco filas de la tabla (que ya están en precodificación).

In [11]:
df.loc[df['last_price'] > 113000, ['price_class']]=1
df.loc[df['last_price'] <= 113000, ['price_class']]=0

print(df.head())

   last_price  total_area  bedrooms  ceiling_height  floors_total  \
0    108000.0        59.0         2            2.87             4   
1    264000.0       109.0         4            3.15             5   
2    140000.0        74.5         3            2.58            10   
3     64000.0        37.4         1            2.50             9   
4    133000.0        64.9         3            2.65            12   

   living_area  floor  bike_parking  studio  open_plan  kitchen_area  balcony  \
0         31.5      2             0       0          0           6.6        0   
1         72.0      2             0       0          0          12.2        0   
2         49.0      9             0       0          0          10.8        0   
3         20.0      4             0       0          0           6.2        2   
4         41.9     11             0       0          0          10.4        0   

   airports_nearest  cityCenters_nearest  price_class  
0             20485                 8180  

Muchas librerías de machine learning requieren que las características se almacenen en variables separadas. Declara dos variables:

    features para características
    target para objetivo

In [12]:
features = df.drop(['price_class','last_price'], axis=1)
target = df['price_class']

print(features.shape)
print(target.shape)

(6495, 13)
(6495,)


Si las predicciones son ciertas, la suposición es correcta. Este enfoque se denomina modelado. Las suposiciones y los métodos de predicción se denominan modelos de machine learning.

Para iniciar el entrenamiento, llama al método fit() y pásale tus variables como argumento.

In [13]:
from sklearn import set_config
set_config(print_changed_only=False)

'''
) es una configuración global de scikit-learn que controla cómo se muestran los parámetros de los modelos cuando los imprimes.
    Muestra TODOS los parámetros del modelo, incluso los que tienen valores por defecto
    Es útil para ver la configuración completa del modelo
'''

# importa el árbol de decisión de la librería sklearn
from sklearn.tree import DecisionTreeClassifier

# crea un modelo vacío y asígnalo a una variable
model = DecisionTreeClassifier()

# entrena un modelo llamando al método fit()
model.fit(features,target)

print(model)

DecisionTreeClassifier(ccp_alpha=0.0, class_weight=None, criterion='gini',
                       max_depth=None, max_features=None, max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_samples_leaf=1,
                       min_samples_split=2, min_weight_fraction_leaf=0.0,
                       random_state=None, splitter='best')


Ahora tenemos un modelo entrenado en la variable model . Para predecir respuestas, llama al método predict() y pásale la tabla con las características de las nuevas observaciones.

In [14]:
new_features = pd.DataFrame(
    [
        [None, None, 2.8, 25, None, 25, 0, 0, 0, None, 0, 30706.0, 7877.0],
        [None, None, 2.75, 25, None, 25, 0, 0, 0, None, 0, 36421.0, 9176.0]
    ],
    columns=features.columns
)

# completa la tabla con las nuevas características

new_features.loc[0, 'total_area'] = 900.0
new_features.loc[0, 'bedrooms'] = 12
new_features.loc[0, 'living_area'] = 409.7
new_features.loc[0, 'kitchen_area'] = 112.0

new_features.loc[1, 'total_area'] = 109.0
new_features.loc[1, 'bedrooms'] = 2
new_features.loc[1, 'living_area'] = 32
new_features.loc[1, 'kitchen_area'] = 40.5

# predice respuestas y muestra el resultado en la pantalla
answers = model.predict(new_features)
print(answers)

[1. 0.]
