# Modelo simple

En este notebook van a encontrar un modelo de ML simple para clasificar especies de iris.

Lo utilizaremos para aprender a pasar de jupyter notebooks (.ipynb) a archivos .py

Durante el proceso utilizaremos git para controlar versiones.

Los datos pueden encontrarlos en: https://gist.githubusercontent.com/netj/8836201/raw/6f9306ad21398ea43cba4f7d537619d0e07d5ae3/iris.csv

Con el siguiente comando podemos descargar el dataset:

In [None]:
#!curl -o "iris.csv" "https://gist.githubusercontent.com/netj/8836201/raw/6f9306ad21398ea43cba4f7d537619d0e07d5ae3/iris.csv"

EJERCICIO: Correr el comando en una terminal (local).

Ahora, leemos el dataset con pandas y entrenamos un modelo de clasificación (muy simple, sin nada de pre procesamiento)

In [None]:
import pandas as pd

In [None]:
df = pd.read_csv("C:/Users/Hugo/Curso DS/datasets/iris.csv")
#df = pd.read_csv("https://gist.githubusercontent.com/netj/8836201/raw/6f9306ad21398ea43cba4f7d537619d0e07d5ae3/iris.csv")

In [None]:
df.head()

Separamos en X e y

In [None]:
X = df.drop("variety", axis=1).values.copy()
y = df.variety.copy()

Instanciamos el modelo

In [None]:
from sklearn.ensemble import RandomForestClassifier

clf = RandomForestClassifier(max_depth=2)

Lo entrenamos

In [None]:
clf.fit(X, y)

In [None]:
clf.score(X, y)

Y para predecir:

In [None]:
clf.predict([[0.5, 0.5, 0.5, 0.5]])

Ahora la idea es llevar esto a un script de python. Primero que nada, vamos a crear un repositorio vacío en github. Luego:

1. Crear nuevo proyecto de python (pycharm, visual studio code o algún IDE)
2. Crear el primer commit del proyecto y pushearlo
3. Correr el script main.py:

```
# This is a sample Python script.

def print_hi(name):
    # Use a breakpoint in the code line below to debug your script.
    print(f'Hi, {name}')  # Press Ctrl+F8 to toggle the breakpoint.


if __name__ == '__main__':
    print_hi('PyCharm')

```

4. Probar pdb (debugger) en la función print_hi(name)

5. Crear una nueva rama (puede llamarse por ejemplo "iris_model" y moverse a la misma.

6. Crear el archivo requirements.txt:



```
requests
pandas
sklearn
```

7. Instalar las dependencias: pip install -r requirements.txt

8. Crear los directorios "ml" y "data" en el proyecto. Dentro de "ml" crear los archivos:
- \_\_init__.py
- model.py

Dentro de "data" crear los archivos:
- get_data.py
- \_\_init__.py

9. Crear el archivo .gitignore para ignorar lo que termine en .csv

10. Hacer un commit y push con estos archivos vacios

11. En el script get_data.py: 

```
import requests


url = 'https://gist.githubusercontent.com/netj/8836201/raw/6f9306ad21398ea43cba4f7d537619d0e07d5ae3/iris.csv'
r = requests.get(url)

open('./data/iris.csv', 'wb').write(r.content)
```

Esto nos debería descargar el archivo csv. Este archivo no se debe subir al repositorio (no es una buena práctica), por esto lo ponemos en el .gitignore.

12. Ahora, en model.py debemos llevar el código de este notebook a un archivo.py:
- Leer el dataset
- Separar en X e y
- Instanciar un modelo random forest
- Entrenar el modelo

13. Una vez que tenemos el modelo entrenado, podemos persistir el mismo (guardarlo entrenado). Hay distintas formas de hacerlo, una muy común es utilizando pickle. El siguiente artículo puede ser de ayuda:https://machinelearningmastery.com/save-load-machine-learning-models-python-scikit-learn/

Guardar el modelo entrenado en el directorio "ml".

El script de entrenamiento del modelo debería verse algo así:

```
import pandas as pd
from sklearn.ensemble import RandomForestClassifier
import os
import pickle

df = pd.read_csv(f"{os.getcwd()}/data/iris.csv")

X = df.drop("variety", axis=1).values.copy()
y = df.variety.copy()

clf = RandomForestClassifier(max_depth=2)

clf.fit(X, y)

pickle.dump(clf, open(f"{os.getcwd()}/ml/model.pkl", 'wb'))
```


14. Agregar un nuevo archivo en el directorio "ml" que se llame "predict.py". Este archivo debe tener una función que se llame "predict(data)" y reciba "data" para generar predicciones. Acá vamos a necesitar usar el modelo previamente entrenado.

Además, para practicar, vamos a hacer que el script tome como parámetro un argumento que nos diga donde estan los datos.

Podemos pasar el argumento de la siguiente forma:

`python ./ml/predict.py /data/iris.csv`


El script para generar predicciones, debería ser algo como esto (con varias cosas por mejorar):


```
import pickle
import sys
import pandas as pd
import os


def predict(data):
    model = pickle.load(open(f"{os.getcwd()}/ml/model.pkl", 'rb'))
    preds = model.predict(data)
    preds = pd.DataFrame(preds)
    preds.to_csv(f"{os.getcwd()}/data/predictions.csv")


if __name__ == '__main__':
    data_dir = sys.argv[1]
    data = pd.read_csv(f"{os.getcwd()}{data_dir}")
    data = data[["sepal.length", "sepal.width",  "petal.length",  "petal.width"]].values
    predict(data)
```

if __name__ == '__main__':

Este bloque de código se va a ejecutar siempre que ejecutemos nuestro script de python directamente desde la terminal. Si llamamos a nuestro script desde otro módulo, no se ejecutará.









