# Feature Engineering

Por medio del apartado se busca **mejorar** la capacidad de expresar el problema.

In [13]:
%matplotlib inline
import pandas as pd
## import numpy as np
##import matplotlib.pyplot as plt
## import seaborn as sns
## from sklearn.model_selection import train_test_split
import plotly.graph_objects as go
from plotly.subplots import make_subplots
from datetime import datetime

In [95]:
full = pd.read_csv('data/reproductions.csv')

## Crear features extrayendo info de otras features

En función a variables existentes, obtenemos nueva información y separamos esa información en nuevas columnas:
- **Season**: Generamos una nueva columna denominada `season` donde vamos a tener la estación del año en la que se inció el proceso de reproducción
- **Age**: Generamos una nueva columna denominada `age` donde vamos a almacenar la edad del animal cuando se inció el proceso de reproducción.
- **Success reproduction count, fail reproduction count, pregnant after count, empty after count**: Generamos las siguientes columnas `success_reproduction_count`,`fail_reproduction_count`,`pregnant_after_count` y `empty_after_count` como la concatenación de la misma información pero dividida por monta natural e inseminción. 


![](data/feature_engineering_1.png)

In [99]:
full['age'] = datetime.now().date().year - full['birth_year']

full['success_reproduction_count'] = full['success_insemination_count'] + full['success_natural_count']
full['fail_reproduction_count'] = full['fail_insemination_count'] + full['fail_natural_count']

full['pregnant_after_count'] = full['pregnant_after_insemination_count'] + full['pregnant_after_natural_count']
full['empty_after_count'] = full['empty_after_natural_count'] + full['empty_after_insemination_count']

full['reproduction_execution'] = pd.to_datetime(full.reproduction_execution)
full['date_offset'] = (pd.DatetimeIndex(full.reproduction_execution).month*100 + pd.DatetimeIndex(full.reproduction_execution).day - 320)%1300
full['season'] = pd.cut(full['date_offset'], [0, 300, 602, 900, 1300], 
                      labels=['autumn', 'winter', 'spring', 'summer'])

In [37]:
ages = full.age.value_counts().sort_index()
birth_year = full.birth_year.value_counts().sort_index()

fig = make_subplots(1, 2)

fig.add_trace(go.Bar(x=ages.index, y=ages.values, name='Edades'), 1, 1)
fig.add_trace(go.Bar(x=birth_year.index, y=birth_year.values, name='Año de nacimiento'), 1, 2)

fig.update_layout(title_text='Nueva columna: Age')

fig.show()

In [40]:
season = full.season.value_counts().sort_index()
reproduction_execution = full.reproduction_execution.value_counts().sort_index()

fig = make_subplots(1, 2)

fig.add_trace(go.Bar(x=season.index, y=season.values, name='Season'), 1, 1)
fig.add_trace(go.Bar(x=reproduction_execution.index, y=reproduction_execution.values, name='Fecha'), 1, 2)

fig.update_layout(title_text='Nueva columna: Season')

fig.show()

In [89]:
success_reproduction_count = full.success_reproduction_count.value_counts().sort_index()
success_insemination_count = full.success_insemination_count.value_counts().sort_index()
success_natural_count = full.success_natural_count.value_counts().sort_index()

fig = make_subplots(1, 3)

fig.add_trace(go.Bar(x=success_reproduction_count.index, y=success_reproduction_count.values, name='Total'), 1, 1)
fig.add_trace(go.Bar(x=success_insemination_count.index, y=success_insemination_count.values, name='Inseminación'), 1, 2)
fig.add_trace(go.Bar(x=success_natural_count.index, y=success_natural_count.values, name='Monta Natural'), 1, 3)

fig.update_layout(title_text='Nueva columna: Success reproduction count')

fig.show()

## Binning - Redondeo de números

Se redondean las siguientes columnas:
- **body_development**: La columna deja de ser un decimal, para ser un entero.


In [96]:
full['body_development'] = full['body_development'].round()

In [98]:
body_development = full.body_development.value_counts().sort_index()

fig = make_subplots(1, 1)

fig.add_trace(go.Bar(x=body_development.index, y=body_development.values, name='Season'), 1, 1)

fig.update_layout(title_text='Redondeo de columna: Body development')

fig.show()

## Features a partir de datos pasados

Las reproducciones almacenadas en el dataframe se encuentran ubicadas en el tiempo. De esta manera, se generaron las siguientes columnas:
- **Cantidad de reproducciones previas**: Cada sample va a contener la cantidad de reproducciones pasadas relacionadas al mimsmo. Dentro de las reproducciones pasadas vamos a dividirlas en exitosas y no exitosas.
- **Cantidad de palpaciones previas**: Cada sample va a contener la cantidad palpaciones pasadas relacionadas luego de haber sido reproducidas. Dentro de las palpaciones pasadas vamos a dividirlas en exitosas y no exitosas.
- **Cantidad de DIBs colocados previamente**: Cada sample va a contener la cantidad de DIBs colacdos anteriormente.

Aclaración: Los metodos para obtener estos valores se adjuntaron en los siguientes blocks de notas: acá (falta agregar esto.)

![](data/feature_engineering_2.png)