![image.png](attachment:image.png)

# Feature Engineering in Python    -    Fecha:22/11/2021

https://towardsdatascience.com/feature-engineering-in-python-2fdb9bb8ee7a

En mi década como científico de datos, mi experiencia concuerda en gran medida con la afirmación de Andrew Ng: "El aprendizaje automático aplicado es básicamente ingeniería de <b>características</b>". 

Desde el comienzo de mi carrera, construyendo modelos de fraude con tarjetas de crédito en SAS, la mayor parte de mi valor como científico de datos provino de mi capacidad para diseñar nuevas <b>características</b> y capturar tanto la información empresarial como el comportamiento observado en los datos para ayudar al modelo a identificar el objetivo. 

También se alinea con este sentimiento la declaración del Dr. Pedro Domingos: “Al final del día, algunos proyectos de aprendizaje automático tienen éxito y otros fracasan. 

¿Qué marca la diferencia? Fácilmente, el factor más importante son las <b>características</b> utilizadas ".

Contenido de ingeniería de características comunes

A pesar de esta experiencia y de las declaraciones de los líderes en el campo, todavía falta contenido de ingeniería de funciones. Si bien una búsqueda de "ingeniería de funciones" en Google devuelve muchas páginas, el contenido subyacente es muy similar y se centra solo en algunos temas:

    manejo de valores perdidos
    manejo de valores atípicos
    agrupación de variables numéricas
    codificación de características categóricas
    transformaciones numéricas
    escalar características numéricas
    extraer partes de una fecha 

## El problema con este contenido

Estos son temas importantes y, en muchos casos, necesarios para que el algoritmo de aprendizaje automático subyacente pueda incluso procesar los datos. Sin embargo, faltan en tres formas principales. 

Primero, en algunos casos, aplican ciegamente las técnicas sin entender por qué. Muchos blogs discuten cómo se deben escalar las características numéricas antes de modelar. Esto no es verdad. 

Métodos basados ​​en árboles, p. Ej. XGBoost, LightGBM, etc. son invariables al escalado. Praveen Thenraj dio un buen ejemplo de esto en su publicación Towards Data Science.
https://towardsdatascience.com/do-decision-trees-need-feature-scaling-97809eaa60c6


En segundo lugar, si bien la técnica es necesaria, existen grandes clases de problemas en los que la técnica no será práctica y se necesitan otras técnicas. 

Un ejemplo de esto es la codificación de características categóricas. La mayoría de las discusiones sobre ingeniería de características explican la codificación one-hot o ficticia y, a menudo, explican la codificación de etiquetas. Rara vez discuten el desafío de las variables categóricas de alta cardinalidad. La mayoría de las veces, he visto que esto ocurre cuando se trata de códigos postales o códigos de áreas, pero esto también puede ocurrir cuando se trabaja con datos médicos y códigos de diagnóstico ICD-9 o ICD-10. 

### ¿Qué es alta cardinalidad?
Una alta cardinalidad significa que hay muchos valores únicos (como en un campo para números de teléfono). La cardinalidad entre tablas es similar, pero se refiere a si una fila de una tabla podría vincularse con más de una fila de otra tabla.

Los códigos postales de codificación única pueden generar más de 40.000 características nuevas. Ésta no es una solución práctica. Comprender la estructura de estos códigos puede permitir que se acumulen a niveles más altos de agregación. 

Incluso después de la agregación, puede haber demasiadas categorías para que la codificación one-hot o label sea útil. 

Además, algunas variables categóricas no tienen una agregación fácilmente identificable que pueda reducir el número de categorías necesarias. La codificación de destino o la codificación de dejar uno fuera pueden manejar estas características categóricas de alta cardinalidad. Si bien algunos blogs de ingeniería de características discuten estas técnicas, a menudo no destacan su utilidad en este caso o la impracticabilidad de la codificación one-hot.

## Agregación vs Granularidad
https://www.tableau.com/about/blog/2018/6/data-prep-101-what-aggregate-function-and-how-do-you-combine-aggregated-data-89244


## La ingeniería de características es más que esto.

Finalmente, y lo más importante, la ingeniería de características es mucho más que esto. Cuando la gente habla del poder de la ingeniería de características o del arte de la ingeniería de características, no se refieren a estas técnicas estándar. 

En cambio, es el trabajo reconocer que los códigos postales se pueden agregar a ciudades, estados, DMA, etc. y realizar esas agregaciones. Esta ingeniería se puede realizar aún más combinando estas agregaciones con todas las compras en esa ubicación para captar un mejor sentido del mercado local. 

Finalmente, comparaciones entre las compras de un individuo y el mercado local en general. Esta es solo la punta del iceberg y es mi parte favorita del proceso de ciencia de datos.

Para ser justos, es difícil mostrar ejemplos de este tipo de ingeniería de características sin discutir también un problema de modelado real. Pero descuidarlo por completo cuando se habla de ingeniería de características puede dejar un sentido falso de su alcance. Además, existen muchas técnicas poderosas que se pueden aplicar a un amplio conjunto de problemas.

## Conversión de datos categóricos a numéricos en R

https://librovivodecienciadedatos.ai/preparacion-de-datos.html


## Tutoriales de ingeniería de funciones en GitHub

Se pueden utilizar técnicas como estas para crear funciones que puedan representar el comportamiento subyacente de interés. 

En Rasgo, queríamos ayudar a la comunidad científica de datos compartiendo estas técnicas. 

Para hacer esto, creamos un repositorio de GitHub dedicado a tutoriales de ingeniería de características que contiene código de ingeniería de características, incluidos los ejemplos anteriores, como cuadernos de Jupyter. Además de la ingeniería de funciones, hay ejemplos para:

     Perfilado de funciones y EDA
     Limpieza de datos
     Divisiones de prueba de tren
     Importancia de la característica
     Selección de características. 
     
https://github.com/rasgointelligence/feature-engineering-tutorials

## Ejecutar los jupyters del link y analizar cada función de Feature Engineering

![image.png](attachment:image.png)

Los packeges son links que redirigen a la fuentes de librerías y sus explicaciones:

Por ejemplo SHAP:

https://shap.readthedocs.io/en/latest/index.html


![image.png](attachment:image.png)


## Modelos Agnósticos

Los métodos de modelos agnósticos son métodos que se puede usar en cualquier modelo de aprendizaje automático, desde máquinas de vectores de soporte hasta redes neuronales.

https://towardsdatascience.com/model-agnostic-methods-for-interpreting-any-machine-learning-model-4f10787ef504#:~:text=Model-agnostic%20methods%20are%20methods%20you%20can%20use%20for,model-agnostic%20methods.%20There%E2%80%99s%20another%20article%20about%20interpretable%20models.
