# NYSE (New York Stock Exchange)

- Area del proyecto: Finanzas
- Web: https://www.kaggle.com/datasets/dgawlik/nyse
- Metodologia: CRISP DM https://healthdataminer.com/data-mining/crisp-dm-una-metodologia-para-mineria-de-datos-en-salud/

### Para el presente proyecto utilizaremos la metodologia CRISP DM

La metodología CRISP-DM establece un proyecto de minería de datos como una secuencia de fases:


![Cat](https://www.researchgate.net/profile/Youssef-Tounsi-2/publication/341627969/figure/fig1/AS:903550875996160@1592434724532/CRISP-DM-data-mining-framework.png)

Se debe entregar:
1. Presentación de la empresa, organización o problema específico.
2. Preguntas y objetivos de la investigación.
3. Conformación del equipo de trabajo.
4. Indicación de la fuente del dataset y los criterios de selección (Data Acquisition).
5. Generación del primer Data Wrangling y EDA, apuntado a sus datos (insights) univariado, bivariado y multivariado.
6. Análisis de componentes principales.
7. Contar la historia de sus datos
8. Filtros aplicados a los datos. Distribución. Dataset final para analizar.
9. Plantear objetivo/s para esos datos.

# FASES

1. Comprensión del negocio.
2. Compresión de los datos.
3. Preparación de los datos.
4. Modelado.
5. Evaluación.
6. Despliegue.

## 1. Comprensión del negocio.

El objetivo de esta fase es alinear los objetivos del proyecto de data mining con los objetivos del negocio. Tratando así de evitar embarcarnos en un proyecto de minería de datos que no produzca ningún efecto real en la organización.

En esta fase deberemos ser capaces de:

- Establecer los objetivos de negocio.
- Evaluar la situación actual.
- Fijar los objetivos a nivel de minería de datos.
- Obtener un plan de proyecto.

Como ejemplo ilustrativo de la metodología vamos a considerar el caso de una organización hospitalaria especializada en oncología que pretende mejorar la precisión en el diagnóstico de células cancerígenas que lleva a cabo el laboratorio de anatomía patológica.

Para ello se procederá a realizar una captura digital de una imagen de un aspirado con aguja fina de una masa mamaria y se medirá de forma automatizada una serie de atributos sobre la imagen que nos permita clasificar el tejido analizado como maligno o benigno.

El objetivo final es establecer un sistema automatizado que permita clasificar automáticamente una citología del paciente y complemente la labor de diagnóstico del patólogo, mejorando la precisión diagnóstica.

Una vez establecidos y alineados los objetivos se creará un plan de proyecto que incluya las fases, tareas y actividades necesarias para conseguir los objetivos.

## 2. Compresión de los datos.


Dos puntos clave en esta fase: conocer los datos, estructura y distribución, y la calidad de los mismos.

En esta fase deberemos ser capaces de:

Ejecutar procesos de captura de datos.
Proporcionar una descripción del juego de datos.
Realizar tareas de exploración de datos.
Gestionar la calidad de los datos, identiﬁcando problemas y proporcionando soluciones.
El proyecto se basará en el Breast Cancer Winscosin Data Set. Está formado por un conjunto de 569 observaciones con 30 variables de tipo real. El conjunto de datos no presenta valores nulos.

Las variables se calculan a partir de una imagen digitalizada de un aspirado con aguja fina (FNA) de una masa mamaria. Describen las características de los núcleos celulares presentes en la imagen.

Las variables son las siguientes:

Radio
Textura
Perímetro
Área
Suavidad
Compacidad
Concavidad

## 3. Preparación de los datos.

El objetivo final de esta fase es obtener los datos finales sobre los que aplicarán los modelos.

En esta fase deberemos ser capaces de:

Establecer el universo de datos con los que trabajar.
Realizar tareas de limpieza de datos.
Construir un juego de datos apto para ser usado en modelos de minería de datos.
Integrar datos de fuentes heterogéneas si es necesario.
Como ejemplo de exploración visual de los datos dibujaremos un histograma para alguno de los atributos del dataset. La finalidad es observar cómo se distribuye cada uno de los atributos en función del valor de clase que toman, para poder identificar de forma visual y rápida si algunos atributos permiten diferenciar de forma clara los diferentes diagnósticos de los tumores.

In [20]:
import pandas as pd

In [21]:
fundamentals = pd.read_csv('fundamentals.csv')
prices = pd.read_csv('prices.csv')
securities = pd.read_csv('securities.csv')

In [22]:
securities

Unnamed: 0,Ticker symbol,Security,SEC filings,GICS Sector,GICS Sub Industry,Address of Headquarters,Date first added,CIK
0,MMM,3M Company,reports,Industrials,Industrial Conglomerates,"St. Paul, Minnesota",,66740
1,ABT,Abbott Laboratories,reports,Health Care,Health Care Equipment,"North Chicago, Illinois",1964-03-31,1800
2,ABBV,AbbVie,reports,Health Care,Pharmaceuticals,"North Chicago, Illinois",2012-12-31,1551152
3,ACN,Accenture plc,reports,Information Technology,IT Consulting & Other Services,"Dublin, Ireland",2011-07-06,1467373
4,ATVI,Activision Blizzard,reports,Information Technology,Home Entertainment Software,"Santa Monica, California",2015-08-31,718877
...,...,...,...,...,...,...,...,...
500,YHOO,Yahoo Inc.,reports,Information Technology,Internet Software & Services,"Sunnyvale, California",,1011006
501,YUM,Yum! Brands Inc,reports,Consumer Discretionary,Restaurants,"Louisville, Kentucky",1997-10-06,1041061
502,ZBH,Zimmer Biomet Holdings,reports,Health Care,Health Care Equipment,"Warsaw, Indiana",,1136869
503,ZION,Zions Bancorp,reports,Financials,Regional Banks,"Salt Lake City, Utah",,109380


In [23]:
fundamentals

Unnamed: 0.1,Unnamed: 0,Ticker Symbol,Period Ending,Accounts Payable,Accounts Receivable,Add'l income/expense items,After Tax ROE,Capital Expenditures,Capital Surplus,Cash Ratio,...,Total Current Assets,Total Current Liabilities,Total Equity,Total Liabilities,Total Liabilities & Equity,Total Revenue,Treasury Stock,For Year,Earnings Per Share,Estimated Shares Outstanding
0,0,AAL,2012-12-31,3.068000e+09,-222000000.0,-1.961000e+09,23.0,-1.888000e+09,4.695000e+09,53.0,...,7.072000e+09,9.011000e+09,-7.987000e+09,2.489100e+10,1.690400e+10,2.485500e+10,-367000000.0,2012.0,-5.60,3.350000e+08
1,1,AAL,2013-12-31,4.975000e+09,-93000000.0,-2.723000e+09,67.0,-3.114000e+09,1.059200e+10,75.0,...,1.432300e+10,1.380600e+10,-2.731000e+09,4.500900e+10,4.227800e+10,2.674300e+10,0.0,2013.0,-11.25,1.630222e+08
2,2,AAL,2014-12-31,4.668000e+09,-160000000.0,-1.500000e+08,143.0,-5.311000e+09,1.513500e+10,60.0,...,1.175000e+10,1.340400e+10,2.021000e+09,4.120400e+10,4.322500e+10,4.265000e+10,0.0,2014.0,4.02,7.169154e+08
3,3,AAL,2015-12-31,5.102000e+09,352000000.0,-7.080000e+08,135.0,-6.151000e+09,1.159100e+10,51.0,...,9.985000e+09,1.360500e+10,5.635000e+09,4.278000e+10,4.841500e+10,4.099000e+10,0.0,2015.0,11.39,6.681299e+08
4,4,AAP,2012-12-29,2.409453e+09,-89482000.0,6.000000e+05,32.0,-2.711820e+08,5.202150e+08,23.0,...,3.184200e+09,2.559638e+09,1.210694e+09,3.403120e+09,4.613814e+09,6.205003e+09,-27095000.0,2012.0,5.29,7.328355e+07
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1776,1776,ZION,2015-12-31,0.000000e+00,0.0,-2.530000e+06,4.0,-1.573610e+08,0.000000e+00,,...,0.000000e+00,0.000000e+00,7.507519e+09,5.216201e+10,5.966952e+10,2.210591e+09,0.0,2015.0,1.20,2.578925e+08
1777,1777,ZTS,2013-12-31,1.381000e+09,-99000000.0,9.000000e+06,54.0,-1.840000e+08,8.780000e+08,43.0,...,3.357000e+09,1.415000e+09,9.400000e+08,5.618000e+09,6.558000e+09,4.561000e+09,0.0,2013.0,1.01,4.990099e+08
1778,1778,ZTS,2014-12-31,1.071000e+09,69000000.0,-7.000000e+06,44.0,-1.800000e+08,9.580000e+08,81.0,...,3.465000e+09,1.086000e+09,1.311000e+09,5.277000e+09,6.588000e+09,4.785000e+09,0.0,2014.0,1.16,5.025862e+08
1779,1779,ZTS,2015-12-31,1.313000e+09,-58000000.0,-8.100000e+07,32.0,-2.240000e+08,1.012000e+09,65.0,...,3.830000e+09,1.781000e+09,1.068000e+09,6.845000e+09,7.913000e+09,4.765000e+09,-203000000.0,2015.0,0.68,4.985294e+08


In [24]:
prices

Unnamed: 0,date,symbol,open,close,low,high,volume
0,2016-01-05 00:00:00,WLTW,123.430000,125.839996,122.309998,126.250000,2163600.0
1,2016-01-06 00:00:00,WLTW,125.239998,119.980003,119.940002,125.540001,2386400.0
2,2016-01-07 00:00:00,WLTW,116.379997,114.949997,114.930000,119.739998,2489500.0
3,2016-01-08 00:00:00,WLTW,115.480003,116.620003,113.500000,117.440002,2006300.0
4,2016-01-11 00:00:00,WLTW,117.010002,114.970001,114.089996,117.330002,1408600.0
...,...,...,...,...,...,...,...
851259,2016-12-30,ZBH,103.309998,103.199997,102.849998,103.930000,973800.0
851260,2016-12-30,ZION,43.070000,43.040001,42.689999,43.310001,1938100.0
851261,2016-12-30,ZTS,53.639999,53.529999,53.270000,53.740002,1701200.0
851262,2016-12-30 00:00:00,AIV,44.730000,45.450001,44.410000,45.590000,1380900.0


## 4. Modelado.


El objetivo último de esta fase es construir un modelo que nos permita alcanzar los objetivos del proyecto.

En esta fase deberemos ser capaces de:

Seleccionar las técnicas de modelado más adecuadas para nuestro juego de datos y nuestros objetivos.
Fijar una estrategia de veriﬁcación de la calidad del modelo.
Construir un modelo a partir de la aplicación de las técnicas seleccionadas sobre el juego de datos.
Ajustar el modelo evaluando su ﬁabilidad y su impacto en los objetivos anteriormente establecidos.
Nos encontramos ante un problema de clasificación. Aplicaremos un método de aprendizaje supervisado, concretamente el clasificador RandomForest, para predecir el diagnóstico de cáncer de mama (tumor benigno o maligno), usando el conjunto de datos original con todos los atributos.

Dividimos las observaciones en un conjunto de entrenamiento para construir el modelo y otro conjunto de test para evaluarlo. Para ello, a partir de dataset inicial tomaremos el 75% de las observaciones junto con su etiqueta de clase asociada para el conjunto de entrenamiento. El 25% restante se asignan al conjunto de test.

La implementación la realizaremos en Python, utilizando la librería sckit-learn.

## 5. Evaluación.

En esta fase nos centrarnos en evaluar el grado de acercamiento del modelo a los objetivos de negocio.

En esta fase deberemos ser capaces de:

Evaluar el modelo o modelos generados hasta el momento.
Revisar todo el proceso de minería de datos que nos ha llevado hasta este punto.
Establecer los siguientes pasos a tomar, tanto si se trata de repetir fases anteriores como si se trata de abrir nuevas líneas de investigación.
Siguiendo nuestro ejemplo, para la evaluación del modelo calcularemos una serie de métricas sobre un conjunto de datos (conjunto de test) que el modelo no conoce. Métricas habituales son la precisión (accuracy), sensibilidad y F-score:

## 6. Despliegue.

El objetivo último de esta fase es realizar el despliegue de los resultados obtenidos de forma que sea propagado a los usuarios finales así como el mantenimiento del mismo una vez el despliegue haya finalizado.

En esta fase deberemos ser capaces de:

Diseñar un plan de despliegue de modelos y conocimiento sobre nuestra organización.
Realizar seguimiento y mantenimiento de la parte más operativa del despliegue.
Revisar el proyecto en su globalidad con el objetivo de identiﬁcar lecciones aprendidas.
Siguiendo con nuestro ejemplo el despliegue de la solución implicaría tareas como:

Implantación de un sistema de captura digital de la imagen de anatomía patológica.
Implantación de software de clasificación automática de tejidos de cáncer de mama.
Integración con el software del laboratorio de anatomía patológica.
Implantación de nuevos procedimientos operativos del laboratorio de anatomía patológica.
Monitorización del funcionamiento del nuevo sistema y grado de adherencia de los usuarios al mismo.
Medición del grado de precisión diagnóstica y la eficiencia del laboratorio tras la puesta en marcha del sistema.