![Nuclio logo](https://nuclio.school/wp-content/uploads/2018/12/nucleoDS-newBlack.png)

# Visualización de datos - Ejercicios

A lo largo de este tutorial, utilizará un conjunto de datos del mercado de valores norteamericano de 29 empresas de 2006 a 2017. Se nos pide:

1. Preparar los datasets para crear visualizaciones
2. Graficar la siguiente información:
    - Precio de cierre de AAPL, JPM, GOOGL y AMZN para todo el período de estudio.
    - Precio máximo de AAPL en 2014, 2015, 2016 y 2017.
    - Distribución del volumen de transacciones por empresa para todo el período. Sólo incluir AAPL, JPM, GOOGL y AMZN.
    - Volumen de transacciones anual de AAPL, JPM, GOOGL y AMAZN. En el mismo gráfico debo poder comparar el volumen por año y la proporción de este que corresponde a cada empresa.
    - Relación entre los retornos diarios (`Open` - `Close` / `Open`) de las acciones de GOOGL y AMZN durante todo el período de estudio.
    
    
## Diccionario de datos

El dataset tiene las siguientes columnas:

- **Date:** fecha correspondiente al valor observado
- **Open:** Precio (en USD) al mercado abierto en la fecha especificada
- **High:** precio más alto (en USD) alcanzado durante la fecha correspondiente
- **Low:** precio más bajo (en USD) alcanzado durante la fecha correspondiente
- **Close:** Precio (en USD) al cierre del mercado en la fecha especificada
- **Volumen:** número de acciones negociadas
- **Name:** Símbolo bursátil de la empresa.


## Importar librerías y leer datos

In [29]:
import seaborn as sns
import matplotlib.pyplot as plt
import plotly.express as px
import plotly.io as pio

import pandas as pd

url = "https://raw.githubusercontent.com/szrlee/Stock-Time-Series-Analysis/master/data/all_stocks_2006-01-01_to_2018-01-01.csv"
df = pd.read_csv(url)

## Revisiones generales

In [30]:
df

Unnamed: 0,Date,Open,High,Low,Close,Volume,Name
0,2006-01-03,77.76,79.35,77.24,79.11,3117200,MMM
1,2006-01-04,79.49,79.49,78.25,78.71,2558000,MMM
2,2006-01-05,78.41,78.65,77.56,77.99,2529500,MMM
3,2006-01-06,78.64,78.90,77.64,78.63,2479500,MMM
4,2006-01-09,78.50,79.83,78.46,79.02,1845600,MMM
...,...,...,...,...,...,...,...
93607,2017-12-22,71.42,71.87,71.22,71.58,10979165,AABA
93608,2017-12-26,70.94,71.39,69.63,69.86,8542802,AABA
93609,2017-12-27,69.77,70.49,69.69,70.06,6345124,AABA
93610,2017-12-28,70.12,70.32,69.51,69.82,7556877,AABA


In [31]:
df.Date.isnull().sum()

0

In [32]:
df.Open.isnull().sum()

25

In [33]:
df[df.Open.isnull()]

Unnamed: 0,Date,Open,High,Low,Close,Volume,Name
2913,2017-07-31,,201.66,,201.17,1833625,MMM
5933,2017-07-31,,85.7,,85.23,3079797,AXP
11972,2017-07-31,,,,242.46,5777271,BA
14992,2017-07-31,,,,113.95,4486013,CAT
18012,2017-07-31,,110.0,,109.19,7561205,CVX
24051,2017-07-31,,,45.79,45.84,13622891,KO
25815,2012-08-01,,,,49.14,0,DIS
27071,2017-07-31,,110.14,,109.93,6815349,DIS
30091,2017-07-31,,80.39,,80.04,12820175,XOM
33111,2017-07-31,,25.69,,25.61,30616287,GE


In [34]:
df.drop(df[df.Open.isnull()].index,inplace=True)

In [35]:
df.Close.isnull().sum()

0

In [36]:
df.Low.isnull().sum()

0

In [37]:
df.High.isnull().sum()

0

In [38]:
df.Name.isnull().sum()

0

In [39]:
df.dtypes

Date       object
Open      float64
High      float64
Low       float64
Close     float64
Volume      int64
Name       object
dtype: object

In [40]:
df.Date=pd.to_datetime(df.Date,format='%Y-%m-%d')

In [41]:
df.dtypes

Date      datetime64[ns]
Open             float64
High             float64
Low              float64
Close            float64
Volume             int64
Name              object
dtype: object

In [42]:
df.describe(include='all')





Unnamed: 0,Date,Open,High,Low,Close,Volume,Name
count,93587,93587.0,93587.0,93587.0,93587.0,93587.0,93587
unique,3020,,,,,,31
top,2006-01-03 00:00:00,,,,,,MMM
freq,31,,,,,,3019
first,2006-01-03 00:00:00,,,,,,
last,2017-12-29 00:00:00,,,,,,
mean,,85.62326,86.382961,84.836485,85.634973,20159820.0,
std,,108.151723,108.96262,107.227791,108.130598,34424900.0,
min,,6.75,7.17,0.0,6.66,87083.0,
25%,,33.95,34.29,33.6,33.95,5040876.0,


## Precio de cierre de AAPL, JPM, GOOGL y AMZN para todo el período de estudio

In [43]:
filtro=df.Name.isin(['AAPL','JPM','GOOGL','AMZN'])  
df_close=df.loc[filtro,['Date','Close','Name']]

In [44]:
pio.templates.default='simple_white'
fig=px.line(data_frame=df_close,x='Date',y='Close',color='Name',title='Precio del cierre máximo diario de Apple, JP Morgan, Google y Amazon')
fig.show()

## Precio máximo de AAPL en 2014, 2015, 2016 y 2017

In [45]:
filtro_AAPL=df.Name=='AAPL'
filtro_years=df.Date.dt.year.isin([2014,2015,2016,2017])
df_AAPL=df.loc[filtro_AAPL & filtro_years,['Date','High','Name']].groupby(df.Date.dt.year)['High'].max().reset_index()
df_AAPL

Unnamed: 0,Date,High
0,2014,119.75
1,2015,134.54
2,2016,118.69
3,2017,177.2


In [46]:
fig=px.bar(data_frame=df_AAPL,x='Date',y='High',title='Precio máximo anual de Apple de 2014 a 2017')
fig.show()

## Distribución del volumen total de transacciones por empresa para todo el período. Sólo incluir AAPL, JPM, GOOGL y AMZN

In [47]:
df_volumen=df.loc[filtro,['Date','Volume','Name']].groupby('Name')['Volume'].sum().reset_index()

In [48]:
df_volumen.head()

Unnamed: 0,Name,Volume
0,AAPL,395928831057
1,AMZN,17907839742
2,GOOGL,10721989174
3,JPM,85363207655


In [49]:
pio.templates.default='presentation'
fig=px.pie(data_frame=df_volumen,hole=0.5,values='Volume',names='Name',title='Distribución del volumen total de Apple, Amazon,Google y JP Morgan')
fig.show()


## Volumen de transacciones anual de AAPL, JPM, GOOGL y AMAZN. En el mismo gráfico debo poder comparar el volumen por año y la proporción de este correspondiente a cada empresa.

In [50]:
df_volumen_anual=df.loc[filtro,['Date','Volume','Name']].groupby([df.Date.dt.year,'Name'])['Volume'].sum().reset_index()
df_volumen_anual

Unnamed: 0,Date,Name,Volume
0,2006,AAPL,53982792080
1,2006,AMZN,1792552278
2,2006,GOOGL,2134134420
3,2006,JPM,2710492500
4,2007,AAPL,61849550357
5,2007,AMZN,2454647696
6,2007,GOOGL,1367346735
7,2007,JPM,4755970035
8,2008,AAPL,71532125609
9,2008,AMZN,2520431923


In [51]:
fig=px.bar(data_frame=df_volumen_anual,x='Date',y='Volume',color='Name')
fig.show()

## Relación entre los retornos diarios (`Open` - `Close` / `Open`) de las acciones de GOOGL y AMZN durante todo el período de estudio

In [52]:
filtro_comp=df.Name.isin(['GOOGL','AMZN'])
df_retornos=df.loc[filtro_comp,['Date','Open','Close','Name']]
df_retornos['retornos']=(df_retornos.Open-df_retornos.Close)/df_retornos.Open

In [53]:
df_retornos

Unnamed: 0,Date,Open,Close,Name,retornos
84555,2006-01-03,211.47,217.83,GOOGL,-0.030075
84556,2006-01-04,222.17,222.84,GOOGL,-0.003016
84557,2006-01-05,223.22,225.85,GOOGL,-0.011782
84558,2006-01-06,228.66,233.06,GOOGL,-0.019243
84559,2006-01-09,233.44,233.68,GOOGL,-0.001028
...,...,...,...,...,...
90588,2017-12-22,1172.08,1168.36,AMZN,0.003174
90589,2017-12-26,1168.36,1176.76,AMZN,-0.007190
90590,2017-12-27,1179.91,1182.26,AMZN,-0.001992
90591,2017-12-28,1189.00,1186.10,AMZN,0.002439


In [54]:
fig=px.bar(data_frame=df_retornos,x='Date',y='retornos',color='Name',title='Retornos diarios de las acciones de Google y Apple')
fig.show()