# ¿Cómo se relacionan el volumen de negociación y la volatilidad en las acciones de energía?

## Objetivos

Al final de este caso, habremos introducido la biblioteca pandas dentro de Python. También habrás adquirido experiencia con la biblioteca numpy, sabrás cómo leer archivos de datos y realizar estadísticas descriptivas.

También deberías comenzar a desarrollar una mentalidad adecuada para investigar la biblioteca por tu cuenta, a través de la documentación u otros recursos como StackOverflow. La investigación autodidacta de la documentación existente es una parte crucial del desarrollo como profesional de datos.

## Intro

**Contexto Empresarial.** Eres un analista en un gran banco enfocado en inversiones en acciones de recursos naturales. Los recursos naturales son vitales para una variedad de industrias en nuestra economía. Recientemente, tu división ha mostrado interés en las siguientes acciones:

1. Dominion Energy Inc.
2. Exelon Corp.
3. NextEra Energy Inc.
4. Southern Co.
5. Duke Energy Corp.

Estas acciones son todas parte del sector energético, un sector importante pero volátil del mercado bursátil. Aunque la alta volatilidad aumenta la posibilidad de grandes ganancias, también hace más probable que se produzcan grandes pérdidas, por lo que el riesgo debe ser gestionado cuidadosamente en acciones de alta volatilidad.

Debido a que tu empresa es bastante grande, debe haber suficiente volumen de negociación (cantidad promedio de acciones transaccionadas por día) para que se pueda negociar fácilmente en estas acciones. De lo contrario, este efecto, sumado a la alta volatilidad natural de las acciones, podría hacer que estas sean demasiado arriesgadas para que el banco invierta en ellas.

**Problema Empresarial**. Dado que tanto el bajo volumen de negociación como la alta volatilidad presentan riesgos para tus inversiones, tu líder de equipo te pide que investigues lo siguiente: "¿Cómo está relacionada la volatilidad de las acciones energéticas con su volumen promedio de negociación diaria?"

**Contexto Analítico**. Los datos que te han proporcionado están en formato Comma Separated Value (CSV) y comprenden datos de precios y volúmenes de negociación para las acciones mencionadas. Este caso comienza con una breve descripción de estos datos, tras lo cual: (1) aprenderás a usar la biblioteca de Python pandas para cargar los datos; (2) usarás pandas para transformar estos datos en una forma adecuada para el análisis; y finalmente (3) usarás pandas para analizar la pregunta anterior y llegar a una conclusión. Como puedes haber adivinado, pandas es una biblioteca enormemente útil para el análisis y la manipulación de datos.

## Importación de paquetes para ayudar en el análisis de datos

[Las bibliotecas externas (también conocidas como paquetes)](https://www.learnpython.org/en/Modules_and_Packages) son bases de código que contienen una variedad de funciones y herramientas preescritas. Esto te permite realizar una variedad de tareas complejas en Python sin tener que "reinventar la rueda" o construir todo desde cero. Utilizaremos dos paquetes principales: ```pandas``` y ```numpy```.

```pandas``` es una biblioteca externa que proporciona funcionalidad para el análisis de datos. Pandas ofrece específicamente una variedad de estructuras de datos y métodos de manipulación de datos que te permiten realizar tareas complejas con comandos simples de una sola línea.

```numpy``` es un paquete que usaremos más adelante en el caso, y que ofrece numerosas operaciones matemáticas. Juntos, [pandas](https://pandas.pydata.org/pandas-docs/stable/whatsnew/v1.0.0.html) y [numpy](https://numpy.org/) te permiten crear un flujo de trabajo de ciencia de datos dentro de Python. `numpy` es, en muchos sentidos, fundamental para `pandas`, ya que proporciona operaciones vectorizadas, mientras que `pandas` ofrece abstracciones de nivel superior construidas sobre `numpy`.

Vamos a importar ambos paquetes utilizando la palabra clave ```import```. Renombraremos ```pandas``` a ```pd``` y ```numpy``` a ```np``` utilizando la palabra clave ```as```. Esto nos permite usar la abreviatura cuando queramos referirnos a cualquier función que esté dentro de alguno de los paquetes. Las abreviaturas que elegimos son estándar en la industria de la ciencia de datos y deben seguirse a menos que haya una muy buena razón para no hacerlo.

In [3]:
# Import the Pandas package
import pandas as pd

# Import the NumPy package
import numpy as np

`pandas` es una biblioteca de Python que facilita una amplia gama de análisis y manipulación de datos. Anteriormente, viste estructuras de datos básicas en Python, como listas y diccionarios. Aunque puedes construir una tabla de datos básica (similar a una hoja de cálculo de Excel) usando listas anidadas en Python, estas se vuelven bastante difíciles de manejar. En cambio, en `pandas`, la estructura de tabla, conocida como `DataFrame`, es una entidad de primera clase, y puedes manipular fácilmente tus datos pensando en filas y columnas.

Si alguna vez has usado o escuchado hablar de R o SQL, `pandas` trae algunas funcionalidades de cada uno de estos a Python, permitiéndote estructurar y filtrar datos de manera más eficiente que con Python puro. Esta eficiencia se manifiesta de dos formas distintas:

* Los scripts escritos usando `pandas` suelen ejecutarse más rápido que los scripts escritos en Python puro.
* Los scripts escritos usando `pandas` suelen contener muchas menos líneas de código que el script equivalente escrito en Python puro.

En el núcleo de la biblioteca ```pandas``` hay dos estructuras/objetos de datos fundamentales:
1. [Series](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html)
2. [DataFrame](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html)

Un objeto ```Series``` almacena datos de una sola columna junto con un **índice**. Un índice es simplemente una forma de "numerar" el objeto ```Series```. Por ejemplo, en este caso de estudio, los índices serán fechas, mientras que los datos de una sola columna pueden ser precios de acciones o volúmenes de negociación diaria.

Un objeto ```DataFrame``` es una estructura de datos tabular bidimensional con ejes etiquetados. Es conceptualmente útil pensar en un objeto DataFrame como una colección de objetos Series. Es decir, piensa en cada columna de un DataFrame como un solo objeto Series, donde cada uno de estos objetos Series comparte un índice común: el índice del objeto DataFrame.

A continuación, se muestra la sintaxis para crear un objeto Series, seguida de la sintaxis para crear un objeto DataFrame. Ten en cuenta que los objetos DataFrame también pueden tener una sola columna; piensa en esto como un DataFrame que consiste en un único objeto Series:

In [2]:
serie1 = pd.Series(data = [32, 28, 26],
                   index = [1,0,5,8],
                   name = 'Temp')
serie1

ValueError: Length of values (3) does not match length of index (4)

In [3]:
# Create a simple Series object
simple_series = pd.Series(index=[0, 1, 2, 3],
                          name="Volume", 
                          data=[1000, 2600, 1524, 98000]
                         )
simple_series

0     1000
1     2600
2     1524
3    98000
Name: Volume, dtype: int64

In [4]:
df = pd.DataFrame(data = [23, 17, 26],
                  columns= ['edades'],
                  index= [5, 2, 7])
df

Unnamed: 0,edades
5,23
2,17
7,26


In [5]:
diccionario = {'Nombre': ['Mauricio', 'Paulina', 'Santiago'],
               'Edad': [22, 21, 23]
              }

df1 = pd.DataFrame(data = diccionario)
df1

Unnamed: 0,Nombre,Edad
0,Mauricio,22
1,Paulina,21
2,Santiago,23


In [6]:
# Create a simple DataFrame object
simple_df = pd.DataFrame(index=[0, 1, 2, 3],
                         columns=["Volume"],
                         data=[1000, 2600, 1524, 98000]
                        )
simple_df

Unnamed: 0,Volume
0,1000
1,2600
2,1524
3,98000


Los objetos DataFrame son más generales que los objetos Series, y un DataFrame puede contener muchos objetos Series, cada uno como una columna diferente. Vamos a crear un objeto DataFrame con dos columnas:

In [7]:
# Create another DataFrame object
another_df = pd.DataFrame(index=[0, 1, 2, 3],
                          columns=["Date", "Volume"],
                          data=[[20190101, 1000],
                                [20190102, 2600],
                                [20190103, 1524],
                                [20190104, 98000]],
)
another_df

Unnamed: 0,Date,Volume
0,20190101,1000
1,20190102,2600
2,20190103,1524
3,20190104,98000


Observa cómo se utilizó una lista de listas para especificar los datos en el DataFrame another_df. Cada elemento de la lista corresponde a una fila en el DataFrame, por lo que la lista tiene 4 elementos debido a los 4 índices. Cada elemento de la lista de listas tiene 2 elementos porque el DataFrame tiene dos columnas.

##  <code>pandas</code> para analizar los datos

Recuerda que tenemos archivos CSV que incluyen datos para cada una de las siguientes acciones:

1. Dominion Energy Inc. (Símbolo de acción: D)
2. Exelon Corp. (Símbolo de acción: EXC)
3. NextEra Energy Inc. (Símbolo de acción: NEE)
4. Southern Co. (Símbolo de acción: SO)
5. Duke Energy Corp. (Símbolo de acción: DUK)

Los datos disponibles para cada acción incluyen:

1. **Fecha:** El día del año
2. **Apertura:** El precio de apertura de la acción del día
3. **Máximo:** El precio máximo observado de la acción del día
4. **Mínimo:** El precio mínimo observado de la acción del día
5. **Cierre:** El precio de cierre de la acción del día
6. **Cierre Ajustado:** El precio de cierre ajustado de la acción del día (ajustado por divisiones y dividendos)
7. **Volumen:** El volumen de la acción negociado durante el día

Para obtener una mejor comprensión de los datos disponibles, primero echemos un vistazo solo a los datos de Dominion Energy, que cotiza en la Bolsa de Valores de Nueva York bajo el símbolo D. Se te proporciona un archivo CSV que contiene los datos de la acción de la empresa, `D`. La biblioteca `pandas` permite la carga fácil de archivos CSV mediante el uso del método [pd.read_csv()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html):

In [8]:
cd C:\Users\pierr\Documents\Prog2


C:\Users\pierr\Documents\Prog2


In [9]:
# Load a file as a DataFrame and assign to df
df = pd.read_csv("data/D.csv")

In [10]:
df

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,2014-07-28,69.750000,71.059998,69.750000,70.879997,57.963978,1806400
1,2014-07-29,70.669998,70.980003,69.930000,69.930000,57.187099,2231100
2,2014-07-30,70.000000,70.660004,68.400002,68.970001,56.402020,2588900
3,2014-07-31,68.629997,68.849998,67.580002,67.639999,55.314388,3266900
4,2014-08-01,67.330002,68.410004,67.220001,67.589996,55.273487,2601800
...,...,...,...,...,...,...,...
1254,2019-07-22,76.879997,76.930000,75.779999,76.260002,76.260002,2956500
1255,2019-07-23,76.099998,76.199997,75.269997,75.430000,75.430000,3175600
1256,2019-07-24,75.660004,75.720001,74.889999,75.180000,75.180000,3101900
1257,2019-07-25,75.150002,75.430000,74.610001,74.860001,74.860001,3417200


In [11]:
# exploremos df
# head
# tail
# shape
# columns
# index


In [12]:
# Add a new column named "Symbol"
df['Symbol'] = 'D'
df.head()

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume,Symbol
0,2014-07-28,69.75,71.059998,69.75,70.879997,57.963978,1806400,D
1,2014-07-29,70.669998,70.980003,69.93,69.93,57.187099,2231100,D
2,2014-07-30,70.0,70.660004,68.400002,68.970001,56.40202,2588900,D
3,2014-07-31,68.629997,68.849998,67.580002,67.639999,55.314388,3266900,D
4,2014-08-01,67.330002,68.410004,67.220001,67.589996,55.273487,2601800,D


In [13]:
# Add a new column named "Volume_Millions", which is calculated from the Volume column currently in df
# divide every row in df['Volume'] by 1 million, store in new column
df["Volume_Millions"] = df["Volume"] / 1000000.0
df.head()

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume,Symbol,Volume_Millions
0,2014-07-28,69.75,71.059998,69.75,70.879997,57.963978,1806400,D,1.8064
1,2014-07-29,70.669998,70.980003,69.93,69.93,57.187099,2231100,D,2.2311
2,2014-07-30,70.0,70.660004,68.400002,68.970001,56.40202,2588900,D,2.5889
3,2014-07-31,68.629997,68.849998,67.580002,67.639999,55.314388,3266900,D,3.2669
4,2014-08-01,67.330002,68.410004,67.220001,67.589996,55.273487,2601800,D,2.6018


Como se discutió, necesitamos tener una característica en nuestro DataFrame relacionada con la volatilidad. Dado que esta actualmente no existe, debemos crearla a partir de las características ya disponibles. Recuerda que la volatilidad es la desviación estándar de los rendimientos diarios durante un período de tiempo, así que vamos a crear una característica para los rendimientos diarios:

In [14]:
df["VolStat"] = (df["High"] - df["Low"]) / df["Open"]
df["Return"] = (df["Close"] / df["Open"]) - 1.0
df.head()

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume,Symbol,Volume_Millions,VolStat,Return
0,2014-07-28,69.75,71.059998,69.75,70.879997,57.963978,1806400,D,1.8064,0.018781,0.016201
1,2014-07-29,70.669998,70.980003,69.93,69.93,57.187099,2231100,D,2.2311,0.014858,-0.010471
2,2014-07-30,70.0,70.660004,68.400002,68.970001,56.40202,2588900,D,2.5889,0.032286,-0.014714
3,2014-07-31,68.629997,68.849998,67.580002,67.639999,55.314388,3266900,D,3.2669,0.018505,-0.014425
4,2014-08-01,67.330002,68.410004,67.220001,67.589996,55.273487,2601800,D,2.6018,0.017674,0.003861


Ahora tenemos características relevantes para la pregunta original y podemos proceder al paso de análisis. Un primer paso común en el análisis de datos es conocer la distribución de los datos disponibles. Haremos esto a continuación.

Vamos a agregar estadísticas resumen para las cinco empresas del sector energético en estudio. Afortunadamente, los objetos DataFrame y Series ofrecen una variedad de métodos para estadísticas resumen de datos:

1. ```min()```
2. ```median()```
3. ```mean()```
4. ```max()```
5. ```quantile()```

A continuación, cada método se aplica a la columna ```Volume_Millions```. Observa lo sencillo que es aplicar las funciones al DataFrame. Simplemente escribe el nombre del DataFrame, seguido de un ```.``` y luego el nombre del método que deseas calcular. Hemos optado por seleccionar una sola columna ```Volume_Millions``` del DataFrame ```df```, pero también podrías haber llamado a estos métodos en el DataFrame completo en lugar de en una sola columna.

In [15]:
# Calculate the minimum of the Volume_Millions column
df["Volume_Millions"].min()

0.7384

In [16]:
# encuentre los demás estadísticos


In [17]:
# describe


Además de `describe`, existe un método [value_counts()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.value_counts.html) para verificar la frecuencia de los elementos en datos categóricos. Ten en cuenta que `value_counts()` es un método de la clase Series y NO de la clase DataFrame. Esto significa que debes aislar una columna específica de un DataFrame antes de llamar a `value_counts()`:

In [18]:
dict_data = {
    "numbers": [1, 2, 3, 4, 5, 6, 7, 8],
    "color": ["red", "red", "red", "blue", "blue", "green", "blue", "green"],
}
category_df = pd.DataFrame(data=dict_data)

category_df

Unnamed: 0,numbers,color
0,1,red
1,2,red
2,3,red
3,4,blue
4,5,blue
5,6,green
6,7,blue
7,8,green


In [19]:
# Qué ocurre?

category_df.value_counts()

numbers  color
1        red      1
2        red      1
3        red      1
4        blue     1
5        blue     1
6        green    1
7        blue     1
8        green    1
Name: count, dtype: int64

In [20]:
category_df['color'].value_counts()

color
red      3
blue     3
green    2
Name: count, dtype: int64

### Ejercicio 1:

Determina el percentil 25, 50 y 75 para las columnas ```Open```, ```High```, ```Low```, y ```Close``` de ```df```.

In [21]:
var_interest = ["Open","High","Low","Close"]
companies = ["D", "EXC", "NEE", "SO", "DUK"]
for c in companies:
    df = pd.read_csv("data/" + c + ".csv")
    for v in var_interest:
        print(f'la empresa es {c} y la variable es {v}  y el mínimo es {df[v].min()}')

        

la empresa es D y la variable es Open  y el mínimo es 61.790001
la empresa es D y la variable es High  y el mínimo es 62.84
la empresa es D y la variable es Low  y el mínimo es 61.529999
la empresa es D y la variable es Close  y el mínimo es 61.75
la empresa es EXC y la variable es Open  y el mínimo es 25.5
la empresa es EXC y la variable es High  y el mínimo es 26.01
la empresa es EXC y la variable es Low  y el mínimo es 25.09
la empresa es EXC y la variable es Close  y el mínimo es 25.459999
la empresa es NEE y la variable es Open  y el mínimo es 90.800003
la empresa es NEE y la variable es High  y el mínimo es 93.019997
la empresa es NEE y la variable es Low  y el mínimo es 90.330002
la empresa es NEE y la variable es Close  y el mínimo es 91.82
la empresa es SO y la variable es Open  y el mínimo es 41.599998
la empresa es SO y la variable es High  y el mínimo es 41.900002
la empresa es SO y la variable es Low  y el mínimo es 41.400002
la empresa es SO y la variable es Close  y el m

Hasta ahora, solo hemos estado analizando datos de una de nuestras cinco empresas. Vamos a combinar los cinco archivos CSV para analizar las cinco empresas juntas. Esto también reducirá la cantidad de trabajo de programación requerido, ya que el código se compartirá entre las cinco empresas.

Una forma de llevar a cabo esta tarea de agregación es utilizar el método [pd.concat()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.concat.html) de ```pandas```. Una entrada para este método puede ser una lista de DataFrames que te gustaría concatenar. Utilizaremos un bucle `for` para iterar sobre cada símbolo de acción, cargar el archivo CSV correspondiente y luego agregar el resultado a una lista que se agregará posteriormente usando ```pd.concat()```. Veamos cómo se hace esto.

In [22]:
# Load five  files into one dataframe
print("Defining stock symbols")
symbol_data_to_load = ["D", "EXC", "NEE", "SO", "DUK"]
list_of_df = []

# Loop over all symbols
print(" --- Start loop over symbols --- ")
for symbol in symbol_data_to_load:
    print("Processing Symbol: " + symbol)
    temp_df = pd.read_csv("data/" + symbol + ".csv")
    temp_df["Volume_Millions"] = temp_df["Volume"] / 1000000.0

    # Add new column with symbol name to distinguish in final dataframe
    temp_df["Symbol"] = symbol
    list_of_df.append(temp_df)

# used a line break at the end of this string for aesthetics
print(" --- Complete loop over symbols --- \n")

# Combine into a single DataFrame by using concat
print("Aggregating Data")
agg_df = pd.concat(list_of_df, axis=0)

# Add salient statistics for this return and volatility analysis
print("Calculating Salient Features")
agg_df["VolStat"] = (agg_df["High"] - agg_df["Low"]) / agg_df["Open"]
agg_df["Return"] = (agg_df["Close"] / agg_df["Open"]) - 1.0

print("agg_df DataFrame shape (rows, columns): ")
print(agg_df.shape)

print("Head of agg_df DataFrame: ")
agg_df.head()

Defining stock symbols
 --- Start loop over symbols --- 
Processing Symbol: D
Processing Symbol: EXC
Processing Symbol: NEE
Processing Symbol: SO
Processing Symbol: DUK
 --- Complete loop over symbols --- 

Aggregating Data
Calculating Salient Features
agg_df DataFrame shape (rows, columns): 
(6295, 11)
Head of agg_df DataFrame: 


Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume,Volume_Millions,Symbol,VolStat,Return
0,2014-07-28,69.75,71.059998,69.75,70.879997,57.963978,1806400,1.8064,D,0.018781,0.016201
1,2014-07-29,70.669998,70.980003,69.93,69.93,57.187099,2231100,2.2311,D,0.014858,-0.010471
2,2014-07-30,70.0,70.660004,68.400002,68.970001,56.40202,2588900,2.5889,D,0.032286,-0.014714
3,2014-07-31,68.629997,68.849998,67.580002,67.639999,55.314388,3266900,3.2669,D,0.018505,-0.014425
4,2014-08-01,67.330002,68.410004,67.220001,67.589996,55.273487,2601800,2.6018,D,0.017674,0.003861


In [23]:
# sample
agg_df.sample(7)

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume,Volume_Millions,Symbol,VolStat,Return
740,2017-07-05,139.580002,139.789993,138.25,138.820007,131.71312,1926400,1.9264,NEE,0.011033,-0.005445
1149,2019-02-20,87.949997,89.059998,87.540001,88.849998,87.900482,3471200,3.4712,DUK,0.017283,0.010233
1128,2019-01-18,46.099998,46.389999,45.900002,46.080002,45.400173,4821400,4.8214,EXC,0.010629,-0.000434
805,2017-10-05,49.139999,49.470001,48.939999,49.360001,45.224667,4040700,4.0407,SO,0.010786,0.004477
537,2016-09-13,33.490002,33.560001,32.860001,33.049999,29.766363,5951600,5.9516,EXC,0.020902,-0.013138
1188,2019-04-16,76.480003,76.989998,75.029999,75.120003,74.231453,3079300,3.0793,D,0.025628,-0.017782
747,2017-07-14,83.849998,84.129997,83.68,83.839996,76.843262,1377300,1.3773,DUK,0.005367,-0.000119


Después del bucle `for`, hemos agregado y añadido las características relevantes que identificamos en la sección anterior. Luego imprimimos la parte superior del DataFrame agregado para echar un vistazo al formato de los datos y también imprimimos la forma del DataFrame. Esto es para verificar que nuestro DataFrame final es aproximadamente lo que esperábamos. Observa que el DataFrame agregado tiene el mismo número de columnas que los datos originales de una sola acción (D), sin embargo, el número de filas ha aumentado cinco veces. Esto tiene sentido, porque cada símbolo adicional contiene 1259 entradas de datos, por lo que cinco símbolos conducen a un total de ```1259*5 = 6295``` filas. Así que, esto pasa nuestra verificación de coherencia.

Si se desea revertir este proceso para extraer los datos relevantes para un solo símbolo desde el DataFrame agregado `agg_df` se usa el operador de igualdad `==` que devuelve True cuando los objetos comparados tienen el mismo valor, y False en caso contrario.

In [24]:
agg_df[ agg_df['Symbol'] == 'D' ]

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume,Volume_Millions,Symbol,VolStat,Return
0,2014-07-28,69.750000,71.059998,69.750000,70.879997,57.963978,1806400,1.8064,D,0.018781,0.016201
1,2014-07-29,70.669998,70.980003,69.930000,69.930000,57.187099,2231100,2.2311,D,0.014858,-0.010471
2,2014-07-30,70.000000,70.660004,68.400002,68.970001,56.402020,2588900,2.5889,D,0.032286,-0.014714
3,2014-07-31,68.629997,68.849998,67.580002,67.639999,55.314388,3266900,3.2669,D,0.018505,-0.014425
4,2014-08-01,67.330002,68.410004,67.220001,67.589996,55.273487,2601800,2.6018,D,0.017674,0.003861
...,...,...,...,...,...,...,...,...,...,...,...
1254,2019-07-22,76.879997,76.930000,75.779999,76.260002,76.260002,2956500,2.9565,D,0.014958,-0.008064
1255,2019-07-23,76.099998,76.199997,75.269997,75.430000,75.430000,3175600,3.1756,D,0.012221,-0.008804
1256,2019-07-24,75.660004,75.720001,74.889999,75.180000,75.180000,3101900,3.1019,D,0.010970,-0.006344
1257,2019-07-25,75.150002,75.430000,74.610001,74.860001,74.860001,3417200,3.4172,D,0.010911,-0.003859


In [25]:
# Ejemplo
symbol_DUK_df = agg_df[agg_df["Symbol"] == "DUK"] # Se filtra el dataframe
symbol_DUK_df.head()

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume,Volume_Millions,Symbol,VolStat,Return
0,2014-07-28,73.309998,74.480003,73.230003,74.389999,59.266285,3281100,3.2811,DUK,0.017051,0.014732
1,2014-07-29,74.400002,74.480003,73.760002,73.980003,58.939648,2236300,2.2363,DUK,0.009677,-0.005645
2,2014-07-30,74.029999,74.199997,72.580002,73.050003,58.198696,2782200,2.7822,DUK,0.021883,-0.013238
3,2014-07-31,72.610001,73.099998,72.059998,72.129997,57.46574,3249000,3.249,DUK,0.014323,-0.006611
4,2014-08-01,72.239998,73.370003,72.150002,72.940002,58.111061,3960200,3.9602,DUK,0.016888,0.00969


In [None]:
# Explore cada parte de la instrucción anterior




**Ejercicio 2** 

Escribe un código para crear un bucle `for` que recorra cada uno de los cinco símbolos, extraiga solo las filas correspondientes a cada símbolo, y calcule e imprima el valor promedio de ```VolStat``` para cada uno de los cinco símbolos.

In [26]:
# Load five  files into one dataframe
print("Defining stock symbols")
symbol_data_to_load = ["D", "EXC", "NEE", "SO", "DUK"]
list_of_df = []

# Loop over all symbols
print(" --- Start loop over symbols --- ")
for symbol in symbol_data_to_load:
    print("Processing Symbol: " + symbol)
    temp_df = pd.read_csv("data/" + symbol + ".csv")
    temp_df["Volume_Millions"] = temp_df["Volume"] / 1000000.0

    # Add new column with symbol name to distinguish in final dataframe
    temp_df["Symbol"] = symbol
    list_of_df.append(temp_df)

# used a line break at the end of this string for aesthetics
print(" --- Complete loop over symbols --- \n")

# Combine into a single DataFrame by using concat
print("Aggregating Data")
agg_df = pd.concat(list_of_df, axis=0)

# Add salient statistics for this return and volatility analysis
print("Calculating Salient Features")
agg_df["VolStat"] = (agg_df["High"] - agg_df["Low"]) / agg_df["Open"]
agg_df["Return"] = (agg_df["Close"] / agg_df["Open"]) - 1.0

print("agg_df DataFrame shape (rows, columns): ")
print(agg_df.shape)

print("Head of agg_df DataFrame: ")
agg_df.head()

for symbol in symbol_data_to_load:
    VoltStat_symbol = agg_df[agg_df["Symbol"] == symbol]["VolStat"]
    VoltStat_Mean = VoltStat_symbol.mean()
    print("the mean VoltStat for ",symbol," is:",VoltStat_Mean)

Defining stock symbols
 --- Start loop over symbols --- 
Processing Symbol: D
Processing Symbol: EXC
Processing Symbol: NEE
Processing Symbol: SO
Processing Symbol: DUK
 --- Complete loop over symbols --- 

Aggregating Data
Calculating Salient Features
agg_df DataFrame shape (rows, columns): 
(6295, 11)
Head of agg_df DataFrame: 
the mean VoltStat for  D  is: 0.014835992194363283
the mean VoltStat for  EXC  is: 0.01772171389355644
the mean VoltStat for  NEE  is: 0.014881084105602231
the mean VoltStat for  SO  is: 0.014064780560964827
the mean VoltStat for  DUK  is: 0.014534013252371452


In [27]:
for symbol in symbol_data_to_load:
    VoltStat_Mean = agg_df[agg_df["Symbol"] 
                             == symbol]["VolStat"].mean()
    print("the mean VoltStat for ",symbol," is:",VoltStat_Mean)

the mean VoltStat for  D  is: 0.014835992194363283
the mean VoltStat for  EXC  is: 0.01772171389355644
the mean VoltStat for  NEE  is: 0.014881084105602231
the mean VoltStat for  SO  is: 0.014064780560964827
the mean VoltStat for  DUK  is: 0.014534013252371452


## Análisis de los niveles de volatilidad

```pandas``` ofrece la capacidad de agrupar filas relacionadas de DataFrames según los valores de otras filas. Esto se logra con el método [groupby()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html). Veamos cómo se puede usar para agrupar filas de manera que cada grupo corresponda a un solo símbolo de acción:

In [28]:
# Use the groupby() method, notice a DataFrameGroupBy object is returned
agg_df.groupby('Symbol')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000015AC35EB0A0>

Aquí, el objeto ```DataFrameGroupBy``` se puede pensar más fácilmente como un objeto DataFrame para cada grupo (en este caso, un objeto DataFrame para cada símbolo). Específicamente, cada elemento del objeto es una tupla que contiene el identificador del grupo (en este caso, el símbolo) y las filas correspondientes del DataFrame que tienen ese símbolo.

Afortunadamente, ```pandas``` te permite iterar sobre el objeto `groupby()` para ver lo que contiene:

In [29]:
grp_obj = agg_df.groupby("Symbol")  # Group data in agg_df by Symbol

# Loop through groups
for item in grp_obj:
    print(" ------ Loop Begins ------ ")
    print(type(item))  # Showing type of the item in grp_obj
    print(item[0])  # Symbol
    print(item[1].head())  # DataFrame with data for the Symbol
    print(" ------ Loop Ends ------ ")

 ------ Loop Begins ------ 
<class 'tuple'>
D
         Date       Open       High        Low      Close  Adj Close   Volume  \
0  2014-07-28  69.750000  71.059998  69.750000  70.879997  57.963978  1806400   
1  2014-07-29  70.669998  70.980003  69.930000  69.930000  57.187099  2231100   
2  2014-07-30  70.000000  70.660004  68.400002  68.970001  56.402020  2588900   
3  2014-07-31  68.629997  68.849998  67.580002  67.639999  55.314388  3266900   
4  2014-08-01  67.330002  68.410004  67.220001  67.589996  55.273487  2601800   

   Volume_Millions Symbol   VolStat    Return  
0           1.8064      D  0.018781  0.016201  
1           2.2311      D  0.014858 -0.010471  
2           2.5889      D  0.032286 -0.014714  
3           3.2669      D  0.018505 -0.014425  
4           2.6018      D  0.017674  0.003861  
 ------ Loop Ends ------ 
 ------ Loop Begins ------ 
<class 'tuple'>
DUK
         Date       Open       High        Low      Close  Adj Close   Volume  \
0  2014-07-28  73.309998

Combinemos el método ```pd.groupby()``` con el método ```describe()``` y apliquémoslo a cada símbolo para analizar la distribución de las características relacionadas con la volatilidad para cada símbolo.

In [30]:
grp_obj = agg_df.groupby("Symbol")  # Group data in agg_df by Symbol

# Loop through groups
for item in grp_obj:
    print("------Symbol: ", item[0])
    grp_df = item[1]
    relevant_df = grp_df[["VolStat"]]
    print(relevant_df.describe())

------Symbol:  D
           VolStat
count  1259.000000
mean      0.014836
std       0.006548
min       0.003640
25%       0.010246
50%       0.013528
75%       0.017920
max       0.062350
------Symbol:  DUK
           VolStat
count  1259.000000
mean      0.014534
std       0.007047
min       0.003548
25%       0.010075
50%       0.012922
75%       0.017653
max       0.117492
------Symbol:  EXC
           VolStat
count  1259.000000
mean      0.017722
std       0.008129
min       0.005230
25%       0.011868
50%       0.015931
75%       0.021752
max       0.093156
------Symbol:  NEE
           VolStat
count  1259.000000
mean      0.014881
std       0.006544
min       0.004454
25%       0.010309
50%       0.013439
75%       0.017700
max       0.048495
------Symbol:  SO
           VolStat
count  1259.000000
mean      0.014065
std       0.006109
min       0.003960
25%       0.009786
50%       0.012858
75%       0.016865
max       0.051847


El nivel de volatilidad en un día determinado puede variar ampliamente. Esto es evidente por la gran diferencia entre los niveles mínimos y máximos de ```VolStat``` observados usando el método ```describe()```. Por ejemplo, el símbolo de acción D tiene un valor mínimo de ```VolStat``` de 0.003640, mientras que su valor máximo de ```VolStat``` es 0.062350. ¡Eso es más de un aumento de 10 veces en el valor de ```VolStat```!

Aunque esto es genial de ver, hay una manera más poderosa de mostrar estos datos en `pandas`. Podemos llamar al método ```describe()``` directamente sobre el objeto ```DataFrameGroupBy```. Esta sola línea te permite evitar tener que escribir un bucle `for` cada vez que desees resumir datos:

In [31]:
agg_df[["Symbol",
        "VolStat",
        'Volume_Millions']].groupby("Symbol").describe()

Unnamed: 0_level_0,VolStat,VolStat,VolStat,VolStat,VolStat,VolStat,VolStat,VolStat,Volume_Millions,Volume_Millions,Volume_Millions,Volume_Millions,Volume_Millions,Volume_Millions,Volume_Millions,Volume_Millions
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,std,min,25%,50%,75%,max
Symbol,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2
D,1259.0,0.014836,0.006548,0.00364,0.010246,0.013528,0.01792,0.06235,1259.0,3.088129,1.548809,0.7384,2.0888,2.6957,3.61285,14.5874
DUK,1259.0,0.014534,0.007047,0.003548,0.010075,0.012922,0.017653,0.117492,1259.0,3.293312,1.20871,0.9363,2.46175,3.0616,3.87225,15.5662
EXC,1259.0,0.017722,0.008129,0.00523,0.011868,0.015931,0.021752,0.093156,1259.0,6.061571,2.464832,1.4326,4.4325,5.5274,7.1096,26.4656
NEE,1259.0,0.014881,0.006544,0.004454,0.010309,0.013439,0.0177,0.048495,1259.0,2.034481,0.830692,0.5528,1.49315,1.8486,2.34485,7.93
SO,1259.0,0.014065,0.006109,0.00396,0.009786,0.012858,0.016865,0.051847,1259.0,5.283546,2.0611,1.1558,3.94525,4.853,6.0674,23.1701


¿Qué interpreta?

La pregunta motivadora es:
"¿Cómo está relacionada la volatilidad de las acciones energéticas con su volumen promedio de negociación diaria?".


## Tarea

Se tiene información de la volatilidad y falta encontrar la información asociada al volumen promedio de  negociación daria.

¿Cómo propone hacerlo?

In [None]:
# Escriba su código



**Análisis**

Realice un análisis sobre la información obtenida y decida en qué empresa invertir.