Gráficos de líneas

¿Recuerdas cuando usamos el método plot() sin especificar un argumento para el parámetro kind=? Eso nos dio un gráfico de líneas donde cada punto de datos está conectado de forma secuencial por una línea.

Se veía más o menos así:

In [None]:
import pandas as pd
from matplotlib import pyplot as plt

df = pd.read_csv('/datasets/height_weight.csv')

df.sort_values('height').plot(x='height', y='weight')
plt.show()

![linear-plot-2.png](attachment:linear-plot-2.png)

Sin embargo, un gráfico de líneas no es apropiado para estos datos porque estos gráficos implican una relación entre puntos de datos consecutivos.

En cambio, los gráficos de líneas son excelentes cuando tienes datos que se conectan cronológicamente y cada punto de tiempo de los datos tiene alguna dependencia con el punto anterior. Cosas como datos de temperatura, datos de tráfico y datos del mercado de valores son buenos candidatos para los gráficos de líneas.

En esta lección, vamos a trabajar con datos del mercado de valores de Starbucks (SBUX) desde 2015 hasta 2019. Obtuvimos este conjunto de datos de Yahoo Finanzas y lo modificamos para que contuviera solo un subconjuto de las columnas disponibles.

Vamos a echar un vistazo a los datos:

In [None]:
import pandas as pd

df = pd.read_csv('/datasets/sbux.csv')

print(df.head())
print()
df.info()

"""
         date       open      close    volume
0  2015-01-02  41.064999  40.720001   6886000
1  2015-01-05  40.070000  39.939999  11623800
2  2015-01-06  40.169998  39.615002   7664400
3  2015-01-07  39.875000  40.590000   9732600
4  2015-01-08  41.165001  41.244999  13170600

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1258 entries, 0 to 1257
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   date    1258 non-null   object 
 1   open    1258 non-null   float64
 2   close   1258 non-null   float64
 3   volume  1258 non-null   int64  
dtypes: float64(2), int64(1), object(1)
memory usage: 39.4+ KB"""

Hay cuatro columnas en el conjunto de datos:

- 'date': fecha en la que se registraron los datos.
- 'open': precio de una acción en USD en la apertura del mercado, es decir, el primer precio del día.
- 'close': precio de una acción en USD al cierre del mercado, es decir, el último precio del día.
- 'volume': número total de acciones cotizadas.

Por ejemplo, la primera fila nos dice que el 2 de enero de 2015, el precio de apertura de las acciones de Starbucks fue de $41.06, el precio de cierre fue de $40.72 y ese día se negociaron 6 866 000 acciones. Cada fila representa un día de negociación cuando el mercado estaba abierto, lo que excluye los fines de semana y ciertos días festivos.

Del resultado de info(), también vemos que 'date' tiene un tipo de datos string, las otras columnas son numéricas y no faltan valores. Para nuestros propósitos, está bien representar las fechas como strings, pero más adelante en el sprint, aprenderás sobre tipos de datos especiales para fechas y horarios que te facilitarán extraer información y realizar cálculos con ellos.

Para datos temporales como este, es razonable suponer que el precio de un día tiene alguna relación con el precio del día anterior. Así que avancemos y hagamos un gráfico de líneas para visualizar el precio de apertura de las acciones de Starbucks durante el ciclo de vida del conjunto de datos:

In [None]:
import pandas as pd
from matplotlib import pyplot as plt

df = pd.read_csv('/datasets/sbux.csv')

df.plot(x='date', y='open')
plt.show()

![line-graphic.png](attachment:line-graphic.png)

Todo lo que teníamos que hacer para trazar un gráfico de líneas era llamar a plot() en nuestro DataFrame sin un argumento kind= y especificar qué columnas queremos trazar en los ejes X y Y, tal como ya lo hemos hecho con nuestros otros gráficos. No tienes que especificar el argumento kind= como "line", puesto que ya es un valor predeterminado.

Ahora tenemos una gran representación del precio de apertura histórico de las acciones de Starbucks. Parece que el precio se dispara bastante rápido más adelante en el gráfico. ¿Alrededor de qué fecha ocurrió eso? Es difícil saberlo a partir de este gráfico porque las etiquetas de marca del eje X se superponen entre sí.

Además, para corregir la superposición de etiquetas de marca, ¿qué otras mejoras podríamos hacerle a este gráfico?

Pregunta

¿Qué más harías para que la gráfica anterior sea más profesional y comunicativa? Selecciona todas las opciones que correspondan:

Elige tantas como quieras
Incluye un título de gráfico como "Time vs. money” (Tiempo vs. dinero en Espanol).

Formato de la leyenda.

- Incluye una etiqueta del eje Y.

- Incluye un título de gráfico parecido a “Starbucks market open” ("Apertura del mercado de Starbucks" en Espanol).

- Elimina la leyenda.

Especifica las unidades del eje Y como “Money” ("Dinero" en Espanol).

- Especifica las unidades del eje Y como "USD" (dólares de los Estados Unidos).

Ahora, vamos a usar nuestras habilidades para mejorar esta gráfica como corresponde.

In [None]:
import pandas as pd
from matplotlib import pyplot as plt

df = pd.read_csv('/datasets/sbux.csv')

df.plot(x='date',
        y='open',
        legend=False,
        title='Starbucks market open',
        xlabel='Date',
        ylabel='Share price / USD',
        rot=45)

plt.show()

![line-graphic-2.png](attachment:line-graphic-2.png)

A estas alturas, todos los parámetros que usamos para este gráfico te deben resultar familiares, a excepción del último: rot=. Este argumento rota las etiquetas de marca del eje X tantos grados como lo establezcas. Lo usamos para que nuestras etiquetas de marca no se superpongan unas a otras, y ahora se presentan en ángulos de 45º del eje X.

¡Ahora es tu turno de crear algunos gráficos de líneas profesionales!

Ejercicio 1

Crea un gráfico de líneas para el volumen comercial del conjunto de datos de acciones de Starbucks. Haz que tu gráfico se adhiera a lo siguiente:

1. Titulado "Historic SBUX volume" ("Volumen histórico de SBUX”) (la distinción entre mayúsculas y minúsculas es importante).
2. Eje X con la leyenda “Date” ("Fecha").
3. Eje Y con la leyenda “Volume” ("Volumen").
4. Leyendas de marca del eje X rotadas 50 grados.
5. El límite del eje Y de 1 millón a 70 millones (puedes usar 1e6 y 7e7 como los límites superior e inferior, respectivamente, para evitar los ceros. 1 000 000 = 1e6, es decir, 1 elevada a la 6a).
6. Sin leyenda.


In [None]:
import pandas as pd
from matplotlib import pyplot as plt

df = pd.read_csv('/datasets/sbux.csv')

df.plot(x= 'date',
        y= 'volume',
        title= 'Historic SBUX volume',
        xlabel = 'Date',
        ylabel = 'Volume',
        rot= 50,
        legend= False,
        ylim = [1e6, 7e7]
       )# escribe tu código aquí

plt.show()

![historic-starbucks.png](attachment:historic-starbucks.png)

Ejercicio 2

Crea un gráfico de líneas que incluya tanto el precio de apertura como el de cierre. Para hacer esto, puedes pasar la lista de nombres de columna, cols, proporcionada en el precódigo como tu argumento para y=. Dado que tendrás dos variables diferentes en el mismo gráfico, asegúrate de incluir una leyenda esta vez. Haz que tu gráfico también cumpla con lo siguiente:

1. Titulado “Historic SBUX price” ("Precio histórico de SBUX") (la distinción entre mayúsculas y minúsculas es importante).
2. Eje X con la leyenda “Date” ("Fecha").
3. Eje Y con la leyenda “Share price / USD” ("Precio de la acción / USD").
4. Leyendas de marca del eje X rotadas 50 grados.

No olvides incluir plt.show().

In [None]:
import pandas as pd
from matplotlib import pyplot as plt

df = pd.read_csv('/datasets/sbux.csv')
cols = ['open', 'close']

df.plot(x='date',
        y=cols,
        title='Historic SBUX price',
        xlabel='Date',
        ylabel='Share price / USD',
        rot=50)# escribe tu código aquí

plt.show()

![historic-starbucks-open-close.png](attachment:historic-starbucks-open-close.png)