In [19]:
import yfinance as yf
import pandas as pd
import requests
from bs4 import BeautifulSoup
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import matplotlib
import matplotlib.pyplot as plt
import numpy as np


# Para construir el gráfico
def make_graph(stock_data, revenue_data, stock):
    fig = make_subplots(rows=2, cols=1, shared_xaxes=True, subplot_titles=("Historical Share Price", "Historical Revenue"), vertical_spacing = .3)
    fig.add_trace(go.Scatter(x=pd.to_datetime(stock_data.Date, infer_datetime_format=True), y=stock_data.Close.astype("float"), name="Share Price"), row=1, col=1)
    fig.add_trace(go.Scatter(x=pd.to_datetime(revenue_data.Date, infer_datetime_format=True), y=revenue_data.Revenue.astype("float"), name="Revenue"), row=2, col=1)
    fig.update_xaxes(title_text="Date", row=1, col=1)
    fig.update_xaxes(title_text="Date", row=2, col=1)
    fig.update_yaxes(title_text="Price ($US)", row=1, col=1)
    fig.update_yaxes(title_text="Revenue ($US Millions)", row=2, col=1)
    fig.update_layout(showlegend=False,height=900,title=stock,xaxis_rangeslider_visible=True)
    fig.show()
    


Usando el módulo `Ticker` del paquete `yfinance`, podemos crear un objeto que nos permitirá acceder a funciones para extraer datos. Para hacer esto, necesitamos proporcionar el símbolo de cotización para las acciones, aquí las empresas que usamos será Appel, Tesla y GameStop, cuyos símbolos son respectivamente: AAPL, TSLA, GME.

In [2]:
tesla = yf.Ticker("TSLA")

Usando el objeto ticker y el historial de funciones, extrae información de stock y se guarda en un marco de datos llamado tesla_data. Estableciendo el parámetro max como el período al máximo para que obtengamos información sobre la cantidad máxima de tiempo.

In [3]:
tesla_data=tesla.history(period="max")
tesla_data

Unnamed: 0_level_0,Open,High,Low,Close,Volume,Dividends,Stock Splits
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2010-06-29,3.800000,5.000000,3.508000,4.778000,93831500,0,0.0
2010-06-30,5.158000,6.084000,4.660000,4.766000,85935500,0,0.0
2010-07-01,5.000000,5.184000,4.054000,4.392000,41094000,0,0.0
2010-07-02,4.600000,4.620000,3.742000,3.840000,25699000,0,0.0
2010-07-06,4.000000,4.000000,3.166000,3.222000,34334500,0,0.0
...,...,...,...,...,...,...,...
2021-05-10,664.900024,665.049988,627.609985,629.039978,31392400,0,0.0
2021-05-11,599.239990,627.099976,595.599976,617.200012,46503900,0,0.0
2021-05-12,602.489990,620.409973,586.770020,589.890015,33823600,0,0.0
2021-05-13,601.539978,606.460022,559.650024,571.690002,44184900,0,0.0


Restablezca el índice usando la función reset_index (inplace = True) en el marco de datos tesla_data y muestre las primeras cinco filas del marco de datos tesla_data usando la función head. Tome una captura de pantalla de los resultados y el código desde el comienzo de la Pregunta 1 hasta los resultados a continuación.

In [14]:
tesla_data.reset_index(inplace=True)
tesla_data.head(5)

Unnamed: 0,Date,Open,High,Low,Close,Volume,Dividends,Stock Splits
0,2010-06-29,3.8,5.0,3.508,4.778,93831500,0,0.0
1,2010-06-30,5.158,6.084,4.66,4.766,85935500,0,0.0
2,2010-07-01,5.0,5.184,4.054,4.392,41094000,0,0.0
3,2010-07-02,4.6,4.62,3.742,3.84,25699000,0,0.0
4,2010-07-06,4.0,4.0,3.166,3.222,34334500,0,0.0


### Vamos a hacer webscrapping

Utilizamos la biblioteca `request` para descargar la página web https://www.macrotrends.net/stocks/charts/TSLA/tesla/revenue y guardarla en una variable `html_data`.

In [4]:
url="https://www.macrotrends.net/stocks/charts/TSLA/tesla/revenue"
html_data=requests.get(url).text

Analizamos los datos html usando `beautiful_soup`

In [5]:
beautiful_soup = BeautifulSoup(html_data,"html5lib")

Usando la librería beautiful soup, extraemos la tabla escrita en HTML con los datos de Tesla Quarterly Revenue y la guardamos en una matriz de datos llamada tesla_revenue. La matriz de datos debe tener columnas Date y Reveneu. Asegúrese de que la coma y el signo de dólar se eliminen de la columna Reveneu. Usamos la librería Pandas

In [12]:
tables = beautiful_soup.find_all('table')
#len(tables)
for index,table in enumerate(tables):
    if ("Tesla Quarterly Revenue" in str(table)):
        table_index = index
#print(table_index)

tesla_revenue = pd.DataFrame(columns=["Date", "Revenue"])

for row in tables[table_index].tbody.find_all("tr"):
    col = row.find_all("td")
    if (col != []):
        date = col[0].text
        revenue = col[1].text.replace("$", "").replace(",", "")
        tesla_revenue = tesla_revenue.append({"Date":date, "Revenue":revenue}, ignore_index=True)

tesla_revenue.tail()

Unnamed: 0,Date,Revenue
44,2010-03-31,21.0
45,2009-12-31,
46,2009-09-30,46.0
47,2009-06-30,27.0
48,2008-12-31,


Elimine las filas del marco de datos que sean cadenas vacías o Null en la columna Revenue. Imprima el DataFrame tesla_revenue completo para ver si tiene alguno.

In [16]:
tesla_revenue = tesla_revenue[tesla_revenue['Revenue'] != ""]
tesla_revenue.tail() #Vemos las últimas cinco líneas

Unnamed: 0,Date,Revenue
42,2010-09-30,31
43,2010-06-30,28
44,2010-03-31,21
46,2009-09-30,46
47,2009-06-30,27


In [20]:
make_graph(tesla_data, tesla_revenue, 'Tesla')

In [32]:
tesla_revenue.head()

Unnamed: 0,Date,Revenue
0,2021-03-31,10389
1,2020-12-31,10744
2,2020-09-30,8771
3,2020-06-30,6036
4,2020-03-31,5985


In [35]:
df=pd.DataFrame(tesla_revenue)
df.plot(x='Revenue',y='Date')

TypeError: no numeric data to plot