# Descarga de los precios diarios del S&P500 de la web

El objetivo de éste notebook es descargar el listado de precios de las acciones del S&P500


Fuente:

https://medium.com/python-data/how-to-scrape-information-of-s-p-500-listed-companies-with-python-8205f895ee7a
    



### Cargue de librerias necesarias para el proceso de descarga de datos

In [1]:
%matplotlib inline
import pandas as pd
import numpy as np
import yfinance as yf
import datetime
import matplotlib.pyplot as plt 
import seaborn as sns
import time as tm
import random as rd

### Obtención de la lista de Acciones S&P 500 de Wikipedia

En [wikipedia ](https://en.wikipedia.org/wiki/List_of_S%26P_500_companies) hay una lista que se mantien actualizada con la lista de todos los titulos que componen el indice.  Los datos se pueden descargar con el lector de pandas.

In [2]:
data = pd.read_html('https://en.wikipedia.org/wiki/List_of_S%26P_500_companies')

In [3]:
table = data[0]
print(f"Las dimensiones de la tabla descargada son: {table.shape}")
table.head()

Las dimensiones de la tabla descargada son: (505, 9)


Unnamed: 0,Symbol,Security,SEC filings,GICS Sector,GICS Sub-Industry,Headquarters Location,Date first added,CIK,Founded
0,MMM,3M Company,reports,Industrials,Industrial Conglomerates,"St. Paul, Minnesota",1976-08-09,66740,1902
1,ABT,Abbott Laboratories,reports,Health Care,Health Care Equipment,"North Chicago, Illinois",1964-03-31,1800,1888
2,ABBV,AbbVie Inc.,reports,Health Care,Pharmaceuticals,"North Chicago, Illinois",2012-12-31,1551152,2013 (1888)
3,ABMD,ABIOMED Inc,reports,Health Care,Health Care Equipment,"Danvers, Massachusetts",2018-05-31,815094,1981
4,ACN,Accenture plc,reports,Information Technology,IT Consulting & Other Services,"Dublin, Ireland",2011-07-06,1467373,1989


### Descarga de los precios de yahoo

Para la descarga de los precios de las acciones y que los para que los servidores no bloqueen la ip, se va a usar un comportamiento un aleatorio, definiendo el tiempo de invernación por una función aleatorio entre 35 y 65 segundos, que se parece a lo que se demora una persona en descargar la información.  505 acciones tardarían en promedio unas 3 o 4 horas. 

In [4]:
# Exploración de los simbolos de las tablas.
table['Symbol'].head()

0     MMM
1     ABT
2    ABBV
3    ABMD
4     ACN
Name: Symbol, dtype: object

El rango de fechas para descargar se establece con dos variables, y en principio se van a descargar datos diarios de los últimos 5 años.

In [5]:
start = '2016-01-01'
end = '2020-10-31'

In [6]:
# Validación del for loop antes de proceder a cargar los datos.
for i in table['Symbol']:
    symbol = i
    print(symbol)

MMM
ABT
ABBV
ABMD
ACN
ATVI
ADBE
AMD
AAP
AES
AFL
A
APD
AKAM
ALK
ALB
ARE
ALXN
ALGN
ALLE
LNT
ALL
GOOGL
GOOG
MO
AMZN
AMCR
AEE
AAL
AEP
AXP
AIG
AMT
AWK
AMP
ABC
AME
AMGN
APH
ADI
ANSS
ANTM
AON
AOS
APA
AIV
AAPL
AMAT
APTV
ADM
ANET
AJG
AIZ
T
ATO
ADSK
ADP
AZO
AVB
AVY
BKR
BLL
BAC
BK
BAX
BDX
BRK.B
BBY
BIO
BIIB
BLK
BA
BKNG
BWA
BXP
BSX
BMY
AVGO
BR
BF.B
CHRW
COG
CDNS
CPB
COF
CAH
KMX
CCL
CARR
CTLT
CAT
CBOE
CBRE
CDW
CE
CNC
CNP
CERN
CF
SCHW
CHTR
CVX
CMG
CB
CHD
CI
CINF
CTAS
CSCO
C
CFG
CTXS
CLX
CME
CMS
KO
CTSH
CL
CMCSA
CMA
CAG
CXO
COP
ED
STZ
COO
CPRT
GLW
CTVA
COST
CCI
CSX
CMI
CVS
DHI
DHR
DRI
DVA
DE
DAL
XRAY
DVN
DXCM
FANG
DLR
DFS
DISCA
DISCK
DISH
DG
DLTR
D
DPZ
DOV
DOW
DTE
DUK
DRE
DD
DXC
EMN
ETN
EBAY
ECL
EIX
EW
EA
EMR
ETR
EOG
EFX
EQIX
EQR
ESS
EL
ETSY
EVRG
ES
RE
EXC
EXPE
EXPD
EXR
XOM
FFIV
FB
FAST
FRT
FDX
FIS
FITB
FE
FRC
FISV
FLT
FLIR
FLS
FMC
F
FTNT
FTV
FBHS
FOXA
FOX
BEN
FCX
GPS
GRMN
IT
GD
GE
GIS
GM
GPC
GILD
GL
GPN
GS
GWW
HAL
HBI
HIG
HAS
HCA
PEAK
HSIC
HSY
HES
HPE
HLT
HFC
HOLX
HD
HON
HRL
HST
HWM
HPQ
HUM
HBAN
HII

In [7]:
#Ejemplo
sp500_df = yf.download('^GSPC', 
                      start='2019-01-01', 
                      end='2020-10-31', 
                      progress=False)
sp500_df.head()

Unnamed: 0_level_0,Open,High,Low,Close,Adj Close,Volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2019-01-02,2476.959961,2519.48999,2467.469971,2510.030029,2510.030029,3733160000
2019-01-03,2491.919922,2493.139893,2443.959961,2447.889893,2447.889893,3822860000
2019-01-04,2474.330078,2538.070068,2474.330078,2531.939941,2531.939941,4213410000
2019-01-07,2535.610107,2566.159912,2524.560059,2549.689941,2549.689941,4104710000
2019-01-08,2568.110107,2579.820068,2547.560059,2574.409912,2574.409912,4083030000


In [8]:
sp500_df.tail()

Unnamed: 0_level_0,Open,High,Low,Close,Adj Close,Volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2020-10-26,3441.419922,3441.419922,3364.860107,3400.969971,3400.969971,3988080000
2020-10-27,3403.149902,3409.51001,3388.709961,3390.679932,3390.679932,3946990000
2020-10-28,3342.47998,3342.47998,3268.889893,3271.030029,3271.030029,5129860000
2020-10-29,3277.169922,3341.050049,3259.820068,3310.110107,3310.110107,4903070000
2020-10-30,3293.590088,3304.929932,3233.939941,3269.959961,3269.959961,4840450000


In [9]:
sp500_df.reset_index(drop=False, inplace=True)

In [10]:
sp500_df.tail()

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
458,2020-10-26,3441.419922,3441.419922,3364.860107,3400.969971,3400.969971,3988080000
459,2020-10-27,3403.149902,3409.51001,3388.709961,3390.679932,3390.679932,3946990000
460,2020-10-28,3342.47998,3342.47998,3268.889893,3271.030029,3271.030029,5129860000
461,2020-10-29,3277.169922,3341.050049,3259.820068,3310.110107,3310.110107,4903070000
462,2020-10-30,3293.590088,3304.929932,3233.939941,3269.959961,3269.959961,4840450000


In [11]:
# función de descarga

def read_data_stock(symbol, start, end, progress=False):
    # Lee los datos desde yahoo
    data = yf.download(symbol,start=start, end=end, progress=False)
    # Se agrega una columna con el nombre de la acción para poder identificar y apilar los datos descargados.
    data.insert(0, 'Stock', symbol)
    # Se borra el indice para que las fechas queden como una columna.
    data.reset_index(drop=False, inplace=True)
    return data

In [12]:
# Prueba de la función
data_test = read_data_stock('ALLE',start,end)
data_test.head()

Unnamed: 0,Date,Stock,Open,High,Low,Close,Adj Close,Volume
0,2016-01-04,ALLE,64.879997,64.879997,63.389999,64.529999,61.697052,845000
1,2016-01-05,ALLE,64.57,65.400002,64.110001,64.459999,61.630127,525600
2,2016-01-06,ALLE,63.619999,63.830002,62.389999,62.77,60.01432,505500
3,2016-01-07,ALLE,61.630001,62.290001,60.75,60.959999,58.283783,613600
4,2016-01-08,ALLE,61.299999,61.709999,59.619999,59.77,57.146027,675700


In [13]:
data_test.tail()

Unnamed: 0,Date,Stock,Open,High,Low,Close,Adj Close,Volume
1212,2020-10-26,ALLE,101.610001,102.129997,99.900002,100.839996,100.839996,715400
1213,2020-10-27,ALLE,100.839996,100.970001,99.0,99.260002,99.260002,683600
1214,2020-10-28,ALLE,96.980003,98.970001,96.080002,96.360001,96.360001,994100
1215,2020-10-29,ALLE,95.779999,98.870003,95.669998,98.110001,98.110001,776500
1216,2020-10-30,ALLE,97.110001,98.57,95.800003,98.5,98.5,912200


In [14]:
table['Symbol'][:3].to_list()

['MMM', 'ABT', 'ABBV']

In [35]:
table['Symbol'][-1:].tolist()[0]

'ZTS'

In [22]:
table['Symbol'].tail()

500     YUM
501    ZBRA
502     ZBH
503    ZION
504     ZTS
Name: Symbol, dtype: object

#### Validación del ciclo for para descarga de datos

In [25]:
data_panel_p = pd.DataFrame(columns=['Date','Stock','Open','High','Low','Close','Adj Close','Volume'])
cont_p = 0
rd_start_p = 37 
rd_end_p = 65
Symbol_l = table['Symbol'][:3].to_list()
for i in Symbol_l:        
    stock_aux_p = read_data_stock(i,start,end)
    print(stock_aux_p.head())
    print(stock_aux_p.shape)
    data_panel_p = pd.concat([data_panel_p,stock_aux_p],ignore_index=True,sort=False,axis=0)
    print(data_panel_p.tail())
    print(data_panel_p.shape)
    cont_p +=1
    s = rd.randint(rd_start_p, rd_end_p)
    print('descarga:',cont_p,', Acción:', i, ', hibernación en seg:', s, 'forma:', data_panel_p.shape)
    if (i != Symbol_l[-1:]):
        tm.sleep(s)
    else:
        pass

        Date Stock        Open        High         Low       Close  \
0 2016-01-04   MMM  148.050003  148.320007  145.399994  146.820007   
1 2016-01-05   MMM  146.820007  147.500000  145.610001  147.460007   
2 2016-01-06   MMM  145.589996  145.759995  143.419998  144.490005   
3 2016-01-07   MMM  142.520004  143.130005  140.630005  140.970001   
4 2016-01-08   MMM  141.360001  142.500000  140.220001  140.490005   

    Adj Close   Volume  
0  128.033249  3277200  
1  128.591339  2688100  
2  126.001358  2997100  
3  122.931786  3553500  
4  122.513206  2664000  
(1217, 8)
           Date Stock        Open        High         Low       Close  \
1212 2020-10-26   MMM  167.679993  168.089996  164.389999  166.160004   
1213 2020-10-27   MMM  164.500000  164.979996  160.649994  161.029999   
1214 2020-10-28   MMM  159.809998  162.850006  158.119995  158.529999   
1215 2020-10-29   MMM  158.110001  160.179993  156.130005  158.479996   
1216 2020-10-30   MMM  158.330002  159.960007  157.000

In [28]:
print(f"Forma del dataframe apilado: {data_panel_p.shape}")
print(f"Validación de las acciones descargadas: {data_panel_p['Stock'].unique()}")

Forma del dataframe apilado: (3651, 8)
Validación de las acciones descargadas: ['MMM' 'ABT' 'ABBV']


In [27]:
# Validación numerica de la apilación de 3 acciones para un rango de fecha dado
1217 * 3

3651

In [24]:
# Dataframe definitivo
data_panel_p.reset_index(drop=True)

Unnamed: 0,Date,Stock,Open,High,Low,Close,Adj Close,Volume
0,2016-01-04,MMM,148.050003,148.320007,145.399994,146.820007,128.033249,3277200
1,2016-01-05,MMM,146.820007,147.500000,145.610001,147.460007,128.591339,2688100
2,2016-01-06,MMM,145.589996,145.759995,143.419998,144.490005,126.001358,2997100
3,2016-01-07,MMM,142.520004,143.130005,140.630005,140.970001,122.931786,3553500
4,2016-01-08,MMM,141.360001,142.500000,140.220001,140.490005,122.513206,2664000
...,...,...,...,...,...,...,...,...
3646,2020-10-26,ABBV,84.089996,84.320000,82.809998,83.919998,83.919998,7986300
3647,2020-10-27,ABBV,84.000000,84.260002,82.680000,82.709999,82.709999,6705600
3648,2020-10-28,ABBV,81.349998,82.209999,80.239998,80.489998,80.489998,11480200
3649,2020-10-29,ABBV,80.500000,81.370003,79.110001,80.669998,80.669998,8876700


### Descarga de datos de yahoo

Se hace un bucle que descargue los datos de cada acción en el rango dado, y se apilen en otro dataframe que pueda ser descargado una vez finalizado el ciclo for.

In [37]:
data_panel = pd.DataFrame(columns=['Date','Stock','Open','High','Low','Close','Adj Close','Volume'])
cont = 0
rd_start = 41 
rd_end = 57
for i in table['Symbol']:        
    stock_aux = read_data_stock(i,start,end)
    data_panel = pd.concat([data_panel,stock_aux],ignore_index=True,sort=False,axis=0)
    cont +=1
    s = rd.randint(rd_start, rd_end)
    print('descarga:',cont,', Acción:', i, ', hibernación en seg:', s, 'forma:', data_panel.shape)
    if (i != table['Symbol'][-1:].tolist()[0]):
        tm.sleep(s)
    else:
        pass

descarga: 1 , Acción: MMM , hibernación en seg: 54 forma: (1217, 8)
descarga: 2 , Acción: ABT , hibernación en seg: 55 forma: (2434, 8)
descarga: 3 , Acción: ABBV , hibernación en seg: 49 forma: (3651, 8)
descarga: 4 , Acción: ABMD , hibernación en seg: 41 forma: (4868, 8)
descarga: 5 , Acción: ACN , hibernación en seg: 54 forma: (6085, 8)
descarga: 6 , Acción: ATVI , hibernación en seg: 52 forma: (7302, 8)
descarga: 7 , Acción: ADBE , hibernación en seg: 51 forma: (8519, 8)
descarga: 8 , Acción: AMD , hibernación en seg: 41 forma: (9736, 8)
descarga: 9 , Acción: AAP , hibernación en seg: 42 forma: (10953, 8)
descarga: 10 , Acción: AES , hibernación en seg: 54 forma: (12170, 8)
descarga: 11 , Acción: AFL , hibernación en seg: 53 forma: (13387, 8)
descarga: 12 , Acción: A , hibernación en seg: 46 forma: (14604, 8)
descarga: 13 , Acción: APD , hibernación en seg: 55 forma: (15821, 8)
descarga: 14 , Acción: AKAM , hibernación en seg: 53 forma: (17038, 8)
descarga: 15 , Acción: ALK , hiber

descarga: 116 , Acción: KO , hibernación en seg: 55 forma: (137682, 8)
descarga: 117 , Acción: CTSH , hibernación en seg: 57 forma: (138899, 8)
descarga: 118 , Acción: CL , hibernación en seg: 52 forma: (140116, 8)
descarga: 119 , Acción: CMCSA , hibernación en seg: 54 forma: (141333, 8)
descarga: 120 , Acción: CMA , hibernación en seg: 45 forma: (142550, 8)
descarga: 121 , Acción: CAG , hibernación en seg: 53 forma: (143767, 8)
descarga: 122 , Acción: CXO , hibernación en seg: 55 forma: (144984, 8)
descarga: 123 , Acción: COP , hibernación en seg: 55 forma: (146201, 8)
descarga: 124 , Acción: ED , hibernación en seg: 55 forma: (147418, 8)
descarga: 125 , Acción: STZ , hibernación en seg: 56 forma: (148635, 8)
descarga: 126 , Acción: COO , hibernación en seg: 52 forma: (149852, 8)
descarga: 127 , Acción: CPRT , hibernación en seg: 57 forma: (151069, 8)
descarga: 128 , Acción: GLW , hibernación en seg: 43 forma: (152286, 8)
descarga: 129 , Acción: CTVA , hibernación en seg: 48 forma: (1

descarga: 230 , Acción: HLT , hibernación en seg: 55 forma: (273033, 8)
descarga: 231 , Acción: HFC , hibernación en seg: 44 forma: (274250, 8)
descarga: 232 , Acción: HOLX , hibernación en seg: 49 forma: (275467, 8)
descarga: 233 , Acción: HD , hibernación en seg: 57 forma: (276684, 8)
descarga: 234 , Acción: HON , hibernación en seg: 57 forma: (277901, 8)
descarga: 235 , Acción: HRL , hibernación en seg: 48 forma: (279118, 8)
descarga: 236 , Acción: HST , hibernación en seg: 46 forma: (280335, 8)
descarga: 237 , Acción: HWM , hibernación en seg: 46 forma: (280607, 8)
descarga: 238 , Acción: HPQ , hibernación en seg: 44 forma: (281824, 8)
descarga: 239 , Acción: HUM , hibernación en seg: 48 forma: (283041, 8)
descarga: 240 , Acción: HBAN , hibernación en seg: 49 forma: (284258, 8)
descarga: 241 , Acción: HII , hibernación en seg: 47 forma: (285475, 8)
descarga: 242 , Acción: IEX , hibernación en seg: 57 forma: (286692, 8)
descarga: 243 , Acción: IDXX , hibernación en seg: 50 forma: (2

descarga: 344 , Acción: NOC , hibernación en seg: 42 forma: (409113, 8)
descarga: 345 , Acción: NLOK , hibernación en seg: 47 forma: (409531, 8)
descarga: 346 , Acción: NCLH , hibernación en seg: 52 forma: (410748, 8)
descarga: 347 , Acción: NRG , hibernación en seg: 50 forma: (411965, 8)
descarga: 348 , Acción: NUE , hibernación en seg: 51 forma: (413182, 8)
descarga: 349 , Acción: NVDA , hibernación en seg: 48 forma: (414399, 8)
descarga: 350 , Acción: NVR , hibernación en seg: 48 forma: (415616, 8)
descarga: 351 , Acción: ORLY , hibernación en seg: 43 forma: (416833, 8)
descarga: 352 , Acción: OXY , hibernación en seg: 49 forma: (418050, 8)
descarga: 353 , Acción: ODFL , hibernación en seg: 42 forma: (419268, 8)
descarga: 354 , Acción: OMC , hibernación en seg: 47 forma: (420485, 8)
descarga: 355 , Acción: OKE , hibernación en seg: 44 forma: (421702, 8)
descarga: 356 , Acción: ORCL , hibernación en seg: 55 forma: (422919, 8)
descarga: 357 , Acción: OTIS , hibernación en seg: 43 form

descarga: 458 , Acción: UNP , hibernación en seg: 50 forma: (545991, 8)
descarga: 459 , Acción: UAL , hibernación en seg: 43 forma: (547208, 8)
descarga: 460 , Acción: UNH , hibernación en seg: 47 forma: (548425, 8)
descarga: 461 , Acción: UPS , hibernación en seg: 52 forma: (549642, 8)
descarga: 462 , Acción: URI , hibernación en seg: 57 forma: (550859, 8)
descarga: 463 , Acción: UHS , hibernación en seg: 55 forma: (552076, 8)
descarga: 464 , Acción: UNM , hibernación en seg: 46 forma: (553293, 8)
descarga: 465 , Acción: VFC , hibernación en seg: 57 forma: (554510, 8)
descarga: 466 , Acción: VLO , hibernación en seg: 48 forma: (555727, 8)
descarga: 467 , Acción: VAR , hibernación en seg: 41 forma: (556944, 8)
descarga: 468 , Acción: VTR , hibernación en seg: 43 forma: (558161, 8)
descarga: 469 , Acción: VRSN , hibernación en seg: 41 forma: (559378, 8)
descarga: 470 , Acción: VRSK , hibernación en seg: 45 forma: (560595, 8)
descarga: 471 , Acción: VZ , hibernación en seg: 53 forma: (56

Se descarga un csv con los datos del dataframe

In [38]:
data_panel.to_csv('sp500.csv', index=False)

In [39]:
data_panel.head()

Unnamed: 0,Date,Stock,Open,High,Low,Close,Adj Close,Volume
0,2016-01-04,MMM,148.050003,148.320007,145.399994,146.820007,128.033249,3277200
1,2016-01-05,MMM,146.820007,147.5,145.610001,147.460007,128.591339,2688100
2,2016-01-06,MMM,145.589996,145.759995,143.419998,144.490005,126.001358,2997100
3,2016-01-07,MMM,142.520004,143.130005,140.630005,140.970001,122.931786,3553500
4,2016-01-08,MMM,141.360001,142.5,140.220001,140.490005,122.513206,2664000


In [40]:
data_panel.tail()

Unnamed: 0,Date,Stock,Open,High,Low,Close,Adj Close,Volume
600984,2020-10-26,ZTS,162.0,162.949997,158.960007,160.479996,160.479996,1151600
600985,2020-10-27,ZTS,160.839996,164.479996,160.630005,162.470001,162.470001,1851000
600986,2020-10-28,ZTS,159.759995,161.509995,158.160004,158.690002,158.690002,2160700
600987,2020-10-29,ZTS,159.460007,162.449997,158.130005,161.190002,161.190002,1539000
600988,2020-10-30,ZTS,160.020004,161.320007,156.25,158.550003,158.550003,2078300


In [41]:
data_panel.to_parquet('sp500.parquet.gzip', compression='gzip')  