## Web Scraping: Cotización Cedears Argentina
---
https://iol.invertironline.com/mercado/cotizaciones/argentina/cedears/todos

In [17]:
import pandas as pd
import requests
from bs4 import BeautifulSoup

In [2]:
# Página principal:
url = 'https://iol.invertironline.com/mercado/cotizaciones/argentina/cedears/todos'

# Realizo el request:
r = requests.get(url)

# Chequeo de status:
r.status_code #200

200

In [3]:
# Creamos la 'sopa':
s = BeautifulSoup(r.text, 'lxml')

In [4]:
# Separamos la tabla de datos:
tabla = s.find('tbody')

### Extracción de Datos:
---

In [11]:
# Extraemos los nombres de las especies:
nombres = tabla.find_all('b')
especies = [nombre.get_text(strip=True) for nombre in nombres]
#print(especies)
len(especies)

345

In [13]:
# Extraemos la Empresa :
links_nombres = tabla.find_all('a')
empresa = [link.get('title') for link in links_nombres]
#print(empresa)
len(empresa)

345

In [18]:
# Las asociamos en el orden de extracción:
dic = {"CEDEAR": especies, "EMPRESA": empresa}
df = pd.DataFrame(dic)
df

Unnamed: 0,CEDEAR,EMPRESA
0,AAL,AMERICAN AIRLINES GROUP INC.
1,AAPL,Apple
2,AAPLC,Apple
3,AAPLD,Apple
4,ABBV,AbbVie Inc.
...,...,...
340,XP,XP INC.
341,XROX,Xerox
342,YELP,Yelp Inc
343,ZM,Zoom Video Communications Inc.


In [31]:
# Generamos un 'Indice de Empresa', para ello primero corregimos inconsistencias en los nombres:
empresa_unique = df['EMPRESA'].unique()

Unnamed: 0,CEDEAR,EMPRESA,INDICE_EMPRESA
0,AAL,AMERICAN AIRLINES GROUP INC.,1
1,AAPL,Apple,2
2,AAPLC,Apple,2
3,AAPLD,Apple,2
4,ABBV,AbbVie Inc.,3
...,...,...,...
340,XP,XP INC.,241
341,XROX,Xerox,242
342,YELP,Yelp Inc,243
343,ZM,Zoom Video Communications Inc.,244


**Inconsistencias:**

* 'AbbVie Inc.', 'Abbvie Inc.'
* 'Amazon ', 'Amazon'
* 'Bioceres Crop Solutions Corp.', 'Bioceres Crop Solutions Corp'
* 'DocuSign Inc.', 'Docusign Inc'
* 'Etsy Inc.', 'Etsy Inc',
* 'Harmony Gold ', 'Harmony Gold'
* 'Ibm', 'IBM'
* 'Jpmorgan Chase & Co.', 'JPMorgan Chase & Co.'
* 'Mastercard Inc.', 'Mastercard'
* "McDonald's", "Mcdonald's"
* 'Novartis Ag', 'Novartis AG'
* 'Snowflake Inc.', 'Snowflake Inc'
* 'Square Inc.', 'Square Inc'
* 'At&T', 'AT&T'
* 'Zoom Video Communications Inc.', 'Zoom Video Communications Inc'

In [32]:
indices_empresa = [(list(empresa_unique).index(i) + 1) for i in df['EMPRESA']]
df['INDICE_EMPRESA'] = indices_empresa
df

array(['AMERICAN AIRLINES GROUP INC.', 'Apple', 'AbbVie Inc.',
       'Abbvie Inc.', 'Ambev', 'Airbnb, Inc.', 'Abbott Laboratories',
       'Adobe Systems Incorporated', 'Adecoagro', 'Analog Devices',
       'Agnico Eagle Mines Limited', 'American International Group',
       'EMBOTELLADORA ANDINA S.A.', 'Applied Materials',
       'Advanced Micro Devices', 'Amgen', 'America Movil', 'Amazon ',
       'Amazon', 'Aluminum Corporation Of China Limited',
       'Arcos Dorados Holdings', 'Etf Ark Innovation', 'Yamana Gold Inc.',
       'Broadcom Inc.', 'Avery Dennison', 'American Express',
       'Astrazeneca', 'Boeing', 'Bank of America', 'Alibaba Group',
       'Blackberry', 'Banco Bradesco S.A.',
       'Banco Bilbao Vizcaya Argentaria', 'Barclays', 'BHP Billiton Ltd.',
       'Baidu', 'Biogen Inc.', 'Bioceres Crop Solutions Corp.',
       'Bioceres Crop Solutions Corp', 'Bitfarms Ltd.',
       'Bank of New York Mellon', 'Bristol-Myers Squibb Co',
       'Bunge Limited', 'BP', 'BRF S.A.'

In [6]:
# Extraemos los valores de Apertura:
val_apertura = tabla.find_all('td', {"data-field": "Apertura"})
apertura = [valor.get_text(strip=True) for valor in val_apertura]
#print(apertura)
len(apertura)

345

In [7]:
# Extraemos los valores Mínimos:
val_minimo = tabla.find_all('td', {"data-field": "Minimo"})
minimo = [valor.get_text(strip=True) for valor in val_minimo]
#print(minimo)
len(minimo)

345

In [8]:
# Extraemos los valores Máximos:
val_maximo = tabla.find_all('td', {"data-field": "Maximo"})
maximo = [valor.get_text(strip=True) for valor in val_maximo]
#print(maximo)
len(maximo)

345

In [9]:
# Extraemos los valores de Último Cierre:
val_cierre = tabla.find_all('td', {"data-field": "UltimoCierre"})
cierre = [valor.get_text(strip=True) for valor in val_cierre]
#print(cierre)
len(cierre)

345

In [24]:
# Extraemos los valores de Monto Operado:
registros = tabla.find_all('tr', {'data-cantidad': '1'})
monto_operado = [registro.find_all('td', class_="tar")[-1].get_text(strip=True) for registro in registros]
#print(monto_operado)
len(monto_operado)

345