# Data Scraping: Mayores Compañias de USA

## Las compañias con mayores ganancias en los Estados Unidos

Importamos las bibliotecas

In [18]:
from bs4 import BeautifulSoup
import requests
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

1. Declaramos la fuente de datos
2. Obtenemos el codigo fuente con el método `get()` de `requests`
3. Creamos una instancia tipo `BeautifulSoup`

In [19]:
url = 'https://en.wikipedia.org/wiki/List_of_largest_companies_in_the_United_States_by_revenue'
page = requests.get(url)
soup = BeautifulSoup(page.text, 'html')

La página de Wikipedia contiene diversas tablas, como;
1. List of the largest companies
2. List of largest private companies
3. List of companies by profit

Esto supone un problema puesto que todas las tablas comparten una *clase HTML* llamada `wikitable sortable` por lo que el mejor acercamiento es indexar los elementos HTML y tomar el primero, puesto que, corresponde a la primer tabla.

In [20]:
largest_companies = soup.find_all('table', class_ = 'wikitable sortable')[0]

Ahora toca obtener los encabezados de las tablas, para ello iterare sobre los elementos `th` utilizando compresion de listas para tomar el atributo `text` de cada uno de los elementos de la colección.

In [21]:
world_titles = largest_companies.find_all('th')

Utilizo el método `strip()` para limpiar *\n* de cada elemento de la lista

In [22]:
world_table_titles = [title.text.strip() for title in world_titles]

Declaro el Dataframe, y especifico los encabezados con la lista `world_tables_titles`

In [23]:
df = pd.DataFrame(columns = world_table_titles)

Creamos una lista con todos los elementos `tr`

In [24]:
columna_datos = largest_companies.find_all('tr')

Iteramos sobre todos los `tr` de nuestra coleccion *columna_datos* realizando las siguientes operaciones:
1. Por cada `tr` obtenemos `td`
2. Con una *compresión de lista* obtenemos el atributo `text` y lo limpiamos con `strip()` (justo como arriba)
3. Obtenemos la ultima longitud con `len()`
4. Con el método `loc()` insertamos la fila anteriormente filtrada en la ultima fila gracias a `longitud`

In [25]:
for fila in columna_datos[1:]:
    fila_datos = fila.find_all('td')
    fila_datos_individual = [fila.text.strip() for fila in fila_datos]

    longitud = len(df)
    df.loc[longitud] = fila_datos_individual

Exporto el DataFrame como un fichero tipo CSV

In [26]:
# df.to_csv(r'C:\Users\<usuario>\Documents\Python\CompañiasUSA\Salida\CompañiasUSA.csv', index = False) Reemplazar `usuario`

In [27]:
df

Unnamed: 0,Rank,Name,Industry,Revenue (USD millions),Revenue growth,Employees,Headquarters
0,1,Walmart,Retail,611289,6.7%,2100000,"Bentonville, Arkansas"
1,2,Amazon,Retail and cloud computing,513983,9.4%,1540000,"Seattle, Washington"
2,3,ExxonMobil,Petroleum industry,413680,44.8%,62000,"Spring, Texas"
3,4,Apple,Electronics industry,394328,7.8%,164000,"Cupertino, California"
4,5,UnitedHealth Group,Healthcare,324162,12.7%,400000,"Minnetonka, Minnesota"
...,...,...,...,...,...,...,...
95,96,Best Buy,Retail,46298,10.6%,71100,"Richfield, Minnesota"
96,97,Bristol-Myers Squibb,Pharmaceutical industry,46159,0.5%,34300,"New York City, New York"
97,98,United Airlines,Airline,44955,82.5%,92795,"Chicago, Illinois"
98,99,Thermo Fisher Scientific,Laboratory instruments,44915,14.5%,130000,"Waltham, Massachusetts"


#### Realizado por Héctor Rodrigo Quiroz García