In [1]:
#Libraries
import pymongo
import re
import math 
import pandas as pd
import numpy as np
import requests
from bs4 import BeautifulSoup

In [2]:
cliente = pymongo.MongoClient()
companies_DB = cliente.companies
companies_collection = companies_DB.companies

In [3]:
#Numero de documentos totales (empresas)
len(list(companies_collection.find()))

18801

In [4]:
#Lista de tags relacionados a mi empresa
tags_busqueda = r"motor|bike|bicycle|mechanics|workshop|repair"

In [5]:
'''
Genero una busqueda por texto para encontrar coincidencias en los tags que relacionan mi idea de empresa.
Para ello, debo hacer uso de regex. Por ultimo genero un DataFrame con solo la info que me interesa.
'''
filter={'$or': [
        {'tag_list': re.compile(tags_busqueda)},
        {'description': re.compile(tags_busqueda)},
        {'overview': re.compile(tags_busqueda)}
]}
project={
    '_id': 0, 
    'name': 1, 
    'homepage_url': 1, 
    'founded_year': 1, 
    'description': 1, 
    'overview': 1, 
    'competitions': 1, 
    'offices': 1, 
    'partners': 1, 
    'category_code': 1
}

rel_tags = companies_collection.find(
  filter=filter,
  projection=project
)

In [6]:
coincidencias = pd.DataFrame(list(rel_tags))
coincidencias.shape

(172, 9)

In [7]:
'''
En vista de lo anterior, es posible evidenciar 172 coincidencias con al menos una coincidencia con los tags de busqueda.
Por lo anterior voy a revisar un poco mas a detalle las empresas que recibí.
Voy a imprimir la siguiente información de uno por uno, hasta que yo desee detener el iterador.
'''
coincidencias.head()

Unnamed: 0,name,homepage_url,category_code,founded_year,description,overview,competitions,offices,partners
0,Yelp,http://yelp.com,search,2004.0,Local search and review site,<p>Yelp (NYSE: YELP) connects people with grea...,"[{'competitor': {'name': 'Insider Pages', 'per...","[{'description': '', 'address1': '706 Mission ...",[]
1,Grockit,http://grockit.com,social,2006.0,Online social learning games,<p>Grockit is a pioneering online social learn...,"[{'competitor': {'name': 'PrepMe', 'permalink'...","[{'description': '', 'address1': '500 Third St...",[]
2,OnForce,http://www.onforce.com,enterprise,2003.0,#1 Source for On-site Tech Talent,<p>OnForce is the #1 source for on-site tech t...,"[{'competitor': {'name': 'Work Market', 'perma...","[{'description': '', 'address1': '10 Maguire R...",[]
3,ThemBid,http://www.thembid.com,ecommerce,2007.0,,<p>ThemBid is a free online marketplace that g...,[],"[{'description': None, 'address1': '8500 Utica...",[]
4,Fixya,http://www.fixya.com,web,2013.0,Tech Support Community,<p>Fixya offers an online tech support communi...,"[{'competitor': {'name': 'Kluster', 'permalink...","[{'description': '', 'address1': 'One Franklin...",[]


In [8]:
coincidencias.iloc[0, 5]

'<p>Yelp (NYSE: YELP) connects people with great local businesses. Yelp was founded in San Francisco in July 2004. Since then, Yelp communities have taken root in major metros across the US, Canada, UK, Ireland, France, Germany, Austria, The Netherlands, Spain, Italy, Switzerland, Belgium, Australia, Sweden, Denmark, Norway, Finland, Singapore, Poland and Turkey. Yelp had a monthly average of 86 million unique visitors in Q4 2012*. By the end of Q4 2012, Yelpers had written more than 36 million rich, local reviews, making Yelp the leading local guide for real word-of-mouth on everything from boutiques and mechanics to restaurants and dentists. Yelp&#8217;s mobile application was used on 9.2 million unique mobile devices on a monthly average basis during Q4 2012. </p>'

In [9]:
'''
Lo anterior es una clara evidencia de que exite mucha basura en la busqueda realizada. La primera coincidencia es 
una app que permite conectar a la gente con negocios locales, desde restaurantes hasta "MECANICOS".... es por ello
que aparece como coincidencia.

¿De que forma puedo filtrar esas coincidencias?

Realizare filtrado por categoria, ya que muchas busquedas son de tecnologia, movil, etc.
'''
coincidencias["category_code"].unique()

array(['search', 'social', 'enterprise', 'ecommerce', 'web', 'automotive',
       'finance', 'software', 'other', 'consulting', None, 'hardware',
       'network_hosting', 'mobile', 'travel', 'games_video',
       'advertising', 'semiconductor', 'public_relations', 'cleantech',
       'biotech', 'education', 'manufacturing'], dtype=object)

In [10]:
coincidencias = coincidencias[
    (coincidencias['category_code'] == 'automotive') |
    (coincidencias['category_code'] == 'other') |
    (coincidencias['category_code'] == 'manufacturing')
]

In [11]:
coincidencias.shape

(19, 9)

In [12]:
'''
Los resultados a evaluar redujerón de 172 a 19. ¿Que hago?
'''
coincidencias.iloc[0, 5]

'<p>Tesla Motors, founded by Elon Musk, Marc Tarpenning and Martin Eberhard,  is a company that produces a high-performance electric sports car, and is backed by a number of high-profile investors. Introduced in June 2006 to the public complete with a test drive by California Governor Arnold Schwarzenegger, the <a href="/product/tesla-roadster" title="Tesla Roadster" rel="nofollow">Tesla Roadster</a> is able to go from 0 to 60 in less than 4 seconds (competitive with Porsche and Lamborghini models), while also delivering 100 miles per gallon (double the efficiency of the Toyota Prius). The car&#8217;s base price is around $100,000, and can be ordered <a href="http://www.teslamotors.com/own" title="online" rel="nofollow">online</a>.</p>\n\n<p>Tesla&#8217;s investors include Silicon Valley luminaries like <a href="/company/paypal" title="Paypal" rel="nofollow">Paypal</a> founder <a href="/person/elon-musk" title="Elon Musk" rel="nofollow">Elon Musk</a> and <a href="/company/google" title

In [13]:
'''
A pesar de que la primera referencia esta relacionada a la industria automotor, no es un resultado que esperadaba.
Depronto una ciudad donde se encuentre Tesla puede haber interes por movilidad inteligente (?) Será que mi empresa
se puede categoizar asi ?
'''
#Algunos minutos mas tarde...
'''
Resulta que he revisado las descripciones de todas las compañias filtradas pero ninguna se acerca al concepto que busca
mi empresa.... algunas son de construcción de motores, partes de vehiculos, compra y venta de vehiculos usados y
tecnologia (no se porque).

Creo que esta base de datos no me sirve.
'''

#En vista de la pequeña cantidad, buscare en que paises estan hospedadas las empresas
#coincidencias.iloc[:, 7][:]["country_code"]
paises= set()
for index in range(coincidencias.shape[0]):
    for address in range(len(coincidencias.iloc[index, 7])):
        paises.add(coincidencias.iloc[index, 7][address]["country_code"])
        
paises


{'AUS', 'CAN', 'CHN', 'DEU', 'IND', 'USA'}

In [14]:
'''
Jummmmmmmm, lo anterior fue solo para ver los paises en los que se distribuyen las 19 empresas filtradas.... pero no tengo competencia al parecer.
'''

'\nJummmmmmmm, lo anterior fue solo para ver los paises en los que se distribuyen las 19 empresas filtradas.... pero no tengo competencia al parecer.\n'

In [15]:
top = 30

In [16]:
#Voy a recopilar segun ranks, los top de paises que usan motos y ciclas
paises_ciclas = set()

URL = "https://www.cyclingranking.com/countries/2020"
page = requests.get(URL)
soup = BeautifulSoup(page.content, 'html.parser')
tabla = soup.find_all("table", class_="table table-striped")[0]

for resultado in tabla.find_all("a")[:top]:
    paises_ciclas.add(resultado.text)
paises_ciclas

{'Australia',
 'Austria',
 'Belgium',
 'Canada',
 'Colombia',
 'Czech Republic',
 'Denmark',
 'Ecuador',
 'Eritrea',
 'Estonia',
 'France',
 'Germany',
 'Great Britain',
 'Ireland',
 'Italy',
 'Kazakhstan',
 'Latvia',
 'Luxembourg',
 'Netherlands',
 'New Zealand',
 'Norway',
 'Poland',
 'Portugal',
 'Russia',
 'Slovakia',
 'Slovenia',
 'South Africa',
 'Spain',
 'Switzerland',
 'United States'}

In [17]:
paises_motos = set()

URL = "https://www.worldatlas.com/articles/countries-that-ride-motorbikes.html"
page = requests.get(URL)
soup = BeautifulSoup(page.content, 'html.parser')
tabla = (soup.find_all("tbody")[0]).find_all("tr")

for resultado in tabla[:top]:
    paises_motos.add((resultado.find_all("td")[1]).text)
paises_motos

{'Argentia',
 'Brazil',
 'China',
 'Colombia',
 'Egypt',
 'India',
 'Indonesia',
 'Italy',
 'Malaysia',
 'Nigeria',
 'Pakistan',
 'Philippines',
 'Thailand',
 'Tunisia',
 'Vietnam'}

In [18]:
paises_coincidentes = paises_ciclas & paises_motos
paises_coincidentes

{'Colombia', 'Italy'}

In [19]:
'''
Colombia e italia son los dos paises que estan en el top de paises donde
la población utiliza moto y bicicleta para movilizarse en la ciudad.

Pensaba elegir algún lugar en Bogotá y Roma para posicionar mi proyecto.

Pero ahora pienso filtrar cuales son las empresas con mas empleados y validar la coincidencia que
pueda existir entre los paises. Dado este resultado me decidire por los lugares con mas empleados
o uno de los paises con mas ciclistas y motoclistas del mundo.
'''

filter={'number_of_employees': {'$gte': 0 }}
project={
    '_id': 0, 
    'number_of_employees': 1, 
    'offices.city': 1
}
sort=list({
    'number_of_employees': -1
}.items())

ord_by_employees = companies_collection.find(
  filter=filter,
  projection=project,
  sort=sort
)

coincidencias_2 = pd.DataFrame(list(ord_by_employees))

In [20]:
coincidencias_2.info

<bound method DataFrame.info of       number_of_employees                                        offices
0                  405000                           [{'city': 'Munich'}]
1                  388000                           [{'city': 'Armonk'}]
2                  320000                            [{'city': 'Aichi'}]
3                  300000                         [{'city': 'San Jose'}]
4                  227000                            [{'city': 'Tokyo'}]
...                   ...                                            ...
8884                    0                        [{'city': 'Ann Arbor'}]
8885                    0                                             []
8886                    0                                             []
8887                    0  [{'city': 'Gainesville'}, {'city': 'Naples'}]
8888                    0                          [{'city': 'Brewood'}]

[8889 rows x 2 columns]>

In [21]:
coincidencias_2.columns

Index(['number_of_employees', 'offices'], dtype='object')

In [22]:
list((coincidencias_2.iloc[8887,1][0]).values())[0]

'Gainesville'

In [23]:
new_list = list()
min_employees = 25

for index in range(len(coincidencias_2)):
    cities_array = []
    
    
    for city_array in coincidencias_2.iloc[index,1]:
        city = list(city_array.values())[0]
        if city != "":
            cities_array.append(city)
            
    
    if len(cities_array) <= 0 or coincidencias_2.iloc[index,0] <= min_employees:
        continue
    
    
    number_cities = len(cities_array)
    employees =  int(math.floor(coincidencias_2.iloc[index,0] / number_cities))
        
    for single_city in range(number_cities):
        argument = [cities_array[single_city], employees]
        new_list.append(argument)
        
        
df = pd.DataFrame(new_list)
df.head()

Unnamed: 0,0,1
0,Munich,405000
1,Armonk,388000
2,Aichi,320000
3,San Jose,300000
4,Tokyo,227000


In [24]:
df.columns

RangeIndex(start=0, stop=2, step=1)

In [25]:
df= df.rename(columns={0:"country", 1:"empleados"})
df.head()

Unnamed: 0,country,empleados
0,Munich,405000
1,Armonk,388000
2,Aichi,320000
3,San Jose,300000
4,Tokyo,227000


In [26]:
#Ya tengo filtrado el listado de paises por número total de empleados según la BD
employees_cities = pd.pivot_table(df, index='country', values='empleados', aggfunc= np.sum)
employees_cities = employees_cities.sort_values(by="empleados", ascending=False)

In [27]:
employees_cities.head(10)

Unnamed: 0_level_0,empleados
country,Unnamed: 1_level_1
Tokyo,514178
San Jose,499412
Munich,405426
Armonk,388000
Aichi,320000
Falls Church,272940
San Diego,240676
New York,199233
Pleasanton,191019
Seoul,177919


In [28]:
#Transformo el listado a un set en que utilizo el número top para limitar el set
cities_by_employees = set(employees_cities.index[:top])
cities_by_employees

{'Aichi',
 'Armonk',
 'Atlanta',
 'Cambridge',
 'Chicago',
 'Cupertino',
 'Dallas',
 'Dearborn',
 'Falls Church',
 'Gütersloh',
 'Hyderabad',
 'Irving',
 'London',
 'Maynard',
 'Montreal',
 'Mumbai',
 'Munich',
 'New York',
 'Ontario',
 'Paris',
 'Philadelphia',
 'Pleasanton',
 'Round Rock',
 'San Diego',
 'San Jose',
 'Santa Clara',
 'Seoul',
 'Singapore',
 'St Paul',
 'Tokyo'}

In [29]:
#Voy a recopilar segun ranks, los top de ciudades que usan motos y ciclas
cities_by_bikes = set()

URL = "https://www.coya.com/bike/index-2019"
page = requests.get(URL)
soup = BeautifulSoup(page.content, 'html.parser')
tabla = soup.find_all("div", class_="bike-collection-item w-dyn-item")

for resultado in tabla[:top]:
    city = resultado.find("div", class_="td big").text
    cities_by_bikes.add(city)
    
cities_by_bikes

{'Amsterdam',
 'Antwerp',
 'Berlin',
 'Bern',
 'Bordeaux',
 'Bremen',
 'Bristol',
 'Copenhagen',
 'Hamburg',
 'Hangzhou',
 'Hannover',
 'Innsbruck',
 'Leipzig',
 'Malmo',
 'Melbourne',
 'Montreal',
 'Munster',
 'Nuremberg',
 'Strasbourg',
 'Utrecht'}

In [30]:
'''
Dado el top 20 de ciudades con mayor número de empleados según la BDs
y dado el top 20 de ciudades en donde las personas se movilizan en ciclas,

La única ciudad coincidente por números es Montreal para montar la empresa
planteada para el proyecto.

Hay una cosa que honestamente no me hace sentido y es la prohibicion para usar
bicicletas y motos en el pais la mitad del año. 
'''

target_cities = cities_by_bikes & cities_by_employees
target_cities

{'Montreal'}

In [None]:
''