In [1]:
from pymongo import MongoClient
import pandas as pd
import functions as f
import folium
from folium import Choropleth, Circle, Marker
from folium.plugins import HeatMap, MarkerCluster

- Importamos base de datos de compañías

In [2]:
client = MongoClient("mongodb://localhost/companies")

In [3]:
db = client.get_database()

In [4]:
pd.set_option('display.max_rows', None)
pd.set_option('display.max_columns', None)

- Filtramos por empresas vivas y convertimos en DataFrame para poder operar

In [5]:
query = {'deadpooled_year':{'$eq':None}}

In [6]:
data = list(db["companies"].find(query,{"_id":0,"name":1,"category_code":1,"number_of_employees":1,"founded_year":1,"deadpooled_year":1,"total_money_raised":1,"offices":1}))

df = pd.DataFrame(data)

- Aplicamos la función que expande la columna de 'offices' y genera una nueva columna 'location' con el formato correcto de las coordenadas

In [7]:
df2 = f.officesClean(df)

- Exportamos como json para hacer consultas/modificar información

In [10]:
df2.to_json("first_order", orient="records")

- Importamos de nuevo el primer json limpio y filtramos solo por localizaciones con coordenadas

In [8]:
query2 = {'location':{'$ne':None}}

In [9]:
data2 = list(db["first_order"].find(query2,{"_id":0}))

first_order = pd.DataFrame(data2)

- Categorizamos las compañías según actividad para separar las tecnológicas del resto

In [10]:
tech_comp = ["web","software","mobile","games_video","ecommerce","network_hosting","hardware","biotech","cleantech","analytics","semiconductor","photo_video","software","nanotech"]

first_order["tech_company"] = df["category_code"].apply(lambda x: "yes" if x in tech_comp else "no")

- Comprobamos que la mayoría de las empresas tecnológicas se sitúan en San Francisco, por tanto, ésta será la ciudad en la que buscaremos donde posicionarnos

In [12]:
tech = first_order['tech_company'] == 'yes'
filt = first_order[tech]

filt.city.value_counts().head(5)

San Francisco    404
New York         342
London           183
                 152
Austin            91
Name: city, dtype: int64

- Exportamos de nuevo el fichero ya limpio con todas las coordenadas y solo empresas con actividad

In [13]:
first_order.to_json("cleaned_companies", orient="records")

- Importamos de nuevo la colección

In [5]:
query3 = {"founded_year":{"$lt":2010}}

In [6]:
data3 = list(db["cleaned_companies"].find(query3,{"_id":0}))

new_companies = pd.DataFrame(data3)

- Creamos mapa con coordenadas de una compañía random de nuestra base de datos de San Francisco

In [7]:
start_lat = 37.09024
start_lon = -95.712891
heat_m = folium.Map(location=[start_lat, start_lon],tiles='cartodbpositron', zoom_start=15)

- Creamos un mapa de calor con todas las compañías de San Francisco con antiguedad superior a 10 años

In [8]:
sanF = new_companies[new_companies.city=='San Francisco']
sanF_group = folium.FeatureGroup(name='Sf_companies')
HeatMap(data=sanF[['latitude', 'longitude']]).add_to(sanF_group)
sanF_group.add_to(heat_m)

heat_m

- Obtenemos las coordenadas del aeropuerto de San Francisco

In [9]:
airport = f.googleApi('San Francisco Airport')

- Marcamos el punto en el mapa

In [54]:
uni_lon = airport['results'][0]['geometry']['location']['lng']
uni_lat = airport['results'][0]['geometry']['location']['lat']

Marker([uni_lat, uni_lon], icon=folium.Icon(color='blue')).add_to(heat_m)
heat_m

In [53]:
airport['results'][0]['geometry']['location']['lng']

-122.3789554