
<div style="text-align: center;">
  <img src="https://github.com/Hack-io-Data/Imagenes/blob/main/01-LogosHackio/logo_naranja@4x.png?raw=true" alt="esquema" />
</div>


1. Todas las empresas cuyo nombre sea 'Babelgum'. Recupera solo su campo `name`.
2. Todas las empresas que tienen más de 5000 empleados. Limita la búsqueda a 20 empresas y ordénalas por **número de empleados**.
3. Todas las empresas fundadas entre 2000 y 2005, incluyendo ambos años. Recupera solo los campos `name` y `founded_year`.
4. Todas las empresas que tuvieron una valoración de más de 100.000.000 y que fueron fundadas antes de 2010. Recupera solo los campos `name` e `ipo`.
5. Todas las empresas que tienen menos de 1000 empleados y que fueron fundadas antes de 2005. Ordénalas por el número de empleados y limita la búsqueda a 10 empresas.
6. Todas las empresas que no incluyen el campo `partners`.
7. Todas las empresas que tienen un valor nulo en el campo `category_code`.
8. Todas las empresas que tienen al menos 100 empleados pero menos de 1000. Recupera solo los campos `name` y `number of employees`.
9. Ordena todas las empresas por su precio de IPO en orden descendente.
10. Recupera las 10 empresas con más empleados, ordenadas por el `número de empleados`.
11. Todas las empresas fundadas en el segundo semestre del año. Limita tu búsqueda a 1000 empresas.
12. Todas las empresas fundadas antes del año 2000 que tienen un monto de adquisición superior a 10.000.000.
13. Todas las empresas que han sido adquiridas después de 2010, ordénalas por el monto de adquisición, y recupera solo los campos `name` y `acquisition`.
14. Ordena las empresas por su `founded year`, recuperando solo los campos `name` y `founded year`.
15. Todas las empresas que han sido fundadas en los primeros siete días del mes, incluyendo el séptimo. Ordénalas por su `acquisition price` en orden descendente. Limita la búsqueda a 10 documentos.
16. Todas las empresas en la categoría 'web' que tienen más de 4000 empleados. Ordénalas por la cantidad de empleados en orden ascendente.
17. Todas las empresas cuyo monto de adquisición es superior a 10.000.000, y cuya moneda es 'EUR'.
18. Todas las empresas que han sido adquiridas en el primer trimestre del año. Limita la búsqueda a 10 empresas, y recupera solo los campos `name` y `acquisition`.

---

In [1]:
# importamos las librerías que necesitamos

# Tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd
import numpy as np

# Para trabajar con datos de tipo fecha
# ------------------------------------------------------------------------------
from datetime import datetime

# Para trabajar con Mongo
# ------------------------------------------------------------------------------
import pymongo

# Path
import sys
sys.path.append('../')

# Para utilizar nuestras funciones
# ------------------------------------------------------------------------------
from src import soporte_mongo as sm

# Configuración
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames


In [2]:
# Conexión con MongoDB
companies = sm.conexion_mongo('Lab','Companies')[1]
resultado_find_df = pd.DataFrame(companies.find())

In [3]:
# Vemos qué columnas tenemos
resultado_find_df.columns

Index(['_id', 'name', 'permalink', 'crunchbase_url', 'homepage_url',
       'blog_url', 'blog_feed_url', 'twitter_username', 'category_code',
       'number_of_employees', 'founded_year', 'founded_month', 'founded_day',
       'deadpooled_year', 'tag_list', 'alias_list', 'email_address',
       'phone_number', 'description', 'created_at', 'updated_at', 'overview',
       'image', 'products', 'relationships', 'competitions', 'providerships',
       'total_money_raised', 'funding_rounds', 'investments', 'acquisition',
       'acquisitions', 'offices', 'milestones', 'video_embeds', 'screenshots',
       'external_links', 'partners', 'deadpooled_month', 'deadpooled_day',
       'deadpooled_url', 'ipo'],
      dtype='object')

In [4]:
# 1. Todas las empresas cuyo nombre sea 'Babelgum'. Recupera solo su campo `name`.
df_1 =  pd.DataFrame(companies.find({'name': {"$eq": 'Babelgum'}}, {"name": 1, "_id": 0}))

display(df_1.head(1))

Unnamed: 0,name
0,Babelgum


In [5]:
# 2. Todas las empresas que tienen más de 5000 empleados. Limita la búsqueda a 20 empresas y ordénalas por **número de empleados**.
df_2 =  pd.DataFrame(companies.find({'number_of_employees': {"$gt": 5}}).sort({"number_of_employees":1}).limit(20))

display(df_2.head(1))

Unnamed: 0,_id,name,permalink,crunchbase_url,homepage_url,blog_url,blog_feed_url,twitter_username,category_code,number_of_employees,founded_year,founded_month,founded_day,deadpooled_year,deadpooled_month,deadpooled_day,deadpooled_url,tag_list,alias_list,email_address,phone_number,description,created_at,updated_at,overview,image,products,relationships,competitions,providerships,total_money_raised,funding_rounds,investments,acquisition,acquisitions,offices,milestones,ipo,video_embeds,screenshots,external_links,partners
0,52cdef7c4bab8bd67529829c,Vuzit,vuzit,http://www.crunchbase.com/company/vuzit,http://vuzit.com,http://blog.vuzit.com/,http://blog.vuzit.com/feed/,vuzit,software,6,2006.0,6.0,6.0,,,,,"documents, online-document-viewer, online-docu...",,info@vuzit.com,215-966-6010,Document sharing,Tue Feb 12 19:59:05 UTC 2008,Sat Oct 26 04:53:40 UTC 2013,<p>Vuzit (pronounced views-it) is a Philadelph...,"{'available_sizes': [[[150, 49], 'assets/image...","[{'name': 'Vuzit DocuPub Platform', 'permalink...","[{'is_past': False, 'title': 'CEO', 'person': ...",[],[],$355k,"[{'id': 5425, 'round_code': 'seed', 'source_ur...",[],,[],"[{'description': '', 'address1': '3701 Market ...",[],,"[{'embed_code': '<object width=""400"" height=""3...",[],"[{'external_url': 'http://vuzit.com/', 'title'...",[]


In [6]:
# 3. Todas las empresas fundadas entre 2000 y 2005, incluyendo ambos años. Recupera solo los campos `name` y `founded_year`.
cond_1 = {"founded_year": {"$lte": 2005}}
cond_2 = {"founded_year": {"$gte": 2000}}

df_3 =  pd.DataFrame(companies.find({"$and": [cond_1, cond_2]}, {"name": 1, "_id": 0, "founded_year": 1}))

display(df_3.head(1))

Unnamed: 0,name,founded_year
0,Wetpaint,2005


In [7]:
# 4. Todas las empresas que tuvieron una valoración de más de 100.000.000 y que fueron fundadas antes de 2010. 
# Recupera solo los campos `name` e `ipo`.
cond_1 = {"ipo.valuation_amount": {"$gt": 100000000}}
cond_2 = {"founded_year": {"$lte": 2010}}

df_4 =  pd.DataFrame(companies.find({"$and": [cond_1, cond_2]}, {"name": 1, "_id": 0, "ipo": 1}))

display(df_4.head(1))

Unnamed: 0,name,ipo
0,Facebook,"{'valuation_amount': 104000000000, 'valuation_..."


In [8]:
# 5. Todas las empresas que tienen menos de 1000 empleados y que fueron fundadas antes de 2005. 
# Ordénalas por el número de empleados y limita la búsqueda a 10 empresas.
cond_1 = {"founded_year": {"$lte": 2005}}
cond_2 = {'number_of_employees': {"$gt": 5}}

df_5 =  pd.DataFrame(companies.find({"$and": [cond_1, cond_2]}).sort({"number_of_employees":1}).limit(10))

display(df_5.head(1))

Unnamed: 0,_id,name,permalink,crunchbase_url,homepage_url,blog_url,blog_feed_url,twitter_username,category_code,number_of_employees,founded_year,founded_month,founded_day,deadpooled_year,deadpooled_month,deadpooled_day,deadpooled_url,tag_list,alias_list,email_address,phone_number,description,created_at,updated_at,overview,image,products,relationships,competitions,providerships,total_money_raised,funding_rounds,investments,acquisition,acquisitions,offices,milestones,ipo,video_embeds,screenshots,external_links,partners
0,52cdef7c4bab8bd675298217,5pm,5pm,http://www.crunchbase.com/company/5pm,http://www.5pmweb.com,http://www.qgsoftware.com/blog,http://qgsoftware.com/blog/feed/,5pmweb,software,6,2003,9.0,7.0,,,,,"projectmanagement, tasks, collaboration, gtd, ...",,support@5pmweb.com,,,Sat Feb 02 08:18:17 UTC 2008,Sun Mar 31 12:55:51 UTC 2013,<p>A product of project management software fi...,"{'available_sizes': [[[150, 122], 'assets/imag...","[{'name': '5pm', 'permalink': '5pm'}, {'name':...",[],"[{'competitor': {'name': 'ActionThis', 'permal...",[],$0,[],[],,[],"[{'description': 'HQ', 'address1': 'P.O. Box 4...",[],,[],[],[{'external_url': 'http://online-project-manag...,[]


In [9]:
# 6. Todas las empresas que no incluyen el campo `partners`.
df_6 =  pd.DataFrame(companies.find({'partners': {"$exists": False}})) # En las que no existe
df_6 =  pd.DataFrame(companies.find({'partners': {"$size": 0}})) # En las que está vacío

display(df_6.head(1))
# Todos tienen la categoría pero está vacío

Unnamed: 0,_id,name,permalink,crunchbase_url,homepage_url,blog_url,blog_feed_url,twitter_username,category_code,number_of_employees,founded_year,founded_month,founded_day,deadpooled_year,tag_list,alias_list,email_address,phone_number,description,created_at,updated_at,overview,image,products,relationships,competitions,providerships,total_money_raised,funding_rounds,investments,acquisition,acquisitions,offices,milestones,video_embeds,screenshots,external_links,partners,deadpooled_month,deadpooled_day,deadpooled_url,ipo
0,52cdef7c4bab8bd675297d8a,Wetpaint,abc2,http://www.crunchbase.com/company/wetpaint,http://wetpaint-inc.com,http://digitalquarters.net/,http://digitalquarters.net/feed/,BachelrWetpaint,web,47.0,2005.0,10.0,17.0,1.0,"wiki, seattle, elowitz, media-industry, media-...",,info@wetpaint.com,206.859.6300,Technology Platform Company,2007-05-25 06:51:27,Sun Dec 08 07:15:44 UTC 2013,<p>Wetpaint is a technology platform company t...,"{'available_sizes': [[[150, 75], 'assets/image...","[{'name': 'Wikison Wetpaint', 'permalink': 'we...","[{'is_past': False, 'title': 'Co-Founder and V...","[{'competitor': {'name': 'Wikia', 'permalink':...",[],$39.8M,"[{'id': 888, 'round_code': 'a', 'source_url': ...",[],"{'price_amount': 30000000, 'price_currency_cod...",[],"[{'description': '', 'address1': '710 - 2nd Av...","[{'id': 5869, 'description': 'Wetpaint named i...",[],"[{'available_sizes': [[[150, 86], 'assets/imag...",[{'external_url': 'http://www.geekwire.com/201...,[],,,,


In [10]:
# 7. Todas las empresas que tienen un valor nulo en el campo `category_code`.
df_7 =  pd.DataFrame(companies.find({'category_code': {"$size": 0}}))

display(df_7.head(1))
# No hay entradas

In [11]:
# 8. Todas las empresas que tienen al menos 100 empleados pero menos de 1000. 
# Recupera solo los campos `name` y `number of employees`.
cond_1 = {'number_of_employees': {"$gte": 100}}
cond_2 = {'number_of_employees': {"$lt": 1000}}

df_8 =  pd.DataFrame(companies.find({"$and": [cond_1, cond_2]}, {"name": 1, "_id": 0, "number_of_employees": 1}))

display(df_8.head(1))

Unnamed: 0,name,number_of_employees
0,AdventNet,600


In [12]:
# 9. Ordena todas las empresas por su precio de IPO en orden descendente.

df_9 =  pd.DataFrame(companies.find({}, {"name": 1, "_id": 0, "ipo.valuation_amount": 1}).sort({"ipo.valuation_amount": -1}))

display(df_9.head(10))

Unnamed: 0,name,ipo
0,GREE,{'valuation_amount': 108960000000}
1,Facebook,{'valuation_amount': 104000000000}
2,Amazon,{'valuation_amount': 100000000000}
3,Twitter,{'valuation_amount': 18100000000}
4,Groupon,{'valuation_amount': 12800000000}
5,Tencent,{'valuation_amount': 11000000000}
6,Western Digital,{'valuation_amount': 9430000000}
7,LinkedIn,{'valuation_amount': 9310000000}
8,BMC Software,{'valuation_amount': 6000000000}
9,Rackspace,{'valuation_amount': 5440000000}


In [13]:
# 10. Recupera las 10 empresas con más empleados, ordenadas por el `número de empleados`.
df_10 =  pd.DataFrame(companies.find({}, {"name": 1, "_id": 0, "number_of_employees": 1}).sort({"number_of_employees": -1}).limit(10))

display(df_10.head(1))

Unnamed: 0,name,number_of_employees
0,Siemens,405000


In [14]:
# 11. Todas las empresas fundadas en el segundo semestre del año. Limita tu búsqueda a 1000 empresas.
df_11 =  pd.DataFrame(companies.find({'founded_month': {"$gt": 6}}, {"name": 1, "_id": 0}).limit(1000))

display(df_11.head(1))

Unnamed: 0,name
0,Wetpaint


In [15]:
# 12. Todas las empresas fundadas antes del año 2000 que tienen un monto de adquisición superior a 10.000.000.
cond_1 = {"founded_year": {"$lt": 2000}}
cond_2 = {"acquisition.price_amount": {"$gt": 10000000}}

df_12 =  pd.DataFrame(companies.find({"$and": [cond_1, cond_2]}))

display(df_12.head(1))

Unnamed: 0,_id,name,permalink,crunchbase_url,homepage_url,blog_url,blog_feed_url,twitter_username,category_code,number_of_employees,founded_year,founded_month,founded_day,deadpooled_year,deadpooled_month,deadpooled_day,deadpooled_url,tag_list,alias_list,email_address,phone_number,description,created_at,updated_at,overview,image,products,relationships,competitions,providerships,total_money_raised,funding_rounds,investments,acquisition,acquisitions,offices,milestones,ipo,video_embeds,screenshots,external_links,partners
0,52cdef7c4bab8bd675297d90,Postini,postini,http://www.crunchbase.com/company/postini,http://postini.com,,,,web,,1999,6.0,2.0,,,,,,,,888.584.3150,,Fri Jun 08 12:19:51 UTC 2007,Sat Aug 13 18:02:34 UTC 2011,<p>Postini focuses on two main issues: securit...,"{'available_sizes': [[[150, 61], 'assets/image...","[{'name': 'Postini Solutions', 'permalink': 'p...","[{'is_past': False, 'title': 'Board', 'person'...","[{'competitor': {'name': 'RescueTime', 'permal...",[],$0,[],[],"{'price_amount': 625000000, 'price_currency_co...",[],"[{'description': None, 'address1': '959 Skyway...",[],,[],[],[],[]


In [36]:
# 13. Todas las empresas que han sido adquiridas después de 2010, ordénalas por el monto de adquisición, y recupera solo los campos `name` y `acquisition`.
df_13 =  pd.DataFrame(companies.find({"acquisition.acquired_year": {"$gt": 2010}}, {"name": 1, "_id": 0, "acquisition": 1}).sort({"acquisition.price_amount": -1}))

display(df_13.head(1))

Unnamed: 0,name,acquisition
0,T-Mobile,"{'price_amount': 39000000000, 'price_currency_..."


In [27]:
# 14. Ordena las empresas por su `founded year`, recuperando solo los campos `name` y `founded year`.
df_14 =  pd.DataFrame(companies.find({}, {"name": 1, "_id": 0, "founded_year": 1}).sort({"founded_year": -1}))

display(df_14.head(1))

Unnamed: 0,name,founded_year
0,Tongxue,2013.0


In [42]:
# 15. Todas las empresas que han sido fundadas en los primeros siete días del mes, incluyendo el séptimo. 
# Ordénalas por su `acquisition price` en orden descendente. Limita la búsqueda a 10 documentos.
df_15 =  pd.DataFrame(companies.find({'founded_day': {"$lte": 7}}, {"name": 1, "_id": 0, "acquisition.price_amount": 1}).sort({"acquisition.price_amount": -1}).limit(10))

display(df_15.head(1))

Unnamed: 0,name,acquisition
0,Netscape,{'price_amount': 4200000000}


In [48]:
# 16. Todas las empresas en la categoría 'web' que tienen más de 4000 empleados. 
# Ordénalas por la cantidad de empleados en orden ascendente.
cond_1 = {"category_code": "web"}
cond_2 = {"number_of_employees": {"$gt": 4000}}

df_16 =  pd.DataFrame(companies.find({"$and": [cond_1, cond_2]}, {"name": 1, "_id": 0, "number_of_employees": 1}).sort({"number_of_employees": 1}))

display(df_16.head(1))

Unnamed: 0,name,number_of_employees
0,Expedia,4400


In [51]:
# 17. Todas las empresas cuyo monto de adquisición es superior a 10.000.000, y cuya moneda es 'EUR'.
cond_1 = {"acquisition.price_amount": {"$gt": 10000000}}
cond_2 = {"acquisition.price_currency_code": "EUR"}

df_17 =  pd.DataFrame(companies.find({"$and": [cond_1, cond_2]}, {"name": 1, "_id": 0, "acquisition.price_amount": 1}))

display(df_17.head(1))

Unnamed: 0,name,acquisition
0,ZYB,{'price_amount': 31500000}


In [53]:
# 18. Todas las empresas que han sido adquiridas en el primer trimestre del año. 
# Limita la búsqueda a 10 empresas, y recupera solo los campos `name` y `acquisition`.
df_18 =  pd.DataFrame(companies.find({"acquisition.acquired_month": {"$lt": 4}}, {"name": 1, "_id": 0, "acquisition": 1}).limit(10))

display(df_18.head(1))

Unnamed: 0,name,acquisition
0,Kyte,"{'price_amount': None, 'price_currency_code': ..."
1,NetRatings,"{'price_amount': 327000000, 'price_currency_co..."
2,blogTV,"{'price_amount': None, 'price_currency_code': ..."
3,Livestream,"{'price_amount': None, 'price_currency_code': ..."
4,iContact,"{'price_amount': 169000000, 'price_currency_co..."
5,Coghead,"{'price_amount': None, 'price_currency_code': ..."
6,Dailymotion,"{'price_amount': 168000000, 'price_currency_co..."
7,Netvibes,"{'price_amount': None, 'price_currency_code': ..."
8,Flickr,"{'price_amount': None, 'price_currency_code': ..."
9,BabyCenter,"{'price_amount': None, 'price_currency_code': ..."
