In [1]:
#Empezamos configurando el ambiente de trabajo, es decir, que nos preparamos importando las librerías y comandos necesarios.
from bs4 import BeautifulSoup
import requests
import pandas as pd
import numpy as np

#Además, determinamos el sitio web del cual extraeremos información: el sitio web de la SUNEDU
lista_sunedu="https://www.sunedu.gob.pe/lista-universidades/"
table_id1="tablepress-23" #Universidades Privadas
table_id2="tablepress-22" #Universidades Públicas
response=requests.get(lista_sunedu)
soup=BeautifulSoup(response.text, "html.parser")

In [8]:
!pip install pandas



In [9]:
!pip install numpy



In [10]:
!pip install requests



In [12]:
!pip install bs4



In [164]:
#Continuamos extrayendo la tabla correspondiente a las universidades privadas. Para ubicarla previamente se le inspecciona.

In [165]:
#Esto es muy importante dado que en el sitio web hay dos tablas, así que debe prestarse atención para anotar con cuál se trabaja

In [168]:
#Nótese que tambien se creó la dummy que indica el estado de su licencia [1 = licenciada; 0 = no licenciada]

In [13]:
privada_table=soup.find("table", attrs={"id": table_id1})
df_privada=pd.read_html(str(privada_table))
df_privada=df_privada[0]
df_privada['TIPO']="Privada"
df_privada['LICENCIADA']= pd.notnull(df_privada['FECHA DE PUB. DIARIO EL PERUANO'])*1
df_privada=df_privada.loc[:, ['UNIVERSIDAD', 'DEPARTAMENTO', 'PROVINCIA','TIPO', 'LICENCIADA']]
df_privada

Unnamed: 0,UNIVERSIDAD,DEPARTAMENTO,PROVINCIA,TIPO,LICENCIADA
0,Pontificia Universidad Católica del Perú,Lima,Lima,Privada,1
1,Universidad Peruana Cayetano Heredia,Lima,Lima,Privada,1
2,Universidad Católica de Santa María,Arequipa,Arequipa,Privada,1
3,Universidad del Pacífico,Lima,Lima,Privada,1
4,Universidad de Lima,Lima,Lima,Privada,1
...,...,...,...,...,...
87,Universidad Santo Tomás de Aquino de Ciencia e...,Junín,Huancayo,Privada,0
88,Universidad Privada SISE,Lima,Lima,Privada,0
89,Universidad Seminario Evangélico de Lima (*12),Lima,Lima,Privada,0
90,Universidad Seminario Bíblico Andino (*12),Lima,Lima,Privada,0


In [167]:
#corresponde repetir el proceso, pero con las universidades públicas.
#Nótese que tambien se creó la dummy que indica el estado de su licencia [1 = licenciada; 0 = no licenciada]

In [20]:
publica_table=soup.find("table", attrs={"id": table_id2})
df_publica=pd.read_html(str(publica_table))
df_publica=df_publica[0]
df_publica['TIPO']="Publica"
df_publica['LICENCIADA']= pd.notnull(df_publica['FECHA DE PUB. DIARIO EL PERUANO'])*1
df_publica=df_publica.loc[:, ['UNIVERSIDAD', 'DEPARTAMENTO', 'PROVINCIA','TIPO', 'LICENCIADA']]
df_publica

Unnamed: 0,UNIVERSIDAD,DEPARTAMENTO,PROVINCIA,TIPO,LICENCIADA
0,Universidad Nacional Mayor de San Marcos,Lima,Lima,Publica,1
1,Universidad Nacional de San Cristóbal de Huamanga,Ayacucho,Huamanga,Publica,1
2,Universidad Nacional de San Antonio Abad del C...,Cusco,Cusco,Publica,1
3,Universidad Nacional de Trujillo,La Libertad,Trujillo,Publica,1
4,Universidad Nacional de San Agustín de Arequipa,Arequipa,Arequipa,Publica,1
5,Universidad Nacional de Ingeniería,Lima,Lima,Publica,1
6,Universidad Nacional Agraria La Molina,Lima,Lima,Publica,1
7,Universidad Nacional San Luis Gonzaga,Ica,Ica,Publica,0
8,Universidad Nacional del Centro del Perú,Junín,Huancayo,Publica,1
9,Universidad Nacional de la Amazonía Peruana,Loreto,Maynas,Publica,1


In [169]:
#Ahora se une las dos tablas en un solo dataframe 

In [21]:
df_universidad=df_privada.append(df_publica, ignore_index=True)
df_universidad=pd.get_dummies(df_universidad, columns=['TIPO'])
df_universidad

Unnamed: 0,UNIVERSIDAD,DEPARTAMENTO,PROVINCIA,LICENCIADA,TIPO_Privada,TIPO_Publica
0,Pontificia Universidad Católica del Perú,Lima,Lima,1,1,0
1,Universidad Peruana Cayetano Heredia,Lima,Lima,1,1,0
2,Universidad Católica de Santa María,Arequipa,Arequipa,1,1,0
3,Universidad del Pacífico,Lima,Lima,1,1,0
4,Universidad de Lima,Lima,Lima,1,1,0
...,...,...,...,...,...,...
138,Universidad Nacional Autónoma de Huanta,Ayacucho,Huanta,1,0,1
139,Universidad Nacional Tecnológica de San Juan d...,Lima,Lima,0,0,1
140,Universidad Autónoma Municipal de Los Olivos,Lima,Lima,0,0,1
141,Universidad Nacional Autónoma de Tayacaja Dani...,Huancavelica,Tayacaja,1,0,1


## Geocoding de las universidades

In [172]:
#Se inicia configurando el ambiente de trabajo, con lo cual se importa libreríasy comandos a usar.

In [15]:
# Packages
import pandas as pd
import os
import urllib.request, json
import csv
import numpy as np
from tqdm import tqdm_notebook as tqdm # libreria para contabilizar tiempo de ejecución

In [173]:
#lo que sigue es importantísimo: vincular con google maps, puesto que de este obtendremos la información geográfica

In [16]:
import googlemaps
from datetime import datetime
gmaps = googlemaps.Client(key='AIzaSyDr6c93pk9Tepnfr5UqiLxOk_mnwG4Qevo')  # ingreso el Key (token)

In [174]:
#se define lat como latitud y lng como longitud.

In [175]:
df_universidad['lat']=None
df_universidad['lng']=None
for index in range(df_universidad.shape[0]):
    df_temp=df_universidad.take([index])
    geocode_result = gmaps.geocode(str(df_temp['UNIVERSIDAD'])+
                                   str(df_temp['DEPARTAMENTO'])+
                                   str(df_temp['PROVINCIA']) ,
                                   region='PE')
    lat=geocode_result[0]['geometry']['location']['lat']
    lng=geocode_result[0]['geometry']['location']['lng']
    df_universidad.loc[index,'lat']=lat
    df_universidad.loc[index,'lng']=lng
df_universidad

#Podemos ahora ver el conjunto de universidades con su respectiva información geográfica

Unnamed: 0,UNIVERSIDAD,DEPARTAMENTO,PROVINCIA,LICENCIADA,TIPO_Privada,TIPO_Publica,lat,lng,colors
0,Pontificia Universidad Católica del Perú,Lima,Lima,1,1,0,-12.069512,-77.079359,pink
1,Universidad Peruana Cayetano Heredia,Lima,Lima,1,1,0,-12.023977,-77.056505,pink
2,Universidad Católica de Santa María,Arequipa,Arequipa,1,1,0,-16.406179,-71.54763,pink
3,Universidad del Pacífico,Lima,Lima,1,1,0,-12.083797,-77.048806,pink
4,Universidad de Lima,Lima,Lima,1,1,0,-12.084724,-76.971009,pink
...,...,...,...,...,...,...,...,...,...
138,Universidad Nacional Autónoma de Huanta,Ayacucho,Huanta,1,0,1,-12.939932,-74.243683,darkgreen
139,Universidad Nacional Tecnológica de San Juan d...,Lima,Lima,0,0,1,-12.046373,-77.042754,darkred
140,Universidad Autónoma Municipal de Los Olivos,Lima,Lima,0,0,1,-12.000352,-77.08339,darkred
141,Universidad Nacional Autónoma de Tayacaja Dani...,Huancavelica,Tayacaja,1,0,1,-12.398693,-74.86892,darkgreen


In [176]:
#Mediante el siguiente comando se exporta a EXCEL. Este archivo resultante ha sido subido al repositorio

In [21]:
df_universidad = df_universidad.to_excel("universidades grupo_6.xlsx")


In [23]:
import pandas as pd
from pandas import Series, DataFrame
import numpy as np
import matplotlib.pyplot as plt 
import chardet

Collecting geopandas
  Using cached geopandas-0.11.0-py3-none-any.whl (1.0 MB)
Collecting fiona>=1.8
  Using cached Fiona-1.8.21.tar.gz (1.0 MB)
  Using cached Fiona-1.8.20.tar.gz (1.3 MB)
  Using cached Fiona-1.8.19.tar.gz (1.3 MB)
  Using cached Fiona-1.8.18.tar.gz (1.3 MB)
  Using cached Fiona-1.8.17.tar.gz (1.3 MB)
  Using cached Fiona-1.8.16.tar.gz (1.3 MB)
  Using cached Fiona-1.8.15.tar.gz (1.3 MB)
  Using cached Fiona-1.8.14.tar.gz (1.3 MB)
  Using cached Fiona-1.8.13.post1.tar.gz (1.2 MB)
  Using cached Fiona-1.8.13.tar.gz (1.2 MB)
  Using cached Fiona-1.8.12.tar.gz (1.2 MB)
  Using cached Fiona-1.8.11.tar.gz (1.2 MB)
  Using cached Fiona-1.8.10.tar.gz (1.2 MB)
  Using cached Fiona-1.8.9.post2.tar.gz (1.2 MB)
  Using cached Fiona-1.8.9.post1.tar.gz (1.2 MB)
  Using cached Fiona-1.8.9.tar.gz (1.2 MB)
  Using cached Fiona-1.8.8.tar.gz (1.7 MB)
  Using cached Fiona-1.8.7.tar.gz (1.7 MB)
  Using cached Fiona-1.8.6.tar.gz (1.7 MB)
  Using cached Fiona-1.8.5.tar.gz (1.7 MB)
  Using 

    ERROR: Command errored out with exit status 1:
     command: 'C:\Users\Ariana\anaconda3\python.exe' -c 'import sys, setuptools, tokenize; sys.argv[0] = '"'"'C:\\Users\\Ariana\\AppData\\Local\\Temp\\pip-install-cssp3xaq\\fiona_50444037d9454399bc908ca5f83f396e\\setup.py'"'"'; __file__='"'"'C:\\Users\\Ariana\\AppData\\Local\\Temp\\pip-install-cssp3xaq\\fiona_50444037d9454399bc908ca5f83f396e\\setup.py'"'"';f=getattr(tokenize, '"'"'open'"'"', open)(__file__);code=f.read().replace('"'"'\r\n'"'"', '"'"'\n'"'"');f.close();exec(compile(code, __file__, '"'"'exec'"'"'))' egg_info --egg-base 'C:\Users\Ariana\AppData\Local\Temp\pip-pip-egg-info-9w7htq1b'
         cwd: C:\Users\Ariana\AppData\Local\Temp\pip-install-cssp3xaq\fiona_50444037d9454399bc908ca5f83f396e\
    Complete output (1 lines):
    A GDAL API version must be specified. Provide a path to gdal-config using a GDAL_CONFIG environment variable or use a GDAL_VERSION environment variable.
    ----------------------------------------
   

In [47]:
!pip install shapely



In [62]:
!pip install folium

Collecting folium
  Downloading folium-0.12.1.post1-py2.py3-none-any.whl (95 kB)
Collecting branca>=0.3.0
  Downloading branca-0.5.0-py3-none-any.whl (24 kB)
Installing collected packages: branca, folium
Successfully installed branca-0.5.0 folium-0.12.1.post1


In [67]:
from IPython.display import display, HTML

In [11]:
import geopandas as gpd

In [21]:
# objects from Geopandas 

import geopandas as gpd
from geopandas import GeoSeries


In [1]:
import geopandas as gpd

In [6]:
!pip install plotly

Collecting plotly
  Downloading plotly-5.9.0-py2.py3-none-any.whl (15.2 MB)
Collecting tenacity>=6.2.0
  Downloading tenacity-8.0.1-py3-none-any.whl (24 kB)
Installing collected packages: tenacity, plotly
Successfully installed plotly-5.9.0 tenacity-8.0.1


In [10]:
import json

In [12]:
!pip install gdal



In [15]:
!pip install folium

Collecting folium
  Using cached folium-0.12.1.post1-py2.py3-none-any.whl (95 kB)
Collecting branca>=0.3.0
  Using cached branca-0.5.0-py3-none-any.whl (24 kB)
Collecting requests
  Downloading requests-2.28.1-py3-none-any.whl (62 kB)
Collecting urllib3<1.27,>=1.21.1
  Downloading urllib3-1.26.10-py2.py3-none-any.whl (139 kB)
Collecting idna<4,>=2.5
  Downloading idna-3.3-py3-none-any.whl (61 kB)
Collecting charset-normalizer<3,>=2
  Downloading charset_normalizer-2.1.0-py3-none-any.whl (39 kB)
Installing collected packages: urllib3, idna, charset-normalizer, requests, branca, folium
Successfully installed branca-0.5.0 charset-normalizer-2.1.0 folium-0.12.1.post1 idna-3.3 requests-2.28.1 urllib3-1.26.10


In [24]:
import folium

In [31]:
import pandas as pd

In [177]:
#Lo previo también sirvió para configurar el ambiente de trabajo. 

In [178]:
#En lo que sigue se obtiene la coordenada del Perú, el cual será el punto de partida para la ubicación de las universidades
#contenidas en sus fronteras, sean privadas o públicas

In [179]:
#-10.40639427007711, -75.3383822662524 son las coordenadas del Perú

In [180]:
world = folium.Map(
    zoom_start=5,
    location=[-10.40639427007711, -75.33838226625241])

world

In [182]:
#El siguiente ploteo es una primera visualización que permite confirmar si vamos (o no) por buen camino

In [181]:
world = folium.Map(
    zoom_start=6,
    location=[-10.40639427007711, -75.33838226625241]
)

for _, universidad in df_universidad.iterrows():
    folium.Marker(
        location=[universidad['lat'], universidad['lng']],
    ).add_to(world)

world

In [183]:
#Lo siguiente es crear subsets para diferencias universidades públicas de privadas; y crear un mapa para cada caso

In [134]:
temp_priv = df_universidad[df_universidad.TIPO_Privada==1]
temp_publ = df_universidad[df_universidad.TIPO_Privada==0]


In [184]:
def select_marker_color(row):
    if row['LICENCIADA'] == 1 and row['TIPO_Privada'] ==1:
        return 'pink'
    elif row['LICENCIADA'] == 0 and row['TIPO_Privada'] ==1:
        return 'blue'
    elif row['LICENCIADA'] == 1 and row['TIPO_Publica'] ==1:
        return 'darkgreen' 
    elif row['LICENCIADA'] == 0 and row['TIPO_Publica'] ==1:
        return 'darkred'
temp_priv['colors'] = temp_priv.apply(select_marker_color, axis=1)
temp_priv.head(10)
world_all_cities_colored = folium.Map(
    zoom_start=4.5
,
    location=[-10.40639427007711, -75.33838226625241]
)

for _, universidad in temp_priv.iterrows():
    folium.Marker(
        location=[universidad['lat'], universidad['lng']],
          popup=universidad[0],
        icon=folium.Icon(color=universidad['colors'], prefix='fa', icon='circle')
    ).add_to(world_all_cities_colored)
    
world_all_cities_colored



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  temp_priv['colors'] = temp_priv.apply(select_marker_color, axis=1)


In [185]:
def select_marker_color(row):
    if row['LICENCIADA'] == 1 and row['TIPO_Privada'] ==1:
        return 'pink'
    elif row['LICENCIADA'] == 0 and row['TIPO_Privada'] ==1:
        return 'blue'
    elif row['LICENCIADA'] == 1 and row['TIPO_Publica'] ==1:
        return 'darkgreen' 
    elif row['LICENCIADA'] == 0 and row['TIPO_Publica'] ==1:
        return 'darkred'
temp_publ['colors'] = temp_publ.apply(select_marker_color, axis=1)
temp_publ.head(10)
world_all_cities_colored = folium.Map(
    zoom_start=5
,
    location=[-10.40639427007711, -75.33838226625241]
)

for _, universidad in temp_publ.iterrows():
    folium.Marker(
        location=[universidad['lat'], universidad['lng']],
        popup=universidad[0],
        icon=folium.Icon(color=universidad['colors'], prefix='fa', icon='circle')
    ).add_to(world_all_cities_colored)
    
world_all_cities_colored

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  temp_publ['colors'] = temp_publ.apply(select_marker_color, axis=1)
