# Obtener listado Centros Comerciales de España

 Para obetener un listado de centros comerciales.  
 Haremos "Scraping" con la libreria Beautiful Soup a la pagina: 
**https://www.centro-comercial.org**  
Necesitaremos tener instaladas las siguientes librerias:

In [1]:
!pip install googlemaps
import googlemaps
import pandas as pd
from bs4 import BeautifulSoup
from urllib.request import Request, urlopen



In [2]:
#Incluimps la web a scrapear.
hdr = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36'}
page = urlopen(Request('https://www.centro-comercial.org',headers=hdr))
soup = BeautifulSoup(page.read(),"html.parser")
url=[]
route = []
rel =[]
name = []

In [3]:
# Recorremos la pagina https://www.centro-comercial.org/centros-comerciales para conseguir los centros comerciales de España.
for link in soup.find_all('a'):
    if link.get('href')[0:52]=='https://www.centro-comercial.org/centros-comerciales':
        url.append(link.get('href'))

In [4]:
#recorremos las subpaginas para conseguir el nombre del centro comercial
for i in url:
    pages = urlopen(Request(i,headers=hdr))
    soups = BeautifulSoup(pages.read(),"html.parser")
    for web in soups.find_all('a'):
        rel.append(web.get('rel'))
    for sub_heading in soups.find_all(['a']):    
        name.append(sub_heading.text)
        route.append(i)

In [5]:
# guardamos los resulatodos 
zippedList =  list(zip(route,name,rel))
DF = pd.DataFrame(zippedList, columns = ['route' , 'name','rel']).astype(str)

In [6]:
# Tratamos los datos extraidos para obtener el listado completo de los nombres de los centros comerciales alojados en la web
# ya que las direcciones que aparecen nos son correctas en su mayoría.
DF=DF[~DF.name.str.startswith(('Centros'))].reset_index(drop=True)
DF=DF[DF.rel.str.contains(('noopener'))]
DF=DF[~DF.name.str.contains(('Legal|Privacidad|Cookies'))]
DF['Comunidad']= DF['route'].astype(str).str[53:-1]
DF['Centro Comercial']= 'Centro comercial '+DF['name']+', '+DF['Comunidad']+', '+'España'
DF= DF[['Centro Comercial']]
DF.head()

Unnamed: 0,Centro Comercial
17,"Centro comercial Mediterráneo, andalucia, España"
18,"Centro comercial Carrefour Almería, andalucia,..."
19,"Centro comercial Torrecárdenas, andalucia, España"
20,"Centro comercial Copo, andalucia, España"
21,"Centro comercial Gran Plaza, andalucia, España"


Para corregir esa limitación de la web, procedemos a usar la API de Google y obtener la direccion del centro comercial  

# Obtener las coordenadas en la Api de google

In [7]:
#ingresamos la key habilitada par conecatarnos a la API de googlemaps.
gmaps_key= googlemaps.Client(key='AIzaSyBbjRVDE0e0MyGlavAx0Zg-k-JKIUv2jng')

In [8]:
#creamos las columnas en el dataframe para alojar la información proporcionada por la API.
DF['Latitude']= None
DF['Longitude']= None
DF['ADD']= None

In [9]:
#le pediremos a la API, las coordenadas exactas del centro comercia y su dirección completa.
for i in range(0,len(DF),1):
    geocode_result= gmaps_key.geocode(DF.iat[i,0])
    try:
        lat = geocode_result[0]['geometry']['location']['lat']
        lon = geocode_result[0]['geometry']['location']['lng']
        add = geocode_result[0]['formatted_address']
        DF.iat[i, DF.columns.get_loc('Latitude')] = lat
        DF.iat[i, DF.columns.get_loc('Longitude')] = lon
        DF.iat[i, DF.columns.get_loc('ADD')] = add
    except:
        lat = None
        lon = None
        add = None

In [10]:
#extraemos el codigo postal de la direccion obtenida
DF['codigo2'] = DF['ADD'].str.rsplit(',').str[-2]
DF['codigo3'] = DF['ADD'].str.rsplit(',').str[-3]
DF['check']= pd.to_numeric(DF['codigo2'].astype(str).str[:2], errors='coerce').convert_dtypes().fillna(9)
def f(DF):
    if DF['check']==9:
        val=DF['codigo3']
    else:
        val=DF['codigo2']
    return val
DF['CP'] = DF.apply(f, axis=1).str[:6]
DF = DF[['Centro Comercial', 'Latitude','Longitude','ADD','CP']]
DF.head()

Unnamed: 0,Centro Comercial,Latitude,Longitude,ADD,CP
17,"Centro comercial Mediterráneo, andalucia, España",36.8543,-2.4472,"Av. del Mediterráneo, S/N, 04009 Almería, Spain",4009
18,"Centro comercial Carrefour Almería, andalucia,...",36.8412,-2.44439,"Av. del Mediterráneo, 244, 04006 Almería, Spain",4006
19,"Centro comercial Torrecárdenas, andalucia, España",36.8602,-2.44473,"Torre Cárdenas, 04009 Almería, Spain",4009
20,"Centro comercial Copo, andalucia, España",36.7524,-2.80654,"A-389, s/n, 04700 El Ejido, Almería, Spain",4700
21,"Centro comercial Gran Plaza, andalucia, España",36.7744,-2.61344,"Carr de Alicún, s/n, 04740 Roquetas de Mar, Al...",4740


In [11]:
#Ordenamos el dataframe, configuramos los campos y eliminamos las lineas sin datos en el codigo postal.
DF = DF[['Centro Comercial', 'CP','Latitude','Longitude']]
DF['CP'] = pd.to_numeric(DF['CP'], errors='coerce')
DF['Latitude']=DF['Latitude'].astype('float')
DF['Longitude']=DF['Longitude'].astype('float')
DF['Centro Comercial']=DF['Centro Comercial'].astype(str)
DF = DF.dropna(subset=["CP"])

In [13]:
#extraemos el dataframe a csv para su uso posterior.
DF.to_csv('01_Centros_Comerciales.csv' , index=False)