In [1]:
# Paso 0: Importar libreria Pandas para cargar DF

import pandas as pd

In [2]:
# Paso 0: Modificar el display para ver todas las filas

pd.options.display.max_rows=None

In [3]:
# Paso 1: Realizar scrapping de Tabla de Wikipedia sobre las empresas actuales del IBEX 35

url = 'https://es.wikipedia.org/wiki/IBEX_35'

df = pd.read_html(url)[2]

In [4]:
# Paso 2: Crear nueva variable de 'id' y ubicarla como primera columna

df['id'] = df.index+1

df.insert(0,'id', df.pop('id'))

df


Unnamed: 0,id,Ticker,Empresa,Sede,Abandono,Sector
0,1,ABG,Abengoa,Sevilla,2015,Ingeniería y otros
1,2,ABE,Abertis Infraestructuras,Madrid,2018,Construcción
2,3,ACR,Aceralia,Bilbao,2004,"Mineral, metales y transformación"
3,4,AGR,Agromán,Madrid,1993,Construcción
4,5,AGS,Aguas de Barcelona,Barcelona,2008,Alimentación y bebidas
5,6,ALM,Almirall,Barcelona,2022,Productos farmacéuticos y biotecnología
6,7,ALT,Altadis,Madrid,2008,Otros bienes de consumo
7,8,AMP,Amper,Pozuelo de Alarcón,1999,Telecomunicaciones y otros
8,9,A3TV,Antena 3 TV,San Sebastián de los Reyes,2008,Medios de comunicación y publicidad
9,10,LOR,Arcelor,Ciudad de Luxemburgo,2006,"Mineral, metales y transformación"


In [5]:
# Paso 5: Modificar títulos de columnas con función lower.


df.columns = df.columns.str.lower()

df.columns

Index(['id', 'ticker', 'empresa', 'sede', 'abandono', 'sector'], dtype='object')

In [6]:
# Paso 7: Analizar valores únicos de variable 'sector'

df.sector.value_counts()

sector
Alimentación y bebidas                       9
Telecomunicaciones y otros                   9
Bancos y cajas de ahorro                     9
Construcción                                 9
Electricidad y gas                           6
Industria química                            4
Mineral, metales y transformación            4
Productos farmacéuticos y biotecnología      3
Medios de comunicación y publicidad          3
Inmobiliarias y otros                        3
Otros bienes de consumo                      2
Papel y artes gráficas                       2
Otros servicios                              1
Ingeniería y otros                           1
Electrónica y software                       1
Fabricación y montaje de bienes de equipo    1
Ocio, turismo y hostelería                   1
Materiales de construcción                   1
Textil, vestido y calzado                    1
Transporte y distribución                    1
Energías renovables                          1
Comerc

In [7]:
# Paso 8: Renombrar valores únicos de variables 'sector' para mejorar consistencia

# Crear diccionario para la nueva codificación

codi = {'Alimentación y bebidas':'Consumer Goods','Telecomunicaciones y otros':'Telco','Bancos y cajas de ahorro':'Banking',
        'Construcción':'Industrial Services','Electricidad y gas':'Energy','Industria química':'Chemical',
        'Mineral, metales y transformación':'Resources','Productos farmacéuticos y biotecnología':'Pharma',
        'Medios de comunicación y publicidad':'Media','Inmobiliarias y otros':'Real Estate','Otros bienes de consumo':'Consumer Goods',
        'Papel y artes gráficas':'Resources','Otros servicios':'Security','Ingeniería y otros':'Industrial Services',
        'Electrónica y software':'High Tech','Fabricación y montaje de bienes de equipo':'Industrial Services','Ocio, turismo y hostelería':'Travel',
        'Materiales de construcción':'Industrial Services','Textil, vestido y calzado':'Retail','Transporte y distribución':'Travel',
        'Energías renovables':'Energy','Comercio':'Commerce','Cartera y holding':'Capital Markets','Petróleo':'Energy',
        'Fabric. y montaje bienes de equipo':'Industrial Services'}


# Reemplazar los valores

df['sector'] = df['sector'].replace(codi)

df.loc[df['empresa'] == 'Aguas de Barcelona', 'sector'] = 'Energy'
df.loc[df['empresa'] == 'Carrefour', 'sector'] = 'Grocery'
df.loc[df['empresa'] == 'DIA', 'sector'] = 'Grocery'
df.loc[df['empresa'] == 'Pryca', 'sector'] = 'Grocery'
df.loc[df['empresa'] == 'Técnicas Reunidas	', 'sector'] = 'Industrial Services'

df                

Unnamed: 0,id,ticker,empresa,sede,abandono,sector
0,1,ABG,Abengoa,Sevilla,2015,Industrial Services
1,2,ABE,Abertis Infraestructuras,Madrid,2018,Industrial Services
2,3,ACR,Aceralia,Bilbao,2004,Resources
3,4,AGR,Agromán,Madrid,1993,Industrial Services
4,5,AGS,Aguas de Barcelona,Barcelona,2008,Energy
5,6,ALM,Almirall,Barcelona,2022,Pharma
6,7,ALT,Altadis,Madrid,2008,Consumer Goods
7,8,AMP,Amper,Pozuelo de Alarcón,1999,Telco
8,9,A3TV,Antena 3 TV,San Sebastián de los Reyes,2008,Media
9,10,LOR,Arcelor,Ciudad de Luxemburgo,2006,Resources


In [8]:
# Paso 9: Ordernar columnas del DF


df = df[['id','ticker','empresa','sector','sede','abandono']]

df

Unnamed: 0,id,ticker,empresa,sector,sede,abandono
0,1,ABG,Abengoa,Industrial Services,Sevilla,2015
1,2,ABE,Abertis Infraestructuras,Industrial Services,Madrid,2018
2,3,ACR,Aceralia,Resources,Bilbao,2004
3,4,AGR,Agromán,Industrial Services,Madrid,1993
4,5,AGS,Aguas de Barcelona,Energy,Barcelona,2008
5,6,ALM,Almirall,Pharma,Barcelona,2022
6,7,ALT,Altadis,Consumer Goods,Madrid,2008
7,8,AMP,Amper,Telco,Pozuelo de Alarcón,1999
8,9,A3TV,Antena 3 TV,Media,San Sebastián de los Reyes,2008
9,10,LOR,Arcelor,Resources,Ciudad de Luxemburgo,2006


In [9]:
# Paso 10: Guardar DF en un csv para ERD Model

df.to_csv('All_companies.csv',index=False)