### Import libraries

In [26]:
import pandas as pd
import numpy as np
import re
import matplotlib
import seaborn as sns
import string

### Reading the Dataset

In [27]:
!ls

'Connecting DB to SQL.ipynb'  'Exploring & Cleaning DB.ipynb'


In [140]:
data = pd.read_csv("../Data/BBDD_Empresas2.csv", encoding = "utf8")
data

Unnamed: 0,ID,Id._Empresa,Razón_Social,CIF,Domicilio,Id_Municipio_INE,Municipio,Población,Provincia,País,...,Actividad_2,Actividad_3,Actividad_4,Actividad_5,Actividad_6,Facturación_2019,Inversión_2019,Inversión_2020,Nº_empleados,Capital
0,1,204478,"JOSÉ DÍAZ GARCÍA, S.A.",A30139190,"Ctra. Cartagena-Alicante, km. 30",0354,San Javier,,Murcia,España,...,,,,,,29.37,0.03,,84.0,0.526
1,2,205217,SEPES ENTIDAD PÚBLICA EMPRESARIAL DE SUELO - G...,G28739993,"Pso. de la Castellana, 91",0796,Madrid,,Madrid,España,...,,,,,,34.71,,,154.0,267.277
2,3,206573,INSTITUCIÓN FERIAL DE MADRID (IFEMA),Q2873018B,"Avda. del Partenón, 5",0796,Madrid,,Madrid,España,...,,,,,,187.20,,,427.0,
3,4,207343,"AIRTIFICIAL INTELLIGENCE STRUCTURES, S.A.",A28249977,"General Díaz Porlier, 49",0796,Madrid,,Madrid,España,...,Project management,,,,,7.54,0.30,,26.0,131.898
4,5,207355,"INTECSA-INARSA, S.A.",A28139111,"Julián Camarillo, 53",0796,Madrid,,Madrid,España,...,Project management,,,,,8.23,0.09,,113.0,3.636
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
10200,10201,10041981,"ARTIC INDUSTRIAL QUÍMICA, S.A.",A25437187,"Ctra. de Gerb, 51-73",0404,Balaguer,,Lleida,España,...,,,,,,4.94,,,33.0,0.060
10201,10202,10042019,"BARNICES PINTURAS Y DERIVADOS EQ, S.L.",B01052711,"Cno. Santa Lucia , 12",0437,Oyón-Oion,,Araba/Álava,España,...,,,,,,3.03,,,17.0,0.060
10202,10203,10042039,"PINTURAS RODA FUERTE, S.L.",B02237345,"Cno. de Minaya, s/n – Aptdo. 24",0693,Roda (La),,Albacete,España,...,,,,,,,,,,0.198
10203,10204,10042044,"SOLRAC COATINGS, S.L.",B65920175,"Agricultura, 41-43",2114,Sant Feliu de Llobregat,,Barcelona,España,...,,,,,,3.38,,,10.0,0.085


### Exploring the Dataset

In [141]:
data.shape

(10205, 30)

Las columnas de **'Actividad'** hacen referencia a la actividad principal de cada Promotor, Arquitecto o Contratista. Como podemos ver, existen varios 'null values' en las **'Actividades 2, 3, 4, 5, 6'.** Sin embargo, esto es normal, ya que varias empresas pueden tener un solo tipo de actividad.

In [142]:
data.isna().sum()

ID                           0
Id._Empresa                  0
Razón_Social                 0
CIF                        545
Domicilio                    0
Id_Municipio_INE           236
Municipio                  236
Población                 9551
Provincia                    5
País                         0
Código_Postal              254
Teléfono                   235
Teléfono.1               10205
Fax                       3015
Web                       2249
Email                     1800
CNAE                      1409
Descripción_actividad       34
Área_principal               0
Actividad_1                  0
Actividad_2               9452
Actividad_3              10138
Actividad_4              10186
Actividad_5              10201
Actividad_6              10203
Facturación_2019          1460
Inversión_2019            7032
Inversión_2020           10147
Nº_empleados              2438
Capital                   2084
dtype: int64

In [143]:
data.columns

Index(['ID', 'Id._Empresa', 'Razón_Social', 'CIF', 'Domicilio',
       'Id_Municipio_INE', 'Municipio', 'Población', 'Provincia', 'País',
       'Código_Postal', 'Teléfono', 'Teléfono.1', 'Fax', 'Web', 'Email',
       'CNAE', 'Descripción_actividad', 'Área_principal', 'Actividad_1',
       'Actividad_2', 'Actividad_3', 'Actividad_4', 'Actividad_5',
       'Actividad_6', 'Facturación_2019', 'Inversión_2019', 'Inversión_2020',
       'Nº_empleados', 'Capital'],
      dtype='object')

#### La columna **'Población'** no es de gran utilidad para nosotros ya que la mayoría es nulo.

In [144]:
data = data.drop(columns = ['Población'])
data

Unnamed: 0,ID,Id._Empresa,Razón_Social,CIF,Domicilio,Id_Municipio_INE,Municipio,Provincia,País,Código_Postal,...,Actividad_2,Actividad_3,Actividad_4,Actividad_5,Actividad_6,Facturación_2019,Inversión_2019,Inversión_2020,Nº_empleados,Capital
0,1,204478,"JOSÉ DÍAZ GARCÍA, S.A.",A30139190,"Ctra. Cartagena-Alicante, km. 30",0354,San Javier,Murcia,España,30730,...,,,,,,29.37,0.03,,84.0,0.526
1,2,205217,SEPES ENTIDAD PÚBLICA EMPRESARIAL DE SUELO - G...,G28739993,"Pso. de la Castellana, 91",0796,Madrid,Madrid,España,28046,...,,,,,,34.71,,,154.0,267.277
2,3,206573,INSTITUCIÓN FERIAL DE MADRID (IFEMA),Q2873018B,"Avda. del Partenón, 5",0796,Madrid,Madrid,España,28042,...,,,,,,187.20,,,427.0,
3,4,207343,"AIRTIFICIAL INTELLIGENCE STRUCTURES, S.A.",A28249977,"General Díaz Porlier, 49",0796,Madrid,Madrid,España,28001,...,Project management,,,,,7.54,0.30,,26.0,131.898
4,5,207355,"INTECSA-INARSA, S.A.",A28139111,"Julián Camarillo, 53",0796,Madrid,Madrid,España,28037,...,Project management,,,,,8.23,0.09,,113.0,3.636
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
10200,10201,10041981,"ARTIC INDUSTRIAL QUÍMICA, S.A.",A25437187,"Ctra. de Gerb, 51-73",0404,Balaguer,Lleida,España,25600,...,,,,,,4.94,,,33.0,0.060
10201,10202,10042019,"BARNICES PINTURAS Y DERIVADOS EQ, S.L.",B01052711,"Cno. Santa Lucia , 12",0437,Oyón-Oion,Araba/Álava,España,01320,...,,,,,,3.03,,,17.0,0.060
10202,10203,10042039,"PINTURAS RODA FUERTE, S.L.",B02237345,"Cno. de Minaya, s/n – Aptdo. 24",0693,Roda (La),Albacete,España,02630,...,,,,,,,,,,0.198
10203,10204,10042044,"SOLRAC COATINGS, S.L.",B65920175,"Agricultura, 41-43",2114,Sant Feliu de Llobregat,Barcelona,España,08980,...,,,,,,3.38,,,10.0,0.085


#### La columna **'Id. Empresa'** no es de gran utilidad para nosotros ya que este es un ID que se le da desde el sitio donde nos hemos savado la base de datos, Ali Market, y por tanto, en caso de meter en nuestra base de datos nuevas empresas, no corresponderan los ID.

In [145]:
data = data.drop(columns = ['Id._Empresa'])
data

Unnamed: 0,ID,Razón_Social,CIF,Domicilio,Id_Municipio_INE,Municipio,Provincia,País,Código_Postal,Teléfono,...,Actividad_2,Actividad_3,Actividad_4,Actividad_5,Actividad_6,Facturación_2019,Inversión_2019,Inversión_2020,Nº_empleados,Capital
0,1,"JOSÉ DÍAZ GARCÍA, S.A.",A30139190,"Ctra. Cartagena-Alicante, km. 30",0354,San Javier,Murcia,España,30730,968191056.0,...,,,,,,29.37,0.03,,84.0,0.526
1,2,SEPES ENTIDAD PÚBLICA EMPRESARIAL DE SUELO - G...,G28739993,"Pso. de la Castellana, 91",0796,Madrid,Madrid,España,28046,915565015.0,...,,,,,,34.71,,,154.0,267.277
2,3,INSTITUCIÓN FERIAL DE MADRID (IFEMA),Q2873018B,"Avda. del Partenón, 5",0796,Madrid,Madrid,España,28042,902221515.0,...,,,,,,187.20,,,427.0,
3,4,"AIRTIFICIAL INTELLIGENCE STRUCTURES, S.A.",A28249977,"General Díaz Porlier, 49",0796,Madrid,Madrid,España,28001,911211700.0,...,Project management,,,,,7.54,0.30,,26.0,131.898
4,5,"INTECSA-INARSA, S.A.",A28139111,"Julián Camarillo, 53",0796,Madrid,Madrid,España,28037,915673800.0,...,Project management,,,,,8.23,0.09,,113.0,3.636
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
10200,10201,"ARTIC INDUSTRIAL QUÍMICA, S.A.",A25437187,"Ctra. de Gerb, 51-73",0404,Balaguer,Lleida,España,25600,973450717.0,...,,,,,,4.94,,,33.0,0.060
10201,10202,"BARNICES PINTURAS Y DERIVADOS EQ, S.L.",B01052711,"Cno. Santa Lucia , 12",0437,Oyón-Oion,Araba/Álava,España,01320,,...,,,,,,3.03,,,17.0,0.060
10202,10203,"PINTURAS RODA FUERTE, S.L.",B02237345,"Cno. de Minaya, s/n – Aptdo. 24",0693,Roda (La),Albacete,España,02630,,...,,,,,,,,,,0.198
10203,10204,"SOLRAC COATINGS, S.L.",B65920175,"Agricultura, 41-43",2114,Sant Feliu de Llobregat,Barcelona,España,08980,936661800.0,...,,,,,,3.38,,,10.0,0.085


In [146]:
data = data.drop(columns = ['Teléfono.1'])
data

Unnamed: 0,ID,Razón_Social,CIF,Domicilio,Id_Municipio_INE,Municipio,Provincia,País,Código_Postal,Teléfono,...,Actividad_2,Actividad_3,Actividad_4,Actividad_5,Actividad_6,Facturación_2019,Inversión_2019,Inversión_2020,Nº_empleados,Capital
0,1,"JOSÉ DÍAZ GARCÍA, S.A.",A30139190,"Ctra. Cartagena-Alicante, km. 30",0354,San Javier,Murcia,España,30730,968191056.0,...,,,,,,29.37,0.03,,84.0,0.526
1,2,SEPES ENTIDAD PÚBLICA EMPRESARIAL DE SUELO - G...,G28739993,"Pso. de la Castellana, 91",0796,Madrid,Madrid,España,28046,915565015.0,...,,,,,,34.71,,,154.0,267.277
2,3,INSTITUCIÓN FERIAL DE MADRID (IFEMA),Q2873018B,"Avda. del Partenón, 5",0796,Madrid,Madrid,España,28042,902221515.0,...,,,,,,187.20,,,427.0,
3,4,"AIRTIFICIAL INTELLIGENCE STRUCTURES, S.A.",A28249977,"General Díaz Porlier, 49",0796,Madrid,Madrid,España,28001,911211700.0,...,Project management,,,,,7.54,0.30,,26.0,131.898
4,5,"INTECSA-INARSA, S.A.",A28139111,"Julián Camarillo, 53",0796,Madrid,Madrid,España,28037,915673800.0,...,Project management,,,,,8.23,0.09,,113.0,3.636
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
10200,10201,"ARTIC INDUSTRIAL QUÍMICA, S.A.",A25437187,"Ctra. de Gerb, 51-73",0404,Balaguer,Lleida,España,25600,973450717.0,...,,,,,,4.94,,,33.0,0.060
10201,10202,"BARNICES PINTURAS Y DERIVADOS EQ, S.L.",B01052711,"Cno. Santa Lucia , 12",0437,Oyón-Oion,Araba/Álava,España,01320,,...,,,,,,3.03,,,17.0,0.060
10202,10203,"PINTURAS RODA FUERTE, S.L.",B02237345,"Cno. de Minaya, s/n – Aptdo. 24",0693,Roda (La),Albacete,España,02630,,...,,,,,,,,,,0.198
10203,10204,"SOLRAC COATINGS, S.L.",B65920175,"Agricultura, 41-43",2114,Sant Feliu de Llobregat,Barcelona,España,08980,936661800.0,...,,,,,,3.38,,,10.0,0.085


In [147]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10205 entries, 0 to 10204
Data columns (total 27 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   ID                     10205 non-null  int64  
 1   Razón_Social           10205 non-null  object 
 2   CIF                    9660 non-null   object 
 3   Domicilio              10205 non-null  object 
 4   Id_Municipio_INE       9969 non-null   object 
 5   Municipio              9969 non-null   object 
 6   Provincia              10200 non-null  object 
 7   País                   10205 non-null  object 
 8   Código_Postal          9951 non-null   object 
 9   Teléfono               9970 non-null   float64
 10  Fax                    7190 non-null   float64
 11  Web                    7956 non-null   object 
 12  Email                  8405 non-null   object 
 13  CNAE                   8796 non-null   float64
 14  Descripción_actividad  10171 non-null  object 
 15  Ár

In [148]:
data["Teléfono"] = pd.to_numeric(data["Teléfono"])

In [149]:
data.head()

Unnamed: 0,ID,Razón_Social,CIF,Domicilio,Id_Municipio_INE,Municipio,Provincia,País,Código_Postal,Teléfono,...,Actividad_2,Actividad_3,Actividad_4,Actividad_5,Actividad_6,Facturación_2019,Inversión_2019,Inversión_2020,Nº_empleados,Capital
0,1,"JOSÉ DÍAZ GARCÍA, S.A.",A30139190,"Ctra. Cartagena-Alicante, km. 30",354,San Javier,Murcia,España,30730,968191056.0,...,,,,,,29.37,0.03,,84.0,0.526
1,2,SEPES ENTIDAD PÚBLICA EMPRESARIAL DE SUELO - G...,G28739993,"Pso. de la Castellana, 91",796,Madrid,Madrid,España,28046,915565015.0,...,,,,,,34.71,,,154.0,267.277
2,3,INSTITUCIÓN FERIAL DE MADRID (IFEMA),Q2873018B,"Avda. del Partenón, 5",796,Madrid,Madrid,España,28042,902221515.0,...,,,,,,187.2,,,427.0,
3,4,"AIRTIFICIAL INTELLIGENCE STRUCTURES, S.A.",A28249977,"General Díaz Porlier, 49",796,Madrid,Madrid,España,28001,911211700.0,...,Project management,,,,,7.54,0.3,,26.0,131.898
4,5,"INTECSA-INARSA, S.A.",A28139111,"Julián Camarillo, 53",796,Madrid,Madrid,España,28037,915673800.0,...,Project management,,,,,8.23,0.09,,113.0,3.636


In [150]:
data = data.fillna("0")

In [151]:
data['CIF'].replace(0, '', regex=True)

0        A30139190
1        G28739993
2        Q2873018B
3        A28249977
4        A28139111
           ...    
10200    A25437187
10201    B01052711
10202    B02237345
10203    B65920175
10204    B46861779
Name: CIF, Length: 10205, dtype: object

In [152]:
data.head()

Unnamed: 0,ID,Razón_Social,CIF,Domicilio,Id_Municipio_INE,Municipio,Provincia,País,Código_Postal,Teléfono,...,Actividad_2,Actividad_3,Actividad_4,Actividad_5,Actividad_6,Facturación_2019,Inversión_2019,Inversión_2020,Nº_empleados,Capital
0,1,"JOSÉ DÍAZ GARCÍA, S.A.",A30139190,"Ctra. Cartagena-Alicante, km. 30",354,San Javier,Murcia,España,30730,968191056.0,...,0,0,0,0,0,29.37,0.03,0,84.0,0.526
1,2,SEPES ENTIDAD PÚBLICA EMPRESARIAL DE SUELO - G...,G28739993,"Pso. de la Castellana, 91",796,Madrid,Madrid,España,28046,915565015.0,...,0,0,0,0,0,34.71,0.0,0,154.0,267.277
2,3,INSTITUCIÓN FERIAL DE MADRID (IFEMA),Q2873018B,"Avda. del Partenón, 5",796,Madrid,Madrid,España,28042,902221515.0,...,0,0,0,0,0,187.2,0.0,0,427.0,0.0
3,4,"AIRTIFICIAL INTELLIGENCE STRUCTURES, S.A.",A28249977,"General Díaz Porlier, 49",796,Madrid,Madrid,España,28001,911211700.0,...,Project management,0,0,0,0,7.54,0.3,0,26.0,131.898
4,5,"INTECSA-INARSA, S.A.",A28139111,"Julián Camarillo, 53",796,Madrid,Madrid,España,28037,915673800.0,...,Project management,0,0,0,0,8.23,0.09,0,113.0,3.636


### Export the Dataset

In [153]:
data.to_csv("../Data/BBDD_Empresas_clean.csv")