# Data Extraction

In [1]:
import pandas as pd
from sqlalchemy import create_engine

In [2]:
#get the web page
url = "https://es.wikipedia.org/wiki/La_M%C3%A1s_Draga_(M%C3%A9xico)"

In [3]:
# Extract data from all seasons of the show
html = pd.read_html(url)
drags_s1 = html[3]
drags_s2 = html[6]
drags_s3 = html[9]
drags_s4 = html[12]
drags_s5 = html[15]
drags_s6 = html[18]

# Data Transformation

In [4]:
# add the column season and the number to each table
drags_s1["Temporada"] = "1"
drags_s2["Temporada"] = "2"
drags_s3["Temporada"] = "3"
drags_s4["Temporada"] = "4"
drags_s5["Temporada"] = "5"
drags_s6["Temporada"] = "6"

In [5]:
# create the data frame with all seasons of the show 
df_drags = pd.concat([drags_s1, drags_s2, drags_s3, drags_s4, drags_s5, drags_s6])
df_drags

Unnamed: 0,Lugar,Participante,Nombre,Lugar de residencia,Edad,Retos ganados,Resultado,Temporada,Participante.1,Selección
0,1º,"Deborah ""La Grande""",Ramses Molina,Ciudad de México,14 de mayo de 1988 (35 años),0.0,Ganadora[7]​,1,,
1,2º,Bárbara Durango,Ricardo Martínez,Ciudad de México,15 de agosto de 1983 (40 años),1.0,Finalistas,1,,
2,3º,Eva Blunt,Pablo Levy Morales,Ciudad de México,15 de enero de 1987 (36 años),1.0,Finalistas,1,,
3,4º,Margaret Y Ya,Margaret Peltier,Ciudad de México,13 de mayo de 1994 (29 años),2.0,Finalistas,1,,
4,5º,Lana Boswell,Alan de Jesús Cruz,Ciudad de México,11 de mayo de 1993 (30 años),0.0,3ª eliminada,1,,
...,...,...,...,...,...,...,...,...,...,...
9,,Purga,Jesús Toxqui,Puebla,20 años,,,6,,Audiciones
10,,Shantelle,Saúl Palomo,"Monterrey, Nuevo Leon",22 años,,,6,,Audiciones
11,12°,Braulio 8000,Braulio Fernandez,"Cuernavaca, Morelos",24 años,0.0,3ª eliminado,6,,Audiciones
12,14°/13°,Ank Cosart,Paulo Magallanes,"San Luis, Argentina",33 años,0.0,1ª/2ª Eliminada,6,,La Más Votada


In [6]:
df_drags.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 70 entries, 0 to 13
Data columns (total 10 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   Lugar                59 non-null     object 
 1   Participante         70 non-null     object 
 2   Nombre               70 non-null     object 
 3   Lugar de residencia  70 non-null     object 
 4   Edad                 70 non-null     object 
 5   Retos ganados        62 non-null     float64
 6   Resultado            59 non-null     object 
 7   Temporada            70 non-null     object 
 8   Participante.1       10 non-null     object 
 9   Selección            63 non-null     object 
dtypes: float64(1), object(9)
memory usage: 6.0+ KB


In [7]:
# cleaning the data
df_drags["Edad"] = df_drags["Edad"].astype(str)
pattern = r'(\d+)\s*años'
df_drags["Edad"] = df_drags["Edad"].str.extract(pattern, expand=False)
print(df_drags["Edad"])

0     35
1     40
2     36
3     29
4     30
      ..
9     20
10    22
11    24
12    33
13    28
Name: Edad, Length: 70, dtype: object


In [8]:
df_drags["Edad"] = df_drags["Edad"].astype(int)
df_drags["Temporada"] = df_drags["Temporada"].astype(int)
df_drags.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 70 entries, 0 to 13
Data columns (total 10 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   Lugar                59 non-null     object 
 1   Participante         70 non-null     object 
 2   Nombre               70 non-null     object 
 3   Lugar de residencia  70 non-null     object 
 4   Edad                 70 non-null     int32  
 5   Retos ganados        62 non-null     float64
 6   Resultado            59 non-null     object 
 7   Temporada            70 non-null     int32  
 8   Participante.1       10 non-null     object 
 9   Selección            63 non-null     object 
dtypes: float64(1), int32(2), object(7)
memory usage: 5.5+ KB


In [9]:
df_drags["Retos ganados"] = df_drags["Retos ganados"].fillna(0).astype(int)
df_drags["Retos ganados"] = df_drags["Retos ganados"].astype(int)
df_drags.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 70 entries, 0 to 13
Data columns (total 10 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   Lugar                59 non-null     object
 1   Participante         70 non-null     object
 2   Nombre               70 non-null     object
 3   Lugar de residencia  70 non-null     object
 4   Edad                 70 non-null     int32 
 5   Retos ganados        70 non-null     int32 
 6   Resultado            59 non-null     object
 7   Temporada            70 non-null     int32 
 8   Participante.1       10 non-null     object
 9   Selección            63 non-null     object
dtypes: int32(3), object(7)
memory usage: 5.2+ KB


In [10]:
df_drags["Participante.1"].isnull().sum()

60

In [11]:
df_drags.drop("Participante.1", axis=1, inplace=True)

In [12]:
print(df_drags.columns)

Index(['Lugar', 'Participante', 'Nombre', 'Lugar de residencia', 'Edad',
       'Retos ganados', 'Resultado', 'Temporada', 'Selección'],
      dtype='object')


In [14]:
df_drags['Lugar'] = df_drags['Lugar'].astype(str).str.replace('[º°]', '', regex=True)

In [15]:
df_drags.head()

Unnamed: 0,Lugar,Participante,Nombre,Lugar de residencia,Edad,Retos ganados,Resultado,Temporada,Selección
0,1,"Deborah ""La Grande""",Ramses Molina,Ciudad de México,35,0,Ganadora[7]​,1,
1,2,Bárbara Durango,Ricardo Martínez,Ciudad de México,40,1,Finalistas,1,
2,3,Eva Blunt,Pablo Levy Morales,Ciudad de México,36,1,Finalistas,1,
3,4,Margaret Y Ya,Margaret Peltier,Ciudad de México,29,2,Finalistas,1,
4,5,Lana Boswell,Alan de Jesús Cruz,Ciudad de México,30,0,3ª eliminada,1,


# Data Load

In [16]:
engine = create_engine("mysql+pymysql://root:NilArj_21@localhost:3306/project")

table_name = "la_mas_draga"

df_drags.to_sql(
    table_name,
    con=engine,
    if_exists='replace',
    index=False
)

70

In [17]:
engine.dispose()