# Data Extraction

In [2]:
import pandas as pd
import numpy as np
from bs4 import BeautifulSoup
from sqlalchemy import create_engine

In [3]:
#get the web page
url = "https://es.wikipedia.org/wiki/La_M%C3%A1s_Draga_(M%C3%A9xico)"

In [4]:
# Extract data from all seasons of the show

html = pd.read_html(url)
progress_s1 = html[4]
progress_s2 = html[7]
progress_s3 = html[10]
progress_s4 = html[13]
progress_s5 = html[16]
progress_s6 = html[19]
print(progress_s3)

       Concursante Ep. 1 Suertuda Ep. 2 Prehispánica Ep. 3 Fichera  \
0      Aviesc Who?           ALTA              MENOS        LA MÁS   
1   Madison Basrey           SALV               ALTA          ALTA   
2    Raga Diamante           SALV             LA MÁS          SALV   
3       Rudy Reyes           SALV               SALV          BAJA   
4       Memo Reyri           ALTO               SALV          SALV   
5        Mista Boo         LA MÁS               SALV          SALV   
6     Regina Bronx           SALV               SALV          SALV   
7      Iviza Lioza           BAJA               SALV          SALV   
8     Luna Lansman           SALV               BAJA          ALTA   
9           Wynter           SALV               SALV          SALV   
10        Huntyy B           SALV               SALV         MENOS   
11       StupiDrag          MENOS               ALTA          ELIM   
12    Yayoi Bowery          MENOS               ELIM           NaN   

   Ep. 4 Chespirito

In [42]:
progress_tables = [progress_s1, progress_s2, progress_s3, progress_s4, progress_s5, progress_s6]

In [44]:
# create data frames from all the tables
def create_dataframes(tables):
  """Creates a list of Pandas DataFrames from a list of tables.

  Args:
    tables: A list of tables

  Returns:
    A list of Pandas DataFrames, where each DataFrame represents a table.
  """

  df = []
  for table in tables:
    dataframe = pd.DataFrame(table)
    df.append(dataframe)
  return df

progress_all_df = create_dataframes(progress_tables)
print(progress_all_df)

[           Concursante Ep. 1 Diva Ep. 2 Quinceañera Ep. 3 Thalía  \
0  Deborah "La Grande"      MENOS              SALV         BAJA   
1      Bárbara Durango       BAJA              SALV        MENOS   
2            Eva Blunt       SALV              BAJA       LA MÁS   
3        Margaret y Ya       ALTA            LA MÁS         ALTA   
4         Lana Boswell       SAFE             MENOS         ALTA   
5            Debra Men      MENOS              ALTA         ELIM   
6     Cordelia Durango     LA MÁS              ELIM          NaN   

  Ep. 4 Alebrije Ep. 5 Dramática Ep. 6 Día de Muertas Ep. 7 Final  
0           ALTA           MENOS          Compitiendo    Ganadora  
1          MENOS          LA MÁS          Compitiendo   Finalista  
2           BAJA            ALTA          Compitiendo   Finalista  
3         LA MÁS           MENOS          Compitiendo   Finalista  
4           ELIM             NaN             Invitada    Invitada  
5            NaN             NaN             I

# Data Transformation

In [6]:
# create a data frame for each season
df = pd.DataFrame(progress_s1)
df.head()

Unnamed: 0,Concursante,Ep. 1 Diva,Ep. 2 Quinceañera,Ep. 3 Thalía,Ep. 4 Alebrije,Ep. 5 Dramática,Ep. 6 Día de Muertas,Ep. 7 Final
0,"Deborah ""La Grande""",MENOS,SALV,BAJA,ALTA,MENOS,Compitiendo,Ganadora
1,Bárbara Durango,BAJA,SALV,MENOS,MENOS,LA MÁS,Compitiendo,Finalista
2,Eva Blunt,SALV,BAJA,LA MÁS,BAJA,ALTA,Compitiendo,Finalista
3,Margaret y Ya,ALTA,LA MÁS,ALTA,LA MÁS,MENOS,Compitiendo,Finalista
4,Lana Boswell,SAFE,MENOS,ALTA,ELIM,,Invitada,Invitada


In [38]:
# Melt the DataFrame to achieve the desired format
melted_df = pd.melt(df, id_vars=["Concursante"], var_name="Nombre_de_episodio", value_name="Progreso")
print(melted_df.head())

           Concursante Nombre_de_episodio Progreso
0  Deborah "La Grande"         Ep. 1 Diva    MENOS
1      Bárbara Durango         Ep. 1 Diva     BAJA
2            Eva Blunt         Ep. 1 Diva     SALV
3        Margaret y Ya         Ep. 1 Diva     ALTA
4         Lana Boswell         Ep. 1 Diva     SAFE


In [39]:
# Add new columns
melted_df["Episodio"] = melted_df["Nombre_de_episodio"].str.extract(r'(\d+)').astype(int)
melted_df["Nombre_de_episodio"] = melted_df["Nombre_de_episodio"].str.replace(r'Ep. \d+ ', '', regex=True)
print(melted_df.head())

           Concursante Nombre_de_episodio Progreso  Episodio
0  Deborah "La Grande"               Diva    MENOS         1
1      Bárbara Durango               Diva     BAJA         1
2            Eva Blunt               Diva     SALV         1
3        Margaret y Ya               Diva     ALTA         1
4         Lana Boswell               Diva     SAFE         1


In [40]:
# Reorder columns
melted_df = melted_df[["Concursante", "Episodio", "Nombre_de_episodio", "Progreso"]]

In [41]:
# Reset index and sort values
melted_df.sort_values(by=["Concursante", "Episodio"], inplace=True)
melted_df.reset_index(drop=True, inplace=True)
print(melted_df.head())

       Concursante  Episodio Nombre_de_episodio Progreso
0  Bárbara Durango         1               Diva     BAJA
1  Bárbara Durango         2        Quinceañera     SALV
2  Bárbara Durango         3             Thalía    MENOS
3  Bárbara Durango         4           Alebrije    MENOS
4  Bárbara Durango         5          Dramática   LA MÁS


In [45]:
# create a progress data frame with all seasons

progress_df = []

for season in progress_all_df:
    melted_df = pd.melt(df, id_vars=["Concursante"], var_name="Nombre_de_episodio", value_name="Progreso")
    melted_df["Episodio"] = melted_df["Nombre_de_episodio"].str.extract(r'(\d+)').astype(int)
    melted_df["Nombre_de_episodio"] = melted_df["Nombre_de_episodio"].str.replace(r'Ep. \d+ ', '', regex=True)
    melted_df = melted_df[["Concursante", "Episodio", "Nombre_de_episodio", "Progreso"]]
    
    progress_df.append(melted_df)

progress_df = pd.concat(progress_df, ignore_index=True)
progress_df.sort_values(by=["Concursante", "Episodio"], inplace=True)
progress_df.reset_index(drop=True, inplace=True)

print(progress_df.head())

       Concursante  Episodio Nombre_de_episodio Progreso
0  Bárbara Durango         1               Diva     BAJA
1  Bárbara Durango         1               Diva     BAJA
2  Bárbara Durango         1               Diva     BAJA
3  Bárbara Durango         1               Diva     BAJA
4  Bárbara Durango         1               Diva     BAJA


# Data Load

In [47]:
engine = create_engine("mysql+pymysql://root:NilArj_21@localhost:3306/project")

table_name = "la_mas_draga_process"

progress_df.to_sql(
    table_name,
    con=engine,
    if_exists='replace',
    index=False
)

294

In [48]:
engine.dispose()