# Ejercicio ETL

### Resumen

A partir de una fuente de datos opensource en [Kaggle](https://www.kaggle.com/datasets/michau96/restaurant-business-rankings-2020) hemos creado montado ETL. Extraído, procesado y cargado los datos en una BBDD (base de datos).


---


## Obtención de datos

INPUT: 3 archivos CSV con las clasificaciones de los mejores restaurantes de 2020.



*   Future 50:
Clasificaciones de los futuros 50 mejores restaurantes.
*   Independence 100:
Clasificaciones de los 100 mejores restaurantes independientes de 2020.
*   Top 250:
Clasificaciones de los 250 mejores restaurantes de 2020.

Todos los datos se extrajeron de Restaurant Business Online y están basados en informes financieros de la empresa, encuestas, documentos de las franquicias y algoritmos de valoración.

In [None]:
#Dependencias
!pip install sqlalchemy==1.4.6 --quiet
import pandas as pd
import numpy as np
#Instalamos e importamos MySQL para Python
!pip install PyMySQL --quiet
import pymysql as pymsql
!pip install mysql-connector --quiet
import mysql.connector
from sqlalchemy import create_engine
!pip install sqlalchemy-utils --quiet
from sqlalchemy_utils import database_exists, create_database

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.5/1.5 MB[0m [31m18.0 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m43.8/43.8 KB[0m [31m4.3 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m11.9/11.9 MB[0m [31m69.5 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
  Building wheel for mysql-connector (setup.py) ... [?25l[?25hdone
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m92.5/92.5 KB[0m [31m4.9 MB/s[0m eta [36m0:00:00[0m
[?25h

## Extraer CSVs en DataFrame

In [None]:
#1. Leer el archivo top250 y ver el dataframe
top250_file = "https://drive.google.com/uc?id=10fsqUk01wJeLUcArcBN2JUg86C3lKLQm&export=download"
top250 = pd.read_csv(top250_file)
top250.head()

Unnamed: 0,Rank,Restaurant,Content,Sales,YOY_Sales,Units,YOY_Units,Headquarters,Segment_Category
0,1,McDonald's,,40412,4.9%,13846,-0.5%,,Quick Service & Burger
1,2,Starbucks,,21380,8.6%,15049,3.0%,,Quick Service & Coffee Cafe
2,3,Chick-fil-A,While Popeyes got a lot of the chicken buzz in...,11320,13.0%,2470,5.0%,,Quick Service & Chicken
3,4,Taco Bell,,11293,9.0%,6766,2.7%,,Quick Service & Mexican
4,5,Burger King,,10204,2.7%,7346,0.2%,,Quick Service & Burger


In [None]:
#2. Leer el archivo Future50 y ver el dataframe
future50_file = "https://drive.google.com/uc?id=15zBrVc3kx7QxYkNaFaNVfh-a0uj-TKbo&export=download"
#Carga el archivo future50_file en el dataframe future50
future50 = pd.read_csv(future50_file)
future50.head()

Unnamed: 0,Rank,Restaurant,Location,Sales,YOY_Sales,Units,YOY_Units,Unit_Volume,Franchising
0,1,Evergreens,"Seattle, Wash.",24,130.5%,26,116.7%,1150,No
1,2,Clean Juice,"Charlotte, N.C.",44,121.9%,105,94.4%,560,Yes
2,3,Slapfish,"Huntington Beach, Calif.",21,81.0%,21,90.9%,1370,Yes
3,4,Clean Eatz,"Wilmington, N.C.",25,79.7%,46,58.6%,685,Yes
4,5,Pokeworks,"Irvine, Calif.",49,77.1%,50,56.3%,1210,Yes


In [None]:
#3. Leer el archivo Independence100 y ver el dataframe
ind100_file = "https://drive.google.com/uc?id=1cg8-zWjWkD1iRuRMDs5DZmSqnhHhHNcA&export=download"
#Carga el archivo ind100_file en el dataframe ind100
ind100 = pd.read_csv(ind100_file)
ind100.head()

Unnamed: 0,Rank,Restaurant,Sales,Average Check,City,State,Meals Served
0,1,Carmine's (Times Square),39080335.0,40,New York,N.Y.,469803.0
1,2,The Boathouse Orlando,35218364.0,43,Orlando,Fla.,820819.0
2,3,Old Ebbitt Grill,29104017.0,33,Washington,D.C.,892830.0
3,4,LAVO Italian Restaurant & Nightclub,26916180.0,90,New York,N.Y.,198500.0
4,5,Bryant Park Grill & Cafe,26900000.0,62,New York,N.Y.,403000.0


## Modificar DataFrames

In [None]:
#Renombrar la columna Sales a Sales_in_millions del dataframe future50
future50 = future50.rename(columns={'Sales':'Sales_in_millions'})
future50.head()

Unnamed: 0,Rank,Restaurant,Location,Sales_in_millions,YOY_Sales,Units,YOY_Units,Unit_Volume,Franchising
0,1,Evergreens,"Seattle, Wash.",24,130.5%,26,116.7%,1150,No
1,2,Clean Juice,"Charlotte, N.C.",44,121.9%,105,94.4%,560,Yes
2,3,Slapfish,"Huntington Beach, Calif.",21,81.0%,21,90.9%,1370,Yes
3,4,Clean Eatz,"Wilmington, N.C.",25,79.7%,46,58.6%,685,Yes
4,5,Pokeworks,"Irvine, Calif.",49,77.1%,50,56.3%,1210,Yes


In [None]:
#Renombrar la columna Sales a Sales_in_millions de top250
top250 = top250.rename(columns={'Sales':'Sales_in_millions'})
top250.head()

Unnamed: 0,Rank,Restaurant,Content,Sales_in_millions,YOY_Sales,Units,YOY_Units,Headquarters,Segment_Category
0,1,McDonald's,,40412,4.9%,13846,-0.5%,,Quick Service & Burger
1,2,Starbucks,,21380,8.6%,15049,3.0%,,Quick Service & Coffee Cafe
2,3,Chick-fil-A,While Popeyes got a lot of the chicken buzz in...,11320,13.0%,2470,5.0%,,Quick Service & Chicken
3,4,Taco Bell,,11293,9.0%,6766,2.7%,,Quick Service & Mexican
4,5,Burger King,,10204,2.7%,7346,0.2%,,Quick Service & Burger


In [None]:
#Eliminar las columnas Content y Headquarters de top250 --> ["Content", "Headquarters"]
top250 = top250.drop(columns={"Content","Headquarters"})
top250.head()

Unnamed: 0,Rank,Restaurant,Sales_in_millions,YOY_Sales,Units,YOY_Units,Segment_Category
0,1,McDonald's,40412,4.9%,13846,-0.5%,Quick Service & Burger
1,2,Starbucks,21380,8.6%,15049,3.0%,Quick Service & Coffee Cafe
2,3,Chick-fil-A,11320,13.0%,2470,5.0%,Quick Service & Chicken
3,4,Taco Bell,11293,9.0%,6766,2.7%,Quick Service & Mexican
4,5,Burger King,10204,2.7%,7346,0.2%,Quick Service & Burger


In [None]:
#Hacer que las unidades de la columna sales coincidan en las tablas
#Pasos:
# Dividir la columna del dataframe Sales entre 1000000
sales_mils = ind100["Sales"] / 1000000
#Asignar a la columna del dataframe Sales la lista sales_mils
ind100["Sales"] = sales_mils
#Renombrar la columna Sales a Sales_in_millions
ind100 = ind100.rename(columns= {"Sales":"Sales_in_millions"})
ind100.head()

Unnamed: 0,Rank,Restaurant,Sales_in_millions,Average Check,City,State,Meals Served
0,1,Carmine's (Times Square),39.080335,40,New York,N.Y.,469803.0
1,2,The Boathouse Orlando,35.218364,43,Orlando,Fla.,820819.0
2,3,Old Ebbitt Grill,29.104017,33,Washington,D.C.,892830.0
3,4,LAVO Italian Restaurant & Nightclub,26.91618,90,New York,N.Y.,198500.0
4,5,Bryant Park Grill & Cafe,26.9,62,New York,N.Y.,403000.0


### Agrupar Independent 100 por Restaurant

In [None]:
# Agrupar las filas por Restaurant y se suman
ind100_grouped = ind100.groupby(['Restaurant']).sum()
# Eliminar las columnas Rank y Average Check
ind100_grouped = ind100_grouped.drop(columns=['Rank', 'Average Check'])
# Agrupar por restaurant y average check, después añadir a ind100_grouped
avg_check = ind100.groupby(['Restaurant']).mean()
ind100_grouped['Average Check'] = avg_check['Average Check']
# Agrupar por restaurant y obtener el número de veces que aparece ese restaurante
counts = ind100.groupby(['Restaurant']).count()
ind100_grouped['Restaurant Count'] = counts['Rank']
# Ordenar por Sales de manera descendente
ind100_grouped = ind100_grouped.sort_values(by='Sales_in_millions', ascending=False)
# Restablecer el índice para mostrar el nuevo rango
ind100_grouped = ind100_grouped.reset_index()
# Mostrar cómo quedaría el DataFrame
ind100_grouped.head()

Unnamed: 0,Restaurant,Sales_in_millions,Meals Served,Average Check,Restaurant Count
0,"Joe's Seafood, Prime Steak & Stone Crab",69.501,816350.0,86.0,3
1,Gibsons Bar & Steakhouse,63.724826,877430.0,80.0,3
2,Carmine's (Times Square),39.080335,469803.0,40.0,1
3,The Boathouse Orlando,35.218364,820819.0,43.0,1
4,Old Ebbitt Grill,29.104017,892830.0,33.0,1


### Juntar Future50 e Ind100 por localización

In [None]:
# Paso 1. Hacer una copia de Future 50 df en la variable future50_df
future50_df = future50.copy()
future50_df.head()

Unnamed: 0,Rank,Restaurant,Location,Sales_in_millions,YOY_Sales,Units,YOY_Units,Unit_Volume,Franchising
0,1,Evergreens,"Seattle, Wash.",24,130.5%,26,116.7%,1150,No
1,2,Clean Juice,"Charlotte, N.C.",44,121.9%,105,94.4%,560,Yes
2,3,Slapfish,"Huntington Beach, Calif.",21,81.0%,21,90.9%,1370,Yes
3,4,Clean Eatz,"Wilmington, N.C.",25,79.7%,46,58.6%,685,Yes
4,5,Pokeworks,"Irvine, Calif.",49,77.1%,50,56.3%,1210,Yes


In [None]:
# Paso 2. Dividimos la columna Location de Future50 en dos nuevas columnas, City y State en un nuevo DataFrame
# Para ello usamos el método split y le pedimos que divida por comas
future50_split = future50_df["Location"].str.split(",", n = 1, expand = True)
future50_split.head()

Unnamed: 0,0,1
0,Seattle,Wash.
1,Charlotte,N.C.
2,Huntington Beach,Calif.
3,Wilmington,N.C.
4,Irvine,Calif.


In [None]:
# Paso 3. Crear las columnas City y State dentro de future50_df 
# Pista: Se instancia el valor como en las listas (con el índice)
future50_df["City"]= future50_split[0]
future50_df["State"]= future50_split[1]
# Eliminar las columnas innecesarias --> ['Location', 'YOY_Sales', 'Units', 'YOY_Units', 'Unit_Volume', 'Franchising' ]
future50_df = future50_df.drop(columns={'Location','YOY_Sales', 'Units', 'YOY_Units', 'Unit_Volume', 'Franchising'})
future50_df.head()

Unnamed: 0,Rank,Restaurant,Sales_in_millions,City,State
0,1,Evergreens,24,Seattle,Wash.
1,2,Clean Juice,44,Charlotte,N.C.
2,3,Slapfish,21,Huntington Beach,Calif.
3,4,Clean Eatz,25,Wilmington,N.C.
4,5,Pokeworks,49,Irvine,Calif.


In [None]:
# Paso 4. Crear una copia de Ind100 df en la variable ind100_df 
ind100_df = ind100.copy()
#Ahora elimina columnas innecesarias --> ['Average Check', 'Meals Served']
ind100_df = ind100_df.drop(columns={'Average Check','Meals Served'})
ind100_df.head()

Unnamed: 0,Rank,Restaurant,Sales_in_millions,City,State
0,1,Carmine's (Times Square),39.080335,New York,N.Y.
1,2,The Boathouse Orlando,35.218364,Orlando,Fla.
2,3,Old Ebbitt Grill,29.104017,Washington,D.C.
3,4,LAVO Italian Restaurant & Nightclub,26.91618,New York,N.Y.
4,5,Bryant Park Grill & Cafe,26.9,New York,N.Y.


In [None]:
# Paso 5. Combinar el dataframe Future50 y el dataframe Ind100. Guardar el resultado en la variable top150_df
top150_df = pd.concat([future50_df , ind100_df], axis=0)
top150_df

Unnamed: 0,Rank,Restaurant,Sales_in_millions,City,State
0,1,Evergreens,24.000000,Seattle,Wash.
1,2,Clean Juice,44.000000,Charlotte,N.C.
2,3,Slapfish,21.000000,Huntington Beach,Calif.
3,4,Clean Eatz,25.000000,Wilmington,N.C.
4,5,Pokeworks,49.000000,Irvine,Calif.
...,...,...,...,...,...
95,96,George's at the Cove,12.194000,La Jolla,Calif.
96,97,Le Coucou,12.187523,New York,N.Y.
97,98,Mi Vida,12.032014,Washington,D.C.
98,99,Upland,11.965564,New York,N.Y.


In [None]:
# Paso 6. Crear una nueva columna que clasifica según la ubicación
# Ordenar por Sales de manera descendente
top150_df = top150_df.sort_values(by='Sales_in_millions', ascending=False)
# Restablecer el índice para mostrar el nuevo rango para location df
top150_df = top150_df.reset_index()
# Hacer que el índice empiece en 1
top150_df.index = np.arange(1, len(top150_df) + 1)
# Renombrar el índice de Rank para mostrar el nuevo rango
top150_df.index.names = ['Rank']
# Eliminar columnas innecesarias
top150_df = top150_df.drop(columns = ['index', 'Rank'])
top150_df


Unnamed: 0_level_0,Restaurant,Sales_in_millions,City,State
Rank,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,Pokeworks,49.000000,Irvine,Calif.
2,Blue Sushi Sake Grill,49.000000,Omaha,Neb.
3,Bluestone Lane,48.000000,New York,N.Y.
4,LA Crawfish,48.000000,McAllen,Texas
5,The Human Bean,47.000000,Medford,Ore.
...,...,...,...,...
146,George's at the Cove,12.194000,La Jolla,Calif.
147,Le Coucou,12.187523,New York,N.Y.
148,Mi Vida,12.032014,Washington,D.C.
149,Upland,11.965564,New York,N.Y.


## Cargar DataFrames en la Base de Datos

In [None]:
#Rellena la siguiente variable con tu nombre y apellido (Todo junto y sin espacios)
nombreBD = 'Jorge'
linkConexion = 'mysql+mysqlconnector://alumno:385bd4cf713a8a36@13.39.109.107/' + nombreBD
#Establecemos la conexión
engine = create_engine(linkConexion)

In [None]:
if not database_exists(engine.url):
    create_database(engine.url)

In [None]:
# Sube el dataframes a sql para future50df.
# PISTA: Usa la funcion to_sql() de sqlalchemy
future50_df.to_sql('future50df',engine)

In [None]:
# Sube el dataframes a sql para ind100 df.
ind100_df.to_sql('ind100df',engine)

In [None]:
# Sube el dataframes a sql para top250 df.
top250.to_sql('top250df',engine)

In [None]:
# Sube el dataframes a sql para top150 df.
top150_df.to_sql('top150df',engine)

### Confirmar que los datos han sido añadidos consultando la tabla Top150

In [None]:
# Haz un select de la tabla top150
query = """ SELECT * FROM top150df """
df  = pd.read_sql(query, con = engine )
df

Unnamed: 0,Rank,Restaurant,Sales_in_millions,City,State
0,1,Pokeworks,49.000000,Irvine,Calif.
1,2,Blue Sushi Sake Grill,49.000000,Omaha,Neb.
2,3,Bluestone Lane,48.000000,New York,N.Y.
3,4,LA Crawfish,48.000000,McAllen,Texas
4,5,The Human Bean,47.000000,Medford,Ore.
...,...,...,...,...,...
145,146,George's at the Cove,12.194000,La Jolla,Calif.
146,147,Le Coucou,12.187523,New York,N.Y.
147,148,Mi Vida,12.032014,Washington,D.C.
148,149,Upland,11.965564,New York,N.Y.


In [None]:
# Recupera los restaurantes "Virgil's Real Barbecue" de la tabla top150
query = """ SELECT * FROM top150df where Restaurant= "Virgil's Real Barbecue" """
df  = pd.read_sql(query, con = engine )
df

Unnamed: 0,Rank,Restaurant,Sales_in_millions,City,State
0,143,Virgil's Real Barbecue,12.245998,New York,N.Y.
1,150,Virgil's Real Barbecue,11.391678,Las Vegas,Nev.


### Resumen

A partir de una fuente de datos opensource en [Kaggle](https://www.kaggle.com/datasets/michau96/restaurant-business-rankings-2020) hemos creado montado ETL. Extraído, procesado y cargado los datos en una BBDD (base de datos).


---


## Obtención de datos

INPUT: 3 archivos CSV con las clasificaciones de los mejores restaurantes de 2020.



*   Future 50:
Clasificaciones de los futuros 50 mejores restaurantes.
*   Independence 100:
Clasificaciones de los 100 mejores restaurantes independientes de 2020.
*   Top 250:
Clasificaciones de los 250 mejores restaurantes de 2020.

Todos los datos se extrajeron de Restaurant Business Online y están basados en informes financieros de la empresa, encuestas, documentos de las franquicias y algoritmos de valoración.

## Transformación

1. Cambiamos el nombre a todas las columnas Sales para indicar que las unidades estaban en millones y corregir el dataframe Independence 100 cuya columna Sales no representamos en millones para que hubiera consistencia en las tablas.
2. Eliminamos algunas columnas adicionales que no vamos a usar en futuros análisis. Seleccionamos "Content" y "Headquarter" del dataframe top 250 ya que contenían muchos valores NaN y no proporcionaban información útil.
3. Agrupamos el dataframe independent 100 por Restaurant para combinar cualquier duplicado dentro de la tabla. Sumamos las columnas "Sales in Millions" y "Meals Served", calculamos el promedio de la columna "Average Check" y hacemos un recuento de cada restaurante para que se pueda ver si estaba representado en la tabla original varias veces. Finalmente, ordenamos este nuevo dataframe por Sales in Millions en orden descendente para ver los nuevos restaurantes mejor clasificados.
4. Para mantener la integridad de nuestro dataframe Future 50, hacemos una copia. Nuestro objetivo es fusionar el dataframe con la lista Independent 100 en función de los detalles de la ubicación.
5. Usando el dataframe copiado, separamos los valores de "Location" en dos columnas separadas ("City" y "State") y los almacenamos en un nuevo dataframe.
6. Para agregar los datos de "City" y "State" a nuestra copia original del dataframe Future 50, creamos las nuevas columnas y luego insertamos los valores separados en el paso anterior. Finalmente, eliminamos las columnas innecesarias.
7. Para mantener la integridad de nuestro dataframe Independent 100, hacemos una copia y luego eliminamos las columnas innecesarias. Hacemos que los dataframes copiados de Future 50 e Independent 100 tengan las mismas columnas para combinarlos fácilmente. Finalmente concatenamos los dos dataframes para hacer una lista del top 150.
8. Cogemos el dataframe Top 150 y ordenamos las filas por Sales in Millions. A continuación, reiniciamos el índice y lo hacemos contar desde 1 para mostrar la nueva clasificación. Finalmente, cambiamos el nombre del índice a Rank y eliminamos las columnas innecesarias.

##Subida a la base de datos

Una vez habiendo hecho un procesado de los datos nos disponemos a hacer los inserts a la BBDD. 
1. Nos conectamos a la base de datos.
2. Y, por último, subimos nuestros dataframes para que se almacenen en tablas.



