In [1]:
import pandas as pd

Los 50 mejores restaurantes del mundo 2019: https://www.theworlds50best.com/list/1-50

Lista extraída de la siguiente página: https://gastronomiaycia.republica.com/2019/06/25/el-restaurante-mirazur-de-mauro-colagreco-es-el-mejor-restaurante-del-mundo-2019/

In [2]:
data = pd.read_csv('data/Mejores restaurantes del mundo 2019.csv', sep='enter', header=None, encoding='utf-8', error_bad_lines=False)

  """Entry point for launching an IPython kernel.


In [3]:
data

Unnamed: 0,0
0,1. Mirazur de Mauro Colagreco (Francia)
1,2. Restaurante Noma 2.0 de René Redzepi (Dinam...
2,3. Asador Etxebarri de Víctor Arguinzoniz (Esp...
3,4. Gaggan de Gaggan Anand (Tailandia)
4,5. Geranium de Rasmus Kofoed (Dinamarca)
5,6. Central de Virgilio Martinez (Perú)
6,7. Mugaritz de Andoni Luis Aduriz (España)
7,8. L’Arpege de Alain Passard (Francia)
8,"9. Disfrutar de Oriol Castro, Eduard Xatruch y..."
9,10. Maido de Mitsuharu Tsumura (Perú)


In [4]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50 entries, 0 to 49
Data columns (total 1 columns):
0    50 non-null object
dtypes: object(1)
memory usage: 480.0+ bytes


Observamos que solo hay una columna que contiene toda la información del restaurante. Necesitamos ordenar y separar este dataframe en uno nuevo con columnas de: Ranking, Restaurant, Chef y País.

### Solución #1: Regular Expressions

In [5]:
import re

df1 = data[0].str.extract(r"""
    ^
    (?P<Ranking>\d+)   # Primera columna
    \.\W+
    (?P<Restaurant>.+) # Segunda columna
    \W+de\W+
    (?P<Chef>.+)       # Tercera columna
    \W+\(
    (?P<País>.+)       # Cuarta columna
    \)
    $
    """, flags=re.VERBOSE
    )

df1

Unnamed: 0,Ranking,Restaurant,Chef,País
0,1,Mirazur,Mauro Colagreco,Francia
1,2,Restaurante Noma 2.0,René Redzepi,Dinamarca
2,3,Asador Etxebarri,Víctor Arguinzoniz,España
3,4,Gaggan,Gaggan Anand,Tailandia
4,5,Geranium,Rasmus Kofoed,Dinamarca
5,6,Central,Virgilio Martinez,Perú
6,7,Mugaritz,Andoni Luis Aduriz,España
7,8,L’Arpege,Alain Passard,Francia
8,9,Disfrutar,"Oriol Castro, Eduard Xatruch y Mateu Casañas",España
9,10,Maido,Mitsuharu Tsumura,Perú


### Solución #2: Find

In [6]:
rankings_2 = []
restaurants_2 = []
chefs_2 = []
countries_2 = []

for line in data[0]:
    rankings_2.append(line[:line.rfind(". ")])
    restaurants_2.append(line[line.find(". ")+2:line.rfind(" de")])
    chefs_2.append(line[line.find("de ")+3:line.rfind(" (")])
    countries_2.append(line[line.find("(")+1:line.rfind(")")])

df2 = pd.DataFrame({
  'Ranking': rankings_2,
  'Restaurant': restaurants_2,
  'Chef': chefs_2,
  'País': countries_2
})

df2

Unnamed: 0,Ranking,Restaurant,Chef,País
0,1,Mirazur,Mauro Colagreco,Francia
1,2,Restaurante Noma 2.0,René Redzepi,Dinamarca
2,3,Asador Etxebarri,Víctor Arguinzoniz,España
3,4,Gaggan,Gaggan Anand,Tailandia
4,5,Geranium,Rasmus Kofoed,Dinamarca
5,6,Central,Virgilio Martinez,Perú
6,7,Mugaritz,Andoni Luis Aduriz,España
7,8,L’Arpege,Alain Passard,Francia
8,9,Disfrutar,"Oriol Castro, Eduard Xatruch y Mateu Casañas",España
9,10,Maido,Mitsuharu Tsumura,Perú


Averiguamos que países tienen más restaurantes dentro del top 50 mundial:

In [7]:
df2['País'].value_counts()

España              6
Estados Unidos      6
Francia             5
Japón               2
México              2
Perú                2
Reino Unido         2
Tailandia           2
Italia              2
Dinamarca           2
Rusia               2
Brasil              1
Países Bajos        1
Chile               1
China               1
Eslovenia           1
Hong Kong, China    1
Suiza               1
Argentina           1
Bilbao              1
Alemania            1
Portugal            1
Suecia              1
Sudáfrica           1
Singapur            1
Bélgica             1
Austria             1
Colombia            1
Name: País, dtype: int64

### Solución #3: Split (incompleto)

In [8]:
rankings_3 = []
restaurants_3 = []
chefs_3 = []
# countries_3 = []

for line in data[0]:
    rankings_3.append(line.split('.')[0])
    restaurants_3.append(' '.join(line.split(' de ')[0].split(' ')[1:]))
    chefs_3.append(line.split(' de ')[1].split(' (')[0])
#     countries_3.append(line.split(' de ')[1].split(' (')[1].replace(')', ''))

df3 = pd.DataFrame({
  'Ranking': rankings_3,
  'Restaurant': restaurants_3,
  'Chef': chefs_3,
#   'País': countries_3
})

df3

Unnamed: 0,Ranking,Restaurant,Chef
0,1,Mirazur,Mauro Colagreco
1,2,Restaurante Noma 2.0,René Redzepi
2,3,Asador Etxebarri,Víctor Arguinzoniz
3,4,Gaggan,Gaggan Anand
4,5,Geranium,Rasmus Kofoed
5,6,Central,Virgilio Martinez
6,7,Mugaritz,Andoni Luis Aduriz
7,8,L’Arpege,Alain Passard
8,9,Disfrutar,"Oriol Castro, Eduard Xatruch y Mateu Casañas"
9,10,Maido,Mitsuharu Tsumura
