# Append, Concat, & Merge 

Estas tres funciones de pandas son de suma importancia al trabajar con varias bases de datos a la vez, son las herramientas de las que haremos uso al tener que unir `DataFrames`, y haremos un repaso en como usar estas funciones.

## Append

`Append` a mi pareces es la más intuitiva y simple de las tres, esta la usamos con el fin de agregar columnas a nuestro `DataFrame`

In [1]:
import pandas as pd
import numpy as np

Crearemos dos dataframes que tengan las mismas columnas

In [2]:
df = pd.DataFrame([[1, 2], [3, 4]], columns=list('AB'))
df

Unnamed: 0,A,B
0,1,2
1,3,4


In [3]:
df2 = pd.DataFrame([[5, 6], [7, 8]], columns=list('AB'))
df.append(df2)

Unnamed: 0,A,B
0,1,2
1,3,4
0,5,6
1,7,8


Podemos ver que las filas fueron agregadas al final, notemos que el indice no se cambió, por lo que tenemos indices repetidos

In [4]:
df.append(df2).loc[0]

Unnamed: 0,A,B
0,1,2
0,5,6


Pandas puede manejar esto, y al invocar ese indice nos entrega ambos valores, pero en general queremos que el indice sea único para cada valor, para esto podemos usar `ignore_index=True`, que hace lo que dice en el nombre

In [5]:
df.append(df2, ignore_index=True)

Unnamed: 0,A,B
0,1,2
1,3,4
2,5,6
3,7,8


Tambien es bueno saber que, si usamos `append` para `DataFrames` con columnas distintas, los valores "faltantes" seran rellenados con `NaN`, en ambas direcciones

In [6]:
df3 = pd.DataFrame([[5, 6, 'a'], [7, 8, 'b']], columns=list('ABC'))
df3

Unnamed: 0,A,B,C
0,5,6,a
1,7,8,b


In [7]:
df.append(df3, ignore_index=True) #agregando con mas columnas

Unnamed: 0,A,B,C
0,1,2,
1,3,4,
2,5,6,a
3,7,8,b


In [8]:
df3.append(df, ignore_index=True) #agregando con menos columnas

Unnamed: 0,A,B,C
0,5,6,a
1,7,8,b
2,1,2,
3,3,4,


## Concat

`Concat` es similar a `Append`, pero más poderoso. En buenas a primeras parece que hacen lo mismo, agregar una `DataFrame` al final de otro

In [9]:
s1 = pd.Series(['a', 'b'])
s2 = pd.Series(['c', 'd'])
pd.concat([s1, s2])

0    a
1    b
0    c
1    d
dtype: object

Y de la misma forma tenemos que usar `ignore_index=True` si es que los datos compartian indices

In [10]:
pd.concat([s1, s2], ignore_index=True)

0    a
1    b
2    c
3    d
dtype: object

Pero la primera gran diferencia es que esta funcion tiene un entendimiento de que los `DataFrames` que estamos juntando son distintos, motivo por el cual podemos entregarle el argunmento `keys`, que nos permite usar indices multiples para referirnos a cada `Dataframe` que usamos

In [11]:
pd.concat([s1, s2], keys=['s1', 's2'])

s1  0    a
    1    b
s2  0    c
    1    d
dtype: object

In [12]:
df1 = pd.DataFrame([['a', 1], ['b', 2]]
                  , columns=['letter', 'number']
                 )
df1

Unnamed: 0,letter,number
0,a,1
1,b,2


In [13]:
df2 = pd.DataFrame([['c', 3], ['d', 4]]
                   , columns=['letter', 'number']
                  )
df2

Unnamed: 0,letter,number
0,c,3
1,d,4


In [14]:
df3 = pd.DataFrame([['c', 3, 'cat'], ['d', 4, 'dog']] 
                   , columns=['letter', 'number', 'animal']
                  )
df3

Unnamed: 0,letter,number,animal
0,c,3,cat
1,d,4,dog


La otra gran diferencia, es que podemos unir varias `DataFrames` a la vez, y notemos que tambien rellenan los `NaN` 

In [15]:
pd.concat([df1, df2 ,df3], sort=False)

Unnamed: 0,letter,number,animal
0,a,1,
1,b,2,
0,c,3,
1,d,4,
0,c,3,cat
1,d,4,dog


## Merge

`Merge` es, a mi parecer, la más compleja de las dos. No porque es dificl de entender, sino por el millar de formas que hay de hacerlo. Hoy explicaré las 4 principales: `inner`, `left`, `rigth`, y `outer`, pero hay varias más. Para esto la documentacion de *Pandas* no es lo mejor, así que les dejo esta respuesta de [*StackOverflow*](https://stackoverflow.com/questions/53645882/pandas-merging-101) (que es de donde saqué las imagenes) por si quieres ver el resto de las posibilidades.

Crearemos dos `Dataframes` distintos y veremos cuales son las formas de hacer un `Merge`

### Inner

In [16]:
np.random.seed(0)
left = pd.DataFrame({'key': ['A', 'B', 'C', 'D'], 'value': np.random.randn(4)})    
right = pd.DataFrame({'key': ['B', 'D', 'E', 'F'], 'value': np.random.randn(4)})

<img src="images/inner.png" width="400">

In [17]:
left.merge(right, on='key') 
# inner es el valor por defecto pero podemos ser más especificos 
# left.merge(right, on='key', how='inner')

Unnamed: 0,key,value_x,value_y
0,B,0.400157,1.867558
1,D,2.240893,-0.977278


### Left

<img src="images/left.png" width="400">

In [18]:
left.merge(right, on='key', how='left')

Unnamed: 0,key,value_x,value_y
0,A,1.764052,
1,B,0.400157,1.867558
2,C,0.978738,
3,D,2.240893,-0.977278


### Rigth

<img src="images/rigth.png" width="400">

In [19]:
left.merge(right, on='key', how='right')

Unnamed: 0,key,value_x,value_y
0,B,0.400157,1.867558
1,D,2.240893,-0.977278
2,E,,0.950088
3,F,,-0.151357


### Outer

<img src="images/outer.png" width="400">

In [20]:
left.merge(right, on='key', how='outer')

Unnamed: 0,key,value_x,value_y
0,A,1.764052,
1,B,0.400157,1.867558
2,C,0.978738,
3,D,2.240893,-0.977278
4,E,,0.950088
5,F,,-0.151357


# Actividad

Como ya es común, usaremos una base de datos que podemos en contrar en Kaggle, esta ves será ["Restaurant Data with Consumer Ratings"](https://www.kaggle.com/uciml/restaurant-data-with-consumer-ratings?select=rating_final.csv). Citando a Kaggle:

*This dataset was used for a study where the task was to generate a top-n list of restaurants according to the consumer preferences and finding the significant features. Two approaches were tested: a collaborative filter technique and a contextual approach: (i) The collaborative filter technique used only one file i.e., rating_final.csv that comprises the user, item and rating attributes. (ii) The contextual approach generated the recommendations using the remaining eight data files.*

Los `.csv` que usaremos están en la carpeta `data`

Para las actividades que veremos, nos interesa tener el *rating* promedio tanto de los restaurantes como de los usuarios, motivo por el cual construriemos estos dos dataframes

In [21]:
df = pd.read_csv('./data/rating_final.csv')
df.head()

Unnamed: 0,userID,placeID,rating,food_rating,service_rating
0,U1077,135085,2,2,2
1,U1077,135038,2,2,1
2,U1077,132825,2,2,2
3,U1077,135060,1,2,2
4,U1068,135104,1,1,2


El primero se los daré construido, el siguiente deben construirlo ustedes

In [22]:
user_mean = (df.drop('placeID',axis=1) #saco la columna de restaurantes
               .groupby('userID') #junto a todos los usurarion
               .apply(lambda x : x.mean()) #le saco el promedio a cada atributo
            )
user_mean.head()

Unnamed: 0_level_0,rating,food_rating,service_rating
userID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
U1001,1.111111,1.222222,1.222222
U1002,1.4,1.4,1.0
U1003,1.615385,1.692308,1.461538
U1004,1.875,1.875,1.75
U1005,1.333333,1.444444,1.0


In [23]:
res_mean = (df.drop('userID',axis=1)
              .groupby('placeID')
              .apply(lambda x : x.mean())
              .drop('placeID', axis=1)
           )
res_mean.head()

Unnamed: 0_level_0,rating,food_rating,service_rating
placeID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
132560,0.5,1.0,0.25
132561,0.75,1.0,1.0
132564,1.25,1.25,1.5
132572,1.0,1.0,0.933333
132583,1.0,1.0,1.25


Esto dejará de ser magia oscura en algún momento, lo prometo! pero de todas formas les dejo una explicación a *grosso modo* de que es lo que se está ahciendo. 
Ultima cosa antes de ir al ejercicio, un metodo muy util cuando trabajamos con dataframes de datos numericos es el metodo `.describe()`, lo podemos ver a continuacion:

In [24]:
res_mean.describe()

Unnamed: 0,rating,food_rating,service_rating
count,130.0,130.0,130.0
mean,1.179622,1.213914,1.0858
std,0.349354,0.33927,0.334026
min,0.25,0.25,0.25
25%,1.0,1.0,0.904167
50%,1.181818,1.244048,1.0
75%,1.4,1.4,1.272727
max,2.0,2.0,2.0


Su funcion es bastante autoexplicativa, nos entrega un resumen con estadisticos que podemos usar.

Ahora tenemos lo que queremos `user_mean` y `res_mean`, entonces ¿Qué podemos hacer con estos datos?. Veamos primero el dataset con mas columnas. 

In [25]:
places = pd.read_csv('./data/geoplaces2.csv')
places.columns

Index(['placeID', 'latitude', 'longitude', 'the_geom_meter', 'name', 'address',
       'city', 'state', 'country', 'fax', 'zip', 'alcohol', 'smoking_area',
       'dress_code', 'accessibility', 'price', 'url', 'Rambience', 'franchise',
       'area', 'other_services'],
      dtype='object')

Como suele ocurrir, muchas de estás comlumnas no vamos a usar así que nos desaremos de ellas 

In [26]:
no_use = ['latitude', 'longitude', 'the_geom_meter','address','city', 'state', 'fax', 'zip','url']
places = places.drop(no_use, axis = 1)
places.head()

Unnamed: 0,placeID,name,country,alcohol,smoking_area,dress_code,accessibility,price,Rambience,franchise,area,other_services
0,134999,Kiku Cuernavaca,Mexico,No_Alcohol_Served,none,informal,no_accessibility,medium,familiar,f,closed,none
1,132825,puesto de tacos,mexico,No_Alcohol_Served,none,informal,completely,low,familiar,f,open,none
2,135106,El Rinc�n de San Francisco,Mexico,Wine-Beer,only at bar,informal,partially,medium,familiar,f,open,none
3,132667,little pizza Emilio Portes Gil,?,No_Alcohol_Served,none,informal,completely,low,familiar,t,closed,none
4,132613,carnitas_mata,Mexico,No_Alcohol_Served,permitted,informal,completely,medium,familiar,t,closed,none


Mucho más trabajable, para ver el detalle de las columnas, en la carpeta data hay un `README.txt`, este explica que es cada archivo y cuales son sus columnas. Ahora, nos enfocaremos en 3 `alcohol`, `price`, y `dress_code`. Veremos si es que hay grandes diferencias entre cada una de estas opciones y su  valoracion promedio. 

Pero antes, tenemos un ID para cada restaurante, la columna `placeID` , ya que tenemos una sola fila por cada uno, podemos usar esta como indice:

In [27]:
places = places.set_index('placeID')
places.head()

Unnamed: 0_level_0,name,country,alcohol,smoking_area,dress_code,accessibility,price,Rambience,franchise,area,other_services
placeID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
134999,Kiku Cuernavaca,Mexico,No_Alcohol_Served,none,informal,no_accessibility,medium,familiar,f,closed,none
132825,puesto de tacos,mexico,No_Alcohol_Served,none,informal,completely,low,familiar,f,open,none
135106,El Rinc�n de San Francisco,Mexico,Wine-Beer,only at bar,informal,partially,medium,familiar,f,open,none
132667,little pizza Emilio Portes Gil,?,No_Alcohol_Served,none,informal,completely,low,familiar,t,closed,none
132613,carnitas_mata,Mexico,No_Alcohol_Served,permitted,informal,completely,medium,familiar,t,closed,none


Es claro que para hacer esto de una forma rápida, sería conveniente tener una columna que sea cada *rating*, y para esto usaremos `merge`.   Una cosa que no mencioné durante la explicación de `merge` es que podemos hacer sobre los incides, para esto tenemos que especificar que indice queremos usar, y esto lo hacemos con los parametros `left_index = True` y `right_index = True`. Ahora, ya que tenemos `places` y `res_mean` que tienen el mismo indice, hagamos un merge entre las dos:

In [28]:
places = places.merge(res_mean
                      , left_index = True #fill
                      , right_index = True #fill
                      , how = 'inner' #fill
                     )
places.head()

Unnamed: 0_level_0,name,country,alcohol,smoking_area,dress_code,accessibility,price,Rambience,franchise,area,other_services,rating,food_rating,service_rating
placeID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
134999,Kiku Cuernavaca,Mexico,No_Alcohol_Served,none,informal,no_accessibility,medium,familiar,f,closed,none,1.6,1.6,1.6
132825,puesto de tacos,mexico,No_Alcohol_Served,none,informal,completely,low,familiar,f,open,none,1.28125,1.34375,0.9375
135106,El Rinc�n de San Francisco,Mexico,Wine-Beer,only at bar,informal,partially,medium,familiar,f,open,none,1.2,1.2,1.2
132667,little pizza Emilio Portes Gil,?,No_Alcohol_Served,none,informal,completely,low,familiar,t,closed,none,1.25,2.0,1.25
132613,carnitas_mata,Mexico,No_Alcohol_Served,permitted,informal,completely,medium,familiar,t,closed,none,1.166667,1.333333,1.0


Primero revisaremos si el expendio de alcohol afecta los *ratings* que recibe cada restaurante, esta columna puede tomar 3 valores `No_Alcohol_Served`, `Wine-Beer`, y `Full_Bar`, esto lo podemos ver de forma rapida usando el metodo `.unique`

In [29]:
places['alcohol'].unique()

array(['No_Alcohol_Served', 'Wine-Beer', 'Full_Bar'], dtype=object)

Ahora, selecionando solo las columnas `rating`, `food_rating`, y `service_rating`, usa el método `.describe()` para ver si hay variaciones entre los estadisticos de cada tipo de restaurante: 

In [30]:
places[places['alcohol']=='No_Alcohol_Served'][['rating', 'food_rating', 'service_rating']].describe()

Unnamed: 0,rating,food_rating,service_rating
count,87.0,87.0,87.0
mean,1.148075,1.19473,1.042417
std,0.345414,0.342652,0.327117
min,0.25,0.25,0.25
25%,0.916667,1.0,0.884444
50%,1.166667,1.166667,1.0
75%,1.333333,1.4,1.25
max,2.0,2.0,1.833333


In [31]:
places[places['alcohol']=='Full_Bar'][['rating', 'food_rating', 'service_rating']].describe()

Unnamed: 0,rating,food_rating,service_rating
count,9.0,9.0,9.0
mean,1.287124,1.218315,1.170311
std,0.275485,0.284492,0.251138
min,0.857143,0.777778,0.777778
25%,1.0,1.0,1.0
50%,1.363636,1.181818,1.2
75%,1.5,1.333333,1.333333
max,1.666667,1.75,1.5


In [32]:
places[places['alcohol']=='Wine-Beer'][['rating', 'food_rating', 'service_rating']].describe()

Unnamed: 0,rating,food_rating,service_rating
count,34.0,34.0,34.0
mean,1.231887,1.26184,1.174437
std,0.373067,0.347866,0.356361
min,0.25,0.25,0.25
25%,1.0,1.151261,1.0
50%,1.217647,1.278846,1.145833
75%,1.490385,1.421429,1.333333
max,2.0,2.0,2.0


Esto se puede hacer de forma mucho más simple con un `groupby` y un `apply`, lo dejo en tus manos si lo quires intentar

In [33]:
places.groupby('alcohol').apply(lambda x: x.describe())

Unnamed: 0_level_0,Unnamed: 1_level_0,rating,food_rating,service_rating
alcohol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Full_Bar,count,9.0,9.0,9.0
Full_Bar,mean,1.287124,1.218315,1.170311
Full_Bar,std,0.275485,0.284492,0.251138
Full_Bar,min,0.857143,0.777778,0.777778
Full_Bar,25%,1.0,1.0,1.0
Full_Bar,50%,1.363636,1.181818,1.2
Full_Bar,75%,1.5,1.333333,1.333333
Full_Bar,max,1.666667,1.75,1.5
No_Alcohol_Served,count,87.0,87.0,87.0
No_Alcohol_Served,mean,1.148075,1.19473,1.042417


Es claro que esto no es un test de hipotesis, pero de buenas a primeras, ¿Crees que hay una direrencia significativa entre las valoraciones?

**Respuesta**: sin alcohol baja el promedio un poquito.

Ahora, prueba con otro atributo, ¿alguno que te llame la atención? Haz un proceso similar para otra variable que te llame la atención

In [34]:
places.groupby('smoking_area').apply(lambda x: x.describe())

Unnamed: 0_level_0,Unnamed: 1_level_0,rating,food_rating,service_rating
smoking_area,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
none,count,70.0,70.0,70.0
none,mean,1.171497,1.208648,1.086371
none,std,0.381643,0.397504,0.348372
none,min,0.25,0.25,0.25
none,25%,0.895833,1.0,0.938419
none,50%,1.209957,1.244048,1.0
none,75%,1.356061,1.4,1.298951
none,max,2.0,2.0,2.0
not permitted,count,25.0,25.0,25.0
not permitted,mean,1.071238,1.175244,0.986184


**Respuesta:** Son promedios bastante parecidos.

Ahora, veamos como se relaciona todo con si los restaruantes tienen estacionamiento:

In [35]:
park = pd.read_csv('./data/chefmozparking.csv')
park.head()

Unnamed: 0,placeID,parking_lot
0,135111,public
1,135110,none
2,135109,none
3,135108,none
4,135107,none


Veamos que valores pueden tomar estos datos

In [36]:
park['parking_lot'].unique()

array(['public', 'none', 'yes', 'valet parking', 'fee', 'street',
       'validated parking'], dtype=object)

Ahora, de la misma forma haremos un merge, pero esta vez no pondremos la fila `placeID` como indice, para mostrar que podemos hacer el merge entre indices y colunas, para esto usamos ` left_on = 'nombre_col'` (o si la columnas que queremos usar esta en lado derecho `rigth_on = ...`). Por tanto, en este merge le tenemos que decir al merge que lo haga en la columna izquierda `placeID` y en la derecha que use el indice

In [37]:
park = park.merge(places
                  ,  left_on = 'placeID'
                  ,  right_index = True
                 )
park.head()

Unnamed: 0,placeID,parking_lot,name,country,alcohol,smoking_area,dress_code,accessibility,price,Rambience,franchise,area,other_services,rating,food_rating,service_rating
2,135109,none,Paniroles,?,Wine-Beer,not permitted,informal,no_accessibility,medium,quiet,f,closed,Internet,1.0,1.25,0.75
3,135108,none,Potzocalli,?,No_Alcohol_Served,none,informal,completely,low,familiar,f,closed,none,1.181818,1.181818,1.0
5,135106,none,El Rinc�n de San Francisco,Mexico,Wine-Beer,only at bar,informal,partially,medium,familiar,f,open,none,1.2,1.2,1.2
7,135104,yes,vips,?,Full_Bar,not permitted,informal,completely,medium,familiar,t,closed,variety,0.857143,1.428571,0.857143
21,135088,public,Cafeteria cenidet,Mexico,No_Alcohol_Served,not permitted,informal,no_accessibility,low,quiet,f,closed,none,1.0,1.166667,1.0


Acá, ¿hay algo que te produsca curiosidad?, hay demasiados valores unicos como para revisarlos uno por uno, asi que usa dos o tres que te llamen la atencion y revisa como re comparan entre ellos

In [38]:
park.groupby('smoking_area').apply(lambda x: x.describe()).drop('placeID', axis=1)

Unnamed: 0_level_0,Unnamed: 1_level_0,rating,food_rating,service_rating
smoking_area,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
none,count,70.0,70.0,70.0
none,mean,1.171497,1.208648,1.086371
none,std,0.381643,0.397504,0.348372
none,min,0.25,0.25,0.25
none,25%,0.895833,1.0,0.938419
none,50%,1.209957,1.244048,1.0
none,75%,1.356061,1.4,1.298951
none,max,2.0,2.0,2.0
not permitted,count,25.0,25.0,25.0
not permitted,mean,1.071238,1.175244,0.986184


In [39]:
park.groupby('dress_code').apply(lambda x: x.describe()).drop('placeID', axis=1)

Unnamed: 0_level_0,Unnamed: 1_level_0,rating,food_rating,service_rating
dress_code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
casual,count,10.0,10.0,10.0
casual,mean,1.187739,1.264256,1.118116
casual,std,0.289743,0.26089,0.215693
casual,min,0.625,0.875,0.88
casual,25%,1.0,1.118235,0.925
casual,50%,1.20098,1.320513,1.083333
casual,75%,1.397222,1.397222,1.280769
casual,max,1.6,1.7,1.444444
formal,count,2.0,2.0,2.0
formal,mean,1.916667,1.75,1.916667


**Respuesta:** Los lugares donde se viste formal tienen un mayor promedio.

Ahora lo dejo en tus manos, aun no hemos tocado a los usuarios, pero eso te lo dejo a ti. Tenemos la base de datos `userprofile.csv`, que es muy interesante:

In [40]:
profile = pd.read_csv('./data/userprofile.csv')
profile.columns

Index(['userID', 'latitude', 'longitude', 'smoker', 'drink_level',
       'dress_preference', 'ambience', 'transport', 'marital_status', 'hijos',
       'birth_year', 'interest', 'personality', 'religion', 'activity',
       'color', 'weight', 'budget', 'height'],
      dtype='object')

Podemos ver que hay mucha informacion sobre los usuarios, te invito a tomar dos variables y explorar como estas se relacionan con la puntuacion promedio de cada persona, dejo a tu elección si quieres hacer un `set_index`, pero tienes que hacer al menos un `merge`, o dos si te sientes aventurero. Sean creativos! jueguen con los datos y vean a que pueden llegar. 

In [41]:
profile = profile.merge(park
                      , left_index = True #fill
                      , right_index = True #fill
                      , how = 'inner' #fill
                     )
profile.head()

Unnamed: 0,userID,latitude,longitude,smoker,drink_level,dress_preference,ambience,transport,marital_status,hijos,...,dress_code,accessibility,price,Rambience,franchise,area,other_services,rating,food_rating,service_rating
2,U1003,22.119847,-100.946527,False,social drinker,formal,family,public,single,independent,...,informal,no_accessibility,medium,quiet,f,closed,Internet,1.0,1.25,0.75
3,U1004,18.867,-99.183,False,abstemious,informal,family,public,single,independent,...,informal,completely,low,familiar,f,closed,none,1.181818,1.181818,1.0
5,U1006,22.15,-100.983,True,social drinker,no preference,friends,car owner,single,independent,...,informal,partially,medium,familiar,f,open,none,1.2,1.2,1.2
7,U1008,22.122989,-100.923811,False,social drinker,formal,solitary,public,single,independent,...,informal,completely,medium,familiar,t,closed,variety,0.857143,1.428571,0.857143
21,U1022,22.146708,-100.964355,False,casual drinker,formal,family,car owner,single,independent,...,informal,no_accessibility,low,quiet,f,closed,none,1.0,1.166667,1.0


**Conclusion**

Sé que lo que hicimos fue superficial, y que los datos dan para mucho más, así que en la proxima ayudantía, ya armados con más herramientas, espero que podamos volver a estos datos y hacer cositas más interesantes!