# Pandas Advanced — Ejercicios (Vinos)

Trabaja con el archivo CSV de vinos que encontrarás en la carpeta `data`.

---

1. **Carga de datos**
   - Lee el archivo CSV de los vinos.


2. **Análisis inicial**
   - ¿Hay valores nulos dentro del DataFrame?
   - ¿Qué columnas contiene?
   - ¿Se te ocurre alguna columna que podamos elegir como índice para facilitar las búsquedas? ¿Quizás varias como un multiindex?  
     *Justifica tu elección.*


3. **Conversión de moneda**
   - El precio viene en dólares.  
     Genera una columna nueva con el **precio en euros** (elige el factor de conversión).


4. **Normalización de columnas**
   - Genera dos nuevas columnas:  
     - `body_score` (nota del 1 al 10)
     - `acidity_score` (nota del 1 al 10)  
   - Elimina las columnas originales de body y acidity.


5. **Filtrado y búsquedas**
   - Localiza los vinos de **Málaga**.


6. **Calidad-precio**
   - Crea una columna que sea el **precio dividido por el rating** del vino.


7. **Reemplazo de caracteres**
   - Reemplaza la letra `n` por la letra `ñ` en la columna `Country`.  
     ¿Crees que es necesario hacerlo en alguna otra columna? Razona tu respuesta.


8. **Reemplazo de valores de texto**
   - Reemplaza `Red` por `Tinto` en todo el DataFrame.
   - Ahora localiza los vinos tintos dentro del DataFrame.


9. **Detección de columnas redundantes**
   - ¿Crees que hay columnas redundantes en el DataFrame? Si es así, indícalas.


10. **Clasificación simple**
    - Genera una columna que sea `True` cuando un vino tenga **más de un 4,5 de rating**, y `False` en caso contrario.

---


##1. **Carga de datos**
   - Lee el archivo CSV de los vinos.

In [None]:
from google.colab import drive
drive.mount('/content/drive')
import pandas as pd
import numpy as np

Mounted at /content/drive


In [None]:
df_wine=pd.read_csv('/content/drive/MyDrive/data/wines_SPA.csv')
df_wine.head()

Unnamed: 0,winery,wine,year,rating,num_reviews,country,region,price,type,body,acidity
0,Teso La Monja,Tinto,2013,4.9,58,Espana,Toro,995.0,Toro Red,5.0,3.0
1,Artadi,Vina El Pison,2018,4.9,31,Espana,Vino de Espana,313.5,Tempranillo,4.0,2.0
2,Vega Sicilia,Unico,2009,4.8,1793,Espana,Ribera del Duero,324.95,Ribera Del Duero Red,5.0,3.0
3,Vega Sicilia,Unico,1999,4.8,1705,Espana,Ribera del Duero,692.96,Ribera Del Duero Red,5.0,3.0
4,Vega Sicilia,Unico,1996,4.8,1309,Espana,Ribera del Duero,778.06,Ribera Del Duero Red,5.0,3.0


## 2. **Análisis inicial**

  * ¿Hay valores nulos dentro del DataFrame?
  * ¿Qué columnas contiene?
  * ¿Se te ocurre alguna columna que podamos elegir como índice para facilitar las búsquedas? ¿Quizás varias como un multiindex? Justifica tu elección

In [None]:
df_wine.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7500 entries, 0 to 7499
Data columns (total 11 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   winery       7500 non-null   object 
 1   wine         7500 non-null   object 
 2   year         7498 non-null   object 
 3   rating       7500 non-null   float64
 4   num_reviews  7500 non-null   int64  
 5   country      7500 non-null   object 
 6   region       7500 non-null   object 
 7   price        7500 non-null   float64
 8   type         6955 non-null   object 
 9   body         6331 non-null   float64
 10  acidity      6331 non-null   float64
dtypes: float64(4), int64(1), object(6)
memory usage: 644.7+ KB


In [None]:
df_wine.isnull().sum()

Unnamed: 0,0
winery,0
wine,0
year,2
rating,0
num_reviews,0
country,0
region,0
price,0
type,545
body,1169


In [None]:
df_wine.columns

Index(['winery', 'wine', 'year', 'rating', 'num_reviews', 'country', 'region',
       'price', 'type', 'body', 'acidity'],
      dtype='object')

In [None]:
df_winery=df_wine.set_index(['winery', 'wine'])
df_winery

Unnamed: 0_level_0,Unnamed: 1_level_0,year,rating,num_reviews,country,region,price,type,body,acidity
winery,wine,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
Teso La Monja,Tinto,2013,4.9,58,Espana,Toro,995.00,Toro Red,5.0,3.0
Artadi,Vina El Pison,2018,4.9,31,Espana,Vino de Espana,313.50,Tempranillo,4.0,2.0
Vega Sicilia,Unico,2009,4.8,1793,Espana,Ribera del Duero,324.95,Ribera Del Duero Red,5.0,3.0
Vega Sicilia,Unico,1999,4.8,1705,Espana,Ribera del Duero,692.96,Ribera Del Duero Red,5.0,3.0
Vega Sicilia,Unico,1996,4.8,1309,Espana,Ribera del Duero,778.06,Ribera Del Duero Red,5.0,3.0
...,...,...,...,...,...,...,...,...,...,...
Contino,Reserva,2016,4.2,392,Espana,Rioja,19.98,Rioja Red,4.0,3.0
Conreria d'Scala Dei,Les Brugueres,2018,4.2,390,Espana,Priorato,16.76,Priorat Red,4.0,3.0
Mustiguillo,Finca Terrerazo,2017,4.2,390,Espana,El Terrerazo,24.45,Red,4.0,3.0
Matarromera,Gran Reserva,2011,4.2,389,Espana,Ribera del Duero,64.50,Ribera Del Duero Red,5.0,3.0


## 3. **Conversión de moneda**
* El precio viene en dólares.
* Genera una columna nueva con el precio en euros (elige el factor de conversión).


In [None]:
EUR = 0.86
df_winery['price euro']=df_winery['price']*EUR
df_winery

Unnamed: 0_level_0,Unnamed: 1_level_0,year,rating,num_reviews,country,region,price,type,body,acidity,price euro
winery,wine,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
Teso La Monja,Tinto,2013,4.9,58,Espana,Toro,995.00,Toro Red,5.0,3.0,855.7000
Artadi,Vina El Pison,2018,4.9,31,Espana,Vino de Espana,313.50,Tempranillo,4.0,2.0,269.6100
Vega Sicilia,Unico,2009,4.8,1793,Espana,Ribera del Duero,324.95,Ribera Del Duero Red,5.0,3.0,279.4570
Vega Sicilia,Unico,1999,4.8,1705,Espana,Ribera del Duero,692.96,Ribera Del Duero Red,5.0,3.0,595.9456
Vega Sicilia,Unico,1996,4.8,1309,Espana,Ribera del Duero,778.06,Ribera Del Duero Red,5.0,3.0,669.1316
...,...,...,...,...,...,...,...,...,...,...,...
Contino,Reserva,2016,4.2,392,Espana,Rioja,19.98,Rioja Red,4.0,3.0,17.1828
Conreria d'Scala Dei,Les Brugueres,2018,4.2,390,Espana,Priorato,16.76,Priorat Red,4.0,3.0,14.4136
Mustiguillo,Finca Terrerazo,2017,4.2,390,Espana,El Terrerazo,24.45,Red,4.0,3.0,21.0270
Matarromera,Gran Reserva,2011,4.2,389,Espana,Ribera del Duero,64.50,Ribera Del Duero Red,5.0,3.0,55.4700


## 4. **Normalización de columnas**
* Genera dos nuevas columnas:
  * body_score (nota del 1 al 10)
  * acidity_score (nota del 1 al 10)
* Elimina las columnas originales de body y acidity.

In [None]:
min_body=df_wine['body'].min()
max_body=df_wine['body'].max()
min_acidity=df_wine['acidity'].min()
max_acidity=df_wine['acidity'].max()

print(f'El valor minimo del cuerpo es {min_body} y el maximo {max_body}')
print(f'El valor minimo de la acidez es {min_acidity} y el maximo {max_acidity}')

El valor minimo del cuerpo es 2.0 y el maximo 5.0
El valor minimo de la acidez es 1.0 y el maximo 3.0


In [None]:
mix_body=2.0
max_body=5.0
min_acidity=1.0
max_acidity=3.0

df_wine['body_score'] = 1 + (df_wine['body'] - min_body) * (9 / (max_body - min_body))
df_wine['acidity_score'] = 1 + (df_wine['acidity'] - min_acidity) * (9 / (max_acidity - min_acidity))

df_wine.drop(['body', 'acidity'], axis=1, inplace=True)

In [None]:
df_wine.head()

Unnamed: 0,winery,wine,year,rating,num_reviews,country,region,price,type,body_score,acidity_score
0,Teso La Monja,Tinto,2013,4.9,58,Espana,Toro,995.0,Toro Red,10.0,10.0
1,Artadi,Vina El Pison,2018,4.9,31,Espana,Vino de Espana,313.5,Tempranillo,7.0,5.5
2,Vega Sicilia,Unico,2009,4.8,1793,Espana,Ribera del Duero,324.95,Ribera Del Duero Red,10.0,10.0
3,Vega Sicilia,Unico,1999,4.8,1705,Espana,Ribera del Duero,692.96,Ribera Del Duero Red,10.0,10.0
4,Vega Sicilia,Unico,1996,4.8,1309,Espana,Ribera del Duero,778.06,Ribera Del Duero Red,10.0,10.0


## 5. **Filtrado y búsquedas**
 * Localiza los vinos de Málaga.


In [None]:
df_malaga=df_wine[df_wine['region']=='Malaga']
df_malaga

Unnamed: 0,winery,wine,year,rating,num_reviews,country,region,price,type,body_score,acidity_score,calidad_precio,calidad
340,Telmo Rodriguez,Molino Real,2016,4.6,28,España,Malaga,41.69,,,,9.063043,True
739,Ramos-Paul,Tinto,2006,4.4,443,España,Malaga,34.0,Tinto,,,7.727273,False
967,Jorge Ordonez,No. 2 Victoria,2018,4.4,64,España,Malaga,15.9,,,,3.613636,False
1343,Jorge Ordonez,No. 2 Victoria,2017,4.3,232,España,Malaga,21.4,,,,4.976744,False
1717,Telmo Rodriguez,Molino Real,2015,4.3,38,España,Malaga,53.3,,,,12.395349,False


## 6. **Calidad-precio**
* Crea una columna que sea el precio dividido por el rating del vino.


In [None]:
df_wine['calidad_precio'] = df_wine['price']/df_wine['rating']
df_wine.head()

Unnamed: 0,winery,wine,year,rating,num_reviews,country,region,price,type,body_score,acidity_score,calidad_precio
0,Teso La Monja,Tinto,2013,4.9,58,Espana,Toro,995.0,Toro Red,10.0,10.0,203.061224
1,Artadi,Vina El Pison,2018,4.9,31,Espana,Vino de Espana,313.5,Tempranillo,7.0,5.5,63.979592
2,Vega Sicilia,Unico,2009,4.8,1793,Espana,Ribera del Duero,324.95,Ribera Del Duero Red,10.0,10.0,67.697917
3,Vega Sicilia,Unico,1999,4.8,1705,Espana,Ribera del Duero,692.96,Ribera Del Duero Red,10.0,10.0,144.366667
4,Vega Sicilia,Unico,1996,4.8,1309,Espana,Ribera del Duero,778.06,Ribera Del Duero Red,10.0,10.0,162.095833


## 7. **Reemplazo de caracteres**
* Reemplaza la letra n por la letra ñ en la columna Country.
* ¿Crees que es necesario hacerlo en alguna otra columna? Razona tu respuesta.

  


In [None]:
df_wine['country'] = df_wine ['country'].str.replace('n','ñ')
df_wine.head()

Unnamed: 0,winery,wine,year,rating,num_reviews,country,region,price,type,body_score,acidity_score,calidad_precio
0,Teso La Monja,Tinto,2013,4.9,58,España,Toro,995.0,Toro Red,10.0,10.0,203.061224
1,Artadi,Vina El Pison,2018,4.9,31,España,Vino de Espana,313.5,Tempranillo,7.0,5.5,63.979592
2,Vega Sicilia,Unico,2009,4.8,1793,España,Ribera del Duero,324.95,Ribera Del Duero Red,10.0,10.0,67.697917
3,Vega Sicilia,Unico,1999,4.8,1705,España,Ribera del Duero,692.96,Ribera Del Duero Red,10.0,10.0,144.366667
4,Vega Sicilia,Unico,1996,4.8,1309,España,Ribera del Duero,778.06,Ribera Del Duero Red,10.0,10.0,162.095833


## 8. **Reemplazo de valores de texto**
* Reemplaza Red por Tinto en todo el DataFrame.
* Ahora localiza los vinos tintos dentro del DataFrame.

   

In [None]:
df_wine=df_wine.replace('Red', 'Tinto')
df_wine

Unnamed: 0,winery,wine,year,rating,num_reviews,country,region,price,type,body_score,acidity_score,calidad_precio
0,Teso La Monja,Tinto,2013,4.9,58,España,Toro,995.00,Toro Red,10.0,10.0,203.061224
1,Artadi,Vina El Pison,2018,4.9,31,España,Vino de Espana,313.50,Tempranillo,7.0,5.5,63.979592
2,Vega Sicilia,Unico,2009,4.8,1793,España,Ribera del Duero,324.95,Ribera Del Duero Red,10.0,10.0,67.697917
3,Vega Sicilia,Unico,1999,4.8,1705,España,Ribera del Duero,692.96,Ribera Del Duero Red,10.0,10.0,144.366667
4,Vega Sicilia,Unico,1996,4.8,1309,España,Ribera del Duero,778.06,Ribera Del Duero Red,10.0,10.0,162.095833
...,...,...,...,...,...,...,...,...,...,...,...,...
7495,Contino,Reserva,2016,4.2,392,España,Rioja,19.98,Rioja Red,7.0,10.0,4.757143
7496,Conreria d'Scala Dei,Les Brugueres,2018,4.2,390,España,Priorato,16.76,Priorat Red,7.0,10.0,3.990476
7497,Mustiguillo,Finca Terrerazo,2017,4.2,390,España,El Terrerazo,24.45,Tinto,7.0,10.0,5.821429
7498,Matarromera,Gran Reserva,2011,4.2,389,España,Ribera del Duero,64.50,Ribera Del Duero Red,10.0,10.0,15.357143


In [None]:
tintos = df_wine[df_wine['type']=='Tinto']
tintos

Unnamed: 0,winery,wine,year,rating,num_reviews,country,region,price,type,body_score,acidity_score,calidad_precio
18,Bodegas El Nido,El Nido,2018,4.8,217,España,Jumilla,195.627380,Tinto,7.0,10.0,40.755704
43,Descendientes de J. Palacios,La Faraona Bierzo (Corullon),2017,4.8,26,España,Bierzo,1098.900000,Tinto,7.0,10.0,228.937500
70,Bodegas El Nido,El Nido,2014,4.7,511,España,Jumilla,154.900000,Tinto,7.0,10.0,32.957447
71,Bodegas El Nido,El Nido,2013,4.7,476,España,Jumilla,145.000000,Tinto,7.0,10.0,30.851064
74,Bodegas El Nido,El Nido,2016,4.7,393,España,Jumilla,371.780098,Tinto,7.0,10.0,79.102148
...,...,...,...,...,...,...,...,...,...,...,...,...
7453,Clos Pons,Roc Nu,2011,4.2,420,España,Costers del Segre,23.950000,Tinto,7.0,10.0,5.702381
7472,Mustiguillo,Finca Terrerazo,2017,4.2,390,España,El Terrerazo,24.450000,Tinto,7.0,10.0,5.821429
7477,Enrique Mendoza,Santa Rosa,2017,4.2,420,España,Alicante,18.900000,Tinto,7.0,10.0,4.500000
7478,Clos Pons,Roc Nu,2011,4.2,420,España,Costers del Segre,23.950000,Tinto,7.0,10.0,5.702381


 ## 9. **Detección de columnas redundantes**
* ¿Crees que hay columnas redundantes en el DataFrame? Si es así, indícalas.

   

No hay columnas que sean redundantes, sin embargo, columnas como `calidad_precio` son derivadas de otras (`price` y `rating`), por lo cual, dependiendo del objetivo del análisis, podrían considerarse redundantes o prescindibles.

In [None]:
df_wine.columns

Index(['winery', 'wine', 'year', 'rating', 'num_reviews', 'country', 'region',
       'price', 'type', 'body_score', 'acidity_score', 'calidad_precio'],
      dtype='object')

 ## 10. **Clasificación simple**
* Genera una columna que sea True cuando un vino tenga más de un 4,5 de rating, y False en caso contrario.

In [None]:
df_wine['calidad'] = df_wine['rating']>4.5
df_wine

Unnamed: 0,winery,wine,year,rating,num_reviews,country,region,price,type,body_score,acidity_score,calidad_precio,calidad
0,Teso La Monja,Tinto,2013,4.9,58,España,Toro,995.00,Toro Red,10.0,10.0,203.061224,True
1,Artadi,Vina El Pison,2018,4.9,31,España,Vino de Espana,313.50,Tempranillo,7.0,5.5,63.979592,True
2,Vega Sicilia,Unico,2009,4.8,1793,España,Ribera del Duero,324.95,Ribera Del Duero Red,10.0,10.0,67.697917,True
3,Vega Sicilia,Unico,1999,4.8,1705,España,Ribera del Duero,692.96,Ribera Del Duero Red,10.0,10.0,144.366667,True
4,Vega Sicilia,Unico,1996,4.8,1309,España,Ribera del Duero,778.06,Ribera Del Duero Red,10.0,10.0,162.095833,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...
7495,Contino,Reserva,2016,4.2,392,España,Rioja,19.98,Rioja Red,7.0,10.0,4.757143,False
7496,Conreria d'Scala Dei,Les Brugueres,2018,4.2,390,España,Priorato,16.76,Priorat Red,7.0,10.0,3.990476,False
7497,Mustiguillo,Finca Terrerazo,2017,4.2,390,España,El Terrerazo,24.45,Tinto,7.0,10.0,5.821429,False
7498,Matarromera,Gran Reserva,2011,4.2,389,España,Ribera del Duero,64.50,Ribera Del Duero Red,10.0,10.0,15.357143,False
