# **Ingeniería de características**

### Crear nuevas columbas con base en valores de otras

Nos centramos en esta nueva DataFRame

```python
import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')
print(df.head())

#Resultado ===================================

                       name platform  year_of_release         genre publisher  \
0                Wii Sports      Wii           2006.0        Sports  Nintendo   
1         Super Mario Bros.      NES           1985.0      Platform  Nintendo   
2            Mario Kart Wii      Wii           2008.0        Racing  Nintendo   
3         Wii Sports Resort      Wii           2009.0        Sports  Nintendo   
4  Pokemon Red/Pokemon Blue       GB           1996.0  Role-Playing  Nintendo   

  developer  na_sales  eu_sales  jp_sales  critic_score  user_score  
0  Nintendo     41.36     28.96      3.77          76.0         8.0  
1       NaN     29.08      3.58      6.81           NaN         NaN  
2  Nintendo     15.68     12.76      3.79          82.0         8.3  
3  Nintendo     15.61     10.93      3.28          80.0         8.0  
4       NaN     11.27      8.89     10.22           NaN         NaN
```

## Transformaciones de columnas mediante operadores aritméticos

Fíjate que el DataFrame de arriba incluye las ventas de tres regiones: NA (Norteamérica), EU (Europa) y Japón (JPN). Para crear una columna llamada 'total_sales', tenemos que generarla a partir de las otras columnas. Afortunadamente, es fácil de hacer:

```python
import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')

df['total_sales'] = df['na_sales'] + df['eu_sales'] + df['jp_sales']
print(df['total_sales'].head())

#Resultado ===================================
0    74.09
1    39.47
2    32.23
3    29.82
4    30.38
Name: total_sales, dtype: float64
```

Podemos aprovechar este método para crear columnas a partir de fórmulas útiles. Por ejemplo, si queremos calcular la parte de las ventas totales que proceden de la UE, podemos hacerlo así:

```python
import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')
# crear la columna total_ventas y rellenarla
df['total_sales'] = df['na_sales'] + df['eu_sales'] + df['jp_sales']

# crear la columna eu_sales_share y rellenarla
df['eu_sales_share'] = df['eu_sales'] / df['total_sales']
print(df['eu_sales_share'].head())

#Resultado ===================================

0    0.390876
1    0.090702
2    0.395904
3    0.366533
4    0.292627
Name: eu_sales_share, dtype: float64
```
