# **Ingeniería de características**

### Crear nuevas columbas con base en valores de otras

Nos centramos en esta nueva DataFRame

```python
import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')
print(df.head())

#Resultado ===================================

                       name platform  year_of_release         genre publisher  \
0                Wii Sports      Wii           2006.0        Sports  Nintendo   
1         Super Mario Bros.      NES           1985.0      Platform  Nintendo   
2            Mario Kart Wii      Wii           2008.0        Racing  Nintendo   
3         Wii Sports Resort      Wii           2009.0        Sports  Nintendo   
4  Pokemon Red/Pokemon Blue       GB           1996.0  Role-Playing  Nintendo   

  developer  na_sales  eu_sales  jp_sales  critic_score  user_score  
0  Nintendo     41.36     28.96      3.77          76.0         8.0  
1       NaN     29.08      3.58      6.81           NaN         NaN  
2  Nintendo     15.68     12.76      3.79          82.0         8.3  
3  Nintendo     15.61     10.93      3.28          80.0         8.0  
4       NaN     11.27      8.89     10.22           NaN         NaN
```

## Transformaciones de columnas mediante operadores aritméticos

Fíjate que el DataFrame de arriba incluye las ventas de tres regiones: NA (Norteamérica), EU (Europa) y Japón (JPN). Para crear una columna llamada 'total_sales', tenemos que generarla a partir de las otras columnas. Afortunadamente, es fácil de hacer:

```python
import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')

df['total_sales'] = df['na_sales'] + df['eu_sales'] + df['jp_sales']
print(df['total_sales'].head())

#Resultado ===================================
0    74.09
1    39.47
2    32.23
3    29.82
4    30.38
Name: total_sales, dtype: float64
```

Podemos aprovechar este método para crear columnas a partir de fórmulas útiles. Por ejemplo, si queremos calcular la parte de las ventas totales que proceden de la UE, podemos hacerlo así:

```python
import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')
# crear la columna total_ventas y rellenarla
df['total_sales'] = df['na_sales'] + df['eu_sales'] + df['jp_sales']

# crear la columna eu_sales_share y rellenarla
df['eu_sales_share'] = df['eu_sales'] / df['total_sales']
print(df['eu_sales_share'].head())

#Resultado ===================================

0    0.390876
1    0.090702
2    0.395904
3    0.366533
4    0.292627
Name: eu_sales_share, dtype: float64
```


## Generar columnas booleanas

Imagina que queremos que una columna indique si algo es verdadero. Podemos crearla mediante los operadores de comparación ==, <, >=, etcétera. Por ejemplo, vamos a crear una columna que comprueba si la empresa distribuidora es Nintendo:


```python
import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')

# crear la columna is_nintendo y rellenarla
df['is_nintendo'] = df['publisher'] == 'Nintendo'
print(df['is_nintendo'].head())

#Resultado ===================================

0    True
1    True
2    True
3    True
4    True
Name: is_nintendo, dtype: bool
```


 La mayor parte del filtrado de datos se obtiene aplicando columnas booleanas como una "máscara" sobre los datos. Recuerda que también podemos hacer esto con el conveniente método isin(), que comprueba si un valor está en una lista:


```python
 import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')

# asegúrate de que estés comparando minúsculas
print(df['platform'].str.lower().isin(['gb', 'wii']).head())

#Resultado ===================================

0     True
1    False
2     True
3     True
4     True
Name: platform, dtype: bool
```

## Categorical

Trabajar con datos de string sin procesar rara vez nos ayuda para el análisis de datos, pues por lo general las columnas de string necesitan algún tipo de procesamiento.


```python
import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')

print(df['platform'].unique())

#Resultado ===================================

['Wii' 'NES' 'GB' 'DS' 'X360' 'PS3' 'PS2' 'SNES' 'GBA' 'PS4' '3DS' 'N64'
 'PS' 'XB' 'PC' '2600' 'PSP' 'XOne' 'WiiU' 'GC' 'GEN' 'DC' 'PSV' 'SAT'
 'SCD' 'WS' 'NG' 'TG16' '3DO' 'GG' 'PCFX']
```


 **Podemos convertir 'platform' de columna de string a columna categórica usando el método astype() que aprendiste en el capítulo anterior:**


```python
 import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')

df['platform'] = df['platform'].astype('category')
print(df['platform'].head())

#Resultado ===================================

0    Wii
1    NES
2    Wii
3    Wii
4     GB
Name: platform, dtype: category
Categories (31, object): ['2600', '3DO', '3DS', 'DC', ..., 'WiiU', 'X360', 'XB', 'XOne']
```


**Observa que solo hay 31 categorías a pesar de que hay 16 719 entradas. Cuando la columna está almacenada como strings, necesitamos mantener el texto completo de las 16 719 entradas. Cuando se almacena como category (categoría), solo almacenamos un número: el ID de categoría. ¡Qué bonito!**

# **Ejercicios!**

**Ejercicio 1**

Crear nuevas columnas con base en valores de otras
Te han encargado comprobar cuál es el juego más vendido (en promedio) en todos los mercados.

Necesitas:

- Tomar el promedio de las columnas 'jp_sales', 'na_sales' y 'eu_sales' y guardarlo en una nueva columna llamada 'average_sales'.
- Ordenar los valores del DataFrame por average_sales en orden descendente. Utiliza el método sort_values, pasando los argumentos correctos a los parámetros by= y ascending=.
- A continuación, imprimir los cinco primeros valores en la nueva columna.

```python
import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')

df['average_sales'] = (df['na_sales'] + df['eu_sales'] + df['jp_sales'])/3
df= df.sort_values(by='average_sales', ascending = False)

print(df.head())

#Resultado ===================================

                       name platform  ...  user_score average_sales
0                Wii Sports      Wii  ...           8     24.696667
1         Super Mario Bros.      NES  ...         NaN     13.156667
2            Mario Kart Wii      Wii  ...         8.3     10.743333
4  Pokemon Red/Pokemon Blue       GB  ...         NaN     10.126667
3         Wii Sports Resort      Wii  ...           8      9.940000

[5 rows x 12 columns]
```

# ===================================

# Crear columnas caregóticas con apply()

crear nuevas columnas categóricas que resuman datos numéricos en otras columnas. A menudo esta técnica puede simplificar el análisis y facilitar que otras personas entiendan los resultados que obtienes.

Vamos a echar otro vistazo a la columna 'year_of_release' (año de lanzamiento) en el conjunto de datos de videojuegos. En especial, queremos conocer el rango de años que cubren nuestros datos.



```python
import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')

print(df['year_of_release'].min(), df['year_of_release'].max())

#Resultado ========================================

1980.0 2020.0
```

Vaya, 40 años de juegos! Echemos un vistazo de cerca a estos valores contando cuántos juegos tenemos por año.

```python
import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')
df_year_of_release = df['year_of_release'].value_counts()

print(df_year_of_release)

#Resultado ========================================

2008.0    1427
2009.0    1426
2010.0    1255
2007.0    1197
2011.0    1136
2006.0    1006
2005.0     939
2002.0     829
2003.0     775
2004.0     762
2012.0     653
2015.0     606
2014.0     581
2013.0     544
2016.0     502
2001.0     482
1998.0     379
2000.0     350
1999.0     338
1997.0     289
1996.0     263
1995.0     219
1994.0     121
1993.0      60
1981.0      46
1992.0      43
1991.0      41
1982.0      36
1986.0      21
1983.0      17
1989.0      17
1990.0      16
1987.0      16
1988.0      15
1984.0      14
1985.0      14
1980.0       9
2017.0       3
2020.0       1
Name: year_of_release, dtype: int64
```


Hemos recibido la respuesta, pero no está correctamente ordenada.

```python
import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')
df_year_of_release = df['year_of_release'].value_counts().sort_index()

print(df_year_of_release)

#Resultado ========================================

1980.0       9
1981.0      46
1982.0      36
1983.0      17
1984.0      14
1985.0      14
1986.0      21
1987.0      16
1988.0      15
1989.0      17
1990.0      16
1991.0      41
1992.0      43
1993.0      60
1994.0     121
1995.0     219
1996.0     263
1997.0     289
1998.0     379
1999.0     338
2000.0     350
2001.0     482
2002.0     829
2003.0     775
2004.0     762
2005.0     939
2006.0    1006
2007.0    1197
2008.0    1427
2009.0    1426
2010.0    1255
2011.0    1136
2012.0     653
2013.0     544
2014.0     581
2015.0     606
2016.0     502
2017.0       3
2020.0       1
Name: year_of_release, dtype: int64
```

## **Categorización**

Necesitamos realizar la categorización, agrupando los datos en nuevas categorías que creamos. En este caso, vamos a agrupar los juegos en cuatro categorías en función de la época.

- Los lanzados antes del año 2000 irán en la categoría 'retro'.
- Los lanzados entre el 2000 y el 2009 irán en 'modern' (moderno).
- Los lanzados a partir del 2010 irán en 'recent' (reciente).
- Los que no tienen año de lanzamiento irán en 'unknown' (desconocido).

Queremos colocar cada juego en una de estas cuatro categorías y almacenar el resultado en una nueva columna.

Así se verá nuestra función personalizada era_group():





In [4]:
def era_group(year):
    """
    La función devuelve el grupo de época de los juegos de acuerdo con el año de lanzamiento usando estas reglas:
    —'retro'   para año < 2000
    —'modern'  para 2000 <= año < 2010
    —'recent'  para año >= 2010
    —'unknown' para buscar valores año (NaN)
    """

    if year < 2000:
        return "retro"
    elif year < 2010:
        return "modern"
    elif year >= 2010:
        return "recent"
    else:
        return "unknown"


print(era_group(1983))
print(era_group(2011))
print(era_group(2021))
print(era_group("Undefined"))

# ¡Excelente! La función trabaja justo como esperábamos. A continuación, crearemos una nueva columna para registrar las categorías de época.

retro
recent
recent


TypeError: '<' not supported between instances of 'str' and 'int'

## Metodo apply()

el método apply() se debe aplicar a la columna 'year_of_release' column, porque 'year_of_release' contiene los datos que la función usará como input. La función era_group() se convierte entonces en el argumento que pasamos al método apply().



```python
import pandas as pd

def era_group(year):
    """
    La función devuelve el grupo de época de los juegos de acuerdo con el año de lanzamiento usando estas reglas:
    —'retro'   para año < 2000
    —'modern'  para 2000 <= año < 2010
    —'recent'  para año >= 2010
    —'unknown' para buscar valores año (NaN)
    """

    if year < 2000:
        return 'retro'
    elif year < 2010:
        return 'modern'
    elif year >= 2010:
        return 'recent'
    else:
        return 'unknown'


df = pd.read_csv('/datasets/vg_sales.csv')

df['era_group'] = df['year_of_release'].apply(era_group)
print(df.head())

#resultado =================================

              name platform  year_of_release         genre publisher  \
0                Wii Sports      Wii           2006.0        Sports  Nintendo   
1         Super Mario Bros.      NES           1985.0      Platform  Nintendo   
2            Mario Kart Wii      Wii           2008.0        Racing  Nintendo   
3         Wii Sports Resort      Wii           2009.0        Sports  Nintendo   
4  Pokemon Red/Pokemon Blue       GB           1996.0  Role-Playing  Nintendo   

  developer  na_sales  eu_sales  jp_sales  critic_score  user_score era_group  
0  Nintendo     41.36     28.96      3.77          76.0         8.0    modern  
1       NaN     29.08      3.58      6.81           NaN         NaN     retro  
2  Nintendo     15.68     12.76      3.79          82.0         8.3    modern  
3  Nintendo     15.61     10.93      3.28          80.0         8.0    modern  
4       NaN     11.27      8.89     10.22           NaN         NaN     retro
```

Ahora vamos a analizar los datos en los grupos de época con el método value_counts():

```python
import pandas as pd

def era_group(year):
    """
    La función devuelve el grupo de época de los juegos de acuerdo con el año de lanzamiento usando estas reglas:
    —'retro'   para año < 2000
    —'modern'  para 2000 <= año < 2010
    —'recent'  para año >= 2010
    —'unknown' para buscar valores año (NaN)
    """

    if year < 2000:
        return 'retro'
    elif year < 2010:
        return 'modern'
    elif year >= 2010:
        return 'recent'
    else:
        return 'unknown'


df = pd.read_csv('/datasets/vg_sales.csv')

df['era_group'] = df['year_of_release'].apply(era_group)
print(df['era_group'].value_counts())

#Resultado===============================================Z


modern     9193
recent     5281
retro      1974
unknown     269
Name: era_group, dtype: int64
```

# **Ejercicios**

**Ejercicio 1**

Comienza por escribir una función llamada score_group() que organice los juegos por categorías de acuerdo con las puntuaciones de las críticas. Categoriza las puntuaciones con base en estas características:

- valor 'low' (bajo) para puntuaciones menores a 60.
- valor 'medium' (medio) para puntuaciones de 60 a 79.
- valor 'high' (alto) para puntuaciones mayores a 80.
- valor 'no score' (sin puntuación) para puntuaciones sin valores.

La función score_group() debe tener un input numérico llamado score. La salida debe ser una cadena que designe la categoría de la puntuación.

Asegúrate de que tu función produzca el output correcto cuando se le pasen los valores 10, 65, 99 y np.nan. Escribimos una declaración print() distinta para llamar a cada función.

No dudes en copiar nuestra función del ejemplo anterior y adaptarla a tus necesidades actuales.


```python
import pandas as pd
import numpy as np

df = pd.read_csv('/datasets/vg_sales.csv')

def score_group(score):
    if score < 60 :
        return "low"
    elif 60<score<=79:
        return "medium"
    elif score >= 80:
        return "high"
    else:
        return "no score"

# imprime los resultados de llamar a la función con estos inputs en orden: 10, 65, 99, np.nan
print(score_group(10))
print(score_group(65))
print(score_group(99))
print(score_group(np.nan))

#Resultado =========================

low
medium
high
no score
```

**Ejercicio 2**

Agrega una columna 'score_group' a la tabla df aplicando la función score_group() a la columna 'critic_score', con el método apply(). Imprime las primeras 5 filas para asegurarte de que se creó la nueva columna correctamente.

El precódigo mantiene la función score_group() del ejercicio pasado (puede que se vea un poco distinta a la tuya, pero la manera en que trabaja es la misma).


```python
import pandas as pd
import numpy as np

df = pd.read_csv('/datasets/vg_sales.csv')

def score_group(score):
    if score < 60:
        return 'low'
    elif score < 80:
        return 'medium'
    elif score >= 80:
        return 'high'
    else:
        return 'no score'

df['score_group'] = df['critic_score'].apply(score_group)
print(df.head())

#Resultado ============================

                       name platform  ...  user_score score_group
0                Wii Sports      Wii  ...           8      medium
1         Super Mario Bros.      NES  ...         NaN    no score
2            Mario Kart Wii      Wii  ...         8.3        high
3         Wii Sports Resort      Wii  ...           8        high
4  Pokemon Red/Pokemon Blue       GB  ...         NaN    no score

[5 rows x 12 columns]
```