# Apply: Transformaciones en base a una columna

En esta sesión vamos a ver la capacidad de aplicar funciones definidas por el usuario (y no definidas por él) a los valores de una columna en concreto. Así podremos manipular esos datos para lo que necesitemos.

Lo primero, cargarnos unos datos, un poco diferentes, pero muy similares a los de los viajes que hemos visto hasta ahora.

In [78]:
import numpy as np
import pandas as pd

df_aviones = pd.read_csv("C:/Users/david/Repo_Prueba/DS_Online_Febr25_Exercises/02_Programacion_y_Herramientas_Avanzadas/Sprint_04/Unidad_02/Practica_Obligatoria/data/dataset_viajes.csv")
df_aviones

Unnamed: 0,Id_vuelo,Aircompany,Origen,Destino,Distancia,avion,consumo_kg,duracion
0,Air_PaGi_10737,Airnar,París,Ginebra,411.0,Boeing 737,,51.0
1,Fly_BaRo_10737,FlyQ,Bali,Roma,12738.0,Boeing 737,33479.13254400001,1167.0
2,Tab_GiLo_11380,TabarAir,Ginebra,Los Angeles,9103.0,Airbus A380,,626.0
3,Mol_PaCi_10737,MoldaviAir,París,Cincinnati,6370.0,Boeing 737,17027.01,503.0
4,Tab_CiRo_10747,TabarAir,Cincinnati,Roma,7480.0,Boeing 747,86115.744,518.0
...,...,...,...,...,...,...,...,...
995,Pam_LoNu_10747,PamPangea,Londres,Nueva York,5566.0,Boeing 747,62300238,391.0
996,Mol_MeLo_10747,MoldaviAir,Melbourne,Londres,16900.0,Boeing 747,194854.5664,1326.0
997,Mol_BaPa_10747,MoldaviAir,Bali,París,11980.0,Boeing 747,128983.868,818.0
998,Air_CaCi_10747,Airnar,Cádiz,Cincinnati,6624.0,Boeing 747,72024.0768,461.0


Así de primeras, no se ve nada muy diferente. Por eso seguimos con lo que nos han pedido, y ¿qué nos han pedido? Pues todavía no te lo he dicho… Nos piden que creemos una columna nueva para clasificar los vuelos en tres categorías:

- **LD** -> Larga Distancia (distancia > 10000 Km)
- **MD** -> Media Distancia (distancia entre 2000 Km y 10000 Km)
- **CD** -> Distancia corta (distancias < 2000 Km)

Pues nada, solo tenemos que comparar la distancia de cada vuelo con esos umbrales y… ¿y cómo se procesan los valores de una serie?

In [79]:
# Solución "antipattern"
clasificacion = []

for distancia in df_aviones["Distancia"]:
    if distancia > 10000:
        clasificacion.append("LD")
    elif distancia >= 2000:
        clasificacion.append("MD")
    else:
        clasificacion.append("CD")

df_aviones["categoria_vuelo"] = clasificacion

In [80]:
df_aviones

Unnamed: 0,Id_vuelo,Aircompany,Origen,Destino,Distancia,avion,consumo_kg,duracion,categoria_vuelo
0,Air_PaGi_10737,Airnar,París,Ginebra,411.0,Boeing 737,,51.0,CD
1,Fly_BaRo_10737,FlyQ,Bali,Roma,12738.0,Boeing 737,33479.13254400001,1167.0,LD
2,Tab_GiLo_11380,TabarAir,Ginebra,Los Angeles,9103.0,Airbus A380,,626.0,MD
3,Mol_PaCi_10737,MoldaviAir,París,Cincinnati,6370.0,Boeing 737,17027.01,503.0,MD
4,Tab_CiRo_10747,TabarAir,Cincinnati,Roma,7480.0,Boeing 747,86115.744,518.0,MD
...,...,...,...,...,...,...,...,...,...
995,Pam_LoNu_10747,PamPangea,Londres,Nueva York,5566.0,Boeing 747,62300238,391.0,MD
996,Mol_MeLo_10747,MoldaviAir,Melbourne,Londres,16900.0,Boeing 747,194854.5664,1326.0,LD
997,Mol_BaPa_10747,MoldaviAir,Bali,París,11980.0,Boeing 747,128983.868,818.0,LD
998,Air_CaCi_10747,Airnar,Cádiz,Cincinnati,6624.0,Boeing 747,72024.0768,461.0,MD


In [81]:
# Cambiar la primera letra de los encabezados específicos a mayúscula
df_aviones.columns = [col.capitalize() if col in ["avion", "consumo_kg", "duracion"] else col for col in df_aviones.columns]

In [82]:
df_aviones["categoria_vuelo"]

0      CD
1      LD
2      MD
3      MD
4      MD
       ..
995    MD
996    LD
997    LD
998    MD
999    MD
Name: categoria_vuelo, Length: 1000, dtype: object

Otra forma de hacerlo es a través de una función

In [121]:
df_aviones

Unnamed: 0,Id_vuelo,Aircompany,Origen,Destino,Distancia,Avion,Consumo_kg,Duracion,categoria_vuelo,Categoria_consumo
0,Air_PaGi_10737,Airnar,París,Ginebra,411.0,Boeing 737,,51.0,CD,A
1,Fly_BaRo_10737,FlyQ,Bali,Roma,12738.0,Boeing 737,33479.132544,1167.0,LD,C
2,Tab_GiLo_11380,TabarAir,Ginebra,Los Angeles,9103.0,Airbus A380,,626.0,MD,A
3,Mol_PaCi_10737,MoldaviAir,París,Cincinnati,6370.0,Boeing 737,17027.010000,503.0,MD,C
4,Tab_CiRo_10747,TabarAir,Cincinnati,Roma,7480.0,Boeing 747,86115.744000,518.0,MD,C
...,...,...,...,...,...,...,...,...,...,...
995,Pam_LoNu_10747,PamPangea,Londres,Nueva York,5566.0,Boeing 747,62300.238000,391.0,MD,C
996,Mol_MeLo_10747,MoldaviAir,Melbourne,Londres,16900.0,Boeing 747,194854.566400,1326.0,LD,C
997,Mol_BaPa_10747,MoldaviAir,Bali,París,11980.0,Boeing 747,128983.868000,818.0,LD,C
998,Air_CaCi_10747,Airnar,Cádiz,Cincinnati,6624.0,Boeing 747,72024.076800,461.0,MD,C


In [96]:
def clasificador_distancia(serie):
    clasificacion = []
    for distancia in serie:
        if distancia > 10000:
            clasificacion.append("LD")
        elif distancia >= 2000:
            clasificacion.append("MD")
        elif distancia > 500:
            clasificacion.append("OCD")
        else:
            clasificacion.append("CD")
    return clasificacion

In [84]:
df_aviones["categoria_vuelo"]=clasificador_distancia(df_aviones["Distancia"])

In [85]:
df_aviones.categoria_vuelo.value_counts()

categoria_vuelo
MD     356
LD     325
CD     174
OCD    145
Name: count, dtype: int64

Aunque efectivo, lo que tienes que ir acostumbrándote a hacer es usar el método `apply`, y dirás ¿por qué? Porque cuando quieras operar con dos o más columnas empezarán los problemas (lo veremos en la siguiente sesión y entonces es mejor ir ya acostumbrándose siempre a usar `apply`).

## Apply

Es un metodo de las series y de los DataFrame qu sirve para aplicar funciones valor a valor

In [86]:
def clasificador_apply(distancia):
        if distancia > 10000:
            clasificacion="LD"
        elif distancia >= 2000:
            clasificacion="MD"
        else:
            clasificacion="CD"
        return clasificacion

In [87]:
df_aviones["Distancia"].apply(clasificador_apply)

0      CD
1      LD
2      MD
3      MD
4      MD
       ..
995    MD
996    LD
997    LD
998    MD
999    MD
Name: Distancia, Length: 1000, dtype: object

In [88]:
def test_func(distancia):
    if distancia<200:
        print(distancia)

resultado = df_aviones["Distancia"].apply(test_func)
resultado

0      None
1      None
2      None
3      None
4      None
       ... 
995    None
996    None
997    None
998    None
999    None
Name: Distancia, Length: 1000, dtype: object

## Datos Sucios

Terminemos, o intentémoslo, la sesión con otro ejemplo en el que ya usaremos `apply` directamente. Ahora queremos clasificar los vuelos por su potencial contaminante.

Considerando el consumo (`consumo_kg`):

- Para mayores de 8000, categoría C  
- Para consumos entre 5000 y 8000, categoría B  
- Para consumos menores de 5000, categoría A  

Fácil, ¿no? Sólo tenemos que casi copiar el código de `clasificador_apply`. Venga:

In [89]:
def cat_consumo(consumo):
        if consumo > 8000:
            clasificacion="C"
        elif consumo >= 2000:
            clasificacion="B"
        else:
            clasificacion="A"
        return clasificacion

In [91]:
df_aviones["Consumo_kg"].value_counts()

Consumo_kg
75328.428            4
18400.052            4
8799.1252            4
150304.854           3
151736.3288          3
                    ..
17459.6604           1
205513.9112          1
23658.3099           1
131538.004           1
87447.93200000002    1
Name: count, Length: 703, dtype: int64

In [None]:
def reemplaza(consumo):
    if type(consumo)==str:
         return float(consumo.replace(",","."))
    else:
        return consumo

In [97]:
df_aviones["Consumo_kg"] = df_aviones.Consumo_kg.apply(reemplaza)

In [98]:
df_aviones.dtypes

Id_vuelo            object
Aircompany          object
Origen              object
Destino             object
Distancia          float64
Avion               object
Consumo_kg         float64
Duracion           float64
categoria_vuelo     object
dtype: object

In [99]:
df_aviones["Categoria_consumo"]=df_aviones["Consumo_kg"].apply(cat_consumo)

In [100]:
df_aviones.Categoria_consumo.value_counts()

Categoria_consumo
C    719
A    193
B     88
Name: count, dtype: int64

## Transformaciones sobre varias columnas y sobre selecciones/filtrados

Para mostrarte cómo utilizar `apply` con varias columnas y cómo hacerlo sobre una selección o filtro, vamos a trabajar con nuestro conjunto de datos de vuelos y sobre dos peticiones nuevas:

1. Clasificar los vuelos según su capacidad contaminante pero teniendo en cuenta varias columnas.
2. Corregir los datos de dos compañías de las que nos han informado que tienen errores en los reportes recogidos en los datos que utilizamos.

Nos piden categorizar de la siguiente manera:

- Para vuelos de > 10000 km:
  - Si su consumo por kilómetro es mayor que 11 y la duración es menos de 1000 minutos, categoría: **MC** (muy contaminante)
  - Si su consumo por kilómetro es mayor que 11 y la duración es más de 1000 minutos o su consumo es menor que 11, categoría: **AC** (altamente contaminante)

- Para vuelos de < 10000 km:
  - Si su consumo por kilómetro es mayor que 10, categoría: **MC**
  - Si su consumo por kilómetro es menor que 10, y su duración es menor que 600: **AC**
  - En cualquier otro caso: **C** (Contaminante)

In [130]:
def cat_contamination(row):
    distancia=row["Distancia"]
    consumo=row["Consumo_kg"]
    duracion=["Duracion"]
    consumo_km = consumo / distancia
    if distancia > 10000:
        if consumo_km > 11 and duracion < 1000:
            categoria = "MC"
        else:
            categoria = "AC"
    elif distancia < 10000:
        if consumo_km > 10:
            categoria = "MC"
        elif duracion < 600:
            categoria = "AC"
        else:
            categoria = "C"
    return categoria

In [129]:
df_aviones

Unnamed: 0,Id_vuelo,Aircompany,Origen,Destino,Distancia,Avion,Consumo_kg,Duracion,categoria_vuelo,Categoria_consumo
0,Air_PaGi_10737,Airnar,París,Ginebra,411.0,Boeing 737,,51.0,CD,A
1,Fly_BaRo_10737,FlyQ,Bali,Roma,12738.0,Boeing 737,33479.132544,1167.0,LD,C
2,Tab_GiLo_11380,TabarAir,Ginebra,Los Angeles,9103.0,Airbus A380,,626.0,MD,A
3,Mol_PaCi_10737,MoldaviAir,París,Cincinnati,6370.0,Boeing 737,17027.010000,503.0,MD,C
4,Tab_CiRo_10747,TabarAir,Cincinnati,Roma,7480.0,Boeing 747,86115.744000,518.0,MD,C
...,...,...,...,...,...,...,...,...,...,...
995,Pam_LoNu_10747,PamPangea,Londres,Nueva York,5566.0,Boeing 747,62300.238000,391.0,MD,C
996,Mol_MeLo_10747,MoldaviAir,Melbourne,Londres,16900.0,Boeing 747,194854.566400,1326.0,LD,C
997,Mol_BaPa_10747,MoldaviAir,Bali,París,11980.0,Boeing 747,128983.868000,818.0,LD,C
998,Air_CaCi_10747,Airnar,Cádiz,Cincinnati,6624.0,Boeing 747,72024.076800,461.0,MD,C
