# ANOVA: Análisis de varianza.

El análisis de varianza o ANOVA es un método estadístico utilizado para probar si es que existen diferencias significativas entre las medias de dos o más grupos. ANOVA deuvelve dos parámetros:

**F-test score:** ANOVA asume que las medias de todos los grupos son iguales, calcula cuanto las medias se desvían de este hipótesis y reportan el resultado con un F-test score. Un valor alto significa que existe una diferencia significativa entre las medias.

**P-value:** Indica cuan estadísticamente significativo es el f-test score calculado.

Sigamos con el ejemplo de los vehículos. Si recordamos el problma anterior, solo nos falta revisar como se comporan las variables categóricas para definir que variables son importantes a la hora de determinar el precio de un auto.

Si entonces, el precio está fuertemente correlacionado con las variables que estamos analizando, el ANOVA debe devolver un F-test grande y un p-value pequeño.

## Drive Wheels

COmo ANOVA analiza la diferencia entre diferentes grupos de la misma variable, la función group by nos va a resultar muy útil. Como ANOVA calcula los promedios e indicadores por nosotros. veremos una forma resumida de calcularlo utilizando la biblioteca scipy.

Para partir agruparemos los datos.

In [1]:
# solo ejecuta este bloque. Es solo para quedar donde lo dejamos en el archivo anterior.
import pandas as pd
import numpy as np
from scipy import stats
path='https://s3-api.us-geo.objectstorage.softlayer.net/cf-courses-data/CognitiveClass/DA0101EN/automobileEDA.csv'
df = pd.read_csv(path)
df_gptest = df[['drive-wheels','body-style','price']]
grouped_test1 = df_gptest.groupby(['drive-wheels','body-style'],as_index=False).mean()
grouped_test2=df_gptest[['drive-wheels', 'price']].groupby('drive-wheels')
grouped_test3=df_gptest.groupby(['drive-wheels',"body-style"])
grouped_test2.head()

Unnamed: 0,drive-wheels,price
0,rwd,13495.0
1,rwd,16500.0
2,rwd,16500.0
3,fwd,13950.0
4,4wd,17450.0
5,fwd,15250.0
6,fwd,17710.0
7,fwd,18920.0
8,fwd,23875.0
9,rwd,16430.0


In [2]:
grouped_test3.pad()

Unnamed: 0,drive-wheels,body-style,price
0,rwd,convertible,13495.0
1,rwd,convertible,16500.0
2,rwd,hatchback,16500.0
3,fwd,sedan,13950.0
4,4wd,sedan,17450.0
5,fwd,sedan,15250.0
6,fwd,sedan,17710.0
7,fwd,wagon,18920.0
8,fwd,sedan,23875.0
9,rwd,sedan,16430.0


In [3]:
grouped_test1

Unnamed: 0,drive-wheels,body-style,price
0,4wd,hatchback,7603.0
1,4wd,sedan,12647.333333
2,4wd,wagon,9095.75
3,fwd,convertible,11595.0
4,fwd,hardtop,8249.0
5,fwd,hatchback,8396.387755
6,fwd,sedan,9811.8
7,fwd,wagon,9997.333333
8,rwd,convertible,23949.6
9,rwd,hardtop,24202.714286


In [4]:
df_gptest

Unnamed: 0,drive-wheels,body-style,price
0,rwd,convertible,13495.0
1,rwd,convertible,16500.0
2,rwd,hatchback,16500.0
3,fwd,sedan,13950.0
4,4wd,sedan,17450.0
5,fwd,sedan,15250.0
6,fwd,sedan,17710.0
7,fwd,wagon,18920.0
8,fwd,sedan,23875.0
9,rwd,sedan,16430.0


In [5]:
grouped_test2.pad()

Unnamed: 0,drive-wheels,price
0,rwd,13495.0
1,rwd,16500.0
2,rwd,16500.0
3,fwd,13950.0
4,4wd,17450.0
5,fwd,15250.0
6,fwd,17710.0
7,fwd,18920.0
8,fwd,23875.0
9,rwd,16430.0


Podemos obtener los valores de cada grupo utilizando el método get_group

In [6]:
grouped_test2.get_group('4wd')['price']

4      17450.0
136     7603.0
140     9233.0
141    11259.0
144     8013.0
145    11694.0
150     7898.0
151     8778.0
Name: price, dtype: float64

In [7]:
grouped_test3.get_group(("rwd","sedan"))

Unnamed: 0,drive-wheels,body-style,price
9,rwd,sedan,16430.0
10,rwd,sedan,16925.0
11,rwd,sedan,20970.0
12,rwd,sedan,21105.0
13,rwd,sedan,24565.0
14,rwd,sedan,30760.0
15,rwd,sedan,41315.0
16,rwd,sedan,36880.0
42,rwd,sedan,6785.0
44,rwd,sedan,32250.0


In [8]:
grouped_test3.get_group(("rwd","sedan"))["price"]

9      16430.0
10     16925.0
11     20970.0
12     21105.0
13     24565.0
14     30760.0
15     41315.0
16     36880.0
42      6785.0
44     32250.0
45     35550.0
46     36000.0
62     18280.0
63     18344.0
64     25552.0
67     31600.0
68     34184.0
70     40960.0
104    11900.0
105    13200.0
108    15580.0
109    16900.0
112    16630.0
113    17950.0
114    18150.0
159     8058.0
161     9298.0
176    15690.0
190    12940.0
192    15985.0
194    18420.0
196    16845.0
197    19045.0
198    21485.0
199    22470.0
200    22625.0
Name: price, dtype: float64

Ahora para finalmente calcular ANOVA utilizaremos la función "f_oneway" del móodulo 'stats' de scipy para obtener el F-test y el P-value

In [9]:
f_val, p_val = stats.f_oneway(grouped_test2.get_group('fwd')['price'], grouped_test2.get_group('rwd')['price'], grouped_test2.get_group('4wd')['price'])  
print( "ANOVA: F=", f_val, ", P =", p_val)   

ANOVA: F= 67.95406500780399 , P = 3.3945443577151245e-23


In [14]:
print(len(grouped_test2.get_group("fwd")["price"]))
print(len(grouped_test2.get_group("rwd")["price"]))
print(len(grouped_test2.get_group("4wd")["price"]))

118
75
8


Este es un buen resultado. Hay un valor considerable de F y el P-value es casi cero (note e-23) implicando casi segura significancia estadística. ¿Pero significará que los demás grupos están altamente correlacionados también \?

### Calcula el ANOVA para fwd y rwd solamente utilizando la fórmula anterior.

In [15]:
f_val, p_val = stats.f_oneway(grouped_test2.get_group('fwd')['price'], grouped_test2.get_group('rwd')['price'])  
print( "ANOVA: F=", f_val, ", P =", p_val)   

ANOVA: F= 130.5533160959111 , P = 2.2355306355677845e-23


### Calcula ahora 4wd y rwd

In [12]:
f_val, p_val = stats.f_oneway(grouped_test2.get_group('4wd')['price'], grouped_test2.get_group('rwd')['price'])  
print( "ANOVA: F=", f_val, ", P =", p_val)   

ANOVA: F= 8.580681368924756 , P = 0.004411492211225333


### Calcula 4wd y fwd

In [13]:
f_val, p_val = stats.f_oneway(grouped_test2.get_group('fwd')['price'], grouped_test2.get_group('4wd')['price'])  
print( "ANOVA: F=", f_val, ", P =", p_val)   

ANOVA: F= 0.6654657502523033 , P = 0.41620116697845666


# Conclusión
Ahora tenemos una mejor comprensión del dataset de autos y podemos diferencias las variables que podríamos tener en cuenta para hacer un modelo predictivo del precio de un auto. Consideramos entonces las siguientes variables:

Variables numéricas
<ul>
    <li>Length</li>
    <li>Width</li>
    <li>Curb-weight</li>
    <li>Engine-size</li>
    <li>Horsepower</li>
    <li>City-mpg</li>
    <li>Highway-mpg</li>
    <li>Wheel-base</li>
    <li>Bore</li>
</ul>
    

Variables Categóricas
<ul>
    <li>Drive-wheels</li>
</ul>

Más adelante cuando comencemos con machine learning comprenderemos el valor del trabajo que acabamos de realizar.

Adaptado y traducido de 2018 IBM Developer Skills Network.