<b>Estudo de Caso 2 - Economia de Combustível</b>

Neste segundo estudo de caso, você vai analisar dados de economia de combustível fornecidos pela [EPA](https://www.epa.gov/compliance-and-fuel-economy-data/data-cars-used-testing-fuel-economy), ou Agência de Proteção Ambiental.

Excerto da página Wikipédia sobre Economia de combustível em automóveis:

*A economia de combustível de um automóvel e a relação de eficiência de combustível entre a distância percorrida e a quantidade de combustível consumida pelo veículo. O consumo pode ser expresso em termos de volume para percorrer determinada distância ou pela distância percorrida por unidade de volume de combustível consumida.*

Referência sobre Smart Way Vehicles: https://www.epa.gov/greenvehicles/consider-smartway-vehicle

# Entendendo os dados

![atributos.png](attachment:atributos.png)

*Comentário:* Há uma série de atributos nestes Datasets. Muitos deles, de difícil compreensão. Neste momento, deve-se explorar o conjunto de dados para ganhar conhecimento em cima das informações proporcionadas. Somente assim será possível retirar conclusões plausíveis e úteis.

PDF importante para o entendimento dos dados: https://www.fueleconomy.gov/feg/EPAGreenGuide/GreenVehicleGuideDocumentation.pdf

# Avaliando os dados

Usando Pandas, explore all_alpha_08.csv e all_alpha_18.csv no Jupyter Notebook (estes arquivos já estão disponíveis no ambiente do workspace) para responder a perguntas do quiz que vem em seguida sobre algumas características dos conjuntos de dados:

* Número de amostras em cada conjunto
* Número de colunas em cada conjunto
* Linhas duplicadas em cada conjunto
* Tipos de dados das colunas
* Atributos com valor ausente
* Número de valores únicos não nulos para atributos em cada conjunto
* O que esses valores únicos são e quanto valem cada

In [1]:
# Importando biblioteca e lendo arquivos
import pandas as pd

df_08 = pd.read_csv('C:/Users/thiagoPanini/Downloads/datasets/all-alpha-08.csv')
df_18 = pd.read_csv('C:/Users/thiagoPanini/Downloads/datasets/all-alpha-18.csv')

In [2]:
# Verificando dados de 2008
df_08.head()

Unnamed: 0,Model,Displ,Cyl,Trans,Drive,Fuel,Sales Area,Stnd,Underhood ID,Veh Class,Air Pollution Score,FE Calc Appr,City MPG,Hwy MPG,Cmb MPG,Unadj Cmb MPG,Greenhouse Gas Score,SmartWay
0,ACURA MDX,3.7,(6 cyl),Auto-S5,4WD,Gasoline,CA,U2,8HNXT03.7PKR,SUV,7,Drv,15,20,17,22.0527,4,no
1,ACURA MDX,3.7,(6 cyl),Auto-S5,4WD,Gasoline,FA,B5,8HNXT03.7PKR,SUV,6,Drv,15,20,17,22.0527,4,no
2,ACURA RDX,2.3,(4 cyl),Auto-S5,4WD,Gasoline,CA,U2,8HNXT02.3DKR,SUV,7,Drv,17,22,19,24.1745,5,no
3,ACURA RDX,2.3,(4 cyl),Auto-S5,4WD,Gasoline,FA,B5,8HNXT02.3DKR,SUV,6,Drv,17,22,19,24.1745,5,no
4,ACURA RL,3.5,(6 cyl),Auto-S5,4WD,Gasoline,CA,U2,8HNXV03.5HKR,midsize car,7,Drv,16,24,19,24.5629,5,no


In [3]:
# Verificando dados de 2018
df_18.head()

Unnamed: 0,Model,Displ,Cyl,Trans,Drive,Fuel,Cert Region,Stnd,Stnd Description,Underhood ID,Veh Class,Air Pollution Score,City MPG,Hwy MPG,Cmb MPG,Greenhouse Gas Score,SmartWay,Comb CO2
0,ACURA RDX,3.5,6.0,SemiAuto-6,2WD,Gasoline,FA,T3B125,Federal Tier 3 Bin 125,JHNXT03.5GV3,small SUV,3,20,28,23,5,No,386
1,ACURA RDX,3.5,6.0,SemiAuto-6,2WD,Gasoline,CA,U2,California LEV-II ULEV,JHNXT03.5GV3,small SUV,3,20,28,23,5,No,386
2,ACURA RDX,3.5,6.0,SemiAuto-6,4WD,Gasoline,FA,T3B125,Federal Tier 3 Bin 125,JHNXT03.5GV3,small SUV,3,19,27,22,4,No,402
3,ACURA RDX,3.5,6.0,SemiAuto-6,4WD,Gasoline,CA,U2,California LEV-II ULEV,JHNXT03.5GV3,small SUV,3,19,27,22,4,No,402
4,ACURA TLX,2.4,4.0,AMS-8,2WD,Gasoline,CA,L3ULEV125,California LEV-III ULEV125,JHNXV02.4WH3,small car,3,23,33,27,6,No,330


In [4]:
# Número de linhas em cada conjunto
print(f'Dados de 2008: {df_08.shape[0]}')
print(f'Dados de 2018: {df_18.shape[0]}')

Dados de 2008: 2404
Dados de 2018: 1611


In [5]:
# Número de colunas em cada conjunto
print(f'Colunas no df de 2008: {df_08.shape[1]}')
print(f'Colunas no df de 2018: {df_18.shape[1]}')

Colunas no df de 2008: 18
Colunas no df de 2018: 18


In [6]:
# Linhas duplicadas em cada conjunto
print(f'Duplicadas de 2008: {df_08.duplicated().values.sum()}')
print(f'Duplicadas de 2018: {df_18.duplicated().values.sum()}')

Duplicadas de 2008: 25
Duplicadas de 2018: 0


In [7]:
# Tipos de colunas de 2008
df_08.dtypes

Model                    object
Displ                   float64
Cyl                      object
Trans                    object
Drive                    object
Fuel                     object
Sales Area               object
Stnd                     object
Underhood ID             object
Veh Class                object
Air Pollution Score      object
FE Calc Appr             object
City MPG                 object
Hwy MPG                  object
Cmb MPG                  object
Unadj Cmb MPG           float64
Greenhouse Gas Score     object
SmartWay                 object
dtype: object

In [8]:
# Tipos de colunas de 2018
df_18.dtypes

Model                    object
Displ                   float64
Cyl                     float64
Trans                    object
Drive                    object
Fuel                     object
Cert Region              object
Stnd                     object
Stnd Description         object
Underhood ID             object
Veh Class                object
Air Pollution Score       int64
City MPG                 object
Hwy MPG                  object
Cmb MPG                  object
Greenhouse Gas Score      int64
SmartWay                 object
Comb CO2                 object
dtype: object

Algumas diferenças foram encontradas!

In [9]:
# Atributos com valores ausentes de 2008
df_08.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2404 entries, 0 to 2403
Data columns (total 18 columns):
Model                   2404 non-null object
Displ                   2404 non-null float64
Cyl                     2205 non-null object
Trans                   2205 non-null object
Drive                   2311 non-null object
Fuel                    2404 non-null object
Sales Area              2404 non-null object
Stnd                    2404 non-null object
Underhood ID            2404 non-null object
Veh Class               2404 non-null object
Air Pollution Score     2404 non-null object
FE Calc Appr            2205 non-null object
City MPG                2205 non-null object
Hwy MPG                 2205 non-null object
Cmb MPG                 2205 non-null object
Unadj Cmb MPG           2205 non-null float64
Greenhouse Gas Score    2205 non-null object
SmartWay                2404 non-null object
dtypes: float64(2), object(16)
memory usage: 338.1+ KB


In [10]:
print(df_08.shape[0] - df_08['Cyl'].count())

199


In [11]:
# Atributos com valores ausentes de 2018
df_18.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1611 entries, 0 to 1610
Data columns (total 18 columns):
Model                   1611 non-null object
Displ                   1609 non-null float64
Cyl                     1609 non-null float64
Trans                   1611 non-null object
Drive                   1611 non-null object
Fuel                    1611 non-null object
Cert Region             1611 non-null object
Stnd                    1611 non-null object
Stnd Description        1611 non-null object
Underhood ID            1611 non-null object
Veh Class               1611 non-null object
Air Pollution Score     1611 non-null int64
City MPG                1611 non-null object
Hwy MPG                 1611 non-null object
Cmb MPG                 1611 non-null object
Greenhouse Gas Score    1611 non-null int64
SmartWay                1611 non-null object
Comb CO2                1611 non-null object
dtypes: float64(2), int64(2), object(14)
memory usage: 226.6+ KB


In [12]:
print(df_18.shape[0] - df_18['Cyl'].count())

2


Há muitos dados missing no Dataset de 2008!

In [13]:
# Valores únicos não nulos
df_08.nunique()

Model                   436
Displ                    47
Cyl                       8
Trans                    14
Drive                     2
Fuel                      5
Sales Area                3
Stnd                     12
Underhood ID            343
Veh Class                 9
Air Pollution Score      13
FE Calc Appr              2
City MPG                 39
Hwy MPG                  43
Cmb MPG                  38
Unadj Cmb MPG           721
Greenhouse Gas Score     20
SmartWay                  2
dtype: int64

In [14]:
df_18.nunique()

Model                   367
Displ                    36
Cyl                       7
Trans                    26
Drive                     2
Fuel                      5
Cert Region               2
Stnd                     19
Stnd Description         19
Underhood ID            230
Veh Class                 9
Air Pollution Score       6
City MPG                 58
Hwy MPG                  62
Cmb MPG                  57
Greenhouse Gas Score     10
SmartWay                  3
Comb CO2                299
dtype: int64

In [15]:
# Tipos de combustíveis
df_08['Fuel'].unique()

array(['Gasoline', 'ethanol/gas', 'ethanol', 'diesel', 'CNG'],
      dtype=object)

In [16]:
df_18['Fuel'].unique()

array(['Gasoline', 'Gasoline/Electricity', 'Diesel', 'Ethanol/Gas',
       'Electricity'], dtype=object)

# Limpando colunas

Descarte os atributos que não são consistentes (não estão presentes em ambos os conjuntos de dados) ou não são relevantes para as perguntas. Use a função [drop do Pandas](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.drop.html).

Colunas a descartar:

* Do conjunto de dados de 2008: “'Nrm', 'ID sob o capô', 'FE Calc Appr', 'Unadj Cmb MPG'”
* Do conjunto de dados de 2018: “'Nrm', 'Descrição da nrm', 'ID sob o capô', 'CO2 comb.'”

In [17]:
# Verificando 08
df_08.head()

Unnamed: 0,Model,Displ,Cyl,Trans,Drive,Fuel,Sales Area,Stnd,Underhood ID,Veh Class,Air Pollution Score,FE Calc Appr,City MPG,Hwy MPG,Cmb MPG,Unadj Cmb MPG,Greenhouse Gas Score,SmartWay
0,ACURA MDX,3.7,(6 cyl),Auto-S5,4WD,Gasoline,CA,U2,8HNXT03.7PKR,SUV,7,Drv,15,20,17,22.0527,4,no
1,ACURA MDX,3.7,(6 cyl),Auto-S5,4WD,Gasoline,FA,B5,8HNXT03.7PKR,SUV,6,Drv,15,20,17,22.0527,4,no
2,ACURA RDX,2.3,(4 cyl),Auto-S5,4WD,Gasoline,CA,U2,8HNXT02.3DKR,SUV,7,Drv,17,22,19,24.1745,5,no
3,ACURA RDX,2.3,(4 cyl),Auto-S5,4WD,Gasoline,FA,B5,8HNXT02.3DKR,SUV,6,Drv,17,22,19,24.1745,5,no
4,ACURA RL,3.5,(6 cyl),Auto-S5,4WD,Gasoline,CA,U2,8HNXV03.5HKR,midsize car,7,Drv,16,24,19,24.5629,5,no


In [18]:
# Dropando
df_08 = df_08.drop(['Stnd', 'Underhood ID', 'FE Calc Appr', 'Unadj Cmb MPG'], axis=1)
df_08.head()

Unnamed: 0,Model,Displ,Cyl,Trans,Drive,Fuel,Sales Area,Veh Class,Air Pollution Score,City MPG,Hwy MPG,Cmb MPG,Greenhouse Gas Score,SmartWay
0,ACURA MDX,3.7,(6 cyl),Auto-S5,4WD,Gasoline,CA,SUV,7,15,20,17,4,no
1,ACURA MDX,3.7,(6 cyl),Auto-S5,4WD,Gasoline,FA,SUV,6,15,20,17,4,no
2,ACURA RDX,2.3,(4 cyl),Auto-S5,4WD,Gasoline,CA,SUV,7,17,22,19,5,no
3,ACURA RDX,2.3,(4 cyl),Auto-S5,4WD,Gasoline,FA,SUV,6,17,22,19,5,no
4,ACURA RL,3.5,(6 cyl),Auto-S5,4WD,Gasoline,CA,midsize car,7,16,24,19,5,no


In [19]:
# Verificando 2018
df_18.head()

Unnamed: 0,Model,Displ,Cyl,Trans,Drive,Fuel,Cert Region,Stnd,Stnd Description,Underhood ID,Veh Class,Air Pollution Score,City MPG,Hwy MPG,Cmb MPG,Greenhouse Gas Score,SmartWay,Comb CO2
0,ACURA RDX,3.5,6.0,SemiAuto-6,2WD,Gasoline,FA,T3B125,Federal Tier 3 Bin 125,JHNXT03.5GV3,small SUV,3,20,28,23,5,No,386
1,ACURA RDX,3.5,6.0,SemiAuto-6,2WD,Gasoline,CA,U2,California LEV-II ULEV,JHNXT03.5GV3,small SUV,3,20,28,23,5,No,386
2,ACURA RDX,3.5,6.0,SemiAuto-6,4WD,Gasoline,FA,T3B125,Federal Tier 3 Bin 125,JHNXT03.5GV3,small SUV,3,19,27,22,4,No,402
3,ACURA RDX,3.5,6.0,SemiAuto-6,4WD,Gasoline,CA,U2,California LEV-II ULEV,JHNXT03.5GV3,small SUV,3,19,27,22,4,No,402
4,ACURA TLX,2.4,4.0,AMS-8,2WD,Gasoline,CA,L3ULEV125,California LEV-III ULEV125,JHNXV02.4WH3,small car,3,23,33,27,6,No,330


In [20]:
# Dropando
df_18 = df_18.drop(['Stnd', 'Stnd Description', 'Underhood ID', 'Comb CO2'], axis=1)
df_18.head()

Unnamed: 0,Model,Displ,Cyl,Trans,Drive,Fuel,Cert Region,Veh Class,Air Pollution Score,City MPG,Hwy MPG,Cmb MPG,Greenhouse Gas Score,SmartWay
0,ACURA RDX,3.5,6.0,SemiAuto-6,2WD,Gasoline,FA,small SUV,3,20,28,23,5,No
1,ACURA RDX,3.5,6.0,SemiAuto-6,2WD,Gasoline,CA,small SUV,3,20,28,23,5,No
2,ACURA RDX,3.5,6.0,SemiAuto-6,4WD,Gasoline,FA,small SUV,3,19,27,22,4,No
3,ACURA RDX,3.5,6.0,SemiAuto-6,4WD,Gasoline,CA,small SUV,3,19,27,22,4,No
4,ACURA TLX,2.4,4.0,AMS-8,2WD,Gasoline,CA,small car,3,23,33,27,6,No


In [21]:
# Renomeando coluna Sales Area
df_08 = df_08.rename(columns={'Sales Area': 'Cert Region'})

In [22]:
df_08.head(1)

Unnamed: 0,Model,Displ,Cyl,Trans,Drive,Fuel,Cert Region,Veh Class,Air Pollution Score,City MPG,Hwy MPG,Cmb MPG,Greenhouse Gas Score,SmartWay
0,ACURA MDX,3.7,(6 cyl),Auto-S5,4WD,Gasoline,CA,SUV,7,15,20,17,4,no


In [23]:
# Verificando se as colunas estão iguais
df_18.columns == df_08.columns

array([ True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True])

In [24]:
# Arrumando colunas
df_08.columns

Index(['Model', 'Displ', 'Cyl', 'Trans', 'Drive', 'Fuel', 'Cert Region',
       'Veh Class', 'Air Pollution Score', 'City MPG', 'Hwy MPG', 'Cmb MPG',
       'Greenhouse Gas Score', 'SmartWay'],
      dtype='object')

In [25]:
# Renomando colunas 08
new_columns_08 = [coluna.strip().replace(' ', '_').lower() for coluna in df_08.columns]
df_08.columns = new_columns_08
df_08.head(1)

Unnamed: 0,model,displ,cyl,trans,drive,fuel,cert_region,veh_class,air_pollution_score,city_mpg,hwy_mpg,cmb_mpg,greenhouse_gas_score,smartway
0,ACURA MDX,3.7,(6 cyl),Auto-S5,4WD,Gasoline,CA,SUV,7,15,20,17,4,no


In [26]:
# Renomeando colunas 18
new_columns_18 = [coluna.strip().replace(' ', '_').lower() for coluna in df_18.columns]
df_18.columns = new_columns_18
df_18.head(1)

Unnamed: 0,model,displ,cyl,trans,drive,fuel,cert_region,veh_class,air_pollution_score,city_mpg,hwy_mpg,cmb_mpg,greenhouse_gas_score,smartway
0,ACURA RDX,3.5,6.0,SemiAuto-6,2WD,Gasoline,FA,small SUV,3,20,28,23,5,No


In [27]:
# Verificando se as colunas estão iguais
df_08.columns == df_18.columns

array([ True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True])

In [28]:
# Salvando labels antigos
old_labels = df_18.columns

In [29]:
new_labels = ['modelo', 'motor', 'cilindros', 'transmissao', 'tracao', 'combustivel', 'uf_cert', 'classe', 
             'poluicao_ar', 'gasto_cidade', 'gasto_estrada', 'gasto_combinado', 'gg_score', 'smartway']

In [30]:
df_08_br = df_08[:]
df_08_br.columns = new_labels
df_08_br.head(1)

Unnamed: 0,modelo,motor,cilindros,transmissao,tracao,combustivel,uf_cert,classe,poluicao_ar,gasto_cidade,gasto_estrada,gasto_combinado,gg_score,smartway
0,ACURA MDX,3.7,(6 cyl),Auto-S5,4WD,Gasoline,CA,SUV,7,15,20,17,4,no


In [31]:
df_18_br = df_18[:]
df_18_br.columns = new_labels
df_18_br.head(1)

Unnamed: 0,modelo,motor,cilindros,transmissao,tracao,combustivel,uf_cert,classe,poluicao_ar,gasto_cidade,gasto_estrada,gasto_combinado,gg_score,smartway
0,ACURA RDX,3.5,6.0,SemiAuto-6,2WD,Gasoline,FA,small SUV,3,20,28,23,5,No


In [32]:
# Analisando atributo modelo
df_18_br['modelo'].value_counts()[:10]

FORD F150                 44
CHEVROLET Silverado 15    26
GMC Sierra 15             26
CHEVROLET Camaro          16
CHEVROLET Colorado        16
GMC Canyon                16
MAZDA 3                   12
JEEP Cherokee             12
GMC Yukon 1500            12
GENESIS G80               12
Name: modelo, dtype: int64

In [33]:
# Analisando atributo motor
df_18_br['motor'].value_counts()[:4]

2.0    425
3.0    236
3.6    101
2.5     76
2.4     70
1.5     69
5.3     68
3.5     58
1.6     52
6.2     48
3.3     36
1.4     36
4.0     36
Name: motor, dtype: int64

In [34]:
print(f"Potência de motor máxima 2018: {df_18_br['motor'].max()}")
print(f'Potência de motor mínima 2018: {df_18_br["motor"].min()}')
print(f"Potência de motor média 2018: {df_18_br['motor'].mean():.1f}")

Potência de motor máxima 2018: 8.0
Potência de motor mínima 2018: 1.2
Potência de motor média 2018: 3.1


In [35]:
print(f"Potência de motor máxima 2008: {df_08_br['motor'].max()}")
print(f'Potência de motor mínima 2008: {df_08_br["motor"].min()}')
print(f"Potência de motor média 2008: {df_08_br['motor'].mean():.1f}")

Potência de motor máxima 2008: 8.4
Potência de motor mínima 2008: 1.3
Potência de motor média 2008: 3.7


In [36]:
# Analisando atributo cilindros
print(f"Cilindro máximo: {df_18_br['cilindros'].max()}")
print(f'Cilindro mínimo: {df_18_br["cilindros"].min()}')
print(f"Cilindro médio: {df_18_br['cilindros'].mean():.1f}")

Cilindro máximo: 16.0
Cilindro mínimo: 3.0
Cilindro médio: 5.5


In [37]:
df_18_br['cilindros'].value_counts()

4.0     736
6.0     504
8.0     309
3.0      36
12.0     18
5.0       4
16.0      2
Name: cilindros, dtype: int64

In [38]:
# Que carro tem o maior cilindro?
df_18_br.iloc[df_18_br['cilindros'].idxmax(), :]

modelo             BENTLEY Chiron
motor                           8
cilindros                      16
transmissao                 AMS-7
tracao                        4WD
combustivel              Gasoline
uf_cert                        CA
classe                  small car
poluicao_ar                     1
gasto_cidade                    9
gasto_estrada                  14
gasto_combinado                11
gg_score                        1
smartway                       No
Name: 90, dtype: object

In [39]:
# E o menor?
df_18_br.iloc[df_18_br['cilindros'].idxmin(), :]

modelo             MINI Cooper Clubman
motor                              1.5
cilindros                            3
transmissao                      Man-6
tracao                             2WD
combustivel                   Gasoline
uf_cert                             CA
classe                     midsize car
poluicao_ar                          7
gasto_cidade                        24
gasto_estrada                       34
gasto_combinado                     28
gg_score                             6
smartway                            No
Name: 1207, dtype: object

In [40]:
# O carro com a menor potência de motor é smartway?
df_18_br.iloc[df_18_br['motor'].idxmin(), -1]

'Yes'

In [41]:
# Qual o modelo?
df_18_br.iloc[df_18_br['motor'].idxmin(), :]

modelo             MITSUBISHI Mirage
motor                            1.2
cilindros                          3
transmissao                      CVT
tracao                           2WD
combustivel                 Gasoline
uf_cert                           CA
classe                     small car
poluicao_ar                        5
gasto_cidade                      37
gasto_estrada                     43
gasto_combinado                   39
gg_score                           9
smartway                         Yes
Name: 1273, dtype: object

In [42]:
df_18_br.columns

Index(['modelo', 'motor', 'cilindros', 'transmissao', 'tracao', 'combustivel',
       'uf_cert', 'classe', 'poluicao_ar', 'gasto_cidade', 'gasto_estrada',
       'gasto_combinado', 'gg_score', 'smartway'],
      dtype='object')

In [43]:
# Verificando transmissao
df_18_br['transmissao'].value_counts()

SemiAuto-8     344
SemiAuto-6     258
Man-6          165
Auto-6         125
Auto-8         119
Auto-9         108
AMS-7           98
AutoMan-7       58
SemiAuto-10     42
SemiAuto-7      36
CVT             36
Man-7           34
Auto-7          32
SCV-7           30
AMS-8           26
Man-5           20
Auto-10         16
SemiAuto-9      16
SCV-6           14
AMS-6           12
Auto-4           6
SCV-8            4
SemiAuto-5       4
Auto-1           4
AutoMan-6        2
SCV-10           2
Name: transmissao, dtype: int64

In [44]:
df_18_br['tracao'].value_counts()

2WD    887
4WD    724
Name: tracao, dtype: int64

In [45]:
df_18_br['combustivel'].value_counts()

Gasoline                1492
Ethanol/Gas               55
Diesel                    38
Gasoline/Electricity      24
Electricity                2
Name: combustivel, dtype: int64

In [46]:
df_18_br.columns

Index(['modelo', 'motor', 'cilindros', 'transmissao', 'tracao', 'combustivel',
       'uf_cert', 'classe', 'poluicao_ar', 'gasto_cidade', 'gasto_estrada',
       'gasto_combinado', 'gg_score', 'smartway'],
      dtype='object')

In [47]:
df_18_br['classe'].value_counts()

small car          562
midsize car        274
small SUV          212
large car          165
standard SUV       152
pickup             142
station wagon       72
special purpose     22
minivan             10
Name: classe, dtype: int64

In [48]:
df_18_br.describe()

Unnamed: 0,motor,cilindros,poluicao_ar,gg_score
count,1609.0,1609.0,1611.0,1611.0
mean,3.055687,5.47918,3.958411,4.711359
std,1.344574,1.749121,1.824303,1.657429
min,1.2,3.0,1.0,1.0
25%,2.0,4.0,3.0,4.0
50%,3.0,6.0,3.0,5.0
75%,3.6,6.0,5.0,6.0
max,8.0,16.0,10.0,10.0


In [49]:
df_08_br.describe()

Unnamed: 0,motor
count,2404.0
mean,3.748918
std,1.335785
min,1.3
25%,2.5
50%,3.5
75%,4.8
max,8.4
