In [310]:
import pandas as pd

# Carregando arquivo csv usando Pandas (método que usaremos neste notebook)
df = pd.read_csv('carros.csv')

In [311]:
df

Unnamed: 0,Milhas_Por_Galao,Cilindros,Deslocamento,Potencia,Peso,Aceleracao,Ano_Modelo,Nome
0,18.0,8,307.0,130,3504,12.0,70,chevrolet chevelle malibu
1,15.0,8,350.0,165,3693,11.5,70,buick skylark 320
2,18.0,8,318.0,150,3436,11.0,70,plymouth satellite
3,16.0,8,304.0,150,3433,12.0,70,amc rebel sst
4,17.0,8,302.0,140,3449,10.5,70,ford torino
...,...,...,...,...,...,...,...,...
393,27.0,4,140.0,86,2790,15.6,82,ford mustang gl
394,44.0,4,97.0,52,2130,24.6,82,vw pickup
395,32.0,4,135.0,84,2295,11.6,82,dodge rampage
396,28.0,4,120.0,79,2625,18.6,82,ford ranger


In [312]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 398 entries, 0 to 397
Data columns (total 8 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   Milhas_Por_Galao  398 non-null    float64
 1   Cilindros         398 non-null    int64  
 2   Deslocamento      398 non-null    float64
 3   Potencia          398 non-null    object 
 4   Peso              398 non-null    int64  
 5   Aceleracao        398 non-null    float64
 6   Ano_Modelo        398 non-null    int64  
 7   Nome              398 non-null    object 
dtypes: float64(3), int64(3), object(2)
memory usage: 25.0+ KB


# Peso médio por Ano e Modelo;


In [313]:
# Using groupby on single column in pandas 
df1 = df.groupby(['Ano_Modelo'])['Peso'].mean()

In [314]:
df1

Ano_Modelo
70    3372.793103
71    2995.428571
72    3237.714286
73    3419.025000
74    2877.925926
75    3176.800000
76    3078.735294
77    2997.357143
78    2861.805556
79    3055.344828
80    2436.655172
81    2522.931034
82    2453.548387
Name: Peso, dtype: float64

# Uma forma mais elegante 

In [315]:
# Peso médio por Ano e Modelo

df2 = df.groupby(
        ['Ano_Modelo']
).agg(
    {
        'Peso':"mean",
    }
)

In [316]:
df2

Unnamed: 0_level_0,Peso
Ano_Modelo,Unnamed: 1_level_1
70,3372.793103
71,2995.428571
72,3237.714286
73,3419.025
74,2877.925926
75,3176.8
76,3078.735294
77,2997.357143
78,2861.805556
79,3055.344828


In [317]:
# Desejamos saber o desvio padrão para as duas médias calculadas;

df3 = df.groupby(
        ['Ano_Modelo']
).agg(
        Media_Peso  = ('Peso', 'mean'),
        Desvio_Peso = ('Peso', 'std')
)

In [318]:
df3

Unnamed: 0_level_0,Media_Peso,Desvio_Peso
Ano_Modelo,Unnamed: 1_level_1,Unnamed: 2_level_1
70,3372.793103,852.868663
71,2995.428571,1061.830859
72,3237.714286,974.52096
73,3419.025,974.809133
74,2877.925926,949.308571
75,3176.8,765.179781
76,3078.735294,821.371481
77,2997.357143,912.825902
78,2861.805556,626.023907
79,3055.344828,747.881497


In [319]:
#  incluir um nível no agrupamento

df4 = df.groupby(
        ['Ano_Modelo', 'Cilindros']
).agg(
    {
        'Peso':"mean",
    }
)

In [320]:
df4.head(10)

Unnamed: 0_level_0,Unnamed: 1_level_0,Peso
Ano_Modelo,Cilindros,Unnamed: 2_level_1
70,4,2292.571429
70,6,2710.5
70,8,3940.055556
71,4,2056.384615
71,6,3171.875
71,8,4537.714286
72,3,2330.0
72,4,2382.642857
72,8,4228.384615
73,3,2124.0


O .reset_index() método em pandas é usado para **redefinir** o índice de um DataFrame. 

Quando você executa várias operações em um DataFrame, como filtragem, agrupamento ou classificação, o índice pode ficar desordenado ou conter lacunas. 

Este método permite redefinir o índice para um índice baseado em número inteiro padrão ou substituir o índice existente por um novo, tornando efetivamente o índice atual parte do DataFrame como uma coluna regular.

Você também pode usar o drop

parâmetro .reset_index(drop=True) para eliminar o índice atual **sem adicioná-lo** como uma coluna no DataFrame

parâmetro .reset_index(drop=False) **irá adicionar** como uma coluna no DataFrame, é o default.

In [321]:
df4.head(10).reset_index(drop=True) 

Unnamed: 0,Peso
0,2292.571429
1,2710.5
2,3940.055556
3,2056.384615
4,3171.875
5,4537.714286
6,2330.0
7,2382.642857
8,4228.384615
9,2124.0


In [322]:
df4.head(10).reset_index()

Unnamed: 0,Ano_Modelo,Cilindros,Peso
0,70,4,2292.571429
1,70,6,2710.5
2,70,8,3940.055556
3,71,4,2056.384615
4,71,6,3171.875
5,71,8,4537.714286
6,72,3,2330.0
7,72,4,2382.642857
8,72,8,4228.384615
9,73,3,2124.0


In [323]:
df4.to_excel('ano_modelo.xlsx')

In [324]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 398 entries, 0 to 397
Data columns (total 8 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   Milhas_Por_Galao  398 non-null    float64
 1   Cilindros         398 non-null    int64  
 2   Deslocamento      398 non-null    float64
 3   Potencia          398 non-null    object 
 4   Peso              398 non-null    int64  
 5   Aceleracao        398 non-null    float64
 6   Ano_Modelo        398 non-null    int64  
 7   Nome              398 non-null    object 
dtypes: float64(3), int64(3), object(2)
memory usage: 25.0+ KB


In [325]:
# remover caracteres não numericos
df['Potencia'] = pd.to_numeric(df['Potencia'], errors='coerce').fillna(0).astype(int)

In [326]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 398 entries, 0 to 397
Data columns (total 8 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   Milhas_Por_Galao  398 non-null    float64
 1   Cilindros         398 non-null    int64  
 2   Deslocamento      398 non-null    float64
 3   Potencia          398 non-null    int64  
 4   Peso              398 non-null    int64  
 5   Aceleracao        398 non-null    float64
 6   Ano_Modelo        398 non-null    int64  
 7   Nome              398 non-null    object 
dtypes: float64(3), int64(4), object(1)
memory usage: 25.0+ KB


In [327]:
# Potência média por Cilindros do carro;

df5 = df.groupby(
        ['Cilindros']
).agg(
        Media_Potencia  = ('Potencia', 'mean'),
        Desvio_Potencia = ('Potencia', 'std')
).reset_index()

In [328]:
df5

Unnamed: 0,Cilindros,Media_Potencia,Desvio_Potencia
0,3,99.25,8.301606
1,4,76.362745,18.787266
2,5,82.333333,18.583146
3,6,100.297619,18.027275
4,8,158.300971,28.453552


In [329]:
df5.to_excel('cilindros.xlsx', index=False)