In [3]:
import pandas as pd
import numpy as np

# Carregando o arquivo CSV
df_avocado = pd.read_csv('avocado_type.csv')

# Criando uma série com valores aleatórios entre 0 e 1 com o mesmo tamanho do dataframe
tipos = pd.Series(np.random.randint(0, 2, df_avocado.shape[0]))

# Mapeando os valores 0 para 'convencional' e 1 para 'orgânico'
tipos = tipos.map({0: 'convencional', 1:'orgânico'})

# Substituindo os valores da coluna 'type' pelos novos valores de 'tipos'
df_avocado['type'] = tipos

# Salvando o dataframe modificado em um novo arquivo CSV
df_avocado.to_csv('avocado_type_modificado.csv', index=False)

In [4]:
# Carregando o arquivo CSV dos tipos de abacate
df_type = pd.read_csv('avocado_type_modificado.csv')

# Imprimindo o cabeçalho do dataframe modificado
print("Cabeçalho do dataframe modificado:")
print(df_type.head())
print('-'*40)
# Imprimindo o shape do dataframe original
print("Formato (shape) do dataframe original:")
print(df_type.shape)
print('-'*40)
# Carregando o arquivo CSV de vendas
df_sales = pd.read_csv('avocado.csv')

# Imprimindo o cabeçalho do dataframe de vendas para verificação
print("Cabeçalho do dataframe modificado:")
print(df_sales.head())
print('-'*40)
# Imprimindo o shape do dataframe de vendas para verificação
print("Formato (shape) do dataframe original:")
print(df_sales.shape)
print('-'*40)

Cabeçalho do dataframe modificado:
           type
0      orgânico
1  convencional
2      orgânico
3      orgânico
4      orgânico
----------------------------------------
Formato (shape) do dataframe original:
(18249, 1)
----------------------------------------
Cabeçalho do dataframe modificado:
         Date  AveragePrice  Total Volume  year  region
0  2015-12-27          1.33      64236.62  2015  Albany
1  2015-12-20          1.35      54876.98  2015  Albany
2  2015-12-13          0.93     118220.22  2015  Albany
3  2015-12-06          1.08      78992.15  2015  Albany
4  2015-11-29          1.28      51039.60  2015  Albany
----------------------------------------
Formato (shape) do dataframe original:
(18249, 5)
----------------------------------------


In [5]:
# Realizando a concatenação dos dataframes pelo eixo das colunas (axis=1)
df_sales_per_type = pd.concat([df_sales, df_type], axis=1)

# Salvando o dataframe concatenado em um novo arquivo CSV
df_sales_per_type.to_csv('vendas_avocado_por_tipo.csv', index=False)

# Imprimindo o cabeçalho do ovo dataframe  para verificação
print("Cabeçalho do dataframe modificado:")
print(df_sales_per_type.head())
print('-'*40)
# Imprimindo o shape do novo dataframe para verificação
print("Formato (shape) do dataframe original:")
print(df_sales_per_type.shape)
print('-'*40)

Cabeçalho do dataframe modificado:
         Date  AveragePrice  Total Volume  year  region          type
0  2015-12-27          1.33      64236.62  2015  Albany      orgânico
1  2015-12-20          1.35      54876.98  2015  Albany  convencional
2  2015-12-13          0.93     118220.22  2015  Albany      orgânico
3  2015-12-06          1.08      78992.15  2015  Albany      orgânico
4  2015-11-29          1.28      51039.60  2015  Albany      orgânico
----------------------------------------
Formato (shape) do dataframe original:
(18249, 6)
----------------------------------------


In [6]:
# (a) A quantidade de abacates do tipo convencional e do tipo orgânico:
# Agrupar o dataframe por tipo de abacate e calcular a soma das vendas totais
abacates_por_tipo = df_sales_per_type.groupby('type')['Total Volume'].sum()

# Calcular a soma total de abacates vendidos
total_abacates = abacates_por_tipo.sum()

# Calcular a porcentagem de abacates convencionais e orgânicos em relação ao total
porcentagem_convencionais = (abacates_por_tipo['convencional'] / total_abacates) * 100
porcentagem_organicos = (abacates_por_tipo['orgânico'] / total_abacates) * 100

# Exibir a quantidade e porcentagem de abacates por tipo
print('Quantidade de abacates convencionais:', abacates_por_tipo['convencional'], f'({porcentagem_convencionais:.2f}%)')
print('Quantidade de abacates orgânicos:', abacates_por_tipo['orgânico'], f'({porcentagem_organicos:.2f}%)')

Quantidade de abacates convencionais: 8062428632.28 (51.94%)
Quantidade de abacates orgânicos: 7460973961.12 (48.06%)


In [7]:
# (b) A quantidade de registros (linhas) de abacates vendidos para cada região:
# Calcular a quantidade de registros (linhas) de abacates vendidos para cada região
abacates_por_regiao = df_sales_per_type['region'].value_counts()

# Exibir a quantidade de registros por região
print('Quantidade de registros (linhas) de abacates vendidos por região:')
print(abacates_por_regiao)

Quantidade de registros (linhas) de abacates vendidos por região:
region
Albany                 338
Sacramento             338
Northeast              338
NorthernNewEngland     338
Orlando                338
Philadelphia           338
PhoenixTucson          338
Pittsburgh             338
Plains                 338
Portland               338
RaleighGreensboro      338
RichmondNorfolk        338
Roanoke                338
SanDiego               338
Atlanta                338
SanFrancisco           338
Seattle                338
SouthCarolina          338
SouthCentral           338
Southeast              338
Spokane                338
StLouis                338
Syracuse               338
Tampa                  338
TotalUS                338
West                   338
NewYork                338
NewOrleansMobile       338
Nashville              338
Midsouth               338
BaltimoreWashington    338
Boise                  338
Boston                 338
BuffaloRochester       338
Californi

In [8]:
# (c) Para que todos os labels das colunas fiquem padronizados, renomeie aqueles que estão iniciando em letra minúscula para que iniciem em letra maiúscula:

# Renomeando as colunas para um formato mais esclarecedor:
df_sales_per_type.rename(columns={'AveragePrice': 'Average Price','year': 'Year', 'region': 'Region', 'type': 'Type'}, inplace=True)

# Exibir o DataFrame com as colunas renomeadas
print(df_sales_per_type)

             Date  Average Price  Total Volume  Year            Region   
0      2015-12-27           1.33      64236.62  2015            Albany  \
1      2015-12-20           1.35      54876.98  2015            Albany   
2      2015-12-13           0.93     118220.22  2015            Albany   
3      2015-12-06           1.08      78992.15  2015            Albany   
4      2015-11-29           1.28      51039.60  2015            Albany   
...           ...            ...           ...   ...               ...   
18244  2018-02-04           1.63      17074.83  2018  WestTexNewMexico   
18245  2018-01-28           1.71      13888.04  2018  WestTexNewMexico   
18246  2018-01-21           1.87      13766.76  2018  WestTexNewMexico   
18247  2018-01-14           1.93      16205.22  2018  WestTexNewMexico   
18248  2018-01-07           1.62      17489.58  2018  WestTexNewMexico   

               Type  
0          orgânico  
1      convencional  
2          orgânico  
3          orgânico  
4

In [9]:
# (d) Uma vez que você já possui uma coluna com a data, remova a coluna que apresenta o ano:

# Remover a coluna 'Year'
df_sales_per_type.drop('Year', axis=1, inplace=True)

# Exibir o DataFrame sem a coluna 'Year'
print(df_sales_per_type)

             Date  Average Price  Total Volume            Region          Type
0      2015-12-27           1.33      64236.62            Albany      orgânico
1      2015-12-20           1.35      54876.98            Albany  convencional
2      2015-12-13           0.93     118220.22            Albany      orgânico
3      2015-12-06           1.08      78992.15            Albany      orgânico
4      2015-11-29           1.28      51039.60            Albany      orgânico
...           ...            ...           ...               ...           ...
18244  2018-02-04           1.63      17074.83  WestTexNewMexico      orgânico
18245  2018-01-28           1.71      13888.04  WestTexNewMexico  convencional
18246  2018-01-21           1.87      13766.76  WestTexNewMexico  convencional
18247  2018-01-14           1.93      16205.22  WestTexNewMexico      orgânico
18248  2018-01-07           1.62      17489.58  WestTexNewMexico      orgânico

[18249 rows x 5 columns]


In [12]:
# (a) A volume total de abacates vendidos para cada tipo.
# Calculo
volume_total_por_tipo = df_sales_per_type.groupby('Type')['Total Volume'].sum()

# Exibir o resultado
print('Volume total de abacates vendidos por tipo:')
print(volume_total_por_tipo)

Volume total de abacates vendidos por tipo:
Type
convencional    8.062429e+09
orgânico        7.460974e+09
Name: Total Volume, dtype: float64


In [17]:
# (b) O preço médio dos abacates vendidos para cada tipo.
# Calculo
preco_medio_por_tipo = df_sales_per_type.groupby('Type')['Average Price'].mean()

# Exibir o resultado
print('Preço médio dos abacates vendidos por tipo:')
print(f'{preco_medio_por_tipo}')

Preço médio dos abacates vendidos por tipo:
Type
convencional    1.404035
orgânico        1.407891
Name: Average Price, dtype: float64


In [18]:
# Salvando o dataframe no arquivo CSV já existente, sobrescrevendo o conteúdo
df_sales_per_type.to_csv('vendas_avocado_por_tipo.csv', index=False, mode='w')