In [7]:
import pandas as pd

# 1️⃣ Ler o CSV mesmo que tenha linhas problemáticas
try:
    df_anp = pd.read_csv('anp.csv', sep=';', engine='python', on_bad_lines='skip')
except:
    df_anp = pd.read_csv('anp.csv', sep=',', engine='python', on_bad_lines='skip')

# 2️⃣ Selecionar colunas importantes
df_anp = df_anp[['Municipio', 'Bairro', 'Produto', 'Valor de Venda']]

# 3️⃣ Limpar e converter coluna de preço
df_anp['Valor de Venda'] = df_anp['Valor de Venda']\
    .astype(str)\
    .str.replace('R\$', '', regex=True)\
    .str.replace('.', '', regex=False)\
    .str.replace(',', '.', regex=False)\
    .str.strip()\
    .astype(float)

# 4️⃣ Filtrar Etanol no Rio de Janeiro
df_etanol_rj = df_anp.loc[
    (df_anp['Municipio'] == 'RIO DE JANEIRO') &
    (df_anp['Produto'] == 'ETANOL')
]

# 5️⃣ Agrupar por bairro e calcular preço médio
df_bairros = df_etanol_rj.groupby('Bairro')['Valor de Venda'].mean().reset_index()

# 6️⃣ Calcular o 75º percentil do preço médio por bairro
q3 = df_bairros['Valor de Venda'].quantile(0.75)

# 7️⃣ Filtrar apenas os bairros mais caros (top 25%)
bairros_mais_caros = df_bairros[df_bairros['Valor de Venda'] >= q3]

# 8️⃣ Ordenar do maior para o menor preço
bairros_mais_caros = bairros_mais_caros.sort_values(by='Valor de Venda', ascending=False)

# 9️⃣ Mostrar resultado
bairros_mais_caros


  .str.replace('R\$', '', regex=True)\


Unnamed: 0,Bairro,Valor de Venda
17,FLAMENGO,5.7
27,JARDIM BOTANICO,5.137619
50,VARGEM PEQUENA,5.035
29,LAGOA,4.906667
19,GAVEA,4.89
30,LARANJEIRAS,4.860833
31,LEBLON,4.823333
23,ITANHANGA,4.802
51,VASCO DA GAMA,4.795556
20,GLORIA,4.79
