# Distribuição de Renda de 2020 no Brasil

Este notebook analisa alguns aspectos da distribuição de renda no Brasil.

Os dados da  Receita Federal estão disponíveis através do portal de [Dados Abertos do Governo Federal](https://dados.gov.br/dados/conjuntos-dados/distribuio-de-renda).

### Perguntas respondidas

- Como é a distribuição de renda no Brasil em 2020 (últimos dados)?
- E a isenção fiscal de até 5k?

### Perguntas em aberto

- Qual a tributação que cada centil paga?
- Como é a distribuição em outros países? É local ou sistemático essa diferença?

## Código

In [1]:
import numpy as np
import pandas as pd
import plotly.express as px
import plotly.graph_objects as go

In [2]:
df_orig = pd.read_csv("data/distribuicao-renda.csv", sep=";")
df_orig.head()

Unnamed: 0,Ano-calendário,Ente Federativo,Centil,Quantidade de Contribuintes,Rendimentos Tributaveis - Limite Superior da RTB do Centil [R$ milhões],Rendimentos Tributaveis - Soma da RTB do Centil [R$ milhões],Rendimentos Tributaveis - RTB Acumulada do Centil [R$ milhões],Rendimentos Tributaveis - Média da RTB do Centil [R$],Rendimentos Sujeitos à Tribut. Exclusiva [R$ milhões],Rendimentos Isentos - Lucros e dividendos [R$ milhões],...,Despesas Dedutíveis - Instrução [R$ milhões],Despesas Dedutíveis - Médicas [R$ milhões],Despesas Dedutíveis - Pensão Alimentícia [R$ milhões],Despesas Dedutíveis - Livro-Caixa [R$ milhões],Imposto Devido [R$ milhões],Bens e Direitos - Imóveis [R$ milhões],Bens e Direitos - Móveis [R$ milhões],Bens e Direitos - Financeiros [R$ milhões],Bens e Direitos - Outros Bens e Direitos [R$ milhões],Dívidas e Ônus [R$ milhões]
0,2006,BRASIL,1,241.563,,,,,23561,48127,...,,,,,16,"5.281,59",68621,"6.549,15","1.006,40","1.610,39"
1,2006,BRASIL,2,241.563,,,,,20874,48344,...,,,,,22,"5.295,48",66882,"5.762,77",68175,69412
2,2006,BRASIL,3,241.562,,,,,21996,45987,...,,,,,31,"5.566,27",67064,"5.451,95",37717,65098
3,2006,BRASIL,4,241.563,,,,,25701,48193,...,,,,,17,"5.860,02",67844,"6.104,09",25616,"1.079,20"
4,2006,BRASIL,5,241.562,,,,,24988,46423,...,,,,,17,"5.193,31",68238,"5.592,52",26928,67197


In [3]:
df20 = df_orig[df_orig["Ano-calendário"] == 2020]
df20 = df20.drop(["Ano-calendário"], axis=1)
df20.head()

Unnamed: 0,Ente Federativo,Centil,Quantidade de Contribuintes,Rendimentos Tributaveis - Limite Superior da RTB do Centil [R$ milhões],Rendimentos Tributaveis - Soma da RTB do Centil [R$ milhões],Rendimentos Tributaveis - RTB Acumulada do Centil [R$ milhões],Rendimentos Tributaveis - Média da RTB do Centil [R$],Rendimentos Sujeitos à Tribut. Exclusiva [R$ milhões],Rendimentos Isentos - Lucros e dividendos [R$ milhões],Rendimentos Isentos - Rendim. Sócio/Titular ME/EPP Opt SIMPLES [R$ milhões],...,Despesas Dedutíveis - Instrução [R$ milhões],Despesas Dedutíveis - Médicas [R$ milhões],Despesas Dedutíveis - Pensão Alimentícia [R$ milhões],Despesas Dedutíveis - Livro-Caixa [R$ milhões],Imposto Devido [R$ milhões],Bens e Direitos - Imóveis [R$ milhões],Bens e Direitos - Móveis [R$ milhões],Bens e Direitos - Financeiros [R$ milhões],Bens e Direitos - Outros Bens e Direitos [R$ milhões],Dívidas e Ônus [R$ milhões]
43260,BRASIL,1,316.349,,,,,"2.292,22","4.971,46","2.199,82",...,,,,,9,"38.909,27","5.588,86","75.762,99","6.586,13","11.817,63"
43261,BRASIL,2,316.348,,,,,"2.774,79","5.276,95","2.128,81",...,,,,,7,"37.867,76","5.119,81","76.337,18","10.293,73","13.299,04"
43262,BRASIL,3,316.349,,,,,"2.735,77","4.733,55","2.193,95",...,,,,,1,"36.898,91","5.173,59","85.520,32","8.806,86","9.576,16"
43263,BRASIL,4,316.348,,,,,"2.314,48","4.838,44","2.197,71",...,,,,,4,"37.209,91","5.032,53","87.919,86","8.374,94","10.025,25"
43264,BRASIL,5,316.349,,,,,"2.378,27","5.007,19","2.228,80",...,,,,,7,"37.977,60","5.154,58","73.996,53","4.116,93","11.099,73"


In [4]:
df20br = df20[df20["Ente Federativo"] == "BRASIL"]
df20br = df20br.reset_index()
df20br = df20br.drop(["Ente Federativo" , "index"], axis=1)
df20br.index = df20br.index + 1
df20br.head()

Unnamed: 0,Centil,Quantidade de Contribuintes,Rendimentos Tributaveis - Limite Superior da RTB do Centil [R$ milhões],Rendimentos Tributaveis - Soma da RTB do Centil [R$ milhões],Rendimentos Tributaveis - RTB Acumulada do Centil [R$ milhões],Rendimentos Tributaveis - Média da RTB do Centil [R$],Rendimentos Sujeitos à Tribut. Exclusiva [R$ milhões],Rendimentos Isentos - Lucros e dividendos [R$ milhões],Rendimentos Isentos - Rendim. Sócio/Titular ME/EPP Opt SIMPLES [R$ milhões],Rendimentos Isentos - Outros Rendimentos Isentos [R$ milhões],...,Despesas Dedutíveis - Instrução [R$ milhões],Despesas Dedutíveis - Médicas [R$ milhões],Despesas Dedutíveis - Pensão Alimentícia [R$ milhões],Despesas Dedutíveis - Livro-Caixa [R$ milhões],Imposto Devido [R$ milhões],Bens e Direitos - Imóveis [R$ milhões],Bens e Direitos - Móveis [R$ milhões],Bens e Direitos - Financeiros [R$ milhões],Bens e Direitos - Outros Bens e Direitos [R$ milhões],Dívidas e Ônus [R$ milhões]
1,1,316.349,,,,,"2.292,22","4.971,46","2.199,82","10.656,53",...,,,,,9,"38.909,27","5.588,86","75.762,99","6.586,13","11.817,63"
2,2,316.348,,,,,"2.774,79","5.276,95","2.128,81","10.672,99",...,,,,,7,"37.867,76","5.119,81","76.337,18","10.293,73","13.299,04"
3,3,316.349,,,,,"2.735,77","4.733,55","2.193,95","10.207,91",...,,,,,1,"36.898,91","5.173,59","85.520,32","8.806,86","9.576,16"
4,4,316.348,,,,,"2.314,48","4.838,44","2.197,71","10.789,54",...,,,,,4,"37.209,91","5.032,53","87.919,86","8.374,94","10.025,25"
5,5,316.349,,,,,"2.378,27","5.007,19","2.228,80","10.527,97",...,,,,,7,"37.977,60","5.154,58","73.996,53","4.116,93","11.099,73"


In [5]:
def convert_brazilian_number(value):
    """
    Convert Brazilian-formatted number string to float
    - Removes dots used as thousand separators
    - Replaces comma with dot for decimal separation
    """
    if pd.isna(value):
        return np.nan

    value = value.replace('.', '')
    value = value.replace(',', '.')
    return float(value)

# Convert all columns in df20br
for column in df20br.columns:
    if df20br[column].dtype == "object":
        try:
            df20br[column] = df20br[column].apply(convert_brazilian_number)
        except Exception as e:
            print(f"Error converting column {column}: {e}")

# Verify the data types
df20br.dtypes

Centil                                                                         float64
Quantidade de Contribuintes                                                    float64
Rendimentos Tributaveis - Limite Superior da RTB do Centil [R$ milhões]        float64
Rendimentos Tributaveis - Soma da RTB do Centil [R$ milhões]                   float64
Rendimentos Tributaveis - RTB Acumulada do Centil [R$ milhões]                 float64
Rendimentos Tributaveis - Média da RTB do Centil [R$]                          float64
Rendimentos Sujeitos à Tribut. Exclusiva [R$ milhões]                          float64
Rendimentos Isentos - Lucros e dividendos [R$ milhões]                         float64
Rendimentos Isentos - Rendim. Sócio/Titular ME/EPP Opt SIMPLES [R$ milhões]    float64
Rendimentos Isentos - Outros Rendimentos Isentos [R$ milhões]                  float64
Despesas Dedutíveis - Previdência [R$ milhões]                                 float64
Despesas Dedutíveis - Dependentes [R$ milhõ

In [6]:
# Helper functions

def create_one_indexed_df(_df):
    _df = _df.reset_index()
    _df = _df.drop(["index"], axis=1)
    _df.index = _df.index + 1
    return _df

def map_x_position(centil):
    if centil <= 99:
        return centil
    elif 1001 <= centil <= 1009:
        return 99 + (centil - 1000) * 0.1
    elif 100101 <= centil <= 100110:
        return 99.9 + (centil - 100100) * 0.01
    elif centil == 1001010:
        return 100
    return centil

def map_width(centil):
    std_width = 2.0
    if centil <= 99:
        return std_width
    elif 1001 <= centil <= 1009:
        return std_width / 2
    elif 100101 <= centil:
        return std_width / 2
    return std_width

def prepare_data_for_plotting(df, limit):
    df_graphed = df[(df['Centil'] <= limit)].copy()
    
    # Add position and width columns
    df_graphed['x_position'] = df_graphed['Centil'].apply(map_x_position)
    df_graphed['width'] = df_graphed['Centil'].apply(map_width)
    
    # Sort by x position
    return df_graphed.sort_values('x_position')


def plot_renda_custom_plotly(df):
    # Prepare data for each range
    df_graphed_99 = prepare_data_for_plotting(df, 99)
    df_graphed_100101 = prepare_data_for_plotting(df, 100101)
    df_graphed_100107 = prepare_data_for_plotting(df, 100107)
    df_graphed_100109 = prepare_data_for_plotting(df, 100109)
    df_graphed_all = prepare_data_for_plotting(df, 1001111)
    
    # Get maximum values for each range to use in annotations
    max_99 = df_graphed_99['Rendimentos Tributaveis - Limite Superior da RTB do Centil [R$ milhões]'].max()
    max_100101 = df_graphed_100101['Rendimentos Tributaveis - Limite Superior da RTB do Centil [R$ milhões]'].max()
    max_100107 = df_graphed_100107['Rendimentos Tributaveis - Limite Superior da RTB do Centil [R$ milhões]'].max()
    max_100109 = df_graphed_100109['Rendimentos Tributaveis - Limite Superior da RTB do Centil [R$ milhões]'].max()
    
    # Get x positions for the maximum values
    x_99 = df_graphed_99[df_graphed_99['Rendimentos Tributaveis - Limite Superior da RTB do Centil [R$ milhões]'] == max_99]['x_position'].iloc[0]
    x_100101 = df_graphed_100101[df_graphed_100101['Rendimentos Tributaveis - Limite Superior da RTB do Centil [R$ milhões]'] == max_100101]['x_position'].iloc[0]
    x_100107 = df_graphed_100107[df_graphed_100107['Rendimentos Tributaveis - Limite Superior da RTB do Centil [R$ milhões]'] == max_100107]['x_position'].iloc[0]
    x_100109 = df_graphed_100109[df_graphed_100109['Rendimentos Tributaveis - Limite Superior da RTB do Centil [R$ milhões]'] == max_100109]['x_position'].iloc[0]
    
    # Create the plot
    fig = go.Figure()
    
    # Add line traces
    fig.add_trace(go.Scatter(
        x=df_graphed_99['x_position'],
        y=df_graphed_99['Rendimentos Tributaveis - Limite Superior da RTB do Centil [R$ milhões]'],
        name='Até Centil 99',
        visible=True,
        mode='lines+markers',
        line=dict(color='rgb(33, 102, 172)', width=2),
        marker=dict(size=6),
        hovertemplate='Centil: %{x}<br>Rendimentos: %{y:.2f} R$ milhões<extra></extra>'
    ))
    
    fig.add_trace(go.Scatter(
        x=df_graphed_100101['x_position'],
        y=df_graphed_100101['Rendimentos Tributaveis - Limite Superior da RTB do Centil [R$ milhões]'],
        name='Até 99.90% (Linha)',
        visible=False,
        mode='lines+markers',
        line=dict(color='rgb(33, 102, 172)', width=2),
        marker=dict(size=6),
        hovertemplate='Centil: %{x}<br>Rendimentos: %{y:.2f} R$ milhões<extra></extra>'
    ))
    
    fig.add_trace(go.Scatter(
        x=df_graphed_100107['x_position'],
        y=df_graphed_100107['Rendimentos Tributaveis - Limite Superior da RTB do Centil [R$ milhões]'],
        name='Até 99.97% (Linha)',
        visible=False,
        mode='lines+markers',
        line=dict(color='rgb(33, 102, 172)', width=2),
        marker=dict(size=6),
        hovertemplate='Centil: %{x}<br>Rendimentos: %{y:.2f} R$ milhões<extra></extra>'
    ))
    
    fig.add_trace(go.Scatter(
        x=df_graphed_100109['x_position'],
        y=df_graphed_100109['Rendimentos Tributaveis - Limite Superior da RTB do Centil [R$ milhões]'],
        name='Até 99.99% (Linha)',
        visible=False,
        mode='lines+markers',
        line=dict(color='rgb(33, 102, 172)', width=2),
        marker=dict(size=6),
        hovertemplate='Centil: %{x}<br>Rendimentos: %{y:.2f} R$ milhões<extra></extra>'
    ))
    
    fig.add_trace(go.Scatter(
        x=df_graphed_all['x_position'],
        y=df_graphed_all['Rendimentos Tributaveis - Limite Superior da RTB do Centil [R$ milhões]'],
        name='Todos os Centis (Linha)',
        visible=False,
        mode='lines+markers',
        line=dict(color='rgb(33, 102, 172)', width=2),
        marker=dict(
            size=6
        ),
        hovertemplate='Centil: %{x}<br>Rendimentos: %{y:.2f} R$ milhões<extra></extra>'
    ))
    
    # Update layout
    fig.update_layout(
        title={
            'text': 'Rendimentos Tributáveis por Centil 2020',
            'y': 0.95,
            'x': 0.5,
            'xanchor': 'center',
            'yanchor': 'top',
            'font': {'size': 14}
        },
        xaxis_title='Centil',
        yaxis_title='Rendimentos Tributáveis - Limite Superior',
        template='plotly_white',
        width=1200,
        height=600,
        showlegend=False,
        barmode='overlay'
    )
    
    # Create annotations for each range
    annotations_99 = []  # Empty for first range
    
    annotations_100101 = [
        dict(
            x=x_99,
            y=max_99,
            text=f"Centil 99:<br>{max_99:.2f}",
            showarrow=True,
            arrowhead=2,
            arrowsize=1.5,
            arrowwidth=2,
            arrowcolor="red",
            ax=-60,
            ay=-60,
            standoff=10  # Add some spacing between arrow and point
        )
    ]
    
    annotations_100107 = [
        dict(
            x=x_100101,
            y=max_100101,
            text=f"Centil 99.90:<br>{max_100101:.2f}",
            showarrow=True,
            arrowhead=2,
            arrowsize=1.5,
            arrowwidth=2,
            arrowcolor="red",
            ax=-60,
            ay=-60,
            standoff=10
        )
    ]
    
    annotations_100109 = [
        dict(
            x=x_100107,
            y=max_100107,
            text=f"Centil 99.97:<br>{max_100107:.2f}",
            showarrow=True,
            arrowhead=2,
            arrowsize=1.5,
            arrowwidth=2,
            arrowcolor="red",
            ax=-60,
            ay=-60,
            standoff=10
        )
    ]
    
    annotations_all = [
        dict(
            x=x_100109,
            y=max_100109,
            text=f"Centil 99.99:<br>{max_100109:.2f}",
            showarrow=True,
            arrowhead=2,
            arrowsize=1.5,
            arrowwidth=2,
            arrowcolor="red",
            ax=-60,
            ay=-60,
            standoff=10
        )
    ]
    
    # Add buttons for different centil ranges with annotations
    fig.update_layout(
        updatemenus=[
            dict(
                type="buttons",
                direction="right",
                buttons=list([
                    dict(
                        args=[{"visible": [True, False, False, False, False]},
                              {"annotations": annotations_99}],
                        label="Até Centil 99",
                        method="update"
                    ),
                    dict(
                        args=[{"visible": [False, True, False, False, False]},
                              {"annotations": annotations_100101}],
                        label="Até 99.90%",
                        method="update"
                    ),
                    dict(
                        args=[{"visible": [False, False, True, False, False]},
                              {"annotations": annotations_100107}],
                        label="Até 99.97%",
                        method="update"
                    ),
                    dict(
                        args=[{"visible": [False, False, False, True, False]},
                              {"annotations": annotations_100109}],
                        label="Até 99.99%",
                        method="update"
                    ),
                    dict(
                        args=[{"visible": [False, False, False, False, True]},
                              {"annotations": annotations_all}],
                        label="Todos os Centis",
                        method="update"
                    )
                ]),
                pad={"r": 10, "t": 10},
                showactive=True,
                x=0.1,
                xanchor="left",
                y=1.1,
                yanchor="top"
            )
        ]
    )
    
    fig.show()

In [7]:
# Filter the DataFrame to remove rows with centil values 100 and 1001 to 10010
df_all_info = df20br[(df20br['Centil'] != 100) & (df20br['Centil'] != 10010)]
df_all_info = create_one_indexed_df(df_all_info)
df_all_info

Unnamed: 0,Centil,Quantidade de Contribuintes,Rendimentos Tributaveis - Limite Superior da RTB do Centil [R$ milhões],Rendimentos Tributaveis - Soma da RTB do Centil [R$ milhões],Rendimentos Tributaveis - RTB Acumulada do Centil [R$ milhões],Rendimentos Tributaveis - Média da RTB do Centil [R$],Rendimentos Sujeitos à Tribut. Exclusiva [R$ milhões],Rendimentos Isentos - Lucros e dividendos [R$ milhões],Rendimentos Isentos - Rendim. Sócio/Titular ME/EPP Opt SIMPLES [R$ milhões],Rendimentos Isentos - Outros Rendimentos Isentos [R$ milhões],...,Despesas Dedutíveis - Instrução [R$ milhões],Despesas Dedutíveis - Médicas [R$ milhões],Despesas Dedutíveis - Pensão Alimentícia [R$ milhões],Despesas Dedutíveis - Livro-Caixa [R$ milhões],Imposto Devido [R$ milhões],Bens e Direitos - Imóveis [R$ milhões],Bens e Direitos - Móveis [R$ milhões],Bens e Direitos - Financeiros [R$ milhões],Bens e Direitos - Outros Bens e Direitos [R$ milhões],Dívidas e Ônus [R$ milhões]
1,1.0,316.349,,,,,2292.22,4971.46,2199.82,10656.53,...,,,,,0.09,38909.27,5588.86,75762.99,6586.13,11817.63
2,2.0,316.348,,,,,2774.79,5276.95,2128.81,10672.99,...,,,,,0.07,37867.76,5119.81,76337.18,10293.73,13299.04
3,3.0,316.349,,,,,2735.77,4733.55,2193.95,10207.91,...,,,,,0.01,36898.91,5173.59,85520.32,8806.86,9576.16
4,4.0,316.348,,,,,2314.48,4838.44,2197.71,10789.54,...,,,,,0.04,37209.91,5032.53,87919.86,8374.94,10025.25
5,5.0,316.349,,,,,2378.27,5007.19,2228.80,10527.97,...,,,,,0.07,37977.60,5154.58,73996.53,4116.93,11099.73
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
114,100106.0,3.164,1.475119e+06,4371.27,21172.52,1381564.53,1318.42,988.39,22.97,2079.69,...,6.48,56.64,17.89,244.23,1041.91,9053.59,847.59,32483.19,1496.76,3406.31
115,100107.0,3.163,1.754642e+06,5075.86,26248.38,1604759.97,1525.39,1467.36,28.21,2441.64,...,6.68,60.18,21.97,304.81,1216.05,10083.19,799.82,36030.85,2023.68,4840.62
116,100108.0,3.164,2.264549e+06,6267.54,32515.92,1980892.39,2993.20,3781.31,35.67,3961.33,...,6.71,67.68,25.08,492.61,1483.90,12523.03,1255.11,66587.48,2380.89,3600.41
117,100109.0,3.163,3.520592e+06,8755.18,41271.10,2767997.25,3068.40,2172.04,30.56,3978.80,...,6.69,69.60,29.74,968.15,2024.95,14776.01,1661.08,80481.55,2807.22,7689.81


## Análises

### Qual a parcela da população presente nos dados da Receita?

Resultado aqui


## Distribuição de Renda do Brasil em 2020

Estes são os dados da distribuição de renda do Brasil em 2020, do 1º ao 99º centil.

Pegue a população brasileira (que pagou imposto de renda) e divida em 100 partes iguais.

Isto é um centil.

O primeiro centil são as 316.349 pessoas de menor renda.

O último centil são as 316.349 pessoas de maior renda.

A Renda Tributável Bruta começa a aparecer no 7º centil - abaixo disso as pessoas estão isentas da tributação.

A pessoa com maior renda do 7º centil possui uma renda tributável bruta de 100 reais - ou seja, pagam imposto em cima de 100 reais.

Abaixo estão as curvas de distribuição de renda.

Para ajudar na visualização, dividi em 5 gráficos diferentes.

Cada gráfico possui a curva até uma determinada parcela da população: 99%, 99.90%, 99.97%, 99.99% e 100%.

Repare as mudanças do eixo Y.

Eis os gráficos.

In [8]:
plot_renda_custom_plotly(df_all_info)