In [13]:
import pandas as pd

## Representação de parlamentares no corpus

In [21]:
# Carregar o arquivo .xlsx em um DataFrame
df = pd.read_excel('bd_analise_tweets.xlsx')

# Calcular a contagem de cada categoria
contagem_categorias = df['name'].value_counts()

# Calcular a proporção de cada categoria
proporcao_categorias = df['name'].value_counts(normalize=True)

# Calcular a porcentagem de cada categoria
porcentagem_categorias = proporcao_categorias * 100

# Exibir os resultados
print("Contagem de cada categoria:")
print(contagem_categorias)
print("\nProporção de cada categoria:")
print(proporcao_categorias)
print("\nPorcentagem de cada categoria:")
print(porcentagem_categorias)

Contagem de cada categoria:
name
Eduardo Bolsonaro🇧🇷    5966
Tabata Amaral          4334
Carla Zambelli         4279
Valmir Assunção        3501
Carla Zambelli 2210    3284
                       ... 
deputado vermelho         4
Guilherme Mussi           4
Ricardo Guidi             3
Cláudio Cajado            2
Genecias Noronha          1
Name: count, Length: 526, dtype: int64

Proporção de cada categoria:
name
Eduardo Bolsonaro🇧🇷    0.010634
Tabata Amaral          0.007725
Carla Zambelli         0.007627
Valmir Assunção        0.006240
Carla Zambelli 2210    0.005854
                         ...   
deputado vermelho      0.000007
Guilherme Mussi        0.000007
Ricardo Guidi          0.000005
Cláudio Cajado         0.000004
Genecias Noronha       0.000002
Name: proportion, Length: 526, dtype: float64

Porcentagem de cada categoria:
name
Eduardo Bolsonaro🇧🇷    1.063403
Tabata Amaral          0.772509
Carla Zambelli         0.762706
Valmir Assunção        0.624032
Carla Zambelli 2210   

In [22]:
print("\nPorcentagem de cada categoria:")
print(porcentagem_categorias)


Porcentagem de cada categoria:
name
Eduardo Bolsonaro🇧🇷    1.063403
Tabata Amaral          0.772509
Carla Zambelli         0.762706
Valmir Assunção        0.624032
Carla Zambelli 2210    0.585353
                         ...   
deputado vermelho      0.000713
Guilherme Mussi        0.000713
Ricardo Guidi          0.000535
Cláudio Cajado         0.000356
Genecias Noronha       0.000178
Name: proportion, Length: 526, dtype: float64


In [23]:
# Criar um DataFrame com contagem e porcentagem
resultados = pd.DataFrame({'Contagem': contagem_categorias, 'Porcentagem': porcentagem_categorias})

# Salvar os resultados em um novo arquivo Excel
resultados.to_excel('resultados.xlsx')

print("Resultados salvos com sucesso em 'resultados.xlsx'.")

Resultados salvos com sucesso em 'resultados.xlsx'.


## Formação da amostra estratificada

In [27]:
# Carregar o arquivo .xlsx em um DataFrame
df = pd.read_excel('bd_analise_tweets.xlsx')

# Definir o tamanho da amostra desejada
tamanho_amostra_desejado = 1843

# Calcular as proporções de cada combinação de ANO, PARLAMENTAR e POSICIONAMENTO
proporcoes = df.groupby(['ANO', 'PARLAMENTAR', 'POSICIONAMENTO']).size() / len(df)

# Calcular o número de linhas necessário para cada combinação para atingir o tamanho da amostra desejado
tamanho_amostra_por_combinacao = (proporcoes * tamanho_amostra_desejado).round().astype(int)

# Inicializar um DataFrame vazio para armazenar a amostra estratificada
amostra_estratificada = pd.DataFrame()

# Iterar sobre cada combinação
for combinacao, tamanho in tamanho_amostra_por_combinacao.items():
    # Selecionar uma amostra aleatória de tamanho `tamanho` para a combinação atual
    amostra_combinacao = df[(df['ANO'] == combinacao[0]) & 
                            (df['PARLAMENTAR'] == combinacao[1]) & 
                            (df['POSICIONAMENTO'] == combinacao[2])].sample(tamanho, replace=True)
    # Concatenar a amostra da combinação atual ao DataFrame de amostra estratificada
    amostra_estratificada = pd.concat([amostra_estratificada, amostra_combinacao])

# Verificar o tamanho da amostra e, se necessário, ajustar para atingir o tamanho desejado
diferenca_tamanho = tamanho_amostra_desejado - len(amostra_estratificada)
if diferenca_tamanho > 0:
    # Adicionar observações adicionais aleatoriamente de todo o DataFrame
    amostra_adicional = df.sample(n=diferenca_tamanho, replace=True)
    # Concatenar a amostra adicional ao DataFrame de amostra estratificada
    amostra_estratificada = pd.concat([amostra_estratificada, amostra_adicional])

# Se a amostra for maior do que o tamanho desejado, reduzir aleatoriamente o tamanho da amostra
elif diferenca_tamanho < 0:
    # Remover aleatoriamente observações extras do DataFrame de amostra estratificada
    amostra_estratificada = amostra_estratificada.sample(n=tamanho_amostra_desejado, replace=False)

# Exibir a amostra estratificada
print("Amostra Estratificada:")
print(amostra_estratificada.head())

# Salvar a amostra estratificada em um novo arquivo Excel
amostra_estratificada.to_excel('amostra_estratificada_multivariada.xlsx')

print("Amostra estratificada salva com sucesso em 'amostra_estratificada_multivariada.xlsx'.")

Amostra Estratificada:
          ANO          created_at         PARLAMENTAR GOVERNISMO  \
344074  20190 2019-09-24 13:27:57  Deputados Federais        qt1   
333617  20190 2019-06-04 19:38:48  Deputados Federais        qt1   
336883  20190 2019-11-04 21:50:06  Deputados Federais        qt1   
368401  20190 2019-02-24 20:53:18  Deputados Federais        qt1   
367380  20190 2019-08-07 14:48:34  Deputados Federais        qt1   

       POSICIONAMENTO POSICIONAMENTO.1 PARTIDO      screen_name  \
344074         Centro           Centro     PSD   franciscojr_go   
333617         Centro           Centro    PSDB   carlossampaio_   
336883         Centro           Centro    PSDB   TrzeciakDaniel   
368401         Centro           Centro    PSDB  vanderleimacris   
367380         Centro           Centro    PROS  deputadotoninho   

                                                     text is_quote  ...  \
344074  Entrevista ao vivo para a TV Canção Nova. Hoje...    FALSO  ...   
333617  Lula pe