### Lendo os dados e importando as bibliotecas 

In [None]:
from pandas import read_csv
import seaborn as sns
import matplotlib.pyplot as plt
import math
import numpy as np
import pandas as pd

In [None]:
df = read_csv('../Data/ReadyToUse2_Sintomas Musculoesquel√©ticos em Universit√°rios - Respostas ao formul√°rio 1.csv', sep = ",", encoding = 'latin1', engine = 'python', thousands = '.', decimal = ',')

In [None]:
df.head(2)
df.columns

### Criando Distribui√ß√£o de Frequ√™ncia por IDADE

In [None]:


# Criar a tabela de frequ√™ncia absoluta
freq_table = df['IDADE'].value_counts().sort_index().reset_index()
freq_table.columns = ['IDADE', 'Frequency']

# Calcular a frequ√™ncia relativa (porcentAGEM)
total_pessoas = freq_table['Frequency'].sum()
freq_table['PercentIDADE'] = (freq_table['Frequency'] / total_pessoas) * 100

# Exibir a tabela de frequ√™ncia
print("Tabela de Frequ√™ncia com Percentuais:")
print(freq_table)

# Gr√°fico de frequ√™ncia absoluta com r√≥tulos
plt.figure(figsize=(16, 10))
sns.barplot(x='IDADE', y='Frequency', data=freq_table, color='#D3185D')
plt.title('Distribui√ß√£o de Frequ√™ncia das Idades (N√∫mero de Pessoas)')
plt.xlabel('Idade')
plt.ylabel('N√∫mero de Pessoas')
plt.xticks(rotation=90)

# Adicionando r√≥tulos de valor acima das colunas
for index, row in freq_table.iterrows():
    plt.text(x=index, y=row['Frequency'] + 0.5, s=int(row['Frequency']), ha='center', va='bottom', fontsize=9)

plt.tight_layout()
plt.show()

# Gr√°fico de frequ√™ncia relativa com r√≥tulos de percentual
plt.figure(figsize=(16, 10))
sns.barplot(x='IDADE', y='PercentIDADE', data=freq_table, color='#D3185D')
plt.title('Distribui√ß√£o de Frequ√™ncia das Idades (%)')
plt.xlabel('Idade')
plt.ylabel('Percentual (%)')
plt.xticks(rotation=90)

# Adicionando r√≥tulos de percentual acima das colunas
for index, row in freq_table.iterrows():
    plt.text(x=index, y=row['PercentIDADE'] + 0.5, s=f"{row['PercentIDADE']:.1f}%", ha='center', va='bottom', fontsize=9)

plt.tight_layout()
plt.show()


n = len(df['IDADE'])
k = math.ceil(np.log2(n) + 1)

# Criando os bins automaticamente
min_idade = min(df['IDADE'])
max_idade = max(df['IDADE'])
bins = np.linspace(min_idade, max_idade, k + 1)

# Labels din√¢micos para os bins
labels = [f'{int(bins[i])}-{int(bins[i+1]-1)}' for i in range(len(bins)-1)]

# Criando a tabela de frequ√™ncia
faixas_etarias = pd.cut(df['IDADE'], bins=bins, labels=labels, include_lowest=True, right=False)
frequencia_absoluta = faixas_etarias.value_counts().sort_index()
frequencia_relativa = (frequencia_absoluta / n * 100).round(2)

# Montando a tabela
tabela_frequencia = pd.DataFrame({
    'Faixa Et√°ria': labels,
    'Frequ√™ncia': frequencia_absoluta.values,
    'Porcentagem (%)': frequencia_relativa.values
})

print(tabela_frequencia)

# Gr√°fico de barras com frequ√™ncia absoluta
plt.figure(figsize=(8, 5))
frequencia_absoluta.plot(kind='bar', color='lightgreen', edgecolor='black')
plt.title('Distribui√ß√£o de Faixa Et√°ria na Amostra')
plt.xlabel('Faixa Et√°ria')
plt.ylabel('Frequ√™ncia Absoluta')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()


### Criando Distribui√ß√£o de Frequ√™ncia por Curso, Sexo, Estado CIVIL, Ra√ßa e Renda

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Fun√ß√£o para gerar tons de rosa
def generate_soft_pink_gradient(base_color, n_colors):
    base_rgb = tuple(int(base_color.lstrip('#')[i:i+2], 16) for i in (0, 2, 4))
    colors = []
    for i in range(n_colors):
        factor = (i / (n_colors - 1)) ** 0.7
        start_color = (240, 120, 160)
        interpolated = tuple(int(start_color[j] * (1-factor) + base_rgb[j] * factor) for j in range(3))
        colors.append('#%02x%02x%02x' % interpolated)
    return colors

cor_base = '#c81d5a'

variaveis = ['CURSO', 'SEXO', 'ESTADO CIVIL', 'RA√áA/COR DA PELE', 'RENDA FAMILIAR']

for var in variaveis:
    # Criar e ordenar tabela de frequ√™ncia
    freq_table = df[var].value_counts(dropna=False).reset_index()
    freq_table.columns = [var, 'Frequ√™ncia']
    freq_table = freq_table.sort_values('Frequ√™ncia')  # Ordenar por frequ√™ncia
    
    total = freq_table['Frequ√™ncia'].sum()
    freq_table['Percentual (%)'] = (freq_table['Frequ√™ncia'] / total) * 100

    print(f"\nüìä Tabela de Frequ√™ncia - {var}")
    print(freq_table)

    # Paleta de cores
    n_categorias = len(freq_table)
    paleta = generate_soft_pink_gradient(cor_base, n_categorias) if n_categorias > 1 else [cor_base]

    # GR√ÅFICO DE FREQU√äNCIA ABSOLUTA
    plt.figure(figsize=(10, 5))
    ax = sns.barplot(x=var, y='Frequ√™ncia', data=freq_table, palette=paleta, order=freq_table[var])
    
    for p in ax.patches:
        height = p.get_height()
        ax.text(p.get_x() + p.get_width()/2., height + 0.02*total,
                f"{int(height)}",
                ha="center", va="bottom", fontsize=10)
    
    plt.title(f'Distribui√ß√£o de {var} - Contagem', fontsize=14, pad=20)
    plt.ylabel('N√∫mero de Indiv√≠duos', fontsize=12)
    plt.xlabel('')
    plt.xticks(rotation=45, ha='right')
    plt.grid(axis='y', linestyle='--', alpha=0.7)
    plt.ylim(0, max(freq_table['Frequ√™ncia']) * 1.18)
    plt.tight_layout()
    plt.show()

    # GR√ÅFICO DE FREQU√äNCIA RELATIVA
    plt.figure(figsize=(10, 5))
    ax = sns.barplot(x=var, y='Percentual (%)', data=freq_table, palette=paleta, order=freq_table[var])
    
    for p in ax.patches:
        height = p.get_height()
        ax.text(p.get_x() + p.get_width()/2., height + 0.5,
                f"{height:.1f}%",
                ha="center", va="bottom", fontsize=10)
    
    plt.title(f'Distribui√ß√£o de {var} - Propor√ß√£o', fontsize=14, pad=20)
    plt.ylabel('Percentual (%)', fontsize=12)
    plt.xlabel('')
    plt.xticks(rotation=45, ha='right')
    plt.grid(axis='y', linestyle='--', alpha=0.7)
    plt.ylim(0, max(freq_table['Percentual (%)']) * 1.18)
    plt.tight_layout()
    plt.show()

### An√°lise Descritiva sob dados demogr√°ficos na amostragem

In [None]:


colunas_demograficas = df.columns[:6]

for i in colunas_demograficas:
    print(f"{i}")
    print(f"{df[f'{i}'].value_counts(normalize=True)*100} --- {df[f'{i}'].value_counts()}")

    print("\n\n\n\n")



### An√°lise descritiva sob dados sintom√°ticos e de bem estar na amostragem

In [None]:

colunas_bem_estar_e_sintomas = df.columns[6:]

for i in colunas_bem_estar_e_sintomas:
    print(f"{i}")
    print(f"{df[f'{i}'].value_counts(normalize=True)*100} --- {df[f'{i}'].value_counts()}")

