# Análise Estátistica de Dados

Identificar oportunidades de aumentar a diversidade na Corp Solutions. Desenvolver soluções criativas, aplicáveis e inovadoras para promover a inclusão e equidade no ambiente de trabalho. Contribuir para a construção de uma cultura organizacional diversa, inclusiva e sustentável.

## Bibliotecas
Importando as bibliotecas necessárias para o projeto.

In [1]:
# Ignorar avisos 
import warnings
warnings.filterwarnings('ignore')

In [2]:
#Banco de dados
from sqlalchemy import create_engine
from sqlalchemy.exc import SQLAlchemyError

In [3]:
# Processamento de dados
import pandas as pd
import numpy as np

In [4]:
# Visualização
import matplotlib.pyplot as plt
from wordcloud import WordCloud, STOPWORDS
import seaborn as sns
import plotly.express as px
from plotly.subplots import make_subplots

# Importação do conjunto de dados tradados 
Banco de dados Postgres alocado no Aws

In [9]:
# conectar postgres DB
try:
    # Criar a string de conexão usando SQLAlchemy 
    db_string = "postgresql://postgres:adahack2024@db-adahack.cfevcennalmb.us-east-1.rds.amazonaws.com:5432/postgres"
    # Criar engine SQLAlchemy
    engine = create_engine(db_string)
    print("Conectado")
except:
    print("Falha de Conexão")

Conectado


In [10]:
# criar dataframe apartir dos daddos salvos na tabela colaboradores
colaboradores_db = "SELECT * FROM public.colaboradores"
df = pd.read_sql(colaboradores_db, db_string)
df

OperationalError: (psycopg2.OperationalError) connection to server at "db-adahack.cfevcennalmb.us-east-1.rds.amazonaws.com" (54.243.188.25), port 5432 failed: Connection timed out (0x0000274C/10060)
	Is the server running on that host and accepting TCP/IP connections?

(Background on this error at: https://sqlalche.me/e/14/e3q8)

## Conjunto de dados

Este conjunto de dados contém informações detalhadas sobre indivíduos.

### Colunas:

1. **Nome**: Nome do indivíduo.
2. **Genero**: Gênero do indivíduo.
3. **Idade**: Idade do indivíduo.
4. **Raca**: Raça do indivíduo.
5. **Endereco**: Endereço do indivíduo.
6. **Formacao**: Nível de educação do indivíduo.
7. **Estado**: Estado de residência do indivíduo.
8. **Tempo_de_casa**: Tempo que o indivíduo mora no endereço atual.
9. **Departamento**: Departamento onde o indivíduo trabalha.
10. **Senioridade**: Nível de senioridade do indivíduo no trabalho.
11. **Estado_UF**: Unidade federativa do estado de residência do indivíduo.

Para mais detalhes, você pode acessar o [conjunto de dados original](https://github.com/Ada-Empregabilidade/adahack-2024-dados/blob/main/base_dados/base_de_dados.csv).

In [None]:
#Vendo as colunas
df.columns

In [None]:
#Obtendo as informações
df.info()

In [None]:
#Verificando duplicatas
df.duplicated().sum()

In [None]:
#Verificando se a nulos
df.isnull().sum()

In [None]:
# Imprimindo a forma do DataFrame
print('O dataset possui',df.shape[0], 'registros e', df.shape[1], 'atributos.')

In [None]:
#Extraindo estatiticas
df.describe().T

In [None]:
# a dispersão e a forma da distribuição de um conjunto de dados, excluindo os valores NaN.
df_describe = df.describe()

# A amplitude é a diferença entre o valor máximo e mínimo. 
df_describe.loc['amp'] = df_describe.loc['max'] - df_describe.loc['min'] 

# O coeficiente de variação (CV) é uma medida da variabilidade relativa em relação à média.
df_describe.loc['cv'] = (df_describe.loc['std'] / df_describe.loc['mean'] ).abs() *100

# A assimetria é uma medida estatística para avaliar a assimetria na distribuição dos dados.
df_describe.loc['skewness'] = df.skew()

# Calculando o IQR para cada coluna numérica
df_describe.loc['IQR'] = df_describe.loc['75%'] - df_describe.loc['25%']

# Por fim, o código arredonda os valores para duas casas decimais e transpõe o DataFrame para melhor visualização.
df_describe.round(2).T

In [None]:
# Selecionando apenas as colunas numérica
numeric_columns = df.select_dtypes(include=[np.number]).columns

# Percorrendo cada coluna numérica do DataFrame e vendo o TOP 10 valores 
for col in numeric_columns:
    print(f'Coluna: {col}')
    print(df[col].value_counts().iloc[:10])
    print('\n')

In [None]:
for col in numeric_columns:
    # Criando o gráfico de densidade de kernel
    plt.figure(figsize=(10, 6))
    sns.histplot(data=df, x=col, kde=True)
    plt.title(f'Distribuição de {col}')
    plt.show()

In [None]:
# Gráficos de caixa para Idade, Anos de Experiência e Salário
fig, axes = plt.subplots(nrows=2, ncols=1, figsize=(10, 15))

sns.boxplot(x=df['Idade'], ax=axes[0], color='skyblue')
axes[0].set_title('Boxplot para Idade')

sns.boxplot(x=df['Tempo_de_casa'], ax=axes[1], color='salmon')
axes[1].set_title('Boxplot para Tempo de Casa')


# Ajusta o layout
plt.tight_layout()
plt.show()

In [None]:
# Selecionando apenas as colunas numéricas
numeric_columns_salary = df.select_dtypes(include=[np.number]).columns

In [None]:
# Selecionando apenas as colunas textuais
text_columns = df.select_dtypes(include=[np.object]).columns

# Removendo as colunas 'Nome', 'Endereco' e 'Estado'
text_columns = text_columns.drop(['Nome', 'Endereco', 'Estado'])

In [None]:
# Percorrendo cada coluna textual do DataFrame
for col in text_columns:
    print(f'Coluna: {col}')
    print(df[col].value_counts().iloc[:10])
    print('\n')


In [None]:
for coluna in text_columns:
    top_10_valores = df[coluna].value_counts().nlargest(10)
    top_10_valores_sorted = top_10_valores.sort_values(ascending=False)  # Ordena os valores em ordem decrescente
    plt.figure(figsize=(10, 6))
    sns.barplot(x=top_10_valores_sorted.values, y=top_10_valores_sorted.index)
    plt.xlabel('Contagem')
    plt.ylabel(coluna)
    plt.title(f'Top 10 Valores de {coluna}')

    # Adiciona rótulos de dados
    for i, valor in enumerate(top_10_valores_sorted.values):
        plt.text(valor, i, str(valor), ha='left', va='center')

    plt.show()

In [None]:
# Percorrendo cada coluna textual do DataFrame
for col in text_columns:
    # Combine todo o texto da coluna atual
    all_text = ' '.join(df[col].astype(str))

    # Crie um objeto WordCloud com alinhamento horizontal
    wordcloud = WordCloud(width=800, height=400, background_color='white', stopwords=STOPWORDS).generate(all_text)

    # Exiba a nuvem de palavras
    plt.figure(figsize=(10, 5))
    plt.imshow(wordcloud, interpolation='bilinear')
    plt.title(f'Nuvem de palavras para a coluna {col}')
    plt.axis('off')
    plt.show()

In [None]:
df.corr()

In [None]:
#Em forma gráfica
sns.heatmap(df.corr(), annot=True)

In [None]:
sns.pairplot(df);

## Análise Descritiva da Idade dos Participantes
Neste projeto, estamos interessados em entender melhor a distribuição das idades dos participantes. Para isso, vamos realizar uma análise descritiva das idades, calculando estatísticas como média, mediana, moda, desvio padrão e quartis.

In [None]:
#Transformação da Coluna de Idade em um Array NumPy
idades_array= df['Idade'].values
print(type(idades_array))

In [None]:
# Média
media_idades = np.mean(idades_array)
print(f'Média de idade dos funcionários = {media_idades:.0f} anos')

In [None]:
# Mediana
mediana_idades = np.median(idades_array)
print(f'Mediana das idades = {media_idades:.0f} anos')

In [None]:
# Desvio Padrão
desvio_padrao_idades = np.std(idades_array)
print(f'Desvio padrão= {desvio_padrao_idades:.0f} anos')

In [None]:

print("q1 (primeiro quartil) = ", np.quantile(idades_array, 0.25))
print("q2 (segundo quartil) = ", np.quantile(idades_array, 0.5))
print("q3 (terceiro quartil) = ", np.quantile(idades_array, 0.75))