# Seleção de Variáveis

Autor: João Tedeschi


[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/ITalents/CD-Introducao-a-Ciencia-de-dados)

In [None]:
!git clone https://github.com/ITalents/CD-Introducao-a-Ciencia-de-dados.git

In [3]:
### Execute o código sem alterar nada para carregar os dados e criar as tabelas no banco de dados DuckDB

# Bibliotecas
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import glob
import re
import duckdb
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA




pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)

# comando magic para exibir os gráficos no notebook
%matplotlib inline



def descreve_colunas(dataframe : pd.DataFrame):
    """ Função para descrever as colunas categóricas de um dataframe. 
        Ela imprime os valores únicos e a quantidade de valores únicos de cada coluna.
        Só aceita objetos do tipo pandas.DataFrame."""
    
    # Contagem de valores unicos para colunas categoricas
    cat_cols = [col for col in dataframe.columns if dataframe[col].dtype not in ['int64', 'float64']]

    # Looping para imprimir os valores unicos de cada coluna categorica
    print('-----------------------')
    print('Colunas categóricas:')
    print(cat_cols)
    print('-----------------------')

    for col in cat_cols:
        # contém o valor ID? Se sim, não imprime
        if not re.search('id', col, re.IGNORECASE):  
            # distribuição de frequencia
            print(f'Distribuição de frequência:\n{dataframe[col].value_counts()}')
            print(f'Valores únicos: {dataframe[col].unique()}')
            print(f'Quantidade de valores unicos: {len(dataframe[col].unique())}')
            print(f'Valores nulos: {dataframe[col].isnull().sum()}')
            print('-----------------------')

# Conectando-se ao banco de dados em memória do DuckDB
duckdb_conn = duckdb.connect(database=':memory:', read_only=False)

# Looping através de todos os arquivos .xlsx na pasta 'dados'
for arquivo in glob.glob('/content/CD-Introducao-a-Ciencia-de-dados/EDA/dados/*.xlsx'):
    # Imprimindo o nome do arquivo atual
    print(arquivo)
    
    # Extraindo o nome do arquivo sem a extensão e usando como nome da tabela no banco de dados
    nome_arquivo = arquivo.split('/')[-1].split('.')[0].split('_')[-1]
    
    # Lendo o arquivo Excel com o pandas e registrando-o como uma tabela no DuckDB
    dataframe = pd.read_excel(arquivo)
    duckdb_conn.register('tb_'+nome_arquivo, dataframe)

dados/Telco_customer_churn_services.xlsx
dados/Telco_customer_churn_population.xlsx
dados/Telco_customer_churn_location.xlsx
dados/Telco_customer_churn_status.xlsx
dados/Telco_customer_churn_demographics.xlsx
dados/Telco_customer_churn.xlsx


In [None]:
from ydata_profiling import ProfileReport