# Exercícios do Módulo de Introdução a Análise de Exploratória de Dados

[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/ITalents/CD-Introducao-a-Ciencia-de-dados)

Execute o código abaixo para importar as bibliotecas e funções necessárias para a resolução dos exercícios.

Caso precise instalar alguma biblioteca, utilize o comando `!pip install pandas numpy matplotlib seaborn duckdb plotly` numa célula de python no Jupyter Notebook.

In [None]:
!git clone https://github.com/ITalents/CD-Introducao-a-Ciencia-de-dados.git

In [None]:
### Execute o código sem alterar nada para carregar os dados e criar as tabelas no banco de dados DuckDB

# Bibliotecas
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import glob
import re
import duckdb
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA




pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)

# comando magic para exibir os gráficos no notebook
%matplotlib inline



def descreve_colunas(dataframe : pd.DataFrame):
    """ Função para descrever as colunas categóricas de um dataframe. 
        Ela imprime os valores únicos e a quantidade de valores únicos de cada coluna.
        Só aceita objetos do tipo pandas.DataFrame."""
    
    # Contagem de valores unicos para colunas categoricas
    cat_cols = [col for col in dataframe.columns if dataframe[col].dtype not in ['int64', 'float64']]

    # Looping para imprimir os valores unicos de cada coluna categorica
    print('-----------------------')
    print('Colunas categóricas:')
    print(cat_cols)
    print('-----------------------')

    for col in cat_cols:
        # contém o valor ID? Se sim, não imprime
        if not re.search('id', col, re.IGNORECASE):  
            # distribuição de frequencia
            print(f'Distribuição de frequência:\n{dataframe[col].value_counts()}')
            print(f'Valores únicos: {dataframe[col].unique()}')
            print(f'Quantidade de valores unicos: {len(dataframe[col].unique())}')
            print(f'Valores nulos: {dataframe[col].isnull().sum()}')
            print('-----------------------')

# Conectando-se ao banco de dados em memória do DuckDB
duckdb_conn = duckdb.connect(database=':memory:', read_only=False)

# Looping através de todos os arquivos .xlsx na pasta 'dados'
for arquivo in glob.glob('/content/CD-Introducao-a-Ciencia-de-dados/EDA/dados/*.xlsx'):
    # Imprimindo o nome do arquivo atual
    print(arquivo)
    
    # Extraindo o nome do arquivo sem a extensão e usando como nome da tabela no banco de dados
    nome_arquivo = arquivo.split('/')[-1].split('.')[0].split('_')[-1]
    
    # Lendo o arquivo Excel com o pandas e registrando-o como uma tabela no DuckDB
    dataframe = pd.read_excel(arquivo)
    duckdb_conn.register('tb_'+nome_arquivo, dataframe)




### Exercício 1

Como visto no Notebook `01_Introducao_a_EDA.ipynb`, realizamos uma query para obter os dados da tabela `tb_services` do banco de dados que foi instanciado acima.

Faça o mesmo procedimento para outras tabelas do banco de dados:
- `tb_demographics`
- `tb_population`
- `tb_location`
- `tb_status`

In [None]:
query = """Escreva aqui a sua query!"""

In [None]:
# Executando a query e armazenando o resultado em um DataFrame
nome_da_tabela = duckdb_conn.execute(query).fetch_df()

# o Método .head() exibe as 5 primeiras linhas do DataFrame
nome_da_tabela.head()

## Exercício 2

### Item a)

Quantas linhas e colunas existem nas tabelas?

In [None]:
#### Coloque seu código aqui ####

### Item b)

Quais são os tipos de dados de cada coluna das tabelas?

In [None]:
#### Coloque seu código aqui ####

## Exercício 3

Calcule a média, mediana, desvio padrão, valor mínimo e valor máximo de cada coluna numérica da tabela `tb_population`.

In [None]:
#### Coloque seu código aqui ####

## Exercício 4

Utilizando a tabela `tb_location`, responda as seguintes perguntas:

### Item a)

Quantos estados existem na tabela? 
Dica: Utilize a função `unique` do pandas para obter os valores únicos de uma coluna. Ou a função `descreve_colunas` definida pelo professor.

### Item b)

Quantas cidades existem na tabela?

### Item c)

Quantas cidades existem em cada estado? Ordene o resultado em ordem decrescente.

Dica: Utilize a função `groupby` do pandas e a função `count` para contar o número de cidades em cada estado, para ordenar o resultado, utilize a função `sort_values`. Pode pesquisar sobre essas funções na [documentação do pandas](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html).


## Exercício 5
Faça a análise univariada das colunas numéricas da tabela `services`, utilizando histogramas e boxplots.

## Exercício 6
Faça a análise univariada das colunas categóricas da tabela `services`, utilizando gráficos de barras.


## DESAFIO 1 💣 (opcional)

Implemente uma função que receba duas séries e retorne o coeficiente de correlação entre elas.

Dica 0: Pesquise como implementar funções no python.

Dica 1: Pesquise sobre a função `corr` do pandas.

Dica 2: Pesquise sobre a fórmula do coeficiente de correlação de Pearson.

Dica 3: Utilize Numpy arrays para realizar os cálculos.

O resultado deve ser o mesmo da função `corr` do pandas.


In [None]:
#### Coloque seu código aqui ####

## Exercício 7

### Item a)

Faça a análise bivariada das colunas numéricas da tabela `tb_demographics`, utilizando gráficos de dispersão.

### Item b)

Faça a análise bivariada de uma variável categorica contra uma numérica da tabela `tb_demographics`, usando boxplots.

In [None]:
#### Coloque seu código aqui ####

## Exercício 8

### Item a)

Quantas colunas tem valores nulos na tabela `tb_status`?

### Item b)

Quantos valores nulos existem em cada coluna da tabela `tb_status`?

### Item c)

Remova as linhas que possuem valores nulos na tabela `tb_status` e salve o resultado em uma nova tabela chamada `tb_status_sem_nulos`.

In [None]:
#### Coloque seu código aqui ####

## Exercício 9 

Realize a separação das variáveis numéricas antes de realizar a normalização.

### Item a)

Aplique a normalização com o StandardScaler na tabela `tb_services` e salve o resultado em uma nova tabela chamada `tb_services_normalizada`.

### Item b)

Aplique uma transformação logarítmica na coluna `population` da tabela `tb_population` e salve o resultado em uma nova tabela chamada `tb_demographics_log`.

### Item c)

Aplique a normalização com o MinMaxScaler na tabela `tb_status` e salve o resultado em uma nova tabela chamada `tb_status_normalizada_minmax`.

Dica: Pesquise sobre a função `MinMaxScaler` do sklearn.

In [None]:
### coloque seu código aqui ###

In [None]:
### coloque seu código aqui ###

## Exercício 10

Realize a separação das variáveis categóricas antes de realizar o encoding.

### Item a)

Aplique o encoding com o OneHotEncoder na tabela `tb_location` e salve o resultado em uma nova tabela chamada `tb_location_encoded`.

### Item b)

Quantas colunas foram criadas após o encoding?

## DESAFIO 2 💣 (opcional)

Aplique o Count Frequency Encoding ou Count Encoding na tabela `tb_location` e salve o resultado em uma nova tabela chamada `tb_location_encoded_freq`.

Dica: Referência do [Count Frequency Encoding](https://feature-engine.trainindata.com/en/1.2.x/api_doc/encoding/CountFrequencyEncoder.html) e [Count Encoding](https://contrib.scikit-learn.org/category_encoders/count.html).: