# Exerc√≠cios do M√≥dulo de Introdu√ß√£o a An√°lise de Explorat√≥ria de Dados

[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/ITalents/CD-Introducao-a-Ciencia-de-dados)

Execute o c√≥digo abaixo para importar as bibliotecas e fun√ß√µes necess√°rias para a resolu√ß√£o dos exerc√≠cios.

Caso precise instalar alguma biblioteca, utilize o comando `!pip install pandas numpy matplotlib seaborn duckdb plotly` numa c√©lula de python no Jupyter Notebook.

In [None]:
!git clone https://github.com/ITalents/CD-Introducao-a-Ciencia-de-dados.git

In [None]:
### Execute o c√≥digo sem alterar nada para carregar os dados e criar as tabelas no banco de dados DuckDB

# Bibliotecas
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import glob
import re
import duckdb
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA




pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)

# comando magic para exibir os gr√°ficos no notebook
%matplotlib inline



def descreve_colunas(dataframe : pd.DataFrame):
    """ Fun√ß√£o para descrever as colunas categ√≥ricas de um dataframe. 
        Ela imprime os valores √∫nicos e a quantidade de valores √∫nicos de cada coluna.
        S√≥ aceita objetos do tipo pandas.DataFrame."""
    
    # Contagem de valores unicos para colunas categoricas
    cat_cols = [col for col in dataframe.columns if dataframe[col].dtype not in ['int64', 'float64']]

    # Looping para imprimir os valores unicos de cada coluna categorica
    print('-----------------------')
    print('Colunas categ√≥ricas:')
    print(cat_cols)
    print('-----------------------')

    for col in cat_cols:
        # cont√©m o valor ID? Se sim, n√£o imprime
        if not re.search('id', col, re.IGNORECASE):  
            # distribui√ß√£o de frequencia
            print(f'Distribui√ß√£o de frequ√™ncia:\n{dataframe[col].value_counts()}')
            print(f'Valores √∫nicos: {dataframe[col].unique()}')
            print(f'Quantidade de valores unicos: {len(dataframe[col].unique())}')
            print(f'Valores nulos: {dataframe[col].isnull().sum()}')
            print('-----------------------')

# Conectando-se ao banco de dados em mem√≥ria do DuckDB
duckdb_conn = duckdb.connect(database=':memory:', read_only=False)

# Looping atrav√©s de todos os arquivos .xlsx na pasta 'dados'
for arquivo in glob.glob('/content/CD-Introducao-a-Ciencia-de-dados/EDA/dados/*.xlsx'):
    # Imprimindo o nome do arquivo atual
    print(arquivo)
    
    # Extraindo o nome do arquivo sem a extens√£o e usando como nome da tabela no banco de dados
    nome_arquivo = arquivo.split('/')[-1].split('.')[0].split('_')[-1]
    
    # Lendo o arquivo Excel com o pandas e registrando-o como uma tabela no DuckDB
    dataframe = pd.read_excel(arquivo)
    duckdb_conn.register('tb_'+nome_arquivo, dataframe)




### Exerc√≠cio 1

Como visto no Notebook `01_Introducao_a_EDA.ipynb`, realizamos uma query para obter os dados da tabela `tb_services` do banco de dados que foi instanciado acima.

Fa√ßa o mesmo procedimento para outras tabelas do banco de dados:
- `tb_demographics`
- `tb_population`
- `tb_location`
- `tb_status`

In [None]:
query = """Escreva aqui a sua query!"""

In [None]:
# Executando a query e armazenando o resultado em um DataFrame
nome_da_tabela = duckdb_conn.execute(query).fetch_df()

# o M√©todo .head() exibe as 5 primeiras linhas do DataFrame
nome_da_tabela.head()

## Exerc√≠cio 2

### Item a)

Quantas linhas e colunas existem nas tabelas?

In [None]:
#### Coloque seu c√≥digo aqui ####

### Item b)

Quais s√£o os tipos de dados de cada coluna das tabelas?

In [None]:
#### Coloque seu c√≥digo aqui ####

## Exerc√≠cio 3

Calcule a m√©dia, mediana, desvio padr√£o, valor m√≠nimo e valor m√°ximo de cada coluna num√©rica da tabela `tb_population`.

In [None]:
#### Coloque seu c√≥digo aqui ####

## Exerc√≠cio 4

Utilizando a tabela `tb_location`, responda as seguintes perguntas:

### Item a)

Quantos estados existem na tabela? 
Dica: Utilize a fun√ß√£o `unique` do pandas para obter os valores √∫nicos de uma coluna. Ou a fun√ß√£o `descreve_colunas` definida pelo professor.

### Item b)

Quantas cidades existem na tabela?

### Item c)

Quantas cidades existem em cada estado? Ordene o resultado em ordem decrescente.

Dica: Utilize a fun√ß√£o `groupby` do pandas e a fun√ß√£o `count` para contar o n√∫mero de cidades em cada estado, para ordenar o resultado, utilize a fun√ß√£o `sort_values`. Pode pesquisar sobre essas fun√ß√µes na [documenta√ß√£o do pandas](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html).


## Exerc√≠cio 5
Fa√ßa a an√°lise univariada das colunas num√©ricas da tabela `services`, utilizando histogramas e boxplots.

## Exerc√≠cio 6
Fa√ßa a an√°lise univariada das colunas categ√≥ricas da tabela `services`, utilizando gr√°ficos de barras.


## DESAFIO 1 üí£ (opcional)

Implemente uma fun√ß√£o que receba duas s√©ries e retorne o coeficiente de correla√ß√£o entre elas.

Dica 0: Pesquise como implementar fun√ß√µes no python.

Dica 1: Pesquise sobre a fun√ß√£o `corr` do pandas.

Dica 2: Pesquise sobre a f√≥rmula do coeficiente de correla√ß√£o de Pearson.

Dica 3: Utilize Numpy arrays para realizar os c√°lculos.

O resultado deve ser o mesmo da fun√ß√£o `corr` do pandas.


In [None]:
#### Coloque seu c√≥digo aqui ####

## Exerc√≠cio 7

### Item a)

Fa√ßa a an√°lise bivariada das colunas num√©ricas da tabela `tb_demographics`, utilizando gr√°ficos de dispers√£o.

### Item b)

Fa√ßa a an√°lise bivariada de uma vari√°vel categorica contra uma num√©rica da tabela `tb_demographics`, usando boxplots.

In [None]:
#### Coloque seu c√≥digo aqui ####

## Exerc√≠cio 8

### Item a)

Quantas colunas tem valores nulos na tabela `tb_status`?

### Item b)

Quantos valores nulos existem em cada coluna da tabela `tb_status`?

### Item c)

Remova as linhas que possuem valores nulos na tabela `tb_status` e salve o resultado em uma nova tabela chamada `tb_status_sem_nulos`.

In [None]:
#### Coloque seu c√≥digo aqui ####

## Exerc√≠cio 9 

Realize a separa√ß√£o das vari√°veis num√©ricas antes de realizar a normaliza√ß√£o.

### Item a)

Aplique a normaliza√ß√£o com o StandardScaler na tabela `tb_services` e salve o resultado em uma nova tabela chamada `tb_services_normalizada`.

### Item b)

Aplique uma transforma√ß√£o logar√≠tmica na coluna `population` da tabela `tb_population` e salve o resultado em uma nova tabela chamada `tb_demographics_log`.

### Item c)

Aplique a normaliza√ß√£o com o MinMaxScaler na tabela `tb_status` e salve o resultado em uma nova tabela chamada `tb_status_normalizada_minmax`.

Dica: Pesquise sobre a fun√ß√£o `MinMaxScaler` do sklearn.

In [None]:
### coloque seu c√≥digo aqui ###

In [None]:
### coloque seu c√≥digo aqui ###

## Exerc√≠cio 10

Realize a separa√ß√£o das vari√°veis categ√≥ricas antes de realizar o encoding.

### Item a)

Aplique o encoding com o OneHotEncoder na tabela `tb_location` e salve o resultado em uma nova tabela chamada `tb_location_encoded`.

### Item b)

Quantas colunas foram criadas ap√≥s o encoding?

## DESAFIO 2 üí£ (opcional)

Aplique o Count Frequency Encoding ou Count Encoding na tabela `tb_location` e salve o resultado em uma nova tabela chamada `tb_location_encoded_freq`.

Dica: Refer√™ncia do [Count Frequency Encoding](https://feature-engine.trainindata.com/en/1.2.x/api_doc/encoding/CountFrequencyEncoder.html) e [Count Encoding](https://contrib.scikit-learn.org/category_encoders/count.html).: