# Data Wrangling com Python

# Parte 1

https://import.cdn.thinkific.com/401289/c9GxZuBgRgShMKl8ETEO_-Slides-%20-%20Python%20para%20dados%20-%20Data%20Wrangling.pdf

https://import.cdn.thinkific.com/401289/agYlMcLQEq88g0sYsf1J_-Notebook-_Python_para_Dados_Data_Wrangling.ipynb

## O que é?

- Exploração
- Limpeza
- Transformação
- Análise (modelos de ML, dashboard)

É um componente chave de qualquer projeto de análise de dados. Wrangling é um processo no qual se transforma dados "brutos" para torná-los mais adequados para análise, melhorando assim a qualidade dos seus dados.

Em português, pode ser traduzido como "manipulação de dados" ou "tratamento de dados". Trata- se de preparar os dados para que possam ser facilmente explorados e analisados.

## Exploração e coleta de dados

### Exploração e coleta de dados

Coletamos dados de diferentes fontes e é necessário checá-las antes.
Normalmente em um projeto nós temos a fonte de dados disponível, mas em outros ainda temos que buscar essa informação e checar a qualidade desse dado, como a fonte.

Exploração de Dados: Verificação dos tipos de dados das características, 

## Limpeza

### Por que precisamos limpar dados?

- Qualidade
- Consistência
- Integridade
- Padronização
- Melhor precisão
- Melhor eficiência
- Prevenção de viés
- Conformidade com regulamentação

### Manipulando o dataframe para limpeza

- rfewr - werwerwe
- werwer - werwerw

### Manipulando o dataframe para limpeza

- Removendo colunas e linhas

O pandas oferece uma maneira prática de remover colunas ou linhas indesejadas de um
DataFrame com a função drop().

- Mudando index

Em muitos casos, é útil utilizar um campo de identificação com valores únicos nos dados
como seu índice.

- Removendo duplicados

### Lidando com dados faltosos (missing data)

Lidar com dados ausentes em um DataFrame é uma parte essencial do processo de análise de dados. A escolha da estratégia de lidar com dados ausentes depende do contexto específico do seu conjunto de dados e do impacto potencial nas análises.


- Identificar Dados Ausentes: antes de lidar com dados ausentes, é importante identific-a-los. Utilize o método df.isna() para identificar células com valores nulos.

- Remover Dados Ausentes: se a quantidade de dados ausentes for pequena e não comprometer a analise, voce pode optar por remover as linhas ou colunas correspondentes.

- Preencher Dados Ausentes: preencher valores ausentes pode ser feito utilizando o método fillna(), onde você pode especificar um valor constante ou usar métodos de preenchimento mais avançados, como preenchimento pela média ou mediana.

- Imputação Estatística: outra abordagem é a imputação estatística, onde você preenche valores ausentes com base em modelos estatísticos.

## Transformação

### Várias transformações podem ser aplicadas aos dados

1 - Tratamento de Valores Ausentes: Preencher ou remover valores ausentes para evitar problemas durante a análise.

2 - Codificação de Variáveis Categóricas: Converter variáveis categóricas em uma forma numérica, como one-hot encoding, para que possam ser utilizadas em algoritmos de machine learning.

3 - Normalização ou Padronização: Escalar valores numéricos para uma escala comum, como normalização (escala de 0 a 1) ou padronização (média 0, desvio padrão 1).

4 - Conversão de Tipos de Dados: Garantir que os tipos de dados das colunas estão corretos para a análise, convertendo strings em datas, números inteiros, etc.

5 - Remoção de Dados Duplicados: Identificar e remover entradas duplicadas que podem prejudicar a precisão da análise.

6 - Agregação de Dados: Agrupar dados com base em determinadas
características e calcular estatísticas agregadas, como média, soma, mínimo ou máximo.

7 - Criação de Novas Variáveis (Feature Engineering): Criar novas variáveis que podem ser mais informativas para a análise, como calcular a idade a partir da data de nascimento.

8 - Divisão de Dados: Separar conjuntos de dados em subconjuntos com base em condições específicas.

9 - Renomeação de Colunas: Modificar os nomes das colunas para torná-los mais descritivos e compreensíveis.

10 - Mudança do Formato do DataFrame: Reorganizar ou pivotar o DataFrame para facilitar a análise ou a criação de visualizações.

# Parte 2

## Hora de Praticar

In [None]:
import pandas as pd

In [None]:
df = pd.read_csv("collected research people.csv")

df.head()

In [None]:
df['Unnamed: 0']

In [None]:
df = df.drop(columns=['Unnamed: 0'])
df.head()

In [None]:
novas_cols = {'Endereco' : 'Endereço',
              'phone' : 'Telefone',
              'anual_income' : 'Salário Anual',
              'AAge' : 'Idade',
              'n_filhos' : 'Número de Filhos',
              'Food_restrictions' : 'Restrições Alimentares',
              'streaming' : 'Streaming',
              'diariamente_sun blocker' : 'Uso de Protetor Solar',
              'email' : 'e-mail'}

df.rename(columns=novas_cols, inplace=True)

df.head()

In [None]:
df.Nome

Os caracteres que são correspondidos pelo padrão \W em expressões regulares:

- Espaços em branco (por exemplo, espaço, tabulação, quebra de linha)
- Pontuações (por exemplo, ponto, vírgula, ponto e vírgula)
- Símbolos (por exemplo, @, #, $)
- Caracteres especiais (por exemplo, *, &, %)

In [None]:
df.Nome.str.replace('\W', '')

In [None]:
df.Nome.str.replace('\W', '') == df.Nome.str.replace('[^a-zA-Zà-úÀ-Ú0-9_]', '')

In [None]:
df.Nome.str.replace('[^a-zA-Zà-úÀ-Ú0-9 ]', '')

In [None]:
df.Telefone = df.Telefone.str.replace('[0-9 ()-+]', '*')

In [None]:
import numpy as np

In [None]:
df.loc[df.Telefone.str.contains('[*]', na=False), 'Telefone'] = np.nan

In [None]:
df.Telefone.str.contains('[*]', na=False)

In [None]:
df.Telefone

In [None]:
df['Estado Civil']

In [None]:
df['Estado Civil'] = df['Estado Civil'].replace({'S' : 'Solteiro',
                            'C' : 'Casado',
                            'D' : 'Divorciado',
                            'V' : 'Viúvo',
                            'ViÃºvo' : 'Viúvo'})

In [None]:
df['Estado Civil']

### Cenário 1

A empresa Carri Construtora contratou a empresa que você trabalha
para encontrar possíveis compradores para o seus novos empreendimentos.
A empresa quer entender as necessidades dos clientes, e quer informações com:

- Quais cliente devemos abordar;
- Qual empreendimento nós devemos mostrá-los;
- Esse cliente está em busca de investir em um imóvel ou comprar para moradia?

In [None]:
df.head()

In [None]:
df_carri = df.copy()

In [None]:
# Não funcionou

df_carri = ['Restrições Alimentares',
           'Streaming',
           'Uso de Protetor Solar',
           'Compra e le Livros Todos os Anos',
           'Quantidade de Livros Comprados',
           'Autor Favorito']

df_carri.drop(columns=df_carri, inplace=True)

In [None]:
import pandas as pd

# Supondo que df_carri seja o DataFrame que você deseja modificar
df_carri_del = pd.DataFrame({
    'Restrições Alimentares': [],
    'Streaming': [],
    'Uso de Protetor Solar': [],
    'Compra e le Livros Todos os Anos': [],
    'Quantidade de Livros Comprados': [],
    'Autor Favorito': []
})

# Remove todas as colunas
df.carri = df_carri.drop(df_carri_del.columns, axis=1, inplace=True)


In [None]:
# Vamos descobrir quantas pessoas são elegíveis para a minha casa minha vida

renda_anual_mcmv = 8*13
renda_anual_mcmv

In [None]:
df_carri.describe()

In [None]:
df_carri['Minha casa minha vida'] = True

In [None]:
df_carri.head()

In [None]:
np.where((df_carri.Moradia == 'Quitada') | (df_carri.Moradia == 'Financiamento'), True, False)

In [None]:
df_carri['Investimento'] = np.where((df_carri.Moradia == 'Quitada') | (df_carri.Moradia == 'Financiamento'), True, False)

In [None]:
df_carri.head()

### Cenário 2

Uma empresa chamada Hillo, é uma empresa que está estudando o mercado e quer encontrar uma parceria com uma empresa de Streeming (netflix, Disney plus etc), mas gostaria de saber quais as empresas dariam o maior retorno de investimento.

Eles podem fazer análise de machine learning também com esses dados.

In [None]:
df_hillo = df.copy()

df_hillo.head()

In [None]:
df_hillo = df_hillo.drop(columns=['Moradia',
                                  'Restrições Alimentares',
                                  'Uso de Protetor Solar',
                                  'Vai na Praia Mensalmente',
                                  'Faz Academia',
                                  'Compra e le Livros Todos os Anos',
                                  'Quantidade de Livros Comprados',
                                  'Autor Favorito'
])

In [None]:
df_hillo.head()

In [None]:
df_hillo['Estado Civil'].str.get_dummies()

In [None]:
df_hillo['Streaming']

In [None]:
df_hillo['Streaming'].str.get_dummies(sep=' e ')

In [None]:
df_hillo['Streaming'] = df_hillo['Streaming'].replace({'Todos': 'Globo Play e Netflix e HBO e Disney Plus e Crunchyroll'})

In [None]:
df_hillo['Streaming'].str.get_dummies(sep=' e ')

In [None]:
df_hillo['Streaming'] = df_hillo['Streaming'].replace({'Netflix e Disney': 'Netflix e Disney Plus'})

In [None]:
df_hillo['Streaming'].str.get_dummies(sep=' e ')

In [None]:
df_hillo_stream = df_hillo['Streaming'].str.get_dummies(sep=' e ')

In [None]:
df_hillo = pd.concat([df_hillo, df_hillo_stream], axis=1)

In [None]:
df_hillo.head()

### Cenário 3

Uma influenciadora digital de bem estar gostaria de analisar possíveis empreendimentos dentro de diferentes propostas que recebe. 

Essas propostas podem ser excludentes ou somatórias.

In [None]:
df.columns

In [None]:
df_inf = df.copy()

df_inf = df_inf.drop(columns=['Streaming', 'Moradia'])

In [None]:
df_inf.head()

In [None]:
df_inf['Restrições Alimentares'].str.get_dummies(sep=' e ').drop(columns=['Nenhuma'])

In [None]:
# df_inf['Restrições Alimentares'] = df_inf['Restrições Alimentares'].replace({'GlÃºten' : 'Glúten'})

In [None]:
restricao = df_inf['Restrições Alimentares'].str.get_dummies(sep=' e ').drop(columns=['Nenhuma'])

In [None]:
df_inf = pd.concat([df_inf, restricao], axis=1)

In [None]:
df_inf.head()

In [None]:
df_inf['Idoso'] = np.where(df_inf.Idade>=60,True,False)

In [None]:
df_inf.head()