# Data Wrangling

É o processo de **limpar, transformar e preparar** dados brutos para análise.

- Coleta de dados - obter dados brutos de várias fontes como banco de dados, arquivos csv, APIs, etc.
- Limpeza de dados - identificar e lidar com dados ausentes, duplicados ou inconsistentes.
- Transformação de dados - reformatar, reorganizar ou combinar dados para torná-los adequados para análise.
- Integração de dados - combinar dados de várias fontes em um único conjunto de dados coeso.
- Redução de dados - reduzir o tamanho do conjunto de dados removendo variáveis não relevantes ou agrupando dados em categorias mais amplas.
- Validação de dados - verificar a qualidade dos dados transformados e garantir que eles estejam corretos e prontos para a análise.

## Duplicidades

Informações idênticas ou muito semelhantes em várias linhas da base de dados
Essas duplicatas podem surgir devido a erros de entrada de dados, problemas de sincronização de dados, falhas em processos de extração, transformação e carregamento de dados (ETL), entre outros motivos.

- **duplicated()** - identificação de duplicidades
- **drop_duplicates()** - remoção de duplicidades


In [2]:
import pandas as pd
df = pd.DataFrame({"coluna1": [1, 2, 3, 3, 4, 4],
                   "coluna2": ['a', 'b', 'c', 'c', 'd', 'e']})
# verificando duplicidades
df.duplicated()

0    False
1    False
2    False
3     True
4    False
5    False
dtype: bool

In [3]:
# removendo duplicidades
df.drop_duplicates()

Unnamed: 0,coluna1,coluna2
0,1,a
1,2,b
2,3,c
4,4,d
5,4,e


In [4]:
# keep='last' mantém a última ocorrência de cada conjunto de duplicatas, em vez da primeira. Geralmente é utilizado seguido de uma ordenação.
df2 = df.sort_values('coluna1')
df2 = df2.drop_duplicates(keep='last')
df2

Unnamed: 0,coluna1,coluna2
0,1,a
1,2,b
3,3,c
4,4,d
5,4,e


In [5]:
# é possível especificar as colunas consideradas usando subset
df.drop_duplicates(subset=['coluna1'])

Unnamed: 0,coluna1,coluna2
0,1,a
1,2,b
2,3,c
4,4,d


## Datas

A biblioteca tem várias funções e métodos para trabalhar com datas e horários, incluindo a capacidade de converter datas em diferentes formatos, extrair componentes de datas, criar novas colunas de data e hora e entre outros.


In [6]:
# é criado como string
df_data = pd.DataFrame({'data': ['2022-01-01', '2022-01-02', '2022-01-03']})
df_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   data    3 non-null      object
dtypes: object(1)
memory usage: 156.0+ bytes


In [9]:
# transformando p formato datetime
df_data['data'] = pd.to_datetime(df_data['data'])
df_data

Unnamed: 0,data
0,2022-01-01
1,2022-01-02
2,2022-01-03


In [10]:
df_data['data_str'] = df_data['data'].dt.strftime('%d/%m/%y')
df_data

Unnamed: 0,data,data_str
0,2022-01-01,01/01/22
1,2022-01-02,02/01/22
2,2022-01-03,03/01/22


In [30]:

df_data['ano'] = df_data['data'].dt.year
df_data['mes'] = df_data['data'].dt.month
df_data['dia'] = df_data['data'].dt.day
df_data['dia_semana'] = df_data['data'].dt.day_name()
df_data


Unnamed: 0,data,data_str,ano,mes,dia,dia_semana
0,2022-01-01,01/01/22,2022,1,1,Saturday
1,2022-01-02,02/01/22,2022,1,2,Sunday
2,2022-01-03,03/01/22,2022,1,3,Monday


In [31]:
df_data['prox_data'] = df_data['data'] + pd.DateOffset(days=7)
df_data

Unnamed: 0,data,data_str,ano,mes,dia,dia_semana,prox_data
0,2022-01-01,01/01/22,2022,1,1,Saturday,2022-01-08
1,2022-01-02,02/01/22,2022,1,2,Sunday,2022-01-09
2,2022-01-03,03/01/22,2022,1,3,Monday,2022-01-10


## Amostras
É o processo de seleção de uma subpopulação menor e representativa de uma população maior para realizar análises e inferências estatísticas. É utilizada para lidar com grandes conjuntos de dados, tornando o processo de análise mais eficiente e econômico. 
* Amostragem aleatória simples: cada elemento do conjunto de dados tem a **mesma probabilidade** de ser selecionado para a amostra.
* Amostragem estratificada: A população é **dividida em subgrupos ou estratos homogêneos** e uma amostra é selecionada de cada estrato com base em uma proporção pré-determinada.
* Amostragem por conglomerados: A população é **dividida em grupos ou conglomerados** e **alguns conglomerados são selecionados aleatoriamente** para compor a amostra.

Podemos gerar uma amostra aleatória de um dataframe utilizando o método ```sample()```. O ```random_state``` nos ajuda a reproduzir o mesmo resultado. 

In [28]:
df.sample() # apenas um número aleatório

Unnamed: 0,coluna1,coluna2
4,4,d


In [25]:
df.sample(n=3, random_state=22) # o random_state traz as mesmas linhas

Unnamed: 0,coluna1,coluna2
1,2,b
2,3,c
3,3,c
