<img src='../../../common/DH_LOGO.jpeg' align='left' width=100%/>

In [None]:
# initial setup
#%run "../../../common/0_notebooks_base_setup.py"

# DHDSPaDM2A12 - Prática Guiada: Data Wrangling.

## Intro

### Definições

**Data Wrangling**:

Processo de limpeza e unificação de conjuntos de dados desorganizados e complexos para facilitar seu acesso, exploração, análise ou modelagem subsequente.

**Data munging**:

Processo de limpeza, preparação e validação dos dados.

**Extract, Transform and Load (ETL)**:

Faz extração, transforma e carrega os dados.

**Exploratory data analysis (EDA)**:

Resume as principais características de um conjunto de dados, geralmente com métodos visuais, sem usar um modelo estatístico ou de aprendizado de máquina.

### Tipos de variáveis

As variáveis podem ser caracterizadas como:

* **Quantitativas**: 

$\hspace{.5cm}$ assumem valores numéricos, como no caso da renda de uma pessoa ou do preço de uma casa.  

* **Qualitativas**: 

$\hspace{.5cm}$ assumem valores em uma das K diferentes classes ou categorias.

$\hspace{.5cm}$ Variáveis qualitativas com dois valores possíveis são chamadas de binárias ou dicotômicas.

$\hspace{.5cm}$ Tipos de variáveis categóricas:

$\hspace{.5cm}$ **Nominal/Categórica**:

$\hspace{.5cm}$ tomar valores entre categorias nomeadas.

$\hspace{.5cm}$ Valores numéricos ou rótulos são geralmente atribuídos a variáveis categóricas: estado civil, 0 se solteiro e 1 se casado e 2 se divorciado. Os números usados para rotulagem são arbitrários. Em geral, o software assume que os valores numéricos refletem quantidades algébricas.

$\hspace{.5cm}$ A principal medida de posição é a moda.

$\hspace{.5cm}$ A mediana e a média não são definidas (e, em geral, quaisquer operações numéricas também não são definidas).

$\hspace{.5cm}$ **Ordinal**:

$\hspace{.5cm}$ É uma variável categórica com uma ordem definida.

Um exemplo pode ser a variável age_range, que assume os valores "criança", "adolescente", "adulto", "adulto mais velho" onde existe uma ordem definida, qual seja: "criança" < "adolescente" <"adulto" < "adulto mais velho".


* **Dummy** 

$\hspace{.5cm}$ são variáveis qualitativas que assumem valores 0 ou 1 para indicar a ausência ou presença de algum atributo ou efeito categórico.

$\hspace{.5cm}$ Formalmente, uma variável fictícia pode ser expressa por uma função indicadora:

$$
\begin{equation}
  D_i = \mathbb{I}_A(x_i) = \begin{cases} 
    1, & \text{se $x_{i} \in$ A}\\  
    0, & \text{se $x_{i} \notin $ A}.
  \end{cases}
\end{equation}
$$

$\hspace{.5cm}$**Qual é a relação entre variáveis categóricas e variáveis dummy?**

Uma variável categórica com $N$ categorias pode ser expressa em termos de $N - 1$ variáveis fictícias (codificação one-hot).

Resolve o problema de interpretação de rótulos de números como um intervalo.

Se as categorias tiverem muitos valores, a dimensionalidade dos dados aumenta consideravelmente.



## Dataset


O conjunto de dados [Honeybees and Neonic Pesticides](https://www.kaggle.com/kevinzmith/honey-with-neonic-pesticide) é inspirado na produção de mel nos Estados Unidos. Ele cobre o período de $1998 - 2017$.

Inclui dados do USGS National Pesticide Synthesis Project, que permite avaliar as conexões estatísticas entre a produção de mel e o uso de pesticidas neonicotinóides (neônicos).

Os dados mostram alguns fatos interessantes:

* O uso de neônicos nos Estados Unidos começou por volta de $2003$, mas o declínio na produção de mel começou nos anos anteriores.
* Alguns estados, como Kansas, viram a devastação de colônias de abelhas a partir de $2003$, quando o uso de neônicos estava apenas começando.
* Outros estados, como Dakota do Norte, têm um número quase estável de colônias de abelhas, apesar do aumento do uso de neônicos

Os campos deste conjunto de dados são:

* numcol: número de colônias produtoras de mel. As colônias produtoras de mel são o número máximo de colônias das quais o mel foi extraído durante o ano. É possível retirar mel de colônias que não sobreviveram ao longo do ano.

* yieldpercol: produção de mel por colônia. A unidade é libras

* totalprod: produção total (numcol x yieldpercol). A unidade é libras

* estoques: Refere-se aos estoques dos produtores. A unidade é libras

* priceperlb: Refere-se ao preço médio por libra com base nas vendas estendidas. A unidade é dólares.

* prodvalue: Valor de produção (totalprod x priceperlb). A unidade é dólares.

De USGS Data:

* `nCLOTHIANIDIN`: A quantidade em kg de `CLOTHIANIDIN` aplicada

* `nIMIDACLOPRID`: A quantidade em kg de `IMIDACLOPRID` aplicada

* `nTHIAMETHOXAM`: A quantidade em kg de `THIAMETHOXAM` aplicada

* `nACETAMIPRID`: A quantidade em kg de `ACETAMIPRID` aplicado

* `nTHIACLOPRID`: A quantidade em kg de `THIACLOPRID` aplicada

* `nAllNeonic`: A quantidade em kg de todos os Neonics aplicados = (`nCLOTHIANIDIN` + `nIMIDACLOPRID` + `nTHIAMETHOXAM` + `nACETAMIPRID` + `nTHIACLOPRID`)

## Problema

Usaremos dados de produção de mel dos Estados Unidos para apresentar e exercitar métodos amplamente usados de pandas em tarefas de preparação de dados.

## Imports

In [1]:
import pandas as pd
import numpy as np

Lemos os dados, vemos quais são os tipos das colunas e mostramos os primeiros registros do DataFrame para verificar se carregamos os dados corretamente.

In [8]:
data_location = "../DataWrangling/data/vHoneyNeonic_v02.csv"
data = pd.read_csv(data_location, sep = ",")
display(data.head())
print(data.dtypes)


Unnamed: 0,state,numcol,yieldpercol,totalprod,stocks,priceperlb,prodvalue,year,StateName,Region,nCLOTHIANIDIN,nIMIDACLOPRID,nTHIAMETHOXAM,nACETAMIPRID,nTHIACLOPRID,nAllNeonic
0,AL,11000.0,56,616000.0,209000.0,1.49,918000.0,2007,Alabama,South,7696.2,3258.1,4149.6,0.0,0.0,15103.9
1,AL,11000.0,72,792000.0,230000.0,1.21,958000.0,2006,Alabama,South,680.0,4230.2,5371.6,0.0,0.0,10281.8
2,AL,12000.0,86,1032000.0,103000.0,1.18,1218000.0,2002,Alabama,South,0.0,1178.8,840.4,0.0,0.0,2019.2
3,AL,12000.0,87,1044000.0,282000.0,1.41,1472000.0,2004,Alabama,South,2676.4,1323.9,3863.9,0.0,0.0,7864.2
4,AL,13000.0,66,858000.0,266000.0,1.02,875000.0,2005,Alabama,South,1503.6,994.5,5493.9,0.0,0.0,7992.0


state             object
numcol           float64
yieldpercol        int64
totalprod        float64
stocks           float64
priceperlb       float64
prodvalue        float64
year               int64
StateName         object
Region            object
nCLOTHIANIDIN    float64
nIMIDACLOPRID    float64
nTHIAMETHOXAM    float64
nACETAMIPRID     float64
nTHIACLOPRID     float64
nAllNeonic       float64
dtype: object


Construímos um novo DataFrame que contém as informações associadas aos diferentes estados dos EUA.

In [17]:
data_state = data.loc[:, ["state", "StateName", "Region"]]
data_state.head()

Unnamed: 0,state,StateName,Region
0,AL,Alabama,South
1,AL,Alabama,South
2,AL,Alabama,South
3,AL,Alabama,South
4,AL,Alabama,South


In [14]:
type(data_state)

pandas.core.frame.DataFrame

## Eliminação de duplicatas

Para determinar se um DataFrame possui registros duplicados, devemos primeiro **definir em quais campos os valores dos registros devem corresponder para serem considerados iguais**.

O método pandas [`pandas.DataFrame.duplicated()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.duplicated.html) permite definir no argumento do`subset` uma lista de colunas para avaliar quando queremos determinar se dois registros são duplicados. Se não definirmos o valor deste argumento, apenas os registros cujos valores correspondem em todos os campos serão duplicados.

O método pandas [`pandas.DataFrame.drop_duplicates()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.drop_duplicates.html) retorna um novo DataFrame sem registros duplicados. Os argumentos` subconjunto` e `keep` têm o mesmo comportamento que em` duplicated`.

Vamos ver se temos registros duplicados de duas maneiras diferentes:
* Avaliando data
* Avaliando data_state

Vamos criar outro DataFrame sem registros duplicados.

In [18]:
# avaliando data_state
data_state_duplicates_mask = data_state.duplicated(keep = "first")
print("registros duplicados em data_state: ", any(data_state_duplicates_mask)) #
print("quantidade de registros duplicados em data_state: ", data_state_duplicates_mask.sum())

registros duplicados em data_state:  True
quantidade de registros duplicados em data_state:  781


In [19]:
# avaliando data
data_duplicates_statefields =  data.duplicated(subset = ["state", "StateName", "Region"], 
                                               keep = "first"
                                              )
print("registros duplicados em data (considerando os dados do estado): ", any(data_duplicates_statefields))
print("quantidade de registros duplicados em data (considerando os dados do estado): ", data_duplicates_statefields.sum())


registros duplicados em data (considerando os dados do estado):  True
quantidade de registros duplicados em data (considerando os dados do estado):  781


In [20]:
data_state_nodup = data_state.drop_duplicates(keep = "first")
print("shape con duplicados: ", data_state.shape)
print("shape sem duplicados: ", data_state_nodup.shape)

shape con duplicados:  (825, 3)
shape sem duplicados:  (44, 3)


In [21]:
data_state_nodup

Unnamed: 0,state,StateName,Region
0,AL,Alabama,South
20,AR,Arkansas,South
40,AZ,Arizona,West
60,CA,California,West
80,CO,Colorado,West
100,FL,Florida,South
120,GA,Georgia,South
140,HI,Hawaii,West
160,IA,Iowa,Midwest
180,ID,Idaho,West


Assim, poderíamos manter os dados de estado em um DataFrame separado e manter em cada registro um campo identificador do estado (que pode ser `state` neste exemplo) que nos permite mapear com os dados adicionais.

Observe que, embora contenham duplicatas em data e data_state, apenas descartamos data_state. Se o fizéssemos em dados, perderíamos todas as informações de produção por ano de cada estado.

## Substituição de valores

O método [`pandas.DataFrame.replace()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.replace.html) oferece várias maneiras de substituir dados em uma Series do Pandas:

* Um valor antigo para um novo valor.
    
* Uma lista de valores antigos para um novo valor.
    
* Uma lista de valores antigos por uma lista de novos valores.
    
* Um dicionário que mapeia valores novos e antigos.

### Um valor antigo para um novo valor

Vamos substituir as ocorrências de "South" por "south".

In [22]:
data_south = data.replace("South", "south")
data_south.head()

Unnamed: 0,state,numcol,yieldpercol,totalprod,stocks,priceperlb,prodvalue,year,StateName,Region,nCLOTHIANIDIN,nIMIDACLOPRID,nTHIAMETHOXAM,nACETAMIPRID,nTHIACLOPRID,nAllNeonic
0,AL,11000.0,56,616000.0,209000.0,1.49,918000.0,2007,Alabama,south,7696.2,3258.1,4149.6,0.0,0.0,15103.9
1,AL,11000.0,72,792000.0,230000.0,1.21,958000.0,2006,Alabama,south,680.0,4230.2,5371.6,0.0,0.0,10281.8
2,AL,12000.0,86,1032000.0,103000.0,1.18,1218000.0,2002,Alabama,south,0.0,1178.8,840.4,0.0,0.0,2019.2
3,AL,12000.0,87,1044000.0,282000.0,1.41,1472000.0,2004,Alabama,south,2676.4,1323.9,3863.9,0.0,0.0,7864.2
4,AL,13000.0,66,858000.0,266000.0,1.02,875000.0,2005,Alabama,south,1503.6,994.5,5493.9,0.0,0.0,7992.0


### Uma lista de valores antigos para um novo valor

Vamos substituir todos os valores do campo totalprod por np.NaN

Para isso, vamos criar uma lista de valores únicos com os valores da coluna data.totalprod.

In [23]:
to_be_replaced = data.totalprod.unique()


In [25]:
#IMPORTANTE: Tomar muito cuidado com o replace a nível de todo o Data Frame. 
# O mais correto é avaliar as features de forma individual e ver as melhores substituições
data_totalprod_null = data.replace(to_be_replaced, np.NaN)
data_totalprod_null

Unnamed: 0,state,numcol,yieldpercol,totalprod,stocks,priceperlb,prodvalue,year,StateName,Region,nCLOTHIANIDIN,nIMIDACLOPRID,nTHIAMETHOXAM,nACETAMIPRID,nTHIACLOPRID,nAllNeonic
0,AL,11000.0,56,,209000.0,1.49,918000.0,2007,Alabama,South,7696.2,3258.1,4149.6,0.0,0.0,15103.9
1,AL,11000.0,72,,,1.21,958000.0,2006,Alabama,South,680.0,4230.2,5371.6,0.0,0.0,10281.8
2,AL,12000.0,86,,103000.0,1.18,1218000.0,2002,Alabama,South,0.0,1178.8,840.4,0.0,0.0,2019.2
3,AL,12000.0,87,,,1.41,1472000.0,2004,Alabama,South,2676.4,1323.9,3863.9,0.0,0.0,7864.2
4,AL,13000.0,66,,,1.02,875000.0,2005,Alabama,South,1503.6,994.5,5493.9,0.0,0.0,7992.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
820,WY,40000.0,68,,,1.78,4842000.0,2016,Wyoming,West,0.0,27.5,9.4,0.0,0.0,36.9
821,WY,43000.0,80,,894000.0,1.00,,2007,Wyoming,West,122.2,198.3,76.3,0.0,0.0,396.8
822,WY,46000.0,60,,524000.0,0.68,1877000.0,1998,Wyoming,West,0.0,91.2,0.0,0.0,0.0,91.2
823,WY,47000.0,66,,,2.11,6545000.0,2013,Wyoming,West,840.9,155.9,526.2,0.0,0.0,1523.0


Observe que, nesta substituição, não estamos especificando a coluna que estamos substituindo, portanto, ela substitui os valores que estão no primeiro argumento em qualquer campo em que apareçam.

Vamos ver qual porcentagem de nulos havia no DatFrame original e quantos existem em data_totalprod_null.

In [26]:
data.isnull().sum() / data.shape[0]

state            0.000000
numcol           0.000000
yieldpercol      0.000000
totalprod        0.000000
stocks           0.000000
priceperlb       0.000000
prodvalue        0.000000
year             0.000000
StateName        0.000000
Region           0.000000
nCLOTHIANIDIN    0.077576
nIMIDACLOPRID    0.077576
nTHIAMETHOXAM    0.077576
nACETAMIPRID     0.077576
nTHIACLOPRID     0.077576
nAllNeonic       0.077576
dtype: float64

In [27]:
data_totalprod_null.isnull().sum() / data_totalprod_null.shape[0]

state            0.000000
numcol           0.073939
yieldpercol      0.000000
totalprod        1.000000
stocks           0.156364
priceperlb       0.000000
prodvalue        0.113939
year             0.000000
StateName        0.000000
Region           0.000000
nCLOTHIANIDIN    0.077576
nIMIDACLOPRID    0.077576
nTHIAMETHOXAM    0.077576
nACETAMIPRID     0.077576
nTHIACLOPRID     0.077576
nAllNeonic       0.077576
dtype: float64

Vemos que conseguimos substituiurtodos os valores de `totalprod` e alguns dos valores em`numcol`, `stocks` e `prodvalue`.

### Uma lista de valores antigos por uma lista de novos valores

Vamos substituir os valores da coluna state por outros que são o resultado da concatenação do campo de region com o campo de state, para cada valor de state.

In [28]:
valores_antigos = data.state.unique()
valores_novos = (data.Region + "_" + data.state).unique()
print(len(valores_antigos))
print(len(valores_novos))

44
44


In [29]:
type(valores_novos)

numpy.ndarray

In [30]:
data_state_modif = data.replace(valores_antigos, 
                                valores_novos
                               )
data_state_modif.sample(5)

Unnamed: 0,state,numcol,yieldpercol,totalprod,stocks,priceperlb,prodvalue,year,StateName,Region,nCLOTHIANIDIN,nIMIDACLOPRID,nTHIAMETHOXAM,nACETAMIPRID,nTHIACLOPRID,nAllNeonic
821,West_WY,43000.0,80,3440000.0,894000.0,1.0,3440000.0,2007,Wyoming,West,122.2,198.3,76.3,0.0,0.0,396.8
796,South_WV,6000.0,48,288000.0,95000.0,2.09,602000.0,2007,West Virginia,South,143.4,178.0,66.6,288.9,172.6,849.5
472,Midwest_NE,43000.0,65,2795000.0,1146000.0,1.93,5394000.0,2012,Nebraska,Midwest,115264.2,24340.8,47666.3,0.0,0.0,187271.3
280,South_LA,29000.0,89,2581000.0,413000.0,1.08,2787000.0,2007,Louisiana,South,730.1,3945.3,9864.2,759.7,0.0,15299.3
604,Northeast_PA,21000.0,40,840000.0,319000.0,2.03,1705000.0,2009,Pennsylvania,Northeast,10994.0,2636.1,2797.3,1156.0,1137.1,18720.5


In [32]:
data_state_modif.head()

Unnamed: 0,state,numcol,yieldpercol,totalprod,stocks,priceperlb,prodvalue,year,StateName,Region,nCLOTHIANIDIN,nIMIDACLOPRID,nTHIAMETHOXAM,nACETAMIPRID,nTHIACLOPRID,nAllNeonic
0,South_AL,11000.0,56,616000.0,209000.0,1.49,918000.0,2007,Alabama,South,7696.2,3258.1,4149.6,0.0,0.0,15103.9
1,South_AL,11000.0,72,792000.0,230000.0,1.21,958000.0,2006,Alabama,South,680.0,4230.2,5371.6,0.0,0.0,10281.8
2,South_AL,12000.0,86,1032000.0,103000.0,1.18,1218000.0,2002,Alabama,South,0.0,1178.8,840.4,0.0,0.0,2019.2
3,South_AL,12000.0,87,1044000.0,282000.0,1.41,1472000.0,2004,Alabama,South,2676.4,1323.9,3863.9,0.0,0.0,7864.2
4,South_AL,13000.0,66,858000.0,266000.0,1.02,875000.0,2005,Alabama,South,1503.6,994.5,5493.9,0.0,0.0,7992.0


In [31]:
data.head()

Unnamed: 0,state,numcol,yieldpercol,totalprod,stocks,priceperlb,prodvalue,year,StateName,Region,nCLOTHIANIDIN,nIMIDACLOPRID,nTHIAMETHOXAM,nACETAMIPRID,nTHIACLOPRID,nAllNeonic
0,AL,11000.0,56,616000.0,209000.0,1.49,918000.0,2007,Alabama,South,7696.2,3258.1,4149.6,0.0,0.0,15103.9
1,AL,11000.0,72,792000.0,230000.0,1.21,958000.0,2006,Alabama,South,680.0,4230.2,5371.6,0.0,0.0,10281.8
2,AL,12000.0,86,1032000.0,103000.0,1.18,1218000.0,2002,Alabama,South,0.0,1178.8,840.4,0.0,0.0,2019.2
3,AL,12000.0,87,1044000.0,282000.0,1.41,1472000.0,2004,Alabama,South,2676.4,1323.9,3863.9,0.0,0.0,7864.2
4,AL,13000.0,66,858000.0,266000.0,1.02,875000.0,2005,Alabama,South,1503.6,994.5,5493.9,0.0,0.0,7992.0


Observe que as listas de valores antigos e novos devem ter o mesmo tamanho.

### Um dicionário que mapeia valores novos e antigos

Vamos fazer a mesma substituição do ponto anterior, mas usando um dicionário.

Nesse caso, todas as ocorrências no DataFrame das chaves de dicionário serão substituídas pelos valores associados a essas chaves.

In [33]:
# O zip vai juntar dois valores e o dict vai criar um dicionário;
mapping = dict(zip(valores_antigos, valores_novos))
mapping

{'AL': 'South_AL',
 'AR': 'South_AR',
 'AZ': 'West_AZ',
 'CA': 'West_CA',
 'CO': 'West_CO',
 'FL': 'South_FL',
 'GA': 'South_GA',
 'HI': 'West_HI',
 'IA': 'Midwest_IA',
 'ID': 'West_ID',
 'IL': 'Midwest_IL',
 'IN': 'Midwest_IN',
 'KS': 'Midwest_KS',
 'KY': 'South_KY',
 'LA': 'South_LA',
 'MD': 'South_MD',
 'ME': 'Northeast_ME',
 'MI': 'Midwest_MI',
 'MN': 'Midwest_MN',
 'MO': 'Midwest_MO',
 'MS': 'South_MS',
 'MT': 'West_MT',
 'NC': 'South_NC',
 'ND': 'Midwest_ND',
 'NE': 'Midwest_NE',
 'NJ': 'Northeast_NJ',
 'NM': 'West_NM',
 'NV': 'West_NV',
 'NY': 'Northeast_NY',
 'OH': 'Midwest_OH',
 'OK': 'South_OK',
 'OR': 'West_OR',
 'PA': 'Northeast_PA',
 'SC': 'South_SC',
 'SD': 'Midwest_SD',
 'TN': 'South_TN',
 'TX': 'South_TX',
 'UT': 'West_UT',
 'VA': 'South_VA',
 'VT': 'Northeast_VT',
 'WA': 'West_WA',
 'WI': 'Midwest_WI',
 'WV': 'South_WV',
 'WY': 'West_WY'}

In [34]:
data_dict = data.replace(mapping)
data_dict.sample(7)

Unnamed: 0,state,numcol,yieldpercol,totalprod,stocks,priceperlb,prodvalue,year,StateName,Region,nCLOTHIANIDIN,nIMIDACLOPRID,nTHIAMETHOXAM,nACETAMIPRID,nTHIACLOPRID,nAllNeonic
387,South_MS,14000.0,104,1456000.0,87000.0,1.32,1922000.0,2009,Mississippi,South,3800.9,9380.4,13751.7,743.6,0.0,27676.6
359,Midwest_MN,130000.0,68,8840000.0,2564000.0,1.04,9194000.0,2007,Minnesota,Midwest,28186.4,5190.5,13464.7,0.0,0.0,46841.6
156,West_HI,8000.0,87,696000.0,84000.0,0.87,606000.0,2001,Hawaii,West,,,,,,
769,Midwest_WI,57000.0,63,3591000.0,1508000.0,1.89,6787000.0,2011,Wisconsin,Midwest,24781.5,6481.0,14983.6,73.6,0.0,46319.7
340,Midwest_MI,80000.0,85,6800000.0,3672000.0,0.66,4488000.0,1998,Michigan,Midwest,0.0,5238.3,0.0,0.0,0.0,5238.3
728,Northeast_VT,4000.0,60,240000.0,53000.0,2.39,574000.0,2012,Vermont,Northeast,510.0,72.9,80.6,42.2,93.8,799.5
0,South_AL,11000.0,56,616000.0,209000.0,1.49,918000.0,2007,Alabama,South,7696.2,3258.1,4149.6,0.0,0.0,15103.9


## Renomear índices 

O método [`pandas.DataFrame.rename()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.rename.html) nos permite alterar os rótulos dos eixos.

O primeiro argumento `mapper` é um dicionário que contém os rótulos a serem substituídos como chaves e os rótulos de substituição como valores.

O argumento `axis` indica se a substituição é sobre o índice ou sobre as colunas.

O argumento `index` é um dicionário. `mapper, axis = 0` é equivalente a` index = mapper`.

O argumento `colunas` é um dicionário. `mapper, axis = 1` é equivalente a` colunas = mapper`.

Vamos renomear duas colunas usando os argumentos mapper e axis:

In [35]:
mapper = {
    'nIMIDACLOPRID': 'nimidacloprid', 
    'nTHIAMETHOXAM': 'nthiamethoxam'    
}
data_renamed_cols = data.rename(mapper, axis = 1)
print(data.columns)
print(data_renamed_cols.columns)

Index(['state', 'numcol', 'yieldpercol', 'totalprod', 'stocks', 'priceperlb',
       'prodvalue', 'year', 'StateName', 'Region', 'nCLOTHIANIDIN',
       'nIMIDACLOPRID', 'nTHIAMETHOXAM', 'nACETAMIPRID', 'nTHIACLOPRID',
       'nAllNeonic'],
      dtype='object')
Index(['state', 'numcol', 'yieldpercol', 'totalprod', 'stocks', 'priceperlb',
       'prodvalue', 'year', 'StateName', 'Region', 'nCLOTHIANIDIN',
       'nimidacloprid', 'nthiamethoxam', 'nACETAMIPRID', 'nTHIACLOPRID',
       'nAllNeonic'],
      dtype='object')


Vamos repetir usando o argumento de colunas:

In [36]:
data_renamed_cols_2 = data.rename(columns = mapper)
print(data.columns)
print(data_renamed_cols_2.columns)

Index(['state', 'numcol', 'yieldpercol', 'totalprod', 'stocks', 'priceperlb',
       'prodvalue', 'year', 'StateName', 'Region', 'nCLOTHIANIDIN',
       'nIMIDACLOPRID', 'nTHIAMETHOXAM', 'nACETAMIPRID', 'nTHIACLOPRID',
       'nAllNeonic'],
      dtype='object')
Index(['state', 'numcol', 'yieldpercol', 'totalprod', 'stocks', 'priceperlb',
       'prodvalue', 'year', 'StateName', 'Region', 'nCLOTHIANIDIN',
       'nimidacloprid', 'nthiamethoxam', 'nACETAMIPRID', 'nTHIACLOPRID',
       'nAllNeonic'],
      dtype='object')


Observe que apenas as colunas (ou índices) que são especificados no dicionário de mapeamento são modificados. Não é necessário incluir aqueles que não queremos renomear.

## Discretização e binarização de variáveis

O processo de transformação de uma variável numérica em categórica é denominado discretização.

O método [`pandas.cut()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.cut.html) separa os valores em intervalos discretos, retornando o intervalo semifechado ao qual cada valor pertence. Ele permite transformar variáveis contínuas em variáveis categóricas.

O argumento `bins` pode ser um número inteiro que indica o número de intervalos de "largura" a serem construídos, ou pode ser uma lista na qual especificamos os limites de cada categoria.

O argumento `right` indica se o intervalo inclui o valor limite correto.

Queremos definir categorias na variável `numcol` que representa o número de colônias em produção.

Vamos ver algumas estatísticas sobre esta variável.

In [37]:
data.head()

Unnamed: 0,state,numcol,yieldpercol,totalprod,stocks,priceperlb,prodvalue,year,StateName,Region,nCLOTHIANIDIN,nIMIDACLOPRID,nTHIAMETHOXAM,nACETAMIPRID,nTHIACLOPRID,nAllNeonic
0,AL,11000.0,56,616000.0,209000.0,1.49,918000.0,2007,Alabama,South,7696.2,3258.1,4149.6,0.0,0.0,15103.9
1,AL,11000.0,72,792000.0,230000.0,1.21,958000.0,2006,Alabama,South,680.0,4230.2,5371.6,0.0,0.0,10281.8
2,AL,12000.0,86,1032000.0,103000.0,1.18,1218000.0,2002,Alabama,South,0.0,1178.8,840.4,0.0,0.0,2019.2
3,AL,12000.0,87,1044000.0,282000.0,1.41,1472000.0,2004,Alabama,South,2676.4,1323.9,3863.9,0.0,0.0,7864.2
4,AL,13000.0,66,858000.0,266000.0,1.02,875000.0,2005,Alabama,South,1503.6,994.5,5493.9,0.0,0.0,7992.0


In [38]:
data.numcol.describe()

count       825.00000
mean      61889.69697
std       92857.22783
min        2000.00000
25%        9000.00000
50%       26000.00000
75%       65000.00000
max      510000.00000
Name: numcol, dtype: float64

Vemos que o mínimo é 2.000 e o máximo é 510.000.

Vamos definir essas categorias:
* entre 2.000 e 10.000
* entre 10.000 e 300.000
* entre 300.000 e 65.000
* mais de 65.000

Para isso, construímos a lista de bins com esses valores

In [39]:
# Defino os valores de corte
bins = [2000, 10000, 30000, 65000, 600000]

numcol_categories = pd.cut(data.numcol, 
                           bins, 
                           right = False
                          )
numcol_categories.dtype

CategoricalDtype(categories=[[2000, 10000), [10000, 30000), [30000, 65000), [65000, 600000)], ordered=True)

E como esta variável é categórica, podemos usar o método `value_counts` para saber quantos registros existem em cada categoria.

O que acontece se usarmos `value_counts` sobre` data.numcol`?

In [40]:
numcol_categories.value_counts()

numcol
[10000, 30000)     228
[2000, 10000)      215
[65000, 600000)    211
[30000, 65000)     171
Name: count, dtype: int64

Criamos categorias com rótulos associados usando o argumento `labels`.

In [41]:
group_labels = ['muito poucas', 'poucas', 'normal', 'muitas' ]
numcol_categories_labels = pd.cut(data.numcol, 
                                  bins, 
                                  labels = group_labels
                                 )
numcol_categories_labels.value_counts()

numcol
muito poucas    240
poucas          210
muitas          203
normal          171
Name: count, dtype: int64

### Quantil

Uma alternativa para especificar arbitrariamente os limites dos intervalos é usar quantis.

Por definição, em cada um desses conjuntos haverá o mesmo número de elementos.

O pandas fornece o método [`pandas.qcut`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.qcut.html) para construí-los.

Usando `qcut` vamos construir quatro categorias para os valores de `data.numcol`

Definir o valor do argumento `retbins` como True retorna as categorias e os valores de limite dos bins construídos.

In [42]:
numcol_qcategories, numcol_qbins = pd.qcut(data.numcol, 4, labels = group_labels, retbins = True)
numcol_qcategories.value_counts()

numcol
muito poucas    215
normal          205
muitas          203
poucas          202
Name: count, dtype: int64

In [43]:
numcol_qbins

array([  2000.,   9000.,  26000.,  65000., 510000.])

## Mapeamento e transformação de dados

A partir de um dicionário, podemos criar uma nova coluna em um Dataframe onde:

1) as chaves de dicionário estão vinculadas com a Series de valores de uma coluna do DataFrame original

2) e para cada registro o valor do dicionário cuja chave é o valor da Series 1) naquele registro é atribuído na nova coluna.

**Exercício**:

Usando um dicionário, vamos alterar os valores das categorias definidas no exercício anterior para numcol, para todos os registros de dados.

Adicionamos as categorias numcol associadas a cada registro aos dados do DataFrame.

In [44]:
# renomeia a Series para que não haja duas colunas com o mesmo nome como resultado do concat:numcol_qcategories.name = "numcol_cat"
data_numcol_cat = pd.concat([data, numcol_qcategories], axis = 1, )
print(data_numcol_cat.columns)
print(data.shape)
print(data_numcol_cat.shape)

Index(['state', 'numcol', 'yieldpercol', 'totalprod', 'stocks', 'priceperlb',
       'prodvalue', 'year', 'StateName', 'Region', 'nCLOTHIANIDIN',
       'nIMIDACLOPRID', 'nTHIAMETHOXAM', 'nACETAMIPRID', 'nTHIACLOPRID',
       'nAllNeonic', 'numcol'],
      dtype='object')
(825, 16)
(825, 17)


Vamos construir um dicionário que defina esse mapeamento e usar esse dicionário para alterar os valores originais
    
* poucos -> insuficiente
* muito poucos -> insuficiente
* normal -> suficiente
* muitos -> suficiente

As chaves estão associadas à coluna `numcol_cat` e os novos valores de cada registro serão determinados pelo valor desse registro na coluna` numcol_cat` e o mapeamento definido pelo dicionário.

In [45]:
numcol_cat_mapper = {
   'poucas': 'insuficiente', 
    'muito poucas': 'insuficiente',
    'normal': 'suficiente',
    'muitas': 'suficiente'
}

In [46]:
data['numcol_cat'] = numcol_categories_labels

In [47]:
data['numcol_cat'].map(numcol_cat_mapper)

0      insuficiente
1      insuficiente
2      insuficiente
3      insuficiente
4      insuficiente
           ...     
820      suficiente
821      suficiente
822      suficiente
823      suficiente
824      suficiente
Name: numcol_cat, Length: 825, dtype: object

Observe que aplicamos map em uma coluna, não em todo o DataFrame como fazemos com o método `replace`.

In [48]:
data['numcol_cat'].map(numcol_cat_mapper).value_counts()

numcol_cat
insuficiente    450
suficiente      374
Name: count, dtype: int64

## Variáveis categóricas e dummies

O Pandas fornece o método `pd.get_dummies` que recebe uma Serie ou uma lista de Series e executa uma codificação dinâmica.

Lembre-se de que uma variável com k categorias pode ser representada com k-1 variáveis.

Portanto, um parâmetro-chave de pd.get_dummies é drop_first = True, que gera categorias k-1 em vez de k.

O argumento prefix permite-nos estabelecer um prefixo para o nome de cada uma das colunas da categoria que representam a variável. Este argumento é especialmente útil ao construir dummies de mais de uma coluna em um DataFrame, para evitar confusão sobre qual é a variável original que corresponde a cada coluna de categoria.

O Pandas fornece um método `pd.get_dummies` que recebe uma Serie ou uma lista de Series e executa uma codificação dinâmica.

In [50]:
numcol_qcategories

0      poucas
1      poucas
2      poucas
3      poucas
4      poucas
        ...  
820    normal
821    normal
822    normal
823    normal
824    normal
Name: numcol, Length: 825, dtype: category
Categories (4, object): ['muito poucas' < 'poucas' < 'normal' < 'muitas']

In [51]:
numcol_qcategories_dummies = pd.get_dummies(numcol_qcategories, 
                                            drop_first = True, 
                                            prefix = 'numcol'
                                           )
numcol_qcategories_dummies

Unnamed: 0,numcol_poucas,numcol_normal,numcol_muitas
0,True,False,False
1,True,False,False
2,True,False,False
3,True,False,False
4,True,False,False
...,...,...,...
820,False,True,False
821,False,True,False
822,False,True,False
823,False,True,False


Observe que ele removeu a primeira categoria "muito poucas".

## Alguns métodos da classe string

(Esses métodos já foram apresentados na aula de limpeza de dados, se você não se lembrar deles, pode revê-los abaixo.)

Aqui estão alguns métodos em [`string`](https://docs.python.org/3/library/string.html) que são amplamente usados em data wrangling, aplicados em funções lambda.

### `split`

O método [`str.split()`](https://docs.python.org/3/library/stdtypes.html#str.split) retorna uma lista de palavras em uma string separada pelo delimitador passado como um parâmetro.

In [52]:
strings = 'a, b,  guido, asjd, kle, askl'
separador = ','
string_em_partes = strings.split(separador)
string_em_partes 

['a', ' b', '  guido', ' asjd', ' kle', ' askl']

### `strip`

O método [`str.strip()`](https://docs.python.org/3/library/stdtypes.html#str.strip) retorna uma cópia de uma string, removendo os caracteres passados como parâmetros do início e do final da string. Se não especificarmos o valor do argumento, remove os espaços.

In [55]:
texto = "   Este é o primeiro exemplo....wow!!!   ";
texto_sem_espacos = texto.strip()
print(texto_sem_espacos)

texto1 = "0000000e este é o segundo exemplo....wow!!!0000000";
texto1_sem_zeros = texto1.strip('0')
print(texto1_sem_zeros)

texto2 = "    0000000Este é o segundo exemplo....wow!!!0000000";
texto2_sem_zeros = texto2.strip('0')
print(texto2_sem_zeros)

Este é o primeiro exemplo....wow!!!
e este é o segundo exemplo....wow!!!
    0000000Este é o segundo exemplo....wow!!!


Observe que em texto2 ele não removeu os espaços iniciais, apenas o conjunto de caracteres no argumento.

### `find`

O método [`str.find()`](https://docs.python.org/3/library/stdtypes.html#str.find) retorna o índice mínimo onde encontramos o valor passado como um parâmetro como uma substring. Se não o encontrar, retorna -1

In [56]:
strings

'a, b,  guido, asjd, kle, askl'

In [57]:
strings.find(':')

-1

In [58]:
strings.find('as')

14

In [59]:
strings.find('asj')

14

In [60]:
strings.find('asp')

-1

### `index`

O método [`str.index()`](https://docs.python.org/3/library/stdtypes.html#str.index) semelhante ao método find, mas retorna uma exceção do tipo `ValueError` quando não consegue encontrar o valor pesquisado.

In [61]:
strings.index(',')

1

In [62]:
strings.index(':')

ValueError: substring not found

### `count`

O método [`str.count()`](https://docs.python.org/3/library/stdtypes.html#str.count) retorna o número de ocorrências do valor passado como parâmetro.

In [63]:
strings.count(',')

5

In [64]:
strings.count('as')

2

### `replace`

O método [`str.replace()`](https://docs.python.org/3/library/stdtypes.html#str.replace) retorna uma cópia da string com todas as ocorrências do primeiro argumento substituídas pelo segundo argumento.

In [65]:
replace_exemplo1 = strings.replace(',', ';')
replace_exemplo1

'a; b;  guido; asjd; kle; askl'

In [66]:
replace_exemplo2 = strings.replace('as', 'qw')
replace_exemplo2

'a, b,  guido, qwjd, kle, qwkl'

---

#### Referências

Python for Data Analysis. Wes McKinney. Cap 12

- [string — Common string operations](https://docs.python.org/3/library/string.html)