# **Data Wrangling II**

## **Revisão Data Wrangling**

* A manipulação de dados ou Data Wrangling é o processo de limpeza e unificação de conjuntos de dados complexos e desordenados para facilitar seu acesso, análise e modelagem.
* Grande parte do tempo de um(a) cientista de dados é investido na manipulação de dados.

## **Etapas do data wrangling**
1. Descobrimento
2. Estruturação
3. Limpeza
4. Enriquecimento
5. Validação
6. publicação

## **Data Transformation**
### **Map**

Permite aos usuários aplicar uma função a cada elemento de uma lista, funcionando de forma iterativa, muito semelhante a um loop.

In [1]:
import pandas as pd
import numpy as np

In [13]:
aux_dict = {"Barbarian":[80, 90, 70, 95, 65], 
             "Prey":     [60, 65, 56, 65, 60], 
             "Mandy" :   [80, 57, 80, 78, 68],
             "Upgrade" : [78, 83, 67, 75, 55],
             "Premiado": ["Yes","Yes","No","No","No"]}
  
df = pd.DataFrame(aux_dict)
df

Unnamed: 0,Barbarian,Prey,Mandy,Upgrade,Premiado
0,80,60,80,78,Yes
1,90,65,57,83,Yes
2,70,56,80,67,No
3,95,65,78,75,No
4,65,60,68,55,No


In [3]:
df["Premiado_dummy"] = df["Premiado"].map({"Yes": 1,
                                           "No":  0})
 
df

Unnamed: 0,Barbarian,Prey,Mandy,Upgrade,Premiado,Premiado_dummy
0,80,60,80,78,Yes,1
1,90,65,57,83,Yes,1
2,70,56,80,67,No,0
3,95,65,78,75,No,0
4,65,60,68,55,No,0


In [4]:
z = [2,5,6,4,2,2,3,5,4]
func2 = lambda x: x * 2

mapped_numbers = map(func2, z)
list(mapped_numbers)

[4, 10, 12, 8, 4, 4, 6, 10, 8]

In [5]:
type(mapped_numbers)

map

In [11]:
func2 = lambda x: x * 2

mapped_numbers = map(func2, df["Upgrade"])
df["Upgrade2"] = list(mapped_numbers)
df

Unnamed: 0,Barbarian,Prey,Mandy,Upgrade,Premiado,Premiado_dummy,Upgrade2
0,80,60,80,78,Yes,1,156
1,90,65,57,83,Yes,1,166
2,70,56,80,67,No,0,134
3,95,65,78,75,No,0,150
4,65,60,68,55,No,0,110


In [7]:
df.columns

Index(['Barbarian', 'Prey', 'Mandy', 'Upgrade', 'Premiado', 'Premiado_dummy',
       'Upgrade2'],
      dtype='object')

In [8]:
len(df.columns)

7

In [9]:
def len_names(x):
  return len(x)

x = map(len_names, df.columns)
list(x)

[9, 4, 5, 7, 8, 14, 8]

## **Apply**

Permite aos usuários enviar uma função e aplicá-la em cada valor da série Pandas. 
Se trata de uma grande melhoria para a biblioteca de pandas, já que essa função ajuda a segregar os dados de acordo com as condições necessárias, motivo pelo qual é utilizada de maneira eficiente na ciência de dados e no aprendizado automático.

In [15]:
aux_dict = {"Barbarian":[80, 90, 70, 95, 65], 
             "Prey":     [60, 65, 56, 65, 60], 
             "Mandy" :   [80, 57, 80, 78, 68],
             "Upgrade" : [78, 83, 67, 75, 55]}
  
df = pd.DataFrame(aux_dict)
df

Unnamed: 0,Barbarian,Prey,Mandy,Upgrade
0,80,60,80,78
1,90,65,57,83
2,70,56,80,67
3,95,65,78,75
4,65,60,68,55


In [16]:
df.apply(np.sqrt)

Unnamed: 0,Barbarian,Prey,Mandy,Upgrade
0,8.944272,7.745967,8.944272,8.831761
1,9.486833,8.062258,7.549834,9.110434
2,8.3666,7.483315,8.944272,8.185353
3,9.746794,8.062258,8.831761,8.660254
4,8.062258,7.745967,8.246211,7.416198


In [17]:
df.apply(np.sin)

Unnamed: 0,Barbarian,Prey,Mandy,Upgrade
0,-0.993889,-0.304811,-0.993889,0.513978
1,0.893997,0.826829,0.436165,0.968364
2,0.773891,-0.521551,-0.993889,-0.85552
3,0.683262,0.826829,0.513978,-0.387782
4,0.826829,-0.304811,-0.897928,-0.999755


In [18]:
cv = lambda x: np.std(x) / np.mean(x) * 100
df.apply(cv)

Barbarian    14.252193
Prey          5.603408
Mandy        12.369115
Upgrade      13.672892
dtype: float64

In [19]:
def cv2(x):
  cv = np.std(x) / np.mean(x) * 100
  return(cv)

df.apply(cv2)

Barbarian    14.252193
Prey          5.603408
Mandy        12.369115
Upgrade      13.672892
dtype: float64

In [20]:
df.apply(np.sum, axis = 1)

0    298
1    295
2    273
3    313
4    248
dtype: int64

In [21]:
def soma(x, z, k):
    return x + z + k

df = pd.DataFrame({'A': [1, 2, 3], 'B': [10, 20, 30]})

df1 = df.apply(soma, z = 1, k = 100)
print(df1)

     A    B
0  102  111
1  103  121
2  104  131


## **Dados Ausentes**

### **Dados ausentes. Por quê?**

* Como futuros Data Scientists, será comum se deparar com valores ausentes ou faltantes que poderiam vir das seguintes situações:
    * Falhas em alguma etapa do carregamento de dados.
    * Omissão direta do carregamento de dados.
    * Receio de um entrevistado em dar determinada resposta.

_Os valores ausentes são mais comuns do que pensa!_

### **Revisão com dados ausentes**

* Esses valores podem não ser adequados para alguns algoritmos de Data Science. Por isso, devem ser manipulados corretamente.
* O pandas nos disponibiliza ferramentas para trabalhar com eles.

_Antes de tudo, vamos definir nosso conjunto de teste:_

* Podemos marcá-los: ```Numeros_nan.isnull()```
* Podemos substituí-los: ```Numeros_nan.fillna(0)```
* Podemos eliminá-los: ```Numeros_nan.dropna()```

O **dropna** tem alguns parâmetros que valem uma conferida.

In [1]:
import pandas as pd
import numpy as np

In [2]:
p_data_df = pd.read_csv('https://raw.githubusercontent.com/jherfson/curso-coderhouse/main/aula13/p_data.csv', sep=';')
p_data_df.head()

Unnamed: 0,Age,Sex,ID,Race,Country,Education,Education-Num,Marital Status,Relationship
0,39.0,Male,49084,White,United-States,Bachelors,13.0,Never-married,Not-in-family
1,50.0,Male,68553,White,United-States,Bachelors,13.0,Married-civ-spouse,Husband
2,38.0,Male,143654,White,United-States,HS-grad,9.0,Divorced,Not-in-family
3,53.0,Male,41510,Black,United-States,11th,7.0,Married-civ-spouse,Husband
4,28.0,Female,195025,Black,Cuba,Bachelors,13.0,Married-civ-spouse,Wife


In [3]:
p_data_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 48842 entries, 0 to 48841
Data columns (total 9 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   Age             48841 non-null  float64
 1   Sex             48841 non-null  object 
 2   ID              48842 non-null  int64  
 3   Race            48841 non-null  object 
 4   Country         48841 non-null  object 
 5   Education       48841 non-null  object 
 6   Education-Num   48841 non-null  float64
 7   Marital Status  48841 non-null  object 
 8   Relationship    48841 non-null  object 
dtypes: float64(2), int64(1), object(6)
memory usage: 3.4+ MB


In [4]:
p_data_df = p_data_df.dropna()
p_data_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 48841 entries, 0 to 48841
Data columns (total 9 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   Age             48841 non-null  float64
 1   Sex             48841 non-null  object 
 2   ID              48841 non-null  int64  
 3   Race            48841 non-null  object 
 4   Country         48841 non-null  object 
 5   Education       48841 non-null  object 
 6   Education-Num   48841 non-null  float64
 7   Marital Status  48841 non-null  object 
 8   Relationship    48841 non-null  object 
dtypes: float64(2), int64(1), object(6)
memory usage: 3.7+ MB


In [5]:
p_data_df['Sex'].unique()

array([' Male', ' Female'], dtype=object)

In [7]:
p_data_df['Sex'] = p_data_df['Sex'].str.strip()
p_data_df['Sex'].unique()

array(['Male', 'Female'], dtype=object)