<img src="https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/main/media/logo/newebac_logo_black_half.png" alt="ebac-logo">

---

# **Módulo** | Análise de Dados: Data Wrangling I
Caderno de **Aula**<br>
Professor [André Perez](https://www.linkedin.com/in/andremarcosperez/)

---

# **Tópicos**

<ol type="1">
  <li>DataFrame Pandas;</li>
  <li>Selecão e Filtros;</li>
  <li>Inserção, Deleção e Atualização.</li>
</ol>

---

# **Aulas**

## 0\. Estruturas de dados

*   **Não estruturado**: texto, imagem, aúdio, etc.
*   **Semi estruturado**: html, json, etc.
*   <font color='red'>**Estruturado**</font>: tabelas, planilhas, etc.



## 1\. DataFrame Pandas

### **1.1. Pacote Pandas**

Pacote Python para manipulação de dados (talvez o mais utilizado). A documentação pode ser encontrada neste [link](https://pandas.pydata.org/docs/). A abstração base do pandas é o DataFrame, uma estrutura de dados Python de duas dimensões utilizado para representar tabelas.

**Exemplo**: Criar um DataFrame Pandas a partir de um dicionário Python.

In [None]:
transacoes = dict(
    id=[571, 572, 573],
    data=['19-01-2021', '19-01-2021', '23-01-2021'],
    valor=[371.30, 57.19, 101.21],
    categoria=['supermercado', 'farmacia', 'outros']
)

In [None]:
import pandas as pd

transacoes_df = pd.DataFrame(transacoes)

In [None]:
transacoes_df

In [None]:
type(transacoes_df)

*   Atributos

In [None]:
transacoes_df.columns

In [None]:
transacoes_df.dtypes

In [None]:
transacoes_df.index

In [None]:
transacoes_df.shape

*   Métodos

In [None]:
transacoes_df.head(n=1)

In [None]:
transacoes_df.tail()

In [None]:
transacoes_df.info()

In [None]:
transacoes_df[['id', 'valor']].describe().T # colunas numéricas

In [None]:
transacoes_df[['data', 'categoria']].describe().T # colunas categóricas

**Exemplo**: Criar um DataFrame Pandas a partir de um arquivo csv.

In [2]:
%%writefile github.csv
ranking;project;language;stars;stars_today;forks
1;plow;go;1304;574;38
2;n8n;typescript;15668;280;1370
3;slides;go;3218;265;80
4;defi-developer-road-map;;636;247;49
5;pytorch-image-models;python;11065;101;1646
6;javascript-algorithms;javascript;110768;248;18331
7;paddleclas;python;1429;283;323
8;reddit_sentiment_trader;python;369;71;60
9;augly;python;2849;393;99
10;self-taught-guide-to-cloud-computing;;863;179;84

Writing github.csv


In [4]:
import pandas as pd

github_df = pd.read_csv('github.csv', sep=';')

In [5]:
github_df

Unnamed: 0,ranking,project,language,stars,stars_today,forks
0,1,plow,go,1304,574,38
1,2,n8n,typescript,15668,280,1370
2,3,slides,go,3218,265,80
3,4,defi-developer-road-map,,636,247,49
4,5,pytorch-image-models,python,11065,101,1646
5,6,javascript-algorithms,javascript,110768,248,18331
6,7,paddleclas,python,1429,283,323
7,8,reddit_sentiment_trader,python,369,71,60
8,9,augly,python,2849,393,99
9,10,self-taught-guide-to-cloud-computing,,863,179,84


In [6]:
type(github_df)

pandas.core.frame.DataFrame

*   Atributos

In [5]:
github_df.columns # nome de coluna

Index(['ranking', 'project', 'language', 'stars', 'stars_today', 'forks'], dtype='object')

In [7]:
github_df.dtypes # tipos de dados na coluna

ranking         int64
project        object
language       object
stars           int64
stars_today     int64
forks           int64
dtype: object

In [7]:
github_df.index #infetificado de linha

RangeIndex(start=0, stop=10, step=1)

In [8]:
github_df.shape # formato DataFrame

(10, 6)

*   Métodos

In [11]:
github_df.head()

Unnamed: 0,ranking,project,language,stars,stars_today,forks
0,1,plow,go,1304,574,38
1,2,n8n,typescript,15668,280,1370
2,3,slides,go,3218,265,80
3,4,defi-developer-road-map,,636,247,49
4,5,pytorch-image-models,python,11065,101,1646


In [None]:
github_df.tail()

In [None]:
github_df.info()

In [None]:
github_df[['project', 'language']].describe().T # colunas categóricas

In [None]:
github_df[['ranking', 'stars', 'stars_today', 'forks']].describe().T # colunas numéricas

### **1.2. Anatomia de um DataFrame**

*   **Série**: `Coluna` de um DataFrame;
*   **Índice**: Indentificador de uma `linha` de um DataFrame.

In [25]:
github_df

Unnamed: 0,ranking,project,language,stars,stars_today,forks
0,1,plow,go,1304,574,38
1,2,n8n,typescript,15668,280,1370
2,3,slides,go,3218,265,80
3,4,defi-developer-road-map,,636,247,49
4,5,pytorch-image-models,python,11065,101,1646
5,6,javascript-algorithms,javascript,110768,248,18331
6,7,paddleclas,python,1429,283,323
7,8,reddit_sentiment_trader,python,369,71,60
8,9,augly,python,2849,393,99
9,10,self-taught-guide-to-cloud-computing,,863,179,84


## 2\. Seleção e Filtros

### **2.1. Série**

Uma **série** é uma **coluna** de um **dataframe**. Para selecionar uma coluna utilizamos a seguinte notação (similiar a indexação de listas Python):

```python
serie = dataframe['<nome-da-coluna>']
```

**Nota**: Repare no uso das chaves simples `[ ]`.

*   **Exemplo**: Coluna linguagem de programação do dataframe `github_df`:

In [26]:
linguagem_serie = github_df['language']

In [27]:
linguagem_serie

0            go
1    typescript
2            go
3           NaN
4        python
5    javascript
6        python
7        python
8        python
9           NaN
Name: language, dtype: object

In [23]:
type(linguagem_serie)

NameError: ignored

#### 2.1.1 Seleção

*   **Exemplo**: Indexação simples com método `loc` (similar a lista Python):

In [22]:
top_1_linguagem = linguagem_serie.loc[0]

NameError: ignored

In [19]:
top_1_linguagem

'go'

In [20]:
type(top_1_linguagem)

str

*   **Exemplo**: Fatiamento ou *slicing* com método `loc` (similar a lista Python):

In [21]:
top_5_linguagem = linguagem_serie.loc[0:5]

In [21]:
top_5_linguagem

NameError: ignored

In [23]:
type(top_5_linguagem)

pandas.core.series.Series

#### 2.1.2 Filtros

*   **Exemplo**: Filtro funcional:

In [20]:
linguagem_serie[lambda linguagem: linguagem == 'python']

NameError: ignored

*   **Exemplo**: Filtro funcional com novos índices:

In [19]:
linguagem_serie[lambda linguagem: linguagem == 'python'].reset_index(drop=True)

NameError: ignored

### **2.2. DataFrame**

Um **conjunto** de **colunas** ou **séries** é um novo **dataframe**. Para selecionar um conjunto de colunas utilizamos a seguinte notação:

```python
novo_dataframe = dataframe[['<nome-da-coluna-a>', '<nome-da-coluna-b>', ...]]
```

**Nota**: Repare no uso das chaves duplas `[[ ]]`.

*   **Exemplo**: Colunas ranking e linguagem de programação do dataframe `github_df`:

In [9]:
ranking_linguagem_df = github_df[['ranking', 'language']]

In [29]:
ranking_linguagem_df

Unnamed: 0,ranking,language
0,1,go
1,2,typescript
2,3,go
3,4,
4,5,python
5,6,javascript
6,7,python
7,8,python
8,9,python
9,10,


In [30]:
type(ranking_linguagem_df)

pandas.core.frame.DataFrame

#### 2.2.1 Seleção

*   **Exemplo**: Indexação simples (linha) com método `loc` (similar a lista Python):

In [31]:
top_1_linguagem = ranking_linguagem_df.loc[0]

In [32]:
top_1_linguagem

ranking      1
language    go
Name: 0, dtype: object

In [33]:
type(top_1_linguagem)

pandas.core.series.Series

*   **Exemplo**: Indexação simples (linha e coluna) com método `loc` (similar a lista Python):

In [10]:
top_1_linguagem = github_df.loc[0, ['ranking', 'language']]

In [35]:
top_1_linguagem

ranking      1
language    go
Name: 0, dtype: object

In [36]:
type(top_1_linguagem)

pandas.core.series.Series

*   **Exemplo**: Fatiamento ou *slicing* (linhas) com método `loc` (similar a lista Python):

In [37]:
top_5_ranking_linguagem = ranking_linguagem_df.loc[0:5]

In [38]:
top_5_ranking_linguagem

Unnamed: 0,ranking,language
0,1,go
1,2,typescript
2,3,go
3,4,
4,5,python
5,6,javascript


In [39]:
type(top_5_ranking_linguagem)

pandas.core.frame.DataFrame

*   **Exemplo**: Fatiamento ou *slicing* (linhas e colunas) com método `loc` (similar a lista Python):

In [11]:
top_5_ranking_linguagem = github_df.loc[0:5, ['ranking', 'language']]

In [None]:
top_5_ranking_linguagem

In [42]:
type(top_5_ranking_linguagem)

pandas.core.frame.DataFrame

#### 2.2.2 Filtros

*   **Exemplo**: Filtro com o método `query`:

In [43]:
ranking_linguagem_df.query('language == "python"')

Unnamed: 0,ranking,language
4,5,python
6,7,python
7,8,python
8,9,python


In [44]:
ranking_linguagem_df.query('language == "python" & ranking > 5')

Unnamed: 0,ranking,language
6,7,python
7,8,python
8,9,python


In [45]:
ranking_linguagem_df.query('language == "python" | language == "go"')

Unnamed: 0,ranking,language
0,1,go
2,3,go
4,5,python
6,7,python
7,8,python
8,9,python


## 3\. Inserção, Deleção e Atualização

### **3.1. Série**

#### 3.1.1 Inserção

*   **Exemplo**: Adição de elementos com o método `append`:

In [None]:
linguagem_serie.append(pd.Series(['java', 'python']), ignore_index=True)

In [29]:
linguagem_serie

0            go
1    typescript
2            go
3           NaN
4        python
5    javascript
6        python
7        python
8        python
9           NaN
Name: language, dtype: object

In [30]:
linguagem_serie = linguagem_serie.append(pd.Series('java'), ignore_index=True)

  linguagem_serie = linguagem_serie.append(pd.Series('java'), ignore_index=True)


In [31]:
linguagem_serie

0             go
1     typescript
2             go
3            NaN
4         python
5     javascript
6         python
7         python
8         python
9            NaN
10          java
dtype: object

#### 3.1.2 Deleção

*   **Exemplo**: Remoção de elementos com filtro funcional:

In [33]:
linguagem_serie = linguagem_serie[lambda linguagem: linguagem != 'python']

#### 3.1.3 Atualização

*   **Exemplo**: Atualização de elementos com indexação simples:

In [34]:
linguagem_serie.loc[0] = 'Go'

In [35]:
linguagem_serie

0             Go
1     typescript
2             go
3            NaN
5     javascript
9            NaN
10          java
dtype: object

*   **Exemplo**: Atualização de elementos com fatiamento ou *slicing*:

In [40]:
linguagem_serie.loc[0:2] = pd.Series(['Go', 'Typescript', 'Go'])

In [None]:
linguagem_serie

*   **Exemplo**: Atualização de elementos com filtro funcional:

In [44]:
linguagem_serie[lambda linguagem: linguagem == 'python'] = 'Python'

In [45]:
linguagem_serie

0             Go
1     Typescript
2             Go
3            NaN
5     javascript
9            NaN
10          java
dtype: object

### **3.2. DataFrame**

#### 3.1.1 Inserção

*   **Exemplo**: Adição de linhas com o método `append`:

In [47]:
projeto = dict(ranking=[11], project=['signoz'], language=['typescript'], stars=[2651], stars_today=[491], forks=[115])

In [48]:
github_df.append(pd.DataFrame(projeto), ignore_index=True)

  github_df.append(pd.DataFrame(projeto), ignore_index=True)


Unnamed: 0,ranking,project,language,stars,stars_today,forks
0,1,plow,go,1304,574,38
1,2,n8n,typescript,15668,280,1370
2,3,slides,go,3218,265,80
3,4,defi-developer-road-map,,636,247,49
4,5,pytorch-image-models,python,11065,101,1646
5,6,javascript-algorithms,javascript,110768,248,18331
6,7,paddleclas,python,1429,283,323
7,8,reddit_sentiment_trader,python,369,71,60
8,9,augly,python,2849,393,99
9,10,self-taught-guide-to-cloud-computing,,863,179,84


In [49]:
github_df

Unnamed: 0,ranking,project,language,stars,stars_today,forks
0,1,plow,go,1304,574,38
1,2,n8n,typescript,15668,280,1370
2,3,slides,go,3218,265,80
3,4,defi-developer-road-map,,636,247,49
4,5,pytorch-image-models,python,11065,101,1646
5,6,javascript-algorithms,javascript,110768,248,18331
6,7,paddleclas,python,1429,283,323
7,8,reddit_sentiment_trader,python,369,71,60
8,9,augly,python,2849,393,99
9,10,self-taught-guide-to-cloud-computing,,863,179,84


In [50]:
github_df = github_df.append(pd.DataFrame(projeto), ignore_index=True)

  github_df = github_df.append(pd.DataFrame(projeto), ignore_index=True)


In [51]:
github_df

Unnamed: 0,ranking,project,language,stars,stars_today,forks
0,1,plow,go,1304,574,38
1,2,n8n,typescript,15668,280,1370
2,3,slides,go,3218,265,80
3,4,defi-developer-road-map,,636,247,49
4,5,pytorch-image-models,python,11065,101,1646
5,6,javascript-algorithms,javascript,110768,248,18331
6,7,paddleclas,python,1429,283,323
7,8,reddit_sentiment_trader,python,369,71,60
8,9,augly,python,2849,393,99
9,10,self-taught-guide-to-cloud-computing,,863,179,84


#### 3.1.2 Deleção

*   **Exemplo**: Remoção de linhas com o método `query`:

In [53]:
github_df.query('language != "python"')

Unnamed: 0,ranking,project,language,stars,stars_today,forks
0,1,plow,go,1304,574,38
1,2,n8n,typescript,15668,280,1370
2,3,slides,go,3218,265,80
3,4,defi-developer-road-map,,636,247,49
5,6,javascript-algorithms,javascript,110768,248,18331
9,10,self-taught-guide-to-cloud-computing,,863,179,84
10,11,signoz,typescript,2651,491,115


#### 3.1.3 Atualização

*   **Exemplo**: Atualização de **um** elemento com o método `loc`:

In [54]:
github_df.loc[0, 'language'] = 'go'

In [55]:
github_df

Unnamed: 0,ranking,project,language,stars,stars_today,forks
0,1,plow,go,1304,574,38
1,2,n8n,typescript,15668,280,1370
2,3,slides,go,3218,265,80
3,4,defi-developer-road-map,,636,247,49
4,5,pytorch-image-models,python,11065,101,1646
5,6,javascript-algorithms,javascript,110768,248,18331
6,7,paddleclas,python,1429,283,323
7,8,reddit_sentiment_trader,python,369,71,60
8,9,augly,python,2849,393,99
9,10,self-taught-guide-to-cloud-computing,,863,179,84


*   **Exemplo**: Atualização de **diversos** elementos com o método `apply`:

In [78]:
github_df['language'] = github_df['language'].apply(lambda linguagem: 'petrucio' if linguagem == 'go' else linguagem)

In [79]:
github_df

Unnamed: 0,ranking,project,language,stars,stars_today,forks
0,1,plow,petrucio,1304,574,38
1,2,n8n,typescript,15668,280,1370
2,3,slides,petrucio,3218,265,80
3,4,defi-developer-road-map,,636,247,49
4,5,pytorch-image-models,petrucio,11065,101,1646
5,6,javascript-algorithms,javascript,110768,248,18331
6,7,paddleclas,petrucio,1429,283,323
7,8,reddit_sentiment_trader,petrucio,369,71,60
8,9,augly,petrucio,2849,393,99
9,10,self-taught-guide-to-cloud-computing,,863,179,84
