# Aula 03 - Series & DataFrames
---

<img src="https://lc-public-assets.s3.sa-east-1.amazonaws.com/images/Logos/logoLcPng.webp" width="220px" style="position: absolute; top: 15px; right: 20px; border-radius: 5px;" />

## Series - Continuação...

In [1]:
import pandas as pd
serie2 = pd.Series(data = [2320, 5430, 8300, 4560, 3768], index = ['seg', 'ter', 'qua', 'qui', 'sex'])

In [19]:
(serie2 + serie2['seg':'qua']).sort_index()

qua    16600.0
qui        NaN
seg     4640.0
sex        NaN
ter    10860.0
dtype: float64

In [16]:
serie2.add(serie2['seg':'qua'], fill_value = 0)

qua    16600.0
qui     4560.0
seg     4640.0
sex     3768.0
ter    10860.0
dtype: float64

### Indexação e Slices

In [5]:
serie2

seg    2320
ter    5430
qua    8300
qui    4560
sex    3768
dtype: int64

In [6]:
serie2[0]

2320

In [7]:
serie2['seg']

2320

In [8]:
serie2[0:3]

seg    2320
ter    5430
qua    8300
dtype: int64

In [9]:
serie2['seg':'qua']

seg    2320
ter    5430
qua    8300
dtype: int64

In [12]:
serie2['qui':'ter': -1]

qui    4560
qua    8300
ter    5430
dtype: int64

### Máscaras

In [20]:
serie2

seg    2320
ter    5430
qua    8300
qui    4560
sex    3768
dtype: int64

In [21]:
serie2[serie2 > 5000]

ter    5430
qua    8300
dtype: int64

In [22]:
serie2[(serie2 > 3000) & (serie2 < 6000)]

ter    5430
qui    4560
sex    3768
dtype: int64

### Operações com Series

## DataFrames
---

- [Criação de DataFrames]()
- Acesso aos dados
    
- Criando novas colunas
- `reset_index` e `set_index`
- Carregando e Salvando Datasets
    - Conhecendo o [Kaggle](https://www.kaggle.com/)
    - CSV
    - XLSX
    - HTML  
    - ...

### Criação de DataFrames

<div style="display: block; margin: 2rem 0; background-color: #1E90FF33; border: 2px solid #1E90FF; border-radius: 7px; padding: 20px; width: 50%">
    <a style="text-align: center; display: block; width: 100%; font-size: 1.2rem" href="https://www.walissonsilva.com/posts/diferentes-formas-de-criar-um-dataframe">Diferentes formas de criar um DataFrame</a>
<div>

####  Array Bidimensional 

In [2]:
import numpy as np

In [4]:
dados = np.random.randint(1, 100, (4,4))
dados

array([[24, 46, 29,  7],
       [15, 41, 88, 59],
       [70, 91,  1, 38],
       [81, 40, 71, 72]])

In [5]:
pd.DataFrame(data = dados, columns=['Coluna 1', 'Coluna 2', 'Coluna3', 'Coluna 4'])

Unnamed: 0,Coluna 1,Coluna 2,Coluna3,Coluna 4
0,24,46,29,7
1,15,41,88,59
2,70,91,1,38
3,81,40,71,72


In [8]:
matriz = np.array([[72, 180, 26], [80, 170, 19], [60, 165, 15]])
matriz

array([[ 72, 180,  26],
       [ 80, 170,  19],
       [ 60, 165,  15]])

In [10]:
pd.DataFrame(data=matriz, columns=['Peso', 'Altura', 'Idade'], index=['João', 'Felipe', 'Patrícia'])

Unnamed: 0,Peso,Altura,Idade
João,72,180,26
Felipe,80,170,19
Patrícia,60,165,15


In [11]:
# Geralmente índices não são usados, por não afetar o funcionamento
pd.DataFrame(data=matriz, columns=['Peso', 'Altura', 'Idade'])

Unnamed: 0,Peso,Altura,Idade
0,72,180,26
1,80,170,19
2,60,165,15


In [12]:
dl = {
    'Peso': [72, 80, 60], 
    'Altura': [180, 170, 165], 
    'Idade': [26, 19, 15]
}

In [13]:
pd.DataFrame(dl)

Unnamed: 0,Peso,Altura,Idade
0,72,180,26
1,80,170,19
2,60,165,15


#### Lista de dicionários

In [14]:
ld = [
    {
        'Peso': 72,
        'Altura': 180,
        'Idade': 26
    },
    {
        'Peso': 80,
        'Altura': 170,
        'Idade': 19
    },
    {
        'Peso': 60,
        'Altura': 165,
        'Idade': 15
    }
]


In [15]:
pd.DataFrame(ld)

Unnamed: 0,Peso,Altura,Idade
0,72,180,26
1,80,170,19
2,60,165,15


### Acessando os elementos

- Acessando coluna(s)
- Acessando um elemento específico
- Acessando linha(s)
- `loc` e `iloc`

In [41]:
dl = {
    'Peso': [72, 80, 60], 
    'Altura': [180, 170, 165], 
    'Idade': [26, 19, 15]
}

df = pd.DataFrame(dl)
df

Unnamed: 0,Peso,Altura,Idade
0,72,180,26
1,80,170,19
2,60,165,15


In [42]:
df['Peso']

0    72
1    80
2    60
Name: Peso, dtype: int64

In [43]:
df['Altura']

0    180
1    170
2    165
Name: Altura, dtype: int64

In [44]:
#Acessar a linha
df.loc[0]

Peso       72
Altura    180
Idade      26
Name: 0, dtype: int64

In [45]:
df['Altura'][0]

180

In [46]:
df.loc[0]['Peso']

72

In [47]:
df

Unnamed: 0,Peso,Altura,Idade
0,72,180,26
1,80,170,19
2,60,165,15


In [48]:
#Acessar pelo índice [linha, coluna]
df.iloc[0, 1]

180

### Criando novas colunas

In [49]:
df

Unnamed: 0,Peso,Altura,Idade
0,72,180,26
1,80,170,19
2,60,165,15


#### IMC

$$
IMC = \frac{Peso}{Altura^2}
$$

In [50]:
df['Peso']/(df['Altura']/100)**2

0    22.222222
1    27.681661
2    22.038567
dtype: float64

In [51]:
df['IMC'] = df['Peso']/(df['Altura']/100)**2
df

Unnamed: 0,Peso,Altura,Idade,IMC
0,72,180,26,22.222222
1,80,170,19,27.681661
2,60,165,15,22.038567


### Removendo Linhas/Colunas

In [52]:
#Apenas retorna o df sem a linha 1, mas não salva o df
df.drop(1)

Unnamed: 0,Peso,Altura,Idade,IMC
0,72,180,26,22.222222
2,60,165,15,22.038567


In [53]:
df

Unnamed: 0,Peso,Altura,Idade,IMC
0,72,180,26,22.222222
1,80,170,19,27.681661
2,60,165,15,22.038567


In [54]:
#Exlui a linha 1 do df
df = df.drop(1)
df

Unnamed: 0,Peso,Altura,Idade,IMC
0,72,180,26,22.222222
2,60,165,15,22.038567


In [55]:
# axis 0 (default) é linha, axis 1 é coluna
# inplace: substitui o df atual, sem ter que atribuir
df = df.drop('Idade', axis = 1, inplace = True)

### `reset_index` e `set_index`

### Carregando e Salvando DataFrames

### Principais métodos e atributos

- `index`
- `columns`
- `values`
- `shape`
- `dtypes`
- `head()`
- `tail()`
- `describe()`
- `info()`
- `min()`, `max()`, `sum()`...
- `rename()`
- `duplicated()`
- `drop_duplicates()`

### Agrupamento e Ordenação de Dados

### Transformação de Dados

#### `map`

#### `apply`

1. Utilizando uma função pronta
2. Criando uma função própria
3. Utilizando uma função lambda

#### `get_dummies`