# Aprendendo sobre a biblioteca pandas

In [1]:
import pandas as pd
import numpy as np

## Conteúdo:
- Series
- Dataframes
- Gráficos

# Series:
- estrutura de dados mais básica do pandas;
https://pandas.pydata.org/docs/reference/api/pandas.Series.html

### Criação de Series

In [2]:
serie_dados = pd.Series([10, 20, 30, 40, 50])
print(serie_dados)

0    10
1    20
2    30
3    40
4    50
dtype: int64


In [3]:
type(serie_dados)

pandas.core.series.Series

In [4]:
#atribuindo valores aos índices
array_inteiros = [10, 20, 30, 40, 50]
indices = ['A', "B", "C", "D", "E"]
serie_dados = pd.Series(array_inteiros, index=indices)
print(serie_dados)

A    10
B    20
C    30
D    40
E    50
dtype: int64


In [5]:
np_array_inteiros = np.array([10, 20, 30, 40, 50])
print(np_array_inteiros)

[10 20 30 40 50]


In [6]:
type(np_array_inteiros)

numpy.ndarray

In [7]:
serie_dados = pd.Series(array_inteiros)
print(serie_dados)

0    10
1    20
2    30
3    40
4    50
dtype: int64


In [8]:
# o comando shape é mais útil para dfs
serie_dados.shape

(5,)

In [9]:
serie_dados.ndim
# numero de dimensões

1

In [10]:
serie_dados.size
# quantidade de elementos

5

In [11]:
serie_dados.index = ['Z', 'X', 'V', 'A', 'B']
serie_dados

Z    10
X    20
V    30
A    40
B    50
dtype: int64

In [12]:
valores = np.random.random(10)
indexes = np.arange(0,10)
print(valores)
print(indexes)

[0.28519196 0.71860818 0.19467904 0.9905222  0.69634274 0.66110183
 0.21371696 0.77696694 0.05448871 0.83596239]
[0 1 2 3 4 5 6 7 8 9]


In [13]:
type(valores), type(indexes)

(numpy.ndarray, numpy.ndarray)

In [14]:
serie_dados = pd.Series(valores, indexes)
print(serie_dados)

0    0.285192
1    0.718608
2    0.194679
3    0.990522
4    0.696343
5    0.661102
6    0.213717
7    0.776967
8    0.054489
9    0.835962
dtype: float64


In [15]:
serie_dados.index
# retornando somente os índices

Index([0, 1, 2, 3, 4, 5, 6, 7, 8, 9], dtype='int64')

In [16]:
dicionario = {"João": 10, "ALice": 5, "Gustavo": 6, "pedro": 9}
dicionario

{'João': 10, 'ALice': 5, 'Gustavo': 6, 'pedro': 9}

In [17]:
dict_serie_dados = pd.Series(dicionario)
print(dict_serie_dados)

João       10
ALice       5
Gustavo     6
pedro       9
dtype: int64


In [18]:
dict_serie_dados.dtype
# dtype retorna o tipo do valor

dtype('int64')

### Fatiamento (Slicing)

In [19]:
serie_dados[:]
# dentro dos colchetes podemos colocar os índices que queremos retornar
# , [:] indica que queremos retornar todos os dados

0    0.285192
1    0.718608
2    0.194679
3    0.990522
4    0.696343
5    0.661102
6    0.213717
7    0.776967
8    0.054489
9    0.835962
dtype: float64

In [20]:
serie_dados[0:3]
# retorna os 3 primeiros registros(linhas)
# retorna do ínidice inicial até o índice final-1 
# o valor inicial também pode não ser indicado -> serie_dados[:3]


0    0.285192
1    0.718608
2    0.194679
dtype: float64

In [21]:
serie_dados[-1:]
# retorna o último índice

9    0.835962
dtype: float64

In [22]:
serie_dados[:-1] # queremos todos os dados menos o ultimo
# retorna todos os registros, com exceção do ultimo

0    0.285192
1    0.718608
2    0.194679
3    0.990522
4    0.696343
5    0.661102
6    0.213717
7    0.776967
8    0.054489
dtype: float64

In [23]:
s2 = serie_dados[:3]
s2

0    0.285192
1    0.718608
2    0.194679
dtype: float64

### Cópia, conversão e concantenação

In [25]:
#forma correta de fazer uma copia
serie_dados2 = serie_dados.copy() 
serie_dados
serie_dados2

0    0.285192
1    0.718608
2    0.194679
3    0.990522
4    0.696343
5    0.661102
6    0.213717
7    0.776967
8    0.054489
9    0.835962
dtype: float64

In [27]:
serie_dados2.dtype

dtype('float64')

In [32]:
# conversao de valores
serie_dados2 = serie_dados2.astype(int)

In [33]:
serie_dados2.dtype

dtype('int64')

In [34]:
# concatenacao
dados_novos = {"gustavo":20, "Alana":30}
serie_dados3 = pd.Series(dados_novos)
serie_dados3

gustavo    20
Alana      30
dtype: int64

In [36]:
dict_serie_dados

João       10
ALice       5
Gustavo     6
pedro       9
dtype: int64

In [37]:
# concatenacao de dados
serie_dados4 = pd.concat([dict_serie_dados, serie_dados3])
serie_dados4

João       10
ALice       5
Gustavo     6
pedro       9
gustavo    20
Alana      30
dtype: int64

### Acesso com iloc
   - acessa elementos pelo índice

In [39]:
dataset = pd.read_csv("databases/census.csv")

In [41]:
dataset

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
32556,27,Private,257302,Assoc-acdm,12,Married-civ-spouse,Tech-support,Wife,White,Female,0,0,38,United-States,<=50K
32557,40,Private,154374,HS-grad,9,Married-civ-spouse,Machine-op-inspct,Husband,White,Male,0,0,40,United-States,>50K
32558,58,Private,151910,HS-grad,9,Widowed,Adm-clerical,Unmarried,White,Female,0,0,40,United-States,<=50K
32559,22,Private,201490,HS-grad,9,Never-married,Adm-clerical,Own-child,White,Male,0,0,20,United-States,<=50K


In [42]:
type(dataset)

pandas.core.frame.DataFrame