# **Workshop - Introdução a Ciência de Dados**


O Pandas possui três estruturas fundamentais de dados: 
- Series
- DataFrame
- Index

Vamos começar importando o pacote:

In [1]:
import pandas as pd

#### **Objeto Series do Pandas**

In [2]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])

In [3]:
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

In [4]:
data.values

array([0.25, 0.5 , 0.75, 1.  ])

In [5]:
data.index

RangeIndex(start=0, stop=4, step=1)

In [6]:
data[1]

0.5

#### **Series + Index**

In [13]:
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=['1', '2', '3', '4'])

In [14]:
data.values

array([0.25, 0.5 , 0.75, 1.  ])

In [15]:
data.index

Index(['1', '2', '3', '4'], dtype='object')

### **Transformando dicionário em Series**

In [16]:
population_dict = {
  'São Paulo': 12330000,
  'Rio de Janeiro': 6748000,
  'Belo Horizonte': 2722000,
  'Florianópolis': 508826,
  'Curitiba': 1948626
}

population = pd.Series(population_dict)

In [17]:
population['São Paulo'] # o resultado é o mesmo quando utilizado o dict: population_dict['São Paulo']

12330000

As vantagens de se trabalhar com Series é enorme, como por exemplo: é possível fazer um *slice* da série de forma simples: 

In [18]:
population['Rio de Janeiro':'Florianópolis']

Rio de Janeiro    6748000
Belo Horizonte    2722000
Florianópolis      508826
dtype: int64

In [20]:
# Não é possível fazer o mesmo utilizando um dict, retornando um erro: 
# population_dict['Rio de Janeiro':'Florianópolis']

### **Objeto Data Frame do Pandas**

In [21]:
area_dict = {
  'São Paulo': 1521,
  'Rio de Janeiro': 1255,
  'Belo Horizonte': 760,
  'Florianópolis': 675,
  'Curitiba': 935
}
area = pd.Series(area_dict)
area

São Paulo         1521
Rio de Janeiro    1255
Belo Horizonte     760
Florianópolis      675
Curitiba           935
dtype: int64

In [22]:
states = pd.DataFrame({'population': population, 'area': area})
states

Unnamed: 0,population,area
São Paulo,12330000,1521
Rio de Janeiro,6748000,1255
Belo Horizonte,2722000,760
Florianópolis,508826,675
Curitiba,1948626,935


In [23]:
states.index

Index(['São Paulo', 'Rio de Janeiro', 'Belo Horizonte', 'Florianópolis',
       'Curitiba'],
      dtype='object')

In [24]:
states.columns

Index(['population', 'area'], dtype='object')

Retirar uma série a partir do dataframe: 

In [25]:
area = states['area'] # ou states.area

In [26]:
area

São Paulo         1521
Rio de Janeiro    1255
Belo Horizonte     760
Florianópolis      675
Curitiba           935
Name: area, dtype: int64