# Criando uma Series

In [1]:
import pandas as pd

In [2]:
s = pd.Series(['banana', 42])
s

0    banana
1        42
dtype: object

## Atribuindo Nomes no Index

In [3]:
s = pd.Series(['Paschoal', 'Economista'],
              index=['Nome:', 'Formação:'])
s

Nome:          Paschoal
Formação:    Economista
dtype: object

In [4]:
## dicionários são o modo mais comum de se criar DataFrames

c = pd.DataFrame({
    'Nome': ['Paschoal', 'Renato'],
    'Ocupação': ['Economista', 'Arquiteto'],
    'Nascimento': ['1983-08-09', '1984-10-10'],
    'Falecimento':['2022-01-20', '2022-02-20'],
    'Idade': [38, 37]
})

In [5]:
c

Unnamed: 0,Nome,Ocupação,Nascimento,Falecimento,Idade
0,Paschoal,Economista,1983-08-09,2022-01-20,38
1,Renato,Arquiteto,1984-10-10,2022-02-20,37


In [6]:
c.dtypes

Nome           object
Ocupação       object
Nascimento     object
Falecimento    object
Idade           int64
dtype: object

In [7]:
# ordenando nosso dicionário - a artir da inserção dos dados - ele mantém a ordenação.

from collections import OrderedDict

In [8]:
c = pd.DataFrame(OrderedDict({
    'Nome': ['Paschoal', 'Renato'],
    'Ocupação': ['Economista', 'Arquiteto'],
    'Nascimento': ['1983-08-09', '1984-10-10'],
    'Falecimento':['2022-01-20', '2022-02-20'],
    'Idade': [38, 37]
})
)

In [9]:
c

Unnamed: 0,Nome,Ocupação,Nascimento,Falecimento,Idade
0,Paschoal,Economista,1983-08-09,2022-01-20,38
1,Renato,Arquiteto,1984-10-10,2022-02-20,37


In [10]:
# fatiando nossos dados - inserindo umn index com o nome

c = pd.DataFrame({
    'Ocupação': ['Economista', 'Arquiteto'],
    'Nascimento': ['1983-08-09', '1984-10-10'],
    'Falecimento':['2022-01-20', '2022-02-20'],
    'Idade': [38, 37]
},
    index = ['Paschoal', 'Renato'],
    columns=['Ocupação', 'Nascimento', 'Falecimento', 'Idade'])

In [11]:
c

Unnamed: 0,Ocupação,Nascimento,Falecimento,Idade
Paschoal,Economista,1983-08-09,2022-01-20,38
Renato,Arquiteto,1984-10-10,2022-02-20,37


In [12]:
c.loc['Paschoal']

Ocupação       Economista
Nascimento     1983-08-09
Falecimento    2022-01-20
Idade                  38
Name: Paschoal, dtype: object

In [13]:
c.index[0]

'Paschoal'

In [14]:
c.index[1]

'Renato'

In [15]:
idade = c['Idade']
idade

Paschoal    38
Renato      37
Name: Idade, dtype: int64

In [16]:
# alguns cálculos estatísticos que podem ser feitos após o fatiamento

idade.mean()

37.5

In [17]:
idade.min()

37

In [18]:
idade.max()

38

In [19]:
idade.std()

0.7071067811865476

## Subconjuntos com Booleanos - Series

In [20]:
# olhando um dataset maior

df = pd.read_csv('scientists.csv')

df

Unnamed: 0,Name,Born,Died,Age,Occupation
0,Rosaline Franklin,1920-07-25,1958-04-16,37,Chemist
1,William Gosset,1876-06-13,1937-10-16,61,Statistician
2,Florence Nightingale,1820-05-12,1910-08-13,90,Nurse
3,Marie Curie,1867-11-07,1934-07-04,66,Chemist
4,Rachel Carson,1907-05-27,1964-04-14,56,Biologist
5,John Snow,1813-03-15,1858-06-16,45,Physician
6,Alan Turing,1912-06-23,1954-06-07,41,Computer Scientist
7,Johann Gauss,1777-04-30,1855-02-23,77,Mathematician


In [21]:
# selecionando apenas as idades

df['Age']

0    37
1    61
2    90
3    66
4    56
5    45
6    41
7    77
Name: Age, dtype: int64

In [22]:
# estatísticas básicas do dataset

df.describe()

Unnamed: 0,Age
count,8.0
mean,59.125
std,18.325918
min,37.0
25%,44.0
50%,58.5
75%,68.75
max,90.0


In [23]:
ages = df['Age']

ages

0    37
1    61
2    90
3    66
4    56
5    45
6    41
7    77
Name: Age, dtype: int64

In [24]:
ages > ages.mean()

0    False
1     True
2     True
3     True
4    False
5    False
6    False
7     True
Name: Age, dtype: bool

In [25]:
# vetores + vetores

ages + ages

0     74
1    122
2    180
3    132
4    112
5     90
6     82
7    154
Name: Age, dtype: int64

In [26]:
# vetores cm tamanhos diferentes tem retorno de informação como NaN

ages + pd.Series([1,100])

0     38.0
1    161.0
2      NaN
3      NaN
4      NaN
5      NaN
6      NaN
7      NaN
dtype: float64

## Obtendo Subconjunto com Booleanos em um Dataframe

In [27]:
df[df['Age'] > df['Age'].mean()]

Unnamed: 0,Name,Born,Died,Age,Occupation
1,William Gosset,1876-06-13,1937-10-16,61,Statistician
2,Florence Nightingale,1820-05-12,1910-08-13,90,Nurse
3,Marie Curie,1867-11-07,1934-07-04,66,Chemist
7,Johann Gauss,1777-04-30,1855-02-23,77,Mathematician


In [28]:
df['Born'].dtype

dtype('O')

In [29]:
## formatando uma coluna de strings para datatime

born = pd.to_datetime(df['Born'], format='%Y-%m-%d')

born

0   1920-07-25
1   1876-06-13
2   1820-05-12
3   1867-11-07
4   1907-05-27
5   1813-03-15
6   1912-06-23
7   1777-04-30
Name: Born, dtype: datetime64[ns]

In [30]:
died = pd.to_datetime(df['Died'], format='%Y-%m-%d')

## Criando Duas Novas Colunas no Formato Datetime 

In [31]:
df['nascimento'], df['morte'] = (born, died)

In [32]:
df

Unnamed: 0,Name,Born,Died,Age,Occupation,nascimento,morte
0,Rosaline Franklin,1920-07-25,1958-04-16,37,Chemist,1920-07-25,1958-04-16
1,William Gosset,1876-06-13,1937-10-16,61,Statistician,1876-06-13,1937-10-16
2,Florence Nightingale,1820-05-12,1910-08-13,90,Nurse,1820-05-12,1910-08-13
3,Marie Curie,1867-11-07,1934-07-04,66,Chemist,1867-11-07,1934-07-04
4,Rachel Carson,1907-05-27,1964-04-14,56,Biologist,1907-05-27,1964-04-14
5,John Snow,1813-03-15,1858-06-16,45,Physician,1813-03-15,1858-06-16
6,Alan Turing,1912-06-23,1954-06-07,41,Computer Scientist,1912-06-23,1954-06-07
7,Johann Gauss,1777-04-30,1855-02-23,77,Mathematician,1777-04-30,1855-02-23


In [33]:
df.dtypes

Name                  object
Born                  object
Died                  object
Age                    int64
Occupation            object
nascimento    datetime64[ns]
morte         datetime64[ns]
dtype: object

In [34]:
## alterando diretamente uma coluna

import random

In [35]:
random.seed(42)
random.shuffle(df['Age'])

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  x[i], x[j] = x[j], x[i]


In [36]:
df['Age']

0    66
1    56
2    41
3    77
4    90
5    45
6    37
7    61
Name: Age, dtype: int64

In [37]:
df.columns


Index(['Name', 'Born', 'Died', 'Age', 'Occupation', 'nascimento', 'morte'], dtype='object')

In [38]:
# descartando duas colunas inseridas - utilizando o drop

df.drop(['nascimento'], axis=1, inplace=True)

In [39]:
df.drop(['morte'], axis=1, inplace=True)

In [40]:
df

Unnamed: 0,Name,Born,Died,Age,Occupation
0,Rosaline Franklin,1920-07-25,1958-04-16,66,Chemist
1,William Gosset,1876-06-13,1937-10-16,56,Statistician
2,Florence Nightingale,1820-05-12,1910-08-13,41,Nurse
3,Marie Curie,1867-11-07,1934-07-04,77,Chemist
4,Rachel Carson,1907-05-27,1964-04-14,90,Biologist
5,John Snow,1813-03-15,1858-06-16,45,Physician
6,Alan Turing,1912-06-23,1954-06-07,37,Computer Scientist
7,Johann Gauss,1777-04-30,1855-02-23,61,Mathematician
