In [1]:
import pandas as pd

In [2]:
dados = pd.read_csv("nomes_nasc.csv", delimiter=";", encoding="utf-8")

In [3]:
# Vamos:
# 1ª - Deletar a coluna ID
# 2ª - Deixar todos os textos em minúsculo
# 3ª - Coluna "Data Nascimento", mudar de object para timestamp
# 4ª - Salario está no formato string, mudar para float
# 5ª - Pais (Port para Potugal), (Brazil para Brazil), (Eua/USA para Estados Unidos)
# 6ª - Selecionar clientes com salário maior que 1045.18 e menor que 6323.19
dados

Unnamed: 0,id,Nome,Data Nascimento,Salario,Pais
0,1,Jose maria,1997/06/23,1945.42,Port
1,2,Maria Lucia,1983/03/09,950.33,Brazil
2,3,Francisco Augusto,2010/04/03,6323.19,Brasil
3,4,Mendes Lima,2008/07/16,4345.89,Brasil
4,5,victor Pereira,1998/08/14,1045.18,Eua
5,6,Eloisa Carvalho,1990/09/23,10034.2,Estados Unidos
6,7,Aparecida Josefina,1979/03/07,2339.23,USA
7,8,Aline Alves,1987/03/23,24455.99,Portugal
8,9,irton augustino,1995/09/23,1750.0,Port
9,10,Creusa Soares,1970/12/24,1045.0,Brasil


In [4]:
# Verificar tipos das colunas
dados.dtypes

id                  int64
Nome               object
Data Nascimento    object
Salario            object
Pais               object
dtype: object

In [5]:
dados.describe

<bound method NDFrame.describe of    id                Nome Data Nascimento     Salario            Pais
0   1          Jose maria      1997/06/23    1,945.42            Port
1   2         Maria Lucia      1983/03/09      950.33          Brazil
2   3   Francisco Augusto      2010/04/03    6,323.19          Brasil
3   4         Mendes Lima      2008/07/16    4,345.89          Brasil
4   5      victor Pereira      1998/08/14    1,045.18             Eua
5   6     Eloisa Carvalho      1990/09/23   10,034.20  Estados Unidos
6   7  Aparecida Josefina      1979/03/07    2,339.23             USA
7   8         Aline Alves      1987/03/23  2,4,455.99        Portugal
8   9     irton augustino      1995/09/23     1750.00            Port
9  10       Creusa Soares      1970/12/24     1045.00          Brasil>

In [6]:
# 1ª - Deletar a coluna ID
dados.drop('id', axis=1, inplace=True)

In [7]:
# 2ª - Deixar todos os textos em minúsculo
dados.columns = dados.columns.str.lower()
dados.nome    = dados.nome.str.lower()
dados.pais    = dados.pais.str.lower()

In [8]:
# 3ª - Coluna "Data Nascimento", mudar de object para timestamp
dados['data nascimento'] = pd.to_datetime(dados['data nascimento'])

In [9]:
# 4ª - Salario está no formato string, mudar para float
dados.salario = dados.salario.str.replace(',','').astype(float)

In [10]:
# 5ª - Pais (Port para Potugal), (Brazil para Brazil), (Eua/USA para Estados Unidos)
dados.pais.unique()

array(['port', 'brazil', 'brasil', 'eua', 'estados unidos', 'usa',
       'portugal'], dtype=object)

In [11]:
dicionarioPaises = {
    'port': 'portugal', 
    'brazil': 'brasil', 
    'brasil': 'brasil', 
    'eua': 'estados unidos', 
    'estados unidos': 'estados unidos', 
    'usa': 'estados unidos',
    'portugal': 'portugal'
}

dados.pais = dados.pais.apply(lambda nome: dicionarioPaises[nome])

In [12]:
# 6ª - Selecionar clientes com salário maior que 1045.18 e menor que 6323.19
# Forma 1
dados[(dados.salario > 1045.18) & (dados.salario < 6323.19)]

Unnamed: 0,nome,data nascimento,salario,pais
0,jose maria,1997-06-23,1945.42,portugal
3,mendes lima,2008-07-16,4345.89,brasil
6,aparecida josefina,1979-03-07,2339.23,estados unidos
8,irton augustino,1995-09-23,1750.0,portugal


In [13]:
# Forma 2.1 - Mais eficiente
dados.query('salario > 1045.18 and salario < 6323.19')

Unnamed: 0,nome,data nascimento,salario,pais
0,jose maria,1997-06-23,1945.42,portugal
3,mendes lima,2008-07-16,4345.89,brasil
6,aparecida josefina,1979-03-07,2339.23,estados unidos
8,irton augustino,1995-09-23,1750.0,portugal


In [14]:
# Forma 2.2 - Mais eficiente
dados.query('1045.18 < salario < 6323.19')

Unnamed: 0,nome,data nascimento,salario,pais
0,jose maria,1997-06-23,1945.42,portugal
3,mendes lima,2008-07-16,4345.89,brasil
6,aparecida josefina,1979-03-07,2339.23,estados unidos
8,irton augustino,1995-09-23,1750.0,portugal


In [15]:
# resetando a coluna index
dados.reset_index(inplace=True)
dados

Unnamed: 0,index,nome,data nascimento,salario,pais
0,0,jose maria,1997-06-23,1945.42,portugal
1,1,maria lucia,1983-03-09,950.33,brasil
2,2,francisco augusto,2010-04-03,6323.19,brasil
3,3,mendes lima,2008-07-16,4345.89,brasil
4,4,victor pereira,1998-08-14,1045.18,estados unidos
5,5,eloisa carvalho,1990-09-23,10034.2,estados unidos
6,6,aparecida josefina,1979-03-07,2339.23,estados unidos
7,7,aline alves,1987-03-23,24455.99,portugal
8,8,irton augustino,1995-09-23,1750.0,portugal
9,9,creusa soares,1970-12-24,1045.0,brasil


In [16]:
# colocando a coluna nome como indice do data frame
dados.set_index('nome', inplace=True)
dados

Unnamed: 0_level_0,index,data nascimento,salario,pais
nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
jose maria,0,1997-06-23,1945.42,portugal
maria lucia,1,1983-03-09,950.33,brasil
francisco augusto,2,2010-04-03,6323.19,brasil
mendes lima,3,2008-07-16,4345.89,brasil
victor pereira,4,1998-08-14,1045.18,estados unidos
eloisa carvalho,5,1990-09-23,10034.2,estados unidos
aparecida josefina,6,1979-03-07,2339.23,estados unidos
aline alves,7,1987-03-23,24455.99,portugal
irton augustino,8,1995-09-23,1750.0,portugal
creusa soares,9,1970-12-24,1045.0,brasil


### DataFrame - Índices Multiníveis

In [19]:
# Exemplo da Udemy - Python para Data Science e Machine Learning - COMPLETO
outside = ['G1', 'G1', 'G1', 'G2', 'G2', 'G2']
inside = [1, 2, 3, 1, 2, 3]

indice_multinivel = list(zip(outside, inside))
indice_multinivel = pd.MultiIndex.from_tuples(indice_multinivel)

In [21]:
# Objeto MultiIndex gerado que pode ser usado na geração do DataFrame
indice_multinivel

MultiIndex([('G1', 1),
            ('G1', 2),
            ('G1', 3),
            ('G2', 1),
            ('G2', 2),
            ('G2', 3)],
           )

In [25]:
# Criando o DataFrame com índice multinível
import numpy as np

df = pd.DataFrame(np.random.randn(6, 2), index=indice_multinivel, columns=['A', 'B'])
df

Unnamed: 0,Unnamed: 1,A,B
G1,1,-0.043939,0.19333
G1,2,0.694199,1.347303
G1,3,-0.796087,-0.765238
G2,1,0.323328,0.32685
G2,2,0.882176,0.436608
G2,3,-0.342101,0.773267


In [30]:
# Forma 1 de acesso dos elementos
df.loc['G1']

Unnamed: 0,A,B
1,-0.043939,0.19333
2,0.694199,1.347303
3,-0.796087,-0.765238


In [32]:
# Forma 2 de acesso dos elementos
df.loc['G1'].loc[1]

A   -0.043939
B    0.193330
Name: 1, dtype: float64

In [33]:
# Forma 3 de acesso dos elementos
df.loc['G1'].loc[1]['A']

-0.04393856946335503

In [35]:
# O índices possuem names
# Por enquanto sem nomes declarados
df.index.names

FrozenList([None, None])

In [40]:
# Atribuindo nomes
df.index.names = ['Grupo', 'Numero']
df

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B
Grupo,Numero,Unnamed: 2_level_1,Unnamed: 3_level_1
G1,1,-0.043939,0.19333
G1,2,0.694199,1.347303
G1,3,-0.796087,-0.765238
G2,1,0.323328,0.32685
G2,2,0.882176,0.436608
G2,3,-0.342101,0.773267


In [41]:
# Acessando com cross-section .xs
# Vantagem cross-section .xs é poder acessar diretamente o índice interno sem explicitar o externo
df.xs('G1')

Unnamed: 0_level_0,A,B
Numero,Unnamed: 1_level_1,Unnamed: 2_level_1
1,-0.043939,0.19333
2,0.694199,1.347303
3,-0.796087,-0.765238


In [44]:
# Vantagem cross-section .xs é poder acessar diretamente o índice interno sem explicitar o externo
df.xs(1, level="Numero")

Unnamed: 0_level_0,A,B
Grupo,Unnamed: 1_level_1,Unnamed: 2_level_1
G1,-0.043939,0.19333
G2,0.323328,0.32685


###  Dados Ausentes

In [47]:
# Criando um dicionário com dados faltantes
d = {'A': [1, 2, np.nan], 'B': [5, np.nan, np.nan], 'C': [1, 2, 3]}

In [49]:
# Data Frame com dados faltantes
df = pd.DataFrame(d)
df

Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,,2
2,,,3


In [50]:
# Primeira forma de excluir Séries com dados faltantes .dropna()
# Padrão linha axis=0
df.dropna()

Unnamed: 0,A,B,C
0,1.0,5.0,1


In [54]:
# Excluindo colunas com dados faltantes
df.dropna(axis=1)

Unnamed: 0,C
0,1
1,2
2,3


In [56]:
# Excluindo quando tiver 2 ou mais dados faltantes
df.dropna(axis=1, thresh=2)

Unnamed: 0,A,C
0,1.0,1
1,2.0,2
2,,3


In [57]:
# Substituir os dados faltantes com valores padrão
df.fillna(value=99)

Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,99.0,2
2,99.0,99.0,3


In [64]:
# Substituir os dados com média
df.fillna(value=df.mean())

Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,5.0,2
2,1.5,5.0,3


In [65]:
# Substituir os dados com valores da série anterior
df.fillna(method='ffill')

Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,5.0,2
2,2.0,5.0,3
