# Sobre as anotações
Esses códigos foram realizados junto ao curso disponível no kaggle: https://www.kaggle.com/learn/pandas

Para melhor contextualização, basta acessar minhas anotações pessoais realizadas ao longo do curso: https://docs.google.com/document/d/1gSs2Japr-4t2jClWWUyMLNHcaBqjPqzAs18-hBiWfwk/edit?usp=sharing

In [1]:
import pandas as pd

# Criando, lendo e escrevendo

In [2]:
#Criando um DataFrame
eletronicos_marca = pd.DataFrame({'Eletrônicos' : ['Computador', 'Celular', 'Tablet'],
                                 'Marca' : ['Lenovo', 'Motorola', 'Apple']})

eletronicos_marca

Unnamed: 0,Eletrônicos,Marca
0,Computador,Lenovo
1,Celular,Motorola
2,Tablet,Apple


In [3]:
#Alterando o index de um DataFrame
eletronico_marca = pd.DataFrame({'Eletrônicos' : ['Computador', 'Celular', 'Tablet'],
                                 'Marca' : ['Lenovo', 'Motorola', 'Apple']},
                                index=['A', 'B', 'C'])

eletronico_marca

Unnamed: 0,Eletrônicos,Marca
A,Computador,Lenovo
B,Celular,Motorola
C,Tablet,Apple


In [4]:
#Criando uma Serie
serie = pd.Series(['Computador', 'Celular', 'Tablet'])

serie

0    Computador
1       Celular
2        Tablet
dtype: object

In [5]:
#Alterando o index e adicionando um nome a Serie
serie = pd.Series(['Computador', 'Celular', 'Tablet'], 
                  index=['A', 'B', 'C'], 
                  name= 'Eletrônicos')

serie

A    Computador
B       Celular
C        Tablet
Name: Eletrônicos, dtype: object

In [6]:
#### Lendo um arquivo CSV
arquivo = pd.read_csv(r'C:\Users\marco\Projetos\Python\Titanic challenge\train.csv', sep = ',')
arquivo

FileNotFoundError: [Errno 2] No such file or directory: 'C:\\Users\\marco\\Projetos\\Python\\Titanic challenge\\train.csv'

#### Salvando o DataFrame no disco
eletronico_marca.to_csv('teste')

# Indexação, seleção de & Atribuir

In [None]:
#Acessando uma coluna
arquivo.Sex

In [None]:
#Acessando uma coluna por indexação
arquivo['Sex']

In [None]:
#Acessando o index de uma coluna
arquivo['Sex'][0]

### Index-based (método .iloc)

In [None]:
#Selecionando a primeira linha
arquivo.iloc[0]

In [None]:
#Selecionando a todas as linhas da primeira coluna
arquivo.iloc[:, 0]

In [None]:
#Selecionando a todas as linhas da primeira à terceira coluna
arquivo.iloc[:5, :3]

In [None]:
#Selecionando index desejados em forma de lista
arquivo.iloc[[0, 3, 5], [0, 3, 5]]

In [None]:
#Invertendo index de crescente para decrescente
arquivo.iloc[-5:, -1:]

### Label-based selection (método .loc)

In [None]:
#Selecionando uma coluna
arquivo.loc[:, 'Sex']

In [None]:
#Selecionando mais de uma coluna
arquivo.loc[:5, ['Sex', 'Name']]

In [None]:
#Substituindo o index por uma coluna
arquivo.set_index('Sex')

### Seleção condicional

In [None]:
#Identificando se o passageiro é do gênero masculino
arquivo.Sex == 'male'

In [None]:
#Filtrando passageiros do gênero masculino
arquivo.loc[arquivo.Sex == 'male']

In [None]:
#Filtrando passageiros do gênero masculino E com idade >= 30
arquivo.loc[(arquivo.Sex == 'male') & (arquivo.Age >= 30)]

In [None]:
#Filtrando passageiros do gênero masculino OU que tenham idade <= 20
arquivo.loc[(arquivo.Sex == 'male') | (arquivo.Age <= 30)]

In [None]:
#Selecionando passageiros que embarcaram em C e Q
arquivo.loc[arquivo.Embarked.isin(['C', 'Q'])]

In [None]:
#Visualizando registros com dados de idade vazio
arquivo.loc[arquivo.Age.isnull()]

In [None]:
#Visualizando registros com dados de idade não nulos
arquivo.loc[arquivo.Age.notnull()]

In [None]:
#Agregando um valor constante a uma coluna
arquivo2 = pd.read_csv(r'C:\Users\marco\Projetos\Python\Titanic challenge\train.csv', sep = ',')
arquivo2['Sex'] = 'Não mencionado'
arquivo2.iloc[:, 3:5].head()

In [None]:
#Agregando valores por meio de iteração
arquivo2['PassengerId'] = range(len(arquivo2), 0, -1)
arquivo2

# Summary functions e Maps

### Summary functions

In [None]:
#Método describe para numéricos
arquivo.Age.describe()

In [None]:
#Describe para strings
arquivo.Sex.describe()

In [None]:
#Método mean
arquivo.Age.mean()

In [None]:
#Método .unique()
arquivo.Sex.unique()

In [None]:
#Método .value_counts()
arquivo.Sex.value_counts()

### Maps

In [None]:
#Método .map()
idade_media = arquivo.Age.mean()
arquivo.Age.map(lambda x: x - idade_media)

In [None]:
#Diferença simples
idade_media = arquivo.Age.mean()
arquivo.Age - idade_media

In [None]:
#AJuntando duas colunas no formato string
arquivo.Name + ' Embarcou na região ' + arquivo.Embarked

In [None]:
#Método .apply()
def media(x):
    x.Age = x.Age - arquivo.Age.mean()
    return x
arquivo.apply(media, axis = 'columns')

# Agrupando e ordenando

### Análise de grupos

In [None]:
#Método .gorupby() e count()
arquivo.groupby('Sex').Sex.count()

In [None]:
#Método .gorupby() e max()
arquivo.groupby('Sex').Age.max()

In [None]:
#Método .gorupby() e apply()
arquivo.groupby(['Sex', 'Survived']).apply(lambda x: x.loc[x.Age.idxmax()])

In [None]:
#Group by + .agg()
arquivo.groupby('Sex').Age.agg([len, min, max])

In [None]:
#Multi-index
arquivo.groupby(['Sex','Embarked']).Age.agg([len, min, max])

### Ordenando

In [None]:
#Ordenando por sort_values() de forma crescente
x = arquivo.groupby(['Sex','Embarked']).Age.agg([len, min, max])
x.sort_values(by = 'len')

In [None]:
#Ordenando por sort_values() de forma decrescente
x = arquivo.groupby(['Sex','Embarked']).Age.agg([len, min, max])
x.sort_values(by = 'len', ascending = False)

In [None]:
#Ordenando por mais de uma coluna por vez
x = arquivo.groupby(['Sex','Embarked']).Age.agg([len, min, max])
x.sort_values(by = ['Sex', 'Embarked'])

# Tipo de dado e valores faltantes

### Dtypes

In [None]:
#Identificando o tipo de dado com .dtype
arquivo.Age.dtype

In [None]:
#Identificando o tipo de todas as colunas com dtypes
arquivo.dtypes

In [None]:
#Alterando o tipo do dado com .astype()
arquivo.PassengerId.astype('float')

### Valores faltantes

In [None]:
#Encontrando valores nulos
arquivo[pd.isnull(arquivo.Age)]

In [None]:
#Substituindo valores nulos
arquivo.Age.fillna(arquivo['Age'].mode(), inplace = True)
arquivo.Age.describe()

In [None]:
#Substituindo valores nulos
arquivo.Cabin.fillna('Desconhecido')

In [None]:
#Substituindo valores específicos com o métdo .replace()
arquivo['Sex'].replace(['male', 'female'], ['M', 'F'], inplace= True)
arquivo.head()

# Renomeando e combinando

### Renomenado

In [None]:
#Renomeando uma coluna
arquivo.rename(columns={'Sex' : 'Gender'}). head()

In [None]:
#Renomeando uma coluna
arquivo2.rename(index={0 : '1º', 1 : '2º', 2 : '3º'}, inplace= True)

In [None]:
#Renomeando o index
arquivo2.rename_axis('index', axis = 'columns').head()

### Combinando

In [None]:
#Combinando com .concat()
eletronicos_marca = pd.DataFrame({'Produto' : ['Computador', 'Celular', 'Tablet'],
                                 'Marca' : ['Lenovo', 'Motorola', 'Apple']})

perifericos_marca = pd.DataFrame({'Produto': ['Teclado', 'Mouse', 'Fone de Ouvido'],
    'Marca': ['Logitech', 'Razer', 'Bose']})

pd.concat([eletronicos_marca, perifericos_marca])

In [None]:
#Combinando com .join()
eletronicos_marca.join(perifericos_marca, lsuffix= '_Eletrônicos', rsuffix='_Periféricos')
