# <center> Pandas </center>

* Pandas é uma biblioteca de Python voltada para trabalhar com dados no formato tabular (tabelas, planilhas, etc). Por isso, lida com Dataframes (Tabelas com linhas e colunas) ou Series (formatos sequenciais, como se fossem colunas da tabela).

* Pandas tem a vantagem de poder misturar diferentes colunas com diferentes tipos de dados.

* Facilidade em importação de dados csv e outros formatos.


In [1]:
import pandas as pd
import numpy as np

## <center>DATAFRAMES</center>

### CARREGAMENTO DE DADOS

* O carregamento dos dados é extremamente importante, uma vez que pode determinar a facilidade ou a dificuldade com que fazemos análise e o tratamento dos dados. Por isso, é interessante notar que o método `<Pandas>.read_csv(<parâmetros>)` foi equipado com uma série de parâmetros realmente importantes. Dentre eles, podemos indicar o seguinte:

    * **filepath_or_buffer**: pode ser qualquer string que indique o caminho de um arquivo. Nesse caso, estamos falando de caminhos relativos ou absolutos de arquivos locais, mas, da mesma forma, de arquivos referenciados por uma URL (httpp, ftp, s3, gs, entre outros tipos).

    * **sep**: a separação dos dados no arquivo de extensão csv, por default, assume a vírgula (`','`), porém podemos indicar outros valores na forma de string (`'<valor>'`).

    * **delimiter**: trata-se de um alias para `sep=`.

    * **header**: trata-se de um parâmetro que espera um `inteiro` ou uma `lista de inteiros`. Se indicarmos o valor None (`header=None`), o pandas irá atribuir números sequenciais para cada colunas. Se não passarmos nenhum valor (ou seja, não indicarmos o parâmetro), o nome das colunas será automaticamente inferido na primeira linha da tabela ou planilha (equivale a `header=0`).

    * **names**: trata-se de um parametro que recebe uma lista de strings únicas. É um parâmetro opcional e pode ser usado quando desejamos substituir os valores dos nomes das colunas quando `header=0`.

    * **use_cols**: trata-se de um parâmetro que espera receber uma lista de index ou de strings. Por meio dessa parâmetro, podemos selecionar os dados que desejamos projetar. É possível usar métodos funcionais, tais como: `lambda x: x.upper() in ['AAA', 'BBB', 'DDD']`.

    * **dtype**: trata-se de um parâmetro que espera receber um dicionário de correspondência. Isto é, especifica-se o nome da coluna como key e o tipo da coluna como valor. Assim, a leitura dos dados é feita corretamente. Exemplo: `{'a': np.float64, 'b': np.int32, 'c': 'Int64'}`.

    * **engine**: podemos especificar o melhor analisador para fazer a avaliação dos dados. Podemos informar: `c`, `python`, `pyarrow`. O multithreading só está disponível em `pyarrow`.

    * **converters**: trata-se de um parâmetro que espera receber um dicionário, o qual tem como key o nome da coluna e como valor uma função que será aplicada a qualquer dos valores.

    * **true_values**: além do `True` padrão, podemos especificar outros valores que devemos considerar como true, como o `1`.

    * **false_values**: além do `False` padrão, podemos especificar outros valores que devemos considerar como false, como o `0`.

    * **skiprows**: trata-se de um parâmetro que pode receber apenas um único número inteiro ou uma lista de números inteiros. No caso de receber um único número, a função de leitura irá desconsiderar as n primeiras linhas da tabela (`skiprows=2`). Mas, se passarmos uma lista, estaremos selecionando apenas as linhas que não deverão ser selecionadas. Nesse caso, `skiprows=[2]` descarta a segunda linha, enquanto que `skiprows=[2,4]` descarta a segunda e quarta linhas; mas, ambas preservam as demais linhas da tabela.

    * **nrows**: este parâmetro informa a quantidade de tuplas que devem ser lidas a partir de um arquivo muito grande.

    * **na_values**: assim como podemos manipular valores de verdadeiro ou falso, podemos também adicionar valores que tratamos como null. Assim, podemos especificar uma string ou uma lista de strings, tais como: `‘#N/A’, ‘#N/A N/A’, ‘#NA’, ‘-1.#IND’, ‘-1.#QNAN’, ‘-NaN’, ‘-nan’, ‘1.#IND’, ‘1.#QNAN’, ‘<NA>’, ‘N/A’, ‘NA’, ‘NULL’, ‘NaN’, ‘None’, ‘n/a’, ‘nan’, ‘null’`.
    
    * **skip_blank_lines**: trata-se de um parâmetro booleano utilizado para descartar linhas em branco ao invés de interpretá-las como NaN.

    * **DATAS**: se precisarmos, é conveniente consultar a documentação. Existem muitos parâmetros que servem para combinar colunas diferentes em uma data em determinado formato especificado pelo usuário. É realmente bastante útil.

    * **compression**: podemos abrir um arquivo com extensão csv que esteja comprimido em um arquivo das seguintes extensões: `‘.gz’, ‘.bz2’, ‘.zip’, ‘.xz’, ‘.zst’, ‘.tar’, ‘.tar.gz’, ‘.tar.xz’ or ‘.tar.bz2’`.

    * **thousands**: o parâmetro é opcional e não apresenta valor default, mas espera receber uma string. Caso indicada, podemos usar determinado caracter para reconhecer a casa dos milhares. Isso tem relevância porque os sistemas numéricos podem apresentar disparidades. Assim, a leitura dos dados pode ficar prejudicada se não indicarmos.

    * **decimal**: por default, o valor para números decimais é o `'.'`. Para o caso do Brasil, em especial, esse valor é um problema, pois muitas empresas e programas utilizam a virgula como separador das casas decimais. 

    * **memory_map**: trata-se de um parâmetro booleano capaz de indicar que podemos ampliar a velocidade de performance,indicando que os dados devem ser carregados em memória para evitar o overheading do sistema de entrada e saída do hardware.

In [2]:
path = '/home/filipe/Documentos/DataScience/Material/7.Prática em Python/dados/Credit.csv'
df = pd.read_csv(path)

### EXPLORAÇÃO DA ESTRUTURA DE DADOS

#### Verificação do Formato do Dataframe

* Esse método mostra o formato da tabela em termos de linhas e colunas.
* Os valores unitários (`<DataFrame>.shape[0]` ou `<DataFrame>.shape[1]`)pode ser usados para inserir linhas ou colunas, uma vez que a indexão começa em 0 e o valor mostrado pela função é o primeiro livre.

In [3]:
df.shape

(1000, 21)

#### Verificações Estatísticas Resumidas

* Exibe valores como contagem, media, desvio padrão, min, max e os quartis de distribuição dos dados.

* Esse método serve para fazer resumos de colunas numéricas. Desse modo, existe somente para dados dtype do tipo numérico (np.int np.float) e não para dados categóricos.

* Colunas com dados categóricos não são incluídas no DataFrame gerado. Mesmo que a coluna tenha dados numéricos, não significa que ela seja do tipo numérico, pois um único valor na forma de string (tipo 'ND', ou seja, não declarado), transforma o tipo da coluna para Object.

In [4]:
df.describe()

Unnamed: 0,duration,credit_amount,installment_commitment,residence_since,age,existing_credits,num_dependents
count,1000.0,1000.0,1000.0,1000.0,1000.0,1000.0,1000.0
mean,20.903,3271.258,2.973,2.845,35.546,1.407,1.155
std,12.058814,2822.736876,1.118715,1.103718,11.375469,0.577654,0.362086
min,4.0,250.0,1.0,1.0,19.0,1.0,1.0
25%,12.0,1365.5,2.0,2.0,27.0,1.0,1.0
50%,18.0,2319.5,3.0,3.0,33.0,1.0,1.0
75%,24.0,3972.25,4.0,4.0,42.0,2.0,1.0
max,72.0,18424.0,4.0,4.0,75.0,4.0,2.0


### INSERÇÃO DE DADOS

### EXIBICÃO DE DADOS

* As vezes, a quantidade de dados é tão elevada que pode desestabilizar o sotware (lentidão, crashs e outros problemas), mas, ao mesmo tempo, ainda existe a necessidade de conhecer os dados. Nesse caso, podemos ver o nome das colunas ou o nome da coluna e seus valores.

* Existe um método equivalente de exibição de dados que utiliza a indexação: `<DataFrame>.iloc[<linhas>, <colunas>]`. Esse 'i' de 'iloc' vem exatamente de 'index'.

#### Exibição dos Nomes das Colunas

* Usado quando queremos apenas consultar o nome da coluna.

In [5]:
df.columns

Index(['checking_status', 'duration', 'credit_history', 'purpose',
       'credit_amount', 'savings_status', 'employment',
       'installment_commitment', 'personal_status', 'other_parties',
       'residence_since', 'property_magnitude', 'age', 'other_payment_plans',
       'housing', 'existing_credits', 'job', 'num_dependents', 'own_telephone',
       'foreign_worker', 'class'],
      dtype='object')

#### Exibição dos N-Primeiros

* É usado para checar o nome das colunas e dos seus valores ou fazer avaliações preliminares do tipo de dado e existência de valores nulos.

* Podemos passar como parâmetro a quantidade de tuplas que devem ser exibidas. É muito útil para tabelas muito grandes.

In [6]:
df.head(5)

Unnamed: 0,checking_status,duration,credit_history,purpose,credit_amount,savings_status,employment,installment_commitment,personal_status,other_parties,...,property_magnitude,age,other_payment_plans,housing,existing_credits,job,num_dependents,own_telephone,foreign_worker,class
0,<0,6,'critical/other existing credit',radio/tv,1169,'no known savings',>=7,4,'male single',none,...,'real estate',67,none,own,2,skilled,1,yes,yes,good
1,0<=X<200,48,'existing paid',radio/tv,5951,<100,1<=X<4,2,'female div/dep/mar',none,...,'real estate',22,none,own,1,skilled,1,none,yes,bad
2,'no checking',12,'critical/other existing credit',education,2096,<100,4<=X<7,2,'male single',none,...,'real estate',49,none,own,1,'unskilled resident',2,none,yes,good
3,<0,42,'existing paid',furniture/equipment,7882,<100,4<=X<7,2,'male single',guarantor,...,'life insurance',45,none,'for free',1,skilled,2,none,yes,good
4,<0,24,'delayed previously','new car',4870,<100,1<=X<4,3,'male single',none,...,'no known property',53,none,'for free',2,skilled,2,none,yes,bad


#### Exibição dos N-Últimos

* Tem a mesma descição dos dados N-Primeiros, mas refere-se aos N-Últimos.

In [7]:
df.tail(5)

Unnamed: 0,checking_status,duration,credit_history,purpose,credit_amount,savings_status,employment,installment_commitment,personal_status,other_parties,...,property_magnitude,age,other_payment_plans,housing,existing_credits,job,num_dependents,own_telephone,foreign_worker,class
995,'no checking',12,'existing paid',furniture/equipment,1736,<100,4<=X<7,3,'female div/dep/mar',none,...,'real estate',31,none,own,1,'unskilled resident',1,none,yes,good
996,<0,30,'existing paid','used car',3857,<100,1<=X<4,4,'male div/sep',none,...,'life insurance',40,none,own,1,'high qualif/self emp/mgmt',1,yes,yes,good
997,'no checking',12,'existing paid',radio/tv,804,<100,>=7,4,'male single',none,...,car,38,none,own,1,skilled,1,none,yes,good
998,<0,45,'existing paid',radio/tv,1845,<100,1<=X<4,4,'male single',none,...,'no known property',23,none,'for free',1,skilled,1,yes,yes,bad
999,0<=X<200,45,'critical/other existing credit','used car',4576,100<=X<500,unemployed,3,'male single',none,...,car,27,none,own,1,skilled,1,none,yes,good


#### Projeção de Colunas/Atributos

* Existe uma peculiaridade na forma da projeção de colunas. Se indicarmos `<DataFrame>[<StringNomeColuna>]`, estaremos retornando um tipo de dado que é do tipo Serie; mas, se indicarmos `<DataFrame>[ [<StringNomeColuna>] ]`, ou seja, uma lista de colunas, mesmo que populada somente com um única coluna, teremos um retorno do tipo `<DataFrame>`.

* Se indicarmos uma lista de valores, iremos projetar mais de uma coluna como resultado retorno.

##### Tipos de Projeção

In [8]:
type(df['age'])

pandas.core.series.Series

In [9]:
type(df[['age']])

pandas.core.frame.DataFrame

##### Projeção de Colunas Específicas

In [10]:
numericas = ['duration', 'age']
categoricas = ['class']


In [11]:
df[numericas]

Unnamed: 0,duration,age
0,6,67
1,48,22
2,12,49
3,42,45
4,24,53
...,...,...
995,12,31
996,30,40
997,12,38
998,45,23


In [12]:
df[categoricas]

Unnamed: 0,class
0,good
1,bad
2,good
3,good
4,bad
...,...
995,good
996,good
997,good
998,bad


#### Projeção de Linhas/Tuplas

##### Projeção de Linhas Específicas

* Podemos especificar uma lista de indices que desejamos fazer a projeção. Basta passar uma lista como parâmetro da localização: `<DataFrame>.loc[<lista>]`

In [13]:
numericas = [1,3,6]
df.loc[numericas]

Unnamed: 0,checking_status,duration,credit_history,purpose,credit_amount,savings_status,employment,installment_commitment,personal_status,other_parties,...,property_magnitude,age,other_payment_plans,housing,existing_credits,job,num_dependents,own_telephone,foreign_worker,class
1,0<=X<200,48,'existing paid',radio/tv,5951,<100,1<=X<4,2,'female div/dep/mar',none,...,'real estate',22,none,own,1,skilled,1,none,yes,bad
3,<0,42,'existing paid',furniture/equipment,7882,<100,4<=X<7,2,'male single',guarantor,...,'life insurance',45,none,'for free',1,skilled,2,none,yes,good
6,'no checking',24,'existing paid',furniture/equipment,2835,500<=X<1000,>=7,3,'male single',none,...,'life insurance',53,none,own,1,skilled,1,none,yes,good


##### Projção de Intervalos de Linhas

* Seguem as mesmas regras de indexação (inclui o do começo e exclui o do final).

In [14]:
df.loc[2:10]

Unnamed: 0,checking_status,duration,credit_history,purpose,credit_amount,savings_status,employment,installment_commitment,personal_status,other_parties,...,property_magnitude,age,other_payment_plans,housing,existing_credits,job,num_dependents,own_telephone,foreign_worker,class
2,'no checking',12,'critical/other existing credit',education,2096,<100,4<=X<7,2,'male single',none,...,'real estate',49,none,own,1,'unskilled resident',2,none,yes,good
3,<0,42,'existing paid',furniture/equipment,7882,<100,4<=X<7,2,'male single',guarantor,...,'life insurance',45,none,'for free',1,skilled,2,none,yes,good
4,<0,24,'delayed previously','new car',4870,<100,1<=X<4,3,'male single',none,...,'no known property',53,none,'for free',2,skilled,2,none,yes,bad
5,'no checking',36,'existing paid',education,9055,'no known savings',1<=X<4,2,'male single',none,...,'no known property',35,none,'for free',1,'unskilled resident',2,yes,yes,good
6,'no checking',24,'existing paid',furniture/equipment,2835,500<=X<1000,>=7,3,'male single',none,...,'life insurance',53,none,own,1,skilled,1,none,yes,good
7,0<=X<200,36,'existing paid','used car',6948,<100,1<=X<4,2,'male single',none,...,car,35,none,rent,1,'high qualif/self emp/mgmt',1,yes,yes,good
8,'no checking',12,'existing paid',radio/tv,3059,>=1000,4<=X<7,2,'male div/sep',none,...,'real estate',61,none,own,1,'unskilled resident',1,none,yes,good
9,0<=X<200,30,'critical/other existing credit','new car',5234,<100,unemployed,4,'male mar/wid',none,...,car,28,none,own,2,'high qualif/self emp/mgmt',1,none,yes,bad
10,0<=X<200,12,'existing paid','new car',1295,<100,<1,3,'female div/dep/mar',none,...,car,25,none,rent,1,skilled,1,none,yes,bad


### FILTROS

#### Filtros de Linhas

* Os filtros de linhas são multivalorados e são possíveis graças a implementação do método `<DataFrame>.loc[<filtro>]`. 

* São multivalorados porque implementam operações de comparação (igual, diferente, maior e menor ou quaisquer outras), bem como admitem operações lógicas (AND, OR, NOT). As operações lógicas devem ser descritas com operadores simples: AND (&), OR (|) e not (~).

* Esses filtros funcionam de forma funcional e, por isso, tratam-se de expressões booleanas serão aplicadas sobre o valor da célula; se forem verdadeiras, o filtro seleciona a tupla, mas, caso contrário, a filtragem descarta o resultado. Ass

In [15]:
df.loc[df['purpose'] == "'new car'"]

Unnamed: 0,checking_status,duration,credit_history,purpose,credit_amount,savings_status,employment,installment_commitment,personal_status,other_parties,...,property_magnitude,age,other_payment_plans,housing,existing_credits,job,num_dependents,own_telephone,foreign_worker,class
4,<0,24,'delayed previously','new car',4870,<100,1<=X<4,3,'male single',none,...,'no known property',53,none,'for free',2,skilled,2,none,yes,bad
9,0<=X<200,30,'critical/other existing credit','new car',5234,<100,unemployed,4,'male mar/wid',none,...,car,28,none,own,2,'high qualif/self emp/mgmt',1,none,yes,bad
10,0<=X<200,12,'existing paid','new car',1295,<100,<1,3,'female div/dep/mar',none,...,car,25,none,rent,1,skilled,1,none,yes,bad
13,<0,24,'critical/other existing credit','new car',1199,<100,>=7,4,'male single',none,...,car,60,none,own,2,'unskilled resident',1,none,yes,bad
14,<0,15,'existing paid','new car',1403,<100,1<=X<4,2,'female div/dep/mar',none,...,car,28,none,rent,1,skilled,1,none,yes,good
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
972,<0,24,'all paid','new car',1193,<100,unemployed,1,'female div/dep/mar','co applicant',...,'no known property',29,none,rent,2,'unemp/unskilled non res',1,none,yes,bad
978,'no checking',24,'delayed previously','new car',2538,<100,>=7,4,'male single',none,...,car,47,none,own,2,'unskilled resident',2,none,yes,bad
979,0<=X<200,15,'all paid','new car',1264,100<=X<500,1<=X<4,2,'male mar/wid',none,...,'life insurance',25,none,rent,1,skilled,1,none,yes,bad
982,>=200,21,'existing paid','new car',2923,100<=X<500,1<=X<4,1,'female div/dep/mar',none,...,car,28,bank,own,1,'high qualif/self emp/mgmt',1,yes,yes,good


#### Filtros de Linha com Projeção de Colunas Específicas

In [16]:
df.loc[df['purpose'] == "'new car'", 'purpose']

4      'new car'
9      'new car'
10     'new car'
13     'new car'
14     'new car'
         ...    
972    'new car'
978    'new car'
979    'new car'
982    'new car'
994    'new car'
Name: purpose, Length: 234, dtype: object

In [17]:
df.loc[df['purpose'] == "'new car'", ['purpose', 'age']]


Unnamed: 0,purpose,age
4,'new car',53
9,'new car',28
10,'new car',25
13,'new car',60
14,'new car',28
...,...,...
972,'new car',29
978,'new car',47
979,'new car',25
982,'new car',28


In [18]:
df[['purpose','age']].loc[df['purpose'] == "'new car'"]


Unnamed: 0,purpose,age
4,'new car',53
9,'new car',28
10,'new car',25
13,'new car',60
14,'new car',28
...,...,...
972,'new car',29
978,'new car',47
979,'new car',25
982,'new car',28


#### Filtros de Valores Null

### UPDATE

#### Alteração de Nomes de Colunas

* Podemos alterar o nome das colunas do DataFrame utilizando o método `<DataFrame>.rename()`. É de se anotar que precisamos passar dois parâmetros: 
    
    * `columns=`: recebe um dicionário com as chaves indicando o nome atual da coluna e o valor como uma string para substituir o valor existente
    
    * `inplace=`: recebe um valor booleano para fazer persistir a alteração, ou seja, altera no bloco de memória do DataFrame.

In [19]:
df.rename(columns={'checking_status': 'checking'}, inplace=True)
df

Unnamed: 0,checking,duration,credit_history,purpose,credit_amount,savings_status,employment,installment_commitment,personal_status,other_parties,...,property_magnitude,age,other_payment_plans,housing,existing_credits,job,num_dependents,own_telephone,foreign_worker,class
0,<0,6,'critical/other existing credit',radio/tv,1169,'no known savings',>=7,4,'male single',none,...,'real estate',67,none,own,2,skilled,1,yes,yes,good
1,0<=X<200,48,'existing paid',radio/tv,5951,<100,1<=X<4,2,'female div/dep/mar',none,...,'real estate',22,none,own,1,skilled,1,none,yes,bad
2,'no checking',12,'critical/other existing credit',education,2096,<100,4<=X<7,2,'male single',none,...,'real estate',49,none,own,1,'unskilled resident',2,none,yes,good
3,<0,42,'existing paid',furniture/equipment,7882,<100,4<=X<7,2,'male single',guarantor,...,'life insurance',45,none,'for free',1,skilled,2,none,yes,good
4,<0,24,'delayed previously','new car',4870,<100,1<=X<4,3,'male single',none,...,'no known property',53,none,'for free',2,skilled,2,none,yes,bad
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,'no checking',12,'existing paid',furniture/equipment,1736,<100,4<=X<7,3,'female div/dep/mar',none,...,'real estate',31,none,own,1,'unskilled resident',1,none,yes,good
996,<0,30,'existing paid','used car',3857,<100,1<=X<4,4,'male div/sep',none,...,'life insurance',40,none,own,1,'high qualif/self emp/mgmt',1,yes,yes,good
997,'no checking',12,'existing paid',radio/tv,804,<100,>=7,4,'male single',none,...,car,38,none,own,1,skilled,1,none,yes,good
998,<0,45,'existing paid',radio/tv,1845,<100,1<=X<4,4,'male single',none,...,'no known property',23,none,'for free',1,skilled,1,yes,yes,bad


#### Alteração de Dados Específicos

### DELEÇÃO

* A deleção dos dados pode ser entendida como uma alteração que remove determinada linha (tupla) ou coluna (atributo). Para tanto, podemos usar o método `<DataFrame>.drop()`.

#### Exclusão de Linha/Coluna

A exclusão de linha ou coluna acontece com a mesma função, mas devemos especificar parâmetros diferentes, tais como:

* **labels**: indicação de um label ou uma lista de labels que devem ser removidos.

* **axis**: 0 (index/linhas) ou 1 (colunas).

* **inplace**: True (alterações persistentes).

In [20]:
# Remove a coluna saving_status
df.drop('savings_status', axis=1, inplace=True)
df

Unnamed: 0,checking,duration,credit_history,purpose,credit_amount,employment,installment_commitment,personal_status,other_parties,residence_since,property_magnitude,age,other_payment_plans,housing,existing_credits,job,num_dependents,own_telephone,foreign_worker,class
0,<0,6,'critical/other existing credit',radio/tv,1169,>=7,4,'male single',none,4,'real estate',67,none,own,2,skilled,1,yes,yes,good
1,0<=X<200,48,'existing paid',radio/tv,5951,1<=X<4,2,'female div/dep/mar',none,2,'real estate',22,none,own,1,skilled,1,none,yes,bad
2,'no checking',12,'critical/other existing credit',education,2096,4<=X<7,2,'male single',none,3,'real estate',49,none,own,1,'unskilled resident',2,none,yes,good
3,<0,42,'existing paid',furniture/equipment,7882,4<=X<7,2,'male single',guarantor,4,'life insurance',45,none,'for free',1,skilled,2,none,yes,good
4,<0,24,'delayed previously','new car',4870,1<=X<4,3,'male single',none,4,'no known property',53,none,'for free',2,skilled,2,none,yes,bad
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,'no checking',12,'existing paid',furniture/equipment,1736,4<=X<7,3,'female div/dep/mar',none,4,'real estate',31,none,own,1,'unskilled resident',1,none,yes,good
996,<0,30,'existing paid','used car',3857,1<=X<4,4,'male div/sep',none,4,'life insurance',40,none,own,1,'high qualif/self emp/mgmt',1,yes,yes,good
997,'no checking',12,'existing paid',radio/tv,804,>=7,4,'male single',none,4,car,38,none,own,1,skilled,1,none,yes,good
998,<0,45,'existing paid',radio/tv,1845,1<=X<4,4,'male single',none,4,'no known property',23,none,'for free',1,skilled,1,yes,yes,bad


In [21]:
# Remove a linha de indice 0 de forma persistente
df.drop(index=0, axis=0, inplace=True)
df

Unnamed: 0,checking,duration,credit_history,purpose,credit_amount,employment,installment_commitment,personal_status,other_parties,residence_since,property_magnitude,age,other_payment_plans,housing,existing_credits,job,num_dependents,own_telephone,foreign_worker,class
1,0<=X<200,48,'existing paid',radio/tv,5951,1<=X<4,2,'female div/dep/mar',none,2,'real estate',22,none,own,1,skilled,1,none,yes,bad
2,'no checking',12,'critical/other existing credit',education,2096,4<=X<7,2,'male single',none,3,'real estate',49,none,own,1,'unskilled resident',2,none,yes,good
3,<0,42,'existing paid',furniture/equipment,7882,4<=X<7,2,'male single',guarantor,4,'life insurance',45,none,'for free',1,skilled,2,none,yes,good
4,<0,24,'delayed previously','new car',4870,1<=X<4,3,'male single',none,4,'no known property',53,none,'for free',2,skilled,2,none,yes,bad
5,'no checking',36,'existing paid',education,9055,1<=X<4,2,'male single',none,4,'no known property',35,none,'for free',1,'unskilled resident',2,yes,yes,good
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,'no checking',12,'existing paid',furniture/equipment,1736,4<=X<7,3,'female div/dep/mar',none,4,'real estate',31,none,own,1,'unskilled resident',1,none,yes,good
996,<0,30,'existing paid','used car',3857,1<=X<4,4,'male div/sep',none,4,'life insurance',40,none,own,1,'high qualif/self emp/mgmt',1,yes,yes,good
997,'no checking',12,'existing paid',radio/tv,804,>=7,4,'male single',none,4,car,38,none,own,1,skilled,1,none,yes,good
998,<0,45,'existing paid',radio/tv,1845,1<=X<4,4,'male single',none,4,'no known property',23,none,'for free',1,skilled,1,yes,yes,bad


### DADOS NULL

#### Verificação de Dados NULL

In [22]:
df.isnull()

Unnamed: 0,checking,duration,credit_history,purpose,credit_amount,employment,installment_commitment,personal_status,other_parties,residence_since,property_magnitude,age,other_payment_plans,housing,existing_credits,job,num_dependents,own_telephone,foreign_worker,class
1,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
5,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
996,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
997,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
998,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False


#### Contagem de Dados NULL

In [23]:
df.isnull().sum()

checking                  0
duration                  0
credit_history            0
purpose                   0
credit_amount             0
employment                0
installment_commitment    0
personal_status           0
other_parties             0
residence_since           0
property_magnitude        0
age                       0
other_payment_plans       0
housing                   0
existing_credits          0
job                       0
num_dependents            0
own_telephone             0
foreign_worker            0
class                     0
dtype: int64

#### Descartar Colunas com Valores Null

In [24]:
df.dropna()

Unnamed: 0,checking,duration,credit_history,purpose,credit_amount,employment,installment_commitment,personal_status,other_parties,residence_since,property_magnitude,age,other_payment_plans,housing,existing_credits,job,num_dependents,own_telephone,foreign_worker,class
1,0<=X<200,48,'existing paid',radio/tv,5951,1<=X<4,2,'female div/dep/mar',none,2,'real estate',22,none,own,1,skilled,1,none,yes,bad
2,'no checking',12,'critical/other existing credit',education,2096,4<=X<7,2,'male single',none,3,'real estate',49,none,own,1,'unskilled resident',2,none,yes,good
3,<0,42,'existing paid',furniture/equipment,7882,4<=X<7,2,'male single',guarantor,4,'life insurance',45,none,'for free',1,skilled,2,none,yes,good
4,<0,24,'delayed previously','new car',4870,1<=X<4,3,'male single',none,4,'no known property',53,none,'for free',2,skilled,2,none,yes,bad
5,'no checking',36,'existing paid',education,9055,1<=X<4,2,'male single',none,4,'no known property',35,none,'for free',1,'unskilled resident',2,yes,yes,good
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,'no checking',12,'existing paid',furniture/equipment,1736,4<=X<7,3,'female div/dep/mar',none,4,'real estate',31,none,own,1,'unskilled resident',1,none,yes,good
996,<0,30,'existing paid','used car',3857,1<=X<4,4,'male div/sep',none,4,'life insurance',40,none,own,1,'high qualif/self emp/mgmt',1,yes,yes,good
997,'no checking',12,'existing paid',radio/tv,804,>=7,4,'male single',none,4,car,38,none,own,1,skilled,1,none,yes,good
998,<0,45,'existing paid',radio/tv,1845,1<=X<4,4,'male single',none,4,'no known property',23,none,'for free',1,skilled,1,yes,yes,bad


#### Preencher Dados NULL

In [25]:
df['duration'].fillna(0, inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['duration'].fillna(0, inplace=True)


## <center>SERIES</center>

* Podemos entender as Séries como um conjunto de dados de uma coluna de uma tabela Pandas.

### Criação de Séries

In [26]:
lista = [2,4,5,6,7,34,56,78,85]

In [27]:
# Criação a partir de uma lista do Python
s1 = pd.Series(lista)
print(type(s1))
print(s1)

<class 'pandas.core.series.Series'>
0     2
1     4
2     5
3     6
4     7
5    34
6    56
7    78
8    85
dtype: int64


In [28]:
# Criação a partid e um array do Numpy
array = np.array(lista)
s2 = pd.Series(array)
print(type(s2))
print(s2)

<class 'pandas.core.series.Series'>
0     2
1     4
2     5
3     6
4     7
5    34
6    56
7    78
8    85
dtype: int64


In [29]:
# Criação a partir de um DataFrame
s3 = df['purpose']
print(type(s3))
print(s3)

<class 'pandas.core.series.Series'>
1                 radio/tv
2                education
3      furniture/equipment
4                'new car'
5                education
              ...         
995    furniture/equipment
996             'used car'
997               radio/tv
998               radio/tv
999             'used car'
Name: purpose, Length: 999, dtype: object
