# Pandas:

Oferece estruturas de dados e ferramentas de análise de dados de alto desempenho, rápidas e fáceis de usar para manipular dados numéricos e séries temporais. 
Pandas é construído sobre a biblioteca numpy e escrito em linguagens como Python , Cython e C. 
No pandas, podemos importar dados de vários formatos de arquivo como JSON, SQL, Microsoft Excel, etc.

https://acervolima.com/diferenca-entre-pandas-vs-numpy/



In [22]:
import pandas as pd

In [23]:
# Carregar o arquivo .csv para Pandas DataFrame → READ_CSV:
dados = pd.read_csv('Credit.csv')

# Quantidade de linhas e colunas → SHAPE:
dados.shape

# Resumir estatisticamente as colunas numéricas → DESCRIBE:
dados.describe()

# Exibir apenas os 5 primeiros registros → HEAD:
dados.head()

# Exibir apenas os 5 últimos registros → TAIL:
dados.tail()

# Filtrar por nome da coluna:
dados['duration']

# Quando usar loc ou iloc? Basicamente os dois métodos servem para resgatar dados, com características distintas na utilização
# loc: este método é primariamente baseado nas labels da colunas (pode-se utilizar também com um array booleano) df.loc[<linhas>, <colunas>]
# iloc: seleciona por números inteiros das linhas, arrays ou por slice df.iloc[<linhas>, <colunas>]

Uma informação importante sobre loc é: quando nenhum item é encontrado ele retorna um KeyError.

# Filtrar linhas por intercalo → LOC[ : ]:
dados.loc[3:6]

# Filtrar linhas por elementos → LOC[[ , ]]:
dados.loc[[3,6]]

# Aplicar filtro na coluna:
dados.loc[dados['purpose'] == "radio/tv"]

# Aplicar filtro na coluna usando uma condição:
dados.loc[dados['credit_amount'] > 18000]

# Armazenar dados filtrados em um novo DataFrame:
credito1 = dados.loc[dados['credit_amount'] > 18000]
print(credito1)

# Armazenar dados filtrados em um novo DataFrame com mais colunas:
credito2 = dados[['checking_status', 'duration']].loc[dados['credit_amount'] > 18000]
print(credito2)




    checking_status  duration         credit_history purpose  credit_amount  \
915        0<=X<200        48  'no credits/all paid'   other          18424   

    savings_status employment  installment_commitment       personal_status  \
915           <100     1<=X<4                       1  'female div/dep/mar'   

    other_parties  ...  property_magnitude age  other_payment_plans housing  \
915          none  ...    'life insurance'  32                 bank     own   

    existing_credits                          job num_dependents  \
915                1  'high qualif/self emp/mgmt'              1   

     own_telephone foreign_worker class  
915            yes             no   bad  

[1 rows x 21 columns]
    checking_status  duration
915        0<=X<200        48


In [24]:
# Séries temporais em uma única coluna:
series1 = pd.Series([2, 5, 3, 34, 54, 23, 1, 16])
print(series1, '\n')

# Séries temporais a partir do NumPy:
import numpy as np
matriz = np.array([2, 5, 3, 34, 54, 23, 1, 16])
series2 = pd.Series(matriz)
print(series2, '\n')

# Séries temporais a partir de um DataFrame:
series3 = dados['purpose']
print(series3)
type(series3)


0     2
1     5
2     3
3    34
4    54
5    23
6     1
7    16
dtype: int64 

0     2
1     5
2     3
3    34
4    54
5    23
6     1
7    16
dtype: int32 

0                 radio/tv
1                 radio/tv
2                education
3      furniture/equipment
4                'new car'
              ...         
995    furniture/equipment
996             'used car'
997               radio/tv
998               radio/tv
999             'used car'
Name: purpose, Length: 1000, dtype: object


pandas.core.series.Series

In [25]:
# Séries temporais a partir de um DataFrame:
series3 = dados['purpose'] # ← uma chave só cria uma SERIES
print(series3)
type(series3)

0                 radio/tv
1                 radio/tv
2                education
3      furniture/equipment
4                'new car'
              ...         
995    furniture/equipment
996             'used car'
997               radio/tv
998               radio/tv
999             'used car'
Name: purpose, Length: 1000, dtype: object


pandas.core.series.Series

In [26]:
# Séries temporais a partir de um DataFrame:
series4 = dados[['purpose']]  # ← Duas chaves criam um FRAME
print(series4)
type(series4)

                 purpose
0               radio/tv
1               radio/tv
2              education
3    furniture/equipment
4              'new car'
..                   ...
995  furniture/equipment
996           'used car'
997             radio/tv
998             radio/tv
999           'used car'

[1000 rows x 1 columns]


pandas.core.frame.DataFrame

In [27]:
# Renomear alguma coluna temporariamente → RENAME:
dados.rename(columns={"duration":"duração","purpose":"propósito"})

# Renomear alguma coluna definitivamente → INPLANCE:
dados.rename(columns = {'duration':'duração','purpose':'propósito'}, inplace = True)

dados.head()

Unnamed: 0,checking_status,duração,credit_history,propósito,credit_amount,savings_status,employment,installment_commitment,personal_status,other_parties,...,property_magnitude,age,other_payment_plans,housing,existing_credits,job,num_dependents,own_telephone,foreign_worker,class
0,<0,6,'critical/other existing credit',radio/tv,1169,'no known savings',>=7,4,'male single',none,...,'real estate',67,none,own,2,skilled,1,yes,yes,good
1,0<=X<200,48,'existing paid',radio/tv,5951,<100,1<=X<4,2,'female div/dep/mar',none,...,'real estate',22,none,own,1,skilled,1,none,yes,bad
2,'no checking',12,'critical/other existing credit',education,2096,<100,4<=X<7,2,'male single',none,...,'real estate',49,none,own,1,'unskilled resident',2,none,yes,good
3,<0,42,'existing paid',furniture/equipment,7882,<100,4<=X<7,2,'male single',guarantor,...,'life insurance',45,none,'for free',1,skilled,2,none,yes,good
4,<0,24,'delayed previously','new car',4870,<100,1<=X<4,3,'male single',none,...,'no known property',53,none,'for free',2,skilled,2,none,yes,bad


In [28]:
# Excluir coluna inteira → DROP:
dados.drop('checking_status', axis = 1, inplace = True)
dados.head()

Unnamed: 0,duração,credit_history,propósito,credit_amount,savings_status,employment,installment_commitment,personal_status,other_parties,residence_since,property_magnitude,age,other_payment_plans,housing,existing_credits,job,num_dependents,own_telephone,foreign_worker,class
0,6,'critical/other existing credit',radio/tv,1169,'no known savings',>=7,4,'male single',none,4,'real estate',67,none,own,2,skilled,1,yes,yes,good
1,48,'existing paid',radio/tv,5951,<100,1<=X<4,2,'female div/dep/mar',none,2,'real estate',22,none,own,1,skilled,1,none,yes,bad
2,12,'critical/other existing credit',education,2096,<100,4<=X<7,2,'male single',none,3,'real estate',49,none,own,1,'unskilled resident',2,none,yes,good
3,42,'existing paid',furniture/equipment,7882,<100,4<=X<7,2,'male single',guarantor,4,'life insurance',45,none,'for free',1,skilled,2,none,yes,good
4,24,'delayed previously','new car',4870,<100,1<=X<4,3,'male single',none,4,'no known property',53,none,'for free',2,skilled,2,none,yes,bad


In [30]:
# Verificar dados nulos → ISNULL:
dados.isnull() # ← em formato de matriz "planilha"
dados.isnull().sum() # ← em formato de tabelinha


duração                   0
credit_history            0
propósito                 0
credit_amount             0
savings_status            0
employment                0
installment_commitment    0
personal_status           0
other_parties             0
residence_since           0
property_magnitude        0
age                       0
other_payment_plans       0
housing                   0
existing_credits          0
job                       0
num_dependents            0
own_telephone             0
foreign_worker            0
class                     0
dtype: int64

In [31]:
# Retirar colunas com NaN → DROPNA:
dados.dropna()

Unnamed: 0,duração,credit_history,propósito,credit_amount,savings_status,employment,installment_commitment,personal_status,other_parties,residence_since,property_magnitude,age,other_payment_plans,housing,existing_credits,job,num_dependents,own_telephone,foreign_worker,class
0,6,'critical/other existing credit',radio/tv,1169,'no known savings',>=7,4,'male single',none,4,'real estate',67,none,own,2,skilled,1,yes,yes,good
1,48,'existing paid',radio/tv,5951,<100,1<=X<4,2,'female div/dep/mar',none,2,'real estate',22,none,own,1,skilled,1,none,yes,bad
2,12,'critical/other existing credit',education,2096,<100,4<=X<7,2,'male single',none,3,'real estate',49,none,own,1,'unskilled resident',2,none,yes,good
3,42,'existing paid',furniture/equipment,7882,<100,4<=X<7,2,'male single',guarantor,4,'life insurance',45,none,'for free',1,skilled,2,none,yes,good
4,24,'delayed previously','new car',4870,<100,1<=X<4,3,'male single',none,4,'no known property',53,none,'for free',2,skilled,2,none,yes,bad
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,12,'existing paid',furniture/equipment,1736,<100,4<=X<7,3,'female div/dep/mar',none,4,'real estate',31,none,own,1,'unskilled resident',1,none,yes,good
996,30,'existing paid','used car',3857,<100,1<=X<4,4,'male div/sep',none,4,'life insurance',40,none,own,1,'high qualif/self emp/mgmt',1,yes,yes,good
997,12,'existing paid',radio/tv,804,<100,>=7,4,'male single',none,4,car,38,none,own,1,skilled,1,none,yes,good
998,45,'existing paid',radio/tv,1845,<100,1<=X<4,4,'male single',none,4,'no known property',23,none,'for free',1,skilled,1,yes,yes,bad


In [33]:
# Preencher dados faltantes → FILLNA:
dados['duração'].fillna(0, inplace = True)
dados.head()


Unnamed: 0,duração,credit_history,propósito,credit_amount,savings_status,employment,installment_commitment,personal_status,other_parties,residence_since,property_magnitude,age,other_payment_plans,housing,existing_credits,job,num_dependents,own_telephone,foreign_worker,class
0,6,'critical/other existing credit',radio/tv,1169,'no known savings',>=7,4,'male single',none,4,'real estate',67,none,own,2,skilled,1,yes,yes,good
1,48,'existing paid',radio/tv,5951,<100,1<=X<4,2,'female div/dep/mar',none,2,'real estate',22,none,own,1,skilled,1,none,yes,bad
2,12,'critical/other existing credit',education,2096,<100,4<=X<7,2,'male single',none,3,'real estate',49,none,own,1,'unskilled resident',2,none,yes,good
3,42,'existing paid',furniture/equipment,7882,<100,4<=X<7,2,'male single',guarantor,4,'life insurance',45,none,'for free',1,skilled,2,none,yes,good
4,24,'delayed previously','new car',4870,<100,1<=X<4,3,'male single',none,4,'no known property',53,none,'for free',2,skilled,2,none,yes,bad


In [39]:
# Exibir intervalo personalizado com → [linha_inicio:linha_fim, coluna_inicio:coluna_fim]:
print(dados.iloc[0:3, 0:4], '\n')
dados.iloc[[0, 1, 2, 3, 7], 0:5]

   duração                    credit_history  propósito  credit_amount
0        6  'critical/other existing credit'   radio/tv           1169
1       48                   'existing paid'   radio/tv           5951
2       12  'critical/other existing credit'  education           2096 



Unnamed: 0,duração,credit_history,propósito,credit_amount,savings_status
0,6,'critical/other existing credit',radio/tv,1169,'no known savings'
1,48,'existing paid',radio/tv,5951,<100
2,12,'critical/other existing credit',education,2096,<100
3,42,'existing paid',furniture/equipment,7882,<100
7,36,'existing paid','used car',6948,<100
