## TREINANDO A BIBLIOTECA PANDAS

# Informações Teóricas

A biblioteca Pandas permite tornar o Python em uma ferramenta poderosa de análise/tratamento de dados

Permite trabalhar:

* Tabulares, com colunas heterogeneas;
* Séries Temporais Ordenadas e Não Ordenadas;
* Dados Observacionais e Estatísticos;
* Matriz arbitrária.


Framework Para Compreensão e Tratamento de Dados:

* Objetivo Central da Pesquisa é Responder Questões de Negócio, para isso precisamos:

* Fazer o Upload do Conjunto de Dados (diversas fontes);
* Leitura e Análise dos Metadados (pesquisa exploratória na base que teremos);
* Entendimento da Estrutura do DataSet;
* Extração de Informações Específicas;
* Organização e Tratamento dos Dados;
* Análises Exploratórias e Extração de Atributos das Informações.


Estrutura de Dados

* Series - Um array com somente uma dimensão homogenea
* DataFrame - Dados em estrutura Tabular com linhas e colunas, com 2 dimensões

Importando a Biblioteca

In [None]:
# Instalando a biblioteca

!pip install pandas

In [None]:
#Importando a biblioteca

import pandas as pd

#pd.functon

In [None]:
#Definindo listas e criando Series

clientes = [
    'Alan Alves','Amanda Alves','Heitor Alves','Isadora Alves'
]

print(clientes)
type(clientes)

indices = [
    0,1,2,3
]

print(indices)

pd.Series(data = clientes,
          index = indices,
          name = 'Nome dos Clientes')

['Alan Alves', 'Amanda Alves', 'Heitor Alves', 'Isadora Alves']
[0, 1, 2, 3]


0       Alan Alves
1     Amanda Alves
2     Heitor Alves
3    Isadora Alves
Name: Nome dos Clientes, dtype: object

In [None]:
# Criando um DataFrame

df = pd.DataFrame({
  'Nome':['Alan Alves','Amanda Alves','Heitor Alves','Isadora Alves'],
  'Idade':[31,30,7,7],
  'Sexo':['M','F','M','F']})

df

Unnamed: 0,Nome,Idade,Sexo
0,Alan Alves,31,M
1,Amanda Alves,30,F
2,Heitor Alves,7,M
3,Isadora Alves,7,F


# Ex 1 - Aplicando o tratamento de dados em um DataFrame  

Temos em mãos uma tabela com os dados de alguns clientes de um Banco em Taiwan e precisaremos tratar estes dados para obter Insights Importantes.

Objetivo: Apresentar um panorama consolidado sobre a situação dos clientes no banco para o restantes da Empresa

Link: https://www.kaggle.com/datasets/jishnukoliyadan/taiwan-default-credit-card-clients

## Passo 1 - Importe e Leitura dos Metadados (Exploração Inicial da Base)

In [None]:
#Importando Pandas

#!pip install pandas

import pandas as pd

In [None]:
credit = pd.read_csv("C:/Users/GITHUB/PythonStudy/DataFrame_CreditCards.csv")

credit.info() #Informações básicas sobre a coluna

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30000 entries, 0 to 29999
Data columns (total 25 columns):
 #   Column                      Non-Null Count  Dtype
---  ------                      --------------  -----
 0   ID                          30000 non-null  int64
 1   LIMIT_BAL                   30000 non-null  int64
 2   SEX                         30000 non-null  int64
 3   EDUCATION                   30000 non-null  int64
 4   MARRIAGE                    30000 non-null  int64
 5   AGE                         30000 non-null  int64
 6   PAY_0                       30000 non-null  int64
 7   PAY_2                       30000 non-null  int64
 8   PAY_3                       30000 non-null  int64
 9   PAY_4                       30000 non-null  int64
 10  PAY_5                       30000 non-null  int64
 11  PAY_6                       30000 non-null  int64
 12  BILL_AMT1                   30000 non-null  int64
 13  BILL_AMT2                   30000 non-null  int64
 14  BILL_A

In [None]:
credit.head(10) #Demonstra as primeiras linhas dos dados

credit.tail(10) #Demonstra as ultimas linhas dos dados

Unnamed: 0,ID,LIMIT_BAL,SEX,EDUCATION,MARRIAGE,AGE,PAY_0,PAY_2,PAY_3,PAY_4,...,BILL_AMT4,BILL_AMT5,BILL_AMT6,PAY_AMT1,PAY_AMT2,PAY_AMT3,PAY_AMT4,PAY_AMT5,PAY_AMT6,default payment next month
29990,29991,140000,1,2,1,41,0,0,0,0,...,138262,49675,46121,6000,7000,4228,1505,2000,2000,0
29991,29992,210000,1,2,1,34,3,2,2,2,...,2500,2500,2500,0,0,0,0,0,0,1
29992,29993,10000,1,3,1,43,0,0,0,-2,...,0,0,0,2000,0,0,0,0,0,0
29993,29994,100000,1,1,2,38,0,-1,-1,0,...,70626,69473,55004,2000,111784,4000,3000,2000,2000,0
29994,29995,80000,1,2,2,34,2,2,2,2,...,77519,82607,81158,7000,3500,0,7000,0,4000,1
29995,29996,220000,1,3,1,39,0,0,0,0,...,88004,31237,15980,8500,20000,5003,3047,5000,1000,0
29996,29997,150000,1,3,2,43,-1,-1,-1,-1,...,8979,5190,0,1837,3526,8998,129,0,0,0
29997,29998,30000,1,2,2,37,4,3,2,-1,...,20878,20582,19357,0,0,22000,4200,2000,3100,1
29998,29999,80000,1,3,1,41,1,-1,0,0,...,52774,11855,48944,85900,3409,1178,1926,52964,1804,1
29999,30000,50000,1,2,1,46,0,0,0,0,...,36535,32428,15313,2078,1800,1430,1000,1000,1000,1


In [None]:
#Visualizando as dimensões do DataFrame

credit.shape # Linhas x Colunas

(30000, 25)

In [None]:
#Alterando o nome das colunas

credit_renamed = credit.rename(columns=
    {"LIMIT_BAL":"valor_credito",
     "SEX":"sexo",
     "EDUCATION":"nivel_escolaridade",
     "MARRIAGE":"estado_civil",
     "AGE":"Idade",
     "PAY_0":"status_pag_set_2005",
     "PAY_2":"status_pag_ago_2005",
     "PAY_3":"status_pag_jul_2005",
     "PAY_4":"status_pag_jun_2005",
     "PAY_5":"status_pag_mai_2005",
     "PAY_6":"status_pag_abr_2005",
     "BILL_AMT1":"extrato_set_2005",
     "BILL_AMT2":"extrato_ago_2005",
     "BILL_AMT3":"extrato_jul_2005",
     "BILL_AMT4":"extrato_jun_2005",
     "BILL_AMT5":"extrato_mai_2005",
     "BILL_AMT6":"extrato_abr_2005",
     "PAY_AMT1":"valor_pag_set_2005",
     "PAY_AMT2":"valor_pag_ago_2005",
     "PAY_AMT3":"valor_pag_jul_2005",
     "PAY_AMT4":"valor_pag_jun_2005",
     "PAY_AMT5":"valor_pag_mai_2005",
     "PAY_AMT6":"valor_pag_abr_2005"}
)

In [None]:
#Removendo colunas

credit_renamed.drop(["default payment next month"], axis=1, inplace=True)

#Parametro axis delimita se a alteração é na linhas ou na coluna (axis=0 linha, axis=1 coluna)
#Parametro inplace=True/False substitui a informação diretamente do dataframe original

credit_renamed.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30000 entries, 0 to 29999
Data columns (total 24 columns):
 #   Column               Non-Null Count  Dtype
---  ------               --------------  -----
 0   ID                   30000 non-null  int64
 1   valor_credito        30000 non-null  int64
 2   sexo                 30000 non-null  int64
 3   nivel_escolaridade   30000 non-null  int64
 4   estado_civil         30000 non-null  int64
 5   Idade                30000 non-null  int64
 6   status_pag_set_2005  30000 non-null  int64
 7   status_pag_ago_2005  30000 non-null  int64
 8   status_pag_jul_2005  30000 non-null  int64
 9   status_pag_jun_2005  30000 non-null  int64
 10  status_pag_mai_2005  30000 non-null  int64
 11  status_pag_abr_2005  30000 non-null  int64
 12  extrato_set_2005     30000 non-null  int64
 13  extrato_ago_2005     30000 non-null  int64
 14  extrato_jul_2005     30000 non-null  int64
 15  extrato_jun_2005     30000 non-null  int64
 16  extrato_mai_2005     3

In [None]:
#Escrevendo dados tabulares e exportando Excel

#!pip install openpyxl - O pandas usa o openpyxl como um dos motores para exportar arquivos no formato .xlsx
# Caso apresente problemas, instale essa biblioteca

credit_renamed.to_excel("DataFrame_CreditCards.xlsx")

## Passo 2 - Entendendo a Estratura do DataSet

In [None]:
credit = pd.read_excel("C:/Users/GITHUB/PythonStudy/DataFrame_CreditCards.xlsx")

In [None]:
#Acessando o rótulo das linhas
#index

credit.index

RangeIndex(start=0, stop=30000, step=1)

In [None]:
#Acessando o rótulo das colunas

print(credit.columns)
print(credit.keys())

#Duas funções que tem o mesmo objetivo

Index(['Unnamed: 0', 'ID', 'valor_credito', 'sexo', 'nivel_escolaridade',
       'estado_civil', 'Idade', 'status_pag_set_2005', 'status_pag_ago_2005',
       'status_pag_jul_2005', 'status_pag_jun_2005', 'status_pag_mai_2005',
       'status_pag_abr_2005', 'extrato_set_2005', 'extrato_ago_2005',
       'extrato_jul_2005', 'extrato_jun_2005', 'extrato_mai_2005',
       'extrato_abr_2005', 'valor_pag_set_2005', 'valor_pag_ago_2005',
       'valor_pag_jul_2005', 'valor_pag_jun_2005', 'valor_pag_mai_2005',
       'valor_pag_abr_2005'],
      dtype='object')
Index(['Unnamed: 0', 'ID', 'valor_credito', 'sexo', 'nivel_escolaridade',
       'estado_civil', 'Idade', 'status_pag_set_2005', 'status_pag_ago_2005',
       'status_pag_jul_2005', 'status_pag_jun_2005', 'status_pag_mai_2005',
       'status_pag_abr_2005', 'extrato_set_2005', 'extrato_ago_2005',
       'extrato_jul_2005', 'extrato_jun_2005', 'extrato_mai_2005',
       'extrato_abr_2005', 'valor_pag_set_2005', 'valor_pag_ago_2005',
   

In [None]:
#Identificando os valores do DataSet a partir de um objeto do tipo ndarray

credit.values

array([[     0,      1,  20000, ...,      0,      0,      0],
       [     1,      2, 120000, ...,   1000,      0,   2000],
       [     2,      3,  90000, ...,   1000,   1000,   5000],
       ...,
       [ 29997,  29998,  30000, ...,   4200,   2000,   3100],
       [ 29998,  29999,  80000, ...,   1926,  52964,   1804],
       [ 29999,  30000,  50000, ...,   1000,   1000,   1000]],
      shape=(30000, 25))

In [None]:
credit.to_numpy() #Convertendo em um arra Numpy

array([[     0,      1,  20000, ...,      0,      0,      0],
       [     1,      2, 120000, ...,   1000,      0,   2000],
       [     2,      3,  90000, ...,   1000,   1000,   5000],
       ...,
       [ 29997,  29998,  30000, ...,   4200,   2000,   3100],
       [ 29998,  29999,  80000, ...,   1926,  52964,   1804],
       [ 29999,  30000,  50000, ...,   1000,   1000,   1000]],
      shape=(30000, 25))

In [None]:
#Verificando a tipagem dos dados

credit.dtypes

Unnamed: 0             int64
ID                     int64
valor_credito          int64
sexo                   int64
nivel_escolaridade     int64
estado_civil           int64
Idade                  int64
status_pag_set_2005    int64
status_pag_ago_2005    int64
status_pag_jul_2005    int64
status_pag_jun_2005    int64
status_pag_mai_2005    int64
status_pag_abr_2005    int64
extrato_set_2005       int64
extrato_ago_2005       int64
extrato_jul_2005       int64
extrato_jun_2005       int64
extrato_mai_2005       int64
extrato_abr_2005       int64
valor_pag_set_2005     int64
valor_pag_ago_2005     int64
valor_pag_jul_2005     int64
valor_pag_jun_2005     int64
valor_pag_mai_2005     int64
valor_pag_abr_2005     int64
dtype: object

In [None]:
#Iterando entre linhas e colunas (Laços For e While)

for index, row in credit.iterrows(): #iterrows permite navegar entre cada uma das linhas como objeto Series
    print(index)
    print(row)

## Passo 3 - Extração de informações específicas

In [None]:
#Acessando uma coluna

credit["valor_credito"]
credit.valor_credito

#Duas funções que tem o mesmo objetivo


0         20000
1        120000
2         90000
3         50000
4         50000
          ...  
29995    220000
29996    150000
29997     30000
29998     80000
29999     50000
Name: valor_credito, Length: 30000, dtype: int64

In [None]:
#Acessando mais de uma coluna - listas dentro de listas

credit[['valor_credito', 'sexo', 'nivel_escolaridade']]

Unnamed: 0,valor_credito,sexo,nivel_escolaridade
0,20000,2,2
1,120000,2,2
2,90000,2,2
3,50000,2,2
4,50000,1,2
...,...,...,...
29995,220000,1,3
29996,150000,1,3
29997,30000,1,2
29998,80000,1,3


In [None]:
# Filtrando colunas

credit.filter(like="jul")

Unnamed: 0,status_pag_jul_2005,extrato_jul_2005,valor_pag_jul_2005
0,-1,689,0
1,0,2682,1000
2,0,13559,1000
3,0,49291,1200
4,-1,35835,10000
...,...,...,...
29995,0,208365,5003
29996,-1,3502,8998
29997,2,2758,22000
29998,0,76304,1178


In [None]:
#Acessando uma linha

credit.loc[0]


Unnamed: 0                 0
ID                         1
valor_credito          20000
sexo                       2
nivel_escolaridade         2
estado_civil               1
Idade                     24
status_pag_set_2005        2
status_pag_ago_2005        2
status_pag_jul_2005       -1
status_pag_jun_2005       -1
status_pag_mai_2005       -2
status_pag_abr_2005       -2
extrato_set_2005        3913
extrato_ago_2005        3102
extrato_jul_2005         689
extrato_jun_2005           0
extrato_mai_2005           0
extrato_abr_2005           0
valor_pag_set_2005         0
valor_pag_ago_2005       689
valor_pag_jul_2005         0
valor_pag_jun_2005         0
valor_pag_mai_2005         0
valor_pag_abr_2005         0
Name: 0, dtype: int64

In [None]:
#Acessando mais de uma linha

credit.loc[0:4]

Unnamed: 0.1,Unnamed: 0,ID,valor_credito,sexo,nivel_escolaridade,estado_civil,Idade,status_pag_set_2005,status_pag_ago_2005,status_pag_jul_2005,...,extrato_jul_2005,extrato_jun_2005,extrato_mai_2005,extrato_abr_2005,valor_pag_set_2005,valor_pag_ago_2005,valor_pag_jul_2005,valor_pag_jun_2005,valor_pag_mai_2005,valor_pag_abr_2005
0,0,1,20000,2,2,1,24,2,2,-1,...,689,0,0,0,0,689,0,0,0,0
1,1,2,120000,2,2,2,26,-1,2,0,...,2682,3272,3455,3261,0,1000,1000,1000,0,2000
2,2,3,90000,2,2,2,34,0,0,0,...,13559,14331,14948,15549,1518,1500,1000,1000,1000,5000
3,3,4,50000,2,2,1,37,0,0,0,...,49291,28314,28959,29547,2000,2019,1200,1100,1069,1000
4,4,5,50000,1,2,1,57,-1,0,-1,...,35835,20940,19146,19131,2000,36681,10000,9000,689,679


In [None]:
#Acessando linhas e colunas juntas - listas dentro de listas

credit.loc[0:2, ['valor_credito','sexo']]

Unnamed: 0,valor_credito,sexo
0,20000,2
1,120000,2
2,90000,2


In [None]:
#Utilizando iloc - utiliza números correspondentes aos locais dos eixos

credit.iloc[0:2, 1:6]

Unnamed: 0,ID,valor_credito,sexo,nivel_escolaridade,estado_civil
0,1,20000,2,2,1
1,2,120000,2,2,2


In [None]:
#Acessando linhas a partir de mascaras booleanas - Se o valor for True ele traz a informação de acordo com o solicitado

credit[credit["nivel_escolaridade"]==2]

Unnamed: 0.1,Unnamed: 0,ID,valor_credito,sexo,nivel_escolaridade,estado_civil,Idade,status_pag_set_2005,status_pag_ago_2005,status_pag_jul_2005,...,extrato_jul_2005,extrato_jun_2005,extrato_mai_2005,extrato_abr_2005,valor_pag_set_2005,valor_pag_ago_2005,valor_pag_jul_2005,valor_pag_jun_2005,valor_pag_mai_2005,valor_pag_abr_2005
0,0,1,20000,2,2,1,24,2,2,-1,...,689,0,0,0,0,689,0,0,0,0
1,1,2,120000,2,2,2,26,-1,2,0,...,2682,3272,3455,3261,0,1000,1000,1000,0,2000
2,2,3,90000,2,2,2,34,0,0,0,...,13559,14331,14948,15549,1518,1500,1000,1000,1000,5000
3,3,4,50000,2,2,1,37,0,0,0,...,49291,28314,28959,29547,2000,2019,1200,1100,1069,1000
4,4,5,50000,1,2,1,57,-1,0,-1,...,35835,20940,19146,19131,2000,36681,10000,9000,689,679
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
29990,29990,29991,140000,1,2,1,41,0,0,0,...,139110,138262,49675,46121,6000,7000,4228,1505,2000,2000
29991,29991,29992,210000,1,2,1,34,3,2,2,...,2500,2500,2500,2500,0,0,0,0,0,0
29994,29994,29995,80000,1,2,2,34,2,2,2,...,79384,77519,82607,81158,7000,3500,0,7000,0,4000
29997,29997,29998,30000,1,2,2,37,4,3,2,...,2758,20878,20582,19357,0,0,22000,4200,2000,3100


## Passo 4 - Organização e Tratamento dos Dados

In [None]:
#Identificando valores Não Nulos

credit.notnull()

Unnamed: 0.1,Unnamed: 0,ID,valor_credito,sexo,nivel_escolaridade,estado_civil,Idade,status_pag_set_2005,status_pag_ago_2005,status_pag_jul_2005,...,extrato_jul_2005,extrato_jun_2005,extrato_mai_2005,extrato_abr_2005,valor_pag_set_2005,valor_pag_ago_2005,valor_pag_jul_2005,valor_pag_jun_2005,valor_pag_mai_2005,valor_pag_abr_2005
0,True,True,True,True,True,True,True,True,True,True,...,True,True,True,True,True,True,True,True,True,True
1,True,True,True,True,True,True,True,True,True,True,...,True,True,True,True,True,True,True,True,True,True
2,True,True,True,True,True,True,True,True,True,True,...,True,True,True,True,True,True,True,True,True,True
3,True,True,True,True,True,True,True,True,True,True,...,True,True,True,True,True,True,True,True,True,True
4,True,True,True,True,True,True,True,True,True,True,...,True,True,True,True,True,True,True,True,True,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
29995,True,True,True,True,True,True,True,True,True,True,...,True,True,True,True,True,True,True,True,True,True
29996,True,True,True,True,True,True,True,True,True,True,...,True,True,True,True,True,True,True,True,True,True
29997,True,True,True,True,True,True,True,True,True,True,...,True,True,True,True,True,True,True,True,True,True
29998,True,True,True,True,True,True,True,True,True,True,...,True,True,True,True,True,True,True,True,True,True


In [None]:
#Identificando valores Nulos

credit.isnull()

Unnamed: 0.1,Unnamed: 0,ID,valor_credito,sexo,nivel_escolaridade,estado_civil,Idade,status_pag_set_2005,status_pag_ago_2005,status_pag_jul_2005,...,extrato_jul_2005,extrato_jun_2005,extrato_mai_2005,extrato_abr_2005,valor_pag_set_2005,valor_pag_ago_2005,valor_pag_jul_2005,valor_pag_jun_2005,valor_pag_mai_2005,valor_pag_abr_2005
0,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
29995,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
29996,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
29997,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
29998,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False


In [None]:
#Somando valores nulos

credit.isnull().sum() #Para cada coluna demonstra a quantidade de nulos

Unnamed: 0             0
ID                     0
valor_credito          0
sexo                   0
nivel_escolaridade     0
estado_civil           0
Idade                  0
status_pag_set_2005    0
status_pag_ago_2005    0
status_pag_jul_2005    0
status_pag_jun_2005    0
status_pag_mai_2005    0
status_pag_abr_2005    0
extrato_set_2005       0
extrato_ago_2005       0
extrato_jul_2005       0
extrato_jun_2005       0
extrato_mai_2005       0
extrato_abr_2005       0
valor_pag_set_2005     0
valor_pag_ago_2005     0
valor_pag_jul_2005     0
valor_pag_jun_2005     0
valor_pag_mai_2005     0
valor_pag_abr_2005     0
dtype: int64

In [None]:
#Filtrando as linhas que estão nulas a partir do ID

credit[credit["ID"].isnull()]

Unnamed: 0.1,Unnamed: 0,ID,valor_credito,sexo,nivel_escolaridade,estado_civil,Idade,status_pag_set_2005,status_pag_ago_2005,status_pag_jul_2005,...,extrato_jul_2005,extrato_jun_2005,extrato_mai_2005,extrato_abr_2005,valor_pag_set_2005,valor_pag_ago_2005,valor_pag_jul_2005,valor_pag_jun_2005,valor_pag_mai_2005,valor_pag_abr_2005


In [None]:
#Excluindo valores nulos
#notna()

credit2 = credit[credit["ID"].notna()] #Remove as linhas com os valores nulos

In [None]:
#Excluindo valores nulos
#dropna()

credit3 = credit.dropna(how="all")

#Parametro "all" remove as linhas cuja todos valores das colunas sejam nulos
#Parametro "any" remove as linhas caso haja pelo menos um valor nulo em uma das colunas


In [None]:
#Removendo duplicatas
#drop_duplicates()

credit.drop_duplicates(subset='ID',keep='First',inplace=True)

#Parametro subset especifica a coluna ou lista de rotulos de colunas
#Parametro keep especifica qual das linhas devemos manter mediante a duplicata
# -- first = mantém a primeira ocorrencia
# -- last = mantém a ultima ocorrencia
# -- False = elimina todas as ocorrencias
#Parametro inplace remove as linhas como duplicatas se True

In [None]:
#Agrupando as informações

credit_grouped = credit.groupby(['nivel_escolaridade']).sum().reset_index()

credit_grouped

Unnamed: 0.1,nivel_escolaridade,Unnamed: 0,ID,valor_credito,sexo,estado_civil,Idade,status_pag_set_2005,status_pag_ago_2005,status_pag_jul_2005,...,extrato_jul_2005,extrato_jun_2005,extrato_mai_2005,extrato_abr_2005,valor_pag_set_2005,valor_pag_ago_2005,valor_pag_jul_2005,valor_pag_jun_2005,valor_pag_mai_2005,valor_pag_abr_2005
0,0,239265,239279,3040000,20,24,544,-7,-14,-13,...,245300,186903,103727,73821,83241,182433,123552,50688,35584,42101
1,1,155559406,155569991,2254140000,16816,17490,362344,-2476,-4320,-4508,...,484599180,454425325,427516414,409301585,71776182,77340596,69443800,61441327,61144911,67982743
2,2,210776026,210790056,2063286000,22686,21368,487151,1434,316,-260,...,682730127,627825380,583487585,567260172,71278900,71647160,63931904,61386684,62471082,66172313
3,3,75433241,75438158,622247680,7844,6988,198155,653,201,13,...,213598987,190379269,176802877,170642505,23928076,24847834,19491267,19631902,17699523,18811208
4,4,2231521,2231644,27170000,204,197,4164,-62,-95,-94,...,5533008,4867143,4162334,3952744,670413,806266,1228847,627898,736972,527051
5,5,4883946,4884226,47086000,465,413,9968,-34,-85,-105,...,20088140,17437215,14999044,12903481,1671800,2495618,2161183,1379653,1297309,2176192
6,6,861595,861646,7560000,77,76,2239,-9,-16,-19,...,3599902,2767234,2270048,2018504,498803,314998,389892,264154,596248,753469


## Passo 5 - Análises Exploratórias e Extração de Atributos das Informações

In [None]:
#Extraindo um sumário de estatísticas descritivas

credit.describe()

Unnamed: 0.1,Unnamed: 0,ID,valor_credito,sexo,nivel_escolaridade,estado_civil,Idade,status_pag_set_2005,status_pag_ago_2005,status_pag_jul_2005,...,extrato_jul_2005,extrato_jun_2005,extrato_mai_2005,extrato_abr_2005,valor_pag_set_2005,valor_pag_ago_2005,valor_pag_jul_2005,valor_pag_jun_2005,valor_pag_mai_2005,valor_pag_abr_2005
count,30000.0,30000.0,30000.0,30000.0,30000.0,30000.0,30000.0,30000.0,30000.0,30000.0,...,30000.0,30000.0,30000.0,30000.0,30000.0,30000.0,30000.0,30000.0,30000.0,30000.0
mean,14999.5,15000.5,167484.322667,1.603733,1.853133,1.551867,35.4855,-0.0167,-0.133767,-0.1662,...,47013.15,43262.948967,40311.400967,38871.7604,5663.5805,5921.163,5225.6815,4826.076867,4799.387633,5215.502567
std,8660.398374,8660.398374,129747.661567,0.489129,0.790349,0.52197,9.217904,1.123802,1.197186,1.196868,...,69349.39,64332.856134,60797.15577,59554.107537,16563.280354,23040.87,17606.96147,15666.159744,15278.305679,17777.465775
min,0.0,1.0,10000.0,1.0,0.0,0.0,21.0,-2.0,-2.0,-2.0,...,-157264.0,-170000.0,-81334.0,-339603.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,7499.75,7500.75,50000.0,1.0,1.0,1.0,28.0,-1.0,-1.0,-1.0,...,2666.25,2326.75,1763.0,1256.0,1000.0,833.0,390.0,296.0,252.5,117.75
50%,14999.5,15000.5,140000.0,2.0,2.0,2.0,34.0,0.0,0.0,0.0,...,20088.5,19052.0,18104.5,17071.0,2100.0,2009.0,1800.0,1500.0,1500.0,1500.0
75%,22499.25,22500.25,240000.0,2.0,2.0,2.0,41.0,0.0,0.0,0.0,...,60164.75,54506.0,50190.5,49198.25,5006.0,5000.0,4505.0,4013.25,4031.5,4000.0
max,29999.0,30000.0,1000000.0,2.0,6.0,3.0,79.0,8.0,8.0,8.0,...,1664089.0,891586.0,927171.0,961664.0,873552.0,1684259.0,896040.0,621000.0,426529.0,528666.0


In [None]:
credit['extrato_set_2005'].describe()

count     30000.000000
mean      51223.330900
std       73635.860576
min     -165580.000000
25%        3558.750000
50%       22381.500000
75%       67091.000000
max      964511.000000
Name: extrato_set_2005, dtype: float64

### Revisando conceitos Estatísticos

* Variável Aleatória - É uma função que associa cada elemento da população a um número, podendo ser:

* Um atributo quantitativo: quantidade de informações, por ex: valor_credito
* Um atributo qualitativo (categórico): definição de categoria, por ex: sexo

Uma variável aleatória pode estar a associada a mesma categoria de outra variável, porém não deve conter dupla cateagorização para si mesma (por exemplo, não podemos ser masculino e feminino ao mesmo tempo)

A variável também não pode estar associada a dados nulos.

Os aspectos principais de uma V.A. são:

* Posição (medidas de tendencia central);
* Dispersão (medidas de variabilidade);
* Forma

Meidas de Posição

In [None]:
#Média - ponto de equilibrio da distribuição,ponto central

credit['valor_credito'].mean()

np.float64(167484.32266666667)

In [None]:
#Mediana - ponto que divide a distribuição em duas partes iguais

credit['valor_credito'].median()

np.float64(140000.0)

In [None]:
#Moda - valor que ocorre com a maior frequencia

credit['valor_credito'].mode()

0    50000
Name: valor_credito, dtype: int64

Medidas de Dispersão

In [None]:
# Variancia - media dos desvios quadraticos da v.a. (em relação a média)

credit['valor_credito'].var()

np.float64(16834455682.15729)

In [None]:
# Desvio Padrão - sendo a raiz quadrada da variancia, ele demonstra a variabilidade do dado (em relação a média)

credit['valor_credito'].std()

np.float64(129747.66156720239)

# Ex 2 - Analisando um conjunto de Dados Personalizado

Pandas & Seaborn
Contexto: Iremos simular a realização de uma prova de redação em nível nacional. Sendo assim:

1. Crie um data frame pandas com 1000 amostras em cada uma das seguintes colunas:
   1. Idade: números inteiros aleatórios entre 0 e 100 (inclusos).
   1. Data: datas aleatórias entre 01/01/2000 até 31/01/2000.
   1. Nota: Números decimais entre 0 e 1000.
   1. Sexo: Valores aleatórios de M ou F
   1. Estado: Valores aleatórios entre os estados do Brasil.
1. Utilizando pandas, realize as seguintes alterações no dataset:
   1. Transforme 20% das notas em valores nulos, simulando alunos que não compareceram à prova.
   1. Preencha as notas nulas com valor 0, simulando uma atribuição automática do sistema.
   1. Remova alunos com idades inferiores a 18 e superiores a 80, simulando uma filtragem automática do sistema para alunos com idades incosistentes.
   1. Crie um novo campo de aprovado para os alunos restantes que obtiveram nota igual ou superior a 600. Simulando uma correção automática.
   1. Crie um campo novo indicando o dia da semana para todas as datas.
1. Gere um relatório com os seguintes tópicos:
   1. Tabela cruzada de participantes de cada sexo por estado.
   1. Gráfico de pizza da quantidade de aprovados por sexo, e um de barras com a quantidade de aprovados por estado.
   1. Gráfico de pontos de nota por idade, colorindo por sexo.
    1. Gráfico de barras com a participação por dia da semana e por dia do mês.
    1. Gráfico de pontos das notas por dia da semana
1. Salve um arquivo csv com as notas dos 100 melhores alunos ordenados da melhor nota para a pior


In [None]:
#Além do Pandas, precisaremos de algumas bibliotecas ´para desmonstracção gráfica dos dados

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

seed = 0
amostras = 1000

np.random.seed(seed)

estados = [
  'AC', 'AL', 'AP',
  'AM', 'BA', 'CE',
  'ES', 'GO', 'MA',
  'MT', 'MS', 'MG',
  'PA', 'PB', 'PR',
  'PE', 'PI', 'RJ',
  'RN', 'RS', 'RO',
  'RR', 'SC', 'SP',
  'SE', 'TO', 'DF',
]

df = pd.DataFrame({
  'idade': np.random.randint(0,100, size= amostras),
  'data': np.random.choice(pd.date_range('2000-01-01', '2000-01-31'), size=amostras),
  'nota': np.random.uniform(0,1000, amostras),
  'sexo': np.random.choice(['M', 'F'], size=amostras),
  'estado': np.random.choice(estados, size=amostras)
})

In [None]:
df.loc[df.index.to_series().sample(frac=.2, random_state=seed), 'nota'] = np.nan
df.nota.isna().value_counts()
df.nota.fillna(0, inplace=True)
gt_18 = df.idade > 18
lt_80 = df.idade < 80
filtro = gt_18 & lt_80
df = df[filtro]
df['aprovado'] = df.nota >= 600
df

Unnamed: 0,idade,data,nota,sexo,estado,aprovado
0,44,2000-01-05,268.709029,M,PI,False
1,47,2000-01-19,0.000000,F,AP,False
2,64,2000-01-24,955.568394,M,DF,True
3,67,2000-01-22,316.550210,M,MS,False
4,67,2000-01-31,826.805270,F,GO,True
...,...,...,...,...,...,...
993,33,2000-01-14,0.000000,M,PE,False
995,26,2000-01-05,847.739332,F,MT,True
996,48,2000-01-23,0.000000,M,PB,False
997,71,2000-01-21,713.246013,M,ES,True


In [None]:
df['dia_semana'] = df.data.dt.weekday
mapa = {
    0:'Segunda',
    1:'Terça',
    2:'Quarta',
    3:'Quinta',
    4:'Sexta',
    5:'Sábado',
    6:'Domingo',
}
df['dia_semana'] = df['dia_semana'].map(mapa)
df

Unnamed: 0,idade,data,nota,sexo,estado,aprovado,dia_semana
0,44,2000-01-05,268.709029,M,PI,False,Quarta
1,47,2000-01-19,0.000000,F,AP,False,Quarta
2,64,2000-01-24,955.568394,M,DF,True,Segunda
3,67,2000-01-22,316.550210,M,MS,False,Sábado
4,67,2000-01-31,826.805270,F,GO,True,Segunda
...,...,...,...,...,...,...,...
993,33,2000-01-14,0.000000,M,PE,False,Sexta
995,26,2000-01-05,847.739332,F,MT,True,Quarta
996,48,2000-01-23,0.000000,M,PB,False,Domingo
997,71,2000-01-21,713.246013,M,ES,True,Sexta


In [None]:
df.shape

(606, 7)

In [None]:
pd.crosstab(df.estado, df.sexo)

sexo,F,M
estado,Unnamed: 1_level_1,Unnamed: 2_level_1
AC,13,12
AL,7,16
AM,8,12
AP,15,11
BA,13,11
CE,20,14
DF,10,10
ES,13,13
GO,20,11
MA,13,12


In [None]:
df[df.aprovado].sexo.value_counts().plot(kind='pie', autopct='%.2f%%',startangle=90)
plt.title('Aprovados')
plt.plot()

In [None]:
plt.figure(figsize=(10, 10))
df[df.aprovado].estado.value_counts().sort_values(ascending=True).plot(kind='barh')
plt.title('Aprovados')
plt.plot()

In [None]:
# df.plot(kind='scatter', x='idade', y='nota', color='aprovado', alpha=.7)
# plt.title('Notas por idade')
# plt.show()
plt.figure(figsize=(10,10))
sns.scatterplot(data=df, x='idade', y='nota', hue='sexo')
plt.show()

In [None]:
plt.figure(figsize=(10, 10))
df.dia_semana.value_counts().plot(kind='bar')
plt.title('Participação');

In [None]:
sns.lineplot(data=df.data.value_counts().to_frame())

In [None]:
df.data.value_counts().plot()
plt.title('Provas Realizadas')
;

In [None]:
plt.figure(figsize=(10,10))
# sns.swarm(data=df, x='dia_semana', y='nota');
sns.stripplot(data=df, x='dia_semana', y='nota');

In [None]:
df.sort_values('nota', ascending=False)\
  .iloc[:100]\
  .to_csv('top100_notas.csv')
  # .head()