<a href="https://colab.research.google.com/github/Ana-ovidio/study_Pandas.py/blob/main/Filter_Handling_Data.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
import pandas as pd 
import numpy as np
from numpy import random
from datetime import datetime

current_date = datetime.now().strftime('%Y%m%d')
date = pd.date_range(current_date, periods= 600, freq='D').tolist()

frame = pd.DataFrame(random.randn(600,5), index=date, columns = list('ABCDE'))
frame

Unnamed: 0,A,B,C,D,E
2022-01-16,1.531058,0.314087,0.339033,0.732413,-0.555270
2022-01-17,-0.446451,-0.931273,0.241454,-0.053367,0.635768
2022-01-18,-1.760678,-0.788613,-1.255395,-1.398405,-0.040272
2022-01-19,-2.186232,1.486300,-0.996672,1.168750,0.827565
2022-01-20,0.177718,-0.550212,0.180226,-0.791889,0.462661
...,...,...,...,...,...
2023-09-03,1.094710,-0.231344,-0.055024,1.036914,-1.375213
2023-09-04,0.919587,-0.553885,-0.792435,0.348318,0.366265
2023-09-05,-2.085510,-0.488815,0.105089,1.233222,0.436938
2023-09-06,-0.608570,-1.219228,0.163898,-0.666661,0.563442


##**Seleção específica de dados**

Uma forma de localizar elementos dentro de um DataFrame, pode ser atarvés do *nome_tabela.loc[linha,coluna]*. 

**Observação:** Lembrando que não necessariamente precisa existir um valor específico para linha ou coluna. A função *loc* permite operações. 

In [2]:
# Uma forma de encontrar todas as formas específicas para dados 
frame.loc[:,frame.columns]

Unnamed: 0,A,B,C,D,E
2022-01-16,1.531058,0.314087,0.339033,0.732413,-0.555270
2022-01-17,-0.446451,-0.931273,0.241454,-0.053367,0.635768
2022-01-18,-1.760678,-0.788613,-1.255395,-1.398405,-0.040272
2022-01-19,-2.186232,1.486300,-0.996672,1.168750,0.827565
2022-01-20,0.177718,-0.550212,0.180226,-0.791889,0.462661
...,...,...,...,...,...
2023-09-03,1.094710,-0.231344,-0.055024,1.036914,-1.375213
2023-09-04,0.919587,-0.553885,-0.792435,0.348318,0.366265
2023-09-05,-2.085510,-0.488815,0.105089,1.233222,0.436938
2023-09-06,-0.608570,-1.219228,0.163898,-0.666661,0.563442


### **DataFrame.iloc()**

Condição exclusiva para capturar **posições** de um DataFrame. 

In [3]:
frame.iloc[0,[0,3]]

A    1.531058
D    0.732413
Name: 2022-01-16 00:00:00, dtype: float64

In [4]:
df = pd.DataFrame([[np.nan, 2, np.nan, 0],
                   [3, 4, np.nan, 1],
                   [np.nan, np.nan, np.nan, 5],
                   [np.nan, 3, np.nan, 4]],
                  columns=list("ABCD"))
df

Unnamed: 0,A,B,C,D
0,,2.0,,0
1,3.0,4.0,,1
2,,,,5
3,,3.0,,4


In [5]:
df.fillna(0)

Unnamed: 0,A,B,C,D
0,0.0,2.0,0.0,0
1,3.0,4.0,0.0,1
2,0.0,0.0,0.0,5
3,0.0,3.0,0.0,4


# **Removendo dados repetidos em um DataFrame**

Primeiro passo é descobrir a existência de valores duplicados. No entanto, preciamos ter um parâmetro: análise através das **linhas** ou das **colunas**.

*nome_data_frame.nunique(axis = 0, dropna = False)*

----

Quando axis = 0:

      Para cada linha, visualizamos a quantidade de dados únicos existem nas colunas.

Quando axis = 1:

      Para cada coluna, visualizamos a quantidade de dados únicos existem nas linhas.

----

dropna = False --> Não irá ignorar os valores NaN

In [7]:
frame = pd.DataFrame({'A': 1.,
   ...:                     'B': pd.Timestamp('20130102'),
   ...:                     'C': pd.Series(1, index=list(range(4)), dtype='float32'),
   ...:                     'D': np.array([3] * 4, dtype='int32'),
   ...:                     'E': pd.Categorical(["test", "train", "test", "train"]),
   ...:                     'F': 'Python',
   ...:                     'G': [2,2,4,4],
   ...:                     'H': [np.nan,2,4,np.nan]  })

frame

Unnamed: 0,A,B,C,D,E,F,G,H
0,1.0,2013-01-02,1.0,3,test,Python,2,
1,1.0,2013-01-02,1.0,3,train,Python,2,2.0
2,1.0,2013-01-02,1.0,3,test,Python,4,4.0
3,1.0,2013-01-02,1.0,3,train,Python,4,


In [13]:
display(frame.nunique())
print('\n')
display(frame.nunique(axis=1,dropna=True))


A    1
B    1
C    1
D    1
E    2
F    1
G    2
H    2
dtype: int64





0    6
1    6
2    6
3    6
dtype: int64

# **Remoção das duplicatas**

###*nome_do_DataFrame.drop_duplicates()*

**Observação:** Quando não iserirmos argumentos, a função irá ser restrita em apenas observar se há alguma linha semelhantes. 

Mas podemos corrigir a situação anterior usando (**subset = coluna_específica_para_análise**)

In [16]:
#Irá excluir os elementos repetidos da coluna H, porém há fica apenas um elemento único. 
frame.drop_duplicates(subset='H')

Unnamed: 0,A,B,C,D,E,F,G,H
0,1.0,2013-01-02,1.0,3,test,Python,2,
1,1.0,2013-01-02,1.0,3,train,Python,2,2.0
2,1.0,2013-01-02,1.0,3,test,Python,4,4.0
