In [1]:
import pandas as pd
import numpy as np

### Sobre os tipos de Dados.
- 1. (Int ou Inteiros):
    - int8, int16, int32, int64: São números inteiros que ocupam respectivamente 8, 16, 32 e 64 bits de memória. int8 tem alcance de -128 a 127, enquanto int64 pode ir de -9223372036854775808 a 9223372036854775807.

 - 2. (Int ou Inteiros) SEM SINAL:
    - uint8, uint16, uint32, uint64: São números inteiros sem sinal (ou seja, não podem ser negativos) que ocupam respectivamente 8, 16, 32 e 64 bits de memória. uint8 tem alcance de 0 a 255, enquanto uint64 pode ir de 0 a 18446744073709551615.

 - 3. (Float ou números de ponto flutuante):
    - float16, float32, float64: São números de ponto flutuante que ocupam respectivamente 16, 32 e 64 bits de memória. Eles podem representar números reais, incluindo números fracionários, com diferentes níveis de precisão.

 - 4. (Object ou String): 
   - Normalmente usado para representar texto (strings) em pandas, mas pode ser usado para qualquer tipo de objeto Python.

 - 5. (Category ou Valores Categoricos):
   - Usado para representar dados categóricos, ou seja, variáveis que podem assumir um número limitado e geralmente fixo de possíveis valores (por exemplo, gênero, classe social, etc.).

 - 6. (datetime64[ns] ou Data e Hora):
   - Usado para representar data e hora, até a precisão de nanossegundos.

 - 7. (timedelta64[ns]) DIFERENÇA DE HORAS E DATAS:
    - Usado para representar a diferença entre duas datas ou horários, até a precisão de nanossegundos.

 - 8. (bool ou Valores Booleanos):
   -  Usado para representar valores booleanos True e False.

# Manipulação de Valores 1
 - Inteiros
    - função np.randint(start, end, count)

In [35]:
# Usando a biblioteca pandas para criar uma serie de 100000 elementos numéricos np.array
# Variando de 0 a 100, com 100000 elementos

# 1 - a variável "inicio" recebe o valor 0, que é o valor inicial do intervalo
inicio = 0
# 2 - a variável "fim" recebe o valor 100, que é o valor final do intervalo
fim = 100
# 3 - a variável "quantidade" recebe o valor 100000, que é a quantidade de elementos
tamanho = 1000000 # 5000000
# 4 - a variável "a" recebe um array de 100000 elementos, com valores inteiros aleatórios
a = np.random.randint( inicio, fim, tamanho)
# 5 - a variável "a" senddo mostrada de várias formas
print(a)
print(type(a))
print(a.shape)
a = pd.Series(a)
print(a.info()) 

[28 72 77 ... 31 25 16]
<class 'numpy.ndarray'>
(1000000,)
<class 'pandas.core.series.Series'>
RangeIndex: 1000000 entries, 0 to 999999
Series name: None
Non-Null Count    Dtype
--------------    -----
1000000 non-null  int32
dtypes: int32(1)
memory usage: 3.8 MB
None


# Manipulação de Valores 2
- Números Decimal ou ponto flutuante

In [36]:
# 1. a variável "tamanho" recebe o valor 1000000, que é a quantidade de elementos
#tamanho = 1000000
# 2. a variável "b" recebe um array de 1000000 elementos, com valores reais aleatórios que variam de 0 a 1 multiplicados por 100 
# para ficar no intervalo de 0 a 100
b = np.random.random(tamanho) * 100
# 2.1 caso queria somente 2 casas decimais, descomente a linha abaixo
#b = np.round(b, 2)
# 3. a variável "b" sendo mostrada de várias formas
b = pd.Series(b)
print(b)
print(type(b)) # Tipo de dado
print(b.shape) # Formato do array
print(b.info()) # Informações sobre o array
#print(b.describe()) # Estatísticas sobre o array
#print(b.value_counts()) # Valores únicos e a quantidade de vezes que aparecem
#print(b.head()) # Mostra os 5 primeiros elementos
#print(b.tail()) # Mostra os 5 últimos elementos

0         83.846176
1         58.781742
2         21.992596
3         11.140563
4         79.830218
            ...    
999995    48.695175
999996    54.372800
999997    47.540916
999998    51.685501
999999    37.435763
Length: 1000000, dtype: float64
<class 'pandas.core.series.Series'>
(1000000,)
<class 'pandas.core.series.Series'>
RangeIndex: 1000000 entries, 0 to 999999
Series name: None
Non-Null Count    Dtype  
--------------    -----  
1000000 non-null  float64
dtypes: float64(1)
memory usage: 7.6 MB
None


# Manipulação de Valores 3
- 3.1 Dados Categóricos - Criando a Série de dados

In [37]:
def cria_coluna_df( lista, n_elementos, nome_coluna ):
    
    # 1. a variável "auxiliar" recebe um array de n_elementos elementos, com valores aleatórios da lista
    auxiliar = np.random.choice( lista, n_elementos )
    
    # 2. o dataframe "df" recebe um array de n_elementos elementos, com valores aleatórios da lista e com o nome da coluna
    df = pd.DataFrame( auxiliar, columns = [ nome_coluna ])
    
    # 3. a variável "id_col" recebe o nome da coluna concatenado com o nome "id_"
    id_col = '#_id_' + df[ nome_coluna ].name
    
    # 3.1 o dataframe "df" recebe uma nova coluna com o nome "id_col" e com os valores da coluna "nome_coluna" convertidos para códigos
    df[ id_col ] = df[ nome_coluna ].astype( 'category' ).cat.codes
    
    # 4. avariável "df" retorna o dataframe com a coluna e o id
    return df



#tamanho = 1000000

lista_mercado = ['Arroz', 'Feijão', 'Macarrão','Temperos', 'Óleo', 'Açúcar', 'Café', 'Farinha', 'Sal', 'Pimenta',
         'Vinagre', 'Azeite', 'Molho de Tomate', 'Extrato de Tomate', 'Ketchup', 'Mostarda', 'Maionese']

lista_carro = ['Fiat', 'Ford', 'Chevrolet', 'Volkswagen', 'Renault', 'Peugeot', 'Citroen', 'Toyota', 'Honda', 'Hyundai']

lista_roupas = ['Camiseta', 'Calça', 'Bermuda', 'Blusa', 'Vestido', 'Saia', 'Short', 'Jaqueta', 'Casaco', 'Camisa']

lista_escola = ['Caderno', 'Lápis', 'Caneta', 'Borracha', 'Apontador', 'Régua', 'Tesoura', 'Cola', 'Mochila', 'Estojo']


In [40]:
tst1 = cria_coluna_df(lista_mercado, tamanho, 'mercado'.upper())
tst2 = cria_coluna_df(lista_carro, tamanho, 'carro'.upper())
tst3 = cria_coluna_df(lista_roupas, tamanho, 'roupas'.upper())  
tst4 = cria_coluna_df(lista_roupas, tamanho, 'escola'.upper())

tsts = [tst1, tst2, tst3, tst4]
tsts = pd.concat(tsts, axis=1)
tsts["Val Inteiro"] = a
tsts["Val Real"] = b
tsts

Unnamed: 0,MERCADO,#_id_MERCADO,CARRO,#_id_CARRO,ROUPAS,#_id_ROUPAS,ESCOLA,#_id_ESCOLA,Val Inteiro,Val Real
0,Feijão,6,Toyota,8,Camiseta,4,Calça,2,28,83.846176
1,Azeite,1,Ford,3,Casaco,5,Saia,7,72,58.781742
2,Mostarda,11,Hyundai,5,Casaco,5,Camiseta,4,77,21.992596
3,Macarrão,8,Honda,4,Jaqueta,6,Casaco,5,9,11.140563
4,Feijão,6,Hyundai,5,Casaco,5,Casaco,5,40,79.830218
...,...,...,...,...,...,...,...,...,...,...
999995,Mostarda,11,Fiat,2,Camisa,3,Vestido,9,99,48.695175
999996,Mostarda,11,Renault,7,Bermuda,0,Camiseta,4,54,54.372800
999997,Temperos,14,Ford,3,Saia,7,Vestido,9,31,47.540916
999998,Óleo,16,Honda,4,Calça,2,Bermuda,0,25,51.685501


In [15]:
tsts.memory_usage()

Index               128
MERCADO         8000000
#_id_MERCADO    1000000
CARRO           8000000
#_id_CARRO      1000000
ROUPAS          8000000
#_id_ROUPAS     1000000
ESCOLA          8000000
#_id_ESCOLA     1000000
dtype: int64

In [16]:


def Categorico_Numerico(dataframe, booleano=False):
    # ['int8', 'object', 'category', 'datetime64[ns]', 'timedelta64[ns]', 'bool', 'float16', 
    # 'float32', 'float64','int16', 'int32', 'int64', 'uint8', 'uint16', 'uint32', 'uint64'
    if booleano == False:
        return dataframe.select_dtypes(include=['int8','int16', 'int32', 'int64', 'float16', 'float32', 'float64'])
        #dfB = dataframe.select_dtypes(include='object')
    else:
        #dfA = dataframe.select_dtypes(include='int8')
        return dataframe.select_dtypes(include=['object', 'category', 'bool'])
    
# -------------------------------------------------------------
# Teste para separação dos dados
def Cisma_Categorico_Numerico(dataframe):
    
    id_test = dataframe.columns
    tipos_numericos = ['int8','int16', 'int32', 'int64', 'float16', 'float32', 'float64']
    tipos_categoricos = ['object', 'category', 'bool']
    df_categoricas = pd.DataFrame()
    df_numericas = pd.DataFrame()
    
    for tipo_dado in id_test:
        
        if dataframe[tipo_dado].dtype in tipos_numericos:
            df_numericas[tipo_dado] = dataframe[tipo_dado]
            
        if dataframe[tipo_dado].dtype in tipos_categoricos:
            df_categoricas[tipo_dado] = dataframe[tipo_dado]
    # **********************************************************
    coluna_categoria = df_categoricas.columns
    coluna_numerica = df_numericas.columns
    coluna_NUMERICA = df_numericas.filter(like='#').columns
    #teste1 = df['categoria'].unique()
    #teste2 = df['categoria'].astype('category').cat.codes.unique()
    #print(teste1)
    #print(teste2)
    #print(df.info())
    print(coluna_categoria, len(coluna_categoria))
    print("*" * 25)
    print(coluna_numerica, len(coluna_numerica))
    print("*" * 25)
    print(coluna_NUMERICA, len(coluna_NUMERICA))
    
    if len(coluna_categoria) == len(coluna_NUMERICA):
        
        for num in range(0, len(coluna_categoria)):
            
            print(coluna_categoria[num], coluna_NUMERICA[num])
            
    df_t = dataframe[[coluna_categoria[0], coluna_NUMERICA[0]]].copy()
    
    
    
    # **********************************************************
        
    return df_categoricas, df_numericas, df_t

# -------------------------------------------------------------

df_categoricas, df_numericas, df_t = Cisma_Categorico_Numerico(tsts)

Index(['MERCADO', 'CARRO', 'ROUPAS', 'ESCOLA'], dtype='object') 4
*************************
Index(['#_id_MERCADO', '#_id_CARRO', '#_id_ROUPAS', '#_id_ESCOLA',
       'Val Inteiro', 'Val Real'],
      dtype='object') 6
*************************
Index(['#_id_MERCADO', '#_id_CARRO', '#_id_ROUPAS', '#_id_ESCOLA'], dtype='object') 4
MERCADO #_id_MERCADO
CARRO #_id_CARRO
ROUPAS #_id_ROUPAS
ESCOLA #_id_ESCOLA


In [17]:
df_t.memory_usage

<bound method DataFrame.memory_usage of                   MERCADO  #_id_MERCADO
0       Extrato de Tomate             4
1                    Café             3
2                    Óleo            16
3       Extrato de Tomate             4
4                 Pimenta            12
...                   ...           ...
999995           Temperos            14
999996             Azeite             1
999997           Mostarda            11
999998                Sal            13
999999           Maionese             9

[1000000 rows x 2 columns]>

# Manipulação de Valores 3
- 3.2 Dados Categóricos - Manipuland a Série de dados para se transformar em valor númerico.

In [58]:
d = c
df = pd.DataFrame(d, columns=['categoria'])
df['id_cod'] = df['categoria'].astype('category').cat.codes

In [61]:
teste1 = df['categoria'].unique()
teste2 = df['categoria'].astype('category').cat.codes.unique()
print(teste1)
print(teste2)
print(df.info())

['categoria B' 'categoria C' 'categoria A' 'categoria D']
[1 2 0 3]
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000000 entries, 0 to 999999
Data columns (total 2 columns):
 #   Column     Non-Null Count    Dtype 
---  ------     --------------    ----- 
 0   categoria  1000000 non-null  object
 1   id_cod     1000000 non-null  int8  
dtypes: int8(1), object(1)
memory usage: 8.6+ MB
None
