# 04 - Pandas - Processamento e Análise de Dados
## Aula 11 - 26 - Pandas - Tipologia dos Dados de Séries e das Colunas do Dataframe

## Professor: Orlando Oliveira dos Santos, MsC.
 - E-mail: professor.orlando.santos@gmail.com 
 - Youtube :https://www.youtube.com/channel/UCPWWbkPWFmOjXH50TQWNAYg
 - Linkedin: https://linkedin.com/in/orlandoosantos
 - Facebook: https://www.facebook.com/proforlandosantosmsc/
 - Twitter: https://twitter.com/ProfOrlandoMsC
 - Instagram: https://www.instagram.com/proforlandosantosmsc/



## Formação Acadêmica
- Mestrado em Computação Aplicada - UnB (2014 – 2016)	
- MBA, Administração Estratégica de Sistemas de Informação – FGV (2011 – 2013)
- Tecnólogo em Processamento de Dados, Análise e Desenvolvimento de Sistemas – FAETEC/SP (2000-2002)

# Pandas - Tipologia dos Dados de Séries e das Colunas do Dataframe

# Tipo de dados em Pandas - dtypes 
Em geral o pandas usa matrizes NumPy e dtypes para séries ou colunas individuais de um DataFrame. 
O NumPy fornece suporte para float, int, bool, timedelta64[ns]e datetime64[ns]



Pandas possui extensões para outros tipos de dados específicos, tais como

Tipo de dados |  Type |  Scalar |  Array |  String Aliases
:--- |  :--- |  :--- |  :--- |  :---
tz-aware datetime |  DatetimeTZDtype |  Timestamp |  arrays.DatetimeArray |  'datetime64[ns, <tz>]'
Categorical |  CategoricalDtype |  (none) |  Categorical |  'category'
period (time spans) |  PeriodDtype |  Period |  arrays.PeriodArray |  'period[<freq>]', 'Period[<freq>]'
nullable integer |  Int64Dtype, … |  (none) |  arrays.IntegerArray |  'Int8', 'Int16', 'Int32', 'Int64', 'UInt8', 'UInt16', 'UInt32', 'UInt64'
Strings |  StringDtype |  str |  arrays.StringArray |  'string'
Boolean (with NA) |  BooleanDtype |  bool |  arrays.BooleanArray |  'boolean'

O Pandas tem duas maneiras de armazenar strings:
- object dtype, que pode conter qualquer objeto Python, incluindo strings.
- StringDtype, que é dedicado a strings.

O uso do StringDtype e o objectdtype deve ser evitado por motivo de desempenho e interoperabilidade com outras bibliotecas e métodos. 

Para saber os tipos de dados de um dataframe use o atributo dtypes ou para  serie, o atributo dtype

In [1]:
import pandas as pd
import numpy as np
dft = pd.DataFrame({'A': np.random.rand(3),
                     'B': 1,
                     'C': 'foo',
                     'D': pd.Timestamp('20010102'),
                     'E': pd.Series([1.0] * 3).astype('float32'),
                     'F': False,
                     'G': pd.Series([1] * 3, dtype='int8')})
 

dft

Unnamed: 0,A,B,C,D,E,F,G
0,0.113135,1,foo,2001-01-02,1.0,False,1
1,0.571377,1,foo,2001-01-02,1.0,False,1
2,0.527431,1,foo,2001-01-02,1.0,False,1


In [2]:
dft.dtypes

A           float64
B             int64
C            object
D    datetime64[ns]
E           float32
F              bool
G              int8
dtype: object

In [3]:
pd.Series(dft['A']).dtype

dtype('float64')

Se um objeto pandas contiver dados com vários dtypes em uma única coluna , o dtype da coluna será escolhido para acomodar todos os tipos de dados ( object é o mais genérico).

In [4]:
pd.Series([1, 2, 3, 4, 5, 6.])

0    1.0
1    2.0
2    3.0
3    4.0
4    5.0
5    6.0
dtype: float64

In [5]:
pd.Series([1, 2, 3, 6., 'foo'])

0      1
1      2
2      3
3    6.0
4    foo
dtype: object

O número de colunas de cada tipo em a DataFrame pode ser encontrado chamando DataFrame.dtypes.value_counts().

In [6]:
dft.dtypes.value_counts()

datetime64[ns]    1
float32           1
float64           1
int8              1
bool              1
object            1
int64             1
dtype: int64

Os dtypes numéricos serão propagados e podem coexistir em DataFrames. Se um dtype for passado (diretamente por meio da dtype palavra - chave, aprovado ndarrayou aprovado Series), ele será preservado nas operações do DataFrame. Além disso, diferentes dtypes numéricos NÃO serão combinados. O exemplo a seguir lhe dará uma amostra.

In [7]:
df1 = pd.DataFrame(np.random.randn(8, 1), columns=['A'], dtype='float32')
df1

Unnamed: 0,A
0,-0.055318
1,1.931445
2,0.422354
3,0.742723
4,-0.17584
5,-0.036747
6,1.192507
7,-0.065418


In [8]:
df1.dtypes

A    float32
dtype: object

In [9]:
df2 = pd.DataFrame({'A': pd.Series(np.random.randn(8), dtype='float16'),
                     'B': pd.Series(np.random.randn(8)),
                     'C': pd.Series(np.array(np.random.randn(8),
                                             dtype='uint8'))})
 

In [10]:
df2

Unnamed: 0,A,B,C
0,-1.536133,-0.978738,0
1,0.727051,0.458364,0
2,2.404297,-0.844396,0
3,0.328613,0.101205,255
4,0.758301,-0.731404,0
5,0.891602,-0.318527,2
6,0.987793,0.082412,0
7,-1.615234,-0.933473,0


In [11]:
df2.dtypes

A    float16
B    float64
C      uint8
dtype: object

## Conversão de tipos de dados

Converta um subconjunto de colunas em um tipo especificado usando astype().

In [12]:
dft = pd.DataFrame({'a': [1, 2, 3], 'b': [4, 5, 6], 'c': [7, 8, 9]})

In [13]:
dft.dtypes

a    int64
b    int64
c    int64
dtype: object

In [14]:
dft[['a', 'b']] = dft[['a', 'b']].astype(np.str) 
dft

Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  """Entry point for launching an IPython kernel.


Unnamed: 0,a,b,c
0,1,4,7
1,2,5,8
2,3,6,9


In [15]:
dft.dtypes

a    object
b    object
c     int64
dtype: object

Converta certas colunas em um tipo de dicionário específico passando-o para astype().

In [16]:
dft1 = pd.DataFrame({'a': [1, 0, 1], 'b': [4, 5, 6], 'c': [7, 8, 9]})
dft1.dtypes

a    int64
b    int64
c    int64
dtype: object

In [17]:
dft1 = dft1.astype({'a': np.bool, 'c': np.float64})
dft1

Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  """Entry point for launching an IPython kernel.


Unnamed: 0,a,b,c
0,True,4,7.0
1,False,5,8.0
2,True,6,9.0


In [18]:
dft1.dtypes

a       bool
b      int64
c    float64
dtype: object

## conversão do tipo object 
O pandas oferece várias funções para tentar forçar a conversão de tipos do tipo objectd para outros tipos. 

os métodos DataFrame.infer_objects() e Series.infer_objects() podem ser usados para conversão automática para o tipo correto.

In [19]:
import datetime
df = pd.DataFrame([[1, 2],
                    ['a', 'b'],
                    [datetime.datetime(2016, 3, 2),
                     datetime.datetime(2016, 3, 2)]])
 

df = df.T

df

Unnamed: 0,0,1,2
0,1,a,2016-03-02
1,2,b,2016-03-02


In [20]:
df.dtypes

0            object
1            object
2    datetime64[ns]
dtype: object

Como os dados foram transpostos, a inferência original armazenou todas as colunas como objeto, o que infer_objects será corrigido.

In [21]:
df.infer_objects().dtypes

0             int64
1            object
2    datetime64[ns]
dtype: object

As funções a seguir estão disponíveis para matrizes de objetos unidimensionais ou escalares para realizar a conversão de objetos em um tipo especificado:

### to_numeric() (conversão para tipos d numéricos)

In [22]:
m = ['1.1', 2, 3]

pd.to_numeric(m)

array([1.1, 2. , 3. ])

pd.to_numeric(m)

### to_datetime() (conversão para objetos datetime)

In [23]:
import datetime

m = ['2016-07-09', datetime.datetime(2016, 3, 2)]

pd.to_datetime(m)

DatetimeIndex(['2016-07-09', '2016-03-02'], dtype='datetime64[ns]', freq=None)

### to_timedelta() (conversão para objetos timedelta)

In [24]:
m = ['5us', pd.Timedelta('1day')]

pd.to_timedelta(m)

TimedeltaIndex(['0 days 00:00:00.000005', '1 days 00:00:00'], dtype='timedelta64[ns]', freq=None)

## Tratando erros de conversão
Para forçar uma conversão, podemos passar um errorsargumento, que especifica como os pandas devem lidar com elementos que não podem ser convertidos para o tipo ou objeto desejado. 

Por padrão, errors='raise'o que significa que quaisquer erros encontrados serão levantados durante o processo de conversão. 

No entanto, se errors='coerce', esses erros serão ignorados e o pandas converterá os elementos problemáticos em pd.NaT(para datetime e timedelta) ou np.nan(para numérico). 

Isso pode ser útil se você estiver lendo dados que são principalmente do tipo d desejado (por exemplo, numérico, data e hora), mas ocasionalmente tem elementos não conformes misturados que você deseja representar como ausentes:

In [25]:
import datetime
m = ['apple', datetime.datetime(2016, 3, 2)]
pd.to_datetime(m, errors='coerce')

DatetimeIndex(['NaT', '2016-03-02'], dtype='datetime64[ns]', freq=None)

In [26]:
m = ['apple', 2, 3]
pd.to_numeric(m, errors='coerce')

array([nan,  2.,  3.])

In [27]:
m = ['apple', pd.Timedelta('1day')]
pd.to_timedelta(m, errors='coerce')

TimedeltaIndex([NaT, '1 days'], dtype='timedelta64[ns]', freq=None)

O errorsparâmetro tem uma terceira opção de errors='ignore', que simplesmente retornará os dados passados ​​se encontrar algum erro na conversão para um tipo de dados desejado:

In [28]:
import datetime
m = ['apple', datetime.datetime(2016, 3, 2)]
pd.to_datetime(m, errors='ignore')

Index(['apple', 2016-03-02 00:00:00], dtype='object')

In [29]:
m = ['apple', 2, 3]
pd.to_numeric(m, errors='ignore')

array(['apple', 2, 3], dtype=object)

In [30]:
m = ['apple', pd.Timedelta('1day')]
pd.to_timedelta(m, errors='ignore')

array(['apple', Timedelta('1 days 00:00:00')], dtype=object)

Além da conversão de objeto, to_numeric()fornece outro argumento downcast, que dá a opção de reduzir os dados numéricos novos (ou já) para um dtype menor, que pode economizar memória:

In [31]:
m = ['1', 2, 3]
pd.to_numeric(m, downcast='integer')   # smallest signed int dtype

array([1, 2, 3], dtype=int8)

In [32]:
pd.to_numeric(m, downcast='signed')    # same as 'integer'

array([1, 2, 3], dtype=int8)

In [33]:
pd.to_numeric(m, downcast='unsigned')  # smallest unsigned int dtype

array([1, 2, 3], dtype=uint8)

In [34]:
pd.to_numeric(m, downcast='float')     # smallest float dtype

array([1., 2., 3.], dtype=float32)

Como esses métodos se aplicam apenas a matrizes, listas ou escalares unidimensionais; eles não podem ser usados ​​diretamente em objetos multidimensionais, como DataFrames. No entanto, com apply(), podemos “aplicar” a função em cada coluna de forma eficiente:

In [35]:
import datetime
df = pd.DataFrame([
     ['2016-07-09', datetime.datetime(2016, 3, 2)]] * 2, dtype='O')
df

Unnamed: 0,0,1
0,2016-07-09,2016-03-02 00:00:00
1,2016-07-09,2016-03-02 00:00:00


In [36]:
df.apply(pd.to_datetime)

Unnamed: 0,0,1
0,2016-07-09,2016-03-02
1,2016-07-09,2016-03-02


In [37]:
df = pd.DataFrame([['1.1', 2, 3]] * 2, dtype='O')
df

Unnamed: 0,0,1,2
0,1.1,2,3
1,1.1,2,3


In [38]:
df.dtypes

0    object
1    object
2    object
dtype: object

In [39]:
df = df.apply(pd.to_numeric)
df

Unnamed: 0,0,1,2
0,1.1,2,3
1,1.1,2,3


In [40]:
df.dtypes

0    float64
1      int64
2      int64
dtype: object

In [41]:

df = pd.DataFrame([['5us', pd.Timedelta('1day')]] * 2, dtype='O')
df

Unnamed: 0,0,1
0,5us,1 days 00:00:00
1,5us,1 days 00:00:00


In [42]:
df.apply(pd.to_timedelta)

Unnamed: 0,0,1
0,0 days 00:00:00.000005,1 days
1,0 days 00:00:00.000005,1 days


pegadinhas 
A execução de operações de seleção em integerdados de tipo pode facilmente atualizar os dados para floating. O dtype dos dados de entrada será preservado nos casos em que nansnão forem introduzidos. Consulte também Suporte para NA inteiro .

In [43]:
df3 = df1.reindex_like(df2).fillna(value=0.0) + df2
dfi = df3.astype('int32')

dfi['E'] = 1

dfi

Unnamed: 0,A,B,C,E
0,-1,0,0,1
1,2,0,0,1
2,2,0,0,1
3,1,0,255,1
4,0,0,0,1
5,0,0,2,1
6,2,0,0,1
7,-1,0,0,1


In [44]:
dfi.dtypes

A    int32
B    int32
C    int32
E    int64
dtype: object

In [45]:
dfa = dfi[dfi > 0]

In [46]:
dfa

Unnamed: 0,A,B,C,E
0,,,,1
1,2.0,,,1
2,2.0,,,1
3,1.0,,255.0,1
4,,,,1
5,,,2.0,1
6,2.0,,,1
7,,,,1


In [47]:
dfa.dtypes

A    float64
B    float64
C    float64
E      int64
dtype: object

Enquanto os dtipos flutuantes permanecem inalterados.

In [48]:
dfa.dtypes

A    float64
B    float64
C    float64
E      int64
dtype: object

In [49]:
dfa

Unnamed: 0,A,B,C,E
0,,,,1
1,2.0,,,1
2,2.0,,,1
3,1.0,,255.0,1
4,,,,1
5,,,2.0,1
6,2.0,,,1
7,,,,1


In [50]:
dfa = df3.copy()

dfa['A'] = dfa['A'].astype('float32')

dfa.dtypes

A    float32
B    float64
C    float64
dtype: object

In [51]:
dfa = dfa[df2 > 0]

dfa

Unnamed: 0,A,B,C
0,,,
1,2.658496,0.458364,
2,2.826651,,
3,1.071337,0.101205,255.0
4,0.582461,,
5,0.854854,,2.0
6,2.1803,0.082412,
7,,,


In [52]:
dfa.dtypes

A    float32
B    float64
C    float64
dtype: object

## Seleção de colunas com base em dtype
O métodoselect_dtypes() retorna subconjuntos de colunas com base em seus dtype.

Primeiro, vamos criar um DataFramecom uma série de diferentes dtypes:

In [53]:
df = pd.DataFrame({'string': list('abc'),
                    'int64': list(range(1, 4)),
                    'uint8': np.arange(3, 6).astype('u1'),
                    'float64': np.arange(4.0, 7.0),
                    'bool1': [True, False, True],
                    'bool2': [False, True, False],
                    'dates': pd.date_range('now', periods=3),
                    'category': pd.Series(list("ABC")).astype('category')})
 

In [54]:
df['tdeltas'] = df.dates.diff()

In [55]:
df['uint64'] = np.arange(3, 6).astype('u8')

In [56]:
df['other_dates'] = pd.date_range('20130101', periods=3)

In [57]:
df['tz_aware_dates'] = pd.date_range('20130101', periods=3, tz='US/Eastern')

In [58]:
df

Unnamed: 0,string,int64,uint8,float64,bool1,bool2,dates,category,tdeltas,uint64,other_dates,tz_aware_dates
0,a,1,3,4.0,True,False,2022-09-27 15:39:20.686050,A,NaT,3,2013-01-01,2013-01-01 00:00:00-05:00
1,b,2,4,5.0,False,True,2022-09-28 15:39:20.686050,B,1 days,4,2013-01-02,2013-01-02 00:00:00-05:00
2,c,3,5,6.0,True,False,2022-09-29 15:39:20.686050,C,1 days,5,2013-01-03,2013-01-03 00:00:00-05:00


E os dtypes:

In [59]:
df.dtypes

string                                object
int64                                  int64
uint8                                  uint8
float64                              float64
bool1                                   bool
bool2                                   bool
dates                         datetime64[ns]
category                            category
tdeltas                      timedelta64[ns]
uint64                                uint64
other_dates                   datetime64[ns]
tz_aware_dates    datetime64[ns, US/Eastern]
dtype: object

select_dtypes()tem dois parâmetros include e exclude que permitem que você diga “dê-me as colunas com esses dtypes” ( include) e / ou “dê as colunas sem esses dtypes” ( exclude).

Por exemplo, para selecionar boolcolunas:

In [60]:
df.select_dtypes(include=[bool])

Unnamed: 0,bool1,bool2
0,True,False
1,False,True
2,True,False


Você também pode passar o nome de um dtype na hierarquia de dtype NumPy :

In [61]:
df.select_dtypes(include=['bool'])

Unnamed: 0,bool1,bool2
0,True,False
1,False,True
2,True,False


select_dtypes() também funciona com dtypes genéricos.

Por exemplo, para selecionar todas as colunas numéricas e booleanas enquanto exclui números inteiros sem sinal:

In [62]:
df.select_dtypes(include=['number', 'bool'], exclude=['unsignedinteger'])

Unnamed: 0,int64,float64,bool1,bool2,tdeltas
0,1,4.0,True,False,NaT
1,2,5.0,False,True,1 days
2,3,6.0,True,False,1 days


Para selecionar colunas de string, você deve usar o object dtype:

In [63]:
df.select_dtypes(include=['object'])

Unnamed: 0,string
0,a
1,b
2,c


Para ver todas as crianças dtypes de um genérico dtypecomo numpy.numbervocê pode definir uma função que retorna uma árvore de dtypes criança:

In [64]:
def subdtypes(dtype):
    subs = dtype.__subclasses__()
    if not subs:
        return dtype
    return [dtype, [subdtypes(dt) for dt in subs]]

 
Todos os tipos de NumPy são subclasses de numpy.generic:

In [65]:
subdtypes(np.generic)

[numpy.generic,
 [[numpy.number,
   [[numpy.integer,
     [[numpy.signedinteger,
       [numpy.int8,
        numpy.int16,
        numpy.intc,
        numpy.int32,
        numpy.int64,
        numpy.timedelta64]],
      [numpy.unsignedinteger,
       [numpy.uint8, numpy.uint16, numpy.uintc, numpy.uint32, numpy.uint64]]]],
    [numpy.inexact,
     [[numpy.floating,
       [numpy.float16, numpy.float32, numpy.float64, numpy.longdouble]],
      [numpy.complexfloating,
       [numpy.complex64, numpy.complex128, numpy.clongdouble]]]]]],
  [numpy.flexible,
   [[numpy.character, [numpy.bytes_, numpy.str_]],
    [numpy.void, [numpy.record]]]],
  numpy.bool_,
  numpy.datetime64,
  numpy.object_]]

O Pandas também define os tipos category, e datetime64[ns, tz], que não são integrados na hierarquia normal do NumPy e não aparecem com a função acima. 