# Manipulação e Correção de Tipos de Dados com Pandas
***

Um dos aspectos fundamentais no processamento de dados é garantir que os tipos de dados estejam corretos e adequados para as operações que serão realizadas. Uma má interpretação dos tipos de dados pode levar a resultados imprecisos ou inconsistentes em análises e modelos de dados.

Uma das principais razões pelas quais a manipulação e correção de tipos de dados é importante é porque diferentes tipos de dados têm comportamentos e propriedades específicas. Por exemplo, os números inteiros são tratados de forma diferente dos números de ponto flutuante, e as datas e horários têm suas próprias peculiaridades de manipulação e cálculo. Ao garantir que os tipos de dados sejam corretamente interpretados, podemos realizar operações matemáticas, filtros e comparações com precisão.

### Importação das bibliotecas


In [1]:
import pandas as pd

### Criando  dataframe a partir de uma lista em Python

In [8]:
# Criação dos DataFrames
df = pd.DataFrame({
    'idade': ['30', '25', '28', '35', '40'],
    'salario': ['1000', '1250', '2500', '2840','5800']
})
df

Unnamed: 0,idade,salario
0,30,1000
1,25,1250
2,28,2500
3,35,2840
4,40,5800


In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 2 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   idade    5 non-null      object
 1   salario  5 non-null      object
dtypes: object(2)
memory usage: 212.0+ bytes


In [4]:
df['idade'] = df['idade'].astype('int64')


In [5]:
df['salario'] = df['salario'].astype('float')

In [7]:
df.describe()

Unnamed: 0,idade,salario
count,5.0,5.0
mean,31.6,2678.0
std,5.94138,1914.398078
min,25.0,1000.0
25%,28.0,1250.0
50%,30.0,2500.0
75%,35.0,2840.0
max,40.0,5800.0


### Método to_numeric
***
Este método converte o conteúdo de uma coluna em valores numéricos. É útil quando temos colunas que deveriam ser numéricas, mas estão com o tipo de dado incorreto.

In [None]:
df['idade'] = pd.to_numeric(df['idade'])

### Método to_datetime
***
Esse método converte uma coluna em valores de data e hora. É útil quando temos colunas de datas ou informações de tempo que estão sendo tratadas como strings ou outro tipo de dado inadequado.

In [10]:
df = pd.DataFrame({'Data': ['25/05/2023', '30/06/2023', '15/09/2023']})
df


Unnamed: 0,Data
0,25/05/2023
1,30/06/2023
2,15/09/2023


In [11]:
pd.to_datetime(df['Data'], format='%d/%m/%Y')

0   2023-05-25
1   2023-06-30
2   2023-09-15
Name: Data, dtype: datetime64[ns]

In [None]:
df.dtypes

#### Exemplo como calcular diferença de datas 

In [16]:
dados = {'Atividade': ['A', 'B', 'C'],
        'Inicio_Atividade': ['2023-05-01 09:00:00', '2023-05-02 14:30:00', '2023-05-03 10:15:00'],
        'Termino_Atividade': ['2023-05-01 11:30:00', '2023-05-03 16:45:00', '2023-05-03 12:45:00']}
 
df = pd.DataFrame(dados)
df.head()

Unnamed: 0,Atividade,Inicio_Atividade,Termino_Atividade
0,A,2023-05-01 09:00:00,2023-05-01 11:30:00
1,B,2023-05-02 14:30:00,2023-05-03 16:45:00
2,C,2023-05-03 10:15:00,2023-05-03 12:45:00


In [17]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   Atividade          3 non-null      object
 1   Inicio_Atividade   3 non-null      object
 2   Termino_Atividade  3 non-null      object
dtypes: object(3)
memory usage: 204.0+ bytes


In [18]:
# Convertendo as colunas de datas para o tipo datetime
df['Inicio_Atividade'] = pd.to_datetime(df['Inicio_Atividade'])
df['Termino_Atividade'] = pd.to_datetime(df['Termino_Atividade'])

In [19]:
# Calculando a diferença entre as datas
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column             Non-Null Count  Dtype         
---  ------             --------------  -----         
 0   Atividade          3 non-null      object        
 1   Inicio_Atividade   3 non-null      datetime64[ns]
 2   Termino_Atividade  3 non-null      datetime64[ns]
dtypes: datetime64[ns](2), object(1)
memory usage: 204.0+ bytes


In [20]:
df['duracao_atividade'] = df['Termino_Atividade'] - df['Inicio_Atividade']
df

Unnamed: 0,Atividade,Inicio_Atividade,Termino_Atividade,duracao_atividade
0,A,2023-05-01 09:00:00,2023-05-01 11:30:00,0 days 02:30:00
1,B,2023-05-02 14:30:00,2023-05-03 16:45:00,1 days 02:15:00
2,C,2023-05-03 10:15:00,2023-05-03 12:45:00,0 days 02:30:00
