<img src='https://github.com/davibarbosabdj/Minicurso_pandas/blob/main/imagens/logo_pandas.png?raw=true' width='115px' style='float: right'>

# <center><strong>Introdução a Biblioteca Pandas</strong></center>

---

#### **O que é o Pandas?**

O pandas é uma biblioteca de código aberto para a linguagem de programação Python que é usada principalmente para análise e manipulação de dados. Ela fornece estruturas de dados e ferramentas de análise de alta performance e fáceis de usar, permitindo que os usuários manipulem dados tabulares com facilidade. O pandas é amplamente utilizado em ciência de dados, finanças, análise de negócios e outras áreas onde a análise de dados é fundamental.
<br>
#### **Por que o Pandas é importante para Análise de Dados?**

O pandas é importante para análise de dados porque oferece uma ampla gama de ferramentas e funcionalidades para manipulação e análise de dados de forma eficiente e eficaz. Com o pandas, os usuários podem importar e exportar dados de várias fontes, limpar e preparar dados para análise, manipular e transformar dados para uso em modelos de análise e visualizações de dados, e realizar análises estatísticas e de séries temporais.

Além disso, o pandas oferece suporte para lidar com dados faltantes, integrar dados de várias fontes e visualizar os resultados da análise em gráficos e tabelas interativas. Como resultado, os usuários podem analisar grandes conjuntos de dados com mais rapidez e facilidade, permitindo que tomem decisões informadas com base em insights valiosos extraídos dos dados.

Em resumo, o pandas é importante para análise de dados porque permite que os usuários trabalhem com dados de forma mais eficiente e eficaz, economizando tempo e aumentando a precisão dos resultados.

#### **Instalando e Importando o Pandas**

Para instalar o pandas, você pode usar o pip, o gerenciador de pacotes padrão do Python. Basta abrir o terminal ou prompt de comandos e digitar o seguinte comando: 

~~~python
pip install pandas
~~~

Após a instalação, você pode importar o pandas em seus scripts Python utilizando seguinte comando: 

In [36]:
import pandas as pd

#### Criação de DataFrames

DataFrame (DF) é uma das estruturas de dados centrais do pandas, que é uma biblioteca Python amplamente usada para análise de dados. Um DataFrame é uma tabela bidimensional, semelhante a uma planilha, onde os dados são organizados em linhas e colunas.

- A partir de um Dicionário:

Você pode criar um DataFrame a partir de um dicionário onde as chaves representam os nomes das colunas e os valores são listas que preenchem as colunas.

In [None]:
data = {'Nome': ['João', 'Maria', 'Carlos'],
        'Idade': [25, 28, 22],
        'Cidade': ['São Paulo', 'Rio de Janeiro', 'Belo Horizonte']}

df = pd.DataFrame(data)

In [None]:
# Criando um df a partir de uma lista de dicionarios 

data = [{'Nome': 'João', 'Idade': 25, 'Cidade': 'São Paulo'},
        {'Nome': 'Maria', 'Idade': 28, 'Cidade': 'Rio de Janeiro'},
        {'Nome': 'Carlos', 'Idade': 22, 'Cidade': 'Belo Horizonte'}]

df = pd.DataFrame(data)

### **1. Manipulação de Dados Básica**

**Dataset: Customer Call List**

A base de dados Customer Call List é uma valiosa fonte de informações sobre os clientes da empresa. Contendo colunas essenciais, como o ID do cliente, telefone, nome, endereço e outros campos relevantes, essa base de dados permite à empresa manter contato com seus clientes e fornecer um atendimento personalizado.

#### 1.1 Lendo a nossa base de dados

Existem várias maneiras de importar um dataset no Python usando o Pandas, que é uma biblioteca popular para análise de dados.

In [37]:
#Leitura dos dados no formato csv

df_csv = pd.read_csv(r"C:\Users\joaod\OneDrive\Documentos\Projetos\Minicurso_pandas\data\Customer_Call_List_csv")
print(df_csv)

    CustomerID First_Name    Last_Name  Phone_Number  \
0         1001      Frodo      Baggins  123-545-5421   
1         1002       Abed        Nadir  123/643/9775   
2         1003     Walter       /White    7066950392   
3         1004     Dwight      Schrute  123-543-2345   
4         1005        Jon         Snow  876|678|3469   
5         1006        Ron      Swanson  304-762-2467   
6         1007       Jeff       Winger           NaN   
7         1008   Sherlock       Holmes  876|678|3469   
8         1009    Gandalf          NaN           N/a   
9         1010      Peter       Parker  123-545-5421   
10        1011    Samwise       Gamgee           NaN   
11        1012      Harry    ...Potter    7066950392   
12        1013        Don       Draper  123-543-2345   
13        1014     Leslie        Knope  876|678|3469   
14        1015       Toby  Flenderson_  304-762-2467   
15        1016        Ron      Weasley  123-545-5421   
16        1017   Michael         Scott  123/643/

In [38]:
#Leitura dos dados no formato excel

df_excel = pd.read_excel(r"C:\Users\joaod\OneDrive\Documentos\Projetos\Minicurso_pandas\data\Customer_Call_List_excel.xlsx")
print(df_excel)

    CustomerID First_Name    Last_Name  Phone_Number  \
0         1001      Frodo      Baggins  123-545-5421   
1         1002       Abed        Nadir  123/643/9775   
2         1003     Walter       /White    7066950392   
3         1004     Dwight      Schrute  123-543-2345   
4         1005        Jon         Snow  876|678|3469   
5         1006        Ron      Swanson  304-762-2467   
6         1007       Jeff       Winger           NaN   
7         1008   Sherlock       Holmes  876|678|3469   
8         1009    Gandalf          NaN           N/a   
9         1010      Peter       Parker  123-545-5421   
10        1011    Samwise       Gamgee           NaN   
11        1012      Harry    ...Potter    7066950392   
12        1013        Don       Draper  123-543-2345   
13        1014     Leslie        Knope  876|678|3469   
14        1015       Toby  Flenderson_  304-762-2467   
15        1016        Ron      Weasley  123-545-5421   
16        1017   Michael         Scott  123/643/

In [39]:
#Leitura dos dados no formato json

df_json = pd.read_json(r"C:\Users\joaod\OneDrive\Documentos\Projetos\Minicurso_pandas\data\Customer_Call_List_json")
print(df_json)

    CustomerID First_Name    Last_Name  Phone_Number  \
0         1001      Frodo      Baggins  123-545-5421   
1         1002       Abed        Nadir  123/643/9775   
2         1003     Walter       /White    7066950392   
3         1004     Dwight      Schrute  123-543-2345   
4         1005        Jon         Snow  876|678|3469   
5         1006        Ron      Swanson  304-762-2467   
6         1007       Jeff       Winger          None   
7         1008   Sherlock       Holmes  876|678|3469   
8         1009    Gandalf         None           N/a   
9         1010      Peter       Parker  123-545-5421   
10        1011    Samwise       Gamgee          None   
11        1012      Harry    ...Potter    7066950392   
12        1013        Don       Draper  123-543-2345   
13        1014     Leslie        Knope  876|678|3469   
14        1015       Toby  Flenderson_  304-762-2467   
15        1016        Ron      Weasley  123-545-5421   
16        1017   Michael         Scott  123/643/

#### 1.2 Visualizando a nossa base de dados

In [40]:
#Visualizando as primeiras linhas do nosso dataframe - .head()

df_csv.head()

Unnamed: 0,CustomerID,First_Name,Last_Name,Phone_Number,Address,Paying Customer,Do_Not_Contact,Not_Useful_Column
0,1001,Frodo,Baggins,123-545-5421,"123 Shire Lane, Shire",Yes,No,True
1,1002,Abed,Nadir,123/643/9775,93 West Main Street,No,Yes,False
2,1003,Walter,/White,7066950392,298 Drugs Driveway,N,,True
3,1004,Dwight,Schrute,123-543-2345,"980 Paper Avenue, Pennsylvania, 18503",Yes,Y,True
4,1005,Jon,Snow,876|678|3469,123 Dragons Road,Y,No,True


In [41]:
#Visualizando as ultimas linhas do nosso dataframe - .tail()

df_csv.tail()

Unnamed: 0,CustomerID,First_Name,Last_Name,Phone_Number,Address,Paying Customer,Do_Not_Contact,Not_Useful_Column
16,1017,Michael,Scott,123/643/9775,"121 Paper Avenue, Pennsylvania",Yes,No,False
17,1018,Clark,Kent,7066950392,3498 Super Lane,Y,,True
18,1019,Creed,Braton,N/a,N/a,N/a,Yes,True
19,1020,Anakin,Skywalker,876|678|3469,"910 Tatooine Road, Tatooine",Yes,N,True
20,1020,Anakin,Skywalker,876|678|3469,"910 Tatooine Road, Tatooine",Yes,N,True


In [42]:
#Visualizando as informações gerais do nosso data frame - .info()

df_csv.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21 entries, 0 to 20
Data columns (total 8 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   CustomerID         21 non-null     int64 
 1   First_Name         21 non-null     object
 2   Last_Name          20 non-null     object
 3   Phone_Number       19 non-null     object
 4   Address            21 non-null     object
 5   Paying Customer    21 non-null     object
 6   Do_Not_Contact     17 non-null     object
 7   Not_Useful_Column  21 non-null     bool  
dtypes: bool(1), int64(1), object(6)
memory usage: 1.3+ KB


In [43]:
#Retornando o nome das colunas do dataframe .columns

df_csv.columns

Index(['CustomerID', 'First_Name', 'Last_Name', 'Phone_Number', 'Address',
       'Paying Customer', 'Do_Not_Contact', 'Not_Useful_Column'],
      dtype='object')

#### 1.3 Manipulação das Colunas do Dataframe 

Podemos realizar diversas manipulações nas colunas de um dataframe utilizando as funcionalidades do Pandas.

In [44]:
#Renomear colunas - .rename()

df_csv = df_csv.rename(columns={'CustomerID':'ID_Cliente', 
                                'First_Name':'Primeiro_Nome', 
                                'Last_Name':'Sobrenome', 
                                'Phone_Number':'Telefone', 
                                'Address':'Endereco',
                                'Paying Customer':'Cliente_Pagante', 
                                'Do_Not_Contact':'Contactar_SN'})

df_csv.columns

Index(['ID_Cliente', 'Primeiro_Nome', 'Sobrenome', 'Telefone', 'Endereco',
       'Cliente_Pagante', 'Contactar_SN', 'Not_Useful_Column'],
      dtype='object')

In [45]:
#Mudando a ordem das colunas - 

df_csv = df_csv[['ID_Cliente', 'Primeiro_Nome', 'Sobrenome', 'Telefone', 'Endereco',
       'Cliente_Pagante', 'Not_Useful_Column', 'Contactar_SN']]
df_csv.columns

Index(['ID_Cliente', 'Primeiro_Nome', 'Sobrenome', 'Telefone', 'Endereco',
       'Cliente_Pagante', 'Not_Useful_Column', 'Contactar_SN'],
      dtype='object')

Para criar uma nova coluna em um data frame, basta atribuirmos uma lista/series de valores a uma constante a uma nova chave do df.

*Obs: A quantidade de valores da lista deve ser igual ao número de linhas/registros do df.*

In [46]:
#Criar novas colunas 

df_csv['Classificacao'] = range(21)

In [48]:
#Deletar colunas - .drop() e del df[column]

# df_csv = df_csv.drop('col1', axis=1)
# df_csv = df_csv.drop(['col1', 'col2'], axis=1)
# del df_csv['column']

#### **1.4 Series**

Uma Series é uma estrutura de dados unidimensional que contém um array de dados e um array correspondente de rótulos, chamado de índice. É uma estrutura de dados flexível e útil para várias operações de manipulação de dados e análise de dados, especialmente quando se trabalha com dados em colunas de um DataFrame.

**Importância das Séries:**

As séries são importantes porque permitem que você trabalhe facilmente com dados em uma forma mais simples e organizada. Elas fornecem várias funcionalidades úteis, como cálculos estatísticos, manipulação de dados e criação de gráficos.

Além disso, as séries são frequentemente usadas como componentes de DataFrames, que são a estrutura de dados mais amplamente usada no pandas. DataFrames são tabelas que consistem em séries, onde cada série é uma coluna. Ao entender como trabalhar com séries, você estará bem preparado para manipular e analisar dados em geral usando o pandas.






In [49]:
#Selecionando uma coluna inteira 
df_csv['ID_Cliente']

0     1001
1     1002
2     1003
3     1004
4     1005
5     1006
6     1007
7     1008
8     1009
9     1010
10    1011
11    1012
12    1013
13    1014
14    1015
15    1016
16    1017
17    1018
18    1019
19    1020
20    1020
Name: ID_Cliente, dtype: int64

### **2. Manipulação de Dados**

A manipulação de dados em um DataFrame no pandas envolve várias etapas, desde selecionar dados específicos até realizar operações, limpeza e verificação. 

O pandas oferece uma variedade de métodos e ferramentas para tornar esse processo eficiente e eficaz, permitindo que você trabalhe com conjuntos de dados de forma flexível e poderosa.

- **Seleção de Dados:** Você pode selecionar linhas e colunas específicas do DataFrame usando índices ou rótulos.

- **Operações com Colunas e Linhas:** Você pode realizar operações aritméticas e de transformação em colunas e linhas.

- **Tratamento de Valores Faltantes:** Lidar com valores nulos (NaN) em seus dados usando métodos como ``dropna()`` e ``fillna()``.

- **Verificação de Dados Faltantes e Inconsistentes:** Identificar e lidar com dados faltantes ou inconsistentes em seu DataFrame.

- **Filtragem de Dados:** Filtrar linhas do DataFrame com base em condições específicas.

- **Ordenação de Dados:** Ordenar os dados com base em valores de coluna.

- **Transformação de Dados:** Aplicar funções, mapeamentos e transformações aos dados.

#### 2.1 Selecionando os dados 
Existem várias maneiras de selecionar dados usando o pandas. Indexação, Condição, Colunas... 

#### Seleção de dados - .loc[]

O ```.loc[]``` é um método usado para acessar um grupo de linhas e colunas por meio de rótulos ou uma condição booleana. Ele funciona da seguinte forma:

- **Usando rótulos:** Você especifica os rótulos das linhas e colunas que deseja selecionar. Por exemplo, ```df.loc[2, 'idade']``` selecionará o valor da coluna 'idade' na linha com rótulo 2.

- **Usando rótulos e fatias:** Você também pode usar fatias para selecionar um intervalo de rótulos, como ```df.loc[1:3, 'idade':'nome']```.

- **Usando uma condição booleana:** Você pode usar uma condição booleana para selecionar linhas com base em uma expressão, como ```df.loc[df['idade'] > 25]```.

In [50]:
#Seleção -.loc[]

df_csv.loc[0, "ID_Cliente":"Telefone"] #Inclusive

ID_Cliente               1001
Primeiro_Nome           Frodo
Sobrenome             Baggins
Telefone         123-545-5421
Name: 0, dtype: object

#### Seleção por indexação - .iloc[]

O ```iloc``` é um método usado para acessar um grupo de linhas e colunas por meio de índices inteiros. Ele funciona da seguinte forma:

- **Usando índices inteiros:** Você especifica os índices das linhas e colunas que deseja selecionar. Por exemplo, ```df.iloc[0, 2]``` selecionará o valor na primeira linha e terceira coluna.

- **Usando índices inteiros e fatias:** Assim como o loc, você também pode usar fatias para selecionar um intervalo de índices, como ```df.iloc[1:3, 0:2]```.

- **Usando índices inteiros com condição booleana:** Você pode combinar o iloc com uma condição booleana para selecionar linhas com base em uma expressão, como ```df.iloc[df['idade'] > 25]```.

In [51]:
#Seleção-.iloc[]

df_csv.iloc[0, 0:4] #Exclusive 

ID_Cliente               1001
Primeiro_Nome           Frodo
Sobrenome             Baggins
Telefone         123-545-5421
Name: 0, dtype: object

#### 2.2 Operações com colunas e linhas 

As operações com colunas em um DataFrame são uma parte essencial da manipulação de dados. Você pode realizar uma variedade de operações para transformar, calcular e manipular os valores de uma coluna.

In [54]:
# Aritmética entre Colunas:

df_csv["Classificacao"] = df_csv["Classificacao"] + 1.5

In [None]:
# Aplicação de Funções:

def value2(x):
    return x * 2

df_csv["Classificacao"] = df_csv["Classificacao"].apply(value2)

#### 2.3 Tratamento de valores faltantes ou inconsistências

O tratamento de valores faltantes e inconsistências é uma etapa crucial na manipulação de dados, pois dados ausentes ou inconsistentes podem afetar a qualidade das análises e modelos que você constrói.

In [55]:
# Verificação de valores faltantes  
df_csv.isnull().sum()

ID_Cliente           0
Primeiro_Nome        0
Sobrenome            1
Telefone             2
Endereco             0
Cliente_Pagante      0
Not_Useful_Column    0
Contactar_SN         4
Classificacao        0
dtype: int64

In [57]:
import numpy as np

In [58]:
df_csv = df_csv.replace(["N/a"], np.nan)

In [60]:
# Preenchelos com outros valores 

def preencher_valores_na(df, column:str, valor):
    df[column].fillna(valor, inplace=True)
    
preencher_valores_na(df_csv, 'Telefone', '000-000-0000')
preencher_valores_na(df_csv, 'Contactar_SN', 'No')

In [61]:
print(df_csv['Telefone'].isnull().sum())
print(df_csv['Contactar_SN'].isnull().sum())

0
0


In [62]:
df_csv['Telefone'] = df_csv['Telefone'].str.replace('/','-').str.strip()
df_csv['Telefone'] = df_csv['Telefone'].str.replace('|','-', regex=True).str.strip()

df_csv['Telefone']

0     123-545-5421
1     123-643-9775
2       7066950392
3     123-543-2345
4     876-678-3469
5     304-762-2467
6     000-000-0000
7     876-678-3469
8     000-000-0000
9     123-545-5421
10    000-000-0000
11      7066950392
12    123-543-2345
13    876-678-3469
14    304-762-2467
15    123-545-5421
16    123-643-9775
17      7066950392
18    000-000-0000
19    876-678-3469
20    876-678-3469
Name: Telefone, dtype: object

#### 2.4 Filtragem de dados

A filtragem de dados é uma técnica fundamental para selecionar um subconjunto específico de dados em um DataFrame com base em determinados critérios ou condições. Ela ajuda a trabalhar de forma mais eficiente com grandes conjuntos de dados, focando apenas nos dados relevantes para uma análise ou tarefa específica.

In [63]:
# Filtrar os dados de acordo com a coluna sobrenome == "Skywalker"

cliente1 = df_csv[df_csv['Sobrenome'] == "Skywalker"]
cliente1

Unnamed: 0,ID_Cliente,Primeiro_Nome,Sobrenome,Telefone,Endereco,Cliente_Pagante,Not_Useful_Column,Contactar_SN,Classificacao
19,1020,Anakin,Skywalker,876-678-3469,"910 Tatooine Road, Tatooine",Yes,True,N,20
20,1020,Anakin,Skywalker,876-678-3469,"910 Tatooine Road, Tatooine",Yes,True,N,21


In [64]:
# Filtrar os dados dos clientes que não podem ser contactados

clientes_nao_contactados = df_csv[df_csv['Contactar_SN'] == 'No']
clientes_nao_contactados

Unnamed: 0,ID_Cliente,Primeiro_Nome,Sobrenome,Telefone,Endereco,Cliente_Pagante,Not_Useful_Column,Contactar_SN,Classificacao
0,1001,Frodo,Baggins,123-545-5421,"123 Shire Lane, Shire",Yes,True,No,1
2,1003,Walter,/White,7066950392,298 Drugs Driveway,N,True,No,3
4,1005,Jon,Snow,876-678-3469,123 Dragons Road,Y,True,No,5
6,1007,Jeff,Winger,000-000-0000,1209 South Street,No,False,No,7
7,1008,Sherlock,Holmes,876-678-3469,98 Clue Drive,N,False,No,8
8,1009,Gandalf,,000-000-0000,123 Middle Earth,Yes,False,No,9
9,1010,Peter,Parker,123-545-5421,"25th Main Street, New York",Yes,True,No,10
10,1011,Samwise,Gamgee,000-000-0000,"612 Shire Lane, Shire",Yes,True,No,11
11,1012,Harry,...Potter,7066950392,2394 Hogwarts Avenue,Y,True,No,12
13,1014,Leslie,Knope,876-678-3469,343 City Parkway,Yes,False,No,14


In [65]:
# Filtrando os clientes que podem ser contactados 

clientes_contactados = df_csv[df_csv['Contactar_SN'] == 'Yes']
clientes_contactados

Unnamed: 0,ID_Cliente,Primeiro_Nome,Sobrenome,Telefone,Endereco,Cliente_Pagante,Not_Useful_Column,Contactar_SN,Classificacao
1,1002,Abed,Nadir,123-643-9775,93 West Main Street,No,False,Yes,2
5,1006,Ron,Swanson,304-762-2467,768 City Parkway,Yes,True,Yes,6
18,1019,Creed,Braton,000-000-0000,,,True,Yes,19


In [66]:
# Filtragens condicionais

clientes_pagantes_contactados = df_csv[(df_csv['Cliente_Pagante'] == "Yes") & (df_csv['Contactar_SN'] == 'Yes')]
clientes_pagantes_contactados

Unnamed: 0,ID_Cliente,Primeiro_Nome,Sobrenome,Telefone,Endereco,Cliente_Pagante,Not_Useful_Column,Contactar_SN,Classificacao
5,1006,Ron,Swanson,304-762-2467,768 City Parkway,Yes,True,Yes,6


#### 2.5 Ordenação de dados 

O método ```sort_values()``` é uma ferramenta valiosa do pandas que permite reorganizar um DataFrame de acordo com os valores em uma ou mais colunas. Isso é particularmente útil para visualizar dados de forma ordenada e para realizar análises mais eficientes.

In [67]:
# Ordenando de acordo com a coluna 

df_ordenado = clientes_nao_contactados.sort_values(by='ID_Cliente', ascending=True)
df_ordenado

Unnamed: 0,ID_Cliente,Primeiro_Nome,Sobrenome,Telefone,Endereco,Cliente_Pagante,Not_Useful_Column,Contactar_SN,Classificacao
0,1001,Frodo,Baggins,123-545-5421,"123 Shire Lane, Shire",Yes,True,No,1
2,1003,Walter,/White,7066950392,298 Drugs Driveway,N,True,No,3
4,1005,Jon,Snow,876-678-3469,123 Dragons Road,Y,True,No,5
6,1007,Jeff,Winger,000-000-0000,1209 South Street,No,False,No,7
7,1008,Sherlock,Holmes,876-678-3469,98 Clue Drive,N,False,No,8
8,1009,Gandalf,,000-000-0000,123 Middle Earth,Yes,False,No,9
9,1010,Peter,Parker,123-545-5421,"25th Main Street, New York",Yes,True,No,10
10,1011,Samwise,Gamgee,000-000-0000,"612 Shire Lane, Shire",Yes,True,No,11
11,1012,Harry,...Potter,7066950392,2394 Hogwarts Avenue,Y,True,No,12
13,1014,Leslie,Knope,876-678-3469,343 City Parkway,Yes,False,No,14


In [68]:
# Ordenando a partir da coluna Primeiro Nome

df_ordenado = clientes_nao_contactados.sort_values(by='Primeiro_Nome')
df_ordenado

Unnamed: 0,ID_Cliente,Primeiro_Nome,Sobrenome,Telefone,Endereco,Cliente_Pagante,Not_Useful_Column,Contactar_SN,Classificacao
17,1018,Clark,Kent,7066950392,3498 Super Lane,Y,True,No,18
0,1001,Frodo,Baggins,123-545-5421,"123 Shire Lane, Shire",Yes,True,No,1
8,1009,Gandalf,,000-000-0000,123 Middle Earth,Yes,False,No,9
11,1012,Harry,...Potter,7066950392,2394 Hogwarts Avenue,Y,True,No,12
6,1007,Jeff,Winger,000-000-0000,1209 South Street,No,False,No,7
4,1005,Jon,Snow,876-678-3469,123 Dragons Road,Y,True,No,5
13,1014,Leslie,Knope,876-678-3469,343 City Parkway,Yes,False,No,14
16,1017,Michael,Scott,123-643-9775,"121 Paper Avenue, Pennsylvania",Yes,False,No,17
9,1010,Peter,Parker,123-545-5421,"25th Main Street, New York",Yes,True,No,10
10,1011,Samwise,Gamgee,000-000-0000,"612 Shire Lane, Shire",Yes,True,No,11


#### 2.6 Conversão de Dados 

A conversão de dados no contexto da análise de dados com o pandas é essencial para garantir que os conjuntos de dados estejam prontos para análise precisa e eficiente. Por meio de métodos como pd.to_datetime(), .astype() e outros, é possível transformar colunas em diferentes tipos de dados, como datas, números inteiros, categorias e strings. Essa flexibilidade permite ajustar os dados às necessidades específicas da análise, melhorando a precisão dos cálculos e a eficácia das operações.

In [None]:
# Criando um DataFrame de exemplo

data = {'coluna_data': ['2022-05-01', '2022-06-01', '2022-07-01'],
        'coluna_numerica': ['10', '20', '30'],
        'coluna_categorica': ['A', 'B', 'C'],
        'coluna_string': [10, 20, 30]}

df = pd.DataFrame(data)

In [None]:
# Convertendo coluna para tipo de dados datetime
df['coluna_data'] = pd.to_datetime(df['coluna_data'])

In [None]:
# Convertendo coluna para tipo de dados numéricos (int)
df['coluna_numerica'] = df['coluna_numerica'].astype(int)

In [None]:
# Convertendo coluna para tipo de dados categóricos
df['coluna_categorica'] = df['coluna_categorica'].astype('category')

In [None]:
# Convertendo coluna para tipo de dados string
df['coluna_string'] = df['coluna_string'].astype(str)

In [None]:
# Exibindo o DataFrame resultante
print(df.dtypes)
print(df)