<img src='https://github.com/davibarbosabdj/Minicurso_pandas/blob/main/imagens/logo_pandas.png?raw=true' width='115px' style='float: right'>

# <center><strong>Introdução a Biblioteca Pandas</strong></center>

---

#### **O que é o Pandas?**

O pandas é uma biblioteca de código aberto para a linguagem de programação Python que é usada principalmente para análise e manipulação de dados. Ela fornece estruturas de dados e ferramentas de análise de alta performance e fáceis de usar, permitindo que os usuários manipulem dados tabulares com facilidade. O pandas é amplamente utilizado em ciência de dados, finanças, análise de negócios e outras áreas onde a análise de dados é fundamental.
<br>
#### **Por que o Pandas é importante para Análise de Dados?**

O pandas é importante para análise de dados porque oferece uma ampla gama de ferramentas e funcionalidades para manipulação e análise de dados de forma eficiente e eficaz. Com o pandas, os usuários podem importar e exportar dados de várias fontes, limpar e preparar dados para análise, manipular e transformar dados para uso em modelos de análise e visualizações de dados, e realizar análises estatísticas e de séries temporais.

Além disso, o pandas oferece suporte para lidar com dados faltantes, integrar dados de várias fontes e visualizar os resultados da análise em gráficos e tabelas interativas. Como resultado, os usuários podem analisar grandes conjuntos de dados com mais rapidez e facilidade, permitindo que tomem decisões informadas com base em insights valiosos extraídos dos dados.

Em resumo, o pandas é importante para análise de dados porque permite que os usuários trabalhem com dados de forma mais eficiente e eficaz, economizando tempo e aumentando a precisão dos resultados.

#### **Instalando e Importando o Pandas**

Para instalar o pandas, você pode usar o pip, o gerenciador de pacotes padrão do Python. Basta abrir o terminal ou prompt de comandos e digitar o seguinte comando: 

~~~python
pip install pandas
~~~

Após a instalação, você pode importar o pandas em seus scripts Python utilizando seguinte comando: 

In [1]:
import pandas as pd

### **1. Manipulação de Dados Básica**

**Dataset: Customer Call List**

A base de dados Customer Call List é uma valiosa fonte de informações sobre os clientes da empresa. Contendo colunas essenciais, como o ID do cliente, telefone, nome, endereço e outros campos relevantes, essa base de dados permite à empresa manter contato com seus clientes e fornecer um atendimento personalizado.

#### 1.1 Lendo a nossa base de dados

Existem várias maneiras de importar um dataset no Python usando o Pandas, que é uma biblioteca popular para análise de dados.

In [2]:
#Leitura dos dados no formato csv

df_csv = pd.read_csv(r"C:\Users\joaod\OneDrive\Documentos\Projetos\Minicurso_pandas\data\Customer_Call_List_csv")
print(df_csv)

    CustomerID First_Name    Last_Name  Phone_Number  \
0         1001      Frodo      Baggins  123-545-5421   
1         1002       Abed        Nadir  123/643/9775   
2         1003     Walter       /White    7066950392   
3         1004     Dwight      Schrute  123-543-2345   
4         1005        Jon         Snow  876|678|3469   
5         1006        Ron      Swanson  304-762-2467   
6         1007       Jeff       Winger           NaN   
7         1008   Sherlock       Holmes  876|678|3469   
8         1009    Gandalf          NaN           N/a   
9         1010      Peter       Parker  123-545-5421   
10        1011    Samwise       Gamgee           NaN   
11        1012      Harry    ...Potter    7066950392   
12        1013        Don       Draper  123-543-2345   
13        1014     Leslie        Knope  876|678|3469   
14        1015       Toby  Flenderson_  304-762-2467   
15        1016        Ron      Weasley  123-545-5421   
16        1017   Michael         Scott  123/643/

In [4]:
#Leitura dos dados no formato excel

df_excel = pd.read_excel(r"C:\Users\joaod\OneDrive\Documentos\Projetos\Minicurso_pandas\data\Customer_Call_List_excel.xlsx")
print(df_excel)

   CustomerID First_Name Last_Name  Phone_Number                Address  \
0        1001      Frodo   Baggins  123-545-5421  123 Shire Lane, Shire   

  Paying Customer Do_Not_Contact  Not_Useful_Column  
0             Yes             No               True  


In [5]:
#Leitura dos dados no formato json

df_json = pd.read_json(r"C:\Users\joaod\OneDrive\Documentos\Projetos\Minicurso_pandas\data\Customer_Call_List_json")
print(df_json)

   CustomerID First_Name Last_Name  Phone_Number                Address  \
0        1001      Frodo   Baggins  123-545-5421  123 Shire Lane, Shire   

  Paying Customer Do_Not_Contact  Not_Useful_Column  
0             Yes             No               True  


#### 1.2 Visualizando a nossa base de dados

In [6]:
#Visualizando as primeiras linhas do nosso dataframe - .head()

df_csv.head()

Unnamed: 0,CustomerID,First_Name,Last_Name,Phone_Number,Address,Paying Customer,Do_Not_Contact,Not_Useful_Column
0,1001,Frodo,Baggins,123-545-5421,"123 Shire Lane, Shire",Yes,No,True
1,1002,Abed,Nadir,123/643/9775,93 West Main Street,No,Yes,False
2,1003,Walter,/White,7066950392,298 Drugs Driveway,N,,True
3,1004,Dwight,Schrute,123-543-2345,"980 Paper Avenue, Pennsylvania, 18503",Yes,Y,True
4,1005,Jon,Snow,876|678|3469,123 Dragons Road,Y,No,True


In [7]:
#Visualizando as ultimas linhas do nosso dataframe - .tail()

df_csv.tail()

Unnamed: 0,CustomerID,First_Name,Last_Name,Phone_Number,Address,Paying Customer,Do_Not_Contact,Not_Useful_Column
16,1017,Michael,Scott,123/643/9775,"121 Paper Avenue, Pennsylvania",Yes,No,False
17,1018,Clark,Kent,7066950392,3498 Super Lane,Y,,True
18,1019,Creed,Braton,N/a,N/a,N/a,Yes,True
19,1020,Anakin,Skywalker,876|678|3469,"910 Tatooine Road, Tatooine",Yes,N,True
20,1020,Anakin,Skywalker,876|678|3469,"910 Tatooine Road, Tatooine",Yes,N,True


In [3]:
#Visualizando as informações gerais do nosso data frame - .info()

df_csv.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21 entries, 0 to 20
Data columns (total 8 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   CustomerID         21 non-null     int64 
 1   First_Name         21 non-null     object
 2   Last_Name          20 non-null     object
 3   Phone_Number       19 non-null     object
 4   Address            21 non-null     object
 5   Paying Customer    21 non-null     object
 6   Do_Not_Contact     17 non-null     object
 7   Not_Useful_Column  21 non-null     bool  
dtypes: bool(1), int64(1), object(6)
memory usage: 1.3+ KB


In [9]:
#Retornando o nome das colunas do dataframe .columns

df_csv.columns

Index(['CustomerID', 'First_Name', 'Last_Name', 'Phone_Number', 'Address',
       'Paying Customer', 'Do_Not_Contact', 'Not_Useful_Column'],
      dtype='object')

#### 1.3 Manipulação das Colunas do Dataframe 

Podemos realizar diversas manipulações nas colunas de um dataframe utilizando as funcionalidades do Pandas.

In [3]:
#Renomear colunas - .rename()

df_csv = df_csv.rename(columns={'CustomerID':'ID_Cliente', 
                                'First_Name':'Primeiro_Nome', 
                                'Last_Name':'Sobrenome', 
                                'Phone_Number':'Telefone', 
                                'Address':'Endereco',
                                'Paying Customer':'Cliente_Pagante', 
                                'Do_Not_Contact':'Contactar_SN'})

df_csv.columns

Index(['ID_Cliente', 'Primeiro_Nome', 'Sobrenome', 'Telefone', 'Endereco',
       'Cliente_Pagante', 'Contactar_SN', 'Not_Useful_Column'],
      dtype='object')

In [5]:
#Mudando a ordem das colunas - 

df_csv = df_csv[['ID_Cliente', 'Primeiro_Nome', 'Sobrenome', 'Telefone', 'Endereco',
       'Cliente_Pagante', 'Not_Useful_Column', 'Contactar_SN']]
df_csv.columns

Index(['ID_Cliente', 'Primeiro_Nome', 'Sobrenome', 'Telefone', 'Endereco',
       'Cliente_Pagante', 'Not_Useful_Column', 'Contactar_SN'],
      dtype='object')

Para criar uma nova coluna em um data frame, basta atribuirmos uma lista/series de valores a uma constante a uma nova chave do df.

*Obs: A quantidade de valores da lista deve ser igual ao número de linhas/registros do df.*

In [4]:
#Criar novas colunas 

df_csv['Classificacao'] = range(21)

In [16]:
df_csv

Unnamed: 0,ID_Cliente,Primeiro_Nome,Sobrenome,Telefone,Endereco,Cliente_Pagante,Not_Useful_Column,Contactar_SN,Classificação,Classificacao
0,1001,Frodo,Baggins,123-545-5421,"123 Shire Lane, Shire",Yes,True,No,0,0
1,1002,Abed,Nadir,123/643/9775,93 West Main Street,No,False,Yes,1,1
2,1003,Walter,/White,7066950392,298 Drugs Driveway,N,True,,2,2
3,1004,Dwight,Schrute,123-543-2345,"980 Paper Avenue, Pennsylvania, 18503",Yes,True,Y,3,3
4,1005,Jon,Snow,876|678|3469,123 Dragons Road,Y,True,No,4,4
5,1006,Ron,Swanson,304-762-2467,768 City Parkway,Yes,True,Yes,5,5
6,1007,Jeff,Winger,,1209 South Street,No,False,No,6,6
7,1008,Sherlock,Holmes,876|678|3469,98 Clue Drive,N,False,No,7,7
8,1009,Gandalf,,N/a,123 Middle Earth,Yes,False,,8,8
9,1010,Peter,Parker,123-545-5421,"25th Main Street, New York",Yes,True,No,9,9


In [11]:
df_csv['Telefone'] = df_csv['Telefone'].str.replace('/','-').str.strip()
df_csv['Telefone'] = df_csv['Telefone'].str.replace('|','-', regex=True).str.strip()

df_csv['Telefone']

0     123-545-5421
1     123-643-9775
2       7066950392
3     123-543-2345
4     876-678-3469
5     304-762-2467
6              NaN
7     876-678-3469
8              N-a
9     123-545-5421
10             NaN
11      7066950392
12    123-543-2345
13    876-678-3469
14    304-762-2467
15    123-545-5421
16    123-643-9775
17      7066950392
18             N-a
19    876-678-3469
20    876-678-3469
Name: Telefone, dtype: object

In [None]:
#Deletar colunas - .drop() e del df[column]

# df_csv = df_csv.drop('col1', axis=1)
# df_csv = df_csv.drop(['col1', 'col2'], axis=1)
# del df_csv['column']

#### 1.4 Series

Uma Series é uma estrutura de dados unidimensional que contém um array de dados e um array correspondente de rótulos, chamado de índice. É uma estrutura de dados flexível e útil para várias operações de manipulação de dados e análise de dados, especialmente quando se trabalha com dados em colunas de um DataFrame.

In [6]:
#Selecionando uma coluna inteira 
df_csv['ID_Cliente']

0     1001
1     1002
2     1003
3     1004
4     1005
5     1006
6     1007
7     1008
8     1009
9     1010
10    1011
11    1012
12    1013
13    1014
14    1015
15    1016
16    1017
17    1018
18    1019
19    1020
20    1020
Name: ID_Cliente, dtype: int64

### **2. Manipulação de Dados**

#### 2.1 Selecionando os dados 
Existem várias maneiras de selecionar dados usando o pandas. Indexação, Condição, Colunas... 

#### Seleção por indexação - .loc[]

```loc```: seleciona elementos do Dataframe, baseado em seus rótulos --> row-first, column-second

Este método é primariamente baseado nas labels da colunas, porém podemos utilizar com um array booleano também.

Funcionamento do método:

O método funciona desta maneira: ```df.loc[<linhas>, <colunas>]```

In [7]:
#Seleção -.loc[]

df_csv.loc[0, "ID_Cliente":"Telefone"] #Inclusive

ID_Cliente               1001
Primeiro_Nome           Frodo
Sobrenome             Baggins
Telefone         123-545-5421
Name: 0, dtype: object

#### Seleção por indexação - .iloc[]

```iloc```: seleciona elementos do dataframe, baseado em seu **índice(número)** --> row-first, column-second

In [9]:
#Seleção-.iloc[]

df_csv.iloc[0, 0:4] #Exclusive 

ID_Cliente               1001
Primeiro_Nome           Frodo
Sobrenome             Baggins
Telefone         123-545-5421
Name: 0, dtype: object

#### 2.2 Operações com colunas e linhas 

In [None]:
# Podemos realizar diversas operações com as nossas colunas

df["Classificacao"] = df["Classificacao"] + 1
df["column"] = df["column"] - 1 

In [None]:
df["column"] = df["column"] ** 1
df["column"] = df["column"] // 1

#### 2.3 Tratamento de valores faltantes ou inconsistências

In [30]:
# Verificação de valores faltantes  
df_csv.isnull().sum()

ID_Cliente           0
Primeiro_Nome        0
Sobrenome            1
Telefone             2
Endereco             0
Cliente_Pagante      0
Not_Useful_Column    0
Contactar_SN         4
Classificação        0
Classificacao        0
dtype: int64

- Declarar valores faltantes, é interessante trocar tanto dados faltantes sem uma formatação
- Quanto alguns valores que imediatamente não fazem sentido para nossa análise pelo NaN 
- Isso pode ser feito REPLACE no pandas

In [56]:
df_csv = df_csv.replace(["N/a"], np.nan)

In [57]:
df_csv

Unnamed: 0,ID_Cliente,Primeiro_Nome,Sobrenome,Telefone,Endereco,Cliente_Pagante,Contactar_SN,Not_Useful_Column
0,1001,Frodo,Baggins,123-545-5421,"123 Shire Lane, Shire",Yes,No,True
1,1002,Abed,Nadir,123/643/9775,93 West Main Street,No,Yes,False
2,1003,Walter,/White,7066950392,298 Drugs Driveway,N,No,True
3,1004,Dwight,Schrute,123-543-2345,"980 Paper Avenue, Pennsylvania, 18503",Yes,Y,True
4,1005,Jon,Snow,876|678|3469,123 Dragons Road,Y,No,True
5,1006,Ron,Swanson,304-762-2467,768 City Parkway,Yes,Yes,True
6,1007,Jeff,Winger,000-000-0000,1209 South Street,No,No,False
7,1008,Sherlock,Holmes,876|678|3469,98 Clue Drive,N,No,False
8,1009,Gandalf,,,123 Middle Earth,Yes,No,False
9,1010,Peter,Parker,123-545-5421,"25th Main Street, New York",Yes,No,True


In [7]:
# Preenchelos com outros valores 

def preencher_valores_na(df, column:str, valor):
    df[column].fillna(valor, inplace=True)
    
preencher_valores_na(df_csv, 'Telefone', '000-000-0000')
preencher_valores_na(df_csv, 'Contactar_SN', 'No')

In [8]:
print(df_csv['Telefone'].isnull().sum())
print(df_csv['Contactar_SN'].isnull().sum())

0
0


#### 2.4 Filtragem de dados

A filtragem de dados no pandas envolve a seleção de um subconjunto de linhas ou colunas do DataFrame com base em condições específicas.

In [6]:
# Filtrar os dados de acordo com a coluna sobrenome == "Skywalker"

cliente1 = df_csv[df_csv['Sobrenome'] == "Skywalker"]
cliente1

Unnamed: 0,ID_Cliente,Primeiro_Nome,Sobrenome,Telefone,Endereco,Cliente_Pagante,Contactar_SN,Not_Useful_Column
19,1020,Anakin,Skywalker,876|678|3469,"910 Tatooine Road, Tatooine",Yes,N,True
20,1020,Anakin,Skywalker,876|678|3469,"910 Tatooine Road, Tatooine",Yes,N,True


In [9]:
# Filtrar os dados dos clientes que não podem ser contactados

clientes_nao_contactados = df_csv[df_csv['Contactar_SN'] == 'No']
clientes_nao_contactados

Unnamed: 0,ID_Cliente,Primeiro_Nome,Sobrenome,Telefone,Endereco,Cliente_Pagante,Contactar_SN,Not_Useful_Column
0,1001,Frodo,Baggins,123-545-5421,"123 Shire Lane, Shire",Yes,No,True
2,1003,Walter,/White,7066950392,298 Drugs Driveway,N,No,True
4,1005,Jon,Snow,876|678|3469,123 Dragons Road,Y,No,True
6,1007,Jeff,Winger,000-000-0000,1209 South Street,No,No,False
7,1008,Sherlock,Holmes,876|678|3469,98 Clue Drive,N,No,False
8,1009,Gandalf,,N/a,123 Middle Earth,Yes,No,False
9,1010,Peter,Parker,123-545-5421,"25th Main Street, New York",Yes,No,True
10,1011,Samwise,Gamgee,000-000-0000,"612 Shire Lane, Shire",Yes,No,True
11,1012,Harry,...Potter,7066950392,2394 Hogwarts Avenue,Y,No,True
13,1014,Leslie,Knope,876|678|3469,343 City Parkway,Yes,No,False


In [14]:
# Filtrando os clientes que podem ser contactados 

clientes_contactados = df_csv[df_csv['Contactar_SN'] == 'Yes']
clientes_contactados

Unnamed: 0,ID_Cliente,Primeiro_Nome,Sobrenome,Telefone,Endereco,Cliente_Pagante,Contactar_SN,Not_Useful_Column
1,1002,Abed,Nadir,123/643/9775,93 West Main Street,No,Yes,False
5,1006,Ron,Swanson,304-762-2467,768 City Parkway,Yes,Yes,True
18,1019,Creed,Braton,N/a,N/a,N/a,Yes,True


In [18]:
# Filtragens condicionais

clientes_pagantes_contactados = df_csv[(df_csv['Cliente_Pagante'] == "Yes") & (df_csv['Contactar_SN'] == 'Yes')]
clientes_pagantes_contactados

Unnamed: 0,ID_Cliente,Primeiro_Nome,Sobrenome,Telefone,Endereco,Cliente_Pagante,Contactar_SN,Not_Useful_Column
5,1006,Ron,Swanson,304-762-2467,768 City Parkway,Yes,Yes,True


#### 2.5 Ordenação de dados 

O método ```sort_values()``` é uma ferramenta valiosa do pandas que permite reorganizar um DataFrame de acordo com os valores em uma ou mais colunas. Isso é particularmente útil para visualizar dados de forma ordenada e para realizar análises mais eficientes.

In [22]:
# Ordenando de acordo com a coluna 

df_ordenado = clientes_nao_contactados.sort_values(by='ID_Cliente', ascending=True)
df_ordenado

Unnamed: 0,ID_Cliente,Primeiro_Nome,Sobrenome,Telefone,Endereco,Cliente_Pagante,Contactar_SN,Not_Useful_Column
0,1001,Frodo,Baggins,123-545-5421,"123 Shire Lane, Shire",Yes,No,True
2,1003,Walter,/White,7066950392,298 Drugs Driveway,N,No,True
4,1005,Jon,Snow,876|678|3469,123 Dragons Road,Y,No,True
6,1007,Jeff,Winger,000-000-0000,1209 South Street,No,No,False
7,1008,Sherlock,Holmes,876|678|3469,98 Clue Drive,N,No,False
8,1009,Gandalf,,N/a,123 Middle Earth,Yes,No,False
9,1010,Peter,Parker,123-545-5421,"25th Main Street, New York",Yes,No,True
10,1011,Samwise,Gamgee,000-000-0000,"612 Shire Lane, Shire",Yes,No,True
11,1012,Harry,...Potter,7066950392,2394 Hogwarts Avenue,Y,No,True
13,1014,Leslie,Knope,876|678|3469,343 City Parkway,Yes,No,False


In [25]:
# Ordenando a partir da coluna Primeiro Nome

df_ordenado = clientes_nao_contactados.sort_values(by='Primeiro_Nome')
df_ordenado

Unnamed: 0,ID_Cliente,Primeiro_Nome,Sobrenome,Telefone,Endereco,Cliente_Pagante,Contactar_SN,Not_Useful_Column
17,1018,Clark,Kent,7066950392,3498 Super Lane,Y,No,True
0,1001,Frodo,Baggins,123-545-5421,"123 Shire Lane, Shire",Yes,No,True
8,1009,Gandalf,,N/a,123 Middle Earth,Yes,No,False
11,1012,Harry,...Potter,7066950392,2394 Hogwarts Avenue,Y,No,True
6,1007,Jeff,Winger,000-000-0000,1209 South Street,No,No,False
4,1005,Jon,Snow,876|678|3469,123 Dragons Road,Y,No,True
13,1014,Leslie,Knope,876|678|3469,343 City Parkway,Yes,No,False
16,1017,Michael,Scott,123/643/9775,"121 Paper Avenue, Pennsylvania",Yes,No,False
9,1010,Peter,Parker,123-545-5421,"25th Main Street, New York",Yes,No,True
10,1011,Samwise,Gamgee,000-000-0000,"612 Shire Lane, Shire",Yes,No,True


#### 2.6 Transformação de Dados 

In [6]:
df_csv.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21 entries, 0 to 20
Data columns (total 9 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   ID_Cliente         21 non-null     int64 
 1   Primeiro_Nome      21 non-null     object
 2   Sobrenome          20 non-null     object
 3   Telefone           19 non-null     object
 4   Endereco           21 non-null     object
 5   Cliente_Pagante    21 non-null     object
 6   Contactar_SN       17 non-null     object
 7   Not_Useful_Column  21 non-null     bool  
 8   Classificacao      21 non-null     int64 
dtypes: bool(1), int64(2), object(6)
memory usage: 1.5+ KB
