<p style ="text-align:center">
    <img src="http://epecora.com.br/DataFiles/BannerUFPR.png" width="700" alt="PPGOLD/PPGMNE Python:INTRO"  />
</p>

## Prof. Eduardo Pécora, Ph.D.

# **Uma introducão ao Pandas**

Neste notebook cobriremos os seguintes tópicos:

1. [Introdução ao Pandas](#intro)
2. [Leitura de Dados](#data)

<a id="intro"></a>
# **Introdução ao Pandas**

**O que é o Pandas?**

O Pandas é uma biblioteca de código aberto que fornece ferramentas rápidas, flexíveis e expressivas para análise e manipulação de dados estruturados (principalmente em formato de tabela). Ele se destaca pela facilidade de uso e pela alta performance ao lidar com grandes volumes de dados, sendo amplamente utilizado em ciência de dados.

Pandas combina as melhores funcionalidades de várias ferramentas, como SQL (sintaxe de consultas), Excel (manipulação de tabelas) e arrays do NumPy (alta performance em operações numéricas). Seus principais objetivos incluem:
- Manipulação eficiente de grandes conjuntos de dados;
- Ferramentas para análise e agregação de dados;
- Integração fácil com bibliotecas de visualização e aprendizado de máquina, como Matplotlib, Seaborn e Scikit-learn.

**Estruturas de Dados do Pandas**

A biblioteca Pandas é construída em torno de duas principais estruturas de dados:
- `Series`: Uma estrutura de dados unidimensional, similar a um array do NumPy ou a uma lista do Python, mas com a capacidade de ter um índice associado. Cada elemento em uma Series tem um rótulo, que é o índice, o que permite um acesso mais eficiente.

Exemplo de `Series`:

In [64]:
import pandas as pd
import numpy as np

s = pd.Series([1, 3, 5, np.nan, 7, 9])
print(s)

0    1.0
1    3.0
2    5.0
3    NaN
4    7.0
5    9.0
dtype: float64


- `DataFrame`: A estrutura mais importante do Pandas, o `DataFrame`, é uma tabela bidimensional com dados organizados em linhas e colunas, semelhante a uma planilha ou a uma tabela SQL. Cada coluna em um DataFrame é uma `Series`, e o `DataFrame` é composto por uma coleção de `Series` alinhadas por índice.

Exemplo de `DataFrame` criado por meio de um dicionário, repare que os nomes das colunas são as chaves do dicionário.

In [65]:
data = {
    'Nome': ['Ana', 'Bruno', 'Carlos'],
    'Idade': [23, 35, 45],
    'Cidade': ['Curitiba','São Paulo', 'Rio de Janeiro']
}

df = pd.DataFrame(data)
print(df)

     Nome  Idade          Cidade
0     Ana     23        Curitiba
1   Bruno     35       São Paulo
2  Carlos     45  Rio de Janeiro


In [66]:
df.dtypes #Retorna os tipos de dados de cada coluna

Unnamed: 0,0
Nome,object
Idade,int64
Cidade,object


`DataFrame` com datas nos índices.

In [67]:
dates = pd.date_range("20241107", periods=6)
print(dates)

DatetimeIndex(['2024-11-07', '2024-11-08', '2024-11-09', '2024-11-10',
               '2024-11-11', '2024-11-12'],
              dtype='datetime64[ns]', freq='D')


In [68]:
df2 = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list("ABCD"))
print(df2.dtypes)
df2

A    float64
B    float64
C    float64
D    float64
dtype: object


Unnamed: 0,A,B,C,D
2024-11-07,0.175249,-0.150502,-0.391713,-1.425129
2024-11-08,0.273387,0.661794,-0.023596,-0.888165
2024-11-09,0.711352,-0.007164,-1.460533,0.165451
2024-11-10,0.498148,-1.207173,0.733173,-1.356269
2024-11-11,0.756119,-1.122274,-0.276863,-1.496884
2024-11-12,-1.658743,-1.378708,-0.067602,1.018436


In [118]:
df2.to_numpy() #Retorna o DataFrame como um array NumPy

array([[ 0.17524947, -0.15050188, -0.39171324, -1.42512896],
       [ 0.27338716,  0.66179444, -0.0235957 , -0.88816543],
       [ 0.71135165, -0.00716352, -1.46053345,  0.16545149],
       [ 0.4981476 , -1.20717251,  0.73317333, -1.35626875],
       [ 0.7561187 , -1.1222743 , -0.27686295, -1.49688403],
       [-1.65874332, -1.37870753, -0.06760229,  1.01843576]])

In [121]:
df2.T #Retorna a transposta do DataFrame

Unnamed: 0,2024-11-07,2024-11-08,2024-11-09,2024-11-10,2024-11-11,2024-11-12
A,0.175249,0.273387,0.711352,0.498148,0.756119,-1.658743
B,-0.150502,0.661794,-0.007164,-1.207173,-1.122274,-1.378708
C,-0.391713,-0.023596,-1.460533,0.733173,-0.276863,-0.067602
D,-1.425129,-0.888165,0.165451,-1.356269,-1.496884,1.018436


<a id="data"></a>
# **Leitura de Dados**

A leitura de dados é o primeiro passo em qualquer fluxo de trabalho de análise de dados. O Pandas facilita a importação de dados de várias fontes e formatos para um DataFrame, que é a estrutura de dados principal utilizada ao longo da análise.

**Arquivos CSV**

O formato CSV (Comma-Separated Values) é um dos formatos de dados mais comuns, utilizado amplamente para armazenar dados tabulares.

In [69]:
nba_file = "https://raw.githubusercontent.com/EduPekUfpr/PythonProject/refs/heads/main/Dados/nba.csv" #caminho do arquivo

df_nba = pd.read_csv(nba_file)
print(df_nba.head())  # Exibe as primeiras 5 linhas do DataFrame

            Name            Team  Number Position   Age Height  Weight  \
0  Avery Bradley  Boston Celtics     0.0       PG  25.0    6-2   180.0   
1    Jae Crowder  Boston Celtics    99.0       SF  25.0    6-6   235.0   
2   John Holland  Boston Celtics    30.0       SG  27.0    6-5   205.0   
3    R.J. Hunter  Boston Celtics    28.0       SG  22.0    6-5   185.0   
4  Jonas Jerebko  Boston Celtics     8.0       PF  29.0   6-10   231.0   

             College     Salary  
0              Texas  7730337.0  
1          Marquette  6796117.0  
2  Boston University        NaN  
3      Georgia State  1148640.0  
4                NaN  5000000.0  


A função read_csv tem varios parâmetros, dentre os mais importantes temos:
- `sep`: Especifica o delimitador, caso o arquivo não utilize vírgulas;
- `header`: Indica a linha que contém os nomes das colunas;
- `names`: Define manualmente os nomes das colunas;
- `index_col`: Define uma coluna específica como índice do DataFrame;
- `usecols`: Carrega apenas as colunas especificadas;
- `dtype`: Especifica o tipo de dado para as colunas.

**Outros tipos de arquivo**

O pandas pode ler outros tipos de arquivo alem do CSV. Entre eles temos:
- Arquivos Excel, utilizando a função `read_excel()`;
- Arquivos JSON, utilizando a função `read_json()`;
- Arquivos SQL, utilizando a função `read_sql()`;
- Arquivos HTML, utilizando a função `read_html()`.

<a id="oper"></a>
# **Operações Básicas de Manipulação**

Após a leitura dos dados, o próximo passo é manipular esses dados para que fiquem prontos para análise. O Pandas fornece uma ampla gama de operações que facilitam a seleção, filtragem, modificação, reorganização e agregação de dados. Vamos explorar essas operações em detalhes.

## Visualizando os Dados

Antes de realizar qualquer manipulação, é importante inspecionar o DataFrame para entender sua estrutura e conteúdo.

In [70]:
df_nba.head(10)  # Exibe as primeiras 10 linhas

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
0,Avery Bradley,Boston Celtics,0.0,PG,25.0,6-2,180.0,Texas,7730337.0
1,Jae Crowder,Boston Celtics,99.0,SF,25.0,6-6,235.0,Marquette,6796117.0
2,John Holland,Boston Celtics,30.0,SG,27.0,6-5,205.0,Boston University,
3,R.J. Hunter,Boston Celtics,28.0,SG,22.0,6-5,185.0,Georgia State,1148640.0
4,Jonas Jerebko,Boston Celtics,8.0,PF,29.0,6-10,231.0,,5000000.0
5,Amir Johnson,Boston Celtics,90.0,PF,29.0,6-9,240.0,,12000000.0
6,Jordan Mickey,Boston Celtics,55.0,PF,21.0,6-8,235.0,LSU,1170960.0
7,Kelly Olynyk,Boston Celtics,41.0,C,25.0,7-0,238.0,Gonzaga,2165160.0
8,Terry Rozier,Boston Celtics,12.0,PG,22.0,6-2,190.0,Louisville,1824360.0
9,Marcus Smart,Boston Celtics,36.0,PG,22.0,6-4,220.0,Oklahoma State,3431040.0


In [71]:
df_nba.tail(10)  # Exibe as últimas 10 linhas

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
447,Rudy Gobert,Utah Jazz,27.0,C,23.0,7-1,245.0,,1175880.0
448,Gordon Hayward,Utah Jazz,20.0,SF,26.0,6-8,226.0,Butler,15409570.0
449,Rodney Hood,Utah Jazz,5.0,SG,23.0,6-8,206.0,Duke,1348440.0
450,Joe Ingles,Utah Jazz,2.0,SF,28.0,6-8,226.0,,2050000.0
451,Chris Johnson,Utah Jazz,23.0,SF,26.0,6-6,206.0,Dayton,981348.0
452,Trey Lyles,Utah Jazz,41.0,PF,20.0,6-10,234.0,Kentucky,2239800.0
453,Shelvin Mack,Utah Jazz,8.0,PG,26.0,6-3,203.0,Butler,2433333.0
454,Raul Neto,Utah Jazz,25.0,PG,24.0,6-1,179.0,,900000.0
455,Tibor Pleiss,Utah Jazz,21.0,C,26.0,7-3,256.0,,2900000.0
456,Jeff Withey,Utah Jazz,24.0,C,26.0,7-0,231.0,Kansas,947276.0


In [72]:
df_nba.columns # Retorna as colunas no formato de uma lista

Index(['Name', 'Team', 'Number', 'Position', 'Age', 'Height', 'Weight',
       'College', 'Salary'],
      dtype='object')

In [73]:
df_nba.index # Retorna os índices do DataFrame

RangeIndex(start=0, stop=457, step=1)

In [74]:
df_nba.info() #fornece um resumo conciso do DataFrame

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 457 entries, 0 to 456
Data columns (total 9 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Name      457 non-null    object 
 1   Team      457 non-null    object 
 2   Number    457 non-null    float64
 3   Position  457 non-null    object 
 4   Age       457 non-null    float64
 5   Height    457 non-null    object 
 6   Weight    457 non-null    float64
 7   College   373 non-null    object 
 8   Salary    446 non-null    float64
dtypes: float64(4), object(5)
memory usage: 32.3+ KB


In [75]:
#Retorna estatísticas descritivas para colunas numéricas por padrão,
#incluindo contagem, média, desvio padrão, valores mínimo e máximo, e percentis.\
df_nba.describe()

Unnamed: 0,Number,Age,Weight,Salary
count,457.0,457.0,457.0,446.0
mean,17.678337,26.938731,221.522976,4842684.0
std,15.96609,4.404016,26.368343,5229238.0
min,0.0,19.0,161.0,30888.0
25%,5.0,24.0,200.0,1044792.0
50%,13.0,26.0,220.0,2839073.0
75%,25.0,30.0,240.0,6500000.0
max,99.0,40.0,307.0,25000000.0


In [76]:
#Retorna estatísticas descritivas para colunas numéricas e não numéricas
df_nba.describe(include = 'all')

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
count,457,457,457.0,457,457.0,457,457.0,373,446.0
unique,457,30,,5,,18,,118,
top,Avery Bradley,New Orleans Pelicans,,SG,,6-9,,Kentucky,
freq,1,19,,102,,59,,22,
mean,,,17.678337,,26.938731,,221.522976,,4842684.0
std,,,15.96609,,4.404016,,26.368343,,5229238.0
min,,,0.0,,19.0,,161.0,,30888.0
25%,,,5.0,,24.0,,200.0,,1044792.0
50%,,,13.0,,26.0,,220.0,,2839073.0
75%,,,25.0,,30.0,,240.0,,6500000.0


## Fique Conectado

- [![YouTube](https://img.icons8.com/?size=40&id=19318&format=png&color=000000)](https://www.youtube.com/@LigaDataScience/videos)  
  Explore nossos vídeos educacionais e webinars sobre ciência de dados, machine learning e inteligência artificial. Inscreva-se para não perder nenhuma atualização!

- [![LinkedIn](https://img.icons8.com/?size=40&id=13930&format=png&color=000000)](https://www.linkedin.com/company/liga-data-science-ufpr/)  
  Siga-nos no LinkedIn para as últimas novidades, oportunidades de carreira e networking profissional no campo da ciência de dados.

- [![Instagram](https://img.icons8.com/?size=40&id=32323&format=png&color=000000)](https://www.instagram.com/ligadatascience/)  
  Confira nosso Instagram para conteúdos dos bastidores, destaques de eventos e o dia a dia da Liga Data Science. Faça parte da nossa jornada!
  
  
  ## Autores

<a href="https://www.linkedin.com/in/eduardopecora/" target="_blank">Eduardo Pecora</a>

<a href="https://www.linkedin.com/in/jo%C3%A3o-gabriel-santin-botelho-618244222/" target="_blank">João Gabriel Santin Botelho</a>


## Log de modificações

| Data | Versão | Modificado por | Descrição |
| ----------------- | ------- | ---------- | ---------------------------------- |
| 29-08-2024       | 1.0     | Eduardo Pecora & João Gabriel| Inicial               |

<hr>

## <h3 align="center"> (c) Liga Data Science/ UFPR 2024. All rights reserved. <h3/>