# Pandas e suas funcionalidades

Pandas é uma poderosa biblioteca de Python amplamente utilizada para análise de dados. Ela oferece estruturas de dados flexíveis e ferramentas eficientes para explorar, manipular e analisar dados tabulares. Com o Pandas, é possível realizar tarefas como leitura de dados, filtragem, agregação e visualização de forma simples e eficaz. Sendo uma ferramenta fundamental para o tratamento de dados.

## Passos iniciais

Antes de começar a utilizá-lo, é necessário ter instalado em sua máquina a versão mais recente do Python 3.

Feita a instalação do Python 3, no prompt de comando ou terminal do linux, digite a seguinte linha de comando:

In [None]:
pip install pandas

A biblioteca será instalada em sua máquina. Para utilizá-lo no seu código, basta importar sua biblioteca:

In [None]:
import pandas as pd

## Representação de tabelas em Pandas

Em Pandas, um DataFrame é uma estrutura de dados bidimensional tabular que se assemelha a uma tabela ou planilha. Ele é a estrutura de dados mais comumente usada na biblioteca e é projetado para armazenar e manipular dados de forma eficiente. O DataFrame é organizado em linhas (rows) e colunas (column), onde cada coluna pode conter diferentes tipos de dados, como números, strings, datas, etc.

![DataFrame](https://pandas.pydata.org/docs/_images/01_table_dataframe.svg)

Para criar um DataFrame local, basta utilizar: `variável = pd.DataFrame()`. Segue um exemplo de DataFrame criado localmente:

In [13]:
import pandas as pd

tabela = pd.DataFrame({
    'nome': ['João', 'Maria', 'José'],
    'idade': [18, 20, 25],
    'sexo': ['M', 'F', 'M']
})

print(tabela)

    nome  idade sexo
0   João     18    M
1  Maria     20    F
2   José     25    M


Neste exemplo é criada uma tabela com três linhas e três colunas contendo nome, idade e sexo. A coluna do nome representa dados textuais, idade como dados numéricos e o sexo como dados textuais. Veja que é possível visualizar os tipos de dados utilizando o atributo `.dtypes`.

In [14]:
import pandas as pd

tabela = pd.DataFrame({
    'nome': ['João', 'Maria', 'José'],
    'idade': [18, 20, 25],
    'sexo': ['M', 'F', 'M']
})

print(tabela.dtypes)

nome     object
idade     int64
sexo     object
dtype: object


Onde "object" representa uma string e "int64" representa os inteiros. 
Um DataFrame do Pandas é capaz de representar diversos tipos de dados, incluindo numéricos (inteiros e ponto flutuante), categóricos, booleanos, texto, datas, durações, objetos e valores nulos (NaN). A flexibilidade do Pandas permite especificar o tipo de dado para cada coluna, e ele pode inferir automaticamente o tipo com base nos valores fornecidos.

Em Pandas é possível escolher com quais dados trabalhar na tabela. Reutilizando o mesmo código acima, é possível mostrar apenas a idade do DataFrame:

In [15]:
import pandas as pd

tabela = pd.DataFrame({
    'nome': ['João', 'Maria', 'José'],
    'idade': [18, 20, 25],
    'sexo': ['M', 'F', 'M']
})

idade = tabela['idade']

print(idade)

0    18
1    20
2    25
Name: idade, dtype: int64


Também é possível pegar a idade máxima ou mínima da tabela, independente do seu tamanho, utilizando os métodos `max()` ou `min()`.

In [16]:
import pandas as pd

tabela = pd.DataFrame({
    'nome': ['João', 'Maria', 'José', 'Pedro'],
    'idade': [18, 20, 25, 18],
    'sexo': ['M', 'F', 'M', 'M']
})

idade = tabela['idade']

print("Idade mínima: ", idade.min())
print("Idade máxima: ", idade.max())

Idade mínima:  18
Idade máxima:  25


### Tome nota

A única limitação de memória da biblioteca é a própria memória da máquina utilizada ou limitações de formatos de arquivos utilizados.

O método `describe()` fornece uma visão geral rápida dos dados numéricos em um DataFrame. **ATENÇÃO!** Como as colunas Nome e Sexo são dados textuais, por padrão não são levados em consideração pelo método `describe()`.

In [17]:
import pandas as pd

tabela = pd.DataFrame({
    'nome': ['João', 'Maria', 'José', 'Pedro'],
    'idade': [18, 20, 25, 18],
    'sexo': ['M', 'F', 'M', 'M']
})

print(tabela.describe())

           idade
count   4.000000
mean   20.250000
std     3.304038
min    18.000000
25%    18.000000
50%    19.000000
75%    21.250000
max    25.000000


## Leitura e conversão de dados tabulares

Aprofundando um pouco mais essa biblioteca, entramos na parte da leitura de dados tabulares. Por sua incrível versatilidade, Pandas tem suporte para diversos formatos de arquivos, tanto para leitura ou conversão. Alguns deles são: CSV, Excel, SQL, JSON, HDF5, Parquet, ORC e Msgpack. Não necessariamente esses arquivos precisam estar presentes em uma máquina local, sendo possível trabalhar com arquivos na nuvem, por exemplo. 

Para fazer a leitura de um arquivo, basta utilizar o método `pd.read_(formato do arquivo)`. Por exemplo, `pd.read_csv()`, onde a biblioteca fará a leitura de um arquivo no formato CSV.

### Problema do Titanic

Utilizando o método `read_*`, é possível, por exemplo, ler um arquivo que contém uma tabela com dados de centenas passageiros presentes no titanic da seguinte maneira:

In [18]:
import pandas as pd

titanic = pd.read_csv("https://raw.githubusercontent.com/pandas-dev/pandas/main/doc/data/titanic.csv")
print(titanic)

     PassengerId  Survived  Pclass  \
0              1         0       3   
1              2         1       1   
2              3         1       3   
3              4         1       1   
4              5         0       3   
..           ...       ...     ...   
886          887         0       2   
887          888         1       1   
888          889         0       3   
889          890         1       1   
890          891         0       3   

                                                  Name     Sex   Age  SibSp  \
0                              Braund, Mr. Owen Harris    male  22.0      1   
1    Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                               Heikkinen, Miss. Laina  female  26.0      0   
3         Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                             Allen, Mr. William Henry    male  35.0      0   
..                                                 ...     ...   ... 

Note que a tabela possui 891 linhas e 12 colunas. Note também que o programa não mostra todos os dados. Para efeitos de visualização, é possível limitar a quantidade de linhas visíveis para o usuário utilizando os métodos `head()` e `tail()`. Sendo que, o head mostrará os dados iniciais da tabela e o tail mostrará os dados finais da tabela.

A partir desses dois métodos, é possível limitar a quantidade de linhas visíveis. Segue um exemplo em que o arquivo está restrito a mostrar apenas as dez primeiras linhas da tabela utilizando o método `head(10)`:

In [3]:
import pandas as pd

titanic = pd.read_csv("https://raw.githubusercontent.com/pandas-dev/pandas/main/doc/data/titanic.csv")
print(titanic.head(10))

   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   
5            6         0       3   
6            7         0       1   
7            8         0       3   
8            9         1       3   
9           10         1       2   

                                                Name     Sex   Age  SibSp  \
0                            Braund, Mr. Owen Harris    male  22.0      1   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                             Heikkinen, Miss. Laina  female  26.0      0   
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                           Allen, Mr. William Henry    male  35.0      0   
5                                   Moran, Mr. James    male   NaN      0   
6                            McCarthy, Mr. Timothy J    male  54

No exemplo acima, são mostradas na tela apenas as dez primeiras linhas do arquivo.

O mesmo pode ser feito, porém, mostrando as dez ultimas linhas da tabela utilizando o método `tail(10)`:

In [4]:
import pandas as pd

titanic = pd.read_csv("https://raw.githubusercontent.com/pandas-dev/pandas/main/doc/data/titanic.csv")
print(titanic.tail(10))

     PassengerId  Survived  Pclass                                      Name  \
881          882         0       3                        Markun, Mr. Johann   
882          883         0       3              Dahlberg, Miss. Gerda Ulrika   
883          884         0       2             Banfield, Mr. Frederick James   
884          885         0       3                    Sutehall, Mr. Henry Jr   
885          886         0       3      Rice, Mrs. William (Margaret Norton)   
886          887         0       2                     Montvila, Rev. Juozas   
887          888         1       1              Graham, Miss. Margaret Edith   
888          889         0       3  Johnston, Miss. Catherine Helen "Carrie"   
889          890         1       1                     Behr, Mr. Karl Howell   
890          891         0       3                       Dooley, Mr. Patrick   

        Sex   Age  SibSp  Parch            Ticket     Fare Cabin Embarked  
881    male  33.0      0      0            

O método `info()` mostra informações detalhadas do DataFrame:

In [5]:
import pandas as pd

titanic = pd.read_csv("https://raw.githubusercontent.com/pandas-dev/pandas/main/doc/data/titanic.csv")
print(titanic.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB
None


Com base no método info(), é possível extrair informações detalhadas do arquivo acima:

- Existem 891 entradas, ou seja, 891 linhas.
- Cada linha possui uma numeração (também conhecido como índice) com valores que variam de 0 a 890.
- A tabela possui 12 colunas. A maioria das colunas possui um valor para cada uma das linhas (todos os 891 valores não são nulos). Algumas colunas possuem valores ausentes e menos de 891 valores não nulos.
- As colunas Name, Sex, Cabin e Embarked consistem em dados textuais (strings, também conhecidos como objeto). As outras colunas são dados numéricos, alguns deles números inteiros (também conhecidos como inteiros) e outros são números reais (também conhecidos como flutuantes).
- A quantidade aproximada de memória armazenada no DataFrame também é fornecida.

Além do método `read()`, existe também o método `to_(tipo de arquivo)` que faz a conversão de um tipo de arquivo para outro.

É possível selecionar colunas específicas do DataFrame. Para selecionar uma única coluna, basta utilizar colchetes [ ] com o nome da coluna de interesse.

In [6]:
import pandas as pd

titanic = pd.read_csv("https://raw.githubusercontent.com/pandas-dev/pandas/main/doc/data/titanic.csv")
ages = titanic["Age"]

print(ages)

0      22.0
1      38.0
2      26.0
3      35.0
4      35.0
       ... 
886    27.0
887    19.0
888     NaN
889    26.0
890    32.0
Name: Age, Length: 891, dtype: float64


No exemplo acima, apenas a coluna "Age" é selecionada.

Há também o atributo `.shape` responsável por mostrar a dimensão da tabela que está sendo trabalhada.

In [7]:
import pandas as pd

titanic = pd.read_csv("https://raw.githubusercontent.com/pandas-dev/pandas/main/doc/data/titanic.csv")
print(titanic.shape)

(891, 12)


Pegando o shape de todo o arquivo CSV, temos 891 linhas e 12 colunas.

In [8]:
import pandas as pd

titanic = pd.read_csv("https://raw.githubusercontent.com/pandas-dev/pandas/main/doc/data/titanic.csv")
age_sex = titanic[["Age", "Sex"]]

print(age_sex.shape)

(891, 2)


Limitando a apenas "Age" e "Sex", temos 891 linhas e 2 colunas.

Também é possível colocar condições no DataFrame. Para selecionar linhas com base em uma expressão condicional, use uma condição entre colchetes [ ]. Por exemplo, é possível listar apenas os passageiros maiores de 35 anos.

In [9]:
import pandas as pd

titanic = pd.read_csv("https://raw.githubusercontent.com/pandas-dev/pandas/main/doc/data/titanic.csv")
ages = titanic[titanic["Age"] > 35]

print(ages)

     PassengerId  Survived  Pclass  \
1              2         1       1   
6              7         0       1   
11            12         1       1   
13            14         0       3   
15            16         1       2   
..           ...       ...     ...   
865          866         1       2   
871          872         1       1   
873          874         0       3   
879          880         1       1   
885          886         0       3   

                                                  Name     Sex   Age  SibSp  \
1    Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
6                              McCarthy, Mr. Timothy J    male  54.0      0   
11                            Bonnell, Miss. Elizabeth  female  58.0      0   
13                         Andersson, Mr. Anders Johan    male  39.0      1   
15                    Hewlett, Mrs. (Mary D Kingcome)   female  55.0      0   
..                                                 ...     ...   ... 

Veja que, dos 891 passageiros, apenas 217 tem mais de 35 anos.

A saída da expressão condicional (>, porém ==, !=, <, <=,… funcionaria) é na verdade uma série de valores booleanos (Verdadeiro ou Falso) com o mesmo número de linhas que o DataFrame original. Essa série de valores booleanos pode ser usada para filtrar o DataFrame, colocando-o entre os colchetes [ ]. Onde somente as linhas cujo valor for verdadeiro serão selecionadas.

Para finalizar, existem dois operadores chamados `.loc` e `iloc` que servem para acessar e selecionar dados de um DataFrame. Elas permitem que você especifique quais linhas e colunas deseja selecionar, facilitando a recuperação de dados específicos do DataFrame.  A sintaxe geral é `DataFrame.loc[linhas, colunas]`, onde linhas e colunas podem ser rótulos únicos, listas de rótulos ou fatias (slices).

Por exemplo, deseja-se mostrar apenas as linhas de 10 a 25 e colunas de 3 a 5.

In [10]:
import pandas as pd

titanic = pd.read_csv("https://raw.githubusercontent.com/pandas-dev/pandas/main/doc/data/titanic.csv")
print(titanic.iloc[9:25, 2:5])

    Pclass                                               Name     Sex
9        2                Nasser, Mrs. Nicholas (Adele Achem)  female
10       3                    Sandstrom, Miss. Marguerite Rut  female
11       1                           Bonnell, Miss. Elizabeth  female
12       3                     Saundercock, Mr. William Henry    male
13       3                        Andersson, Mr. Anders Johan    male
14       3               Vestrom, Miss. Hulda Amanda Adolfina  female
15       2                   Hewlett, Mrs. (Mary D Kingcome)   female
16       3                               Rice, Master. Eugene    male
17       2                       Williams, Mr. Charles Eugene    male
18       3  Vander Planke, Mrs. Julius (Emelia Maria Vande...  female
19       3                            Masselmani, Mrs. Fatima  female
20       2                               Fynney, Mr. Joseph J    male
21       2                              Beesley, Mr. Lawrence    male
22       3          

Um subconjunto de linhas e colunas é criado de uma só vez e apenas usar colchetes de seleção [] não é mais suficiente. Quando estiver especificamente interessado em determinadas linhas e/ou colunas com base em sua posição na tabela, use o operador `iloc` na frente dos colchetes de seleção [].

Ao selecionar linhas e/ou colunas específicas com `loc` ou `iloc`, novos valores podem ser atribuídos aos dados selecionados. Por exemplo, para atribuir o nome "anonymous" aos 3 primeiros elementos coluna "Name":

In [11]:
import pandas as pd

titanic = pd.read_csv("https://raw.githubusercontent.com/pandas-dev/pandas/main/doc/data/titanic.csv")
titanic.iloc[0:3, 3] = "anonymous"
print(titanic.head(4))

   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   

                                           Name     Sex   Age  SibSp  Parch  \
0                                     anonymous    male  22.0      1      0   
1                                     anonymous  female  38.0      1      0   
2                                     anonymous  female  26.0      0      0   
3  Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1      0   

             Ticket     Fare Cabin Embarked  
0         A/5 21171   7.2500   NaN        S  
1          PC 17599  71.2833   C85        C  
2  STON/O2. 3101282   7.9250   NaN        S  
3            113803  53.1000  C123        S  


## Links úteis

[Documentação da biblioteca](https://pandas.pydata.org/docs/index.html)

[Pandas Python: vantagens e como começar](https://harve.com.br/blog/programacao-python-blog/pandas-python-vantagens-e-como-comecar/).

[Tutorial W3Schools](https://www.w3schools.com/python/pandas/default.asp)
