# Pandas

## 👉 Que tipo de dados o Pandas trata?

In [71]:
# Importando o pacote
import pandas as pd

### Representação da tabela de dados do Pandas 

In [72]:
# Armazenando dados manualmente em um DataFrame
df = pd.DataFrame(
    {
        "Name": [
            "Braund, Mr. Owen Harris",
            "Allen, Mr. William Henry",
            "Bonnell, Miss. Elizabeth",
        ],
        "Age": [22, 35, 58],
        "Sex": ["male", "male", "female"],
    }
)

df

Unnamed: 0,Name,Age,Sex
0,"Braund, Mr. Owen Harris",22,male
1,"Allen, Mr. William Henry",35,male
2,"Bonnell, Miss. Elizabeth",58,female


Um DataFrame é uma **estrutura de dados bidimensional** que pode armazenar dados de diferentes tipos (incluindo caracteres, inteiros, valores de ponto flutuante, dados categóricos e muito mais) em colunas. É semelhante a uma planilha do Excel ou uma tabela SQL.

### Cada coluna em um DataFrame é uma Series

In [73]:
# Ao selecionar uma única coluna de um DataFrame, o resultado é uma Series
df["Age"]

# Criando uma Series
ages = pd.Series([22, 35, 58], name="Age")

Uma Series não possui rótulos de coluna, pois tem apenas uma única coluna. No entanto, possui rótulos de linha.

### Fazendo algo com um DataFrame ou Series 


In [74]:
# Retorna o valor mais alto para a coluna selecionada
df["Age"].max()

58

# Fornece algumas estatísticas básicas dos dados numéricos de um DataFrame, por padrão dados textuais não são considerados
df.describe()

## 2- Como leio e escrevo dados tabulares?

O pandas suporta muitos formatos de arquivo ou fontes de dados diferentes prontos para uso (csv, excel, sql, json, parquet, ...), cada um deles com o prefixo read_*.

In [75]:
titanic = pd.read_csv("datasets/titanic.csv")
titanic

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [76]:
titanic.head(8)  # Exibe as primeiras N linhas de um DataFrame, para as últimas N linhas use o método tail()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S


In [77]:
titanic.dtypes  # Verifica como o pandas interpretou cada um dos tipos de dados da coluna 

PassengerId      int64
Survived         int64
Pclass           int64
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Cabin           object
Embarked        object
dtype: object

In [78]:
titanic.to_excel("titanic.xlsx", sheet_name="passengers", index=False)  # to_* é usado para exportar dados

In [79]:
titanic.info()  # Fornece informações técnicas sobre um DataFrame

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


Sua saída é:

- É um DataFrame.
- Existem 891 entradas, ou seja, 891 linhas.
- Cada linha possui um rótulo de linha (também conhecido como index) com valores que variam de 0 a 890.
- A tabela possui 12 colunas. Algumas colunas possuem valores ausentes.
- As colunas possuem diferentes tipos de dados.
- Os tipos de dados nas diferentes colunas são resumidos em dtypes.
- A quantidade aproximada de RAM usada para armazenar o DataFrame também é fornecida.

## Como seleciono um subconjunto de a DataFrame?

### Como seleciono colunas específicas de um arquivo DataFrame?

In [80]:
ages = titanic["Age"]  # Para selecionar uma única coluna, use colchetes [] com o nome da coluna de interesse
ages.head()

0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: Age, dtype: float64

In [81]:
age_sex = titanic[["Age", "Sex"]]  # Para selecionar várias colunas, use uma lista de nomes de colunas
age_sex.head()

Unnamed: 0,Age,Sex
0,22.0,male
1,38.0,female
2,26.0,female
3,35.0,female
4,35.0,male


### Como posso filtrar linhas específicas de um arquivo DataFrame?

In [82]:
above_35 = titanic[titanic["Age"] > 35]
above_35.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.55,C103,S
13,14,0,3,"Andersson, Mr. Anders Johan",male,39.0,1,5,347082,31.275,,S
15,16,1,2,"Hewlett, Mrs. (Mary D Kingcome)",female,55.0,0,0,248706,16.0,,S


A condição dentro dos colchetes de seleção verifica em quais linhas a coluna tem valor maior que 35

In [83]:
titanic["Age"] > 35

0      False
1       True
2      False
3      False
4      False
       ...  
886    False
887    False
888    False
889    False
890    False
Name: Age, Length: 891, dtype: bool

A saída da expressão condicional é na verdade um Series de valores booleanos com o mesmo número de linhas que o original DataFrame. Esses Series valores booleanos podem ser usados para filtrar DataFrame. Somente as linhas para as quais o valor for True serão selecionadas.

In [84]:
above_35.shape

(217, 12)

In [85]:
class_23 = titanic[titanic["Pclass"].isin([2, 3])]
class_23.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S


A função isin() retorna a True para cada linha em que os valores estão na lista fornecida.

equivalente a

In [86]:
class_23 = titanic[(titanic["Pclass"] == 2) | (titanic["Pclass"] == 3)]

Ao combinar múltiplas instruções condicionais, cada condição deve estar entre parênteses ()

In [87]:
age_no_na = titanic[titanic["Age"].notna()]  # retorna True para cada linha onde os valores não são Null 
age_no_na.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


### Como seleciono linhas e colunas específicas de um arquivo DataFrame?

In [88]:
adult_names = titanic.loc[titanic["Age"] > 35, "Name"]
adult_names.head()

1     Cumings, Mrs. John Bradley (Florence Briggs Th...
6                               McCarthy, Mr. Timothy J
11                             Bonnell, Miss. Elizabeth
13                          Andersson, Mr. Anders Johan
15                     Hewlett, Mrs. (Mary D Kingcome) 
Name: Name, dtype: object

Ao usar loc/ iloc, a parte antes da vírgula são as linhas que você deseja e a parte depois da vírgula são as colunas que você deseja selecionar.
Ao usar nomes de colunas, rótulos de linhas ou uma expressão de condição, use o locoperador na frente dos colchetes de seleção [].

In [89]:
titanic.iloc[9:25, 2:5]

Unnamed: 0,Pclass,Name,Sex
9,2,"Nasser, Mrs. Nicholas (Adele Achem)",female
10,3,"Sandstrom, Miss. Marguerite Rut",female
11,1,"Bonnell, Miss. Elizabeth",female
12,3,"Saundercock, Mr. William Henry",male
13,3,"Andersson, Mr. Anders Johan",male
14,3,"Vestrom, Miss. Hulda Amanda Adolfina",female
15,2,"Hewlett, Mrs. (Mary D Kingcome)",female
16,3,"Rice, Master. Eugene",male
17,2,"Williams, Mr. Charles Eugene",male
18,3,"Vander Planke, Mrs. Julius (Emelia Maria Vande...",female


Quando estiver especificamente interessado em determinadas linhas e/ou colunas com base em sua posição na tabela, use o ilocoperador na frente dos colchetes de seleção [].

Ao selecionar linhas e/ou colunas específicas com locou iloc, novos valores podem ser atribuídos aos dados selecionados. Por exemplo, para atribuir o nome anonymousaos primeiros 3 elementos da quarta coluna:

In [90]:
titanic.iloc[0:3, 3] = "anonymous"
titanic.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,anonymous,male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,anonymous,female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,anonymous,female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


Selecione linhas e/ou colunas específicas locao usar os nomes de linhas e colunas.

Selecione linhas e/ou colunas específicas ilocao usar as posições na tabela.