# **Biblioteca Pandas**


A biblioteca **Pandas** é uma poderosa ferramenta de análise e manipulação de dados. Sua documentação pode ser encontrada no [link](https://pandas.pydata.org/docs/). 

<p align="center">
  <img width="300" height="200" src="https://media.giphy.com/media/lcySndwSDLxC4eOU86/giphy.gif">
</p>



Para instalar a biblioteca na sua máquina basta executar o comando abaixo. Caso for utilizar o Google Colab, esse passo não é necessário, pois o ambiente do Colab já possui a biblioteca Pandas por padrão.

In [None]:
!pip install pandas



Em seguida, é necessário importar a biblioteca.

In [None]:
import pandas as pd

## Com quais dados é possível trabalhar com a biblioteca?

Um deles são as tabelas, que são representadas da seguinte forma:

<p align="center">
  <img width="300" height="200" src="https://pandas.pydata.org/docs/_images/01_table_dataframe.svg">
</p>

São estruturas de dados bidimensionais chamadas de **DataFrames**, elas podem armazenar dados de diferentes tipos como caracteres, inteiros, floats. 

De forma semelhante a uma tabela, possuem linhas e colunas. 

Abaixo vemos como criar um Dataframe:

In [None]:
df = pd.DataFrame(
    {
        "Series":["Loki", "WandaVision", "Mr Robot", "Fleabag"],
        "Plataforma de Streaming":["Disney+", "Disney+", "Amazon Prime", "Amazon Prime"],
        "Ano":["2021", "2021", "2015", "2016"]
    }
)

In [None]:
#Para exibir o dataframe df criado
df

Unnamed: 0,Series,Plataforma de Streaming,Ano
0,Loki,Disney+,2021
1,WandaVision,Disney+,2021
2,Mr Robot,Amazon Prime,2015
3,Fleabag,Amazon Prime,2016


Cada coluna do dataframe é uma **série**, e pode-se manusear esses dados individualmente.



In [None]:
df["Plataforma de Streaming"]

0         Disney+
1         Disney+
2    Amazon Prime
3    Amazon Prime
Name: Plataforma de Streaming, dtype: object

In [None]:
#Podendo extrair uma ou mais colunas do DataFrame original
series_ano = df[["Series","Ano"]]

In [None]:
series_ano

Unnamed: 0,Series,Ano
0,Loki,2021
1,WandaVision,2021
2,Mr Robot,2015
3,Fleabag,2016


A biblioteca permite carregar e salvar tabelas de diferentes formatos.

<p align="center">
  <img width="600" height="300" src="https://pandas.pydata.org/docs/_images/02_io_readwrite.svg">
</p>

Você pode carregar um arquivo csv diretamente do seu diretório ou de outro ambiente em que ele esteja armazenado.

Para carregar um arquivo localmente no Google Colab é necessário antes fazer o upload do mesmo. O upload pode ser realizado diretamente na aba de arquivos do Colab ou utilizando arquivos salvos no seu Drive.

**Obs**: se o arquivo for carregado na aba de arquivos do Colab, quando a sessão do notebook encerrar, ele será deletado e será necessário carregá-lo novamente para utilizá-lo.

Após essa etapa, iremos utilizar a função **read_csv** para carregar o arquivo movies.csv, informando o caminho do arquivo.

In [None]:
#Carregando o arquivo salvo no Drive    
filmes_drive = pd.read_csv("/content/drive/MyDrive/Aula Pandas/movies.csv")

In [None]:
filmes_drive

Unnamed: 0,movieId,title,genres
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,2,Jumanji (1995),Adventure|Children|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama|Romance
4,5,Father of the Bride Part II (1995),Comedy
...,...,...,...
9737,193581,Black Butler: Book of the Atlantic (2017),Action|Animation|Comedy|Fantasy
9738,193583,No Game No Life: Zero (2017),Animation|Comedy|Fantasy
9739,193585,Flint (2017),Drama
9740,193587,Bungo Stray Dogs: Dead Apple (2018),Action|Animation


In [None]:
#Carregando o arquivo salvo na sessão 
filmes_aba_arquivos = pd.read_csv("movies.csv")

In [None]:
filmes_aba_arquivos

Unnamed: 0,movieId,title,genres
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,2,Jumanji (1995),Adventure|Children|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama|Romance
4,5,Father of the Bride Part II (1995),Comedy
...,...,...,...
9737,193581,Black Butler: Book of the Atlantic (2017),Action|Animation|Comedy|Fantasy
9738,193583,No Game No Life: Zero (2017),Animation|Comedy|Fantasy
9739,193585,Flint (2017),Drama
9740,193587,Bungo Stray Dogs: Dead Apple (2018),Action|Animation


Também é possível carregar um arquivo armazenado na web. Abaixo, iremos carregar um [arquivo](https://raw.githubusercontent.com/alura-cursos/introducao-a-data-science/master/aula0/ml-latest-small/movies.csv) salvo no github. 

In [None]:
#Link do arquivo csv salvo no github
link = "https://raw.githubusercontent.com/alura-cursos/introducao-a-data-science/master/aula0/ml-latest-small/movies.csv"

#Carregando o csv na variável filmes
filmes = pd.read_csv(link)

O método **head** é utilizado para exibir um número específico de linhas do dataframe.

In [None]:
#Visualizando o arquivo carregado
filmes.head(5)

Unnamed: 0,movieId,title,genres
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,2,Jumanji (1995),Adventure|Children|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama|Romance
4,5,Father of the Bride Part II (1995),Comedy


Para exibir os tipos de dados do DataFrame utilizando o atributo **dtypes**. Caso seja int64 são colunas do tipo inteiro, float64 são colunas do tipo float e object são colunas do tipo string. 


In [None]:
filmes.dtypes

movieId     int64
title      object
genres     object
dtype: object

O atributo **shape** informa o número de linhas e colunas do DataFrame.

In [None]:
filmes.shape

(9742, 3)

É possível converter esse DataFrame em uma planilha excel utilizando:

```
#O parâmetro index define se o index das linhas serão salvos na planilha
filmes.to_excel("filmes.xlsx", sheet_name="filmes", index=False)
```

Para carregar uma planilha excel, basta:

```
filmes = pd.read_excel("filmes.xlsx", sheet_name="filmes")
```


In [None]:
#Para detalhar o dataframe usa-se o método info
filmes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9742 entries, 0 to 9741
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   movieId  9742 non-null   int64 
 1   title    9742 non-null   object
 2   genres   9742 non-null   object
dtypes: int64(1), object(2)
memory usage: 228.5+ KB


## Como filtrar os dados do DataFrame?

É possível criar filtros para extrair dados específicos do DataFrame original, para isso se utiliza expressões condicionais criadas a partir de **==, !=, >, <, >=, <=**.

Cada linha da coluna que está sendo processada é avaliada (True ou False), e caso a expressão seja considerada como verdadeira essa linha é salva na nova variável acima_40.

In [None]:
#link do csv
link = "https://raw.githubusercontent.com/pandas-dev/pandas/master/doc/data/titanic.csv"

#Carrega os dados
titanic = pd.read_csv(link)

acima_40 = titanic[titanic["Age"] > 40]

In [None]:
titanic["Age"]>40

0      False
1      False
2      False
3      False
4      False
       ...  
886    False
887    False
888    False
889    False
890    False
Name: Age, Length: 891, dtype: bool

In [None]:
titanic

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


O método **describe** fornece dados estatísticos do DataFrame.

In [None]:
titanic.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


In [None]:
acima_40

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.5500,C103,S
15,16,1,2,"Hewlett, Mrs. (Mary D Kingcome)",female,55.0,0,0,248706,16.0000,,S
33,34,0,2,"Wheadon, Mr. Edward H",male,66.0,0,0,C.A. 24579,10.5000,,S
35,36,0,1,"Holverson, Mr. Alexander Oskar",male,42.0,1,0,113789,52.0000,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
862,863,1,1,"Swift, Mrs. Frederick Joel (Margaret Welles Ba...",female,48.0,0,0,17466,25.9292,D17,S
865,866,1,2,"Bystrom, Mrs. (Karolina)",female,42.0,0,0,236852,13.0000,,S
871,872,1,1,"Beckwith, Mrs. Richard Leonard (Sallie Monypeny)",female,47.0,1,1,11751,52.5542,D35,S
873,874,0,3,"Vander Cruyssen, Mr. Victor",male,47.0,0,0,345765,9.0000,,S


In [None]:
print(f"O tamanho da tabela acima_40 é: {acima_40.shape} (linhas/colunas)")

O tamanho da tabela acima_40 é: (150, 12) (linhas/colunas)


A função **isin()** retorna True para cada linha da coluna "Pclass" em que seu valor consta na lista de valores passadas como parâmetro ([2,3]). 

In [None]:
cabines_23 = titanic[titanic["Pclass"].isin([2, 3])]

In [None]:
cabines_23

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.0750,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
884,885,0,3,"Sutehall, Mr. Henry Jr",male,25.0,0,0,SOTON/OQ 392076,7.0500,,S
885,886,0,3,"Rice, Mrs. William (Margaret Norton)",female,39.0,0,5,382652,29.1250,,Q
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S


Quando for utilizar múltiplas expressões condições, cada condição deve estar separada por parênteses. 

Utiliza-se | para representar o operador **or** e & para representar o operador **and**.

In [None]:
cabines_23_v2 = titanic[(titanic["Pclass"] == 2) | (titanic["Pclass"] == 3)]

In [None]:
cabines_23_v2

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.0750,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
884,885,0,3,"Sutehall, Mr. Henry Jr",male,25.0,0,0,SOTON/OQ 392076,7.0500,,S
885,886,0,3,"Rice, Mrs. William (Margaret Norton)",female,39.0,0,5,382652,29.1250,,Q
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S


Frequentemente, em datasets com dados de eventos reais são encontrados **dados nulos**. 

Qual o impacto de dados nulos presentes em um DataFrame? Eles podem comprometer as análises do DataFrame. 

As estratégias para contornar esse impecilho variam de acordo com o problema em questão. 

Em datasets com um grande volume de dados, é viável apenas remover os dados nulos, já em datasets menores geralmente os dados nulos são preenchidos.

Para avaliar a presença de dados nulos podemos utilizar a função **notna()**, que retorna True para linhas que não possuem dados nulos. Dessa forma, podemos filtrar os registros nulos do DataFrame original.   

In [None]:
#Filtra as linhas de pacientes que possuem dados nulos na coluna de idade.
passageiros_idade = titanic[titanic["Age"].notna()]

In [None]:
passageiros_idade

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
885,886,0,3,"Rice, Mrs. William (Margaret Norton)",female,39.0,0,5,382652,29.1250,,Q
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


Para extrair certos dados de colunas e linhas específicas, é necessário utilizar os operadores **iloc**/**loc**, quando utiliza-se eles, a expressão antes da vírgula representa quais linhas você deseja e a parte depois da vírgula é a coluna desejada. 

In [None]:
#Filtramos os nomes dos passageiros com 35 ou mais anos 
nomes = titanic.loc[titanic["Age"] >= 35, "Name"]

In [None]:
nomes

1      Cumings, Mrs. John Bradley (Florence Briggs Th...
3           Futrelle, Mrs. Jacques Heath (Lily May Peel)
4                               Allen, Mr. William Henry
6                                McCarthy, Mr. Timothy J
11                              Bonnell, Miss. Elizabeth
                             ...                        
865                             Bystrom, Mrs. (Karolina)
871     Beckwith, Mrs. Richard Leonard (Sallie Monypeny)
873                          Vander Cruyssen, Mr. Victor
879        Potter, Mrs. Thomas Jr (Lily Alexenia Wilson)
885                 Rice, Mrs. William (Margaret Norton)
Name: Name, Length: 235, dtype: object

In [None]:
#Comparando com os dados originais, é possível ver por ex nas linhas 1, 3 e 4 que a expressão anterior funciona.
titanic.head(7)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S


Quando deseja-se extrair linhas e colunas específicas de acordo com seu index da tabela, utiliza-se o **iloc**. 

In [None]:
#Extrai linhas 6 à 19, e as colunas "Name" e "Sex"

#Nas linhas o iloc mantém o elemento do indice inicial, mas não mantém o final.
#Nas colunas o iloc mantém o elemento do indice inicial, mas não mantém o final.

titanic.iloc[6:20, 2:5]

Unnamed: 0,Pclass,Name,Sex
6,1,"McCarthy, Mr. Timothy J",male
7,3,"Palsson, Master. Gosta Leonard",male
8,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female
9,2,"Nasser, Mrs. Nicholas (Adele Achem)",female
10,3,"Sandstrom, Miss. Marguerite Rut",female
11,1,"Bonnell, Miss. Elizabeth",female
12,3,"Saundercock, Mr. William Henry",male
13,3,"Andersson, Mr. Anders Johan",male
14,3,"Vestrom, Miss. Hulda Amanda Adolfina",female
15,2,"Hewlett, Mrs. (Mary D Kingcome)",female


Como poderíamos alterar o valor de uma coluna existente? 

Consideremos o valor da Libra esterlina atual (moeda utilizada pelos passageiros no Titanic), e apenas para exemplificar iremos converter o valor da passagem do Titanic para o real. 

<a href="https://ibb.co/cvk0BL1"><img src="https://i.ibb.co/rtFYjsm/Captura-de-tela-2021-06-16-124354.png" alt="Captura-de-tela-2021-06-16-124354" border="0" /></a>

**Obs:** é possível realizar outra operações matemáticas.

O nome das colunas do DataFrame podem ser alterados a qualquer momento, antes de realizarmos a conversão do valor da passagem, iremos alterar as colunas Name (Nome) e Fare (Bilhete, Passagem). Utiliza-se o método **rename** para alterar o nome das colunas. 

In [None]:
titanic = titanic.rename(columns={"Name": "Nome","Fare": "Valor_passagem"})

In [None]:
#Não é necessário utilizar um loop, utilizando a expressão dessa forma todas linhas serão multiplicadas pelo valor.
titanic["Valor_passagem"] = titanic["Valor_passagem"] * 7.05

In [None]:
#Conferindo o resultado da conversão
titanic

Unnamed: 0,PassengerId,Survived,Pclass,Nome,Sex,Age,SibSp,Parch,Ticket,Valor_passagem,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,51.112500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,502.547265,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,55.871250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,374.355000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,56.752500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,91.650000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,211.500000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,165.322500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,211.500000,C148,C


Vamos analisar os valores dessas passagens? 

Qual foi o valor da passagem mais cara? 

Para isso iremos utilizar a função **sort_values**, quando é passado o argumento **ascending** como False, os valores serão ordenados de forma decrescente. 

In [None]:
#Para ordenar de forma crescente
titanic['Valor_passagem'].sort_values()

271       0.00000
597       0.00000
302       0.00000
633       0.00000
277       0.00000
          ...    
438    1854.15000
341    1854.15000
737    3611.92086
258    3611.92086
679    3611.92086
Name: Valor_passagem, Length: 891, dtype: float64

In [None]:
titanic['Valor_passagem'].min()

0.0

In [None]:
#Para ordenar de forma decrescente
titanic['Valor_passagem'].sort_values(ascending=False)

679    3611.92086
258    3611.92086
737    3611.92086
341    1854.15000
438    1854.15000
          ...    
277       0.00000
633       0.00000
302       0.00000
597       0.00000
271       0.00000
Name: Valor_passagem, Length: 891, dtype: float64

In [None]:
titanic['Valor_passagem'].max()

3611.92086

Também é possível ordenadar todo o DataFrame de acordo com uma ou mais colunas. 

In [None]:
titanic.sort_values(by=['Valor_passagem'],ascending=False)

Unnamed: 0,PassengerId,Survived,Pclass,Nome,Sex,Age,SibSp,Parch,Ticket,Valor_passagem,Cabin,Embarked
258,259,1,1,"Ward, Miss. Anna",female,35.0,0,0,PC 17755,3611.92086,,C
737,738,1,1,"Lesurer, Mr. Gustave J",male,35.0,0,0,PC 17755,3611.92086,B101,C
679,680,1,1,"Cardeza, Mr. Thomas Drake Martinez",male,36.0,0,1,PC 17755,3611.92086,B51 B53 B55,C
88,89,1,1,"Fortune, Miss. Mabel Helen",female,23.0,3,2,19950,1854.15000,C23 C25 C27,S
27,28,0,1,"Fortune, Mr. Charles Alexander",male,19.0,3,2,19950,1854.15000,C23 C25 C27,S
...,...,...,...,...,...,...,...,...,...,...,...,...
633,634,0,1,"Parr, Mr. William Henry Marsh",male,,0,0,112052,0.00000,,S
413,414,0,2,"Cunningham, Mr. Alfred Fleming",male,,0,0,239853,0.00000,,S
822,823,0,1,"Reuchlin, Jonkheer. John George",male,38.0,0,0,19972,0.00000,,S
732,733,0,2,"Knight, Mr. Robert J",male,,0,0,239855,0.00000,,S


Qual seria a média do valor das passagens? É possível calcular utilizando o método **mean**.

In [None]:
print(f"O valor da passagem médio é {titanic['Valor_passagem'].mean()}")

O valor da passagem médio é 227.03966617845134


E a média de passagem para homens e mulheres? Para isso iremos utilizar a função **mean** em conjunto com a função **groupby** que é capaz de agrupar dados por categoria. 

**Obs**: deve-se utilizar outros métodos em conjunto com **groupby** como mean, count, min, entre outros.

In [None]:
#Exibindo a média do valor de passagem por sexo
titanic.groupby("Sex")["Valor_passagem"].mean()

Sex
female    313.582716
male      179.943449
Name: Valor_passagem, dtype: float64

In [None]:
#Exibindo a média do valor de passagem por idade
titanic.groupby("Age")["Valor_passagem"].mean()

Age
0.42       60.042735
0.67      102.225000
0.75      135.771015
0.83      168.318750
0.92     1068.427500
            ...     
70.00     287.287500
70.50      54.637500
71.00     296.658360
74.00      54.813750
80.00     211.500000
Name: Valor_passagem, Length: 88, dtype: float64

In [None]:
#Múltiplas colunas podem ser agrupadas
#Nesse exemplo são apresentadas as médias para cada combinação de valores de acordo com o sexo dos passageiros e a sua cabine no navio.
titanic.groupby(["Sex", "Pclass"])["Valor_passagem"].mean()

Sex     Pclass
female  1         748.186875
        2         154.889353
        3         113.637609
male    1         473.944196
        2         139.179566
        3          89.264510
Name: Valor_passagem, dtype: float64

Para saber os diferentes elementos que estão presentes em uma coluna podemos utilizar o método **unique**.

In [None]:
titanic['Pclass'].unique()

array([3, 1, 2])

Quantas cabines de cada tipo existiam? 

Para responder isso, iremos utilizar o método **value_counts** que contabiliza o número de repetições de cada elemento diferente em uma coluna. 

O método possui o parâmetro **dropna**, que ao ser configurado como True, os valores nulos não serão contabilizados. 

In [None]:
titanic["Pclass"].value_counts()

3    491
1    216
2    184
Name: Pclass, dtype: int64

In [None]:
titanic["Pclass"].value_counts(dropna=False)

3    491
1    216
2    184
Name: Pclass, dtype: int64

Como adicionar novas colunas ao DataFrame? 

Isso pode ser realizado através do método **append**,

In [None]:
#Criando um DataFrame df1 com as colunas e linhas descritas abaixo
df1 = pd.DataFrame({"a":[1, 2, 3, 4],
                    "b":[5, 6, 7, 8]})
  
#Criando um DataFrame df2 com as colunas e linhas descritas abaixo
df2 = pd.DataFrame({"a":[1, 2, 3],
                    "b":[5, 6, 7]})

In [None]:
df1

Unnamed: 0,a,b
0,1,5
1,2,6
2,3,7
3,4,8


In [None]:
df2

Unnamed: 0,a,b
0,1,5
1,2,6
2,3,7


In [None]:
#Adicionando ao DataFrame df1 os dados do DataFrame df2
df1.append(df2)

Unnamed: 0,a,b
0,1,5
1,2,6
2,3,7
3,4,8
0,1,5
1,2,6
2,3,7


In [None]:
#Utilizando o parâmetro ignore_index, os novos dados adicionados terão um indíces contínuos em relação aos dados originais.
df1.append(df2, ignore_index = True)

Unnamed: 0,a,b
0,1,5
1,2,6
2,3,7
3,4,8
4,1,5
5,2,6
6,3,7


# Como remover dados do DataFrame?

Para isso, iremos utilizar a função **drop** informando as colunas que deseja-se remover como parâmetro. 

In [None]:
df.drop(columns=['Ano'])

Unnamed: 0,Series,Plataforma de Streaming
0,Loki,Disney+
1,WandaVision,Disney+
2,Mr Robot,Amazon Prime
3,Fleabag,Amazon Prime


Para remover dados com valores nulos, a biblioteca disponibiliza o método **dropna**, ele retorna todas as linhas que não possuem valores nulos. 

Utilizando o parâmetro **subset** é possível especificar de quais colunas, as linhas com valores nulos serão eliminadas.

**Obs**: Utilizando o método **fillna()** é possível substituir todos os valores nulos em um DataFrame por um número específico passado como parâmetro.  

In [None]:
#Podemos ver dados nulos na primeira linha dos dados do dataset do Titanic
titanic

Unnamed: 0,PassengerId,Survived,Pclass,Nome,Sex,Age,SibSp,Parch,Ticket,Valor_passagem,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,51.112500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,502.547265,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,55.871250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,374.355000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,56.752500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,91.650000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,211.500000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,165.322500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,211.500000,C148,C


In [None]:
#Utilizando o dropna, é removido a linha 0 que possuía dados nulos e todas as outras com dados nulos.
titanic.dropna()

Unnamed: 0,PassengerId,Survived,Pclass,Nome,Sex,Age,SibSp,Parch,Ticket,Valor_passagem,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,502.547265,C85,C
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,374.355000,C123,S
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,365.630625,E46,S
10,11,1,3,"Sandstrom, Miss. Marguerite Rut",female,4.0,1,1,PP 9549,117.735000,G6,S
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,187.177500,C103,S
...,...,...,...,...,...,...,...,...,...,...,...,...
871,872,1,1,"Beckwith, Mrs. Richard Leonard (Sallie Monypeny)",female,47.0,1,1,11751,370.507110,D35,S
872,873,0,1,"Carlsson, Mr. Frans Olof",male,33.0,0,0,695,35.250000,B51 B53 B55,S
879,880,1,1,"Potter, Mrs. Thomas Jr (Lily Alexenia Wilson)",female,56.0,0,1,11767,586.266015,C50,C
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,211.500000,B42,S


Para salvar o DataFrame criado ou manipulado utliza-se, 

```
Nome_do_Dataframe.to_csv("Nome_da_tabela.csv")
```

# Indicações 

<p align="center">
  <img width="300" height="200" src="https://64.media.tumblr.com/tumblr_m3xcaiOF9P1qzcv7no2_500.gifv">
</p>


Na [documentação](https://pandas.pydata.org/docs/) da biblioteca, existem indicações de notebooks com exemplos práticos, como esse de um instrutor da conferência [PyCon](https://nbviewer.jupyter.org/github/justmarkham/pycon-2018-tutorial/blob/master/tutorial.ipynb) e esse da [Data School](https://nbviewer.jupyter.org/github/justmarkham/pandas-videos/blob/master/pandas.ipynb). Nesse [repositório](https://github.com/brandon-rhodes/pycon-pandas-tutorial) de outro instrutor da PyCon existem diversos exercícios para praticar.

## Bons estudos!!!!