##**Pandas: Conceitos Fundamentais**
Documentação oficial: https://pandas.pydata.org/pandas-docs/stable/index.html#

***Começando com o Pandas***

Para começar a usar o Pandas, primeiro precisamos importar sua bilioteca no Python.


In [1]:
# Importando a biblioteca Pandas
# o aliás "pd": convencionado pela comunidade Pandas

import pandas as pd 

***Sobre DataFrame***

Um DataFrame é uma estrutura de dados bidimensional que pode armazenar dados de diferentes tipos (incluindo caracteres, inteiros, valores de pontos flutuantes, dados categóricos e muito mais) em colunas. É semelhante a uma planilha, uma tabela SQL ou a em R.data.frame.

Podemos armazenar manualmente dados em uma tabela, criando uma. Faremos isso utilizando duas estruturas do Python quê estudamos nas aulas passadas, são elas: dicionário e lista

Ao usar um dicionário Python de listas, as chaves do dicionário serão usadas como cabeçalhos de coluna e os valores em cada lista como valor nas colunas do DataFrame.

In [2]:
# Criando e utilizando um Dataframe
# Armazenando dados dos passageiros do Titanic

df = pd.DataFrame(
    {
        "Name": [
                 "Braund, Mr. Owen Harris",
                 "Allen, Mr. William Henry",
                 "Bonnell, Miss. Elizabeth",
        ],
        "Age": [22,35,58],
        "Sex": ["male", "male", "female"],
    }
)

In [4]:
# Visualizando o DataFrame criado
# Percebam a similaridade com uma planilha, onde os índices do dicionário
# se tornaram um "rótulo" para coluna

df

Unnamed: 0,Name,Age,Sex
0,"Braund, Mr. Owen Harris",22,male
1,"Allen, Mr. William Henry",35,male
2,"Bonnell, Miss. Elizabeth",58,female


***Trabalhando com subconjuntos***

In [5]:
# Vamos trabalhar apenas com um subconjunto (coluna) do nosso DataFrame.
# Para isso, utilizamos o rótulo dessa coluna entre colchetes.

df["Age"]

# Selecionando uma única coluna de um DataFrame pandas,
# o resultado é uma série pandas.

0    22
1    35
2    58
Name: Age, dtype: int64

# **Pandas: Análise dos Dados**

In [6]:
# Para saber as estatísticas básicas dos dados númericos da minha tabela
# utiliza-se a função "describe()"

df.describe()

Unnamed: 0,Age
count,3.0
mean,38.333333
std,18.230012
min,22.0
25%,28.5
50%,35.0
75%,46.5
max,58.0


In [7]:
# Como saber a idade máxima dos passageiros?
# Podemos fazer isso selecionando a coluna desejada e aplicando a função "max()"

df["Age"].max()

58

***Adicionando novos dados ao DataFrame***

In [8]:
df = df.append(
    pd.DataFrame(
        {
            "Name":[
                    "McCarthy, Mr. Timothy J",
                    "Heikkinem, Miss. Laina"
            ],
            "Age":[54, 26],
            "Sex":["male", "female"]
        }
    )
)

***Visualizando os dados novamente: observem como ficou nosso índice***

In [9]:
df

Unnamed: 0,Name,Age,Sex
0,"Braund, Mr. Owen Harris",22,male
1,"Allen, Mr. William Henry",35,male
2,"Bonnell, Miss. Elizabeth",58,female
0,"McCarthy, Mr. Timothy J",54,male
1,"Heikkinem, Miss. Laina",26,female


***Ajustando o Índice do DataFrame***

Existem várias formas de organizar os índices, vale procurar um pouco na documentação. 

Usaremos o método "reset_index()".

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.reset_index.html#pandas.DataFrame.reset_index

In [10]:
df = df.reset_index()

# **Filtrando e tratando os dados**

***Retornando nosso DataFrame***

In [11]:
df

Unnamed: 0,index,Name,Age,Sex
0,0,"Braund, Mr. Owen Harris",22,male
1,1,"Allen, Mr. William Henry",35,male
2,2,"Bonnell, Miss. Elizabeth",58,female
3,0,"McCarthy, Mr. Timothy J",54,male
4,1,"Heikkinem, Miss. Laina",26,female


***E se quisermos apenas os passageiros do sexo feminino?***

***Podemos criar um filtro, que tal?***

In [12]:
filtro = df["Sex"] == "female"

***Analisando o resultado***

In [13]:
filtro

0    False
1    False
2     True
3    False
4     True
Name: Sex, dtype: bool

***Bom. E como é que usaremos este filtro? Agora vem a parte fácil***

In [14]:
#execute o Dataframe novo para não alterar o original, com o filtro criado

df_filtrado = df[filtro]
df_filtrado

Unnamed: 0,index,Name,Age,Sex
2,2,"Bonnell, Miss. Elizabeth",58,female
4,1,"Heikkinem, Miss. Laina",26,female


In [15]:
#Quantos registros temos em nosso DataFrame?

df.count()

#Perceba que ele retorna a contagem em cada uma das séries

index    5
Name     5
Age      5
Sex      5
dtype: int64

In [16]:
# Para uma contagem geral podemos aplicar um filtro no "index"

df["index"].count()

5

In [17]:
# Criando DataFrames a partir do Principal
# Primerio filtro do sexo feminino

filtro = df["Sex"] == "female"

In [18]:
#Criando DataFrame e armazenando os dados de sexo feminino

df_feminino = df[filtro]

In [19]:
# Qual a idade máxima do sexo feminino?

df_feminino["Age"].max()

58

In [20]:
# Qual a idade mínima do sexo feminimo?

df_feminino["Age"].min()

26

In [21]:
# Qual a média da idade do sexo feminino?

df_feminino["Age"].mean()

42.0

# ***Repita as análises para o sexo masculino!***
Dica: inicie alterando o filtro

In [22]:
filtro_male = df["Sex"] == "male"

In [23]:
df_filtro_male = df[filtro_male]
df_filtro_male

Unnamed: 0,index,Name,Age,Sex
0,0,"Braund, Mr. Owen Harris",22,male
1,1,"Allen, Mr. William Henry",35,male
3,0,"McCarthy, Mr. Timothy J",54,male


In [25]:
df_filtro_male['Age'].max()

54

In [26]:
df_filtro_male['Age'].min()

22

In [27]:
df_filtro_male['Age'].mean()

37.0

In [28]:
df_filtro_male.count()

index    3
Name     3
Age      3
Sex      3
dtype: int64