Dêem uma olhada em: https://towardsdatascience.com/in-depth-pandas-tutorial-5d896483ba8a

#PANDAS

* Pandas é uma biblioteca para manipular data sets e dataframes
* Possui funções para analisar, limpar, explorar e manipular dados
* O nome Pandas é uma referência a "Panel Data" e "Python Data Analysis" e foi criada por Wes McKinney em 2008

Um jeito fácil de entender: Séries são colunas, Dataframes são tabelas ✨

Na verdade, um Dataframe é formado por um conjunto de séries, cada uma delas sendo uma coluna da ‘tabela’.

## Instalação e importação da biblioteca Pandas

In [None]:
!pip install pandas

In [None]:
import pandas as pd

##Lendo arquivos CSV  e TXT no Colab

In [None]:
# pd.read_csv()

### .txt

In [None]:
df = pd.read_csv("http://leg.ufpr.br/~walmes/data/euro_football_players.txt" ,sep="\t", comment="#")

In [None]:
df.sample(10) # retorna as 5 primeiras linhas do df

### .csv

In [None]:
df_titanic = pd.read_csv("https://raw.githubusercontent.com/agconti/kaggle-titanic/master/data/train.csv",)
                         #names= ['Id','Sobreviveu','Pclass','Nome','Sexo','Idade', 'SibSp','Parch','Ticket','Fare','Cabin','Embarked'],
                         #skiprows=1)
df_titanic

Lugares onde este data set está:

https://www.kaggle.com/c/titanic/data?select=train.csv

https://github.com/agconti/kaggle-titanic/blob/master/data/train.csv

### Criar um DataFrame

In [None]:
df_vazio = pd.DataFrame()
df_vazio

In [None]:
df = pd.DataFrame([1, 10, 3], columns=["numero"])
df

In [None]:
df = pd.DataFrame([[1,2], [3,4]], columns = ("rendimento", "US$"))
df

In [None]:
df = pd.DataFrame([[1,2], [3,4]], columns=['a', 'b'])
df

In [None]:
#lista de listas

df = pd.DataFrame([["Arthur",30], ["Gabriel",22]], columns=['Nome', 'Idade'])
df

In [None]:
#Dicionário

df_alunos = pd.DataFrame({"Nome": ["Gabriel", "Ana", "Igor"], "Idade": [22, 35, 24], "Altura": [1.90, 1.68, 1.75]})
df_alunos

### Exemplo 1 - com DataFrame **"data"**

In [None]:
import numpy as np

In [None]:
data = pd.DataFrame({'customer_id': [1,2,3,4,5,6,7,8,9,10,11,12,13,14,15], 
                     'age': [29,np.NaN,22,82,41,pd.NaT,63,57,45,18,np.NaN,29,74, np.NaN,60], 
                     'email_linked': [True,True,False,True,False,False,True,True, True,False, False, np.NaN, False, True, True],
                     'occupation': ['teacher','highschool teacher','student','retired','tutor','unemployed','entrepreneur','professor', 'unemployed','unemployed','entrepreneur','professor','teacher','highschool teacher','student']})

In [None]:
data.head(6)  # mostra os 5 primeiros registros. Pode colocar o número de registros como argumento para outras quantidades

In [None]:
data.isnull()  # Detecta valores faltantes. Retorna booleana (True or False)

In [None]:
# Retorna a soma dos valores nulos/ausentes encontrados

data.isnull().sum()

In [None]:
# Excluindo todos os missing values do DataFrame

data.dropna(inplace=True)

In [None]:
data.isnull().sum()  # testando se os valores faltantes foram excluídos

In [None]:
# Vamos criar um novo DataFrame chamado "email_data", a partir do DataFrame "data"

#### Use colchetes duplos para indexar múltiplas colunas e colchetes simples para indexar uma única coluna ####

email_data = data[['customer_id', 'email_linked']]  

In [None]:
email_data.head(3)

Vamos escrever uma função para descobrirmos se o cliente é um educador: teacher, tutor ou professor

In [None]:
data['occupation'].unique()


In [None]:
def is_educator(occupation):
    return 'teacher' in (occupation.lower()) or (occupation.lower() in ['tutor', 'professor'])
    

In [None]:
'tutor' in ['tutor', 'professor']

In [None]:
#occupation
#teacher           V                             F                         V

#tutor, 
#professor         F                             V                         V

In [None]:
is_educator('TEAcher')

Agora que já sabemos que é educador, vamos criar uma nova coluna com estes dados

* Uma alternativa ao uso dos loops é o método **.apply()**, do pandas
* **.apply()** toma uma **função** como input e aplica esta função em todo o DataFrame ou a uma determinada coluna

In [None]:
# Exemplo

df = pd.DataFrame([[4, 9]] * 3, columns=['A', 'B'])
df

In [None]:
df.apply(np.sqrt)

In [None]:
df.apply(np.sum, axis=0)

In [None]:
df.apply(np.sum, axis=1)

In [None]:
#Voltando ao dataset "data"

data.head()

In [None]:
# df["nome_da_coluna"]

# df.nome_da_coluna 

In [None]:
# Vamos criar a coluna 'is_educator'

# e usar .apply() para aplicar a função is_educator a toda a coluna 'occupation'

data['is_educator'] = data['occupation'].apply(is_educator)
data.head()

In [None]:
data["is_educator"]

In [None]:
data["is_educator"].sum()

In [None]:
data['age'].dtype  # método para descobrirmos o tipo da variável de uma coluna

## GROUPBY

Chama-se .groupby() e passa-se o nome da coluna que se pretende agrupar, que é "occupation". Depois, usa ["age"] para especificar a(s) coluna(s) nas quais pretende efetuar a agregação efetiva.

Podemos passar muito mais do que apenas um nome de coluna para .groupby() como o primeiro argumento:

* Uma lista com os nomes de múltiplas colunas
* Um dicionário ou série
* Um NumPy array 

Podemos utilizar **groupby** para calcular a idade média para cada ocupação.
* Dividir o DataFrame por ocupação
* Aplicar uma função média em cada ocupação
* Combinar as idades médias em seu próprio objeto

In [None]:
data.groupby(by=['occupation'])['age'].mean()

* O parâmetro **by** indica como os grupos são determinados, 
* a média - mean() - é a estatística de interesse e a 
* indexação por idade - 'age' - capta a estatística do grupo por idade. 
* A saída é um pd.Series com os labels da ocupação.

Podemos dividir os grupos usando múltiplos parâmetros, por exemplo, uma combinação de ocupação e se seu e-mail está ou não vinculado ao cliente

In [None]:
data.groupby(by=['email_linked', 'occupation'])['age'].sum()

Além disso, existem outras funções embutidas que podemos aplicar a cada grupo: min, max, count, sum, apenas para citar algumas. 

Também podemos usar **agg()** para aplicar quaisquer funções personalizadas. O método de agregação também é útil para retornar múltiplas estatísticas resumidas.

In [None]:
data.groupby(by=['occupation'])['age'].agg(['mean','max'])

In [None]:
data.groupby(by=['occupation']).agg(['mean'])['age']

### Explorando um DataFrame

In [None]:
data.dtypes  # retorna os tipos dos dados

In [None]:
data.shape # retorna as dimensões do DataFrame na forma (linhas, colunas)

In [None]:
data.columns  # retorna uma lista com todas as colunas

In [None]:
data.index # retorna o índice (labels das linhas) do DataFrame.

In [None]:
df_titanic.info() # imprime informações sobre um DataFrame incluindo o tipo de índice e colunas, valores não-nulos e uso de memória.

In [None]:
df_titanic.describe() # gera estatística descritiva

## Exemplo 2 - Titanic

* Manipulação de dados

In [None]:
df_titanic.shape[0]  # retorna a quantidade de linhas do df

In [None]:
df_titanic.shape[1]  # retorna a quantidade de colunas do df

In [None]:
df_titanic.shape

In [None]:
# PandasIndex.value_counts() 

df_titanic["Survived"].value_counts()  # retorna a quantidade de items na coluna especificada

In [None]:
df_titanic["Survived"].value_counts()/df_titanic.shape[0]  # normalizando, ou seja, dividindo o total de sobreviventes e de não-sobreviventes pelo total de registros (passageiros)

In [None]:
df_titanic["Survived"].value_counts(normalize=True) # outra forma de normalizar

In [None]:
type(df_titanic)

In [None]:
df_titanic['Survived'].dtype

## Exemplo 3

In [None]:
df_titanic.head()

* Ordenação

In [None]:
df_titanic.head()

In [None]:
df_titanic = df_titanic.sort_values(["Age", "PassengerId"])
df_titanic

In [None]:
df_titanic.sort_values("Fare", ascending=True, inplace=True ) # inplace = True altera o DataFrame 

In [None]:
df_titanic


### Seleção com  loc[ ] e iloc[ ]

* **loc[ ]** é uma abordagem de indexação baseada em rótulos, que requer o nome da(s) linha(s) e da(s) coluna(s)
* **iloc[ ]** é uma abordagem posicional de indexação, que requer as posições do(s) valor(es)

* loc[ ] --> Rótulos (labels)
* iloc[ ] --> índices (index)

#### **df.loc[linhas, colunas]**

In [None]:
df = pd.DataFrame([[130, 1.3], [90, 1.5], [80, 2.2]],
     index=['guepardo', 'onça-pintada', 'puma'],
     columns=['velocidade_máxima', 'tamanho_médio'])
df

In [None]:
df.loc['guepardo']  # retorna uma linha

In [None]:
df.loc[['guepardo', 'puma']]  # retorna um DataFrame - colocar colchete duplo

In [None]:
df.loc['puma', 'velocidade_máxima']  # retorna o valor no df da linha "puma" e da coluna "velocidade_máxima"

In [None]:
df.loc['guepardo':'puma', 'velocidade_máxima']  # lembrando que df.loc[linha, coluna]

In [None]:
df.loc[df['tamanho_médio'] > 1.3]

In [None]:
# atribuindo valores

df.loc[['guepardo', 'onça-pintada'], ['tamanho_médio']] = 1.4
df

In [None]:
df.loc[df['velocidade_máxima'] > 1, ['tamanho_médio']]  # das linhas nas quais os valores da coluna "velocidade_máxima" 
                                                        # são maiores do que 1, retornar os valores da coluna "tamanho_médio"

In [None]:
# Atribuindo valor para a linha inteira

df.loc['cobra'] = 10
df

In [None]:
# Atribuindo valor para uma coluna inteira

df.loc[:, 'max_speed'] = 30
df

#### **iloc[ ]**

In [None]:
mydict = [{'a': 1, 'b': 2, 'c': 3, 'd': 4},
          {'a': 100, 'b': 200, 'c': 300, 'd': 400},
          {'a': 1000, 'b': 2000, 'c': 3000, 'd': 4000 }]
df = pd.DataFrame(mydict)
df

#### Indexando apenas as linhas

In [None]:
#indexando com um escalar

df.iloc[0]  # retorna os valores da primeira linha em formato de uma pd.Series

Com uma lista de inteiros

In [None]:
df.iloc[[0]]  # retorna os valores da primeira linha em formato de um pd.DataFrame

In [None]:
df.iloc[[0,1]]

Com slice

In [None]:
df.iloc[:3] # da primeira linha até a terceira

#### Indexando com linhas e colunas

In [None]:
df.iloc[0,1] # linha 0, coluna 1

In [None]:
df.iloc[[0,2],[1,3]]

In [None]:
df.iloc[0:2,0:3]

### Voltando ao Exemplo 2 - Titanic

In [None]:
df_titanic.loc[:, ["Name", "Survived"]]

In [None]:
df_titanic.loc[[74,255], "Name":"Age"]

In [None]:
df_titanic.head(2)

In [None]:
df_titanic.iloc[[0,1], -3:]

In [None]:
df_titanic.iloc[2]

In [None]:
df_titanic.loc[179:481, :]

In [None]:
df_titanic.set_index("Name", inplace=True) # altera os indices para o label desejado
df_titanic

In [None]:
df_titanic.loc['Parkes, Mr. Francis "Frank"':"Parr, Mr. William Henry Marsh", :]

In [None]:
df_titanic.reset_index(inplace=True)

In [None]:
df_titanic.head(3)

* Filtros

In [None]:
df_titanic[df_titanic["Age"] > 50]

In [None]:
df_titanic[df_titanic["Survived"] == 1].describe()

In [None]:
df_titanic[df_titanic.Survived == 0].describe()

In [None]:
df_titanic.head()

In [None]:
df_titanic[df_titanic.Fare > df_titanic.Fare.mean()]

In [None]:
df_titanic.Fare.mean()

In [None]:
filtro = (df_titanic.Sex == "male") & (df_titanic.Fare > df_titanic["Fare"].mean())
df_homens_acima_media = df_titanic[filtro]
df_homens_acima_media

In [None]:
df_titanic[(df_titanic.PassengerId == 849)|(df_titanic.PassengerId == 439)|(df_titanic.PassengerId == 28)]

In [None]:
# Manipulando dados com strings

def familia_fortune(nome):
  return nome.startswith("Fortune")

In [None]:
familia_fortune("Fortune")

In [None]:
sobrenome = input("Informe um sobrenome: ")

df_titanic[df_titanic.Name.apply(lambda nome: nome.startswith(sobrenome))]

In [None]:
df_titanic[df_titanic.Name.apply(lambda nome: nome.startswith("Harper")) & (df_titanic.Sex == "male")]

In [None]:
df_titanic[df_titanic.Fare == 0].Survived.value_counts(normalize=True)

In [None]:
df_titanic[(df_titanic.Fare == 0) & (df_titanic.Survived == 1)]

In [None]:
df_titanic.query("Fare == 0 and Survived == 1")

In [None]:
df_titanic.Age.mean()

In [None]:
df_titanic.query("Sex == 'female' and Survived == 1 and Age > Age.mean()", engine="python")

* Renomeação

In [None]:
df_titanic.rename(columns={"Sex": "Sexo", "Name": "Nome"}) #precisa colocar inplace

In [None]:
df_titanic.rename(index={0: "Lionel"})

* Transformações

In [None]:
df_titanic["qtde_letras"] = 0
df_titanic

In [None]:
df_titanic["qtde_letras"] = df_titanic.Name.apply(len) * df_titanic.Survived
df_titanic

In [None]:
df_titanic[df_titanic.Survived == 1].Fare.mean()

In [None]:
grupos = df_titanic.groupby(["Survived", "Sex"])
grupos.Fare.count()

In [None]:
df_titanic["Sobreviveu"] = df_titanic.Survived.apply(lambda s: "Sobreviveu" if s == 1 else "Morreu") #retorno_verdade if condicao else retorno_false

In [None]:
df_titanic