# <center> Funções Pandas </center>

## Basic ToolBox  - Pandas II

In [4]:
import pandas as pd

In [None]:
# Visualizar todas as colunas do DataFrame
pd.set_option('display.max_columns', None)

# Visualizar todas as linhas do DataFrame
pd.set_option('display.max_rows', None)

## ``DataFrames`` Pandas 

In [5]:
# Criando lista para os Dados para exemplificação
lista = [1, 2, 3]

# Craindo umA lista para o Rótulo da Coluna
coluna = ['A']

# Criando um DataFrame a partir de  Listas
df_lista = pd.DataFrame(data=lista, columns=coluna)
display(df_lista)

Unnamed: 0,A
0,1
1,2
2,3


In [6]:
# Criando um Dicionario para exemplificação
dicionario1 = {'A':[1,2], 'B':[2,4]}

# Criando um DataFrame a partir do Dicionario
df_dic1 = pd.DataFrame(data=dicionario1, columns=['A', 'B', 'C'], dtype=float)

display(df_dic1)

Unnamed: 0,A,B,C
0,1.0,2.0,
1,2.0,4.0,


## ``dtypes`` DataFrame Pandas 

* Retorne os dtypes no DataFrame.

In [7]:
# Verificando o Tipo Primitivo dos Dados
df_dic1.dtypes

A    float64
B    float64
C    float64
dtype: object

## ``astype`` DataFrame Pandas

* Transforme um objeto pandas para um dtype especificado

In [8]:
df_dic1['A'] = df_dic1['A'].astype('int')
df_dic1.dtypes

A      int32
B    float64
C    float64
dtype: object

## ``info`` DataFrame Pandas

* Retorna um resumo conciso de informações sobre um DataFrame, incluindo o tipo de índice e colunas, valores não nulos e uso de memória.

In [9]:
df_dic1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2 entries, 0 to 1
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   A       2 non-null      int32  
 1   B       2 non-null      float64
 2   C       0 non-null      float64
dtypes: float64(2), int32(1)
memory usage: 168.0 bytes


In [10]:
# Criando um Dicionario para a exemplificação
dicionario2 = {'A':[1.0,2.5], 'B':[2,4]}

# Criando um DataFrame a partir do Dicionario
df_dic2 = pd.DataFrame(data=dicionario2, columns=['A', 'B', 'C'])

display(df_dic2)

Unnamed: 0,A,B,C
0,1.0,2,
1,2.5,4,


In [11]:
# Verificando o Tipo Primitivo dos Dados
df_dic2.dtypes

A    float64
B      int64
C     object
dtype: object

In [12]:
# Criando um Dicionario para exemplificar
dicionario = {'A':[1,2], 'B':[2,4]}

# DataFrame Original
df_orig = pd.DataFrame(dicionario)
display(df_orig)
print()


# Criando Nova Variavel e Novo Elemento no DataFrame Original
df_orig['D'] = [5,10]

display(df_orig)

Unnamed: 0,A,B
0,1,2
1,2,4





Unnamed: 0,A,B,D
0,1,2,5
1,2,4,10


In [13]:
import numpy as np
# Criando um Array por meio do np.arange para exemplificar
arr = np.arange(5)

# Criando DataFrame a partir de uma Array com 5 elementos 
df_arr = pd.DataFrame(arr)
display(df_arr)

Unnamed: 0,0
0,0
1,1
2,2
3,3
4,4


## ``Series`` Pandas

* Retorna Ndarray unidimensional com rótulos de eixo. O objeto oferece suporte à indexação baseada em números inteiros e em rótulos 

In [14]:
# Criando um Series Pandas para exemplificação
series = pd.Series([1, 2, 3, 4])

# Criando DataFrame a partir de uma Series Pandas
df_series = pd.DataFrame(series, columns=['Nádegas'])
display(df_series)

Unnamed: 0,Nádegas
0,1
1,2
2,3
3,4


In [15]:
# Criando uma Series Pandas para exemplificação
ser01 = pd.Series([1, 2, 3, 4, 5, 6])
print(f'Series Pandas 01:\n\n{ser01} ')

# Criando uma Series Pandas para exemplificação
ser02 = pd.Series([4, 5, 6, 7, 8, 9])
print(f'\n\nSeries Pandas 02:\n\n{ser02}')

Series Pandas 01:

0    1
1    2
2    3
3    4
4    5
5    6
dtype: int64 


Series Pandas 02:

0    4
1    5
2    6
3    7
4    8
5    9
dtype: int64


## ``isin``  Series / DataFrame Pandas

* Retorna os elementos que existem em comum, que existe em um, está contido em outro

In [16]:
# Extraindo todos os elementos de ser01 que também estão contidos em ser02
display(ser01[ser01.isin(ser02)])

3    4
4    5
5    6
dtype: int64

In [17]:
# Extraindo todos os elementos de ser01 que NÃO estão contidos em ser02
display(ser01[~(ser01.isin(ser02))])

0    1
1    2
2    3
dtype: int64

In [18]:
# Extraindo todos os elementos de ser02 que estão contidos em ser01
display(ser02[(ser02.isin(ser01))])

0    4
1    5
2    6
dtype: int64

In [19]:
# Extraindo todos os elementos de ser02 que NÃO estão contidos em ser01
display(ser02[~(ser02.isin(ser01))])

3    7
4    8
5    9
dtype: int64

In [20]:
# Extraindo todos os elementos de ser01 que também estão contidos em ser02
for x in ser01[ser01.isin(ser02)]:
    # Obtendo somente os valores pares
    if x % 2 == 0:
        print(x)

4
6


In [21]:
# Extraindo todos os elementos de ser01 que NÃO estão contidos em ser02
for x in ser01[~(ser01.isin(ser02))]:
    # Obtendo somente os valores pares
    if x % 2 == 0:
        print(x)

2


## <center> Carregando Dados em DataFrames Pandas </center>

``Import.io`` é uma plataforma de extração de dados open source baseada na **web** que permite que **usuários possam acessar dados** a partir de **websites** sem escrever nenhum código.

## ``read_csv`` DataFrame Pandas

* Leia um arquivo de valores separados por vírgula (csv) no DataFrame.

In [22]:
# Link de acesso ao dataset
educ = 'https://raw.githubusercontent.com/abnr/ml-data/main/SYB61_T07_Education.csv'

# Link de acesso ao dataset
gdp = 'https://raw.githubusercontent.com/abnr/ml-data/main/India_World_Bank_Info.csv'

In [73]:
df_educ = pd.read_csv(educ, header = 1, sep = '\t', encoding = 'unicode_escape')
display(df_educ.head(3))

Unnamed: 0,Region/Country/Area,Unnamed: 1,Year,Series,Value,Footnotes,Source
0,1,"Total, all countries or areas",2005,Students enrolled in primary education (thousa...,678990.0,,"United Nations Educational, Scientific and Cul..."
1,1,"Total, all countries or areas",2005,Gross enrollement ratio - Primary (male),104.8,,"United Nations Educational, Scientific and Cul..."
2,1,"Total, all countries or areas",2005,Gross enrollment ratio - Primary (female),99.8,,"United Nations Educational, Scientific and Cul..."


In [24]:
# Atribuindo a uma variavel a URL (Localização do Arquivo CSV)
url= "https://raw.githubusercontent.com/cs109/2014_data/master/countries.csv"

# Carregar um aquivo CSV partir de uma URL
df_url = pd.read_csv(filepath_or_buffer=url)

display(df_url)

Unnamed: 0,Country,Region
0,Algeria,AFRICA
1,Angola,AFRICA
2,Benin,AFRICA
3,Botswana,AFRICA
4,Burkina,AFRICA
...,...,...
189,Paraguay,SOUTH AMERICA
190,Peru,SOUTH AMERICA
191,Suriname,SOUTH AMERICA
192,Uruguay,SOUTH AMERICA


## ``head`` DataFrame Pandas

* Visualiza as 5 primeiras linhas, de cima para baixo, ou a quanidade especifica desejada

In [25]:
display(df_url.head())

Unnamed: 0,Country,Region
0,Algeria,AFRICA
1,Angola,AFRICA
2,Benin,AFRICA
3,Botswana,AFRICA
4,Burkina,AFRICA


## ``tail`` DataFrame Pandas

* Visualiza as 5 ultimas linhas, de baixo para cima, ou a quantidade espefifica desejada

In [26]:
display(df_url.tail())

Unnamed: 0,Country,Region
189,Paraguay,SOUTH AMERICA
190,Peru,SOUTH AMERICA
191,Suriname,SOUTH AMERICA
192,Uruguay,SOUTH AMERICA
193,Venezuela,SOUTH AMERICA


## <center> Carregando Dados em DataFrames Pandas </center>

## Carregando ``CSV``

In [27]:
# Carregar um arquivo CSV local em um DataFrame
df_local_csv = pd.read_csv("pokemon_data.csv",index_col=0)# 

# Visualizando apenas as 3 primeiras linhas do DataFrame
display(df_local_csv.head(3))

Unnamed: 0_level_0,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
#,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,Bulbasaur,Grass,Poison,45,49,49,65,65,45,1,False
2,Ivysaur,Grass,Poison,60,62,63,80,80,60,1,False
3,Venusaur,Grass,Poison,80,82,83,100,100,80,1,False


In [28]:
#from google.colab import files
#uploaded = files.upload()

#import io
#df_io = pd.read_csv(io.BytesIO(uploaded['pokemon_data.csv']), index_col=0)
#display(df_io)

## Carregando ``xlsx``

In [29]:
# Carregando arquivo xlsx local em DataFrame
df_local_xlsx = pd.read_excel("pokemon_data.xlsx", index_col=0)

# Visualizando apenas as 3 ultimas linhas do DataFrame
display(df_local_xlsx.tail(3))

Unnamed: 0_level_0,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
#,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
720,HoopaHoopa Confined,Psychic,Ghost,80,110,60,150,130,70,6,True
720,HoopaHoopa Unbound,Psychic,Dark,80,160,60,170,130,80,6,True
721,Volcanion,Fire,Water,80,110,120,130,90,70,6,True


## ``columns`` DataFrame Pandas

* Retorna os rótulos das colunas do DataFrame

In [30]:
display(df_local_csv.columns)

Index(['Name', 'Type 1', 'Type 2', 'HP', 'Attack', 'Defense', 'Sp. Atk',
       'Sp. Def', 'Speed', 'Generation', 'Legendary'],
      dtype='object')

In [31]:
# Acessando coluna
display(df_local_csv['Name'].head())

#
1                Bulbasaur
2                  Ivysaur
3                 Venusaur
3    VenusaurMega Venusaur
4               Charmander
Name: Name, dtype: object

In [32]:
# Acessando Colunas
display(df_local_xlsx[['Name', 'Type 2']].head())

Unnamed: 0_level_0,Name,Type 2
#,Unnamed: 1_level_1,Unnamed: 2_level_1
1,Bulbasaur,Poison
2,Ivysaur,Poison
3,Venusaur,Poison
3,VenusaurMega Venusaur,Poison
4,Charmander,


## ``index`` DataFrame Pandas

* Retorna o índice (rótulos de linha) do DataFrame.

In [33]:
print(df_local_xlsx.index)

Index([  1,   2,   3,   3,   4,   5,   6,   6,   6,   7,
       ...
       714, 715, 716, 717, 718, 719, 719, 720, 720, 721],
      dtype='int64', name='#', length=800)


## ``shape`` DataFrame Pandas

* Retorna uma tupla que representa a dimensionalidade do DataFrame.

In [34]:
# Verificando a forma do DataFrame
print(df_local_csv.shape)
# 800 Linhas e 11 Colunas

(800, 11)


## ``values`` DataFrame Pandas

* Retorna uma representação Numpy do DataFrame.Um array com os valores

In [35]:
# Atribuindo a uma variavel as 5 primeiras linhas do DataFrame
df_head = df_local_xlsx.head()

# Retornando apenas os valores presentes na variavel "Type 2"
df_head['Type 2'].values

array(['Poison', 'Poison', 'Poison', 'Poison', nan], dtype=object)

## ``sample`` DataFrame Pandas

* Retorna uma amostra aleatória de itens de um eixo do objeto.Uma linhas aleatória ou uma quantidade de linhas definida

In [36]:
display(df_local_csv.sample())

Unnamed: 0_level_0,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
#,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
218,Slugma,Fire,,40,40,40,70,40,20,2,False


In [37]:
display(df_local_csv.sample(5))

Unnamed: 0_level_0,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
#,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
323,CameruptMega Camerupt,Fire,Ground,70,120,100,145,105,20,3,False
436,Bronzor,Steel,Psychic,57,24,86,24,86,23,4,False
524,Roggenrola,Rock,,55,75,85,25,25,15,5,False
656,Froakie,Water,,41,56,40,62,44,71,6,False
445,Garchomp,Dragon,Ground,108,130,95,80,85,102,4,False


## ``value_counts`` DataFrame Pandas

* Retorna uma série contendo contagens de valores únicos

In [38]:
# Verificando a quantidade de ocorrencias de cada elemento na coluna "Name"
print(df_local_xlsx['Name'].value_counts())

Name
Bulbasaur              1
Uxie                   1
GalladeMega Gallade    1
Probopass              1
Dusknoir               1
                      ..
Lugia                  1
Ho-oh                  1
Celebi                 1
Treecko                1
Volcanion              1
Name: count, Length: 800, dtype: int64


# <center> Filtrar Linhas e Colunas DataFrame Pandas </center>

## ``iloc`` DataFrame Pandas

* Indexação baseada na localização de inteiro para seleção por posição.

In [39]:
# Atribuindo a uma variavel, a seleção do filtro, pelo index(Linhas, Colunas)
df_iloc = df_local_xlsx.iloc[:5, :3]
# Selecionado todas as 5 primeiras linhas, e todas as 3 primeiras colunas

# Verificando a quantidade de colunas
print(len(df_iloc.columns))

# Verificando o formato do DataFrame após filtro
print(df_iloc.shape)

# Visualizando DataFrame
display(df_iloc)

3
(5, 3)


Unnamed: 0_level_0,Name,Type 1,Type 2
#,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,Bulbasaur,Grass,Poison
2,Ivysaur,Grass,Poison
3,Venusaur,Grass,Poison
3,VenusaurMega Venusaur,Grass,Poison
4,Charmander,Fire,


## ``loc`` DataFrame Pandas

* Retorna um grupo de linhas e colunas por pelos valores ou elementos.

In [40]:
# Atribuindo a uma variavel, a seleção do filtro, pelos elementos(Linhas, Colunas)
df_loc1 = df_local_csv.loc[ df_local_csv['Name'] == 'Bulbasaur', ['Name', 'HP'] ] 
# Selecionando todas as "linhas" onde exista "Bulbasaur na coluna Name", 
# porém somente irá mostrar as "Colunas Name e HP" 

# Visualizando DataFrame
display(df_loc1)

Unnamed: 0_level_0,Name,HP
#,Unnamed: 1_level_1,Unnamed: 2_level_1
1,Bulbasaur,45


In [41]:
# Aplicando filtro de acordo com a condição estabelecida
df_loc2 = df_local_csv.loc[(df_local_csv['HP'] > 100) & (df_local_csv['Attack'] < 80)]
# Selecionando em todo o DataFrame, tudo que em "HP",  for "maior que 100" e (&),  de tudo em "Attack", que for "menor que 80"

# Verificando a Forma do DataFrame após filtro
print(df_loc2.shape)

display(df_loc2.head())

(20, 11)


Unnamed: 0_level_0,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
#,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
39,Jigglypuff,Normal,Fairy,115,45,20,45,25,20,1,False
40,Wigglytuff,Normal,Fairy,140,70,45,85,50,45,1,False
113,Chansey,Normal,,250,5,5,35,105,50,1,False
134,Vaporeon,Water,,130,65,60,110,95,65,1,False
171,Lanturn,Water,Electric,125,58,58,76,76,67,2,False


In [42]:
# Aplicando filtro de acordo com a condição estabelecida
df_loc3 = df_local_csv.loc[(df_local_csv['HP'] > 100) | (df_local_csv['Attack'] < 80)]
# Selecionando em todo o DataFrame, tudo que em "HP",  for "maior que 100" ou ( | ),  de tudo em "Attack", que for "menor que 80"

# Verificando a Forma do DataFrame após filtro
print(df_loc3.shape)

display(df_loc3.head())

(469, 11)


Unnamed: 0_level_0,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
#,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,Bulbasaur,Grass,Poison,45,49,49,65,65,45,1,False
2,Ivysaur,Grass,Poison,60,62,63,80,80,60,1,False
4,Charmander,Fire,,39,52,43,60,50,65,1,False
5,Charmeleon,Fire,,58,64,58,80,65,80,1,False
7,Squirtle,Water,,44,48,65,50,64,43,1,False


In [43]:
# Alterando elemetos ou valores de acordo com condição especificada
df_local_csv.loc[df_local_csv['HP'] > 60, 'Type 1'] = 'LENDARIO'
# Substituindo todos os valores da coluna "Type 1",  onde os valores da coluna "HP"  forem maior que 60
display(df_local_csv.head())

Unnamed: 0_level_0,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
#,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,Bulbasaur,Grass,Poison,45,49,49,65,65,45,1,False
2,Ivysaur,Grass,Poison,60,62,63,80,80,60,1,False
3,Venusaur,LENDARIO,Poison,80,82,83,100,100,80,1,False
3,VenusaurMega Venusaur,LENDARIO,Poison,80,100,123,122,120,80,1,False
4,Charmander,Fire,,39,52,43,60,50,65,1,False


In [44]:
# 1º Verificando a substituição do valor
print(df_local_csv[df_local_csv['HP'] > 60]['Type 1' ].value_counts())

Type 1
LENDARIO    461
Name: count, dtype: int64


In [45]:
# 2º Verificando a substituição do valor
print(df_local_csv['Type 1'].value_counts())

Type 1
LENDARIO    461
Water        44
Bug          40
Normal       37
Grass        31
Electric     25
Psychic      22
Ghost        22
Rock         20
Fire         17
Steel        15
Dark         13
Ground       13
Fighting     10
Poison       10
Ice           8
Fairy         6
Dragon        5
Flying        1
Name: count, dtype: int64


In [46]:
# Substituindo mais de um valor ou elemento de acordo com a condição
df_local_csv.loc[df_local_csv['HP'] > 60, ['Type 1', 'Legendary']] = ['LEGENDARIO', True]
# Separando todos os elementos do DataFrame que, na coluna "HP seja maior que 60", e 
# substitui os elementos nas colunas "type 1" e "Legendary" por "LEGENDARIO e "True" respectivamente

display(df_local_csv.loc[df_local_csv['HP'] > 60].head())

Unnamed: 0_level_0,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
#,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
3,Venusaur,LEGENDARIO,Poison,80,82,83,100,100,80,1,True
3,VenusaurMega Venusaur,LEGENDARIO,Poison,80,100,123,122,120,80,1,True
6,Charizard,LEGENDARIO,Flying,78,84,78,109,85,100,1,True
6,CharizardMega Charizard X,LEGENDARIO,Dragon,78,130,111,130,85,100,1,True
6,CharizardMega Charizard Y,LEGENDARIO,Flying,78,104,78,159,115,100,1,True


In [47]:
display(df_local_csv[df_local_csv['HP'] > 60]['Type 1'].value_counts())

Type 1
LEGENDARIO    461
Name: count, dtype: int64

In [48]:
# Verificando as ocorrencias equivalente a proporção por meio de porcentagem 
print(df_local_csv['Legendary'].value_counts(normalize=True)) 

Legendary
True     0.58375
False    0.41625
Name: proportion, dtype: float64


# <center> Ordenação DataFrames Pandas </center>

## ``sort_values`` DataFrame Pandas

* Classifique pelos valores ao longo de qualquer eixo.

In [49]:
# Ordenando o DataFrame de forma decrescente  de acordo com a culuna "HP"
df_sortV1 = df_local_csv.sort_values(by=['HP'], ascending=False)
display(df_sortV1.head())

Unnamed: 0_level_0,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
#,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
242,Blissey,LEGENDARIO,,255,10,10,75,135,55,2,True
113,Chansey,LEGENDARIO,,250,5,5,35,105,50,1,True
202,Wobbuffet,LEGENDARIO,,190,33,58,33,58,33,2,True
321,Wailord,LEGENDARIO,,170,90,45,90,45,60,3,True
594,Alomomola,LEGENDARIO,,165,75,80,40,45,65,5,True


In [50]:
# Ordenando o DataFrame de forma crescente, de acordo com a coluna 'HP' , e de forma decrescente, de acordo com a coluna 'Attack' 
df_sortV2 = df_local_xlsx.sort_values(by=['HP', 'Attack'], ascending=[True, False])
display(df_sortV2.head())

Unnamed: 0_level_0,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
#,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
292,Shedinja,Bug,Ghost,1,90,45,30,30,40,3,False
50,Diglett,Ground,,10,55,25,35,45,95,1,False
172,Pichu,Electric,,20,40,15,35,35,60,2,False
355,Duskull,Ghost,,20,40,90,30,90,25,3,False
439,Mime Jr.,Psychic,Fairy,20,25,45,70,90,60,4,False


# <center> Resumo Estatístico dos Dados em DataFrame Pandas </center>

## ``describe`` DataFrame Pandas

* Gere estatísticas descritivas, incluem a tendência central, a dispersão e a forma da distribuição de um conjunto de dados, excluindo NaN valores.

In [51]:
# Gerando estatísticas descritivas, somente variaveis quantitativas
df_describe01 = df_local_csv.describe()
display(df_describe01)

Unnamed: 0,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation
count,800.0,800.0,800.0,800.0,800.0,800.0,800.0
mean,69.25875,79.00125,73.8425,72.82,71.9025,68.2775,3.32375
std,25.534669,32.457366,31.183501,32.722294,27.828916,29.060474,1.66129
min,1.0,5.0,5.0,10.0,20.0,5.0,1.0
25%,50.0,55.0,50.0,49.75,50.0,45.0,2.0
50%,65.0,75.0,70.0,65.0,70.0,65.0,3.0
75%,80.0,100.0,90.0,95.0,90.0,90.0,5.0
max,255.0,190.0,230.0,194.0,230.0,180.0,6.0


In [52]:
# Gerando estatísticas descritivas somente das variaveis qualitativas
df_describe02 = df_local_xlsx.describe(include= 'object')
display(df_describe02)

Unnamed: 0,Name,Type 1,Type 2
count,800,800,414
unique,800,18,18
top,Bulbasaur,Water,Flying
freq,1,112,97


In [53]:
# Gerando estatística descritiva das variaveis quantitativas e qualitativas
df_describe03 = df_local_csv.describe(include = 'all')
display(df_describe03)

Unnamed: 0,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
count,800,800,414,800.0,800.0,800.0,800.0,800.0,800.0,800.0,800
unique,800,19,18,,,,,,,,2
top,Bulbasaur,LEGENDARIO,Flying,,,,,,,,True
freq,1,461,97,,,,,,,,467
mean,,,,69.25875,79.00125,73.8425,72.82,71.9025,68.2775,3.32375,
std,,,,25.534669,32.457366,31.183501,32.722294,27.828916,29.060474,1.66129,
min,,,,1.0,5.0,5.0,10.0,20.0,5.0,1.0,
25%,,,,50.0,55.0,50.0,49.75,50.0,45.0,2.0,
50%,,,,65.0,75.0,70.0,65.0,70.0,65.0,3.0,
75%,,,,80.0,100.0,90.0,95.0,90.0,90.0,5.0,


# <center>  Nova Coluna no DataFrame Pandas </center>


In [54]:
# Criando novo coluna "total_attack" no DataFrame
df_local_xlsx['Total_Attack'] = df_local_xlsx['Attack'] + df_local_xlsx['Sp. Atk']
# Nova coluna é o resultado da soma das variaveis "Attack" e "Sp. Atk"

display(df_local_xlsx.head())

Unnamed: 0_level_0,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary,Total_Attack
#,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
1,Bulbasaur,Grass,Poison,45,49,49,65,65,45,1,False,114
2,Ivysaur,Grass,Poison,60,62,63,80,80,60,1,False,142
3,Venusaur,Grass,Poison,80,82,83,100,100,80,1,False,182
3,VenusaurMega Venusaur,Grass,Poison,80,100,123,122,120,80,1,False,222
4,Charmander,Fire,,39,52,43,60,50,65,1,False,112


In [55]:
print(df_local_xlsx.columns)

Index(['Name', 'Type 1', 'Type 2', 'HP', 'Attack', 'Defense', 'Sp. Atk',
       'Sp. Def', 'Speed', 'Generation', 'Legendary', 'Total_Attack'],
      dtype='object')


# <center> Excluir Coluna no DataFrame Pandas </center> 

In [56]:
# 1º Excluir coluna "Total_Attack"
df_drop1 = df_local_xlsx.drop('Total_Attack', axis=1)

display(df_drop1.head())

Unnamed: 0_level_0,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
#,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,Bulbasaur,Grass,Poison,45,49,49,65,65,45,1,False
2,Ivysaur,Grass,Poison,60,62,63,80,80,60,1,False
3,Venusaur,Grass,Poison,80,82,83,100,100,80,1,False
3,VenusaurMega Venusaur,Grass,Poison,80,100,123,122,120,80,1,False
4,Charmander,Fire,,39,52,43,60,50,65,1,False


In [57]:
# 2º Excluir coluna "Total_Attack"
df_drop2 = df_local_xlsx.drop(columns='Total_Attack')
display(df_drop2.head())

Unnamed: 0_level_0,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
#,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,Bulbasaur,Grass,Poison,45,49,49,65,65,45,1,False
2,Ivysaur,Grass,Poison,60,62,63,80,80,60,1,False
3,Venusaur,Grass,Poison,80,82,83,100,100,80,1,False
3,VenusaurMega Venusaur,Grass,Poison,80,100,123,122,120,80,1,False
4,Charmander,Fire,,39,52,43,60,50,65,1,False


In [58]:
# 3º Excluir coluna "Total_Attack" definitivamente(inplace=True)
df_local_xlsx.drop(columns='Total_Attack', inplace=True)
display(df_local_xlsx.head())

Unnamed: 0_level_0,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
#,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,Bulbasaur,Grass,Poison,45,49,49,65,65,45,1,False
2,Ivysaur,Grass,Poison,60,62,63,80,80,60,1,False
3,Venusaur,Grass,Poison,80,82,83,100,100,80,1,False
3,VenusaurMega Venusaur,Grass,Poison,80,100,123,122,120,80,1,False
4,Charmander,Fire,,39,52,43,60,50,65,1,False


# <center> Salvando um DataFrame Pandas em CSV </center>

In [59]:
# Salvando o DataFrame após manipulção em um arquivo de csv, valores separados por virgulas
df_local_xlsx.to_csv('Nome_Novo_Arquivo.csv')

In [60]:
# Salavdno por meio da interface do google colab
# from google.colab import files
# df_local_xlsx.to_csv('Nome_Novo_Arquivo.csv')
# files.download('Nome_Novo_Arquivo.csv')

# <center> Exemplos </center>

* Na coluna **Type 1**, retornar todos os elementos **Grass**, com o valor **maximo de HP**

In [61]:
# Atribuindo a uma variavel o filtro aplicado ao DataFrame, 
type1_grass = df_local_csv.loc[df_local_csv['Type 1'] == 'Grass']
# Separando todas as linhas e colunas que contenham "Grass" na coluna "Type 1"

# Atribuindo a uma variavel o valor maximo da  coluna "HP"
max_HP = type1_grass['HP'].max()

# Separando todo o DataFrame com os valores maximos em "HP"
display(type1_grass.loc[type1_grass['HP'] == max_HP])

Unnamed: 0_level_0,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
#,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
2,Ivysaur,Grass,Poison,60,62,63,80,80,60,1,False
44,Gloom,Grass,Poison,60,65,70,85,75,40,1,False
102,Exeggcute,Grass,Psychic,60,40,80,60,45,40,1,False
153,Bayleef,Grass,,60,62,80,63,80,60,2,False
285,Shroomish,Grass,,60,40,60,40,60,35,3,False
286,Breloom,Grass,Fighting,60,130,80,60,60,70,3,False
407,Roserade,Grass,Poison,60,70,65,125,105,90,4,False
459,Snover,Grass,Ice,60,62,50,62,60,40,4,False
496,Servine,Grass,,60,60,75,60,75,83,5,False
547,Whimsicott,Grass,Fairy,60,67,85,77,75,116,5,False


In [62]:
# Separando de todo o DataFrame, somente os Nomes unicos, que estão entre os valores maximo em "HP"
display(type1_grass.loc[type1_grass['HP'] == max_HP]['Name'].unique())

array(['Ivysaur', 'Gloom', 'Exeggcute', 'Bayleef', 'Shroomish', 'Breloom',
       'Roserade', 'Snover', 'Servine', 'Whimsicott'], dtype=object)

* Se existir somente os elementos **Ghost** da coluna **Type 1**, mas somente aqueles elementos que tiverem **Sp. Atk maior que 60**, retornar as colunas **Name**, **Type 1**, **Sp. Atk**, **HP**.  **Legendary** e **Type 2**

In [63]:
# Atribuindo a uma variavel o filtro estabelecido 
type1_ghost = df_local_xlsx.loc[(df_local_xlsx['Type 1'] == 'Ghost') & (df_local_xlsx['Sp. Atk'] > 60)]

# Separando somante as colunas necessárias e organizando o DataFrame de acordo com a coluna "HP em forma decrescente'"
type1_ghost = type1_ghost[['Name', 'Type 1', 'Type 2', 'Sp. Atk', 'HP', 'Legendary']].sort_values('HP', ascending=False)

display(type1_ghost)

Unnamed: 0_level_0,Name,Type 1,Type 2,Sp. Atk,HP,Legendary
#,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
426,Drifblim,Ghost,Flying,90,150,False
487,GiratinaOrigin Forme,Ghost,Dragon,120,150,True
487,GiratinaAltered Forme,Ghost,Dragon,100,150,True
709,Trevenant,Ghost,Grass,65,85,False
354,Banette,Ghost,,83,64,False
354,BanetteMega Banette,Ghost,,93,64,False
609,Chandelure,Ghost,Fire,145,60,False
608,Lampent,Ghost,Fire,95,60,False
429,Mismagius,Ghost,,105,60,False
200,Misdreavus,Ghost,,85,60,False


* Se existir na coluna **Type 1** com o elemento **Poison** e na coluna **Type 2** com o elemento **Flying** que seja **Legendary**, retornar o DataFrame

In [64]:
# Atribuindo a uma variavel o filtro estabelecido
type_legend = df_local_csv.loc[(df_local_csv['Type 1'] == 'Poison') & (df_local_csv['Type 2'] == 'Flying') & (df_local_csv['Legendary'] == True)]
# Não existe Registro com este filtro
display(type_legend)

Unnamed: 0_level_0,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
#,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
