A estrutura de dados do Pandas é baseada em Series e DataFrames .

Uma série é uma coluna e um DataFrame é uma tabela multidimensional composta por uma coleção de séries . Para criar uma série de pandas, devemos usar numpy para criar arrays unidimensionais ou uma lista python.


Importando pandas

In [1]:
import pandas as pd # importing pandas as pd
import numpy  as np # importing numpy as np

Criando séries Pandas com índice padrão

In [4]:
nums = [1, 2, 3, 4,5]
s = pd.Series(nums)
print(s)

0    1
1    2
2    3
3    4
4    5
dtype: int64


Criando séries Pandas com índice personalizado

In [6]:
nums = [1, 2, 3, 4, 5]
s = pd.Series(nums, index=[1, 2, 3, 4, 5])
print(s)

fruits = ['Orange','Banana','Mango']
fruits = pd.Series(fruits, index=[1, 2, 3])
print(fruits)

1    1
2    2
3    3
4    4
5    5
dtype: int64
1    Orange
2    Banana
3     Mango
dtype: object


Criando séries de Pandas a partir de um dicionário

In [7]:
dct = {'name':'Asabeneh','country':'Finland','city':'Helsinki'}
s = pd.Series(dct)
print(s)

name       Asabeneh
country     Finland
city       Helsinki
dtype: object


Criando uma série constante de Pandas

In [8]:
s = pd.Series(10, index = [1, 2, 3])
print(s)

1    10
2    10
3    10
dtype: int64


Criando uma série Pandas usando Linspace

In [9]:
s = pd.Series(np.linspace(5, 20, 10)) # linspace(starting, end, items)
print(s)

0     5.000000
1     6.666667
2     8.333333
3    10.000000
4    11.666667
5    13.333333
6    15.000000
7    16.666667
8    18.333333
9    20.000000
dtype: float64


#### Quadros de dados

Os quadros de dados do Pandas podem ser criados de diferentes maneiras.

Criando DataFrames a partir de uma lista de listas

In [13]:
data = [
    ['Asabeneh', 'Finland', 'Helsink'], 
    ['David', 'UK', 'London'],
    ['John', 'Sweden', 'Stockholm']
]
df = pd.DataFrame(data, columns=['Names','Country','City'])
print(df)

      Names  Country       City
0  Asabeneh  Finland    Helsink
1     David       UK     London
2      John   Sweden  Stockholm


Criando DataFrame usando dicionário

In [14]:
data = {'Name': ['Asabeneh', 'David', 'John'], 'Country':[
    'Finland', 'UK', 'Sweden'], 'City': ['Helsiki', 'London', 'Stockholm']}
df = pd.DataFrame(data)
print(df)

       Name  Country       City
0  Asabeneh  Finland    Helsiki
1     David       UK     London
2      John   Sweden  Stockholm


Criando DataFrames a partir de uma lista de dicionários

In [15]:
data = [
    {'Name': 'Asabeneh', 'Country': 'Finland', 'City': 'Helsinki'},
    {'Name': 'David', 'Country': 'UK', 'City': 'London'},
    {'Name': 'John', 'Country': 'Sweden', 'City': 'Stockholm'}]
df = pd.DataFrame(data)
print(df)

       Name  Country       City
0  Asabeneh  Finland   Helsinki
1     David       UK     London
2      John   Sweden  Stockholm


Lendo arquivo CSV usando Pandas

In [17]:
import pandas as pd

df = pd.read_csv('weight-height.csv')
print(df)

      Gender     Height      Weight
0       Male  73.847017  241.893563
1       Male  68.781904  162.310473
2       Male  74.110105  212.740856
3       Male  71.730978  220.042470
4       Male  69.881796  206.349801
...      ...        ...         ...
9995  Female  66.172652  136.777454
9996  Female  67.067155  170.867906
9997  Female  63.867992  128.475319
9998  Female  69.034243  163.852461
9999  Female  61.944246  113.649103

[10000 rows x 3 columns]


Exploração de dados

In [18]:
#Vamos ler apenas as 5 primeiras linhas usando head()
print(df.head()) # give five rows we can increase the number of rows by passing argument to the head() method

  Gender     Height      Weight
0   Male  73.847017  241.893563
1   Male  68.781904  162.310473
2   Male  74.110105  212.740856
3   Male  71.730978  220.042470
4   Male  69.881796  206.349801


In [20]:
#Vamos também explorar as últimas gravações do dataframe usando os métodos tail().
print(df.tail()) # tails give the last five rows, we can increase the rows by passing argument to tail method

      Gender     Height      Weight
9995  Female  66.172652  136.777454
9996  Female  67.067155  170.867906
9997  Female  63.867992  128.475319
9998  Female  69.034243  163.852461
9999  Female  61.944246  113.649103


Como você pode ver, o arquivo csv possui três linhas: Gênero, Altura e Peso. Se o DataFrame tivesse linhas longas, seria difícil conhecer todas as colunas. Portanto, devemos usar um método para conhecer as colunas. não sabemos o número de linhas. Vamos usar o método shapemethod.

In [27]:
print(df.shape) # as you can see 10000 rows and three columns
print(df.columns)
heights = df['Height'] # this is now a series
print(heights)

weights = df['Weight'] # this is now a series
print(weights)
print(len(heights) == len(weights))

(10000, 3)
Index(['Gender', 'Height', 'Weight'], dtype='object')
0       73.847017
1       68.781904
2       74.110105
3       71.730978
4       69.881796
          ...    
9995    66.172652
9996    67.067155
9997    63.867992
9998    69.034243
9999    61.944246
Name: Height, Length: 10000, dtype: float64
0       241.893563
1       162.310473
2       212.740856
3       220.042470
4       206.349801
           ...    
9995    136.777454
9996    170.867906
9997    128.475319
9998    163.852461
9999    113.649103
Name: Weight, Length: 10000, dtype: float64
True


In [29]:
# O métodoscribe() fornece valores estatísticos descritivos de um conjunto de dados.
print(heights.describe()) # give statisical information about height data
print(weights.describe())

count    10000.000000
mean        66.367560
std          3.847528
min         54.263133
25%         63.505620
50%         66.318070
75%         69.174262
max         78.998742
Name: Height, dtype: float64
count    10000.000000
mean       161.440357
std         32.108439
min         64.700127
25%        135.818051
50%        161.212928
75%        187.169525
max        269.989699
Name: Weight, dtype: float64


In [30]:
print(df.describe())  # describe can also give statistical information from a dataFrame

             Height        Weight
count  10000.000000  10000.000000
mean      66.367560    161.440357
std        3.847528     32.108439
min       54.263133     64.700127
25%       63.505620    135.818051
50%       66.318070    161.212928
75%       69.174262    187.169525
max       78.998742    269.989699


#### Modificando um DataFrame
Modificando um DataFrame: * Podemos criar um novo DataFrame * Podemos criar uma nova coluna e adicioná-la ao DataFrame, 
* podemos remover uma coluna existente de um DataFrame, * podemos modificar uma coluna existente em um DataFrame, 
* podemos alterar o tipo de dados dos valores da coluna no DataFrame

Criando um DataFrame


In [31]:
import pandas as pd
import numpy as np
data = [
    {"Name": "Asabeneh", "Country":"Finland","City":"Helsinki"},
    {"Name": "David", "Country":"UK","City":"London"},
    {"Name": "John", "Country":"Sweden","City":"Stockholm"}]
df = pd.DataFrame(data)
print(df)

       Name  Country       City
0  Asabeneh  Finland   Helsinki
1     David       UK     London
2      John   Sweden  Stockholm


#### Adicionando uma nova coluna
Vamos adicionar uma coluna de peso no DataFrame

In [32]:
weights = [74, 78, 69]
df['Weight'] = weights
print(df)

       Name  Country       City  Weight
0  Asabeneh  Finland   Helsinki      74
1     David       UK     London      78
2      John   Sweden  Stockholm      69


Vamos adicionar uma coluna de altura ao DataFrame também

In [33]:
heights = [173, 175, 169]
df['Height'] = heights
print(df)

       Name  Country       City  Weight  Height
0  Asabeneh  Finland   Helsinki      74     173
1     David       UK     London      78     175
2      John   Sweden  Stockholm      69     169


Como você pode ver no DataFrame acima, adicionamos novas colunas, Peso e Altura. Vamos adicionar uma coluna adicional chamada IMC (Índice de Massa Corporal), calculando seu IMC usando sua massa e altura. O IMC é a massa dividida pela altura ao quadrado (em metros) - Peso/Altura * Altura.

Como você pode ver, a altura está em centímetros, então devemos alterá-la para metros. Vamos modificar a linha de altura.

Modificando valores de coluna

In [34]:
df['Height'] = df['Height'] * 0.01
df

Unnamed: 0,Name,Country,City,Weight,Height
0,Asabeneh,Finland,Helsinki,74,1.73
1,David,UK,London,78,1.75
2,John,Sweden,Stockholm,69,1.69


In [37]:
# Using functions makes our code clean, but you can calculate the bmi without one
def calculate_bmi ():
    weights = df['Weight']
    heights = df['Height']
    bmi = []
    for w,h in zip(weights, heights):
        b = w/(h*h)
        bmi.append(b)
    return bmi
    
bmi = calculate_bmi()
df['BMI'] = bmi
df

Unnamed: 0,Name,Country,City,Weight,Height,BMI
0,Asabeneh,Finland,Helsinki,74,1.73,24.725183
1,David,UK,London,78,1.75,25.469388
2,John,Sweden,Stockholm,69,1.69,24.158818


#### Formatando colunas DataFrame
Os valores da coluna IMC do DataFrame são flutuantes com muitos dígitos significativos após o decimal. 
Vamos alterá-lo para um dígito significativo após o ponto.

In [38]:
df['BMI'] = round(df['BMI'], 1)
print(df)

       Name  Country       City  Weight  Height   BMI
0  Asabeneh  Finland   Helsinki      74    1.73  24.7
1     David       UK     London      78    1.75  25.5
2      John   Sweden  Stockholm      69    1.69  24.2


In [39]:
#As informações no DataFrame parecem ainda não completas, vamos adicionar as colunas do ano de nascimento e do ano atual.
birth_year = ['1769', '1985', '1990']
current_year = pd.Series(2020, index=[0, 1,2])
df['Birth Year'] = birth_year
df['Current Year'] = current_year
df

Unnamed: 0,Name,Country,City,Weight,Height,BMI,Birth Year,Current Year
0,Asabeneh,Finland,Helsinki,74,1.73,24.7,1769,2020
1,David,UK,London,78,1.75,25.5,1985,2020
2,John,Sweden,Stockholm,69,1.69,24.2,1990,2020


Verificando tipos de dados de valores de coluna

In [42]:
print(df.Weight.dtype)
df['Birth Year'].dtype # it gives string object , we should change this to number
df['Birth Year'] = df['Birth Year'].astype('int')
print(df['Birth Year'].dtype) # let's check the data type now

#Agora o mesmo para o ano atual:
df['Current Year'] = df['Current Year'].astype('int')
df['Current Year'].dtype

# Agora, os valores das colunas do ano de nascimento e do ano atual são inteiros. Podemos calcular a idade.
ages = df['Current Year'] - df['Birth Year']
print(ages)

df['Ages'] = ages
print(df)

int64
int32
0    251
1     35
2     30
dtype: int32
       Name  Country       City  Weight  Height   BMI  Birth Year  \
0  Asabeneh  Finland   Helsinki      74    1.73  24.7        1769   
1     David       UK     London      78    1.75  25.5        1985   
2      John   Sweden  Stockholm      69    1.69  24.2        1990   

   Current Year  Ages  
0          2020   251  
1          2020    35  
2          2020    30  


In [43]:
# A pessoa na primeira fila viveu até agora 251 anos. É improvável que alguém viva tanto. Ou é um erro de digitação ou os dados estão corrompidos. 
# Então, vamos preencher esses dados com a média das colunas sem incluir valores discrepantes.

mean = (35 + 30)/ 2
print('Mean: ',mean)	#it is good to add some description to the output, so we know what is what

Mean:  32.5


Indexação Booleana

In [46]:
print(df[df['Ages'] > 120])

       Name  Country      City  Weight  Height   BMI  Birth Year  \
0  Asabeneh  Finland  Helsinki      74    1.73  24.7        1769   

   Current Year  Ages  
0          2020   251  


In [47]:
print(df[df['Ages'] < 120])

    Name Country       City  Weight  Height   BMI  Birth Year  Current Year  \
1  David      UK     London      78    1.75  25.5        1985          2020   
2   John  Sweden  Stockholm      69    1.69  24.2        1990          2020   

   Ages  
1    35  
2    30  
