# Anotações: 

No pandas há duas estruturas, sendo elas:
- Series - 1-d ou seja, é um vetor

  -> labels

  -> dados
- Dataframe - 2-d+

  -> labels(x)

  ->columns(y)

  ->dados

### Panda Series

In [2]:
import pandas as pd
import numpy as np

In [15]:
labels = ['a', 'b', 'c']
dados = [10, 20, 30]
# é boa pratica passar o index, se não passar ele irá criar um index de 0 a n
# criando uma series com duas listas
s1 = pd.Series(index=labels, data=dados)
# criando uma series com um dicionario
s2 = pd.Series({'a':10, 'c':50, 'd':80})

print(s1)
print(type(s1))

a    10
b    20
c    30
dtype: int64
<class 'pandas.core.series.Series'>


In [16]:
#chamando um valor da series
print(s1['b'])

20


In [17]:
# operacoes entre series
print(s1 + s2) #se tiver um valor que não existe em uma das series ele irá retornar NaN
print(s1.add(s2, fill_value=0)) #se nao tiver um valor ele irá adicionar o valor 0

a    20.0
b     NaN
c    80.0
d     NaN
dtype: float64
a    20.0
b    20.0
c    80.0
d    80.0
dtype: float64


In [23]:
#acessar apenas o que precisamos
print(s1[['a','c']]) #como é mais de um indice é necessario passar uma lista
print(s1[1:]) #passando um range de indices

a    10
c    30
dtype: int64
b    20
c    30
dtype: int64


In [25]:
#condicionais no pandas é identico ao do numpy
print(s1[s1 > 25]) #retorna apenas os valores maiores que 25
print(s1[s1 > s1.mean()]) #retorna apenas os valores maiores que a media
print(s1[s1/2 == 10]) #retorna apenas os valores que divididos por 2 são iguais a 10

c    30
dtype: int64
c    30
dtype: int64
b    20
dtype: int64


### Pandas DataFrame

In [None]:
#Lembrar: a estrutura do DataFrame é similar ao do Excel

#plantando uma semente aleatoria
np.random.seed(10)

#criando um DataFrame
df = pd.DataFrame(
    index = ['A', 'B', 'C', 'D', 'E'],
    columns= ['W', 'X', 'Y', 'Z'],
    data = np.random.randint(1, 50, [5, 4])
)
print(df)

    W   X   Y   Z
A  10  37  16   1
B  29  26  30  49
C  30   9  10   1
D  43  41  37  17
E  37  48  12  25


In [37]:
#slicing com multiplas colunas
print(df[['W', 'Z']]) #retorna as colunas W e Z

#acessando um elemento expecifico
#coluna e depois linha
print(df['X']['B']) #retorna o valor da coluna W na linha A

    W   Z
A  10   1
B  29  49
C  30   1
D  43  17
E  37  25
26


In [47]:
#fazendo slicing com loc() ou iloc() - loc = localization, iloc = index localization

#loc() é baseado no nome do indice
#print(df.loc[['A','B'],['W','X', 'Y', 'Z']])
print(df.loc[['A','B'],['W','X', 'Z']])

#iloc() é baseado no numero do indice
print(df.iloc[0:2, 0:])

    W   X   Z
A  10  37   1
B  29  26  49
    W   X   Y   Z
A  10  37  16   1
B  29  26  30  49


### Carregando dados com Pandas

In [9]:
#importando o arquivo paises
df = pd.read_csv('paises.csv', delimiter = ';')
#mostrando as colunas
print(df.columns)
#mostra os 3 primeiros
print(df.head(3))
#mostra os 3 ultimos
print(df.tail(3))

Index(['Country', 'Region', 'Population', 'Area (sq. mi.)',
       'Pop. Density (per sq. mi.)', 'Coastline (coast/area ratio)',
       'Net migration', 'Infant mortality (per 1000 births)',
       'GDP ($ per capita)', 'Literacy (%)', 'Phones (per 1000)', 'Arable (%)',
       'Crops (%)', 'Other (%)', 'Climate', 'Birthrate', 'Deathrate',
       'Agriculture', 'Industry', 'Service'],
      dtype='object')
        Country                               Region  Population  \
0  Afghanistan         ASIA (EX. NEAR EAST)             31056997   
1      Albania   EASTERN EUROPE                          3581655   
2      Algeria   NORTHERN AFRICA                        32930091   

   Area (sq. mi.)  Pop. Density (per sq. mi.)  Coastline (coast/area ratio)  \
0          647500                        48.0                          0.00   
1           28748                       124.6                          1.26   
2         2381740                        13.8                          0.04   

 

Salvando um novo dataset

In [None]:
#calculando a % da populacao de cada pais
total_population = np.sum(df['Population'])

#calculando a porcentagem DE CADA PAIS (broadcasting)
seriesPercPopulation = (df['Population']/total_population) * 100
print(seriesPercPopulation)

#criando uma nova coluna no dataset
df['% Population'] = np.round(seriesPercPopulation, 3)

#gerando um novo arquivo com a coluna nova
df.to_csv('paises2.csv', sep = ';')

#pegando os 6 paises mais populosos do planeta
print(df.nlargest(6, '% Population'))

0      0.476039
1      0.054899
2      0.504750
3      0.000886
4      0.001091
         ...   
222    0.037714
223    0.004185
224    0.328879
225    0.176302
226    0.187565
Name: Population, Length: 227, dtype: float64
            Country                               Region  Population  \
42           China         ASIA (EX. NEAR EAST)           1313973713   
94           India         ASIA (EX. NEAR EAST)           1095351995   
214  United States   NORTHERN AMERICA                      298444215   
95       Indonesia         ASIA (EX. NEAR EAST)            245452739   
27          Brazil               LATIN AMER. & CARIB       188078227   
156       Pakistan         ASIA (EX. NEAR EAST)            165803560   

     Area (sq. mi.)  Pop. Density (per sq. mi.)  Coastline (coast/area ratio)  \
42          9596960                       136.9                          0.15   
94          3287590                       333.2                          0.21   
214         9631420           

Agrupamento de dados no Pandas

In [20]:
#agrupando os dados por regiao
group_region = df.groupby('Region')
print(group_region.count()['Country'])
print(group_region.sum()['Population'])

Region
ASIA (EX. NEAR EAST)                   28
BALTICS                                 3
C.W. OF IND. STATES                    12
EASTERN EUROPE                         12
LATIN AMER. & CARIB                    45
NEAR EAST                              16
NORTHERN AFRICA                         6
NORTHERN AMERICA                        5
OCEANIA                                21
SUB-SAHARAN AFRICA                     51
WESTERN EUROPE                         28
Name: Country, dtype: int64
Region
ASIA (EX. NEAR EAST)                   3687982236
BALTICS                                   7184974
C.W. OF IND. STATES                     280081548
EASTERN EUROPE                          119914717
LATIN AMER. & CARIB                     561824599
NEAR EAST                               195068377
NORTHERN AFRICA                         161407133
NORTHERN AMERICA                        331672307
OCEANIA                                  33131662
SUB-SAHARAN AFRICA                      749437

Criando e aplicando métodos customizados no Pandas

In [None]:
#criando um metodo no python
def tenpercent(x):
    return x * 0.9

#pegando a taxa de mortalidade
taxa_mortalidade = df['Deathrate']

#aplicando a funcao customizada em uma series
taxa_mortalidade2 = df['Deathrate'].apply(tenpercent)

#juntando duas series
print(pd.concat([taxa_mortalidade, taxa_mortalidade2], axis = 1)) #axis = 1 = coluna e axis = 0 = linha


     Deathrate  Deathrate
0        20.34     18.306
1         5.22      4.698
2         4.61      4.149
3         3.27      2.943
4         6.25      5.625
..         ...        ...
222       3.92      3.528
223       0.00      0.000
224       8.30      7.470
225      19.93     17.937
226      21.84     19.656

[227 rows x 2 columns]
