# Pandas

Análise e Exploração de Dados

In [1]:
import pandas as pd

## Series

In [4]:
s1 = pd.Series([1,2,3,4,5], index=['a', 'b', 'c', 'd', 'e'])
print(s1)
s2 = pd.Series([1,2,3,4,5])
print(s2)

a    1
b    2
c    3
d    4
e    5
dtype: int64
0    1
1    2
2    3
3    4
4    5
dtype: int64


In [6]:
print(s1.values, '|', s2.values)
print(s1.index, '|', s2.index)

[1 2 3 4 5] | [1 2 3 4 5]
Index(['a', 'b', 'c', 'd', 'e'], dtype='object') | RangeIndex(start=0, stop=5, step=1)


In [26]:
notas = pd.Series([3,6,8,3,4], index=['Harry', 'Abble', 'Julia', 'Manfred', 'Carrio'])
print(type(notas))

<class 'pandas.core.series.Series'>


In [10]:
print(notas)
print("Média:", notas.mean())
print("Média:", notas.std())

Harry      3
Abble      6
Julia      8
Manfred    3
Carrio     4
dtype: int64
Média: 4.8
Média: 2.16794833886788


## Dataframes

In [11]:
data = {
    'Pais': [ 'Belgica', 'India', 'Brasil' ],
    'Capital': [ 'Bruxelas', 'Nova Delhi', 'Brasilia' ],
    'Populacao': [ 4332423, 213232312, 4534 ],
    'Classificacao': [1, 3, 3]
}
df = pd.DataFrame(data)

In [23]:
print(df.head(2))
print(df.tail(2))
print(df.columns)

      Pais     Capital  Populacao  Classificacao
0  Belgica    Bruxelas    4332423              1
1    India  Nova Delhi  213232312              3
     Pais     Capital  Populacao  Classificacao
1   India  Nova Delhi  213232312              3
2  Brasil    Brasilia       4534              3
Index(['Pais', 'Capital', 'Populacao', 'Classificacao'], dtype='object')


Unnamed: 0,Pais,Capital,Populacao,Classificacao
0,Belgica,Bruxelas,4332423,1
1,India,Nova Delhi,213232312,3
2,Brasil,Brasilia,4534,3


## Informações Básicas

In [37]:
print('Tipo de Dataframe', type(df))
print('Tipo de Serie Pais', type(df.Pais))
print('Tipo de Pais', df.Pais.dtype)
print('Tipo de Capital', df.Capital.dtype)
print('Tipo de Populacao', df.Populacao.dtype)
print('Tipo de Classificacao', df.Classificacao.dtype)

Tipo de Dataframe <class 'pandas.core.frame.DataFrame'>
Tipo de Serie Pais <class 'pandas.core.series.Series'>
Tipo de Pais string
Tipo de Capital string
Tipo de Populacao int64
Tipo de Classificacao int64


In [36]:
df['Pais'] = df['Pais'].astype('string')
df['Capital'] = df['Capital'].astype('string')

In [40]:
print('Lin/Cols', df.shape)
print('Indice:', df.index)
print('Series:', df.columns)

Lin/Cols (3, 4)
Indice: RangeIndex(start=0, stop=3, step=1)
Series: Index(['Pais', 'Capital', 'Populacao', 'Classificacao'], dtype='object')


In [50]:
# Filtro
print(df.loc[df.Populacao > 50000])

      Pais     Capital  Populacao  Classificacao
0  Belgica    Bruxelas    4332423              1
1    India  Nova Delhi  213232312              3


In [49]:
# Ordenacao
print(df.sort_values(by='Populacao', ascending=False))

      Pais     Capital  Populacao  Classificacao
1    India  Nova Delhi  213232312              3
0  Belgica    Bruxelas    4332423              1
2   Brasil    Brasilia       4534              3


In [51]:
print(df.loc[df.Populacao > 50000].sort_values(by='Populacao', ascending=False))

      Pais     Capital  Populacao  Classificacao
1    India  Nova Delhi  213232312              3
0  Belgica    Bruxelas    4332423              1


In [52]:
print(df.count())

Pais             3
Capital          3
Populacao        3
Classificacao    3
dtype: int64


In [53]:
df.count()['Classificacao']

3

In [54]:
print(df.value_counts(df['Classificacao']))

Classificacao
3    2
1    1
dtype: int64


In [62]:
print("Funções de Descobertas")
print('Media',df.mean())
print('Desvio', df.std())
print('Mediana', df.median())
print('Máx',df.max())
print('Mín',df.min())
print('Somatorio',df.sum())

Funções de Descobertas
Media Populacao        7.252309e+07
Classificacao    2.333333e+00
dtype: float64
Desvio Populacao        1.218770e+08
Classificacao    1.154701e+00
dtype: float64
Mediana Populacao        4332423.0
Classificacao          3.0
dtype: float64
Máx Pais                  India
Capital          Nova Delhi
Populacao         213232312
Classificacao             3
dtype: object
Mín Pais              Belgica
Capital          Brasilia
Populacao            4534
Classificacao           1
dtype: object
Somatorio Populacao        217569269
Classificacao            7
dtype: int64


  
  This is separate from the ipykernel package so we can avoid doing imports until
  after removing the cwd from sys.path.
  import sys


In [66]:
print(df.describe())

          Populacao  Classificacao
count  3.000000e+00       3.000000
mean   7.252309e+07       2.333333
std    1.218770e+08       1.154701
min    4.534000e+03       1.000000
25%    2.168478e+06       2.000000
50%    4.332423e+06       3.000000
75%    1.087824e+08       3.000000
max    2.132323e+08       3.000000


In [67]:
print(df['Populacao'].describe())

count    3.000000e+00
mean     7.252309e+07
std      1.218770e+08
min      4.534000e+03
25%      2.168478e+06
50%      4.332423e+06
75%      1.087824e+08
max      2.132323e+08
Name: Populacao, dtype: float64


In [72]:
print(df['Populacao'].describe()['25%'])

2168478.5


## Modificações no DF

In [91]:
df['IDH'] = None
df['IDH'] = pd.DataFrame({'IDH': [ True ]})
df

Unnamed: 0,Pais,Capital,Populacao,Classificacao,IDH
0,Belgica,Bruxelas,4332423,1,True
1,India,Nova Delhi,213232312,3,
2,Brasil,Brasilia,4534,3,


In [86]:
df['IDH'].dtypes

dtype('O')

In [88]:
df['IDH'] = df.IDH.fillna('n/a')
df

Unnamed: 0,Pais,Capital,Populacao,Classificacao,IDH
0,Belgica,Bruxelas,4332423,1,True
1,India,Nova Delhi,213232312,3,
2,Brasil,Brasilia,4534,3,


In [89]:
df = df.drop('IDH', axis=1)
df

Unnamed: 0,Pais,Capital,Populacao,Classificacao
0,Belgica,Bruxelas,4332423,1
1,India,Nova Delhi,213232312,3
2,Brasil,Brasilia,4534,3


In [90]:
# df = df.drop(1, axis=0)

In [95]:
df = df.dropna(axis=1)
df

Unnamed: 0,Pais,Capital,Populacao,Classificacao
0,Belgica,Bruxelas,4332423,1
1,India,Nova Delhi,213232312,3
2,Brasil,Brasilia,4534,3
