# Análise de Dados 🕵🏽 🎲 em Alto Desempenho 🚀 🧞‍♂️

## Sumário da Aula

<ul>
    <li>Pandas 🐼</li>
    <ul>
        <li>Aspectos do Pandas 🐼</li>
        <li>Series 🎞️</li>
    </ul>
</ul>

## Pandas 🐼

### Biblioteca Principal 📚: pandas

<img src="https://pandas.pydata.org/docs/_static/pandas.svg" width="100" style="float: right;">

In [1]:
!pip install --upgrade pandas --quiet


[notice] A new release of pip is available: 23.2.1 -> 23.3
[notice] To update, run: python.exe -m pip install --upgrade pip


In [2]:
import pandas as pd

### Aspectos do Pandas 🐼

<ul>
    <li>Análise de Dados 🕵🏽 🎲 em Alto Desempenho 🚀 🧞‍♂️</li>
    <li>Frequentemente utilizado com bibliotecas:
        <ul>
            <li>de computação numérica, e.g. NumPy, SciPy;</li>
            <li>analíticas, e.g. como statsmodels e scikit-learn</li>
            <li>de visualização de dados, e.g. matplotlib e seaborn.</li>
        </ul>
    </li>
    <li>Adota o estilo idiomático de Computação Vetorizada 🧮 do NumPy, especialmente:
        <ul>
            <li>função baseada em vetores (<i>arrays</i>)</li>
            <li>preferência por processamento de dados sem laços <i>for</i></li>
        </ul>
    </li>
    <li>No entanto, há uma diferença significativa:
        <ul>
            <li>Pandas é desenhado para trabalhar com dados tabulares e heterogêneos; e</li>
            <li>NumPy é desenhado para trabalhar com dados numéricos homogêneos.</li>
        </ul>
    </li>
    <li>É maduro, aplicável em um vasto cenário de casos de usos reais e tem uma comunidade com mais de 2500 colaboradores</li>
</ul>

<img src="https://www.w3resource.com/w3r_images/pandas-series-image.svg" style="margin-left: auto; margin-right: auto;">

👉 Referência: <a href='https://pandas.pydata.org/'>pandas.pydata.org</a>

👉 Pandas <a href='https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf'>cheat sheet</a>

### Series 🎞️

<ul>
    <li>Objeto de <b>uma</b> dimensão (semelhante ao vetor - <i>array</i>) e equivalente ao <b>1D ndarray</b> do NumPy</li>
    <ul>
        <li>contém uma sequência de valores; e</li>
        <li>um vetor (<i>array</i>) de rótulos chamado de índice (<i>index</i>)</li>
    </ul>
</ul>

👉 Referência: <a href='https://pandas.pydata.org/docs/reference/api/pandas.Series.html'>pandas.Series</a>

<pre>Você pode criar uma Series com a sequência de valores -- <u>sem</u> o vetor (<i>array</i>) de índices</pre>

In [3]:
# Exemplo: Uma série com o PIB de países
# (Pib per capta - anual em dólares)

pd.Series([6797, 63123, 8476])

0     6797
1    63123
2     8476
dtype: int64

<pre>... ou com a sequência de valores -- e <u>com</u> o vetor (<i>array</i>) de índices -- com listas</pre>

In [4]:
# Quero inserir o indice para as linhas 
# (para saber qual país possui qual PIB_pc)
pd.Series(data=[6797, 63123, 8476], 
          index=['Brasil', 'EUA', 'Argentina'])

Brasil        6797
EUA          63123
Argentina     8476
dtype: int64

<pre>... ou com a sequência de valores -- e <u>com</u> o vetor (<i>array</i>) de índices -- como dicionário...</pre>

In [5]:
pd.Series({'Brasil': 6797, 'EUA': 63123, 'Argentina': 8476})


Brasil        6797
EUA          63123
Argentina     8476
dtype: int64

<pre>... e ainda especificar separadamente o vetor (<i>array</i>) de índices</pre>

👉 dica: o vetor (<i>array</i>) de índices especificado separadamente pode ser diferente dos índices do dicionário !

In [6]:
pd.Series({'Brasil': 6797, 'EUA': 63123, 'Argentina': 8476}, 
          index=['Brasil', 'EUA', 'Canada', 'Argentina'])

Brasil        6797.0
EUA          63123.0
Canada           NaN
Argentina     8476.0
dtype: float64

<pre>Você pode utilizar o índice para acessar o valor</pre>

👉  dica: usar em contextos onde um dicionário seria utilizado

In [7]:
pibpc = pd.Series({'Brasil': 6797, 'EUA': 63123, 'Argentina': 8476})


In [8]:
pibpc['Brasil']

6797

In [9]:
pibpc['Argentina'] = 8000
pibpc['Argentina']

8000

In [10]:
pibpc[['Argentina', 'EUA']]

Argentina     8000
EUA          63123
dtype: int64

<pre>Você pode verificar se um elemento pertence ao <b>índice</b> de uma Serie com a palavra reservada <b>in</b></pre>

In [11]:
'Brasil' in pibpc

True

In [12]:
'Uruguai' in pibpc

False

<pre>Você pode utilizar as operações do NumPy em uma Series</pre>

(exemplo 1) filtro com um vetor de booleanos

In [13]:
pibpc[pibpc > 7000]

EUA          63123
Argentina     8000
dtype: int64

(exemplo 2) operacão com escalar

In [14]:
# pib pc em milhares
pibpc/1000

Brasil        6.797
EUA          63.123
Argentina     8.000
dtype: float64

(exemplo 3) função matemática

In [15]:
pibpc.sum()

77920

<pre>Você pode verificar quais valores são ausentes/indisponíveis (<i>NA</i>) e quais não são em uma Series</pre>

In [16]:
s2 = pd.Series({"Ohio": 35000, "Texas": 71000, 
                "Oregon": 16000, "Utah": 5000}, 
               index=["California", "Ohio", "Oregon", "Texas"])
s2

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [17]:
pd.isna(s2)

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [18]:
pd.notna(s2)

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

In [19]:
s2.isna()

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

<pre>Você pode automaticamente alinhar os valores correspondentes ao mesmo índice por meio da operação de soma</pre>

In [20]:
s3 = pd.Series({"Ohio": 35000, "Texas": 71000, "Oregon": 16000, 
                "Utah": 5000})

In [21]:
s2

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [22]:
s3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [23]:
s2 + s3

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64

<pre>Você pode atribuir nomes aos índices, à Serie e aos elementos do índice</pre>

In [24]:
s2

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [25]:
s2.name = 'population'
s2.index = ['California', 'Ohio', 'Oregon', 'Texas']
s2.index.name = 'state'
s2

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

<pre>Você pode remover uma entrada da Serie</pre>

In [26]:
s2 = s2.drop('California')
s2

state
Ohio      35000.0
Oregon    16000.0
Texas     71000.0
Name: population, dtype: float64