# Análise de Dados 🕵🏽 🎲 em Alto Desempenho 🚀 🧞‍♂️

## Sumário da Aula

<ul>
    <li>Pandas 🐼</li>
    <ul>
        <li>Recapitulando Aspectos do Pandas 🐼</li>
        <li>DataFrame 📽️</li>
        <li>Descrição dos Dados ✍️ 🎲</li>
    </ul>
</ul>

## Pandas 🐼

### Biblioteca Principal 📚: pandas

<img src="https://pandas.pydata.org/docs/_static/pandas.svg" width="100" style="float: right;">

In [1]:
!pip install --upgrade pandas --quiet


[notice] A new release of pip is available: 23.2.1 -> 23.3
[notice] To update, run: python.exe -m pip install --upgrade pip


In [2]:
import pandas as pd

### Recapitulando Aspectos do Pandas 🐼

<ul>
    <li>Análise de Dados 🕵🏽 🎲 em Alto Desempenho 🚀 🧞‍♂️</li>
    <li>Frequentemente utilizado com bibliotecas:
        <ul>
            <li>de computação numérica, e.g. NumPy, SciPy;</li>
            <li>analíticas, e.g. como statsmodels e scikit-learn</li>
            <li>de visualização de dados, e.g. matplotlib e seaborn.</li>
        </ul>
    </li>
    <li>Adota o estilo idiomático de Computação Vetorizada 🧮 do NumPy, especialmente:
        <ul>
            <li>função baseada em vetores (<i>arrays</i>)</li>
            <li>preferência por processamento de dados sem laços <i>for</i></li>
        </ul>
    </li>
    <li>No entanto, há uma diferença significativa:
        <ul>
            <li>Pandas é desenhado para trabalhar com dados tabulares e heterogêneos; e</li>
            <li>NumPy é desenhado para trabalhar com dados numéricos homogêneos.</li>
        </ul>
    </li>
    <li>É maduro, aplicável em um vasto cenário de casos de usos reais e tem uma comunidade com mais de 2500 colaboradores</li>
</ul>

👉 Referência: <a href='https://pandas.pydata.org/'>pandas.pydata.org</a>

👉 Pandas <a href='https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf'>cheat sheet</a>

### DataFrame 📽️

<ul>
    <li>Objeto de <b>duas</b> dimensões equivalente ao <b>2D ndarray</b> do NumPy</li>
    <ul>
        <li>contém uma coleção de colunas ordenadas; onde</li>
        <ul>
            <li> cada coluna pode conter diferentes tipos de dados (numérico, string, booleano, entre outros)</li>
        </ul>
        <li>dois vetores (<i>arrays</i>) de rótulos chamados de índice de linha e índice de coluna</li>
    </ul>
</ul>

<img src="https://www.w3resource.com/w3r_images/pandas-series-image.svg" style="margin-left: auto; margin-right: auto;">

👉 Referência: <a href='https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html'>pandas.DataFrame</a>

<pre>Você pode criar um DataFrame a partir de um dicionário de listas...</pre>

In [3]:
data = {"state": ["Ohio", "Ohio", "Ohio", 
                  "Nevada", "Nevada", "Nevada"],
        "year": [2000, 2001, 2002, 2001, 2002, 2003],
        "pop": [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}

frame = pd.DataFrame(data)
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


<pre>... ou a partir de um dicionário de dicionários</pre>

👉 dica: as chaves externas serão os nomes das colunas e as chaves internas serão os nomes das linhas

In [4]:
pd.DataFrame({"Ohio": {2000: 1.5, 2001: 1.7, 2002: 3.6},
              "Nevada": {2001: 2.4, 2002: 2.9}})

Unnamed: 0,Ohio,Nevada
2000,1.5,
2001,1.7,2.4
2002,3.6,2.9


<pre>Você pode mostrar apenas as primeiras linhas (ou as últimas linhas) de um DataFrame</pre>

In [5]:
frame.head()

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


In [6]:
frame.tail()

Unnamed: 0,state,year,pop
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


<pre>Você pode ordenar as colunas de um DataFrame ao especificar a ordem/sequência desejada</pre>

In [7]:
frame = pd.DataFrame(data, columns=["year", "state", "pop"])
frame

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9
5,2003,Nevada,3.2


<pre>Você pode recuperar uma coluna do DataFrame como uma Serie</pre>

👉 dica: habitue-se a usar a notação entre colchetes <b>[ ]</b> porque a notação com ponto <b>.</b> não funciona para colunas com espaço

In [8]:
frame['state']

0      Ohio
1      Ohio
2      Ohio
3    Nevada
4    Nevada
5    Nevada
Name: state, dtype: object

In [9]:
frame.state

0      Ohio
1      Ohio
2      Ohio
3    Nevada
4    Nevada
5    Nevada
Name: state, dtype: object

<pre>Você pode recuperar uma linha do DataFrame como uma Serie</pre>

In [10]:
frame.loc[0]

year     2000
state    Ohio
pop       1.5
Name: 0, dtype: object

In [11]:
frame.iloc[0]

year     2000
state    Ohio
pop       1.5
Name: 0, dtype: object

<pre>Você pode inserir ou modificar uma coluna do DataFrame utilizando a operação de atribuição</pre>

👉 dica: ao atribuir valores a uma coluna que não existe, ela será automaticamente criada com os valores designados

In [12]:
frame['debt'] = 16.5
frame

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,16.5
1,2001,Ohio,1.7,16.5
2,2002,Ohio,3.6,16.5
3,2001,Nevada,2.4,16.5
4,2002,Nevada,2.9,16.5
5,2003,Nevada,3.2,16.5


In [13]:
frame["debt"] = range(6)
frame

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,0
1,2001,Ohio,1.7,1
2,2002,Ohio,3.6,2
3,2001,Nevada,2.4,3
4,2002,Nevada,2.9,4
5,2003,Nevada,3.2,5


<pre>Você pode excluir colunas da mesma forma que em um dicionário</pre>

In [14]:
keep_debt_safe = frame['debt']

In [15]:
del frame['debt']
frame

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9
5,2003,Nevada,3.2


In [16]:
frame['debt'] = keep_debt_safe

<pre>Você pode transpor um DataFrame (trocar linhas por colunas e vice-versa)</pre>

👉 dica: ao transpor, você pode perder a informação do tipo de dados da coluna; portanto, cuidado.

In [17]:
frame.T

Unnamed: 0,0,1,2,3,4,5
year,2000,2001,2002,2001,2002,2003
state,Ohio,Ohio,Ohio,Nevada,Nevada,Nevada
pop,1.5,1.7,3.6,2.4,2.9,3.2
debt,0,1,2,3,4,5


<pre>Você pode acessar os valores do DataFrame por meio do atribute <i>values</i></pre>

👉 dica: curiosamente (ou não) os valores vem em um objeto <b>2D ndarray</b> do NumPy

In [18]:
frame.values

array([[2000, 'Ohio', 1.5, 0],
       [2001, 'Ohio', 1.7, 1],
       [2002, 'Ohio', 3.6, 2],
       [2001, 'Nevada', 2.4, 3],
       [2002, 'Nevada', 2.9, 4],
       [2003, 'Nevada', 3.2, 5]], dtype=object)

In [19]:
type(frame.values)

numpy.ndarray

<pre>Você pode remover uma linha ou uma coluna do DataFrame </pre>

In [20]:
frame = frame.drop(index=[0, 5])
frame

Unnamed: 0,year,state,pop,debt
1,2001,Ohio,1.7,1
2,2002,Ohio,3.6,2
3,2001,Nevada,2.4,3
4,2002,Nevada,2.9,4


In [21]:
frame = frame.drop(columns=['debt'])
frame

Unnamed: 0,year,state,pop
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9


<pre>Você pode atribuir nomes aos índices e às colunas</pre>

In [22]:
frame = frame.rename(columns={'year': 'ano', 'state': 'estado'}, 
                     index={0: 'zero', 1: 'um', 2: 'dois', 
                            3: 'três', 4: 'quatro'})
frame

Unnamed: 0,ano,estado,pop
um,2001,Ohio,1.7
dois,2002,Ohio,3.6
três,2001,Nevada,2.4
quatro,2002,Nevada,2.9


### Descrição dos Dados ✍️ 🎲

<ul>
    <li>Objetos pandas vêm com um conjunto de métodos matemáticos e estatísticos comuns</li>
    <li>Os métodos do pandas podem tratar nativamente dados <i>NA</i><br />(diferentemente dos mesmos métodos encontrados em NumPy)</li>
</ul>

In [23]:
from numpy import nan
df = pd.DataFrame([[1.4, nan], [7.1, -4.5], 
                   [nan, nan], [0.75, -1.3]], \
                  index=["a", "b", "c", "d"], \
                  columns=["one", "two"])
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


<pre>Você pode obter a soma dos valores das colunas...</pre>

<ul>
    <li>quando a coluna inteira contém apenas valores <i>NA</i>, a soma é <b>zero</b>; </li>
    <li>nos demais casos, o(s) valor(es) <i>NA</i> é(são) descartado(s) para fins de soma.</li>
</ul>

👉 dica: com o parâmetro <i>skipna=False</i>, na presença de ao menos um valor ausente/indisponível, o resultado da soma é ausente/indisponível.

In [24]:
df.sum(axis='index')

one    9.25
two   -5.80
dtype: float64

In [25]:
df.sum(axis='index', skipna=False)

one   NaN
two   NaN
dtype: float64

<pre>... bem como obter a soma dos valores das linhas</pre>

<ul>
    <li>quando a linha inteira contém apenas valores <i>NA</i>, a soma é <b>zero</b>; </li>
    <li>nos demais casos, o(s) valor(es) <i>NA</i> é(são) descartado(s) para fins de soma.</li>
</ul>

👉 dica: com o parâmetro <i>skipna=False</i>, na presença de ao menos um valor ausente/indisponível, o resultado da soma é ausente/indisponível.

In [26]:
df.sum(axis="columns")

a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64

In [27]:
df.sum(axis="columns", skipna=False)

a     NaN
b    2.60
c     NaN
d   -0.55
dtype: float64

<pre>Você pode obter a média aritmética dos valores das colunas (e linhas)</pre>

<ul>
    <li>quando a coluna (ou linha) inteira contém apenas valores <i>NA</i>, a média é <b>ausente/indisponível</b>; </li>
    <li>nos demais casos, o(s) valor(es) <i>NA</i> é(são) descartado(s) para fins de média.</li>
</ul>

👉 dica: lembre-se que os métodos do pandas podem tratar nativamente dados <i>NA</i> com o <i>skipna</i>

In [28]:
df.mean(axis="index")

one    3.083333
two   -2.900000
dtype: float64

In [29]:
df.mean(axis="columns")

a    1.400
b    1.300
c      NaN
d   -0.275
dtype: float64

<pre>Você pode usar métodos de estatística indireta, e.g. obter o índice com menor (resp. maior) valor</pre>

In [30]:
df.idxmin(axis='index')

one    d
two    b
dtype: object

In [31]:
df.idxmax(axis='index')

one    b
two    d
dtype: object

<pre>Você pode calcular valores acumulados</pre>

In [32]:
df.cumsum(axis='index')

Unnamed: 0,one,two
a,1.4,
b,8.5,-4.5
c,,
d,9.25,-5.8


<pre>Você pode produzir um resumo estatístico dos seus dados</pre>

👉 dica: aqui não temos o parâmetro <i>axis</i>, então use a transposta para produzir o resumo estatístico das linhas

In [33]:
df.describe()

Unnamed: 0,one,two
count,3.0,2.0
mean,3.083333,-2.9
std,3.493685,2.262742
min,0.75,-4.5
25%,1.075,-3.7
50%,1.4,-2.9
75%,4.25,-2.1
max,7.1,-1.3


In [34]:
df.T.describe()

Unnamed: 0,a,b,c,d
count,1.0,2.0,0.0,2.0
mean,1.4,1.3,,-0.275
std,,8.202439,,1.449569
min,1.4,-4.5,,-1.3
25%,1.4,-1.6,,-0.7875
50%,1.4,1.3,,-0.275
75%,1.4,4.2,,0.2375
max,1.4,7.1,,0.75


<pre>🍒 🎂 Você pode produzir um resumo estatístico dos seus dados (mesmo quando não são numéricos!)</pre>

In [35]:
df = pd.Series(["a", "a", "b", "c"] * 4)
df

0     a
1     a
2     b
3     c
4     a
5     a
6     b
7     c
8     a
9     a
10    b
11    c
12    a
13    a
14    b
15    c
dtype: object

In [36]:
df.describe()

count     16
unique     3
top        a
freq       8
dtype: object

#### Quadro-resumo dos métodos de descrição dos dados

<table>
    <tr><th>Método</th><th>Descrição</th></tr>
    <tr><td>count</td><td>Número de valores presentes e disponíveis</td></tr>
    <tr><td>describe</td><td>Resumo estatístico dos dados</td></tr>
    <tr><td>min, max</td><td>Calcula os valores mínimo e máximo</td></tr>
    <tr><td>argmin, argmax</td><td>Computa localizações de índice (inteiros) em que o valor mínimo ou máximo é obtido, respectivamente</td></tr>
    <tr><td>not</td><td>disponível em objetos DataFrame</td></tr>
    <tr><td>idxmin, idxmax</td><td>Computa rótulos de índice nos quais o valor mínimo ou máximo é obtido, respectivamente</td></tr>
    <tr><td>quantile</td><td>Calcula o quantil da amostra variando de 0 a 1 (padrão: 0,5)</td></tr>
    <tr><td>sum</td><td>Soma dos valores</td></tr>
    <tr><td>mean</td><td>Média aritmética dos valores</td></tr>
    <tr><td>median</td><td>Mediana aritmética (quantil de 50%) dos valores</td></tr>
    <tr><td>mad</td><td>Desvio absoluto médio do valor médio</td></tr>
    <tr><td>prod</td><td>Produto de todos os valores</td></tr>
    <tr><td>var</td><td>Variância dos valores</td></tr>
    <tr><td>std</td><td>Desvio padrão dos valores</td></tr>
    <tr><td>skew</td><td>Assimetria (terceiro momento) dos valores</td></tr>
    <tr><td>kurt</td><td>Curtose (quarto momento) dos valores</td></tr>
    <tr><td>cumsum</td><td>Soma cumulativa de valores</td></tr>
    <tr><td>cummin, cummax</td><td>Mínimo e máximo cumulativo de valores, respectivamente</td></tr>
    <tr><td>cumprod</td><td>Produto cumulativo de valores</td></tr>
    <tr><td>diff</td><td>Calcula a primeira diferença aritmética (útil para séries temporais)</td></tr>
    <tr><td>pct_change</td><td>Calcula as alterações percentuais</td></tr>
</table>

<font size=7><center><code>Executem todo este caderno...</code></center></font>

<font size=7><center><code>... bem como o caderno Juntando as Peças</code></center></font>