![image.png](attachment:image.png)

Pandas é uma biblioteca opensource que oferece uma ferramenta de fácil uso e de alta performance para estruturar e analisar os dados em Python. A vantagem de estruturar os dados no Pandas é que, diferente do Array 2D do Numpy, ele pode armazenar dados de diferentes tipos.

Para importar o Pandas, basta executar o seguinte comando:

In [2]:
import pandas as pd
import numpy as np

## Series e DataFrame

O Series e o DataFrame são as duas principais estruturas de dados do Pandas. O Series é basicamente uma lista que contem os valores de uma coluna, enquanto o DataFrame é constituído por múltiplos Series e representa os dados na forma tabulada. O DataFrame ainda permite que as linhas e as colunas sejam rotuladas.

![image.png](attachment:image.png)

### Criando um Series

In [3]:
name = ["hidrogen", "carbon", "nitrogen", "oxigen", "phosphorus", "sulfur"]
atomicNumber = [1, 6, 7, 8, 15, 16]

name_series = pd.Series(name)
atomic_series = pd.Series(atomicNumber)

print(name_series)
print()
print(atomic_series)

0      hidrogen
1        carbon
2      nitrogen
3        oxigen
4    phosphorus
5        sulfur
dtype: object

0     1
1     6
2     7
3     8
4    15
5    16
dtype: int64


### Criando um DataFrame

Existem várias formas de você criar um Dataframe. Uma delas é fornecendo ao Pandas um dicionário em que as chaves correspondem ao nome da coluna e os valores uma lista onde cada elemento corresponde a um valor das linhas que compõem os dados.

In [4]:
data = {"name":name_series,"atomicN":atomic_series}
dataF = pd.DataFrame(data)
print(dataF)
dataF

         name  atomicN
0    hidrogen        1
1      carbon        6
2    nitrogen        7
3      oxigen        8
4  phosphorus       15
5      sulfur       16


Unnamed: 0,name,atomicN
0,hidrogen,1
1,carbon,6
2,nitrogen,7
3,oxigen,8
4,phosphorus,15
5,sulfur,16


In [5]:
name = ["hidrogen", "carbon", "nitrogen", "oxigen", "phosphorus", "sulfur"]
atomicNumber = [1, 6, 7, 8, 15, 16]
mass = [1.008, 12.011, 14.007, 15.999, 30.974, 32.065]

data = {}
data["name"] = name
data['atomicN'] = atomicNumber
data['mass'] = mass

dataF = pd.DataFrame(data)

print(dataF)

         name  atomicN    mass
0    hidrogen        1   1.008
1      carbon        6  12.011
2    nitrogen        7  14.007
3      oxigen        8  15.999
4  phosphorus       15  30.974
5      sulfur       16  32.065


### Adicionando rótulos às linhas

Quando executamos a função <b>pd.DataFrame()</b>, veja que os rótulos das colunas correspondem às chaves e o rótulo das linhas correspondem aos inteiros de 0 a 6. Se você quiser colocar um outro rótulo, basta atribuir ao parâmetro <b>.index</b> do dataframe uma lista contendo os rótulos para cada linha como a seguir:

In [None]:
symbol = ["H", "C", "N", "O", "P", "S"]
dataF.index = symbol
print(dataF)

In [None]:
for i in dataF.index:
    print(i)

### Acessando os dados em uma DataFrame

O Pandas fornece várias formas de acessar os dados em uma DataFrame. A mais simples delas é utilizando os colchotes, como a seguir.

In [None]:
# acessando os valores de uma coluna na forma de series:
print(dataF["mass"])

# acessando os valores de uma coluna na forma de dataframe:
print(dataF[["atomicN"]])

In [1]:
# acessando os valores de duas colunas na forma de dataframe:
print(dataF[["mass", "atomicN"]])

NameError: name 'dataF' is not defined

In [None]:
# acessando os valores das linhas três primeiras linhas (utilizando o slice):
print(dataF[0:3])

In [None]:
# Obs.:
# Series de uma tabela pode ser acessada desta forma também:
print(dataF.mass)

Além dos colchetes, o Pandas oferece duas outras funções que podem facilitar o acesso aos dados. Estes são o <b>loc()</b> e o <b>iloc()</b>. Veja como cada um funciona abaixo: 

In [None]:
# acessando os valores da linha com os dados de hidrogênio utilizando o loc (na forma de series):
print(dataF.loc["H"])

print()

# acessando os valores da linha com os dados de hidrogênio utilizando o loc (na forma de dataframe):
print(dataF.loc[["H"]])

In [None]:
# acessando os valores da linha com os dados de hidrogênio utilizando o iloc (na forma de series):
print(dataF.iloc[0])

print()

# acessando os valores da linha com os dados de hidrogênio utilizando o iloc (na forma de dataframe):
print(dataF.iloc[[0]])

In [None]:
# acessando mais de uma linha utilizando o loc:
print(dataF.loc[["C","H"]])

print()

# acessando mais de uma linha utilizando o iloc:
print(dataF.iloc[[1,0]])

In [6]:
author = ['Jitender', 'Purnima', 'Arpit', 'Jyoti'] 
article = [210, 211, 114, 178] 
  
auth_series = pd.Series(author) 
article_series = pd.Series(article) 
  
frame = { 'Author': auth_series, 'Article': article_series } 
  
result = pd.DataFrame(frame) 
age = [21, 21, 24] 

age_series = pd.Series(age)
age_series.index = ["H","C","O"]
dataF["Age"] = age_series

result['Age'] = pd.Series(age) 
  
print(dataF)

         name  atomicN    mass  Age
0    hidrogen        1   1.008  NaN
1      carbon        6  12.011  NaN
2    nitrogen        7  14.007  NaN
3      oxigen        8  15.999  NaN
4  phosphorus       15  30.974  NaN
5      sulfur       16  32.065  NaN


### Exercício

Tome como base a tabela abaixo para construir um dataframe contendo os dados das notas das quatro primeiras marcas de notebook em relação ao "Review", "Tech Support", "Design" e "Innovation". Utilize os nomes das marcas como rótulo das linhas.

![image.png](attachment:image.png)

## Carregando um arquivo CSV no Pandas

O Pandas possui uma função chamada <b>pd.read_csv</b> que carrega um arquivo CSV e o coloca em uma estrutura de DataFrame. Segue um link contendo a documentação desta função: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html

Segue abaixo um exemplo de como carregar um arquivo CSV pelo Pandas:

In [None]:
teste = pd.read_csv('teste.csv')
teste

Nesta tabela, a primeira coluna é um identificador único de cada linha e podemos utilizá-lo para rotular as linhas. Para que o Pandas considere isso, acrescente o parâmetro index_col indicando a coluna a considerar como index.

In [None]:
teste = pd.read_csv('teste.csv', index_col = 0)
teste

### Exercício

Carregue o arquivo <b>data.csv</b> utilizando o pd.read_csv(). Perceba duas coisas nestes dados:

- A segunda coluna do arquivo, o separador de milhares é um espaço. Caso o arquivo seja carregado desta forma, os valores desta coluna é considerada uma string. Veja na documentação do pd.read_csv() para ele considerar que o separador de milhares é um espaço.

- A segunda linha do arquivo é um cabeçalho e não uma observação. Veja na documentação como fazer para que o pd.read_csv() pule esta linha.

In [None]:
data = pd.read_csv('data.csv',
                  # complete aqui o seu código)
data

### Algumas funções úteis no Pandas:

Mais funções pode ser encontrado neste Cheat Sheet: http://pandas.pydata.org/Pandas_Cheat_Sheet.pdf

In [None]:
# Mostrar as 5 primeiras linhas:
data.head()

In [None]:
# Mostrar as 5 últimas linhas
data.tail()

In [None]:
# Mostrar dez linhas aleatórias
data.sample(n = 10)

In [None]:
# Retirar as linhas que possuem dados faltantes
data = data.dropna()
data

In [None]:
# Mostrar 5% de linhas aleatórias
data.sample(frac=0.05)

In [None]:
# Filtrar dados que satisfaça uma condição:
data[data["Population (in thousands) total"] > 1000000]

In [None]:
# Troca do nome das colunas:
data.columns = ['country', 'popT', 'pop15', 'pop60', 'fert']
data.head()

In [None]:
# Dados populacionais do Brasil:
data[data["country"] == "Brazil"]

In [None]:
# População maior que 100 milhões:
data[data["popT"] > 100000]

In [None]:
# Consulta em cadeia em uma tabela Pandas:
# População maior que 100 milhões e com a taxa de fertilidade maior que 3:
data[data["popT"] > 100000][data["fert"] > 3]

In [None]:
# funções matemáticos:

# soma:
print("soma: %d" % data['popT'].sum())

# contagem:
print("contagem: %d" % data['popT'].count())

# média
print("média: %f" % data['popT'].mean())

# mediana
print("mediana: %f" % data['popT'].median())

# min
print("mínimo: %d" % data['popT'].min())

# max
print("máximo: %d" % data['popT'].max())

# quartil
print(data['popT'].quantile([0.25,0.5,0.75]))

# variância
print("variância: %f" % data['popT'].var())

# desvio padrão
print("desvio padrão: %f" % data['popT'].std())

### Tidy Data

*Tidy Data* (tabela organizada) é uma tabela que está organizada da seguinte forma:

- Cada coluna representa uma variável;
- Cada linha representa uma observação;
- Cada tipo de unidade observacional forma uma tabela.

Tabelas que está fora desses padrões são consideradas *messy data* (dados bagunçados) e pode dificultar na hora de analisar os dados.

A tabela a seguir representa uma *messy data*:

|name	| Treatment A	| Treatment B
|----|---------------|-------------
|John Smith	| -	| 2
|Jane Doe	| 16| 	11
|Mary Johnson | 	3| 	1

O problema da tabela acima é que as colunas na verdade representam valores de uma variável (treatment).

Uma versão organizada desta tabela seria:

|Name|	Treatment|	Result
|----|-----------|-------
|John Smith|	a|	-
|Jane Doe|	a|	16
Mary Johnson|	a|	3
John Smith|	b|	2
Jane Doe|	b|	11
Mary Johnson|	b|	1

Pandas oferece vários recursos para tornar a sua tabela *tidy*:

![image.png](attachment:image.png)

In [None]:
data = {"name": ["John Smith", "Jane Doe", "Mary Johnson"],
        "Treatment A": ["-", 16, 3], 
        "Treatment B": [2,11,1]}

dataF = pd.DataFrame(data)
dataF

In [None]:
dataF2 = pd.melt(dataF,                 # Data frame 
                 ["name"],              # Coluna a ser preservado
                 var_name = "Treatment",# Nome da nova variável que está sendo juntado
                 value_name = "count")  # Nome da coluna com os valores
dataF2

### Exemplo 1

In [None]:
df = pd.read_csv("pew-raw.csv")
df

In [None]:
formatted_df = pd.melt(df,
                       ["religion"],
                       var_name="income",
                       value_name="freq")
formatted_df = formatted_df.sort_values(by=["religion"])
formatted_df.head(10)

### Exemplo 2

In [None]:
df = pd.read_csv("billboard.csv", encoding="mac_latin2", )
df.head(10)

In [None]:
# Melting
id_vars = ["year",
           "artist.inverted",
           "track",
           "time",
           "genre",
           "date.entered",
           "date.peaked"]

df = pd.melt(df,id_vars, var_name="week", value_name="rank")
df.head(10)

In [None]:
# Cleaning out unnecessary rows
df = df.dropna()
df

In [None]:
# Formatting 
df["week"] = df['week'].str.extract('(\d+)', expand=False).astype(int)
df["rank"] = df["rank"].astype(int)
df

In [None]:
df = df.sort_values(ascending=True, by=["year","artist.inverted","track","week","rank"])

# Assigning the tidy dataset to a variable for future usage
billboard = df

df.head(10)

In [None]:
songs_cols = ["year", "artist.inverted", "track", "time", "genre"]
songs = billboard[songs_cols].drop_duplicates()
songs = songs.reset_index(drop=True)
songs["song_id"] = songs.index
songs.head(10)

In [None]:
ranks = pd.merge(billboard, songs, on=["year","artist.inverted", "track", "time", "genre"])
ranks = ranks[["song_id", "date.entered", "date.peaked", "rank"]]
ranks.head(10)

   ### Exercício
   
   Explore as funções que o Pandas te oferece para organizar os dados e tente tornar a tabela abaixo *tidy*.
   
   Para isso, crie uma *dataframe* com as seguintes colunas:
   
   - id
   - year
   - month
   - day (d1, d2, d3, ..., d8)
   - tmax
   - tmin

In [None]:
df = pd.read_csv("weather-raw.csv")
df

In [None]:
len(df["id"])

## Referência:

https://www.jeannicholashould.com/tidy-data-in-python.html

https://github.com/nickhould/tidy-data-python