# Pandas básico

O Pandas é uma biblioteca de software livre para a linguagem de programação Python, utilizada principalmente para manipulação e análise de dados. Ele fornece uma estrutura de dados flexível e de alto desempenho, chamada DataFrame, que é capaz de lidar com grandes conjuntos de dados e realizar operações comuns de análise de dados, como limpeza, filtragem, agrupamento, agregação, transformação e visualização.

Além disso, o Pandas oferece outras estruturas de dados, como Series (usadas para representar arrays unidimensionais) e Panel (usadas para representar arrays multidimensionais). Essas estruturas são altamente eficientes e fornecem várias funções para lidar com dados faltantes, indexação e seleção de dados, manipulação de datas e tempo, e muito mais.

O Pandas é amplamente utilizado em áreas como finanças, ciência de dados, economia, estatística e muitas outras. Sua facilidade de uso e flexibilidade o tornam uma ferramenta poderosa para a análise de dados em Python.

## Estruturas de Dados

Em Pandas, a principal estrutura de dados é o DataFrame. O **DataFrame** é uma estrutura de dados bidimensional semelhante a uma tabela, onde os dados são organizados em linhas e colunas. Cada coluna do DataFrame representa uma variável, enquanto cada linha representa uma observação.

Outra estrutura de dados importante em Pandas é a Series, que é uma estrutura de dados unidimensional que representa um array rotulado capaz de armazenar qualquer tipo de dados (números, strings, objetos Python, etc.). As Series são usadas para representar uma única coluna do DataFrame.

Além disso, o Pandas também oferece a estrutura de dados Panel, que é uma estrutura de dados tridimensional capaz de armazenar dados em painéis (ou cubos) que podem ser facilmente fatiados, indexados e transpostos.

Existem também outras estruturas de dados menos comuns em Pandas, como a Categorical, que é usada para armazenar dados categóricos (por exemplo, cores, categorias, etc.) e o Index, que é usado para armazenar rótulos de linhas e colunas em um DataFrame.

Essas estruturas de dados em Pandas são altamente eficientes e fornecem muitas funcionalidades para lidar com dados faltantes, indexação e seleção de dados, manipulação de datas e tempo, agregação e visualização de dados, entre outras.

## Series em pandas

Uma Series em Pandas é uma estrutura de dados unidimensional que representa um array rotulado capaz de armazenar qualquer tipo de dados (números, strings, objetos Python, etc.).

Uma Series é composta por dois arrays: o primeiro é o array de dados e o segundo é o array de rótulos, que é chamado de índice. O índice é responsável por rotular os dados na Series, permitindo um acesso fácil e rápido aos dados.

As Series são frequentemente usadas para representar uma única coluna do DataFrame, mas também podem ser usadas de forma independente. Elas podem ser criadas a partir de uma lista, array NumPy, dicionário ou outra Series.

Por exemplo, para criar uma Series a partir de uma lista, podemos usar o seguinte código:


```python
    s = pd.Series(dados, index = index)
```

O argumento *dados* pode ser um dicionário, uma lista, um array Numpy ou uma constante.



### A estrutura de dados Series em pandas é aplicada em diversas tarefas de análise de dados, como por exemplo:

- **Limpeza e transformação de dados**: É possível utilizar a estrutura Series para filtrar dados, substituir valores nulos ou aplicar funções de transformação nos dados.   
- **Cálculos estatísticos**: A estrutura Series permite realizar cálculos estatísticos, como média, mediana, desvio padrão, correlação e regressão linear.   
- **Análise exploratória de dados**: Através da Series é possível visualizar e analisar dados de forma exploratória, utilizando gráficos e estatísticas descritivas.   
- **Machine Learning**: A Series pode ser utilizada como uma variável independente ou dependente em algoritmos de Machine Learning, como regressão linear, regressão logística e redes neurais.   
- **Processamento de dados em tempo real**: A Series é útil para processar dados em tempo real em aplicações que requerem atualização constante dos dados.   
- **Visualização de dados**: Através da Series é possível gerar gráficos de diferentes tipos para visualizar os dados de forma mais clara e interpretativa.    
Em resumo, a estrutura de dados Series em pandas é bastante versátil e pode ser utilizada em diversas tarefas de análise de dados, desde a limpeza e transformação até a visualização e análise exploratória.

### Criando uma série através de uma tupla

In [None]:
import pandas as pd

tupla_idades = (25, 32, 15, 26, 36, 33, 56)
# Convertendo a lista em uma série
serie_idades = pd.Series(tupla_idades)
print(serie_idades)

0    25
1    32
2    15
3    26
4    36
5    33
6    56
dtype: int64


### Criando uma série com lista

In [None]:
import pandas as pd

lista_idades = [25, 32, 15, 26, 36, 33, 56]
# Convertendo a lista em uma série
serie_idades = pd.Series(lista_idades)
print(serie_idades)


0    25
1    32
2    15
3    26
4    36
5    33
6    56
dtype: int64


### Criando uma séria com condição

In [None]:
import pandas as pd

lista_idades = [25, 32, 15, 26, 36, 33, 56]
# Convertendo a lista em uma série
serie_idades = pd.Series(lista_idades)
# Crie uma série com os dados filtrados a partir de outra série
serie_filtrado = serie_idades[serie_idades > 30]
print(serie_filtrado)

1    32
4    36
5    33
6    56
dtype: int64


### Usando funções de série em pandas

In [None]:
import pandas as pd

# Cria uma séria para ser usadas em funções
lista_idades = [25, 32, 15, 26, 36, 33, 56]
# Convertendo a lista em uma série
serie_idades = pd.Series(lista_idades)
print(serie_idades)

0    25
1    32
2    15
3    26
4    36
5    33
6    56
dtype: int64


Aqui, criamos uma Series chamada lista_idades a partir da lista [25, 32, 15, 26, 36, 33, 56]. O Pandas automaticamente atribuiu um índice numérico padrão de 0 a 6 para cada elemento da lista.

Podemos acessar os elementos da Series usando seus índices, assim como em listas ou arrays NumPy:

In [None]:
print(serie_idades[2])

15


É possível adicionarmos/alterar etiquetas personalizadas, o que deixa mais fácil e intuitivo, para isso usamos o parâmetro index, vejo o exemplo

In [None]:
serie = pd.Series(lista_idades, index=['a', 'b', 'c', 'd', 'e', 'f', 'g'])
print(serie)
print(f"Idade do indice a {serie['a']}")
print('\n')
# Alterar as etiquetas para nomes de pessoas
serie = pd.Series(lista_idades, index=['Maria', 'João', 'José', 'Tais', 'Ana', 'Lais', 'Roberta'])
print(serie)
print(f"Idade da Maria {serie['Maria']}")

a    25
b    32
c    15
d    26
e    36
f    33
g    56
dtype: int64
Idade do indice a 25


Maria      25
João       32
José       15
Tais       26
Ana        36
Lais       33
Roberta    56
dtype: int64
Idade da Maria 25


### Exemplos de funções da estrutura Series

In [None]:
import pandas as pd

# Criando uma série de novas idades
serie_idades = pd.Series([25, 23, 30, 42, 20, 20, 20, 27], 
                         index=['Maria', 'João', 'José', 'Thiago', 'Tais', 'Pamela', 'Ana', 'Lais'])

In [None]:
# Exibindo as primeiras 3 linhas da série
print(f"Os três primeiros itens\n{serie_idades.head(3)}\n")

# Exibindo as últimas 4 linhas da série
print(f"Os três últimos valores da lista\n{serie_idades.tail(3)}\n")

# Exibindo as estatísticas descritivas da série
print(f"Exibe informações de estatística descritiva da lista\n{serie_idades.describe()}\n")

# Exibindo o número de elementos não nulos na série
print(f"Exibe a quantidade de itens (não nulos) {serie_idades.count()}")

# Exibindo os valores únicos na série
print(f"Exibe os valores únicos da lista {serie_idades.unique()}")


Os três primeiros itens
Maria    25
João     23
José     30
dtype: int64

Os três últimos valores da lista
Pamela    20
Ana       20
Lais      27
dtype: int64

Exibe informações de estatística descritiva da lista
count     8.000000
mean     25.875000
std       7.472569
min      20.000000
25%      20.000000
50%      24.000000
75%      27.750000
max      42.000000
dtype: float64

Exibe a quantidade de itens (não nulos) 8
Exibe os valores únicos da lista [25 23 30 42 20 27]


In [None]:
# Exibindo a contagem de cada valor presente na série
print(f"Exibe a contagem de cada valor presente na série\n{serie_idades.value_counts()}\n")

# Ordenando a série por seus valores
print(f"Ordena a série em ordem crescente\n{serie_idades.sort_values()}\n")

# Ordenando a série por seus valores
print(f"Ordena a série em ordem decrescente\n{serie_idades.sort_values(ascending = False)}\n")

# Exibindo o índice do valor mínimo na série
print(f"Exibe o menor índice série\n{serie_idades.idxmin()}\b")

# Exibindo o índice do valor máximo na série
print(f"Exibe o maior índice da série\n{serie_idades.idxmax()}\n")

Exibe a contagem de cada valor presente na série
20    3
25    1
23    1
30    1
42    1
27    1
dtype: int64

Ordena a série em ordem crescente
Tais      20
Pamela    20
Ana       20
João      23
Maria     25
Lais      27
José      30
Thiago    42
dtype: int64

Ordena a série em ordem decrescente
Thiago    42
José      30
Lais      27
Maria     25
João      23
Tais      20
Pamela    20
Ana       20
dtype: int64

Exibe o menor índice série
Tais
Exibe o maior índice da série
Thiago



In [None]:
# Acessando elementos da série por rótulos de índice
print(f"Acessa o elemento da série por rótulos de índice\n{serie_idades.loc[['Maria', 'José', 'Lais']]}\n")

# Acessando elementos da série por índices numéricos
print(f"Acessa os elementos da série por índice numéricos\n{serie_idades.iloc[[0, 2, 4]]}\n")

Acessa o elemento da série por rótulos de índice
Maria    25
José     30
Lais     27
dtype: int64

Acessa os elementos da série por índice numéricos
Maria    25
José     30
Tais     20
dtype: int64



In [None]:
# verificando se cada elemento da Series está contido em uma lista de valores
print(f"Retorna uma lista de boleanos de cada item está na lista de idade\n{serie_idades.isin([20, 35, 45])}")

Retorna uma lista de boleanos de cada item está na lista de idade
Maria     False
João      False
José      False
Thiago    False
Tais       True
Pamela     True
Ana        True
Lais      False
dtype: bool


In [None]:
# Converte todos os tipos da série no que foi informado
serie_idades.astype('float')

Maria     25.0
João      23.0
José      30.0
Thiago    42.0
Tais      20.0
Pamela    20.0
Ana       20.0
Lais      27.0
dtype: float64

### Métodos **map e apply**

Em Pandas, tanto o método map quanto o apply são usados para aplicar uma função a uma série. No entanto, há uma diferença crucial entre eles:

- map é usado para substituir cada valor na série por outro valor. Ele pode ser usado com funções simples, como uma função lambda ou uma função definida pelo usuário que realiza uma operação simples em cada elemento da série.   
- apply é usado para aplicar uma função a cada elemento da série, mas ele pode ser usado com funções mais complexas que realizam operações mais avançadas em cada elemento. Além disso, o método apply também pode ser usado em dataframes, permitindo que você aplique funções em linhas ou colunas inteiras.   

Vale ressaltar que a função passada como argumento para ambos os métodos deve ser "vetorizada", ou seja, deve ser capaz de lidar com um array como entrada. Se a função não for vetorizada, o Pandas pode gerar um erro.

Em resumo, **o método map é adequado para operações mais simples em cada elemento da série, enquanto o método apply é mais flexível e pode ser usado para operações mais avançadas e em dataframes**.


In [None]:
# Cria uma nova série
serie_quantidade_bens = pd.Series([5, 3, 3, 4, 0, 7, 6, 7])

# Aplicando uma função a cada elemento da série
# A função lambda x: x ** 2 pega cada elemento da série e eleva ao quadrado
print(f"Aplica uma função anônima em cada elemento e retorna uma nova série\n{serie_quantidade_bens.apply(lambda x: x ** 2)}\n")
print(f"Perceba que a lista não foi alterada\n{serie_quantidade_bens}\n")

Aplica uma função anônima em cada elemento e retorna uma nova série
0    25
1     9
2     9
3    16
4     0
5    49
6    36
7    49
dtype: int64

Perceba que a lista não foi alterada
0    5
1    3
2    3
3    4
4    0
5    7
6    6
7    7
dtype: int64



In [None]:
# Cria uma nova série
serie_quantidade_bens = pd.Series([5, 3, 3, 4, 0, 7, 6, 7])
# aplicando uma função lambda a cada valor da Series
print(f"Aplica uma função anônima em cada elemento e retorna uma nova série\n{serie_quantidade_bens.map(lambda x: x ** 2)}")
print(f"Perceba que a lista não foi alterada\n{serie_quantidade_bens}")

Aplica uma função anônima em cada elemento e retorna uma nova série
0    25
1     9
2     9
3    16
4     0
5    49
6    36
7    49
dtype: int64
Perceba que a lista não foi alterada
0    5
1    3
2    3
3    4
4    0
5    7
6    6
7    7
dtype: int64


### Resumo

Uma série em pandas é uma estrutura de dados unidimensional que pode armazenar diferentes tipos de dados, incluindo inteiros, floats e strings. Ela é semelhante a uma matriz unidimensional ou uma coluna em uma planilha. Cada item na série é indexado por um rótulo e pode ser acessado usando esses rótulos. As séries também suportam operações vetorizadas e podem ser facilmente manipuladas usando as funções integradas do pandas. Elas são frequentemente usadas para armazenar dados que são organizados em uma única dimensão, como séries temporais, preços de ações ou resultados de pesquisas.

## DataFrames

### Introdução

Um DataFrame é uma estrutura de dados bidimensional em pandas, semelhante a uma planilha ou tabela de banco de dados. Ele é composto por linhas e colunas, onde cada coluna pode ter um tipo de dados diferente, como inteiros, floats, strings, datas, booleanos e outras estruturas de dados, como listas e dicionários.

Um exemplo de uso de DataFrame é armazenar os dados de um experimento científico, onde cada coluna pode representar uma variável medida, como temperatura, pressão, concentração, tempo, entre outras. As linhas podem representar diferentes pontos de tempo ou condições experimentais, onde cada célula do DataFrame contém um valor correspondente a uma combinação específica de variáveis.

Com o DataFrame, é possível manipular e analisar esses dados de maneira eficiente e flexível, usando funções embutidas e ferramentas estatísticas avançadas em pandas. Além disso, o pandas permite ler e escrever dados em vários formatos, como arquivos CSV, Excel, SQL, JSON, entre outros, facilitando a integração com outras ferramentas de análise de dados.

```python
    df = pd.DataFrame(dados, index = index, columns = columns)
```

O argumento *dados* pode ser um dicionário, uma lista, um array Numpy, uma Series e outro DataFrame.

**Documentação:** https://pandas.pydata.org

### Aplicação do data frame 

O Pandas é uma das bibliotecas mais populares em Python para análise de dados e ciência de dados. O Dataframe é uma estrutura de dados tabular que é usada para armazenar e manipular dados em linhas e colunas. Algumas das aplicações mais comuns do Dataframe em Pandas são:

- **Manipulação e limpeza de dados**: Os dataframes em Pandas são muito úteis para limpar e manipular dados. É possível eliminar colunas e linhas desnecessárias, preencher valores ausentes e renomear colunas.   
- **Análise e visualização de dados**: O Pandas permite realizar análises estatísticas em dados, como calcular médias, medianas e desvios padrão. Além disso, é possível criar gráficos e visualizações de dados usando outras bibliotecas como Matplotlib e Seaborn.   
- **Integração com outras bibliotecas**: O Pandas é frequentemente usado em conjunto com outras bibliotecas em Python, como Numpy, Scikit-learn, TensorFlow, entre outras. Isso permite que os dados sejam facilmente processados e analisados, o que é especialmente útil em tarefas de aprendizado de máquina.   
- **Preparação de dados para modelos de machine learning**: O Pandas é amplamente utilizado na preparação de dados para modelos de machine learning. Isso inclui a limpeza de dados, normalização de dados e codificação de variáveis categóricas.   
- **Trabalho com grandes conjuntos de dados**: O Pandas é capaz de lidar com grandes conjuntos de dados, permitindo que os usuários analisem e manipulem dados mesmo quando estes excedem a capacidade da memória RAM.   

Em resumo, o Pandas e seu recurso de Dataframe fornecem uma ampla gama de funcionalidades para a análise de dados e é amplamente utilizado em diferentes aplicações, como finanças, ciência de dados, análise de dados empresariais, análise de dados de marketing e muito mais.

### Criando um data frame com lista

In [None]:
import pandas as pd

# Cria uma lista com lista de nome e idade
dados = [['Ana', 25], ['Maria', 30], ['Carla', 35], ['Robert', 35], ['João', 35]]
# Converte os dados acima em um dataframe e atribui nomes as colunas
df_idades = pd.DataFrame(dados, columns=['Nome', 'Idade'])
print(df_idades)

     Nome  Idade
0     Ana     25
1   Maria     30
2   Carla     35
3  Robert     35
4    João     35


### Criando um data frame com dicionários

In [None]:
import pandas as pd

idades = {'Nome': ['Ana', 'Bob', 'Carla'], 'Idade': [25, 30, 35]}
df_idades = pd.DataFrame(idades)

print(df_idades)

    Nome  Idade
0    Ana     25
1    Bob     30
2  Carla     35


### Criando um data frame com uma condição

In [None]:
import pandas as pd

idades = {'Nome': ['Ana', 'Bob', 'Carla'], 'Idade': [25, 30, 35]}
df_idades = pd.DataFrame(idades)

# Cria um df com filtro 
df_filtrado = df_idades[df_idades['Idade'] > 28]

print(df_filtrado)

    Nome  Idade
1    Bob     30
2  Carla     35


### Operações em colunas

É possível realizar diversas operações com colunas

In [None]:
import pandas as pd

idades = {'Nome': ['Ana', 'Maria', 'João'], 'Idade': [25, 30, 35]}
df_idades = pd.DataFrame(idades)

# Gera uma nova coluna com base na informação de outra
df_idades['Ano Nascimento'] = 2023 - df_idades['Idade']
print(df_idades)


    Nome  Idade  Ano Nascimento
0    Ana     25            1998
1  Maria     30            1993
2   João     35            1988


In [None]:
import pandas as pd

idades = {'Nome': ['Ana', 'Maria', 'João'], 'Idade': [25, 30, 35]}
df_idades = pd.DataFrame(idades)

# Gera uma nova coluna aplicando a função apply, no qual eleva ao quadrado cada idade
df_idades['Idade ao Quadrado'] = df_idades['Idade'].apply(lambda x: x ** 2)

print(df_idades)

    Nome  Idade  Idade ao Quadrado
0    Ana     25                625
1  Maria     30                900
2   João     35               1225


#### Renomear nome da coluna: função .rename()

In [None]:
import pandas as pd

df_idades = pd.DataFrame({'Nome': ['Ana', 'Maria', 'João'], 'Idade': [25, 30, 35]})
print(df_idades)
print('\n')
df_idades.rename(columns={'Nome':'Nome do aluno'}, inplace=True) # inplace = True é para permitir a modificação interna
print(df_idades)

    Nome  Idade
0    Ana     25
1  Maria     30
2   João     35


  Nome do aluno  Idade
0           Ana     25
1         Maria     30
2          João     35


#### Excluindo colunas: função drop

Você pode excluir uma coluna usando o método drop() do DataFrame. Por exemplo, para excluir a coluna 'Idade', você pode fazer:

In [None]:
import pandas as pd

df_idades = pd.DataFrame({'Nome': ['Ana', 'Maria', 'João'], 'Idade': [25, 30, 35]})
print(df_idades)
print('\n')
# Deleta uma coluna (axis=1 diz ao algoritmo que Idade é uma coluna)
df_idades.drop('Idade', axis=1, inplace=True)
print(df_idades)


    Nome  Idade
0    Ana     25
1  Maria     30
2   João     35


    Nome
0    Ana
1  Maria
2   João


In [None]:
import pandas as pd

df_idades = pd.DataFrame({'Nome': ['Ana', 'Maria', 'João'], 'Idade': [25, 30, 35]})
print(df_idades)
print('\n')
# Deleta uma linha (axis=0 diz ao algoritmo que a linha de indice 1 será deletado e é uma linha)
df_idades.drop(1, axis=0, inplace=True)
print(df_idades)

    Nome  Idade
0    Ana     25
1  Maria     30
2   João     35


   Nome  Idade
0   Ana     25
2  João     35


#### Adicionando uma coluna

Você pode adicionar uma nova coluna em um DataFrame simplesmente atribuindo uma lista ou array à coluna desejada. Por exemplo, para adicionar uma nova coluna chamada 'Categoria' com base na idade do cliente, você pode fazer

In [None]:
import pandas as pd

df_alunos = pd.DataFrame({'Nome': ['Ana', 'Bruno', 'Carla', 'Maria'],
                   'Idade': [20, 25, 30, 35],
                   'Sexo': ['F', 'M', 'F', 'M']})
print(df_alunos)
print('\n')
df_alunos['Hobby'] = ['Futebol', 'Leitura', 'Volei', 'Professor']
print(df_alunos)

    Nome  Idade Sexo
0    Ana     20    F
1  Bruno     25    M
2  Carla     30    F
3  Maria     35    M


    Nome  Idade Sexo      Hobby
0    Ana     20    F    Futebol
1  Bruno     25    M    Leitura
2  Carla     30    F      Volei
3  Maria     35    M  Professor


In [None]:
import pandas as pd
import numpy as np

df_idades = pd.DataFrame({'Nome': ['Ana', 'Maria', 'João', 'Rita'], 'Idade': [25, 30, 35, 17]})
print(df_idades)
print('\n')

# A função where da biblioteca numpy fornece uma forma de criar uma classificação com condições
df_idades['Categoria'] = np.where(df_idades['Idade'] >= 18, 'Adulto', 'Menor')
print(df_idades)

    Nome  Idade
0    Ana     25
1  Maria     30
2   João     35
3   Rita     17


    Nome  Idade Categoria
0    Ana     25    Adulto
1  Maria     30    Adulto
2   João     35    Adulto
3   Rita     17     Menor


### Funções de estatística

Pandas é uma biblioteca popular do Python usada para análise de dados e possui várias funções para cálculos estatísticos em conjuntos de dados. Algumas das funções mais comuns do Pandas para cálculo estatístico são:   

- **mean()**: calcula a média dos valores em uma coluna ou em todo o DataFrame.   
- **median**(): calcula a mediana dos valores em uma coluna ou em todo o DataFrame.   
- **min()**: encontra o valor mínimo em uma coluna ou em todo o DataFrame.   
- **max()**: encontra o valor máximo em uma coluna ou em todo o DataFrame.   
- **std()**: calcula o desvio padrão dos valores em uma coluna ou em todo o DataFrame.   
- **var()**: calcula a variância dos valores em uma coluna ou em todo o DataFrame.   
- **count()**: conta o número de valores não nulos em uma coluna ou em todo o DataFrame.   
- **describe()**: gera um resumo estatístico de um DataFrame que inclui contagem, média, desvio padrão, mínimo, máximo e quartis.   
- **corr()**: calcula a correlação entre colunas do DataFrame.   
- **cov()**: calcula a covariância entre colunas do DataFrame.   
- **skew()**: calcula a assimetria dos valores em uma coluna ou em todo o DataFrame.   
- **kurtosis()**: calcula a curtose dos valores em uma coluna ou em todo o DataFrame. 
- **quantile()**: calcula o valor de um determinado percentil em uma coluna, por exemplo df['coluna'].quantile(0.25) para calcular o valor do primeiro quartil.


Essas funções podem ser aplicadas em colunas específicas ou em todo o DataFrame para obter informações úteis sobre os dados, como a distribuição, centralidade, dispersão, relação entre colunas, assimetria e curtose. Essas informações podem ser usadas para tomar decisões informadas sobre análise de dados, modelagem estatística e outras tarefas relacionadas.

#### Aplicando as operações em pandas

In [None]:
import pandas as pd

# Cria data frame de exemplo de salários
df_salario = pd.DataFrame({'salario': [2000, 2500, 1500, 4000, 5000, 3500, 2500]})

In [None]:
# calcular média
média = df_salario['salario'].mean()
print('Média aritmética:', média)

# calcular mediana
mediana = df_salario['salario'].median()
print('Mediana:', mediana)

# calcular valor mínimo
minimo = df_salario['salario'].min()
print('Valor mínimo:', minimo)

# calcular valor máximo
maximo = df_salario['salario'].max()
print('Valor máximo:', maximo)


Média aritmética: 3000.0
Mediana: 2500.0
Valor mínimo: 1500
Valor máximo: 5000


In [None]:
# Captar a quantidade de itens
quantidade_itens_não_nulos = df_salario['salario'].count()
print('Retorna a quantidade de itens não nulos:', quantidade_itens_não_nulos)

# Função describe() gera um resumi estatístico de um dataframe
# Contagem, desvio padrão, mínimo, máximo e quartis
descricao = df_salario['salario'].describe()
print('Descrição estatística:\n',descricao)


Retorna a quantidade de itens não nulos: 7
Descrição estatística:
 count       7.000000
mean     3000.000000
std      1224.744871
min      1500.000000
25%      2250.000000
50%      2500.000000
75%      3750.000000
max      5000.000000
Name: salario, dtype: float64


In [None]:
# calcular variancia
var = df_salario['salario'].var()
print('Variância:', var)

# calcular desvio padrão
std = df_salario['salario'].std()
print('Desvio padrão:', std)



Variância: 1500000.0
Desvio padrão: 1224.744871391589


In [None]:
# calcular primeiro quartil
quartil1 = df_salario['salario'].quantile(0.25)
print('Primeiro quartil:', quartil1)

quartil1 = df_salario['salario'].quantile(0.75)
print('terceiro quartil:', quartil1)

Primeiro quartil: 2250.0
terceiro quartil: 3750.0


#### Correlação: função corr()

O método corr() é usado para calcular a correlação entre as colunas de um DataFrame. A correlação é uma medida estatística que indica como duas variáveis estão relacionadas entre si. O resultado da função corr() é um novo DataFrame que contém os valores de correlação para todas as combinações de colunas no DataFrame original.

Os valores de correlação variam de -1 a 1, onde -1 indica uma correlação negativa perfeita (quando uma variável aumenta, a outra diminui) e 1 indica uma correlação positiva perfeita (quando uma variável aumenta, a outra também aumenta). Um valor de 0 indica que não há correlação entre as variáveis.

In [None]:
import pandas as pd

# Criando um DataFrame
df = pd.DataFrame({'A': [1, 2, 3, 4], 'B': [5, 6, 7, 8], 'C': [9, 10, 11, 12]})

# Usando o método corr()
correlação = df.corr()
print(correlação)


     A    B    C
A  1.0  1.0  1.0
B  1.0  1.0  1.0
C  1.0  1.0  1.0


Neste exemplo, o DataFrame tem 3 colunas: A, B e C. Como todas as colunas são perfeitamente correlacionadas com elas mesmas, o resultado da função corr() é uma matriz de correlação com valores 1 na diagonal principal e 0 nas outras posições. É importante notar que a matriz de correlação é sempre simétrica, ou seja, a correlação entre a coluna A e a coluna B é a mesma que a correlação entre a coluna B e a coluna A.

#### Função de covariância: cov()

A função cov() em Pandas é usada para calcular a covariância entre duas séries de dados. A covariância mede a relação entre duas variáveis e como elas variam em conjunto. Uma covariância positiva indica que as duas variáveis tendem a se mover na mesma direção, enquanto uma covariância negativa indica que elas tendem a se mover em direções opostas.

A sintaxe básica da função cov() é:

In [None]:
import pandas as pd

data = {'altura': [1.65, 1.70, 1.75, 1.80, 1.85],
        'peso': [60, 70, 80, 90, 100]}

df = pd.DataFrame(data)
print(df)


   altura  peso
0    1.65    60
1    1.70    70
2    1.75    80
3    1.80    90
4    1.85   100


In [None]:
cov_matrix = df.cov()
print(cov_matrix)


         altura    peso
altura  0.00625    1.25
peso    1.25000  250.00


A diagonal principal representa a variância de cada variável e as outras entradas representam a covariância entre as variáveis. No nosso exemplo, a covariância entre altura e peso é 1.75. Podemos interpretar isso como: à medida que a altura aumenta, o peso também aumenta. Note que a covariância não é padronizada e, portanto, não é uma medida comparável. Para isso, podemos usar a correlação.



---



---



# Leitura de arquivos com pandas

A biblioteca Pandas fornece diversas ferramentas para ler e manipular dados em diferentes formatos. A leitura de arquivos com o Pandas é uma das funcionalidades mais utilizadas dessa biblioteca, permitindo que arquivos como CSV, Excel, JSON, entre outros, sejam lidos e armazenados em um DataFrame.

A função principal para leitura de arquivos é a read_csv(), que permite ler arquivos CSV e separados por tabulação. Além disso, existem outras funções como read_excel(), para arquivos do Excel, e read_json(), para arquivos JSON.

Essas funções permitem que o arquivo seja lido e armazenado em um DataFrame, que é uma estrutura de dados bidimensional, semelhante a uma tabela de banco de dados, com linhas e colunas que podem ser manipuladas e processadas com diversas funções do Pandas.

Segue um exemplo de leitura de um arquivo CSV com o Pandas:

In [None]:
# Lista de URLs

url_alunos = 'https://raw.githubusercontent.com/luiscarlosjunior/aulas-graduacao/master/data-science/analise-dados/datasets/csv/resumoAlunos.csv'
separador = ';'

In [None]:
import pandas as pd

# Lendo arquivo CSV
df = pd.read_csv(url_alunos, separador)
# Exibindo as primeiras linhas do DataFrame
print(df.head())

  df = pd.read_csv(url_alunos, separador)


            RA Primeiro Nome Sobrenome  Idade  AV1  AV2  média  Total Faltas  \
0  63227467787         Aaron  PHILLIPS     31    9    9    9.0            22   
1  55774275097       Abigail      SOTO     20    7    6    6.5            18   
2  76059134116          Adam    PARKER     19   10   10   10.0            14   
3  64295541703        Agatha  Oliveira     45    7   10    8.5            16   
4  71033266097          Alan     JAMES     39    9    9    9.0            15   

                   Curso     Genero   Periodo  
0  Engeharia de Software  Masculino  Matutino  
1  Ciência da Computação   Feminino  Matutino  
2  Engeharia de Software  Masculino  Matutino  
3  Sistema da Informação  Intersexo  Matutino  
4         Banco de dados  Masculino  Matutino  


In [None]:
print(df.loc[:, 'Idade'].describe())

count    300.000000
mean      40.456667
std       14.069398
min       17.000000
25%       29.750000
50%       39.000000
75%       52.000000
max       65.000000
Name: Idade, dtype: float64


### Análise de dados com pandas


Claro! A análise de dados com Pandas é uma das principais aplicações da biblioteca. Vou te mostrar um exemplo básico para você entender como funciona.

Suponha que temos um arquivo CSV com informações de vendas de uma loja. Podemos carregar esse arquivo em um DataFrame do Pandas usando a função read_csv(). Por exemplo:

#### Capturar os dados de algum lugar

In [None]:
import pandas as pd

url_alunos = 'https://raw.githubusercontent.com/luiscarlosjunior/aulas-graduacao/master/data-science/analise-dados/datasets/csv/resumoAlunos.csv'
separador = ';'
# Lendo arquivo CSV
alunos = pd.read_csv(url_alunos, separador)

In [None]:
# Exibindo as cinco primeiras linhas do DataFrame
print(alunos.head())
# Exibindo as 3 primerias linhas
print(alunos.head(3))
# Exibindo a primeira linha
print(alunos.head(1))

            RA Primeiro Nome Sobrenome  Idade  AV1  AV2  média  Total Faltas  \
0  63227467787         Aaron  PHILLIPS     31    9    9    9.0            22   
1  55774275097       Abigail      SOTO     20    7    6    6.5            18   
2  76059134116          Adam    PARKER     19   10   10   10.0            14   
3  64295541703        Agatha  Oliveira     45    7   10    8.5            16   
4  71033266097          Alan     JAMES     39    9    9    9.0            15   

                   Curso     Genero   Periodo  
0  Engeharia de Software  Masculino  Matutino  
1  Ciência da Computação   Feminino  Matutino  
2  Engeharia de Software  Masculino  Matutino  
3  Sistema da Informação  Intersexo  Matutino  
4         Banco de dados  Masculino  Matutino  
            RA Primeiro Nome Sobrenome  Idade  AV1  AV2  média  Total Faltas  \
0  63227467787         Aaron  PHILLIPS     31    9    9    9.0            22   
1  55774275097       Abigail      SOTO     20    7    6    6.5         

#### Podemos pegar algumas informações genéricas

In [None]:
print(alunos.describe()) # mostra estatísticas descritivas do dataframe
print(alunos.info()) # mostra informações sobre as colunas do dataframe


                 RA       Idade         AV1         AV2       média  \
count  3.000000e+02  300.000000  300.000000  300.000000  300.000000   
mean   7.745431e+10   40.456667    7.686667    7.980000    7.833333   
std    1.290698e+10   14.069398    1.364317    1.395022    1.028306   
min    5.561686e+10   17.000000    6.000000    6.000000    6.000000   
25%    6.625901e+10   29.750000    6.000000    7.000000    7.000000   
50%    7.746094e+10   39.000000    8.000000    8.000000    8.000000   
75%    8.866367e+10   52.000000    9.000000    9.000000    8.500000   
max    9.984376e+10   65.000000   10.000000   10.000000   10.000000   

       Total Faltas  
count    300.000000  
mean      12.096667  
std        3.823968  
min        4.000000  
25%        9.000000  
50%       12.000000  
75%       15.000000  
max       22.000000  
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 300 entries, 0 to 299
Data columns (total 11 columns):
 #   Column         Non-Null Count  Dtype  
---  ------  

#### Pegando colunas de interesse, dessa forma podemos direcionar os nossos estudos

In [None]:
colunas_interesse = ['média', 'Idade', 'Total Faltas']
df_interesse = alunos[colunas_interesse]
print(f'Média das colunas\n{df_interesse.mean()}\n') # média das colunas
print(f'Mediana das colunas\n{df_interesse.median()}\n') # mediana das colunas
print(f'Moda das colunas\n{df_interesse.mode()}\n') # moda das colunas
print(f'Descrição estatística das colunas\n{df_interesse.describe()}\n')
print(f'Informações gerais das colunas\n{df_interesse.info()}\n')

Média das colunas
média            7.833333
Idade           40.456667
Total Faltas    12.096667
dtype: float64

Mediana das colunas
média            8.0
Idade           39.0
Total Faltas    12.0
dtype: float64

Moda das colunas
   média  Idade  Total Faltas
0    8.0     33            12

Descrição estatística das colunas
            média       Idade  Total Faltas
count  300.000000  300.000000    300.000000
mean     7.833333   40.456667     12.096667
std      1.028306   14.069398      3.823968
min      6.000000   17.000000      4.000000
25%      7.000000   29.750000      9.000000
50%      8.000000   39.000000     12.000000
75%      8.500000   52.000000     15.000000
max     10.000000   65.000000     22.000000

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 300 entries, 0 to 299
Data columns (total 3 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   média         300 non-null    float64
 1   Idade         300 non-null    int64  
 2  

#### Podemos agrupas os dados em categorias, segue abaixo por exemplo, queremos saber qual é a média de notas dos alunos do matutino e comparar com os alunos do noturno.

In [None]:
# A sintaxe é: dataframe.groupby('Nome Coluna')['Nome Coluna']
# A coluna dentro dos parenteses será utilizado para criar as categorias com dados unicos
# A coluna entre conchetes será de onde os dados serão coletados, segue abaixo um exemplo 
grupo_alunos_matutinos = alunos.groupby('Periodo')['média']
print(grupo_alunos_matutinos.describe()) # Esse função pega as informações básicas para análise

            count      mean       std  min  25%  50%  75%   max
Periodo                                                        
Integral     48.0  7.760417  0.905007  6.0  7.0  8.0  8.5  10.0
Matutino     99.0  7.808081  1.046635  6.0  7.0  8.0  8.5  10.0
Noturno     103.0  7.820388  1.035768  6.0  7.0  8.0  8.5  10.0
Vespertino   50.0  7.980000  1.101761  6.0  7.0  8.0  9.0  10.0


In [None]:
# Aqui estamos querendo saber se o total de faltas é diferente entre os períodos
grupo_alunos_matutinos = alunos.groupby('Periodo')['Total Faltas']
print(grupo_alunos_matutinos.describe())

            count       mean       std  min   25%   50%    75%   max
Periodo                                                             
Integral     48.0  12.937500  4.358441  5.0  10.0  12.0  15.25  22.0
Matutino     99.0  12.515152  3.715285  5.0  10.0  12.0  15.00  22.0
Noturno     103.0  11.475728  3.561352  4.0   9.0  11.0  14.00  20.0
Vespertino   50.0  11.740000  3.874617  4.0   9.0  12.0  14.00  20.0


In [None]:
# Queremos fazer uma análise nas notas de cada periodo
grupo_alunos_matutinos = alunos.groupby('Periodo')['AV1']
print(grupo_alunos_matutinos.describe())

            count      mean       std  min   25%  50%  75%   max
Periodo                                                         
Integral     48.0  7.583333  1.268830  6.0  7.00  7.0  8.0  10.0
Matutino     99.0  7.676768  1.412974  6.0  6.00  7.0  9.0  10.0
Noturno     103.0  7.689320  1.357832  6.0  6.50  8.0  9.0  10.0
Vespertino   50.0  7.800000  1.399708  6.0  6.25  8.0  9.0  10.0


In [None]:
# Queremos fazer uma análise nas notas de cada periodo
grupo_alunos_matutinos = alunos.groupby('Periodo')['AV2']
print(grupo_alunos_matutinos.describe())

            count      mean       std  min  25%  50%  75%   max
Periodo                                                        
Integral     48.0  7.937500  1.359071  6.0  7.0  8.0  9.0  10.0
Matutino     99.0  7.939394  1.376317  6.0  7.0  8.0  9.0  10.0
Noturno     103.0  7.951456  1.444249  6.0  7.0  8.0  9.0  10.0
Vespertino   50.0  8.160000  1.390346  6.0  7.0  8.0  9.0  10.0


### Podemos aplicar filtros nas consultas

#### Procuramos algo para avaliar, por exemplo, qual a média de falta de todos os alunos

In [None]:
# Identifique em qual coluna está a informação e faça a operação
média_falta = alunos['Total Faltas'].mean()
# Faça a conclusão
print(f'Em média os alunos faltaram {int(round(média_falta,0))} vezes ao longo do semestre')

Em média os alunos faltaram 12 vezes ao longo do semestre
