# Pandas

[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/caio-c-silva/algoritmos/blob/main/notebooks_aulas/Pandas.ipynb)

In [None]:
import pandas as pd 

## Pandas

Pandas é uma poderosa biblioteca de código aberto para manipulação e análise de dados em Python. Ele fornece estruturas de dados flexíveis e eficientes, projetadas para tornar a manipulação e análise de conjuntos de dados estruturados ou tabelares mais fácil e intuitiva. 

### Dataframe

O Pandas introduz a estrutura de dados chamada DataFrame, que é essencialmente uma tabela bidimensional com rótulos em linhas e colunas. Isso facilita a representação e manipulação de dados tabulares, semelhante a uma planilha ou tabela SQL.

#### Criando DataFrame

In [None]:
alunos = ['João', 'Paulo', 'Maria', 'Julia']
idades = [21, 19, 18, 20]
cidades = ['Campinas', 'Hortolândia', 'Sumaré', 'Hortolândia']
notas = [9.2, 7.6, 8.7, 9.4]

df = pd.DataFrame(list(zip(alunos, idades, cidades, notas)), columns =['Nome', 'Idade', 'Cidade' ,'Nota'])

In [None]:
df

#### Criar DataFrame a partir de um arquivo CSV

In [None]:
url = 'https://raw.githubusercontent.com/adaoduque/Brasileirao_Dataset/master/campeonato-brasileiro-full.csv'

df = pd.read_csv(url)

In [None]:
# Verificando os nomes das colunas

df.columns

In [None]:
df.head()

In [None]:
df.tail()

#### Análise Exploratória dos Dados

In [None]:
df[df.duplicated()]

In [None]:
df.isnull().sum()

In [None]:
df.dtypes

#### Alterando Colunas

In [None]:
# Convertendo a coluna de datas para o tipo datetime

df['data'] = pd.to_datetime(df['data'], format='%d/%m/%Y')

In [None]:
df.head()

In [None]:
# Padronizando coluna vencedor

df['vencedor'].replace('-', 'Empate', inplace=True)

#### Filtrar Dados

In [None]:
df[df['data'] >= '2018']

In [None]:
df[df['mandante'] == 'Cuiaba']

In [None]:
# Operação booleana OR (|)

df[(df['mandante'] == 'Cuiaba') | (df['visitante'] == 'Cuiaba')]

In [None]:
df['mandante'].unique()

In [None]:
# Operação booleana AND (&)

df[(df['mandante'] == 'Internacional') & (df['visitante'] == 'Gremio')]

In [None]:
df[((df['mandante'] == 'Cruzeiro') & (df['visitante'] == 'Atletico-MG'))
  | ((df['mandante'] == 'Atletico-MG') & (df['visitante'] == 'Cruzeiro'))]

In [None]:
df_classico_mineiro = df[((df['mandante'] == 'Cruzeiro') & (df['visitante'] == 'Atletico-MG'))
                      | ((df['mandante'] == 'Atletico-MG') & (df['visitante'] == 'Cruzeiro'))]

#### Salvar DataFrame

In [None]:
df_classico_mineiro.to_csv('classicomineiro.csv', index=False)

In [None]:
df_classico_mineiro.to_excel('classicomineiro.xlsx', index=False)

## Problemas

1. Selecione todos os jogos do seu time nos últimos 10 anos. Salve os dados.

2. Selecione todos os jogos de um time rival nos últimos 10 anos. Salve os dados.

3. Selecione todos os confrontos do seu time com o time rival nos últimos 10 anos. Salve os Dados.