In [5]:
import pandas as pd 

In [3]:
import requests
from io import StringIO

In [2]:
url = 'https://raw.githubusercontent.com/escola-de-dados/notebooks-python-pandas/master/mlb.csv'

Lendo um arquivo .CSV e armazenando/transformando em um DataFrame

In [6]:
try:
    response = requests.get(url)
    response.raise_for_status() #Lança uma exceção/erro em caso de erro http

    #Usar StringIO para ler os dados como se fossem de um arquivo. 
    df = pd.read_csv(StringIO(response.text))

    # Exibir as primeiras linhas/registros do DataFrame
    print('Primeiras linhas do DataFrame:')
    print(df.head()) #exibe os primeiros 5 regitros
except requests.exceptions.RequestException as e: 
    print(f'Erro ao ler o arquivo .csv: {e}')

Primeiras linhas do DataFrame:
               NAME TEAM POS    SALARY  START_YEAR  END_YEAR  YEARS
0   Clayton Kershaw  LAD  SP  33000000        2014      2020      7
1      Zack Greinke  ARI  SP  31876966        2016      2021      6
2       David Price  BOS  SP  30000000        2016      2022      7
3    Miguel Cabrera  DET  1B  28000000        2014      2023     10
4  Justin Verlander  DET  SP  28000000        2013      2019      7


In [None]:
df.describe() #Retorna algumas estatísticas

In [None]:
df.tail() #últimas linhas, possibilitando saber quantos registros. 

In [None]:
df.sample(7) #Retorna linhas aleatórias, nesse caso, 7 registros

In [None]:
df.shape #não é função... exibe a quantidade de linhas e colunas

In [None]:
df.dtypes #nome das colunas e tipo de dados

Ordenando os dados

In [None]:
df.sort_values('SALARY') #exibe os 5 primeiros e os 5  últimos sem filtro algum

In [None]:
df.sort_values('SALARY', ascending=False) #Filtrando por salário, exibindo os 5 primeiros e os 5 últimos sendo que o filtro foi pelo salário do maior para o menor.

In [None]:
df.sort_values('SALARY', ascending=False).head() #Exibe, com filtro de salário, apenas os 5 primeiros com o uso do head. 

In [None]:
df[df.SALARY > 100000000]

# select * from tabelaTime where SALARY> 100000000

In [None]:
df.sort_values(['SALARY', 'END_YEAR'], ascending=[False, True]).head(10)
#Filtro por mais de um parâmetro, por salário e por time, sendo q o salario é pra ordenar do maior pro menor e o ano final em ordem crescente.
#Porém o salário, que vem primeiro, é mandatório. Se tivermos 2 salários iguais, virá primeiro o de menor ano devido o filtro pedir ordem crescente de ano.

Ordenar o DataFrame df pela coluna NAME  
Ordenar o DataFrame df pela coluna Pos de Modo descendente  
Ordenar o DataFrame df pela coluna Salario de modo dscendente e coluna POS de modo ascendente. Salve em uma variável chamada ordenacaoPorSalarioPos  

In [None]:
df.sort_values('NAME')

In [None]:
df.sort_values('POS', ascending=False)

In [None]:
ordenacaoPorSalarioPos = df.sort_values(['SALARY','POS'], ascending=[False, True])
ordenacaoPorSalarioPos

Filtros

In [None]:
#Filtros de Coluna: Retorna uma ou mais colunas específicas. É semelhante ao SELECT do SQL
#Filtros de Linha: Retorna um recorte dos dados que atendam os critérios que você especificou. É semelhante ao WHERE do SQL
#Exemplo: Mostre todos os dados no Dataframe onde os valores da coluna de TEAM sejam iguais a TEX.


In [None]:
#Salário por Time
#Quero todos os valores de TEAM

df.TEAM # df.TEAM = df['TEAM']

#df.SALARIO POR TIME - Isso não funciona porque são palavras separadas
# df['SALARIO POR TIME'] #Isso funciona se a coluna tivesse o nome 'SALARIO POR TIME'

In [None]:
df.TEAM.unique() # todos os times distintos. Retorna um ARRAY com todos os times

In [None]:
df.TEAM.value_counts() #Retorna a quantidade por cada TEAM, quantas vezes ele se repete

In [None]:
df.SALARY.min() # Traz o menor valor da coluna específicada

In [None]:
df.SALARY.max() # máximo

In [None]:
df.SALARY.median() #medianda

In [None]:
df.SALARY.mean() #média

In [None]:
df.SALARY.mode() #valor mais comum

In [None]:
colunasFiltradas = ['TEAM', 'SALARY'] #Lista das colunas desejadas
df[colunasFiltradas] #Filtra apenas as colunas da lista

In [None]:
df[df.SALARY>10000000]

FILTROS COM MUITAS CONDIÇÕES

In [None]:
# Filtrar só quem joga no time BOS
bosTeam = df[df.TEAM == 'BOS']

#Do time BOS, filtrar quem recebe mais que 10000000
salariosMaiores = bosTeam[bosTeam.SALARY >10000000]
salariosMaiores

Exercícios

In [None]:
# Filtro de Coluna: Selecione/Filtre a coluna NAME
df.NAME

In [None]:
# Filtro de Coluna: selecione as colunas NAME e TEAM
Colunas = ['NAME', 'TEAM']
df[Colunas]

In [None]:
# Filtro de Linha: Filtre as linhas e traga como resultado apenas os que jogam no time DET, que tem salários a partir de 750000
jogadoresDET = df[df.TEAM == 'DET']
salariosMaiores = jogadoresDET[jogadoresDET.SALARY >750000]
salariosMaiores

In [8]:
filtro = (df['TEAM'] == 'DET') & (df['SALARY'] >= 750000) & (df['YEARS'] > 5)
resultado = df[filtro]
resultado

Unnamed: 0,NAME,TEAM,POS,SALARY,START_YEAR,END_YEAR,YEARS
3,Miguel Cabrera,DET,1B,28000000,2014,2023,10
4,Justin Verlander,DET,SP,28000000,2013,2019,7
20,Justin Upton,DET,LF,22125000,2016,2021,6


Agrupar e Agregar dados 

In [None]:
#Quero saber os times com top 10 salários

In [9]:
df.groupby('TEAM') # Ainda não é o que precisa

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000023BF9162890>

In [13]:
#df.groupby('TEAM').sum()
df[['TEAM', 'SALARY']].groupby('TEAM').sum().sort_values('SALARY', ascending=False).head(10) # Filtros encadeados

Unnamed: 0_level_0,NAME,POS,SALARY,START_YEAR,END_YEAR,YEARS
TEAM,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
LAD,Clayton KershawAdrian GonzalezAndre EthierScot...,SP1BLFSP3BSPSPRPRFSP2BCSPRPRPLF2BRPLFRPSSLFCFR...,187989811,62501,62550,80
DET,Miguel CabreraJustin VerlanderJustin UptonJord...,1BSPLFSPDHSPRF2BRPSS3BRPC3BRPRPCSPRPRPSPLFSPCF...,180250600,52420,52457,63
TEX,Prince FielderCole HamelsShin-Soo ChooAdrian B...,DHSPRF3BSSCFSPSP1BSPCSPRPRPRPSPCRP2B2BRPRFRPRP...,178431396,68555,68593,72
SF,Johnny CuetoBuster PoseyMatt CainJeff Samardzi...,SPCSPSPRFSPCFRPSSSPSS1BRP2BCRP3BRPRP1B2BRPRPCR...,176531278,56451,56499,76
NYM,Yoenis CespedesJose ReyesDavid WrightNeil Walk...,CF3B3B2BCFOFSSRPRP1BRPSPCFSPRPSSCCSPRPSPSPLFRP...,176284679,62511,62534,54
BOS,David PriceHanley RamirezRick PorcelloPablo Sa...,SP1BSP3B2BRPSPLF1BSSSPCFRPRPRPLFRPCRF2BSPSPSPR...,174287098,62510,62541,62
NYY,CC SabathiaMasahiro TanakaJacoby EllsburyArold...,SPSPCFRP3BLFLF2BSPRPSS1BRPRPCFRPCSSSSCRPSPSP1B...,170389199,54439,54472,60
CHC,Jason HeywardJon LesterBen ZobristJohn LackeyJ...,RFSP2BSPSPCPCF1BRPRPRPSPRPRP3BSPSSSS2BSPLFRPCCFCF,170088502,52429,52456,53
WSH,Max ScherzerJayson WerthStephen StrasburgRyan ...,SPLFSP1BRFSP2BC3BRPSPCFRPRP2B1BCLFRPCFCFRPRPRP...,162742157,52421,52457,62
TOR,Troy TulowitzkiRussell MartinJose BautistaJosh...,SSCRF3BSPSPSPDH1B1BSPRPRPRP2BCLFRPCFRPRP2B2BRP...,162353367,58478,58499,50


In [14]:
df.to_csv('dataframe.csv', index=False) #index false é sem o index do pandas