<a href="https://colab.research.google.com/github/raphasariedine/utfpr/blob/main/pos_aula06_(analisar_csv).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# Importando a biblioteca pandas
import pandas as pd

# Configurando a quantidade máxima de colunas e linhas visíveis ao imprimir o DataFrame
pd.set_option('display.max_columns', 85)
pd.set_option('display.max_rows', 85)

In [None]:
# O comando abaixo lê um CSV (Planilha de Dados) do diretório disponibilizado pelo google
# Parâmetros:
#  - nome do arquivo: esse arquivo deve ser enviado ao google colab
#  - sep: separador de dados, nesse caso é um ';' mas pode ser outro.
#  - chunksize: quantos registros do CSV serão lidos.
#    - o CSV que foi usando tem 500 mil linhas.
#    - não foi possível carregar de uma vez.
chunk = pd.read_csv('sigefcamposproducaodesementes.csv', sep=';', chunksize=10000)

# Cria o df com base no chunk de 10.000 registros
df = pd.concat(chunk)

# Exibe os primeiros 10 registros
df.head(10)

In [None]:
# Para fins de demostração, vou selecionar somente os dados da Safra 2024

# Lista para receber apenas os registros de 2024
filtered_chunks = []

# Laço de repetição para ler 10.000 registros
for chunk in pd.read_csv('sigefcamposproducaodesementes.csv', sep=';', chunksize=10000):
  # Filtrar apenas registros de 2024
  chunk_filtered = chunk[ chunk['Safra'].str.startswith('2024') ]
  # Adicionar à lista apenas registros de 2024
  filtered_chunks.append(chunk_filtered)

# Cria novo df com os registro da Safra de 2024
df = pd.concat(filtered_chunks)

In [None]:
# Contando os elementos de cada série (ou coluna)
df.count()

In [None]:
# Exibindo informações sobre o df
df.info()

In [None]:
# Menor área (hectares)
df['Area'].min()

# Maior área (hectares)
df['Area'].max()

In [None]:
# Elementos únicos por coluna
df['Especie'].nunique()

df['Cultivar'].nunique()

In [None]:
# Contando valores
df['Especie'].value_counts()
df['UF'].value_counts()

In [None]:
# Filtrar linhas em que Producao bruta contenha valores
filtro = df['Producao bruta'].notna()

df_filtrado = df[filtro]

df_filtrado

In [None]:
# Recuperar apenas os registros em que a Produção bruta é menor que a produção estimada.
filtro = df_filtrado['Producao bruta'] < df_filtrado['Producao estimada']

df_filtrado = df_filtrado[filtro].sort_values(by='Producao estimada', ascending=False)

df_filtrado

In [None]:
# Contando os elementos Cultivar

df['Cultivar'].value_counts()

In [None]:
# Recuperando as ocorrências do cultivar no estado do Paraná
filtro = (df['Cultivar'] == '55I57RSF IPRO') & (df['UF'] == 'PR')

# Criando um cópia do df, para poder alterá-lo.
df_cultivar = df[filtro].copy()

# Criando uma nova coluna chamada produtividade.
df_cultivar['Produtividade'] = df_cultivar['Producao bruta'] / df_cultivar['Area']

df_cultivar

In [None]:
# Depois de realizar as manipulações desejadas, salve no novo CSV em disco.
# Neste exemplo, será salvo o df (dados da safra de 2024)

df.to_csv('dados_processados.csv', sep=';')

In [None]:
# Sua vez!
# Carregue o CSV 'dados_processados.csv' no seu colab e responda as perguntas abaixo:

# Liste as 5 espécies com maior produção para um determinado estado (UF).
# Liste os registros que tem 'Status' não 'Aprovado'
# Liste os 5 registros com maior 'Produtividade' (essa coluna deve ser criada, siga o exemplo acima)
# Liste as espécies e cultivares apenas no município de Dois Vizinhos
# Mostre a soma da 'Produção Bruta' da Safra do município de Dois Vizinhos, independente do tipo de espécie/cultivare

In [1]:
# Importando a biblioteca pandas
import pandas as pd

# Configurando a quantidade máxima de colunas e linhas visíveis ao imprimir o DataFrame
pd.set_option('display.max_columns', 85)
pd.set_option('display.max_rows', 85)

df = pd.read_csv('dados_processados.csv', sep=';')

# Liste as 5 espécies com maior produção para um determinado estado (UF).


filtro_estado = input('Digite a UF: ')

filtro_estado = df[df['UF'] == filtro_estado]

df_agrupado = filtro_estado.groupby('Especie')['Producao bruta'].sum().sort_values(ascending=False).head(5)
df_agrupado


Digite a UF: DF


Unnamed: 0_level_0,Producao bruta
Especie,Unnamed: 1_level_1
Zea mays L.,3289.0
Sorghum bicolor (L.) Moench,1688.09
Avena sativa L.,0.0
Cicer arietinum L.,0.0
Crotalaria ochroleuca G. Don,0.0


In [2]:
# Liste os registros que tem 'Status' não 'Aprovado'

df_status = df[df['Status'] != 'Aprovado']

df_status

  cast_date_col = pd.to_datetime(column, errors="coerce")


Unnamed: 0.1,Unnamed: 0,Safra,Especie,Categoria,Cultivar,Municipio,UF,Status,Data do Plantio,Data de Colheita,Area,Producao bruta,Producao estimada
0,345429,2024/2024,Raphanus sativus L.,S1,Saxa,Candiota,RS,Inscrito,31/08/2024,,0.17,,0.050
1,351328,2024/2024,Sorghum bicolor (L.) Moench,Genética,ISX320,Cristalina,GO,Declarado,06/02/2024,,0.50,,1.000
2,365918,2024/2024,Barbarea verna (Mill.) Asch.,S1,De Terra,Candiota,RS,Inscrito,31/08/2024,,0.08,,0.016
3,366442,2024/2024,Avena sativa L.,S2,GMX Tambo,Passo Fundo,RS,Inscrito,20/08/2024,,30.00,,48.000
4,373594,2024/2024,Avena sativa L.,C1,GMX Tambo,Pontão,RS,Inscrito,15/08/2024,,83.00,,140.000
...,...,...,...,...,...,...,...,...,...,...,...,...,...
21163,500932,2024/2024,Avena sativa L.,Genética,UPFPS FARROUPILHA,Passo Fundo,RS,Declarado,02/08/2024,,0.20,,0.400
21164,500933,2024/2024,Avena sativa L.,Genética,UPFA OURO,Passo Fundo,RS,Declarado,02/08/2024,,0.10,,0.150
21165,500934,2024/2024,Oryza sativa L.,Genética,ANa6311,Sinop,MT,Declarado,02/08/2024,,2.20,,9.900
21166,500935,2024/2024,Solanum tuberosum L.,S1,ORCHESTRA,Mafra,SC,Inscrito,23/08/2024,,4.50,,150.000


In [3]:
# Liste os 5 registros com maior 'Produtividade' (essa coluna deve ser criada, siga o exemplo acima)

df['Produtividade'] = df['Producao bruta'] / df['Area'] # Criando a coluna 'Produtividade'

df_produtividade = df.sort_values('Produtividade', ascending=False) # Ordenando os dados pela coluna 'Produtividade'

df_produtividade.head(5) # Mostrando os 5 registros com maior Produtividade

Unnamed: 0.1,Unnamed: 0,Safra,Especie,Categoria,Cultivar,Municipio,UF,Status,Data do Plantio,Data de Colheita,Area,Producao bruta,Producao estimada,Produtividade
516,474949,2024/2024,Arachis hypogaea L.,C1,BRS 421 OL,Dourado,SP,Aprovado,25/01/2024,30/07/2024,120.0,581606.0,750.0,4846.716667
2119,480511,2024/2024,Zea mays L.,S2,BRS Gorutuba,Russas,CE,Aprovado,10/03/2024,12/08/0024,9.0,36284.0,36.0,4031.555556
6176,485154,2024/2024,Glycine max (L.) Merr.,S1,BRS 6105RR,São Luiz Gonzaga,RS,Aprovado,20/01/2024,22/05/2024,125.0,412050.0,375.0,3296.4
1628,479939,2024/2024,Glycine max (L.) Merr.,S2,80I82RSF IPRO,Paragominas,PA,Aprovado,22/03/2024,26/06/2024,300.0,879094.0,900.0,2930.313333
6248,485236,2024/2024,Glycine max (L.) Merr.,C1,22082I2X,Paragominas,PA,Aprovado,26/02/2024,08/07/2024,120.0,317220.0,360.0,2643.5


In [4]:
# Liste as espécies e cultivares apenas no município de Dois Vizinhos

df_dois_vizinhos = df[df['Municipio'] == 'Dois Vizinhos'][['Especie', 'Cultivar']]

df_dois_vizinhos

Unnamed: 0,Especie,Cultivar
171,Glycine max (L.) Merr.,63IX65RSF I2X
185,Triticum aestivum L.,TBIO Astro
2847,Glycine max (L.) Merr.,TMG2360IPRO
4364,Glycine max (L.) Merr.,63IX65RSF I2X
4365,Glycine max (L.) Merr.,63IX65RSF I2X
6547,Glycine max (L.) Merr.,TMG7362IPRO
6548,Glycine max (L.) Merr.,TMG7362IPRO
8648,Triticum aestivum L.,TBIO Calibre
8781,Triticum aestivum L.,ORSFEROZ
9453,Triticum aestivum L.,TBIO Calibre


In [5]:
# Mostre a soma da 'Produção Bruta' da Safra do município de Dois Vizinhos, independente do tipo de espécie/cultivare

df_dois_vizinhos = df[df['Municipio'] == 'Dois Vizinhos']

df_dois_vizinhos['Producao bruta'].sum()

464.755