<p style="font-family: Arial; font-size:1.75em;color:#004AAD; font-style:bold">Introdução ao Pandas</p>
<p>
    O nome pandas é derivado de panel data (dados em painel).<br>
    Pandas foi projetado para trabalhar com dados tabulares e heterogêneos de forma rápida e fácil.
</p>

<p style="font-family: Arial; font-size:1.75em;color:#004AAD; font-style:bold">Instalação</p>
<li>
    Execute no terminal o comando: <b>$pip install pandas</b>
</li>
<p style="font-family: Arial; font-size:1.75em;color:#004AAD; font-style:bold">Importação da biblioteca</p>


In [73]:
import pandas as pd

<p style="font-family: Arial; font-size:1.75em;color:#004AAD; font-style:bold">Principais estruturas de dados do pandas</p>
<p style="font-family: Arial; font-size:1.75em;color:#004AAD; font-style:bold">Series</p>
<p> 
    Muito semelhante a um dicionário, porém otimizado para operações matemáticas.
</p>

In [74]:
ser = pd.Series(data=[65, 80, 100, 90, 75], index=[
                'Maria', 'José', 'João', 'Lara', 'Marcos'])
ser

Maria      65
José       80
João      100
Lara       90
Marcos     75
dtype: int64



<p style="font-family: Arial; font-size:1.75em;color:#004AAD; font-style:bold">Data Frame</p>
<p> 
    Representação de uma tabela de dados que contém uma coleção ordenada de colunas, em que cada uma pode ter um tipo de valor diferente (numérico,string, booleano etc.). O DataFrame(DF) tem índicies tanto para as colunas quanto para linhas.
</p>
<p>
    Exitem várias formas de se criar um DataFrame. Por exemplo a partir de dicionários e arrays multidimendionais. 
</p>

<p style="font-family: Arial; font-size:1.75em;color:#004AAD; font-style:bold">Ingestão de dados</p>
<p style="font-family: Arial; font-size:1.75em;color:#004AAD; font-style:bold">A partir de uma arquivo CSV</p>

In [75]:
# Importação a partir de uma arquivo csv
df_csv = pd.read_csv('employee.csv', sep=',', encoding='latin-1')

# Retorna as cinco primeiras linhas
df_csv.head()

Unnamed: 0,NumCad,NomFun,ValSal,NomCcu,DatNas,DatAdm
0,1,Vitor Duarte,1400.0,Finaceiro,11/08/1985,26/08/2021
1,2,Dr. Luigi Martins,8000.0,TECH,29/08/1983,28/11/2015
2,3,Srta. Clara Melo,1800.0,TECH,31/12/1995,23/03/2020
3,4,Lucas Gabriel Mendes,10000.0,Finaceiro,20/07/1993,13/01/2021
4,5,Laura Cardoso,5000.0,TECH,20/03/1975,19/03/2014


In [76]:
# Importação a partir de um arquivo excel
df_excel = pd.read_excel('employees.xlsx')
df_excel

Unnamed: 0,NumCad,NomFun,ValSal,NomCcu,DatNas,DatAdm
0,1,Vitor Duarte,1400,Finaceiro,11/08/1985,26/08/2021
1,2,Dr. Luigi Martins,8000,TECH,29/08/1983,28/11/2015
2,3,Srta. Clara Melo,1800,TECH,31/12/1995,23/03/2020
3,4,Lucas Gabriel Mendes,10000,Finaceiro,20/07/1993,13/01/2021
4,5,Laura Cardoso,5000,TECH,20/03/1975,19/03/2014
...,...,...,...,...,...,...
994,995,Fernando Ramos,1800,Departamento Pessoal,21/08/1982,28/06/2023
995,996,Sra. Raquel Silva,5000,Finaceiro,12/01/1974,08/07/2021
996,997,Mariana Farias,1800,Departamento Pessoal,07/10/1977,28/04/2022
997,998,Dra. Nicole Caldeira,8000,Marketing,06/08/2004,03/08/2022


<h2 style="font-family: Arial; font-size:1.75em;color:#004AAD; font-style:bold">Manipulação de Dados Básica</h2>

<p style="font-family: Arial; font-size:1.75em;color:#004AAD; font-style:bold">Estatística Descritiva</p>

In [77]:
# Média
df_csv['ValSal'].mean()

4657.1

In [78]:
# Min
df_csv['ValSal'].min()

1400.0

In [79]:
# Max
df_csv['ValSal'].max()

10000.0

In [80]:
# Moda - valor que mais aparece
df_csv['ValSal'].mode()

0    1800.0
dtype: float64

<p style="font-family: Arial; font-size:1.75em;color:#004AAD; font-style:bold">Limpeza de dados</p>

In [81]:
df_excel.shape

(999, 6)

In [82]:
# Verifica se existe alguma coluna com valores nulos
df_excel.isnull().any()

NumCad    False
NomFun    False
ValSal    False
NomCcu    False
DatNas    False
DatAdm    False
dtype: bool

In [83]:
# Remover as linhas com dados nulos
df_excel_1 = df_excel.dropna()

In [84]:
df_excel.iloc[747]

NumCad                              748
NomFun    Sr. Gustavo Henrique Oliveira
ValSal                             3300
NomCcu                             TECH
DatNas                       12/04/1999
DatAdm                       09/08/2023
Name: 747, dtype: object

In [85]:
# Verifica se existe alguma coluna com valores nulos
df_excel_1.shape

(999, 6)

<h3 style="font-family: Arial; font-size:1.75em;color:#004AAD; font-style:bold">Indexação</h3>

<p style="font-family: Arial; font-size:1.75em;color:#004AAD; font-style:bold">Colunas</p>

In [86]:
# Obter uma coluna específica 
df_csv[['NumCad','DatAdm']].head()

Unnamed: 0,NumCad,DatAdm
0,1,26/08/2021
1,2,28/11/2015
2,3,23/03/2020
3,4,13/01/2021
4,5,19/03/2014


In [87]:
# Conjunto de colunas
df_csv[:5]

Unnamed: 0,NumCad,NomFun,ValSal,NomCcu,DatNas,DatAdm
0,1,Vitor Duarte,1400.0,Finaceiro,11/08/1985,26/08/2021
1,2,Dr. Luigi Martins,8000.0,TECH,29/08/1983,28/11/2015
2,3,Srta. Clara Melo,1800.0,TECH,31/12/1995,23/03/2020
3,4,Lucas Gabriel Mendes,10000.0,Finaceiro,20/07/1993,13/01/2021
4,5,Laura Cardoso,5000.0,TECH,20/03/1975,19/03/2014


<p style="font-family: Arial; font-size:1.75em;color:#004AAD; font-style:bold">Linhas</p>

In [88]:
# Obter linhas específicas
df_csv.loc[[0,1,10]]

Unnamed: 0,NumCad,NomFun,ValSal,NomCcu,DatNas,DatAdm
0,1,Vitor Duarte,1400.0,Finaceiro,11/08/1985,26/08/2021
1,2,Dr. Luigi Martins,8000.0,TECH,29/08/1983,28/11/2015
10,11,João Vitor Fernandes,3300.0,Finaceiro,30/11/1992,02/08/2021


In [89]:
# Filtrar linha com filtro booleano
maior_5000 = df_csv['ValSal'] > 5000
df_csv[maior_5000]

Unnamed: 0,NumCad,NomFun,ValSal,NomCcu,DatNas,DatAdm
1,2,Dr. Luigi Martins,8000.0,TECH,29/08/1983,28/11/2015
3,4,Lucas Gabriel Mendes,10000.0,Finaceiro,20/07/1993,13/01/2021
9,10,Diogo Pinto,10000.0,Marketing,02/08/1963,16/06/2023
18,19,Dr. André Santos,10000.0,Departamento Pessoal,15/07/1976,23/10/2018
28,29,Dra. Letícia Porto,10000.0,TECH,06/10/1978,04/01/2024
...,...,...,...,...,...,...
991,992,Nathan Correia,8000.0,Recursos Humanos,26/10/1986,14/07/2021
992,993,Maria Souza,10000.0,Departamento Pessoal,10/04/1995,11/12/2020
997,998,Dra. Nicole Caldeira,8000.0,Marketing,06/08/2004,03/08/2022
998,999,Murilo Rezende,10000.0,Recursos Humanos,28/10/1958,03/04/2021


In [90]:
# Filtrar linhas que contenham sub string
is_ana = df_csv['NomFun'].str.contains('Ana')
df_csv[is_ana].head(10)

Unnamed: 0,NumCad,NomFun,ValSal,NomCcu,DatNas,DatAdm
22,23,Dra. Ana Julia Azevedo,2500.0,Finaceiro,27/03/2005,10/06/2015
52,53,Ana Carolina Vieira,10000.0,TECH,27/08/1995,10/10/2014
55,56,Ana Laura Nogueira,1800.0,TECH,31/08/1960,05/04/2020
71,72,Ana Júlia Teixeira,3300.0,TECH,11/07/1971,06/07/2021
79,80,Ana Beatriz Souza,3300.0,TECH,26/12/1996,21/07/2016
81,82,Ana Jesus,8000.0,Recursos Humanos,28/09/1979,25/11/2017
165,166,Ana Vitória Dias,1800.0,Departamento Pessoal,03/10/1987,26/09/2014
201,202,Ana Sophia Araújo,1800.0,Marketing,06/11/1993,26/10/2020
247,248,Ana Lívia Azevedo,1400.0,TECH,27/05/1970,16/08/2022
310,311,Ana Beatriz Correia,8000.0,Recursos Humanos,22/12/1997,25/07/2022


In [91]:
# Usa mais de uma condição em filtros booleanos
df_csv[maior_5000 & is_ana]

Unnamed: 0,NumCad,NomFun,ValSal,NomCcu,DatNas,DatAdm
52,53,Ana Carolina Vieira,10000.0,TECH,27/08/1995,10/10/2014
81,82,Ana Jesus,8000.0,Recursos Humanos,28/09/1979,25/11/2017
310,311,Ana Beatriz Correia,8000.0,Recursos Humanos,22/12/1997,25/07/2022
378,379,Ana Luiza Nogueira,10000.0,Marketing,26/03/1970,05/11/2023
392,393,Ana Sophia Freitas,10000.0,Departamento Pessoal,03/12/1965,28/09/2018
397,398,Ana Clara Castro,8000.0,Departamento Pessoal,07/10/1988,12/04/2016
401,402,Ana Beatriz Nascimento,10000.0,Recursos Humanos,13/09/1966,07/12/2023
426,427,Ana Beatriz da Cruz,8000.0,Marketing,26/03/1961,03/10/2023
460,461,Srta. Ana Júlia Porto,10000.0,Finaceiro,26/08/1979,26/07/2021
630,631,Dra. Ana Júlia Aragão,10000.0,Departamento Pessoal,28/01/1969,28/01/2018


<p style="font-family: Arial; font-size:1.75em;color:#004AAD; font-style:bold">Agrupamentos e Agregações</p>

In [93]:
df_count = df_csv[['NomFun','NomCcu']].groupby('NomCcu').count()
df_count

Unnamed: 0_level_0,NomFun
NomCcu,Unnamed: 1_level_1
Departamento Pessoal,201
Finaceiro,186
Marketing,218
Recursos Humanos,185
TECH,210


In [94]:
df_mean = df_csv[['ValSal', 'NomCcu']].groupby('NomCcu').mean()
df_mean

Unnamed: 0_level_0,ValSal
NomCcu,Unnamed: 1_level_1
Departamento Pessoal,4728.855721
Finaceiro,4597.311828
Marketing,4689.449541
Recursos Humanos,4385.405405
TECH,4847.142857


In [None]:
df_sum = df_csv[['ValSal', 'NomCcu']].groupby('NomCcu').sum()
df_sum