# **Biblioteca Pandas**

### **Importando a biblioteca**

In [4]:
import pandas as pd
import statistics as st

### **Criando um dataframe com dicionário**

In [5]:
vendas = {
    "data": ["20/05/2025", "21/05/2025", "22/05/2025"],
    "lucro": ["50.000", "180.000", "350.000"],
    "marca":["Ford", "KIA", "Fiat"],
    "quantidade": ["1", "3", '5']
}

vendas_df = pd.DataFrame(vendas)




print("-"*50)
display(vendas_df)



--------------------------------------------------


Unnamed: 0,data,lucro,marca,quantidade
0,20/05/2025,50.0,Ford,1
1,21/05/2025,180.0,KIA,3
2,22/05/2025,350.0,Fiat,5


### **Vizualizando os Dados do Dicionário**

In [None]:
print(vendas)
print("-"*50)
print(vendas_df)

print("-"*50)
display(vendas_df)

{'data': ['20/05/2025', '21/05/2025', '22/05/2025'], 'lucro': ['50.000', '180.000', '350.000'], 'marca': ['Ford', 'KIA', 'Fiat'], 'quantidade': ['1', '3', '5']}
--------------------------------------------------
         data    lucro marca quantidade
0  20/05/2025   50.000  Ford          1
1  21/05/2025  180.000   KIA          3
2  22/05/2025  350.000  Fiat          5
--------------------------------------------------


Unnamed: 0,data,lucro,marca,quantidade
0,20/05/2025,50.0,Ford,1
1,21/05/2025,180.0,KIA,3
2,22/05/2025,350.0,Fiat,5


### **Importando Arquivo e base de dados**

In [8]:
#Importando base de dados externa - .csv

tempo_df = pd.read_csv("tempo.csv", sep=";")

### **Visualização dos dados**

In [None]:
# print(tempo_df)
# display(tempo_df)
tempo_df.head()


# print(tempo_df.head())

Unnamed: 0,Aparencia,Temperatura,Umidade,Vento,Jogar
0,sol,29,85.0,FALSO,nao
1,sol,26,90.0,VERDADEIRO,nao
2,nublado,28,86.0,FALSO,sim
3,chuva,21,,FALSO,sim
4,chuva,20,80.0,FALSO,sim


### **Análise Geral**

In [None]:
#shape
tempo_df.shape

(14, 5)

In [None]:
#describe
tempo_df.describe

In [9]:
#info()
tempo_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14 entries, 0 to 13
Data columns (total 5 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Aparencia    14 non-null     object 
 1   Temperatura  14 non-null     int64  
 2   Umidade      13 non-null     float64
 3   Vento        13 non-null     object 
 4   Jogar        14 non-null     object 
dtypes: float64(1), int64(1), object(3)
memory usage: 692.0+ bytes


In [None]:
# Agrupando valores qualitativos
print("-"*25)

cond_ap = tempo_df.groupby(["Aparencia"]).size()
display(cond_ap)

print("-"*25)

cond_ve = tempo_df.groupby(["Vento"]).size()
display(cond_ve)

print("-"*25)

cond_jo = tempo_df.groupby(["Jogar"]).size()
display(cond_jo)

print("-"*25)

-------------------------


Unnamed: 0_level_0,0
Aparencia,Unnamed: 1_level_1
chuva,5
menos,1
nublado,3
sol,5


-------------------------


Unnamed: 0_level_0,0
Vento,Unnamed: 1_level_1
FALSO,7
VERDADEIRO,6


-------------------------


Unnamed: 0_level_0,0
Jogar,Unnamed: 1_level_1
nao,5
sim,9


-------------------------


### **Verificando Dados Nulos**

In [10]:
# verificando dados nulos
tempo_df.isnull().sum()

Unnamed: 0,0
Aparencia,0
Temperatura,0
Umidade,1
Vento,1
Jogar,0


### **Limpando Dados Nulos**

**Dados Qualitativos**

In [13]:
# calculando a moda de vento
moda_vento = st.mode(tempo_df["Vento"])
print(moda_vento)

FALSO


In [11]:
# calculando a moda de aparencia
moda_aparencia = st.mode(tempo_df["Aparencia"])
print(moda_aparencia)

sol


Substituindo

In [14]:
# #substituir  NAN pela moda no vento
tempo_df["Vento"].fillna(moda_vento, inplace=True)

display(tempo_df["Vento"])

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  tempo_df["Vento"].fillna(moda_vento, inplace=True)


Unnamed: 0,Vento
0,FALSO
1,VERDADEIRO
2,FALSO
3,FALSO
4,FALSO
5,VERDADEIRO
6,VERDADEIRO
7,FALSO
8,FALSO
9,FALSO


In [None]:
#localizando dado e substituindo pela moda em aparencia
tempo_df.loc[tempo_df["Aparencia"] == "menos", "Aparencia"] = moda_aparencia
display(tempo_df["Aparencia"])

**Dados Quantitativos**

In [None]:
#calcular a mediana de umidade
mediana_umidade = st.median(tempo_df["Umidade"])
print(mediana_umidade)

85.5


In [None]:
#calcular a mediana de temperatura
mediana_temperatura = st.median(tempo_df["Temperatura"])
print(mediana_temperatura)

22.5


Substituindo

In [None]:
#substituindo dados nulos e discrepantes
tempo_df["Umidade"].fillna(mediana_umidade, inplace=True)
tempo_df.loc[tempo_df["Umidade"] > 100, "Umidade"] = mediana_umidade
tempo_df.loc[tempo_df["Umidade"] < 0, "Umidade"] = mediana_umidade

display(tempo_df["Umidade"])

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  tempo_df["Umidade"].fillna(mediana_umidade, inplace=True)


Unnamed: 0,Umidade
0,85.0
1,90.0
2,86.0
3,85.5
4,80.0
5,70.0
6,65.0
7,95.0
8,70.0
9,85.5


In [None]:
#substituindo dado discrepante
tempo_df.loc[tempo_df["Umidade"] > 100, "Umidade"] = mediana_umidade

### **Checando correções**

In [None]:
tempo_df.isnull().sum()

Unnamed: 0,0
Aparencia,0
Temperatura,0
Umidade,0
Vento,0
Jogar,0


In [None]:
display(tempo_df)

Unnamed: 0,Aparencia,Temperatura,Umidade,Vento,Jogar
0,sol,29,85.0,FALSO,nao
1,sol,26,90.0,VERDADEIRO,nao
2,nublado,28,86.0,FALSO,sim
3,chuva,21,85.5,FALSO,sim
4,chuva,20,80.0,FALSO,sim
5,chuva,18,70.0,VERDADEIRO,nao
6,menos,17,65.0,VERDADEIRO,sim
7,sol,660,95.0,FALSO,nao
8,sol,20,70.0,FALSO,sim
9,chuva,23,85.5,FALSO,sim
