# Analise exploratoria
## Reconhecimento dos dados.

In [1]:
# importando biblioteca pandas
import pandas as pd

In [2]:
# Criando dicionario

frutas = {
    'fruta':['banana','uva','maçã','kiwi','morango','abacaxi','melão','pêra'],
    'lote':[5,3,4,7,7,10,10,10]
}

# Convertendo em dataframe

df = pd.DataFrame(frutas)

# mostrando o dataframe
df

Unnamed: 0,fruta,lote
0,banana,5
1,uva,3
2,maçã,4
3,kiwi,7
4,morango,7
5,abacaxi,10
6,melão,10
7,pêra,10


## Reconhecimento de colunas (Variaveis)

O reconhecimento inicial do dataset envolve algumas etapas essenciais para entender sua estrutura e qualidade dos dados.

### 1. Visualização Inicial

- Exibir as primeiras e últimas linhas com `df.head()` e `df.tail()`.

- Observar amostras para entender o formato das colunas.

### 2. Estrutura do Dataset

- `df.info()`: verificar tipos de dados e valores nulos.

- `df.shape`: identificar o número de linhas e colunas.

### 3. Estatísticas Básicas

- `df.describe()`: obter estatísticas descritivas (média, desvio padrão, mínimo e máximo).

- `df.describe(include="object")`: estatísticas para colunas categóricas.

### 4. Verificação de Valores Únicos

- `df.nunique()`: contar valores únicos por coluna.

### 5. Identificação de Valores Ausentes

- `df.isnull().sum()`: contar valores ausentes em cada coluna.

In [3]:
df.head()

Unnamed: 0,fruta,lote
0,banana,5
1,uva,3
2,maçã,4
3,kiwi,7
4,morango,7


In [4]:
df.tail()

Unnamed: 0,fruta,lote
3,kiwi,7
4,morango,7
5,abacaxi,10
6,melão,10
7,pêra,10


In [5]:
df.shape

(8, 2)

In [6]:
df.describe()

Unnamed: 0,lote
count,8.0
mean,7.0
std,2.828427
min,3.0
25%,4.75
50%,7.0
75%,10.0
max,10.0


In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   fruta   8 non-null      object
 1   lote    8 non-null      int64 
dtypes: int64(1), object(1)
memory usage: 260.0+ bytes


In [8]:
df.nunique()

fruta    8
lote     5
dtype: int64

In [9]:
df.isnull().sum()

fruta    0
lote     0
dtype: int64

In [10]:
df.describe(include="object")

Unnamed: 0,fruta
count,8
unique,8
top,banana
freq,1


## Métricas

### Tendencia central

1. **média:** somatório dividido por quantidade
1. **mediana:** os dados são ordenados e pega-se o valor do meio
1. **moda:** o numero que mais se repete dentro do grupo de dados

### Medidas de Disperção

1. **variância:** média dos quadrados de cada desvio
1. **desvio padrão:** raiz quadrada da variância (populacional e amostral)
1. **desvio:** a distancia dos dados em relação a sua média 

In [11]:
# média
media = df['lote'].mean()

# mediana
mediana = df['lote'].median()

# moda
moda = df['lote'].mode()

# variancia
variancia = df['lote'].var()

# desvio padrão
desvio = df['lote'].std()

# desvio padrão
desvio = round(df['lote'].std(ddof=1),3)

print(f'Media: {media}')
print(f'Mediana: {mediana}')
print(f'Moda: {moda}')
print(f'Variancia: {variancia}')
print(f'Desvio padrão: {desvio}')

Media: 7.0
Mediana: 7.0
Moda: 0    10
Name: lote, dtype: int64
Variancia: 8.0
Desvio padrão: 2.828


## Passo extra

No dataset acima temos suas colunas bem estruturas no que diz respeito ao nome. Porem nem sempre sera assim, e você pode precisar renomar as colunas, segue alguns exmplos de como realizar isso.

O primeiro passo é verificar o nome das colunas presentes e depois renomear as que desejar, ou passar uma lista de nomes.

veja o exemplo

In [12]:
df.columns

Index(['fruta', 'lote'], dtype='object')

In [13]:
# renomeando de forma individual

df.rename(columns={'fruta':'frutas', 'lote':'quantidade'})

# veja que mudamos a Série fruta para frutas e lote para quantidade

Unnamed: 0,frutas,quantidade
0,banana,5
1,uva,3
2,maçã,4
3,kiwi,7
4,morango,7
5,abacaxi,10
6,melão,10
7,pêra,10


In [14]:
# podemos passar uma lista com o nome de todas as colunas para renomea-las todas de uma unica vez
df.columns = ['alimentos','qtd']

df

Unnamed: 0,alimentos,qtd
0,banana,5
1,uva,3
2,maçã,4
3,kiwi,7
4,morango,7
5,abacaxi,10
6,melão,10
7,pêra,10


In [15]:
# Uma das técnicas abordadas em sala de aula percorre as listas das séries aplicando 
# alguma regra que sera feita em todas, como por exemplo deixar maiusuclas, minusculas, 
# capitalize, etc.

# passo 1 - capturar o nome atual das séries e converter em lista
colunas_atuais = list(df.columns)

# passo 2 - aplicando regras (no nosso exemplo deixaremos maiusculas)
colunas_novas = []

for coluna in colunas_atuais:
    colunas_novas.append(coluna.upper())

# passo 3 - aplicando as novas colunas como nomes das séries
df.columns = colunas_novas

# exibindo o dataframe com as séries maiusculas
df

Unnamed: 0,ALIMENTOS,QTD
0,banana,5
1,uva,3
2,maçã,4
3,kiwi,7
4,morango,7
5,abacaxi,10
6,melão,10
7,pêra,10


In [16]:
# É possivel aplicar tudo isso em apenas uma linha, usando o List Comprehension
# neste exemplo estamos capitalizando o nome das séries

df.columns = [coluna.capitalize() for coluna in list(df.columns)]

# Exibindo o resultado
df

Unnamed: 0,Alimentos,Qtd
0,banana,5
1,uva,3
2,maçã,4
3,kiwi,7
4,morango,7
5,abacaxi,10
6,melão,10
7,pêra,10
