# **Análise exploratória para o conjunto de dados: Produção de carne de frango no mundo**

**Importando as bibliotecas:**

In [1]:
import pandas as pd

**Carregando o conjunto de dados:**

In [2]:
df = pd.read_csv("https://raw.githubusercontent.com/dinopolo/Datasets/master/chicken-meat-production.csv")

**Visualizando as 5 primeiras entradas do conjunto de dados:**

In [3]:
df.head()

Unnamed: 0,Entity,Code,Year,"Livestock Primary - Meat, chicken - 1058 - Production - 5510 - tonnes (tonnes)"
0,Afghanistan,AFG,1961,5600
1,Afghanistan,AFG,1962,6000
2,Afghanistan,AFG,1963,6160
3,Afghanistan,AFG,1964,6400
4,Afghanistan,AFG,1965,6800


**Dimensões do conjunto de dados:**

In [4]:
print("Quantidade de entradas (linhas):\t{}".format(df.shape[0]))
print("Quantidade de atributos (colunas):\t{}".format(df.shape[1]))

Quantidade de entradas (linhas):	13209
Quantidade de atributos (colunas):	4


**Tipo de cada atributo:**

In [5]:
df.dtypes

Entity                                                                            object
Code                                                                              object
Year                                                                               int64
Livestock Primary - Meat, chicken - 1058 - Production - 5510 - tonnes (tonnes)     int64
dtype: object

**Renomeando o atributo: *Livestock Primary - Meat, chicken - 1058 - Production - 5510 - tonnes (tonnes)***

In [6]:
df.rename(columns={'Livestock Primary - Meat, chicken - 1058 - Production - 5510 - tonnes (tonnes)': 'Meat_production'}, inplace=True)
df.columns

Index(['Entity', 'Code', 'Year', 'Meat_production'], dtype='object')

**Verificando a presença de valores ausentes:**

In [7]:
round((df.isnull().sum() / df.shape[0]) * 100, 2)

Entity              0.00
Code               14.53
Year                0.00
Meat_production     0.00
dtype: float64

Percebe-se que há 14,53% de valores ausentes no atributo `Code` do conjunto de dados, no entanto esse atributo não será utilizado na análise explanatória, portanto não iremos fazer o tratamento desses valores.

Agora vamos verificar qual são as entradas que apresentam valores ausentes:

In [8]:
df.loc[df.Code.isnull()].Entity.unique()

array(['Africa', 'Americas', 'Asia', 'Asia, Central',
       'Australia & New Zealand', 'Belgium-Luxembourg', 'Caribbean',
       'Central America', 'Eastern Africa', 'Eastern Asia',
       'Eastern Europe', 'Ethiopia PDR', 'Europe', 'Europe, Western',
       'European Union', 'Land Locked Developing Countries',
       'Least Developed Countries', 'Low Income Food Deficit Countries',
       'Micronesia (region)', 'Middle Africa',
       'Net Food Importing Developing Countries', 'Northern Africa',
       'Northern America', 'Northern Europe', 'Oceania',
       'Pacific Islands Trust Territory',
       'Small island developing States', 'South America',
       'South Eastern Asia', 'Southern Africa', 'Southern Asia',
       'Southern Europe', 'Sudan (former)', 'Western Africa',
       'Western Asia'], dtype=object)

Como podemos perceber, os valores ausentes de `Code` representam continentes, união de países, regiões ou países extintos que não possuem código. Sendo assim, para essa análise a produção dessas entidades não nos interessa, com isso vamos eliminar essas entradas com valores ausentes do nosso conjunto de dados:

In [9]:
df = df.dropna()

Verificando se os valores ausentes foram retirados:

In [10]:
round((df.isnull().sum() / df.shape[0]) * 100, 2)

Entity             0.0
Code               0.0
Year               0.0
Meat_production    0.0
dtype: float64

**Exportando o conjunto de dados após a realização do tratamento:**

In [11]:
compression_opts = dict(method='zip', archive_name='chicken_meat_production_clean.csv')  

df.to_csv('out.zip', index=False, compression=compression_opts)