# EXERCÍCIO 2: ANÁLISE EXPLORATÓRIA DOS DADOS

### Gerando gráficos

Primeiramente, analisamos um grande banco de dados que nos foi fornecido e extraímos as informações de interesse, exibindo-as em um gráfico de setores

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

url = "https://gist.github.com/aishwarya8615/89d9f36fc014dea62487f7347864d16a"

# Read the table from the URL into a dataframe
dataf = pd.read_html(url)[0]

labels = ['Developing', 'Developed']
sizes = dataf['Status'].value_counts()

fig, ax = plt.subplots()
ax.pie(sizes, labels=labels, autopct='%1.1f%%', startangle=90, explode = [0.1,0])
ax.axis('equal')  # Equal aspect ratio ensures that pie is drawn as a circle.

plt.show()

### Gerando histograma e analisando variância

Por meio de bibliotecas como numpy, podemos analisar nossos dados numéricos rapidamente, por meio de funções já prontas de média e mediana já imbutidas. Por meio destes, e utilizando as informações observadas em um histograma (gráfico de área total 1), podemos ter um novo entendimento sobre o que encontramos, e quão correlacionados nossos dados estão (ajudadando a comparar futuras informçãoes, e ajudando a prever novos dados).

In [None]:
import pandas as pd
import numpy as np
from scipy.stats import iqr
import matplotlib.pyplot as plt

url = "https://gist.github.com/aishwarya8615/89d9f36fc014dea62487f7347864d16a"

# Read the table from the URL into a dataframe
dataf = pd.read_html(url)[0]

data = dataf['Life_expectancy']
num_bins = 20

fig= plt.figure(figsize=(6,5))

n, bins, patches = plt.hist(data, num_bins, facecolor='blue', alpha=0.5, density=True, edgecolor='black', linewidth=1.2)
plt.xlabel("Expectativa de vida", fontsize = 15)
plt.ylabel("Porcentagem", fontsize = 15)
plt.xticks(fontsize=10)
plt.yticks(fontsize=10)
plt.show()

med = np.mean(data)
print('A média da expectativa de vida:', med)

def variancia(data):
    m = np.mean(data)
    N = len(data)
    s = 0
    for i in np.arange(0, len(data)):
        s = s + (data[i]-m)**2
    s = s/(N-1)
    return s

print('Variância do dado:', variancia(data))

# Outras informações de relevância sobre o dado
#print('IQR do dado:', iqr(data))
#print('Amplitude dos dados:', np.max(data)-np.min(data))

### Analisando dados específicos

Agora escolhemos alguns países para analisar de forma mais próxima ao longo do tempo, e, similarmente, escolhemos um momento específico para analisar os países

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

# Carregamento dos dados
url = "https://gist.github.com/aishwarya8615/89d9f36fc014dea62487f7347864d16a"

# Lê e filtra os dados
dataf = pd.read_html(url)[0]
paises_analisados = ['Ireland', 'Finland', 'Netherlands', 'Zambia', 'Angola']
filtered_data = dataf[dataf['Country'].isin(paises_analisados)]

# Versão do plot usando groupby
fig, ax = plt.subplots(figsize=(10, 6))

# Agrupa por país e plota diretamente
for country, group in filtered_data.groupby('Country'):
    ax.plot(group['Year'], group['Life_expectancy'], label=country, marker='o', markersize=4)

# Configurações do gráfico
ax.legend()
ax.set_xlabel('Ano', fontsize=12)
ax.set_ylabel('Expectativa de vida', fontsize=12)
ax.set_title('Expectativa de vida ao longo do tempo', fontsize=14)
plt.show()

# Análise específica do ano de 2014
data_2014 = dataf[dataf['Year'] == 2014]

# Encontrando os extremos do ano escolhido 
country_highest = data_2014.loc[data_2014['Life_expectancy'].idxmax(), 'Country']
country_lowest = data_2014.loc[data_2014['Life_expectancy'].idxmin(), 'Country']

print(f"País com a maior expectativa de vida em 2014: {country_highest}")
print(f"País com a menor expectativa de vida em 2014: {country_lowest}")

### Análise exploratória de dados

Podemos exibir dados por meio de gráficos, como boxplot, e avaliar mais facilmente a existência de outliers e suas medianas (Também conhecida como a linha do segundo quartil)

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Configurar estilo do seaborn
sns.set_style("whitegrid")
plt.rcParams['figure.figsize'] = (12, 8)

url = "https://gist.github.com/aishwarya8615/89d9f36fc014dea62487f7347864d16a"
dataf = pd.read_html(url)[0]

# Países para análise
paises_analisados = ['Ireland', 'Finland', 'Netherlands', 'Zambia', 'Angola']

# Filtrar dados para os países selecionados
filtered_data = dataf[dataf['Country'].isin(paises_analisados)].copy()

# Criar o boxplot
plt.figure(figsize=(12, 8))
ax = sns.boxplot(data=filtered_data, 
                 x='Country', 
                 y='Schooling',
                 order=paises_analisados,
                 palette='Set2')

# Personalizar o gráfico
plt.title('Distribuição da Escolaridade por País', fontsize=16, fontweight='bold', pad=20)
plt.xlabel('País', fontsize=14)
plt.ylabel('Anos de Escolaridade', fontsize=14)
plt.xticks(rotation=45, fontsize=12)
plt.yticks(fontsize=12)

# Adicionar linha da mediana geral
overall_median = filtered_data['Schooling'].median()
plt.axhline(y=overall_median, color='red', linestyle='--', alpha=0.7, 
           label=f'Mediana Geral: {overall_median:.1f} anos')
plt.legend()

plt.tight_layout()
plt.show()

# Calcular e exibir as medianas
print("ANÁLISE DAS MEDIANAS DE ESCOLARIDADE")

medianas = {}
for country in paises_analisados:
    country_data = filtered_data[filtered_data['Country'] == country]['Schooling']
    if not country_data.empty:
        median_value = country_data.median()
        medianas[country] = median_value
        print(f"{country:<15}: {median_value:.2f} anos")
    
print("\n")

# Encontrar o país com maior mediana
if medianas:
    pais_maior_mediana = max(medianas, key=medianas.get)
    maior_mediana = medianas[pais_maior_mediana]
    
    print(f"PAÍS COM MAIOR NÍVEL DE ESCOLARIDADE (mediana):")
    print(f"{pais_maior_mediana}: {maior_mediana:.2f} anos")

### Analisando correlação

Agora adotando um novo dataset, fazemos uma análise de correlação entre seus dados.

In [None]:
import pandas as pd
import requests
from bs4 import BeautifulSoup

url = "https://www.worldometers.info/world-population/population-by-country/"

# Send a GET request to the URL
response = requests.get(url)

# Parse the HTML content with BeautifulSoup
soup = BeautifulSoup(response.content, 'html.parser')

# Find the table containing the population data (find the first table)
table = soup.find('table')

# Convert the table to a Pandas DataFrame
df = pd.read_html(str(table))[0]

# Print the DataFrame
df.head(10)

