In [1]:
import pandas as pd
import numpy as np
from scipy.stats import skew, kurtosis

# Lendo o arquivo CSV
df = pd.read_csv(
    '../AIRPOL_data.csv',
    delimiter=';',
    header=0,
    usecols=[0, 1, 2, 3, 4, 5, 6, 7]
)

# Filtrando os dados para os países especificados e STROKE
countries = ['Spain', 'France', 'Italy', 'Greece']
stroke_data = df[(df['Country'].isin(countries)) & (df['Outcome'] == 'Stroke')]

# Convertendo 'Value' para numérico
stroke_data['Value'] = pd.to_numeric(stroke_data['Value'].str.replace(',', '.'), errors='coerce')

# Função para calcular todas as estatísticas
def calculate_stats(data):
    if len(data) == 0:
        return pd.Series({
            'Média': np.nan,
            'Q1': np.nan,
            'Mediana (Q2)': np.nan,
            'Q3': np.nan,
            'Desvio Padrão': np.nan,
            'Assimetria': np.nan,
            'Curtose': np.nan
        })
    return pd.Series({
        'Média': data.mean(),
        'Q1': data.quantile(0.25),
        'Mediana (Q2)': data.median(),
        'Q3': data.quantile(0.75),
        'Desvio Padrão': data.std(),
        'Assimetria': skew(data.dropna()),
        'Curtose': kurtosis(data.dropna(), fisher=True)  # Curtose "excessiva" (subtrai 3 da curtose normal)
    })

# Calculando estatísticas para cada país
stats_table = pd.DataFrame({
    country: calculate_stats(stroke_data[stroke_data['Country'] == country]['Value'])
    for country in countries
}).T

# Renomeando o índice para nomes completos dos países
stats_table.index = ['Espanha', 'França', 'Itália', 'Grécia']

# Formatando com 4 casas decimais
stats_table = stats_table.round(4)

# Exibindo a tabela
print("\nTabela de Estatísticas do Número de Mortes Prematuras (STROKE):")
print(stats_table.to_string())


Tabela de Estatísticas do Número de Mortes Prematuras (STROKE):
            Média    Q1  Mediana (Q2)      Q3  Desvio Padrão  Assimetria   Curtose
Espanha  440.9848  13.0          56.5  248.75      1654.5759     11.1475  164.9747
França   259.1919   6.0          36.5  150.00      1207.8623     16.8619  361.7898
Itália   668.8781  21.0          78.0  295.25      3425.7706     16.2732  338.9293
Grécia   334.1071   7.0          39.5  188.50      1321.0480     10.4476  140.3499


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  stroke_data['Value'] = pd.to_numeric(stroke_data['Value'].str.replace(',', '.'), errors='coerce')
