# Trabalho 3° Unidade

## Fluxo Escolar no Estado de São Paulo (SP)

In [28]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import scipy.stats as stats

## CARREGAR O ARQUIVO

In [29]:
file_path = 'escolas.mod.csv'
data = pd.read_csv(file_path)

## INSPECIONAR OS DADOS

In [30]:
print(data.columns)
print(data.dtypes)

Index(['ano', 'sigla_uf', 'rede', 'diretoria', 'id_municipio', 'id_escola',
       'id_escola_sp', 'codigo_tipo_escola', 'prop_aprovados_anos_inciais_ef',
       'prop_reprovados_anos_iniciais_ef', 'prop_abandono_anos_iniciais_ef',
       'prop_aprovados_anos_finais_ef', 'prop_reprovados_anos_finais_ef',
       'prop_abandono_anos_finais_ef', 'prop_aprovados_em',
       'prop_reprovados_em', 'prop_abandono_em'],
      dtype='object')
ano                                   int64
sigla_uf                             object
rede                                 object
diretoria                            object
id_municipio                        float64
id_escola                             int64
id_escola_sp                          int64
codigo_tipo_escola                  float64
prop_aprovados_anos_inciais_ef      float64
prop_reprovados_anos_iniciais_ef    float64
prop_abandono_anos_iniciais_ef      float64
prop_aprovados_anos_finais_ef       float64
prop_reprovados_anos_finais_ef    

## VISUALIZAR O CONTEÚDO DE CADA COLUNA

In [31]:
for column in data.columns:
    print(f"Coluna: {column}")
    print(data[column].head(), "\n")

Coluna: ano
0    2011
1    2011
2    2011
3    2011
4    2012
Name: ano, dtype: int64 

Coluna: sigla_uf
0    SP
1    SP
2    SP
3    SP
4    SP
Name: sigla_uf, dtype: object 

Coluna: rede
0    estadual
1    estadual
2    estadual
3    estadual
4         NaN
Name: rede, dtype: object 

Coluna: diretoria
0                 SUZANO
1                 SANTOS
2                 SANTOS
3               BOTUCATU
4    SAO JOSE DOS CAMPOS
Name: diretoria, dtype: object 

Coluna: id_municipio
0    3552502.0
1    3548500.0
2    3548500.0
3    3506904.0
4    3549904.0
Name: id_municipio, dtype: float64 

Coluna: id_escola
0    35906300
1    35909816
2    35038805
3    35014801
4    35902548
Name: id_escola, dtype: int64 

Coluna: id_escola_sp
0    906300
1    909816
2     38805
3     14801
4    902548
Name: id_escola_sp, dtype: int64 

Coluna: codigo_tipo_escola
0   NaN
1   NaN
2   NaN
3   NaN
4   NaN
Name: codigo_tipo_escola, dtype: float64 

Coluna: prop_aprovados_anos_inciais_ef
0    96.460175
1  

## INSPECIONAR OS REGISTROS DA PLANILHA

In [32]:
data.head()

Unnamed: 0,ano,sigla_uf,rede,diretoria,id_municipio,id_escola,id_escola_sp,codigo_tipo_escola,prop_aprovados_anos_inciais_ef,prop_reprovados_anos_iniciais_ef,prop_abandono_anos_iniciais_ef,prop_aprovados_anos_finais_ef,prop_reprovados_anos_finais_ef,prop_abandono_anos_finais_ef,prop_aprovados_em,prop_reprovados_em,prop_abandono_em
0,2011,SP,estadual,SUZANO,3552502.0,35906300,906300,,96.460175,2.654867,0.884956,92.708336,3.125,4.166667,89.655174,6.896552,3.448276
1,2011,SP,estadual,SANTOS,3548500.0,35909816,909816,,96.296295,1.851852,1.851852,91.366905,3.597122,5.035971,75.916229,10.994764,13.089005
2,2011,SP,estadual,SANTOS,3548500.0,35038805,38805,,93.430656,5.839416,0.729927,86.082474,13.402061,0.515464,71.60804,27.386934,1.005025
3,2011,SP,estadual,BOTUCATU,3506904.0,35014801,14801,,93.548386,3.225806,3.225806,88.888886,6.060606,5.050505,86.257309,1.754386,11.988304
4,2012,SP,,SAO JOSE DOS CAMPOS,3549904.0,35902548,902548,,96.99,2.8,0.22,93.24,5.37,1.39,86.59,10.37,


## REMOVER LINHAS COM VALORES AUSENTES

In [33]:
data = data.dropna()

## REMOVE OS VALORES ZEROS DAS COLUNAS

In [34]:
data = data.loc[~(data == 0).any(axis=1)]

## CRIAR LISTA DE COLUNAS QUANTITAVAS E QUALITATIVAS

In [35]:
variable_types = {
    "Quantitativas": [
        "prop_aprovados_anos_inciais_ef", "prop_reprovados_anos_iniciais_ef", "prop_abandono_anos_iniciais_ef", "prop_aprovados_anos_finais_ef", "prop_reprovados_anos_finais_ef", "prop_abandono_anos_finais_ef"
    ],
    "Qualitativas": [
        "ano", "sigla_uf", "rede", "diretoria", "id_municipio", "id_escola", "id_escola_sp", "codigo_tipo_escola"
    ]
}

print("Quantitativas:", variable_types["Quantitativas"])
print("Qualitativas:", variable_types["Qualitativas"])

Quantitativas: ['prop_aprovados_anos_inciais_ef', 'prop_reprovados_anos_iniciais_ef', 'prop_abandono_anos_iniciais_ef', 'prop_aprovados_anos_finais_ef', 'prop_reprovados_anos_finais_ef', 'prop_abandono_anos_finais_ef']
Qualitativas: ['ano', 'sigla_uf', 'rede', 'diretoria', 'id_municipio', 'id_escola', 'id_escola_sp', 'codigo_tipo_escola']


## INICIANDO AS ESTATÍSTICAS

In [36]:

# Inicializando o dicionário de estatísticas
stats = {}

# Estatísticas para variáveis quantitativas
for column in variable_types["Quantitativas"]:
    stats[column] = {
        "média": data[column].mean(),
        "moda": data[column].mode().iloc[0] if not data[column].mode().empty else None,
        "mediana": data[column].median(),
        "variância": data[column].var(),
        "amplitude": data[column].max() - data[column].min(),
        "mínimo": data[column].min(),
        "máximo": data[column].max(),
        "valores_distintos": data[column].nunique(),
    }

# Estatísticas para variáveis qualitativas
for column in variable_types["Qualitativas"]:
    stats[column] = {
        "valores_distintos": data[column].nunique(),
        "moda": data[column].mode().iloc[0] if not data[column].mode().empty else None,
    }

# Convertendo para DataFrame para exibição
stats_df = pd.DataFrame(stats).T

# Exibindo o DataFrame com as estatísticas
stats_df


Unnamed: 0,média,moda,mediana,variância,amplitude,mínimo,máximo,valores_distintos
prop_aprovados_anos_inciais_ef,96.337426,96.62,96.71,5.192715,14.01,85.6,99.61,223.0
prop_reprovados_anos_iniciais_ef,2.482574,0.28,2.13,4.122843,10.83,0.12,10.95,220.0
prop_abandono_anos_iniciais_ef,1.18,0.51,0.785,0.999947,4.82,0.11,4.93,169.0
prop_aprovados_anos_finais_ef,87.113382,91.72,87.655,41.996776,39.0,59.49,98.49,256.0
prop_reprovados_anos_finais_ef,9.18239,2.76,8.34,28.349167,29.12,0.63,29.75,251.0
prop_abandono_anos_finais_ef,3.704228,0.37,2.875,8.265765,15.35,0.17,15.52,227.0
ano,,2015.0,,,,,,4.0
sigla_uf,,SP,,,,,,1.0
rede,,estadual,,,,,,1.0
diretoria,,SUL 2,,,,,,34.0


## SALVANDO ESTATÍSTICAS

In [37]:
stats_df.to_csv('estatisticas.csv', index=True)

## ÁNALISAR DISTRIBUIÇÕES

In [39]:
# Função para plotar histograma, gráfico de densidade e Q-Q plot
def plot_distribution(data, column):
    plt.figure(figsize=(12, 4))

    # Histograma
    plt.subplot(1, 3, 1)
    sns.histplot(data=data, x=column, kde=True)
    plt.title(f"Histograma de {column}")

    # Gráfico de densidade
    plt.subplot(1, 3, 2)
    sns.kdeplot(data=data, x=column)
    plt.title(f"Gráfico de Densidade de {column}")

    # Q-Q plot
    plt.subplot(1, 3, 3)
    stats.probplot(data[column], plot=plt.plot)
    plt.title(f"Q-Q Plot de {column}")

    plt.tight_layout()
    plt.show()

# Análise das variáveis quantitativas
for column in variable_types["Quantitativas"]:
    print(f"Análise da variável: {column}")
    print(stats_df.loc[column])

    # Plotar os gráficos
    plot_distribution(data, column)

    # Teste de normalidade de Shapiro-Wilk
    _, p_value = stats.shapiro(data[column])
    print(f"Teste de Shapiro-Wilk: p-valor = {p_value:.4f}")
    if p_value > 0.05:
        print("A distribuição é provavelmente normal.")
    else:
        print("A distribuição não é normal.")
    print("\n")
