# 29/09/2023
## Viernes de Código - Sesión 8
### Tratamiento de Bases de Datos II
#### José David Mendoza Pérez
##### Universidad del Norte

---
Paquetes que usaremos en la sesión:
```Python
Pandas #Tratamiento de bases de datos (dataframes).
Matplotlib #Gráficos.

---
##### (En caso de que no tengan instalados estos paquetes, por favor ejecutar el código que aparece a continuación)

In [None]:
%pip install pandas
%pip install matplotlib

---
##### Por favor, importe los paquetes que usaremos en la sesión actual.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

---

```python
La base de datos presentada a continuación contiene información acerca de estudiantes de Estados Unidos. Por favor, trabaje a continuación con la base de datos que se le pidió traer para la sesión actual # (en caso de no tener una, por favor usar cualquiera de los links que se le proporcionó en la sesión anterior).
También puede trabajar con la base de datos de ejemplo, pero lo ideal es tratar una base de datos única.
```
## Repositorios de Datos

### DANE
https://www.dane.gov.co/index.php/estadisticas-por-tema
### Base de Datos del Banco Mundial (World Bank Data Base)
https://data.worldbank.org/indicator
### OCSA (Observatorio de Condiciones Socioeconómicas del Caribe Colombiano)
https://www.uninorte.edu.co/web/ocsa/repositorio-de-datos

---
# Graduation Rate
```python
# Paso 1. Conocer nuestra base de datos
```
Esta parte no la podemos automatizar (aún) por lo cual es crucial que antes de siquiera importar la base de datos a nuestro entorno de trabajo tengamos claro varios aspectos:

1. La naturaleza de nuestros datos.
2. La estructura lógica de la base de datos.
3. ¿Qué nos interesa de esta base de datos?
4. ¿Vale la pena crear un script de Python?
---
```python
# Paso 2. Análisis exploratorio
## Cargar nuestra base de datos en el entorno de trabajo.

In [None]:
df=pd.read_stata('graduation_rate.dta')
df

In [None]:
df.head()

In [None]:
df.tail()

In [None]:
df.info()

Explorando esta base de datos nos damos cuenta que:

- Hay valores nulos en algunos campos.
- El nombre de las variables es poco atractivo y nada informativo.
- La verdad no sabemos que significa cada cosa.
- Existen valores duplicados.
Por lo que empezaremos el **tratamiento básico**:
---
```python
# Paso 3. Tratamiento básico
## Recodificar las variables

In [None]:
df=df.rename(columns={'AC20':'ACT_Composition_score','AC21':'SAT_Total_Score',
                      'AC22':'Parental_level_of_education','AC23':'Parental_income (USD)',
                      'AC24':'high_school_gpa','AC25':'college_gpa','AC26':'years_to_graduate'})
df

```python
# Eliminar todos los valores nulos del dataframe.

In [None]:
df.dropna(inplace=True)
df

```python
#Con la opción estandar no funciona. ¿Por Qué? (pista, recuerden lo que hicimos la semana pasada).

In [None]:
df=df.replace('nan', None)
df

In [None]:
df = df.dropna()
df

```python
#Convertir a los tipos de datos correspondientes:

In [None]:
df['ACT_Composition_score']=df['ACT_Composition_score'].astype(int)
df['SAT_Total_Score']=df['SAT_Total_Score'].astype(int)
df['Parental_income']=df['Parental_income'].astype(int)
df['high_school_gpa']=df['high_school_gpa'].astype(float)
df['college_gpa']=df['college_gpa'].astype(float)
df['years_to_graduate']=df['years_to_graduate'].astype(int)

# Análisis de los datos

```python
#Análisis

In [None]:
plt.hist(df['ACT_Composition_score'])
plt.title("Distribución de ACT")
plt.xlabel("ACT")
plt.ylabel("Frecuencia")
plt.show()

```python
#Summary

In [None]:
df['ACT_Composition_score'].describe()

```python
#Gráfico de Dispersión

In [None]:
plt.scatter(df['high_school_gpa'], df['ACT_Composition_score'])
plt.xlabel('High School GPA')
plt.ylabel('ACT Composition Score')
plt.title('Gráfico de Dispersión')
plt.show()

---

```python
# Exportar nuestra base de datos luego de ser tratada.
## En formato .dta (en caso que queramos trabajar los datos con Stata).

In [None]:
df.to_stata("baseTrabajada",write_index=False)

```python
# En formato .xlsx (en caso que queramos trabajar con los datos en Excel)

In [None]:
df.to_excel("Base Trabajada.xlsx", index=False)