# Modelo de Examen Practico - TLP3 - Python para Ciencia de Datos.


**A partir del datasets brindado, realizar los siguientes procedimientos:**

* Importar datasets con Pandas.
* Explorar los datos con los metodos correspondientes. 
* Limpieza de los datos (Normalización de datos).
* Obtener estadisticas.
* Mostrar los datos procesados con graficos utilizando la libreria Matplotlib.
* Exportar el contenido a un archivo sqlite utilizando PANDAS.


**Importante: Se debe documentar cada procedimiento realizado, siguiendo la siguiente estructura:**

1. Celda de Markdown (Documentación)
2. Código (Sin comentarios, se debe documentar lo sufiente solo en la celda de markdown).

## Actividades: 
### 1. Importación del Dataset con Pandas

En esta sección, se debe utilizar la librería Pandas para cargar el archivo CSV que contiene los datos de las calificaciones en un DataFrame, que es la estructura de datos fundamental para el análisis con Pandas.

### 2. Exploración Inicial de los Datos

A continuación, se deben emplear métodos de Pandas para obtener una visión general del dataset. Esto incluye mostrar las primeras filas, obtener un resumen de la información del DataFrame (tipos de datos, valores no nulos), y calcular estadísticas descriptivas de las columnas numéricas.

### 3. Limpieza y Normalización de los Datos

Esta etapa crucial deben aplicar la corrección de diversos errores presentes en el dataset. Se abordarán los valores faltantes, la inconsistencia en el formato de la columna 'Asistencia', los posibles valores atípicos y la normalización de los nombres de estudiantes y materias a un formato consistente (por ejemplo, capitalización).

### 4. Obtención de Estadísticas Descriptivas

Después de la limpieza, deben calcular nuevamente las estadísticas descriptivas para observar el impacto del proceso de limpieza en los datos numéricos. También se pueden calcular estadísticas específicas por grupo (por ejemplo, promedio de calificaciones por materia).

### 5. Visualización de los Datos con Matplotlib

En esta sección, deben utilizar la librería Matplotlib para crear visualizaciones que permitan comprender mejor la distribución de las calificaciones y la asistencia. Se generarán histogramas, diagramas de dispersión y gráficos de barras.

### 6. Exportación a Archivo SQLite

Finalmente, deben utilizar la funcionalidad de Pandas para guardar el DataFrame procesado en una base de datos SQLite. Esto permite almacenar los datos de forma estructurada para su posterior consulta y uso.



# Desarrollo de Actividades


### Importacion de las dependencias
 Se importan bibliotecas necesarias para el analisis y visualizacion de datos:
* `import pandas as pd` : permite la manipulacion y el analisis de datos.
* `import matplotlib.pyplot as plt` : Permite la creacion de graficos estadisticos.

In [4]:
import pandas as pd 
import matplotlib.pyplot as plt


#### Carga de csv
Se utiliza `read_csv` de Pandas para leer el archivo csv que contiene el dataset.

In [6]:
df = pd.read_csv("datasets_calificaciones.csv")


#### Acceder a los primeros 10 elementos: 
Con el metodo `head(10)` se puede acceder a los primeros 10 elementos del DataFrame.

In [7]:
df.head(10)

Unnamed: 0,estudiante,Materia,Parcial 1,Parcial 2,Final,Asistencia
0,ana pérez,matematicas,8.0,7.5,9.0,95%
1,carlos lópez,fisica,6.2,7.0,,88%
2,maría gómez,quimica,9.0,8.8,9.5,100%
3,pedro rodríguez,historia,7.5,6.0,7.0,75
4,laura vargas,matematicas,,9.2,8.5,92%
5,javier soto,fisica,5.8,6.5,6.0,80%
6,sofia díaz,ciencias sociales,9.5,9.1,,98%
7,miguel fernández,literatura universal,8.0,7.8,8.2,85%
8,valentina ruiz,matematicas,7.0,,7.8,90%
9,diego castro,fisica,6.8,7.2,7.5,93%


#### Exploracion inicial
Se utiliza `df.info()` para obtener una vista general de la estructura del DataFrame:

In [8]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   estudiante  100 non-null    object
 1   Materia     100 non-null    object
 2   Parcial 1   95 non-null     object
 3   Parcial 2   90 non-null     object
 4   Final       89 non-null     object
 5   Asistencia  100 non-null    object
dtypes: object(6)
memory usage: 4.8+ KB


#### Descripciones Estadistica de la DataFrame
Con la funcion `df.describe()` se obtiene un resumen de las estadisticas para cada columna numerica

In [9]:
df.describe()

Unnamed: 0,estudiante,Materia,Parcial 1,Parcial 2,Final,Asistencia
count,100,100,95.0,90.0,89.0,100
unique,96,7,49.0,45.0,46.0,35
top,mateo díaz,matematicas,,7.5,9.5,99%
freq,2,25,7.0,5.0,4.0,5


#### Identificacion de Valores nulos
Se identifican la cantidad de valores nulos en cada columna de DataFrame

In [10]:
df.isnull().sum()

estudiante     0
Materia        0
Parcial 1      5
Parcial 2     10
Final         11
Asistencia     0
dtype: int64

#### Tratamiento de valores nulos
Se reemplazan los valores faltantes o vacios en las columnas por 0

In [18]:
df[['Parcial 1', 'Parcial 2', 'Final']] = df[['Parcial 1', 'Parcial 2', 'Final']].replace(['', ' '], 0).fillna(0)

* Luego de la conversion se hace una sumatoria total de valores nulos para verificar la ausencia de estos

In [19]:
df.isnull().sum()

estudiante    0
Materia       0
Parcial 1     0
Parcial 2     0
Final         0
Asistencia    0
dtype: int64

#### Conversion a Tipo Numerico(`float`)
En el `df.info` se noto que las columnas se reconocen como **object** lo cual significa que se los toma como tipo texto, dado a lo asignado se recomienda pasar a tipo `float` para que los datos sean compatibles con el analisis y visualizaciones

In [23]:
df[['Parcial 1', 'Parcial 2', 'Final']] = df[['Parcial 1', 'Parcial 2', 'Final']].astype(float)

#### Analisis de la DataFrame
Luego de la conversion se noto igualmente en la DataFrame datos vacios.

In [24]:
df.head(5)

Unnamed: 0,estudiante,Materia,Parcial 1,Parcial 2,Final,Asistencia
0,ana pérez,matematicas,8.0,7.5,9.0,95%
1,carlos lópez,fisica,6.2,7.0,0.0,88%
2,maría gómez,quimica,9.0,8.8,9.5,100%
3,pedro rodríguez,historia,7.5,6.0,7.0,75
4,laura vargas,matematicas,0.0,9.2,8.5,92%
