# **Semana 4 Introducción a la programación con Python**

Esta semana analizaremos la libreria Pandas:

* ¿Qué es Pandas?
* Leer datos (Cargar archivo-Leer URL-Generar datos-Leer datos desde Github)
* Estructuras de datos en Pandas.
* Operación con DataFrame.
* Normalización de datos.
* Manejo de datos nulos o vacíos.
* Leer un archivo y convertirlo a una estructura de Pandas para manipularlo.
* Desafío.

## **¿Qué es Pandas?**

Pandas es una librería de código abierto que se utiliza para analizar y manipular datos tabulares, también conocidos como DataFrames. Es una herramienta fundamental para la ciencia de datos y el análisis de datos en Python.


**Pandas permite:**
* Crear, leer, almacenar y procesar datos en formato tabular.
* Realizar operaciones estadísticas y matemáticas.
* Limpiar, explorar y pre-procesar datos.
* Integrarse con otras librerías de Python, como Numpy, Matplotlib y Scikit Learn.



## **Leer datos en Pandas**

In [None]:
# IMPORTAR LIBRERIA
import pandas as pd

####### CASO 1. LEER UNA URL #######

# Asignamos la dirección de la base de datos a la variable url
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/autos/imports-85.data"

# Convertimos la variable url a un dataframe de pandas
df = pd.read_csv(url)
df.info()
#print (df)
#
#df= pd.read_csv(url, header=None)
#print (df)

#######################################################################################

####### CASO 2. LEER UN ARCHIVO DESDE EL EQUIPO #######
# Aquí leeremos el archivo
#df = pd.read_csv('estudiantes_notas.csv')
#df
# Abrir un archivo en formato xlsx y convertirlo a DataFrame
# Recuerden subir el archivo que quieren abrir haciendo clic en la carpeta que
# está a la izquierda

#######################################################################################

####### CASO 3. LEER UNA BASE DE DATOS DESDE GITHUB#######

# Asignamos la dirección de la base de datos a la variable url
#url = 'https://github.com/lukes/ISO-3166-Countries-with-Regional-Codes/blob/master/all/all.csv?raw=true'

# Convertimos la variable url a un dataframe de pandas
#df = pd.read_csv(url)
#print (df)
#
#df= pd.read_csv(url, header=None)
#print (df)
#######################################################################################

####### CASO 4. GENERAR DATOS ALEATORIOS #######

# ¿Cómo podriamos crear un archivo con 10.000 registros, en que tengamos un ID, la edad, el género, la comuna y las notas de matemáticas, lenguaje y ciencias?
# Veamos como usar un diccionario y algunos métodos que nos ofrece numpy para crear rápidamente los registros.
# Luego, convertiremos el diccionario a una de las estructuras más importantes que nos ofrece Pandas; el DataFrame.
# Este DataFrame lo guadaremos como un archivo csv, para cargarlo más tarde y manipularlo.

# EJEMPLO DE CREACIÓN DE UN ARCHIVO CON 10.000 REGISTROS
"""
# Importar las librerias
import numpy as np #np es un alias
#import random
import pandas as pd # pd es un alias

# Ahora crearemos un diccionario
datos= {
    "Estudiante_ID": np.arange(1, 10001),  # Identificadores únicos
    "Edad": np.random.randint(18, 30, 10000),
    "Nota_Matemáticas": np.random.randint(1, 100, 10000),  # Notas entre 1 y 100
    "Nota_Lenguaje": np.random.randint (1, 100, 10000),  # Notas entre 1 y 100
    "Nota_Ciencias": np.random.randint (1, 100, 10000),  # Notas entre 1 y 100
    "Genero": np.random.choice(['femenino', 'masculino', 'prefiero no decirlo'], 10000),  # Género aleatorio
    "Comuna": np.random.choice(['Coronel', 'Lota', 'Concepción', 'Hualpén', 'Tomé', 'Penco', 'Arauco','San Pedro'], 10000),
}
######## choice, randint, uniform#########
# Cuándo usar cada uno:
# np.random.choice() : cuando necesitemos elegir aleatoriamente de un conjunto predefinido de valores
# np.random.randint(): cuando necesitemos números enteros aleatorios dentro de un rango específico.
# np.random.uniform(): cuando necesitemos números flotantes (decimales) aleatorios dentro de un rango específico.

# Ahora convirtamos el diccionario a un DataFrame
df= pd.DataFrame(datos)

# Ahora veamos el DataFrame
print (df)

# ¿Cómo podemos mover las columnas Género y Comuna, para que queden después de edad?
df = df[['Estudiante_ID', 'Edad', 'Genero','Comuna', 'Nota_Matemáticas','Nota_Lenguaje','Nota_Ciencias' ]]

# Veamos el nuevo DataFrame
print (df)

####### Ahora guardemos el archivo en formato csv ########
# Guardar el archivo CSV en el entorno temporal de Colab
file_path = 'estudiantes_notas.csv'  # ruta del archivo
df.to_csv(file_path, index=False) # index= false, para no incluir columna de índices.
print(f"Archivo guardado en: {file_path}")

#######################################################################################
"""


## **Estructuras de datos en Pandas**

###**DataFrame**


* Un DataFrame es una estructura bidimensional (como una tabla) con filas y columnas.
* Puede contener diferentes tipos de datos en cada columna.


>**Cuándo usarlo:**
* *Datos tabulares*: Si tenemos datos organizados en forma de tabla, con múltiples variables o características. Cada columna representa una variable, y cada fila una observación.
* * Ejemplo: Registro de estudiantes con columnas para nombres, edad, y calificaciones.
* *Operaciones entre columnas*: Si necesitamos realizar cálculos, filtrados, o transformaciones que involucren varias columnas.
* *Análisis más complejo*: Cuando necesitamos agrupar, hacer combinaciones entre datasets, o analizar relaciones entre múltiples variables.
* *Almacenamiento estructurado*: Si planeamos exportar o compartir datos en formatos tabulares como csv o Excel.

## **Operaciones con DataFrame**

###**DataFrame**

Para crear un DataFrame debemos:

* Importar la librería pandas y darle un alias (import pandas as pd).
* Crear un DataFrame usando **pd.DataFrame**

In [None]:
# EJEMPLO 1 DE CREACIÓN DE UN DATAFRAME CON PANDAS

# Importar pandas
import pandas as pd

# Crear un DataFrame con un diccionario de datos
datos = {
    'Nombre': ['Ana', 'Luis', 'Pedro', 'Marta'],
    'Edad': [23, 34, 29, 40],
    'Ciudad': ['Madrid', 'Barcelona', 'Valencia', 'Sevilla'],
    'País': ['Chile', 'Bolivia', "Colombia,","Irlanda"]
}

# Mostrar las edades
print (datos['Edad']) # [23,34,29,40]

# Convertir el diccionario a un DataFrame
df = pd.DataFrame(datos)

# Mostrar el DataFrame
print("DataFrame:\n", df)


In [None]:
# EJEMPLO 2 DE CREACIÓN DE UN DATAFRAME CON PANDAS

# Crearemos un diccionario con información detallada de varios estudiantes
# Luego, usaremos esa información para crear el DataFrame

# Importar pandas
import pandas as pd

# Diccionario con información de estudiantes
estudiantes = {
    "ID": [1, 2, 3, 4],
    "Nombre": ["Juan", "María", "Pedro", "Ana"],
    "Edad": [20, 21, 22, 23],
    "Carrera": ["Ingeniería", "Medicina", "Arquitectura", "Derecho"],
    "Notas": {
        "Matemáticas": [90, 85, 78, 92],
        "Física": [88, 76, 80, 94],
        "Historia": [75, 88, 90, 82]
    }
}

######## Creamos el DataFrame ####################

# 1. Primero haremos uno solamente para las notas
df_notas= pd.DataFrame(estudiantes["Notas"])
# Veamos el DataFrame df_notas
print ("Notas en Dataframe:\n",df_notas)

# 2.Ahora crearemos otro DataFrame con el resto de datos del diccionario
df_estudiantes = pd.DataFrame({
    "ID": estudiantes["ID"],
    "Nombre": estudiantes["Nombre"],
    "Edad": estudiantes["Edad"],
    "Carrera": estudiantes["Carrera"]
})

# 3. Veamos el DataFrame df_estudiantes
print ("Notas en Dataframe:\n",df_estudiantes)

# 4.Ahora debemos combinar ambos DataFrame para dejar uno solo, usando concact
df_final = pd.concat([df_estudiantes, df_notas], axis=1) # ¿Porqué axis=1?
# Ambos DataFrames tienen el mismo número de filas (en este caso, 4),
# y cada fila representa información del mismo estudiante.
# Usar axis=1 permite que los datos de cada estudiante se alineen correctamente en una sola fila del DataFrame combinado.

# Mostrar el DataFrame final
print("DataFrame combinado:\n", df_final)

#################################################


In [None]:
# EJEMPLO 2.1 DE MANIPULACIÓN DEL DATAFRAME

# Mostrar el DataFrame final
print("DataFrame combinado:\n", df_final)

#################################################

# Seleccionar columnas específicas
df_seleccion = df_final[["Nombre", "Carrera"]]
print("Datos seleccionados (Nombre y Carrera):\n", df_seleccion)

# Promedio de notas por estudiante
df_final["Promedio_Notas"] = df_final[["Matemáticas", "Física", "Historia"]].mean(axis=1)
print("DataFrame con promedio de notas:\n", df_final)

# Promedio de notas por asignatura
promedio_asignatura = df_final[["Matemáticas", "Física", "Historia"]].mean(axis=0)
print("Promedio por asignatura:\n", promedio_asignatura)

# Estudiante con mejor nota en matemáticas
mejor_matematicas = df_final.loc[df_final["Matemáticas"].idxmax()]
print("Estudiante con la mejor nota en Matemáticas:\n", mejor_matematicas)
# idxmax() devuelve el índice (fila) del estudiante con la mejor nota.
# df_final.loc[]: Recupera la fila completa asociada al índice encontrado en el paso anterior.
# El resultado es una fila del DataFrame que contiene toda la información del estudiante con la mejor nota en matemáticas.


# Ordenar datos por una columna específica
df_ordenado = df_final.sort_values(by="Promedio_Notas", ascending=False)
print("DataFrame ordenado por promedio de notas:\n", df_ordenado)
# Ordena el DataFrame según los valores de la columna Promedio_Notas.
# by="Promedio_Notas" especifica la columna utilizada para ordenar.
# ascending=False indica un orden descendente (de mayor a menor).
# El resultado es un DataFrame ordenado donde los estudiantes con mayor promedio aparecen primero.

# Calcular el promedio de notas por carrera:
promedio_por_carrera = df_final.groupby("Carrera")[["Matemáticas", "Física", "Historia"]].mean()
print("Promedio de notas por carrera:\n", promedio_por_carrera)
# df_final.groupby("Carrera"): Agrupa las filas del DataFrame según los valores de la columna Carrera.
# Cada grupo corresponde a una carrera distinta.
# [["Matemáticas", "Física", "Historia"]]: Selecciona las columnas relevantes para calcular el promedio.
# .mean(): Calcula el promedio de las columnas seleccionadas dentro de cada grupo (carrera).
# El resultado es un nuevo DataFrame donde cada fila representa una carrera y las columnas son los promedios de las asignaturas.


In [None]:
# EJEMPLO 2.2 DE MANIPULACIÓN DEL DATAFRAME

# Mostrar el DataFrame final
print("DataFrame combinado:\n", df_final)

#################################################

# Filtar estudiantes mayores de 21 años
print("Estudiantes mayores de 21 años:\n", df_final[df_final["Edad"] > 21]) # ¿Porqué no usar simplemente df["Edad"]>21?

# Filtrar por múltiples condiciones
filtro = (df_final["Edad"] > 21) & (df_final["Carrera"] == "Ingeniería")
print("Estudiantes mayores de 21 años en Ingeniería:\n", df_final[filtro])

# Agregar nueva columna con datos nuevos
df_final["Edad_Cuadrado"] = df_final["Edad"] ** 2
print("DataFrame con columna 'Edad_Cuadrado':\n", df_final)

# Eliminar la columna Promedio_Notas
df_sin_promedio = df_final.drop(columns=["Promedio_Notas"])
print("DataFrame sin la columna 'Promedio_Notas':\n", df_sin_promedio)

# Eliminar estudiantes con edad >21
df_mayores_21 = df_final[df_final["Edad"] >= 21]
print("DataFrame con estudiantes mayores o iguales a 21 años:\n", df_mayores_21)

# Renombrar columnas
df_renombrado = df_final.rename(columns={"Matemáticas": "Math", "Física": "Physics"})
print("DataFrame con columnas renombradas:\n", df_renombrado)


######Tablas pivote#######
# La tabla pivote (pivot table) en pandas es una herramienta para reorganizar, resumir y analizar datos de un DataFrame.
# Es como una tabla dinámica en Excel, y permite transformar datos agrupados en un formato más estructurado.

# Concepto Básico
# Filas: Representan los valores únicos de una columna que defines como índice.
# Columnas: Representan los valores únicos de otra columna que defines como encabezado.
# Valores: Es el contenido que se muestra en las intersecciones de filas y columnas, usualmente el resultado de una función agregada como sum, mean, etc.
# Sintaxis: pd.pivot_table(data, values, index, columns, aggfunc).
   # data: El DataFrame base.
   # values: Las columnas que queremos resumir.
   # index: Las columnas que queremos que formen las filas.
   # columns: Las columnas que queremos que formen las columnas.
   # aggfunc: La función de agregación para calcular los valores (por defecto es mean).
   # otras funciones: sum, min, max,median, count, std, var, first, last, mode, prod

# Promedio por carrera
# Queremos ver el promedio de notas por carrera en cada asignatura
tabla_pivot = df_final.pivot_table(values=["Matemáticas", "Física", "Historia"], index="Carrera", aggfunc="mean")
print("Tabla pivot con promedio por carrera:\n", tabla_pivot)

# Conteo de estudiantes por edad y carrera
# Queremos ver cuántos estudiantes hay en cada combinación de edad y carrera
# Tabla pivote para contar estudiantes por edad y carrera
tabla_pivote_conteo = pd.pivot_table(df_final, values="ID", index="Carrera", columns="Edad", aggfunc="count")
print("Conteo de estudiantes por edad y carrera:\n", tabla_pivote_conteo)

# Ejemplo 3: Promedio de notas por edad
# Queremos ver el promedio de cada asignatura agrupada por la edad de los estudiantes.
# Promedio de notas agrupado por edad
tabla_pivote_edad = pd.pivot_table(df_final, values=["Matemáticas", "Física", "Historia"], index="Edad", aggfunc="mean")
print("Promedio de notas por edad:\n", tabla_pivote_edad)



In [None]:
# EJEMPLO 3. FILTRAR DATOS

# Importar librería
import pandas as pd

# Crear el DataFrame
datos = {
    'Estudiante': ['Juan', 'María', 'Pedro', 'Ana', 'Lucas', 'Paula', 'Mateo', 'Sofía'],
    'Género': ['Masculino', 'Femenino', 'Masculino', 'Femenino', 'Masculino', 'Femenino', 'Masculino', 'Femenino'],
    'Edad': [20, 22, 21, 23, 24, 22, 23, 20],
    'Carrera': ['Ingeniería', 'Medicina', 'Derecho', 'Enfermería', 'Psicología', 'Arquitectura', 'Ingeniería', 'Medicina'],
    'Nota_1': [4.5, 5.0, 3.5, 4.2, 3.8, 5.0, 4.0, 4.8],
    'Nota_2': [3.8, 4.5, 4.0, 4.0, 3.9, 4.8, 4.2, 4.7],
    'Nota_3': [5.0, 4.8, 2.8, 4.5, 4.1, 5.0, 4.3, 4.9],
    'Estado': ['Aprobado', 'Aprobado', 'Reprobado', 'Aprobado', 'Aprobado', 'Aprobado', 'Aprobado', 'Aprobado'],
    'Horas_Estudio': [10, 12, 5, 8, 7, 11, 9, 13],
    'Ciudad': ['Santiago', 'Valparaíso', 'Concepción', 'Santiago', 'Valdivia', 'Iquique', 'Santiago', 'Antofagasta']
}

df = pd.DataFrame(datos)
print(df)

# Filtrar estudiantes aprobados
aprobados = df[df['Estado'] == 'Aprobado']
print("Estudiantes aprobados:\n", aprobados)

# Filtrar estudiantes con edad mayor a 22
mayores_22 = df[df['Edad'] > 22]
print("Estudiantes con edad mayor a 22:\n", mayores_22)

# Filtrar por múltiples condiciones (and)
#Estudiantes de Género Femenino Aprobadas
aprobadas = df[(df['Género'] == 'Femenino') & (df['Estado'] == 'Aprobado')]
print("Estudiantes femeninas aprobadas:\n", aprobadas)

# Filtrar por múltiples condiciones (or)
# Estudiantes que son de Santiago o Antofagasta
ciudades_seleccionadas = df[(df['Ciudad'] == 'Santiago') | (df['Ciudad'] == 'Antofagasta')]
print("Estudiantes de Santiago o Antofagasta:\n", ciudades_seleccionadas)

# Filtrar estudiantes con notas mayores a un valor
# Estudiantes con Nota_1 mayor o igual a 4.5
nota_alta = df[df['Nota_1'] >= 4.5]
print("Estudiantes con Nota_1 >= 4.5:\n", nota_alta)

# Filtrar filas basado en texto
# Estudiantes en Carreras Relacionadas con Salud
carreras_salud = df[df['Carrera'].str.contains('Medicina|Enfermería', case=False)]
print("Estudiantes en carreras de salud:\n", carreras_salud)

# Filtrar con Funciones Personalizadas
# Estudiantes con un Promedio de Notas Mayor a 4.5
# Calcular el promedio de notas
df['Promedio'] = df[['Nota_1', 'Nota_2', 'Nota_3']].mean(axis=1)
promedio_alto = df[df['Promedio'] > 4.5]
print("Estudiantes con promedio > 4.5:\n", promedio_alto)
# str.contains(): es un método de pandas que permite verificar si una cadena de texto contiene un patrón específico.
# En este caso, el patrón es 'Medicina|Enfermería', lo que significa "contiene la palabra Medicina o Enfermería".
# case=False: indica que la búsqueda no distingue entre mayúsculas y minúsculas.

# Filtrar con query
# Estudiantes Género Masculino con Nota_2 Mayor a 4
query_result = df.query("Género == 'Masculino' and Nota_2 > 4")
print("Estudiantes masculinos con Nota_2 > 4:\n", query_result)
# Una query es una forma eficiente de filtrar un DataFrame utilizando una cadena de consulta
# en vez de usar directamente condiciones con corchetes ([]).
# Esto permite escribir las condiciones de filtro de manera más intuitiva y similar al lenguaje SQL.

# Filtrar por Rango de Valores
# Estudiantes con Edad entre 20 y 23 (incluye ambos extremos)
rango_edad = df[df['Edad'].between(20, 23)]
print("Estudiantes con edad entre 20 y 23:\n", rango_edad)

# Filtrar y Ordenar al Mismo Tiempo
# Estudiantes con Más de 10 Horas de Estudio, Ordenados por Notas
horas_estudio = df[df['Horas_Estudio'] > 10].sort_values(by='Nota_1', ascending=False)
print("Estudiantes con más de 10 horas de estudio, ordenados por Nota_1:\n", horas_estudio)

#### **Estadística descriptiva**

Pandas es muy poderoso para realizar operaciones estadísticas sobre DataFrames.

A continuación veremos una lista de las operaciones estadísticas más comunes que podemos aplicar, junto con ejemplos prácticos para comprenderlas mejor.



In [None]:
# EJEMPLO DE APLICACIÓN DE ESTADÍSTICA DESCRIPTIVA SOBRE UN DATAFRAME

# Importar librería
import pandas as pd

# Crear un DataFrame de ejemplo
datos = {
    'Nombre': ['Ana', 'Luis', 'Pedro', 'Marta'],
    'Edad': [23, 34, 29, 40],
    'Notas': [8.5, 8.5, 7.5, 8.0]
}
df = pd.DataFrame(datos)
print("DataFrame:\n", df)

#Obtener información
print (df.info())

# Mostrar las primeras filas con head
# El comando head en Pandas se utiliza para mostrar las primeras filas de un DataFrame o una Serie.
# Por defecto, muestra las primeras 5 filas, pero podemos especificar cuántas filas deseamos visualizar.
# Usar head()
print(df.head())


# Obtener un resumen rápido con describe()
# Estadísticas descriptivas
print(df.describe())

#Si queremos un resumen más completo
print("Resumen completo", df.describe(include='all'))

# Media (Promedio): mean()
print("Promedio de las edades:", df['Edad'].mean())

# Mediana: median()
print("Mediana de las notas:", df['Notas'].median())

# Moda: mode()
print("Moda de las edades:", df['Edad'].mode())

# Suma de los valores: sum()
print("Suma de las edades:", df['Edad'].sum())

# Producto de los valores: prod()
print("Producto de las notas:", df['Notas'].prod())

# Valor Mínimo: min()
print("Nota máxima:", df['Notas'].min())

#Valor Máximo: max()
print("Nota máxima:", df['Notas'].max())

# Desviación estándar: std()
print("Desviación estándar de las edades:", df['Edad'].std())

# Varianza: var()
print("Varianza de las notas:", df['Notas'].var())

# Contar Valores
print("Número de edades registradas:", df['Edad'].count())
# Frecuencia de cada valor único: value_counts()
print("Frecuencia de cada nota:\n", df['Notas'].value_counts())

# Correlación y Covarianza
# Correlación: corr()
# Mide la relación entre columnas numéricas
#print("Correlación entre Edad y Notas:\n", df[['Edad', 'Notas']].corr())
# Covarianza: cov()
# Mide cómo varían juntas dos columnas
#print("Covarianza entre Edad y Notas:\n", df[['Edad', 'Notas']].cov())

# Operaciones Basadas en Condiciones
# Filtrar valores según una condición
#print("Edades mayores a 30:\n", df[df['Edad'] > 30])

# Contar valores que cumplen una condición
#print("Cantidad de notas mayores a 8:", (df['Notas'] > 8).sum())


##### **Tablas de contingencia**

Es una tabla que muestra la frecuencia de las combinaciones de categorías entre dos o más variables.

Por ejemplo:
* 1. Relación entre género y preferencia de producto.
* 2. Número de estudiantes por rango de edad y su nivel académico.

In [None]:
# EJEMPLO DE APLICACIÓN DE TABLAS DE CONTINGENCIA SOBRE UN DATAFRAME

# Importar librería
import pandas as pd

# Crear un DataFrame de ejemplo
datos = {
    'Género': ['Femenino', 'Masculino', 'Femenino', 'Femenino', 'Masculino'],
    'Preferencia': ['A', 'B', 'A', 'C', 'B'],
    'Edad': ['18-25', '26-35', '18-25', '18-25', '26-35']
}
df = pd.DataFrame(datos)

print("DataFrame:\n", df)

# Tabla de contingencia básica
# Crear una tabla de contingencia para relación entre Género y Preferencia:
tabla = pd.crosstab(df['Género'], df['Preferencia'])
print("Tabla de contingencia básica:\n", tabla) #Matriz con las veces que se repite un valor

# Agregar totales
# Incluir totales en filas y columnas con el argumento margins=True:
tabla_totales = pd.crosstab(df['Género'], df['Preferencia'], margins=True)
print("Tabla de contingencia con totales:\n", tabla_totales)

# Tablas de contingencia con más de dos Variables
# Analizar tres o más variables categóricas
# Ejemplo: Relación entre Género, Preferencia, y Edad:
tabla_multi = pd.crosstab([df['Género'], df['Edad']], df['Preferencia'], margins=True)
print("Tabla de contingencia múltiple:\n", tabla_multi)



## **Normalización de datos**

La normalización transforma los datos para que estén en una escala o distribución específica. Las técnicas más comunes son:

* Min-Max Normalization: Escala los valores a un rango definido, generalmente
[0,1]

* Z-Score Normalization: Transforma los datos para que tengan una media de 0 y una desviación estándar de 1.

¿Por qué normalizar en Pandas?
* Garantiza que las variables tengan una escala similar, evitando que una con valores altos domine sobre otras con valores bajos.

In [None]:
# EJEMPLO DE MÉTODOS DE NORMALIZACIÓN EN PANDAS

# Importar librería
import pandas as pd

# Crear un DataFrame de ejemplo
data = {
    'Matemáticas': [70, 85, 90, 95, 100],
    'Física': [88, 76, 92, 85, 80],
    'Historia': [75, 88, 70, 90, 95]
}
df = pd.DataFrame(data)

# Normalización Min-Max
df_minmax = (df - df.min()) / (df.max() - df.min())
print("Normalización Min-Max:\n", df_minmax)

# Normalización Z-Score
df_zscore = (df - df.mean()) / df.std()
print("Normalización Z-Score:\n", df_zscore)


## **Manejo de datos nulos o vacíos**

**¿Qué son los datos nulos o vacíos?**
* Un dato nulo o vacío representa información faltante o inexistente en un conjunto de datos.
* En Pandas, los datos nulos se identifican como NaN (Not a Number).


**¿Por qué manejar datos nulos?**
* Evitar errores en cálculos o análisis.
* Mejorar la calidad de los resultados estadísticos y modelos predictivos.
* Preservar la integridad del análisis.




In [None]:
# EJEMPLO DE MANEJO DE DATOS NULOS O VACÍOS EN PANDAS

# Importar librerías
import pandas as pd
#import numpy as np

# Crear un DataFrame de ejemplo con datos nulos
df = pd.DataFrame({
    'Estudiante': ['Juan', 'Ana', 'Pedro', 'María', 'Carlos'],
    'Matemáticas': [90, np.nan, 78, 85, np.nan],
    'Física': [np.nan, 80, 76, 94, 88],
    'Historia': [75, 88, np.nan, 82, np.nan]
})

print("### DataFrame Original ###")
print(df)

# 1. Detectar Datos Nulos
print("\n### Detectar Datos Nulos ###")
print("¿Dónde hay valores nulos?\n", df.isnull())
print("\nNúmero de datos nulos por columna:\n", df.isnull().sum())

# 2. Eliminar Datos Nulos
# a) Eliminar filas con datos nulos
#df_sin_nulos_filas = df.dropna()
#print("\n### Eliminar Filas con Datos Nulos ###")
#print(df_sin_nulos_filas)

# b) Eliminar columnas con datos nulos
#df_sin_nulos_columnas = df.dropna(axis=1)
#print("\n### Eliminar Columnas con Datos Nulos ###")
#print(df_sin_nulos_columnas)

# 3. Rellenar Datos Nulos
# a) Rellenar con un valor específico
df_rellenado_0 = df.fillna(0)
print("\n### Rellenar Datos Nulos con 0 ###")
print(df_rellenado_0)

# b) Rellenar con la media de la columna
#df_rellenado_media = df.copy()
#df_rellenado_media['Matemáticas'] = df_rellenado_media['Matemáticas'].fillna(df_rellenado_media['Matemáticas'].mean())
#df_rellenado_media['Historia'] = df_rellenado_media['Historia'].fillna(df_rellenado_media['Historia'].mean())
#print("\n### Rellenar Datos Nulos con la Media ###")
#print(df_rellenado_media)



##**Leer un archivo y convertirlo a una estructura de Pandas para manipularlo**

In [None]:
# Aquí leeremos el archivo que creamos al comienzo de la sesión de hoy
df = pd.read_csv('estudiantes_notas.csv')
df
# Abrir un archivo en formato xlsx y convertirlo a DataFrame
# Recuerden subir el archivo que quieren abrir haciendo clic en la carpeta que
# está a la izquierda


### **Desafío**

**Desafío**
* Descargar el archivo estudiantes.csv y el notebook.
* Abrir el entorno virtual creado la sesión anterior, en la ruta en que descargó los archivos.
* Abrir jupyter notebook.
* Cargar el notebook.
* Llevar a cabo el taller práctico
* Respaldar el cuaderno en GitHub.

**Parte 1: Exploración Inicial**
* Visualice el DataFrame completo.
* Use df.head() para observar las primeras filas y df.tail() para las últimas filas.
* Obtenga información general sobre los datos:
** Número de filas y columnas.
** Tipos de datos y si hay valores faltantes.
** Calcule un resumen estadístico de las columnas numéricas.

**Parte 2: Filtrado de Datos**
* Seleccione los estudiantes mayores de 25 años.
* Filtre los estudiantes que tengan más de 90 en Matemáticas.
* Encuentre los estudiantes de la comuna "Coronel" que tengan un promedio de notas mayor a 85.

**Parte 3: Agrupamiento y Agregación**
* Promedio de notas por género:
** Calcule el promedio de las notas en Matemáticas, Lenguaje y Ciencias agrupado por género.
* Número de estudiantes por comuna:
** Muestre cuántos estudiantes hay en cada comuna.
* Máxima nota en cada asignatura por comuna:
** Encuentre la nota más alta en Matemáticas, Lenguaje y Ciencias agrupada por comuna.

**Parte 4: Creación de Nuevas Columnas**
* Calcule el promedio de notas por estudiante:
** Crear una nueva columna Promedio_Notas con el promedio de Matemáticas, Lenguaje y Ciencias.
* Crear una columna Rango_Edad:
** Clasifica a los estudiantes como "Mayor de 25" o "Menor de 25".
* Filtrar a los estudiantes con un promedio de notas mayor a 90 y clasifícarlos por rango de edad.

**Parte 5: Ordenamiento y Selección**
* Ordena los datos:
** Muestre el DataFrame ordenado por Promedio_Notas de forma descendente.
* Seleccione columnas específicas:
** Muestre únicamente las columnas Estudiante_ID, Edad y Promedio_Notas.

**Parte 6: Identificación de Datos Faltantes o Anómalos**
* Revise si hay valores nulos en el DataFrame:
** Use isnull() para identificar columnas con valores faltantes.
* Identificar estudiantes con notas extremas:
** Encuentre estudiantes con notas menores a 10 en Matemáticas.

**Parte 7: Tablas Pivot**
* Crear una tabla pivot para analizar los datos:
** Promedio de notas por comuna y género.

**Parte 8: Exportación de Datos**
* Guarde los datos procesados:
** Exporte el DataFrame con las columnas adicionales (Promedio_Notas y Rango_Edad) en un archivo CSV.
* Exporte un subconjunto filtrado:
** Guarde en un archivo CSV los estudiantes con un promedio de notas mayor a 85.