# Programación para el Análisis de Datos
## Tarea - 2 Desarrollo de código para el tratamiento y manejo de información - Ejercicio 3
**07 - **04 - 2024**** 

## Introducción

A lo largo de este trabajo, hemos explorado diversas técnicas y herramientas fundamentales en el análisis de datos utilizando Pandas en Python, centrando nuestra atención en la manipulación, agrupación y unión de DataFrames. Estas operaciones son esenciales en la ciencia de datos, ya que permiten comprender, estructurar y extraer valor de los conjuntos de datos complejos, especialmente en contextos donde la información proviene de múltiples fuentes o requiere ser examinada desde distintas perspectivas. Desde operaciones básicas como la carga y filtrado de datos hasta procesos más avanzados como las agrupaciones y diferentes tipos de uniones, hemos cubierto un espectro amplio de funcionalidades que Pandas ofrece para facilitar el análisis de datos.

## Ejercicio 3: Agregación, unión y concatenación de DataFrames

### 1. Parte 

## Revisión teórica de Combinación, unión y concatenación de DataFrames

La combinación, unión y concatenación de DataFrames son técnicas cruciales en la manipulación y análisis de datos, especialmente en el contexto de la ciencia de datos y la programación en Python con bibliotecas como Pandas. Estas técnicas permiten integrar y organizar datos provenientes de diversas fuentes, lo que es esencial para el análisis de datos complejos y la toma de decisiones informadas.

### Combinación de DataFrames

La combinación de DataFrames se refiere al proceso de fusionar dos o más conjuntos de datos en función de valores comunes, generalmente claves, que comparten. Este proceso es similar a las operaciones de unión en las bases de datos relacionales. La combinación se realiza utilizando la función `merge` en Pandas.

La operación de combinación puede ser expresada como:

$$ C = A \oplus B $$

donde \( A \) y \( B \) son los DataFrames originales y \( C \) es el resultado de la combinación.

### Unión de DataFrames

La unión implica apilar o unir DataFrames a lo largo de un eje, ya sea verticalmente (apilando filas) o horizontalmente (apilando columnas). En Pandas, esto se logra principalmente a través de la función `concat`.

Para la unión vertical:

C = \begin{bmatrix} A \\ B \end{bmatrix}

y para la unión horizontal:

$$ C = [AB] $$

donde \( A \), \( B \), y \( C \) son los DataFrames involucrados en la operación.

### Concatenación de DataFrames

La concatenación es un caso especial de unión, donde los DataFrames se unen a lo largo de un eje manteniendo la integridad de los índices. Se puede realizar tanto vertical como horizontalmente, similar a la unión, y se utiliza la función `concat` en Pandas.

Para la concatenación, la expresión sería similar a la unión, con la diferencia de que se presta especial atención a los índices durante la operación.

### 2. Parte

### Descripción del ejercicio.

Para este ejercicio, cargue en la variable df el conjunto de datos quese presentan en el archivo CSV, Anexo 1 - Student Weight Status.csv, que se encuentra en la carpeta de la Unidad 2 - Tarea 2 -Programación para la Manipulación de Datos. Tenga en cuenta el tipo de separador y los encabezados de las columnas. 

Realice paso a paso las siguientes tareas, siguiendo lo estudiando en las referencias:

In [3]:
import pandas as pd

# se importa archivo csv
df = pd.read_csv("D:\\Erika Monroy\\1. Documentos\\2. 1 UNAD Especialización\\1. Periodo 2024 I Febrero 16-01\\4. Programación para el Análisis de Datos\\2. Tarea\\Anexo 1 - Student Weight Status (1).csv")

In [10]:
# separador sep
df = pd.read_csv("D:\\Erika Monroy\\1. Documentos\\2. 1 UNAD Especialización\\1. Periodo 2024 I Febrero 16-01\\4. Programación para el Análisis de Datos\\2. Tarea\\Anexo 1 - Student Weight Status (1).csv", sep=',')

### 3. Parte

### Fusionando datos:

- Cree un DataFrame p1 con los datos del 0 al 1 con las columnas 'area_name' y 'county' de df.

In [11]:
# Inspeccionar las primeras filas para entender la estructura
print(df.head())

   LOCATION CODE       COUNTY    AREA NAME            REGION SCHOOL YEARS  \
0              4  CATTARAUGUS  CATTARAUGUS  WESTERN NEW YORK    2010-2012   
1              4  CATTARAUGUS  CATTARAUGUS  WESTERN NEW YORK    2010-2012   
2              4  CATTARAUGUS  CATTARAUGUS  WESTERN NEW YORK    2012-2014   
3              4  CATTARAUGUS  CATTARAUGUS  WESTERN NEW YORK    2012-2014   
4              4  CATTARAUGUS  CATTARAUGUS  WESTERN NEW YORK    2012-2014   

   NO. OVERWEIGHT  PCT OVERWEIGHT  NO. OBESE  PCT OBESE  \
0           575.0            18.4      565.0       18.1   
1           380.0            19.4      416.0       21.3   
2           873.0            17.2      994.0       19.6   
3           551.0            17.2      571.0       17.8   
4           292.0            16.0      413.0       22.6   

   NO. OVERWEIGHT OR OBESE  PCT OVERWEIGHT OR OBESE     GRADE LEVEL AREA TYPE  \
0                   1140.0                     36.5      ELEMENTARY    COUNTY   
1                   

El DataFrame df contiene varias columnas, pero nos vamos a enfocar en AREA NAME y COUNTY para crear el DataFrame p1. Para seleccionar solo las primeras 2 filas y estas columnas específicas, utilizaremos el siguiente código:

In [12]:
# Crear el DataFrame p1 seleccionando las filas del 0 al 1 y las columnas 'AREA NAME' y 'COUNTY'
p1 = df.loc[0:1, ['AREA NAME', 'COUNTY']]
p1

Unnamed: 0,AREA NAME,COUNTY
0,CATTARAUGUS,CATTARAUGUS
1,CATTARAUGUS,CATTARAUGUS


- Creen un DataFrame p2 con los datos del 2 al 4 con las columnas 'area_name' y 'county' de df.

In [16]:
# Creamos un nuevo DataFrame 'p2' seleccionando las filas con índices 2, 3 y 4
# y solo las columnas 'AREA NAME' y 'COUNTY'
p2 = df.loc[2:4, ['AREA NAME', 'COUNTY']]

# Mostramos el DataFrame 'p2' para verificar su contenido
p2

Unnamed: 0,AREA NAME,COUNTY
2,CATTARAUGUS,CATTARAUGUS
3,CATTARAUGUS,CATTARAUGUS
4,CATTARAUGUS,CATTARAUGUS


- Concatene p1 y p2 y muestre los resultados.

In [20]:
# Concatenamos los DataFrames 'p1' y 'p2' verticalmente
# El resultado se almacena en un nuevo DataFrame llamado 'p_concatenado'
p_concatenado = pd.concat([p1, p2])

# Mostramos el DataFrame resultante para verificar la concatenación
p_concatenado

Unnamed: 0,AREA NAME,COUNTY
0,CATTARAUGUS,CATTARAUGUS
1,CATTARAUGUS,CATTARAUGUS
2,CATTARAUGUS,CATTARAUGUS
3,CATTARAUGUS,CATTARAUGUS
4,CATTARAUGUS,CATTARAUGUS


- Concatene p1 y p2 identificando las asignaciones por las llaves ‘p1’ y ‘p2’ y muestre los resultados y asígnelos a la variable concatened. Comente las diferencias con el DataFrame anterior y mencione desde su punto de vista las posibles utilidades de esta herramienta.

In [27]:
# Concatenamos 'p1' y 'p2', utilizando las claves 'p1' y 'p2' para identificar cada conjunto
concatened = pd.concat([p1, p2], keys=['p1', 'p2'])

# Mostramos el DataFrame resultante
concatened 

Unnamed: 0,Unnamed: 1,AREA NAME,COUNTY
p1,0,CATTARAUGUS,CATTARAUGUS
p1,1,CATTARAUGUS,CATTARAUGUS
p2,2,CATTARAUGUS,CATTARAUGUS
p2,3,CATTARAUGUS,CATTARAUGUS
p2,4,CATTARAUGUS,CATTARAUGUS


#### Diferencias con el DataFrame anterior:

- Este DataFrame `concatenated` tiene un índice jerárquico (multiíndice) con dos niveles. El primer nivel del índice distingue las filas que provienen de `p1` y `p2` mediante las claves 'p1' y 'p2'. El segundo nivel mantiene los índices originales de las filas en sus respectivos DataFrames.
- En el DataFrame anterior, las filas de `p1` y `p2` se fusionaron en una sola secuencia sin una distinción explícita entre los conjuntos de datos originales.

#### Posibles utilidades de esta herramienta:

- **Rastreo de origen de datos**: Al trabajar con datos de múltiples fuentes, mantener una etiqueta de la fuente original puede ser crucial para el análisis posterior o la depuración.
- **Facilita el análisis por grupo**: Con los datos etiquetados por su origen, se pueden realizar análisis específicos o comparativos entre los distintos conjuntos de datos de manera más sencilla.
- **Organización de datos**: El índice jerárquico ayuda a mantener los datos organizados, especialmente cuando los DataFrames originales tienen su propia significancia o categorización inherente.

Este enfoque de concatenación con claves ofrece una flexibilidad significativa para la manipulación y análisis posterior de los datos combinados, permitiendo un fácil acceso y operaciones en subconjuntos específicos del DataFrame concatenado.

- Desde el DataFrame concatened rescate los datos de p1.

In [28]:
# Seleccionamos los datos de 'p1' del DataFrame 'concatenated'
p1_rescatado = concatenated.loc['p1']

# Mostramos los datos rescatados para verificar
p1_rescatado

Unnamed: 0,AREA NAME,COUNTY
0,CATTARAUGUS,CATTARAUGUS
1,CATTARAUGUS,CATTARAUGUS


- Comente los resultados y realice las conclusiones del ejercicio.

El ejercicio realizado abarca una serie de operaciones fundamentales en la manipulación de datos utilizando Pandas en Python, específicamente enfocado en la fusión, concatenación y manipulación de DataFrames. A continuación, se presentan los comentarios y conclusiones de cada parte del ejercicio:

### Fusionando Datos

- **Creación de DataFrames `p1` y `p2`**: Iniciamos el ejercicio extrayendo subconjuntos específicos de un DataFrame más grande `df`, creando dos nuevos DataFrames `p1` y `p2`. Esta tarea simula una situación común en el análisis de datos donde se necesitan segmentar datos para análisis o procesamientos específicos.
  
- **Concatenación sin Claves**: La primera operación de concatenación realizada combinó `p1` y `p2` verticalmente, sin distinción entre los conjuntos de datos originales. Esta técnica es útil cuando se desea agrupar datos similares o continuos, manteniendo la simplicidad de la estructura del DataFrame.

- **Concatenación con Claves**: Posteriormente, realizamos una concatenación similar, pero esta vez asignando claves a cada conjunto de datos (`p1` y `p2`). Esto resultó en un DataFrame con un índice jerárquico que permite una distinción clara y un acceso directo a los datos de cada fuente original. Este método es particularmente útil en escenarios donde la procedencia de los datos es relevante para el análisis subsiguiente o para mantener organizadas múltiples fuentes de datos dentro de un único DataFrame.

- **Rescate de Datos de `p1`**: Finalmente, demostramos cómo acceder y extraer un conjunto específico de datos (en este caso, `p1`) del DataFrame concatenado con claves. Esta capacidad es crítica en situaciones donde los DataFrames combinados necesitan ser segmentados nuevamente para análisis o procesos diferenciados.

### Conclusiones

- **Flexibilidad en la Manipulación de Datos**: Pandas proporciona una gran flexibilidad para manipular, combinar y segmentar DataFrames, lo que facilita el manejo de datos de diferentes fuentes y estructuras.

- **Importancia del Índice Jerárquico**: La capacidad de utilizar índices jerárquicos agrega una dimensión adicional en la organización y acceso a los datos, permitiendo operaciones más complejas y estructuradas sobre conjuntos de datos combinados.

- **Facilitación del Análisis de Datos**: Las técnicas mostradas permiten preparar y organizar los datos de manera que faciliten el análisis posterior, ya sea manteniendo la trazabilidad de los datos originales o combinando múltiples fuentes de datos de manera coherente.

- **Aplicabilidad en Escenarios Reales**: Estas operaciones son esenciales en la ciencia de datos y el análisis de datos, donde frecuentemente se trabaja con datos provenientes de múltiples fuentes, y se requiere una combinación efectiva y una segmentación clara para el análisis y la toma de decisiones.

Este ejercicio demuestra la potencia de Pandas en la manipulación de DataFrames y subraya la importancia de técnicas como la concatenación y el uso de índices jerárquicos para mantener la organización y accesibilidad de los datos dentro de proyectos de análisis de datos complejos.

### 4. Parte

### Operaciones de agregación:
- Encuentre el número promedio de estudiantes que son obesos en escuelas de primaria (tipo ‘ELEMENTARY’).

In [30]:
# Filtrado para seleccionar solo escuelas de tipo 'ELEMENTARY'
df_elementary = df[df['GRADE LEVEL'] == 'ELEMENTARY']

# Cálculo del promedio de estudiantes obesos en escuelas de primaria
promedio_obesos = df_elementary['NO. OBESE'].mean()

# Mostramos el resultado
print(f"El número promedio de estudiantes obesos en escuelas de primaria es: {promedio_obesos}")

El número promedio de estudiantes obesos en escuelas de primaria es: 275.78676207513416


- Encuentre el número total de estudiantes de primaria que son obesos.

In [31]:
# Filtrado para seleccionar solo escuelas de tipo 'ELEMENTARY'
df_elementary = df[df['GRADE LEVEL'] == 'ELEMENTARY']

# Suma para obtener el número total de estudiantes obesos en escuelas de primaria
total_obesos = df_elementary['NO. OBESE'].sum()

# Mostramos el resultado
print(f"El número total de estudiantes obesos en escuelas de primaria es: {total_obesos}")

El número total de estudiantes obesos en escuelas de primaria es: 770824.0


- Encuentre el número máximo de estudiantes obsesos que tiene una escuela.

In [32]:
# Obtención del número máximo de estudiantes obesos en una escuela
max_obesos = df['NO. OBESE'].max()

# Mostramos el resultado
print(f"El número máximo de estudiantes obesos en una escuela es: {max_obesos}")

El número máximo de estudiantes obesos en una escuela es: 86016.0


- Encuentre el número mínimo de estudiantes obsesos que tiene una escuela.

In [33]:
# Obtención del número mínimo de estudiantes obesos en una escuela
min_obesos = df['NO. OBESE'].min()

# Mostramos el resultado
print(f"El número mínimo de estudiantes obesos en una escuela es: {min_obesos}")

El número mínimo de estudiantes obesos en una escuela es: 5.0


- Obtenga la desviación estándar del número de estudiantes obsesos en las escuelas.

In [37]:
# Cálculo de la desviación estándar del número de estudiantes obesos en las escuelas
desviacion_std_obesos = df['NO. OBESE'].std()

# Mostramos el resultado
print(f"La desviación estándar del número de estudiantes obesos en las escuelas es: {desviacion_std_obesos}")

La desviación estándar del número de estudiantes obesos en las escuelas es: 2519.843935663802


- Obtenga la cantidad de escuelas de primarias en el condado (county) de DELAWARE.

In [38]:
# Filtrado para seleccionar escuelas de tipo 'ELEMENTARY' en el condado 'DELAWARE'
escuelas_primaria_delaware = df[(df['GRADE LEVEL'] == 'ELEMENTARY') & (df['COUNTY'] == 'DELAWARE')]

# Contamos el número de escuelas resultantes
cantidad_escuelas = escuelas_primaria_delaware.shape[0]

# Mostramos el resultado
print(f"La cantidad de escuelas de primaria en el condado de DELAWARE es: {cantidad_escuelas}")

La cantidad de escuelas de primaria en el condado de DELAWARE es: 52


- Comente los resultados del ejercicio y concluya con las posibilidades de uso de estas herramientas en su campo deacción.

El ejercicio sobre operaciones de agregación que hemos realizado abarca varios aspectos clave del análisis de datos utilizando Pandas en Python, especialmente útil en el campo de la ciencia de datos. A continuación, se presentan los comentarios y conclusiones sobre las operaciones realizadas:

### Operaciones de Agregación

- **Promedio de Estudiantes Obesos en Escuelas Primarias**: Al calcular el promedio, pudimos obtener una visión general del problema de la obesidad en el nivel elemental. Esta métrica es útil para evaluar la magnitud del problema a un nivel más general y puede ser un indicador importante para el desarrollo de políticas de salud pública.

- **Número Total de Estudiantes Obesos en Escuelas Primarias**: Al sumar el total, obtuvimos una cifra concreta que nos ayuda a comprender el alcance del problema de la obesidad entre los estudiantes de primaria. Esta cifra es crítica para la asignación de recursos y la planificación de intervenciones.

- **Máximo y Mínimo de Estudiantes Obesos**: Estas medidas proporcionan una visión de la variabilidad y los extremos dentro del conjunto de datos. El máximo nos puede indicar casos de alta incidencia que podrían requerir atención especial, mientras que el mínimo puede indicar escuelas con prácticas potencialmente exitosas en la prevención de la obesidad.

- **Desviación Estándar del Número de Estudiantes Obesos**: Esta medida nos da una idea de la variabilidad del problema de la obesidad entre diferentes escuelas, lo cual es crucial para entender la distribución del problema y planificar intervenciones específicas.

- **Cantidad de Escuelas Primarias en un Condado Específico**: Esta operación específica nos ayuda a entender el panorama educativo de un área geográfica concreta, permitiéndonos dirigir los recursos de manera más efectiva.

### Conclusiones y Posibilidades en Ciencia de Datos

- **Información para Políticas Públicas**: Las operaciones de agregación que hemos realizado proporcionan información valiosa que puede ser utilizada para informar políticas públicas y programas de salud, educación y nutrición dirigidos a estudiantes.

- **Personalización de Intervenciones**: La capacidad de analizar datos a diferentes niveles (promedio, total, variabilidad, casos específicos) permite a los científicos de datos y a los responsables políticos personalizar las intervenciones para abordar el problema de la obesidad de manera más efectiva.

- **Identificación de Áreas Críticas**: El análisis de datos permite identificar áreas geográficas o instituciones específicas que requieren atención urgente, permitiendo una asignación de recursos más focalizada.

- **Bases para Investigaciones Futuras**: Los resultados de estas operaciones de agregación pueden servir como punto de partida para investigaciones más profundas, incluyendo estudios longitudinales sobre la efectividad de las intervenciones y análisis cualitativos de las prácticas escolares.

Las herramientas de análisis de datos como Pandas ofrecen a los científicos de datos un poderoso conjunto de métodos para extraer, procesar y analizar datos complejos. En el campo de la ciencia de datos, estas operaciones no solo facilitan la comprensión de los problemas actuales sino que también informan la toma de decisiones y la planificación estratégica para abordar problemas críticos como la obesidad infantil.

### 5. Parte

### Uniones (Joins):

- Defina un DataFrame de búsqueda llamado grade_lookup, que tenga las columnas ‘grade_level y ‘level’ que asigne niveles a cada uno de los grados como sigue: 1 a 'ELEMENTARY', 2 a 'MIDDLE/HIGH', 3 a 'MISC'.

In [40]:
import pandas as pd

# Lista de diccionarios que define los niveles para cada grado
grade_data = [
    {'grade_level': 'ELEMENTARY', 'level': 1},
    {'grade_level': 'MIDDLE/HIGH', 'level': 2},
    {'grade_level': 'MISC', 'level': 3}
]

# Creación del DataFrame de búsqueda
grade_lookup = pd.DataFrame(grade_data)

# Mostramos el DataFrame para verificar su contenido
grade_lookup

Unnamed: 0,grade_level,level
0,ELEMENTARY,1
1,MIDDLE/HIGH,2
2,MISC,3


-  Por otro lado, tome las primeras cinco filas de la columna de datos en la columna GRADE e imprímalas (Téngalas en cuenta pues las utilizaremos para estudiar los tipos de uniones).

In [53]:
# Seleccionamos las primeras cinco filas de la columna 'GRADE LEVEL'
primeras_cinco_grados = df['GRADE LEVEL'].head(5)

# Imprimimos los resultados
primeras_cinco_grados

0        ELEMENTARY
1       MIDDLE/HIGH
2    DISTRICT TOTAL
3        ELEMENTARY
4       MIDDLE/HIGH
Name: GRADE LEVEL, dtype: object

- Describa los inner joins y realice un ejemplo con las primeras 5 filas de la columna grade_level y grade_lookup, muestre sus resultados y explíquelos.

### Descripción de Inner Joins

Un *inner join* es un tipo de unión entre dos tablas (o DataFrames) que resulta en la intersección de las mismas. En otras palabras, el resultado final incluirá solo aquellos registros que tengan valores coincidentes en las columnas especificadas para la unión en ambas tablas. Los registros que no tengan coincidencias en una de las tablas serán excluidos del resultado final. Los *inner joins* son útiles cuando deseas combinar datos de diferentes fuentes basándote en valores comunes, y solo te interesan las filas que tienen correspondencia en ambas tablas.

### Ejemplo de Inner Join

Para el ejemplo, tomaremos las primeras cinco filas de la columna `GRADE LEVEL` de `df` y realizaremos un *inner join* con el DataFrame `grade_lookup` basándonos en la columna `grade_level` de `grade_lookup` y `GRADE LEVEL` de `df`.

Primero, creamos un nuevo DataFrame `df_grades` que contenga solo las primeras cinco filas de `df`, enfocándonos en la columna `GRADE LEVEL`. Luego, realizaremos el *inner join* con `grade_lookup`.

In [52]:
# Creamos un DataFrame con las primeras 5 filas de 'df', enfocado en 'GRADE LEVEL'
df_grades = df[['GRADE LEVEL']].head(5)

# Realizamos un inner join entre 'df_grades' y 'grade_lookup'
inner_join_result = pd.merge(df_grades, grade_lookup, how='inner', left_on='GRADE LEVEL', right_on='grade_level')

# Mostramos el resultado del inner join
inner_join_result

Unnamed: 0,GRADE LEVEL,grade_level,level
0,ELEMENTARY,ELEMENTARY,1
1,ELEMENTARY,ELEMENTARY,1
2,MIDDLE/HIGH,MIDDLE/HIGH,2
3,MIDDLE/HIGH,MIDDLE/HIGH,2


Este código utiliza la función `pd.merge()` para realizar el *inner join*, especificando `how='inner'` para indicar el tipo de unión. `left_on` y `right_on` se utilizan para especificar las columnas sobre las cuales se realizará la unión en los DataFrames de la izquierda (`df_grades`) y la derecha (`grade_lookup`), respectivamente.

### Explicación de los Resultados

El resultado del *inner join* muestra las coincidencias entre las primeras cinco filas de la columna `GRADE LEVEL` en `df` y el DataFrame `grade_lookup`. Cada fila combinada incluye el nivel educativo (`GRADE LEVEL` o `grade_level`) y el `level` numérico asignado:

- Las filas 0 y 1 corresponden a 'ELEMENTARY', reflejando que las dos primeras filas de `df` son de nivel primario y se les asigna el `level` 1.
- Las filas 2 y 3 corresponden a 'MIDDLE/HIGH', indicando que las siguientes dos filas en `df` son de nivel medio/superior y se les asigna el `level` 2.

El *inner join* asegura que solo las filas con valores coincidentes en ambas tablas se incluyan en el resultado, excluyendo cualquier fila sin correspondencia directa.

- Describa los left outer joins y realice un ejemplo con las primeras 5 filas de la columna grade_level y grade_lookup, muestre sus resultados y explíquelos.

### Descripción de Left Outer Joins

Un *left outer join* (también conocido como *left join*) es un tipo de unión entre dos tablas (o DataFrames) que incluye todos los registros de la tabla izquierda y los registros coincidentes de la tabla derecha. Si no hay una coincidencia en la tabla derecha, el resultado aún incluirá las filas de la tabla izquierda, pero con valores `NaN` (Not a Number, por sus siglas en inglés) en las columnas de la tabla derecha.

### Ejemplo de Left Outer Join

Para el ejemplo, utilizaremos nuevamente las primeras cinco filas de la columna `GRADE LEVEL` de `df` y realizaremos un *left join* con el DataFrame `grade_lookup`. El objetivo es asignar niveles a cada uno de los grados especificados en estas filas, manteniendo todas las filas de la tabla izquierda (`df_grades`).

Primero, asegurémonos de tener el DataFrame `df_grades` que contiene solo las primeras cinco filas de `df`, centrado en la columna `GRADE LEVEL`. Luego, realizaremos el *left join* con `grade_lookup`.

In [51]:
# Asumiendo que df_grades ya está definido como las primeras 5 filas de 'df' en 'GRADE LEVEL'
# Realizamos un left join entre 'df_grades' y 'grade_lookup'
left_join_result = pd.merge(df_grades, grade_lookup, how='left', left_on='GRADE LEVEL', right_on='grade_level')

# Mostramos el resultado del left join
left_join_result

Unnamed: 0,GRADE LEVEL,grade_level,level
0,ELEMENTARY,ELEMENTARY,1.0
1,MIDDLE/HIGH,MIDDLE/HIGH,2.0
2,DISTRICT TOTAL,,
3,ELEMENTARY,ELEMENTARY,1.0
4,MIDDLE/HIGH,MIDDLE/HIGH,2.0


Este código utiliza `pd.merge()` para realizar el *left join*, especificando `how='left'` para indicar el tipo de unión. Las columnas sobre las cuales se realiza la unión son `GRADE LEVEL` de `df_grades` (tabla izquierda) y `grade_level` de `grade_lookup` (tabla derecha).

### Explicación de los Resultados

El resultado incluirá todas las filas de `df_grades` (las primeras cinco filas de `df`) con los valores correspondientes de `grade_level` y `level` de `grade_lookup` donde haya coincidencias. En los casos donde no haya una correspondencia en `grade_lookup`, las columnas de `grade_level` y `level` tendrán valores `NaN`.

El resultado del *left join* muestra:

- **Filas 0 y 3**: Entradas 'ELEMENTARY' encontraron coincidencias en `grade_lookup`, asignándoseles el nivel 1.
- **Filas 1 y 4**: Entradas 'MIDDLE/HIGH' también coincidieron, recibiendo el nivel 2.
- **Fila 2**: 'DISTRICT TOTAL' no tuvo coincidencia, resultando en valores `NaN` para `grade_level` y `level`.

Este resultado ilustra cómo un *left join* mantiene todas las filas de la tabla izquierda, completando con datos de la tabla derecha cuando hay coincidencias y con `NaN` cuando no las hay.

- Describa los full outer joins y realice un ejemplo con las primeras 5 filas de la columna grade_level y grade_lookup, muestre sus resultados y explíquelos.

### Descripción de Full Outer Joins

Un *full outer join* combina todas las filas de ambas tablas (o DataFrames), independientemente de si hay coincidencias entre ellas. Cuando hay coincidencias en las columnas especificadas para la unión, el *full outer join* combina las filas correspondientes. Para las filas sin coincidencias en una de las tablas, el resultado incluirá estas filas con valores `NaN` en las columnas de la tabla donde no hubo coincidencia.

### Ejemplo de Full Outer Join

Para el ejemplo, realizaremos un *full outer join* entre las primeras cinco filas de la columna `GRADE LEVEL` de `df` y el DataFrame `grade_lookup`. Esto nos permitirá observar cómo se manejan tanto las coincidencias como las no coincidencias entre ambos DataFrames.

Primero, nos aseguramos de tener el DataFrame `df_grades` que contiene solo las primeras cinco filas de `df`, enfocadas en la columna `GRADE LEVEL`. Luego, realizaremos el *full outer join* con `grade_lookup`.

In [50]:
# Asumiendo que df_grades ya está definido como las primeras 5 filas de 'df' en 'GRADE LEVEL'
# Realizamos un full outer join entre 'df_grades' y 'grade_lookup'
full_outer_join_result = pd.merge(df_grades, grade_lookup, how='outer', left_on='GRADE LEVEL', right_on='grade_level')

# Mostramos el resultado del full outer join
full_outer_join_result

Unnamed: 0,GRADE LEVEL,grade_level,level
0,ELEMENTARY,ELEMENTARY,1.0
1,ELEMENTARY,ELEMENTARY,1.0
2,MIDDLE/HIGH,MIDDLE/HIGH,2.0
3,MIDDLE/HIGH,MIDDLE/HIGH,2.0
4,DISTRICT TOTAL,,
5,,MISC,3.0


Este código usa `pd.merge()` para realizar el *full outer join*, especificando `how='outer'`. Las columnas para realizar la unión son `GRADE LEVEL` de `df_grades` y `grade_level` de `grade_lookup`.

### Explicación de los Resultados

El resultado del *full outer join* muestra:

- **Filas 0 a 3**: Coincidencias entre `df` y `grade_lookup` para 'ELEMENTARY' y 'MIDDLE/HIGH', asignando los niveles 1 y 2, respectivamente.
- **Fila 4**: 'DISTRICT TOTAL' de `df` sin coincidencia en `grade_lookup`, resultando en valores `NaN` para `grade_level` y `level`.
- **Fila 5**: Entrada 'MISC' de `grade_lookup` sin coincidencia en las primeras cinco filas de `df`, con `NaN` en `GRADE LEVEL`.

Este resultado demuestra que un *full outer join* incluye todas las filas de ambas tablas, llenando con `NaN` donde no hay coincidencias.

### 6. Parte

### Agrupaciones:

- Encontrar la suma del número de estudiantes obesos en cada uno de los grados mediante el uso de la función groupby de pandas. Muestre sus resultados y explíquelo.

In [56]:
# Agrupamos el DataFrame 'df' por la columna 'GRADE LEVEL' y sumamos los valores de 'NO. OBESE'
suma_obesos_por_grado = df.groupby('GRADE LEVEL')['NO. OBESE'].sum()

# Mostramos el resultado
print(suma_obesos_por_grado)

GRADE LEVEL
DISTRICT TOTAL    1359576.0
ELEMENTARY         770824.0
MIDDLE/HIGH        577812.0
Name: NO. OBESE, dtype: float64


Los resultados de la agrupación y suma del número de estudiantes obesos por cada nivel de grado (`GRADE LEVEL`) son los siguientes:

- **DISTRICT TOTAL**: 1,359,576 estudiantes obesos. Este número representa la suma total de estudiantes obesos en todos los registros que han sido clasificados bajo el nivel de 'DISTRICT TOTAL'. Este nivel podría incluir datos agregados de varios grados o escuelas a nivel de distrito.

- **ELEMENTARY**: 770,824 estudiantes obesos. Este valor indica el número total de estudiantes obesos en el nivel de primaria (Elementary). Refleja la suma de estudiantes obesos en todas las escuelas o registros que han sido específicamente clasificados como de nivel primario.

- **MIDDLE/HIGH**: 577,812 estudiantes obesos. Este número es la suma de estudiantes obesos en los niveles de educación media y secundaria (Middle/High). Muestra el total combinado de estudiantes obesos en todos los registros clasificados dentro de estos niveles.

### Explicación:

La función `groupby` de Pandas ha agrupado los datos según el nivel de grado y ha calculado la suma de estudiantes obesos para cada grupo. Estos resultados nos proporcionan una visión clara de la distribución de la obesidad entre los diferentes niveles educativos. Los datos pueden ser especialmente útiles para identificar en qué nivel educativo se concentra mayormente el problema de la obesidad, lo que puede informar las decisiones de política educativa y de salud pública. Por ejemplo, el alto número en el nivel 'ELEMENTARY' sugiere la importancia de intervenciones tempranas en la nutrición y actividad física para los estudiantes más jóvenes.

- Muestre diferentes tipos de agregación por suma, media y desviación estándar de los estudiantes obsesos en cada uno de los grados.

In [58]:
# Agrupamos por 'GRADE LEVEL' y aplicamos diferentes funciones de agregación a 'NO. OBESE'
agregaciones = df.groupby('GRADE LEVEL')['NO. OBESE'].agg(['sum', 'mean', 'std'])

# Mostramos el resultado
agregaciones

Unnamed: 0_level_0,sum,mean,std
GRADE LEVEL,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
DISTRICT TOTAL,1359576.0,473.719861,3502.973168
ELEMENTARY,770824.0,275.786762,2021.124815
MIDDLE/HIGH,577812.0,215.039821,1532.055998


### Explicación de los resultados:

Los resultados obtenidos de aplicar diferentes funciones de agregación (suma, media y desviación estándar) al número de estudiantes obesos (`NO. OBESE`) agrupados por nivel de grado (`GRADE LEVEL`) se pueden interpretar de la siguiente manera:

### Para "DISTRICT TOTAL"
- **Suma**: 1,359,576 estudiantes obesos. Esta es la cantidad total de estudiantes obesos en todos los registros clasificados como 'DISTRICT TOTAL', lo que podría incluir datos agregados de varios grados o escuelas a nivel de distrito.
- **Media**: 473.72 estudiantes obesos. En promedio, cada registro en este nivel tiene alrededor de 474 estudiantes obesos. Esto indica el tamaño medio del problema de la obesidad en el nivel de distrito.
- **Desviación Estándar**: 3,502.97. Hay una variabilidad significativa en el número de estudiantes obesos entre los diferentes registros a nivel de distrito. Una desviación estándar más alta sugiere una mayor dispersión de los datos alrededor de la media.

### Para "ELEMENTARY"
- **Suma**: 770,824 estudiantes obesos. Este es el total de estudiantes obesos en el nivel primario. Indica la magnitud del problema de la obesidad entre los estudiantes más jóvenes.
- **Media**: 275.79 estudiantes obesos. En promedio, hay aproximadamente 276 estudiantes obesos por registro en escuelas primarias. 
- **Desviación Estándar**: 2,021.12. Similar al nivel de distrito, hay una variabilidad considerable en el número de estudiantes obesos entre las diferentes escuelas primarias.

### Para "MIDDLE/HIGH"
- **Suma**: 577,812 estudiantes obesos. Este número representa el total de estudiantes obesos en los niveles de educación media y secundaria.
- **Media**: 215.04 estudiantes obesos. En promedio, cada registro en este nivel tiene alrededor de 215 estudiantes obesos, lo cual es menor que en el nivel primario.
- **Desviación Estándar**: 1,532.06. Aunque todavía hay variabilidad, la dispersión de los datos alrededor de la media es menor en comparación con los niveles de 'DISTRICT TOTAL' y 'ELEMENTARY'.

### Conclusión
Estos resultados proporcionan una visión detallada de la obesidad estudiantil en diferentes niveles educativos. La suma total refleja la magnitud del problema en cada nivel, la media indica el tamaño promedio del problema de obesidad por registro o escuela, y la desviación estándar revela la variabilidad del número de estudiantes obesos dentro de cada nivel. La menor media y desviación estándar en el nivel 'MIDDLE/HIGH' podrían indicar intervenciones más efectivas o diferencias en las poblaciones estudiantiles en comparación con el nivel primario.

- Comente los resultados y concluya con las posibilidades de uso de estas herramientas en su campo de acción.

Desde el ejercicio de agrupaciones, hemos obtenido valiosos insights sobre la distribución de estudiantes obesos en diferentes niveles educativos. Las herramientas de agrupación y agregación en Pandas nos permitieron sumarizar datos complejos para revelar patrones importantes, como la magnitud del problema de obesidad en distintos niveles educativos y la variabilidad dentro de estos grupos.

### Conclusiones:

- La **agrupación** nos ayuda a entender mejor cómo se distribuye la obesidad entre los estudiantes de diferentes niveles educativos, destacando áreas de mayor preocupación.
- Las **funciones de agregación** (suma, media, desviación estándar) proporcionan una comprensión clara del tamaño y la variabilidad del problema de obesidad dentro de cada grupo.

### Posibilidades de Uso en Ciencia de Datos:

- **Identificación de Patrones**: Estas herramientas permiten identificar patrones y áreas críticas que requieren atención, lo cual es fundamental para dirigir intervenciones y recursos de manera efectiva.
- **Informar Políticas Públicas**: Los insights pueden informar políticas públicas y estrategias de intervención en salud y educación.
- **Desarrollo de Modelos Predictivos**: La comprensión de la distribución y variabilidad de la obesidad puede ser utilizada para desarrollar modelos predictivos que identifiquen factores de riesgo y permitan intervenciones tempranas.

En resumen, la ciencia de datos ofrece herramientas poderosas como la agrupación y agregación para transformar datos en conocimiento útil, lo cual es esencial en campos como la salud pública, la educación y más allá, permitiendo tomar decisiones basadas en datos y mejorar los resultados en diversas áreas.

## Conclusiones del trabajo

1. **Valor de la Visualización y Agrupación de Datos**: La agrupación de datos según características específicas, como el nivel educativo, y la aplicación de funciones de agregación como la suma, media y desviación estándar, no solo simplifican la interpretación de grandes volúmenes de datos, sino que también resaltan tendencias y discrepancias ocultas. Esta capacidad de desglosar y analizar los datos a nivel granular es fundamental para identificar áreas clave de intervención y oportunidades de mejora.

2. **Impacto de las Operaciones de Unión en la Calidad del Análisis**: Las diferentes operaciones de unión (inner, left outer, full outer) demostraron ser herramientas críticas para combinar y comparar datos de diversas fuentes, lo que enriquece el análisis al proporcionar un contexto más amplio. Comprender las diferencias entre estos métodos y saber cuándo aplicar cada uno permite un análisis más preciso y adaptado a las necesidades específicas de cada conjunto de datos.

3. **Aplicabilidad en Múltiples Campos**: Aunque nuestro enfoque ha estado en el análisis de datos educativos relacionados con la obesidad estudiantil, las técnicas y herramientas exploradas son aplicables en una amplia gama de campos dentro de la ciencia de datos. Desde la salud pública y la educación hasta los negocios y la economía, la capacidad de manipular, analizar y visualizar datos de manera efectiva es una habilidad invaluable que potencia la toma de decisiones basada en evidencias.

## Referencias Bibliográficas

**1** Samir Madhavan. (2015). Mastering Python for Data Science: Explore the World of Data Science Through Python and Learn How
to Make Sense of Data. Packt Publishing. (pp. 19-25).

**2.**  McKinney, W. (2017). *Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython* (2ª ed.). O'Reilly Media. Este libro proporciona una introducción completa a la manipulación de datos utilizando Pandas, incluyendo combinación, unión y concatenación de DataFrames.

**3.** VanderPlas, J. (2016). *Python Data Science Handbook: Essential Tools for Working with Data*. O'Reilly Media. Este manual abarca las herramientas esenciales para el análisis de datos en Python, con capítulos dedicados a la manipulación de DataFrames con Pandas.