<a href="https://colab.research.google.com/github/ArcayCo83/ProgramacionUM/blob/main/Laboratorio_15_de_septiembre.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Laboratorio 15 de septiembre

El laboratorio de hoy buscará enseñarles lo que son las librerías, una parte fundamental de la programación en Python.

## ¿Qué son las librerías?

Imagina que Python es una casa, las librerías son una **ampliación** de la casa que permite que sea más sencillo realizar operaciones que, de otro modo, llevarían mucho código llevarlas a cabo.

## ¿Qué tipo de cosas puedo hacer con las librerías en Python?

Puedes hacer muchas cosas, por ejemplo:

| Librería       | Utilidad                                               | Ejemplo                                          |
|----------------|--------------------------------------------------------|--------------------------------------------------|
| **Datos**      |                                                        |                                                  |
| pandas         | Análisis y manipulación de datos                       | `df = pandas.read_csv('archivo.csv')`            |
| numpy          | Computación numérica y operaciones matriciales         | `arr = numpy.array([1, 2, 3])`                  |
| **Visualización** |                                                    |                                                  |
| matplotlib     | Creación de gráficos y visualizaciones                 | `plt.plot([1, 2, 3], [1, 4, 9])`                |
| seaborn        | Visualización de datos basada en matplotlib            | `sns.histplot(data=df, x="columna")`             |
| **Machine Learning** |                                                 |                                                  |
| scikit-learn   | Herramientas sencillas y eficientes para ML            | `clf = RandomForestClassifier()`                 |
| TensorFlow     | Framework de ML con soporte para redes neuronales      | `model = tf.keras.models.Sequential()`           |
| Keras          | API de redes neuronales                                | `model = keras.Sequential()`                     |
| **Web**        |                                                        |                                                  |
| Flask          | Microframework para desarrollo web                     | `app = Flask(__name__)`                          |
| Django         | Framework de alto nivel para desarrollo web            | `django-admin startproject mysite`               |
| **Automatización** |                                                   |                                                  |
| Automate       | Automatización de tareas aburridas                     | `from automate import *`                         |
| **Ciencia**    |                                                        |                                                  |
| SciPy          | Herramientas y algoritmos matemáticos                  | `from scipy.optimize import minimize`            |
| **Juegos**     |                                                        |                                                  |
| Pygame         | Desarrollo de videojuegos                              | `pygame.init()`                                  |

Estas son algunas de las librerías disponibles que **permiten ampliar las capacidades** y hacen de Python el lenguaje de programación más completo en el *mundo mundial*.

## Cómo instalar una librería

Para instalar una librería, usted debe ejecutar el comando
**!pip install pandas**

En este caso vamos a instalar pandas y numpy, las dos librerías más usadas a nivel de manipulación de datos con Python

In [None]:
!pip install pandas
!pip install numpy

# Este código se ejecuta SOLO UNA VEZ en el computador,
# la PRIMERA VEZ QUE VA A INSTALAR UNA LIBRERÍA



In [None]:
# Para poder usar la librería, una vez que está instalada, tenemos que hacer referencia a ella
# usando el comando import

import pandas as pd
# Se usa la nomenclatura as para ABREVIAR la librería y no tener que escribir pandas cada vez que la usamos
import numpy as np
#Lo mismo con numpy, la nomenclatura UNIVERSAL de numpy es np, mientras que la de pandas es pd

# Construyamos un dataframe

Un **dataframe** es una estructura de datos bidimensional, similar a una tabla de una base de datos, una hoja de cálculo de Excel o una tabla en R.

Es una de las estructuras de datos más utilizadas en análisis de datos y ciencia de datos.

Un dataframe puede contener datos de diferentes tipos (como enteros, flotantes, strings, etc.) y se organiza en filas y columnas.

## ¿Cómo se trabaja en Python?

En Python, la librería **pandas** es ampliamente utilizada para trabajar con dataframes.

Con pandas, puedes cargar, manipular y analizar datos en formato de dataframe de manera eficiente.

Por ejemplo, puedes cargar un archivo CSV en un dataframe, realizar operaciones de limpieza y transformación, y luego visualizar o analizar los resultados.

In [None]:
# Crear un dataframe a partir de un diccionario
diccionario = {
    'Nombre': ['Vicente', 'Isidora', 'Pablo'],
    'Edad': [21, 19, 40],
    'Ciudad': ['Rancagua', 'Concepción', 'Santiago']
}

df = pd.DataFrame(diccionario) #se usa df como la abreviatura UNIVERSAL para el dataframe y pd porque estamos usando pandas


In [None]:
df

Unnamed: 0,Nombre,Edad,Ciudad
0,Vicente,21,Rancagua
1,Isidora,19,Concepción
2,Pablo,40,Santiago


Al tener el diccionario convertido en un dataframe **es mucho más sencillo** el poder trabajar con, por ejemplo, medidas como el promedio, el mínimo, el máximo, la moda, etc.

Por ejemplo, para poder capturar el promedio de edad en Python, con lo que sabíamos anteriormente, debiésemos haber ocupado una función de iteración para ir paso a paso por nuestro diccionario obteniendo las edades y luego sumarlas y dividirlas, el código hubiese sido este:

In [None]:
# Inicializar la suma de edades en 0
suma_edades = 0

# Usar un bucle for para sumar todas las edades
for edad in diccionario['Edad']:
    suma_edades += edad

# Calcular el promedio de edad
promedio_edad = suma_edades / len(diccionario['Edad'])

print(f'El promedio de edad es de:' ,round(promedio_edad, 1), 'años')

El promedio de edad es de: 26.7 años


En otras palabras, el proceso de calcular el promedio de edad hubiese sido muy complicado, como por ejemplo, contar los goles que hizo o el promedio de goles para un goleador, etc.

Pero con **pandas**...

In [None]:
# Calcular el promedio de edad
promedio_edad_pandas = df['Edad'].mean()

print(f'El promedio de edad es de:', round(promedio_edad_pandas,1), 'años')

El promedio de edad es de: 26.7 años


¿Y qué pasaría si tuviéramos un set de datos más grande?

Imagine que este fuera su diccionario:

diccionario = {
    'Nombre': ['Vicente', 'Isidora', 'Pablo', 'Matías', 'Constanza',
     'María Belén', 'Mara', 'Thomás'],
    'Edad': [21, 19, 40, 22, 22, 23, 20, 22],
    'Ciudad': ['Rancagua', 'Concepción', 'Santiago',
    'Rancagua', 'Santiago', 'Iquique', 'Antofagasta', 'Santiago']
}

Ahora, calcularemos usando **pandas** lo siguiente:

  + El promedio de edad por ciudad

  + La cantidad de personas por ciudad

In [None]:
# Pasemos el diccionario a un dataframe usando pandas

diccionario2 = {
    'Nombre': ['Vicente', 'Isidora', 'Pablo', 'Matías',
               'Constanza', 'María Belén', 'Mara', 'Thomás'],
    'Edad': [21, 19, 40, 22, 22, 23, 20, 22],
    'Ciudad': ['Rancagua', 'Concepción', 'Santiago', 'Rancagua',
               'Santiago', 'Iquique', 'Antofagasta', 'Santiago']
}
df2 = pd.DataFrame(diccionario2)

df2 # Con esto ya vemos que tenemos nuestros datos en un dataframe un poquito más largo

# Si se puede dar cuenta, la primera fila no parte en 1, sino que parte en 0.

Unnamed: 0,Nombre,Edad,Ciudad
0,Vicente,21,Rancagua
1,Isidora,19,Concepción
2,Pablo,40,Santiago
3,Matías,22,Rancagua
4,Constanza,22,Santiago
5,María Belén,23,Iquique
6,Mara,20,Antofagasta
7,Thomás,22,Santiago


In [None]:
# 2. Calcular el promedio de edad por ciudad
promedio_edad_por_ciudad = df2.groupby('Ciudad')['Edad'].mean()

print(f'El promedio de edad por ciudad es:', promedio_edad_por_ciudad)


El promedio de edad por ciudad es: Ciudad
Antofagasta    20.0
Concepción     19.0
Iquique        23.0
Rancagua       21.5
Santiago       28.0
Name: Edad, dtype: float64


In [None]:
# ¿Y cómo obtengo un código más limpio?

# Transformar promedio_edad_por_ciudad a str de la siguiente forma:

resultado_str = promedio_edad_por_ciudad.to_string()

print(f'El promedio de edad por ciudad es:', resultado_str)

El promedio de edad por ciudad es: Ciudad
Antofagasta    20.0
Concepción     19.0
Iquique        23.0
Rancagua       21.5
Santiago       28.0


In [None]:
# ¿Y si quisiera llevar estos resultados a un dataframe de nuevo?
# Se puede usar el código a continuación:

df3 = promedio_edad_por_ciudad.reset_index()

df3

Unnamed: 0,Ciudad,Edad
0,Antofagasta,20.0
1,Concepción,19.0
2,Iquique,23.0
3,Rancagua,21.5
4,Santiago,28.0


¿Y cómo saber cuántas personas hay por ciudad?

Pues, a diferencia de contar por ciudad con un **for** como en la prueba 01, ahora podemos hacer lo siguiente:

In [None]:
# Cantidad de personas por ciudad

cantidad_personas_por_ciudad = df2['Ciudad'].value_counts()

print(f'La cantidad de personas por ciudad es:\n',
      cantidad_personas_por_ciudad)

La cantidad de personas por ciudad es:
 Santiago       3
Rancagua       2
Concepción     1
Iquique        1
Antofagasta    1
Name: Ciudad, dtype: int64
