<a href="https://colab.research.google.com/github/KevinGuio/programacion-para-ingenieria/blob/main/Taller_03_Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## «*Mide diez veces, pero no cortes más que una*».

### Proverbio ruso

# Taller 03 Pandas
En este taller aprenderá los conceptos básicos de Python 3 relativos a la librería Pandas (Python Data Analysis Library).

Pandas **no es una librería nativa** de Python por lo que **requiere ser instalada antes de ser invocada**. Sin embargo, esta librería sí está preinstalada en Google Colaboratory por lo que basta invocarla para poder usar sus funcionalidades.

Puede consultar más información en: [pandas](https://pandas.pydata.org/).

# Referencias
Este taller se basa en información e ideas recopiladas de las siguientes fuentes:

* [Documentación oficial de pandas](https://pandas.pydata.org/pandas-docs/stable/index.html)

* [Tutorial de pandas](https://www.interactivechaos.com/manual/tutorial-de-pandas/tutorial-de-pandas)

* [Learn pandas with 50 examples](https://www.listendata.com/2017/12/python-pandas-tutorial.html)

* [Python-Pandas cheat sheet: 30 functions-methods](https://jyoti05iitd.medium.com/python-pandas-cheat-sheet-30-functions-methods-b1176f2e37da)

* [Fhernd/Python-Pandas-Ejercicios](https://github.com/Fhernd/Python-Pandas-Ejercicios/blob/master/Python-Pandas-Ejercicios-Serie1.ipynb)

# Series en pandas

Las Series en pandas son listas que tienen asociado un **índice** (etiqueta asociada con la posición).

### Crear una serie en pandas


In [None]:
# Importar las librerías requeridas
import numpy as np
import pandas as pd

# Listas "tradicionales"
h = [1,2,2,5,10,8]
print('Esta es una lista \"tradicional\" en Python: ', h)

# Una serie en pandas
a = pd.Series([1,2,2,5,10,8])
print("Esta es una serie en pandas:\n",a,"\n")

# Crear una serie que incluye un elemento de NumPy
s = pd.Series([1,2,2,np.nan,10,8])
#s = pd.Series([1,2,2,10,8])
print("Esta es otra serie en pandas:\n",s,"\n")

# Crear una serie a partir de una lista
s = pd.Series(h)
print("Esta es una serie en pandas creada a partir de una lista de Python:\n",\
      s,"\n")

### Crear índices en pandas

Una de las formas de crear índices es a partir de frecuencias cronológicas (día, mes, año).

In [None]:
# Importar las librerías requeridas
import pandas as pd

'''
Un índice no es más que una lista de datos.
'''
# Crear un índice de frecuencia diaria
fechas_d = pd.date_range('20200227', periods=550, freq='D')
print("Frecuencia diaria: \n", fechas_d)

# Crear un índice de frecuencia mensual
fechas_m = pd.date_range('20160301', periods=18, freq='M')
print("Frecuencia mensual: \n", fechas_m)

# Crear un índice de frecuencia anual
fechas_a = pd.date_range('20160301', periods=6, freq='A')
print("Frecuencia anual: \n", fechas_a)

### Asignar un índice a una serie

Los índices se pueden asignar a las series.

In [None]:
# Importar las librerías requeridas
import pandas as pd

# Crear un rango de fechas
fechas = pd.date_range('20160301', periods=6)
print("Este es un índice de fechas: ", fechas)

# Convertir ts = pd.Series([1,3,5,2,6,8]) en una serie con índice cronológico
ts = pd.Series([1,3,5,2,6,8], index=fechas)
print("Esta es una serie con un índice cronológico:\n", ts)

# Crear un rango cualquiera
letras = pd.Series(["A","B","C","D","E","F"])
print("Este es una serie alfabética: \n", letras)

# Convertir ts = pd.Series([1,3,5,2,6,8]) en una serie con índice alfabético
ts = pd.Series([1,3,5,2,6,8], index=letras)
print("Esta es una serie con un índice alfabético:\n", ts)

# DataFrames

Los DataFrames en pandas son **arreglos** (matrices) que tienen asociados índices (etiquetas de posición) en sus filas y en sus columnas.

### Crear un DataFrame a partir de una matriz

In [None]:
# Importar las librerías necesarias
import numpy as np
import pandas as pd

# Crear una matriz de NumPy (tres filas x seis columnas) con números aleatorios
matriz_datos = np.random.randn(3, 6)
print("Matriz de NumPy datos aleatorios ")
print(matriz_datos)

# Crear los índices para las filas
filas = ['Fila 1', 'Fila 2', 'Fila n']

# Crear las etiquetas para  las columnas
'''
Ensaye a ejecutar el código anulando la línea 17 y activando la línea 18
'''
columnas = list('ABZXYC')
#columnas = ['Grupo 0', 'Grupo 1', 'Grupo 2', 'Grupo 3','Grupo 4', 'Grupo 5']

# Crear el DataFrame
df = pd.DataFrame(matriz_datos, index=filas, columns=columnas)
print("DataFrame de pandas", df, sep = "\n")

### Crear un DataFrame a partir de un diccionario

In [None]:
# Importar las librerías necesarias
import pandas as pd

# Crear un DataFrame a partir de un diccionario
# las claves del diccionario se convierten en las etiquetas de las columnas
# del DataFrame
df_dict = pd.DataFrame({'codigo' : np.random.randn(4),
                    'fecha' : pd.date_range('20170301', periods=4, freq='M'),
                    'nota' : pd.Series([1, 5, 2, 3],index=list(range(4)) ,\
                                       dtype='float32'),
                    'intento' : np.array([3,2] * 2),
                    'genero' : pd.Categorical(["F","M","F","M"]),
                    'comentario' : 'Texto' })
print(f"DataFrame creado a partir de un diccionario:\n {df_dict}")

### Algunos atributos y funciones de un DataFrame

In [None]:
print("La forma del DataFrame es:", df_dict.shape, sep = "\n")

print("Los nombres de las columnas del DataFrame son:", df_dict.columns.tolist(),\
      sep = "\n")

print("Tipo de datos correspondendiente a las columnas:", df_dict.dtypes, \
      sep = "\n")

print("\nDatos originales:", df_dict, sep = "\n")

print("\nTranspuesta:", df_dict.T, sep = "\n")

print("\nRepresentación en NumPy del DataFrame:", df_dict.values, sep = "\n")

print("\nValor absoluto de la columna «nota» en el DataFrame:", \
      df_dict["nota"].abs(), sep = "\n")

# Cambiar el nombre de una columna del DataFrame
df_dict = df_dict.rename(columns={"intento": "ensayo"})
print("DataFrame con el nombre de una columna cambiado", df_dict, sep = "\n")

### Ubicar elementos en un arreglo

**at**: se utiliza con etiquetas («nombres») de filas y de columnas

**iat**: se utiliza con los números correspondientes a las filas y a las columnas. **Ambos índices tienen que ser números enteros**.

In [None]:
# Ubicar un elemento por la combinación del nombre de la fila y el nombre de la
# columna
print("\nValor en la fila '2' y columna 'genero':", df_dict.at[2, 'genero'],
      "\n")

'''
Active la línea 10 y observe lo que sucede al ejecutar el código
'''

#print("\nValor en la fila '2' y columna 'genero':", df_dict.iat[2, 'genero'],\
#"\n")

# Ubicar un elemento por la combinación del número de la fila y el número de
# la columna
print("\nValor en la fila '2' y valor en la columna 4:", df_dict.iat[2, 4], \
      "\n")

### Seleccionar las primeras filas de un DataFrame

In [None]:
#Mostrar las tres primeras filas del DataFrame
print("Primeras tres filas del DataFrame:", df_dict.head(3), sep ="\n")
df_dict.head(3)

### Seleccionar las últimas filas de un DataFrame

In [None]:
#Mostrar las dos ultimas filas del DataFrame
print("Últimas fila del DataFrame:", df_dict.tail(2), sep="\n")

df_dict.tail(2)

### Mostrar los principales indicadores de las variables numéricas de un DataFrame

In [None]:
# Descripción básica del DataFrame
print("Descripción rápida del DataFrame:")
df_dict.describe()

### Mostrar las etiquetas de las filas y las columnas de un DataFrame

In [None]:
# Mostrar el índice y las etiquetas de las columnas
print("\nÍndice de las filas del DataFrame:\n", df_dict.index)
print("\nColumnas del DataFrame:\n", df_dict.columns)

### Ordenar un DataFrame por su índice

In [None]:
# Ordenar el DataFrame
print("Ordenar por indice:")
#df_dict.sort_index(axis=0, ascending=False)
df_dict.sort_index(axis=0, ascending=True)

### Ordenar un DataFrame por los valores de una de sus columnas

In [None]:
# Ordenar el DataFrame
print("Ordenar por valores:")
df_dict.sort_values(by='nota')
#df_dict.sort_values(by='nota', ascending=False)

### Selección o filtrado de datos

**loc**: se utiliza con etiquetas («nombres») de filas y de columnas

**iloc**: se utiliza con los números correspondientes a las filas y a las columnas. **Ambos índices tienen que ser números enteros**.

In [None]:
# Mostrar columna "codigo"
print("Filtrar por columnas:")
print(df_dict['codigo'])

# Filtrar por indices
print("\nFiltrar por índices:")
print(df_dict[1:2])

print("\nFiltrar por índices:")
print(df_dict.loc[2])

# loc se usa cuando se va a filtrar con etiquetas
print("\nFiltrar por índices de filas y etiquetas de columnas:")
print(df_dict.loc[2:,['fecha', 'nota']])

# iloc se usa cuando se va a filtrar con números de columnas
print("\nFiltrar por posicion en indices:")
print(df_dict.iloc[[1, 2], [3, 5]])
print('\n',df_dict.iloc[1:2,0:2])

### Selección condicional con pandas por columnas y valores

In [None]:
# Obtener las filas de df_dict donde en la columna "nota" su valor es mayor a 1

# Formato nombreDF.nombreCol
df_dict[df_dict.nota > 1]

# Formato nombreDF["nombreCol"]
#df_dict[(df_dict['nota'] > 1)]

### Selección condicional con pandas por columnas y rangos de valores

In [None]:
# Obtener las filas de df_dict donde en la columna "nota" su valor es mayor a 3 y menor a 5

# Formato nombreDF.nombreCol
newDF_1 = df_dict[(df_dict.nota > 3) & (df_dict.nota <=5)]

# Formato nombreDF["nombreCol"]
newDF_2 = df_dict[(df_dict['nota'] > 3) & (df_dict['nota'] <=5)]

print(newDF_1, "\n")

print(newDF_2, "\n")

### Selección condicional con pandas usando .loc

In [None]:
# Selección condicional con .loc

# Formato nombreDF["nombreCol"]
new_df_1 = df_dict.loc[(df_dict['nota'] > 2) & (df_dict['nota'] <=5)]

# Formato nombreDF.nombreCol
new_df_2 = df_dict.loc[(df_dict.nota > 2) & (df_dict.nota <=5)]

print (new_df_1, "\n")

print (new_df_2)

### Selección condicional con pandas usando el método **query**

In [None]:
# Selección condicional con query

# Seleccionar con el método query
new_df_3 = df_dict.query('nota > 2  &  nota <=5')

print (new_df_3, "\n")

# Aplicaciones

## Limpieza de datos

Aplicación basada en [Base de datos empresas constructoras Oriente Antioqueño](https://www.datos.gov.co/Comercio-Industria-y-Turismo/Base-de-datos-empresas-constructoras-Oriente-Antio/ffr8-4wq2) disponible en [Datos abiertos](https://www.datos.gov.co/).

### Cargar librerías y obtener información del archivo

In [None]:
# Importar lbrerías requeridas
import numpy as np
import pandas as pd

# Declarar la ruta del archivo
ruta_constructores = 'https://raw.githubusercontent.com/gabrielawad/programacion-para-ingenieria\
/refs/heads/main/archivos-datos/pandas/Base_de_datos_empresas_constructoras_Oriente_\
Antioqueno.csv'

# Cargar el DataFrame
constructores_df = pd.read_csv(ruta_constructores, sep=',')

# Verificar la lectura del DataFrame
print (constructores_df)

### Analizar la información del archivo

In [None]:
# Encontrar los nommbres de las columnas
print("Los nombres de las columnas del DataFrame son:", \
      constructores_df.columns.tolist(), sep = "\n")

# Encontrar los nombres de las filas
print("\nÍndice de las filas del DataFrame:\n", \
      constructores_df.index, sep = "\n")

# Verficar los tipos de datos de las columnas
print("Tipo de datos correspondendiente a las columnas:", \
      constructores_df.dtypes, sep = "\n")

### Depurar la información del archivo

In [None]:
# Chequear la forma del DataFrame original
print("La forma del DataFrame original es:", constructores_df.shape, sep = "\n")

# Chequear si hay columnas con valores NA
print("\nReporte de NAs por columnas del DataFrame original:", \
      constructores_df.isna().sum(), sep = "\n")

# Eliminar las filas con valores NA
constructores_df_2 = constructores_df.dropna()
print("\nReporte de NAs por columnas después de eliminar las filas valores NA:",\
      constructores_df_2.isna().sum(), sep = "\n")

# Chequear la forma del DataFrame después de suprimir las filas con valores NA
print("La forma del nuevo DataFrame después de suprimir las filas con valores \
NA es:", constructores_df_2.shape, sep = "\n")

# Cambiar los valores NA por 0
constructores_df_3 = constructores_df.fillna(value = 0)
print("\nReporte de NAs por columnas después de cambiar los valores NA por 0:",\
      constructores_df_3.isna().sum(), sep = "\n")

# Chequear la forma del DataFrame después de cambiar los valores NA por 0
print("La forma del nuevo DataFrame después de cambiar los valores NA por = \
es:", constructores_df_3.shape, sep = "\n")

## Pruebas Saber

El taller se basa en el archivo: [Pruebas Saber 11 2016-2](https://docs.google.com/spreadsheets/d/1lSntru6cVY2VPSYoG-M6pDXFUsJMR5eNgd6EtSrakH8/edit#gid=747368693).

Puede acceder a los datos con los resultados de las pruebas del ICFES en el siguiente enlace:

[Portal ICFES - resultados](https://www.icfes.gov.co/resultados-saber)

### Cargar librerías y obtener información de archivo

In [None]:
# Importar lbrerías requeridas
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import openpyxl

# Declarar la ruta del archivo
ruta_saber = 'https://raw.githubusercontent.com/gabrielawad/programacion-para-ingenieria/refs\
/heads/main/archivos-datos/pandas/saber11_20162.csv'

# Cargar el DataFrame
saber_df = pd.read_csv(ruta_saber, sep=';', decimal=',')

# Verificar la lectura del DataFrame
print (saber_df)

### Seleccionar municipio y procesar datos

In [None]:
# Seleccionar el municipio deseado
datos = saber_df[saber_df.CODIGOMUNICIPIO == 5001]
#datos = saber_df[saber_df.CODIGOMUNICIPIO == 11001]

# Seleccionar las columnas requeridas
promedios = datos.iloc[:, 9:14]
df3 = pd.DataFrame(promedios.values, index=datos['NOMBREINSTITUCION'],\
                   columns=promedios.columns)

# Calcular el promedio y graficar
promedios = df3.mean(1)
promedios = promedios.sort_values(ascending=False)
#promedios = promedios.sort_values(ascending=True)
promedios[:10].plot(kind='barh')
plt.show()

### Mostrar resultados

In [None]:
# Mostrar los resultados
print(promedios[:10])

## Produccción de madera en Colombia

Aplicación basada en la base de datos sobre [plantaciones forestales comerciales](https://docs.google.com/spreadsheets/d/1zTXJkTzXMant4mMHDarYH9s-62OVBuT_/edit#gid=415198740) disponible en [Datos abiertos](https://www.datos.gov.co/Agricultura-y-Desarrollo-Rural/Base-de-datos-relacionada-con-madera-movilizada-pr/9aan-wm8m).

### Cargar librerías y obtener información del archivo

In [None]:
# Importar las librerías requeridas
import numpy as np
import pandas as pd

# Declarar la ruta del archivo
ruta_maderas ='https://raw.githubusercontent.com/gabrielawad/programacion-para-ingenieria/refs/\
heads/main/archivos-datos/pandas/Madera_plantaciones_forestales_comerciales.xlsx'

# Cargar el DataFrame
maderas_df = pd.read_excel(ruta_maderas, sheet_name='Produccion')

# Verificar la lectura del DataFrame
print (maderas_df)

### Analizar la información del archivo

In [None]:
# Encontrar los nommbres de las columnas
print("Los nombres de las columnas del DataFrame son:", \
      maderas_df.columns.tolist(), sep = "\n")

# Encontrar los nombres de las filas
print("\nÍndice de las filas del DataFrame:\n", maderas_df.index, sep = "\n")

# Verficar los tipos de datos de las columnas
print("Tipo de datos correspondendiente a las columnas:", \
      maderas_df.dtypes, sep = "\n")

# Chequear si hay columnas con valores NA
print("Reporte de NAs por columnas:", maderas_df.isna().sum(), sep = "\n")

# Seleccionar columnas cuyo tipo de dato es "object"
print("\nColumnas cuyo tipo de dato es un objeto:", \
      maderas_df.select_dtypes(include = 'object'), sep = "\n")

# Contar valores por columna
print("Número de veces que aparece cada departamento:", \
      maderas_df['DPTO'].value_counts(ascending=True), sep = "\n")

# identificar valores únicos por columna
print("Nombres únicos por columna:", maderas_df['DPTO'].unique(), sep = "\n")

# Seleccionar unas columnas
maderas_2 = maderas_df[['DPTO', 'MUNICIPIO', 'ESPECIE']]
print("Departamentos, municipios y especies:",maderas_2, sep = "\n")

# Seleccionar unas filas
maderas_3 = maderas_df.iloc[10:16,]
print("Selección de las filas 10 a 15:",maderas_3, sep = "\n")

# Seleccionar filas y columnas
maderas_4 = maderas_df.loc[10:16, ['DPTO', 'MUNICIPIO', 'ESPECIE']]
print("Selección de filas y columnas:",maderas_4, sep = "\n")

# Filtrar los datos usando una columna
maderas_5 = maderas_df[maderas_df['DPTO'] == 'Antioquia']
print("Datos de Antioquia:",maderas_5, sep = "\n")

# Filtrar datos que cumplan varias condiciones
maderas_6 = maderas_df[(maderas_df['DPTO'] == 'Antioquia') & \
 (maderas_df['ESPECIE'] == 'Pinus patula')]
print("Pinus patula en Antioquia:",maderas_6, sep = "\n")

# Filtrar datos con condiciones tipo OR
maderas_7 = maderas_df[(maderas_df['DPTO'] == 'Antioquia') | (maderas_df['ESPECIE'] == 'Pinus patula')]
print("Maderas en Antioquia o Pinus patula:",maderas_7, sep = "\n")

### Acacia mangium en Antioquia

Puede consultar más información sobre el método query en: [Uso de Pandas Query para filtrar datos de forma sencilla](https://www.analyticslane.com/2022/05/02/uso-de-pandas-query-para-filtrar-datos-de-forma-sencilla/)

In [None]:
# Seleccionar la información de Acacia mangium en  Antioquia
maderas_antioquia = maderas_df.query('DPTO == "Antioquia" and\
 ESPECIE=="Acacia mangium"')

# Mostrar Acacia mangium en Antioquia
print("Madera en Antioquia:", maderas_antioquia, sep = "\n")

### Resumir la información del DataFrame por grupos

In [None]:
# Resumir la información por grupos
maderas_depto_tipo = maderas_df.groupby(['DPTO','TIPO PRODUCTO'], \
                                        as_index=False)['AÑO'].agg('count')
print("La producción de productos por departamento es:", \
      maderas_depto_tipo, sep ="\n")

# Resumir la información para varios grupos al tiempo
maderas_depto_especie_tipo = maderas_df.groupby(['DPTO','ESPECIE',\
                                                 'TIPO PRODUCTO'], as_index=False)['AÑO'].agg('count')
print("La producción de productos por especie y departamento es:", \
      maderas_depto_especie_tipo, sep ="\n")

### Construir tablas dinámicas

In [None]:
# Construir tablas dinámicas en Pandas
td_maderas_1 = maderas_df.pivot_table(index = ['DPTO','ESPECIE','TIPO PRODUCTO'],
               values = ['VOLUMEN M3'], aggfunc=['sum','count'])
print(td_maderas_1)

# Ejercicios

Los siguientes ejercicios deben ser resueltos con ***pandas*** sin utilizar la instrucción **if**,ni ciclos **for** ni **while**.

Todos los códigos se deben ajustar al protocolo PEP8.

Utilice el archivo [datos_pandas.csv](https://github.com/gabrielawad/programacion-para-ingenieria/tree/main/archivos-datos/pandas)

### 00
Convierta todos los datos de la columna nombres al formato Nombre Apellido

In [None]:
# Resuelva en esta celda el ejercicio 00


### 01
Convierta todas las edades a números enteros

In [None]:
# Resuelva en esta celda el ejercicio 01


### 02
Verifique que todas las edades están en el rango 21 a 62. Cambie los valores que no estén en ese rango, a 33

In [None]:
# Resuelva en esta celda el ejercicio 02


### 03
Verifique que todos los correos electrónicos sean direcciones válidas. En caso de que no sea una dirección válida asigne la dirección: miejemplo@sindominio.com

In [None]:
# Resuelva en esta celda el ejercicio 03

### 04
Si hay valores faltantes en la columna de salario, asigne el valor de 30000

In [None]:
# Resuelva en esta celda el ejercicio 04

### 05
Convierta todas las fechas al mismo formato. Utilice YYYY-MM-DD. En caso de que haya fechas inválidas cámbielas por 2024-12-09

In [None]:
# Resuelva en esta celda el ejercicio 05


### 06
En caso de que existan valores negativos en los salarios, reemplácelos por 0.

In [None]:
# Resuelva en esta celda el ejercicio 06


### 07
Elimine los nombres repetidos en caso de que existan.

In [None]:
# Resuelva en esta celda el ejercicio 07


### 08
Cree una columna con los salarios expresados como un porcentaje del máximo salario

In [None]:
# Resuelva en esta celda el ejercicio 08


### 09
Elimine los espacios en blanco que existan antes y después de los elementos de la columna nombre. Verifique que entre los elementos que componen cada fila de nombres solo exista un espacio en blanco

In [None]:
# Resuelva en esta celda el ejercicio 09
