<h1 align="center">Crash Course: Pandas</h1>
<h1 align="center">2024</h1>
<h1 align="center">MEDELLÍN - COLOMBIA </h1>

*** 
|[![Outlook](https://img.shields.io/badge/Microsoft_Outlook-0078D4?style=plastic&logo=microsoft-outlook&logoColor=white)](mailto:calvar52@eafit.edu.co)||[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/carlosalvarezh/EstructuraDatosAlgoritmos1/blob/main/CrashCoursePython/CrashCourse04_Pandas.ipynb)
|-:|:-|--:|
|[![LinkedIn](https://img.shields.io/badge/linkedin-%230077B5.svg?style=plastic&logo=linkedin&logoColor=white)](https://www.linkedin.com/in/carlosalvarez5/)|[![@alvarezhenao](https://img.shields.io/twitter/url/https/twitter.com/alvarezhenao.svg?style=social&label=Follow%20%40alvarezhenao)](https://twitter.com/alvarezhenao)|[![@carlosalvarezh](https://img.shields.io/badge/github-%23121011.svg?style=plastic&logo=github&logoColor=white)](https://github.com/carlosalvarezh)|

<table>
 <tr align=left><td><img align=left src="https://github.com/carlosalvarezh/Curso_CEC_EAFIT/blob/main/images/CCLogoColorPop1.gif?raw=true" width="25">
 <td>Text provided under a Creative Commons Attribution license, CC-BY. All code is made available under the FSF-approved MIT license.(c) Carlos Alberto Alvarez Henao</td>
</table>

***

# Introducción

En este *Crash Course de Pandas para Limpieza de Datos*, aprenderemos cómo llevar a cabo el proceso de limpieza de datos utilizando la biblioteca de `Python` llamada `Pandas`. Utilizaremos un conjunto de datos ficticio para ilustrar cada paso del proceso. Asegúrate de tener instaladas las bibliotecas `Pandas`, `NumPy` y `Matplotlib` antes de comenzar.

# Importar las bibliotecas

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# Cargar los datos

In [None]:
# Cargar el dataset ficticio
data = {
    'id': [1, 2, 3, 4, 5, 6],
    'nombre': ['Juan', 'María', 'Luis', 'Ana', 'Pedro','María'],
    'apellido': ['Gomez', 'Perez', 'Botero', 'Zapata', 'Moreno','Henao'],
    'edad': [25, 30, -5, 40, 22, 30],
    'género': ['M', 'F', 'M', 'F', 'O', 'F'],
    'Prueba01': [95, 89, 75, None, 60, 89],
    'Prueba02': [80., 92, 89, 67, 90, 80],
    'Prueba03': [75, 80, 90, 90, 80, 77]
}

In [None]:
df = pd.DataFrame(data)

# Exploración inicial de los datos

In [None]:
# Mostrar las primeras filas del DataFrame
df.head(10)

In [None]:
# Mostrar las últimas filas del DataFrame
df.tail()

In [None]:
# Muestra la información general del DataFrame
df.info()

In [None]:
# Resumen estadístico de las columnas numéricas
df.describe()

In [None]:
# Conteo de valores en la columna 'género'
df['género'].value_counts()

In [None]:
# Verificar si hay valores nulos en el DataFrame
df.isnull().sum()

# Ordenación por columna

In [None]:
# ordena por columna 'Prueba01' sin actualizar el df
df.sort_values(['Prueba03'], ascending=False)

In [None]:
# verifica que el df no ha sido modificado
df

In [None]:
# ordena por columna 'nombre' y actualiza el df
df = df.sort_values(['nombre'])

In [None]:
# verifica que el df fue modificado
df

# Adición de una columna

In [None]:
df['Profesion'] = ['Ingeniera', 'Ingeniero', 'Contador', 'Publicista', 'Publicista', 'Médico']
df

# Asignación mismo valor a toda una columna

In [None]:
df['deporte'] = 'Ninguno'
df

# Eliminación de una columna

In [None]:
# axis = 1: Columna
# axis = 0: fila
df = df.drop(['deporte'], axis = 1)
df

# Eliminación de múltiples columnas

In [None]:
# tener cuidado con este tipo de operaciones. 
# No se actualizará el df original para poderlo recuperar después
df.drop(['nombre', 'Profesion'], axis = 1)

In [None]:
# el df original se preserva
df

# Adición de una fila nueva al final (fila)

In [None]:
len_rows = len(df)
len_rows

In [None]:
df.loc[len_rows] = [7, 'Elisa','Monsalve',38,'F',90.0, 89.0, 95,'Administradora']
df

# Actualizar fila entera

In [None]:
# se localiza por el índice de la fila
df.loc[1] = [7, 'Elizabeth','Monsalve', 38, 'F', 90.0, 89.0, 95, 'Administradora']
df

In [None]:
df.loc[6]

# Actualizar una celda

In [None]:
df.at[5,'nombre'] = 'Mayra'
df

In [None]:
df.at[2,'edad'] = 5
df['edad'] = pd.to_numeric(df['edad'])
df

In [None]:
df.info()

In [None]:
df.describe()

# Eliminar una fila

In [None]:
df.drop([5])

In [None]:
df

# Eliminar múltiples filas

In [None]:
df_tmp = df.drop([2,4])
df_tmp

In [None]:
df

# Filtrar valores

In [None]:
df

In [None]:
# Puntaje mayor a 85
mayor85 = df[df['Prueba01'] > 85]
mayor85

In [None]:
# puntaje mayor a 85 y sexo femenino
doubleFilter = df[(df['Prueba02'] > 85) & (df['género'] == 'F')]
doubleFilter

# Búsqueda por valor

In [None]:
# por un valor específico
valor = df[df['nombre'] == 'Mayra']
valor

In [None]:
nameLong = df[df['nombre'].str.len() >= 5]
nameLong

# Obtener el índice de una fila

In [None]:
df

In [None]:
indexRow = df[df['nombre'] == 'Mayra']
indexRow.index.tolist()[0]

# Tratar con valores nulos

In [None]:
df

In [None]:
# Eliminar filas con valores nulos 
# (se guarda en un DF diferente para no perder información del DF original)
df_cleaned = df.dropna()
df_cleaned

In [None]:
df

In [None]:
# Rellenar valores nulos en la columna 'Prueba01' con el promedio
mean_score = df['Prueba01'].mean()
df['Prueba01'].fillna(mean_score, inplace=True)
df

# Tratar con valores incorrectos

In [None]:
# Eliminar filas con edades negativas
df_cleaned = df_cleaned[df_cleaned['edad'] >= 18]
df_cleaned

In [None]:
# Reemplazar géneros no válidos por 'Otro'
df['género'] = df['género'].apply(lambda x: 'Otro' if x not in ['M', 'F'] else x)
df

# Detección y manejo de duplicados

In [None]:
# Verificar duplicados basados en todas las columnas
duplicates = df.duplicated()
duplicates

In [None]:
# Eliminar duplicados
df_cleaned = df[~duplicates]
df_cleaned

# Corrección de tipos de datos

In [None]:
df_cleaned

In [None]:
# Convertir la columna 'edad' a valores absolutos
df_cleaned['edad'] = df_cleaned['edad'].apply(lambda x: abs(x))
df_cleaned

In [None]:
df.info()

In [None]:
# Convertir la columna 'id' a tipo numérico
df_cleaned['id'] = pd.to_numeric(df_cleaned['id'])
df.info()

# Operaciones entre columnas

In [None]:
df

In [None]:
# adicionar nueva columna con el promedio de notas
df['Promedio'] = (df['Prueba01'] + df['Prueba02'] + df['Prueba03']) / 3
df.sort_values(['Promedio'])

In [None]:
# una forma más "correcta" de hacer la anterior operación sería:
Pruebas = ['Prueba01', 'Prueba02', 'Prueba03']
df['Promedio2'] = df[Pruebas].mean(axis=1) #axis = 1 --> columnas
df

# Aplicación operación definida

In [None]:
# función para seleccionar cierta cantidad de caracteres de un nombre para crear un código
def crear_codigo(name):
    name = name.upper() # paso a mayusculas
    name = name[0:3]    # primeros 3 char
    return name

In [None]:
df['Codigo'] = df['Profesion'].apply(crear_codigo)
df

In [None]:
# generación automática de usuarios de correos electrónicos
# se le asigna un consecutivo según el índice que ocupe
df['Correo'] = df['nombre'].str[:3].str.lower() + df['apellido'].str[:3].str.lower() + df.index.astype(str) + '@guachafasoft.com.co'
df

In [None]:
#un código más complejo, cuando hay usuarios repetidos:

from unidecode import unidecode  # Importa la función unidecode

# Función para quitar caracteres especiales y acentos
def remove_special_characters(text):
    return unidecode(text)

# Función para generar correos electrónicos únicos
def generate_unique_email(row):
    username = row['Correo2']
    if username in username_counts:
        if username not in username_number:
            username_number[username] = 1
        else:
            username_number[username] += 1
        return username + str(username_number[username]) + '@guachafasoft.com.co'
    else:
        return username + '1@guachafasoft.com.co'

# Aplicar la función para eliminar caracteres especiales a las columnas 'Nombre' y 'Apellido'
df['nombre'] = df['nombre'].apply(remove_special_characters)
df['apellido'] = df['apellido'].apply(remove_special_characters)

# Crear una nueva columna 'Correo' con las direcciones de correo electrónico
df['Correo2'] = df['nombre'].str[:3].str.lower() + df['apellido'].str[:3].str.lower()

# Contar la frecuencia de cada nombre de usuario
username_counts = df['Correo2'].value_counts().to_dict()
username_number = {}

df['Correo2'] = df.apply(generate_unique_email, axis=1)

# Mostrar el DataFrame resultante
df


# Aplicar una función a cada fila

In [None]:
def categoria(fila):
    promedio = fila['Promedio']
    if promedio >= 90.0:
        return 'Alto'
    elif (promedio >= 80.0) & (promedio < 90.0):
        return 'Medio'
    else:
        return 'Bajo'

df['Categoria'] = df.apply(categoria, axis=1)
df

# Aplicación columnas con parámetros

In [None]:
def asigna_color(Categoria):
    if Categoria == 'Alto':
        return 'verde'
    elif Categoria == 'Medio':
        return 'amarillo'
    else:
        return 'rojo'   

df['color'] = df.apply(lambda x: asigna_color(x['Categoria']), axis=1);
df

# Mapeo

In [None]:
df['mapeo_color'] = df['color'].map( {'verde': 2, 'amarillo': 1, 'rojo': 0} ).astype(int)
df

# Join entre tablas

In [None]:
# se crea otro df con el 'id' como identificador común entre ambos
df_hobbies = pd.DataFrame(data={"pasatiempo":['Leer', 'Música', 'Futbol', 'Música','Música', 'Leer', 'Fútbol']},
                         index = [1,2,3,4,5,6,7])
df_hobbies

In [None]:
df

In [None]:
# se asigna la columna 'id' del df original como índice
df_index = df.set_index('id')
df_index

In [None]:
# se hace el join entre los dos DF mediante el índice 'id'
df_join = pd.concat([df_index, df_hobbies], axis = 1, sort = True)

In [None]:
df_join

# Agrupación

In [None]:
# agrupar por 'categoría' y sacar cantidades de cada elemento dentro de ella
agrupar = df_join.groupby(['pasatiempo']).size()
agrupar

In [None]:
# agrupar por 'categoría' y sumar
agruparSuma = df.groupby(['Categoria']).sum()
agruparSuma

# Cálculo de estadísticos

In [None]:
datos = np.random.randn(5,4) # datos normalmente distribuidos
datos

In [None]:
df = pd.DataFrame(datos, index=['Almacén1', 'Almacén2', 'Almacén3', 'Almacén4', 'Almacén5'], 
                        columns=['Prod1', 'Prod2', 'Prod3', 'Prod4'])
df

In [None]:
df.describe() # resumen estadistadistico con pandas

In [None]:
df.count()

In [None]:
df.sum() # sumando las columnas

In [None]:
df.sum(axis=1) # sumando filas

In [None]:
df['Prod1'].sum() #suma de una columna en particula

In [None]:
df.cumsum() # acumulados

In [None]:
df.mean() # media aritmetica de cada columna 

In [None]:
df.mean(axis=1) # media aritmetica de cada fila 

In [None]:
df['Prod1'].mean() # media aritmetica de una columna en particular

In [None]:
df.std() # Desviación Estándar de cada columna del dataframe

In [None]:
df['Prod1'].std() # Desviación estándar de una columna en particular

In [None]:
df.min()

In [None]:
df.quantile(q=0.25)

In [None]:
df.quantile(q=0.50) #cuantil 50 = mediana

In [None]:
df.quantile(q=0.75)

In [None]:
df.max()

# Análisis exploratorio

In [None]:
# Histograma de edades
plt.hist(df_join['edad'], bins=10, edgecolor='black')
plt.xlabel('Edad')
plt.ylabel('Frecuencia')
plt.title('Distribución de Edades')
plt.show()

In [None]:
# Diagrama de dispersión entre edades y promedio
plt.scatter(df_join['edad'], df_join['Promedio2'])
plt.xlabel('Edad')
plt.ylabel('Promedio')
plt.title('Relación entre Edad y Promedio')
plt.show()

# Guardar los datos limpios

In [None]:
df_cleaned.to_csv('Data/datos_limpios100.csv', index=True)

# Resumen de paquetes Pandas

***Importación de datos***

In [None]:
pd.read.csv()

In [None]:
pd.read_table()

In [None]:
pd.read_excel()

In [None]:
pd.read_sql()

In [None]:
pd.read_json()

In [None]:
pd.read_html()

In [None]:
pd.DataFrame()

In [None]:
pd.concat()

In [None]:
pd.Series()

In [None]:
pd.date_range()

***Limpieza de datos***

In [None]:
pd.fillna()

In [None]:
pd.dropna()

In [None]:
pd.sort_values()

In [None]:
pd.apply()

In [None]:
pd.groupby()

In [None]:
pd.append()

In [None]:
pd.join()

In [None]:
pd.rename()

In [None]:
pd.to_csv()

In [None]:
pd.set_index()

***Estadística***

In [None]:
pd.head()

In [None]:
pd.tail()

In [None]:
pd.describe()

In [None]:
pd.info()

In [None]:
pd.mean()

In [None]:
pd.median()

In [None]:
pd.count()

In [None]:
pd.std()

In [None]:
pd.max()