In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# Introducción a Pandas
# Notebook para clase de 8 horas de programación

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

## 1. Introducción a Archivos CSV y Librería CSV

# Los archivos CSV (Comma-Separated Values) son una forma común de almacenar datos tabulares
# Cada línea representa una fila y los valores están separados por comas

# Ejemplo de un archivo CSV de temperaturas semanales:
'''
day,temp,condition
Monday,12,Sunny
Tuesday,14,Rain
Wednesday,15,Rain
Thursday,14,Cloudy
Friday,21,Sunny
Saturday,22,Sunny
Sunday,24,Sunny
'''

# Creando un pequeño archivo CSV para demostración
with open('weather_data.csv', 'w') as f:
    f.write('day,temp,condition\n')
    f.write('Monday,12,Sunny\n')
    f.write('Tuesday,14,Rain\n')
    f.write('Wednesday,15,Rain\n')
    f.write('Thursday,14,Cloudy\n')
    f.write('Friday,21,Sunny\n')
    f.write('Saturday,22,Sunny\n')
    f.write('Sunday,24,Sunny\n')

# Usando la librería CSV para leer el archivo
import csv
with open('weather_data.csv') as data_file:
    # Se recorre el archivo y se crea un iterable en data
    data = csv.reader(data_file)
    print("Contenido del CSV usando librería CSV:")
    for row in data:
        print(row)

## 2. Introducción a Pandas

# Pandas es una librería de Python para análisis de datos
# Es muy poderosa para trabajar con datos tabulares (como CSV, Excel, etc.)
# Su nombre viene de "Panel Data" y "Python Data Analysis"

# Características principales:
# - Define nuevas estructuras de datos basadas en NumPy
# - Permite leer y escribir fácilmente ficheros CSV, Excel y bases de datos SQL
# - Permite acceder a los datos mediante índices o nombres para filas y columnas
# - Métodos para reordenar, dividir y combinar conjuntos de datos
# - Trabajar con series temporales
# - Operaciones eficientes

# Usando Pandas para leer el mismo archivo CSV
print("\nContenido del CSV usando Pandas:")
df_weather = pd.read_csv('weather_data.csv')
print(df_weather)

## 3. Tipos de datos en Pandas

# Pandas aumenta los tipos de datos disponibles en Python con tres estructuras:
# - Series: Estructura de una dimensión (similar a una lista o columna)
# - DataFrame: Estructura de dos dimensiones (tablas)
# - Panel: Estructura de tres dimensiones (cubos) - menos utilizada

## 4. Series en Pandas

# Una Serie es una estructura unidimensional similar a un array o lista
# Tiene un índice asociado a cada elemento
# Es de tamaño inmutable (no se puede cambiar su longitud)

# Creando una Serie básica
print("\nCreando una Serie básica:")
s = pd.Series(['Mark', 'Justin', 'John', 'Vicky'], dtype='string')
print(s)

# Creando una Serie con índices personalizados
print("\nCreando una Serie con índices personalizados:")
s = pd.Series(['Mark', 'Justin', 'John', 'Vicky'], index=[222, 333, 444, 555], dtype='string')
print(s)

# Ejemplo de Serie con notas de estudiantes
print("\nEjemplo de Serie con notas de estudiantes:")
notas = [5.7, 8.5, 9.1, 5.5, 8.2, 9.0, 10, 7.0, 7.7, 9.9]
estudiantes = ["Juan", "Jennifer", "David", "Pablo", "Armando", "Magdalena", 
               "Francesca", "Rosmery", "Vicente", "Martin"]
calificaciones = pd.Series(notas, index=estudiantes)
print(calificaciones)

## 5. Creación de Series desde diferentes fuentes

# Creando Series desde un diccionario
print("\nCreando Series desde un diccionario:")
new_dict = {
    "Matemáticas": 8.0,
    "Programación": 7.7,
    "Inglés": 8.2
}
s_dict = pd.Series(new_dict)
print(s_dict)

# Usando range
print("\nCreando Series desde range():")
s_range = pd.Series(range(10))
print(s_range)

# Desde un escalar (repetición del valor)
print("\nCreando Series desde un escalar:")
s_scalar = pd.Series(10, index=[0, 1, 2, 3, 4, 5])
print(s_scalar)

# Usando linspace de NumPy
print("\nCreando Series con np.linspace:")
s_linspace = pd.Series(np.linspace(1, 100, 10))
print(s_linspace)

# Usando list comprehension
print("\nCreando Series con list comprehension:")
s_comp = pd.Series(range(1, 20, 3), index=[x for x in 'abcdefg'])
print(s_comp)

# Usando el módulo random de NumPy
print("\nCreando Series con random de NumPy:")
s_random = pd.Series(np.random.randint(1, 100, size=10))
print(s_random)

## 6. Métodos y atributos de Series

print("\nMétodos y atributos de Series:")
s_demo = pd.Series([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])

# Atributos básicos
print("Tamaño:", s_demo.size)
print("Índice:", s_demo.index)
print("Tipo de datos:", s_demo.dtype)
print("Valores:", s_demo.values)

# Métodos estadísticos
print("Conteo:", s_demo.count())
print("Suma:", s_demo.sum())
print("Mínimo:", s_demo.min())
print("Máximo:", s_demo.max())
print("Media:", s_demo.mean())
print("Descripción completa:")
print(s_demo.describe())

## 7. Operaciones con Series

print("\nOperaciones con Series:")

# Multiplicar por un escalar
print("Multiplicación por escalar:")
print(s_demo * 2)

# Módulo
print("\nOperación módulo:")
print(s_demo % 2)

# Operaciones con cadenas
print("\nOperaciones con cadenas:")
s_str = pd.Series(['a', 'b', 'c'])
print(s_str * 5)

# Operaciones entre Series
print("\nOperaciones entre Series:")
s1 = pd.Series([2, 4, 6])
s2 = pd.Series([5, 4, 3])
print(s1 * s2)

## 8. Aplicar funciones a Series

print("\nAplicar funciones a Series:")

# Aplicando función a una Serie numérica
def cuadrado(x):
    return x**2

print("Función cuadrado:")
print(s_demo.apply(cuadrado))

# Aplicando función a una Serie de texto
print("\nFunción sobre texto:")
print(s_str.apply(str.upper))

## 9. Filtrar una Serie

print("\nFiltrar una Serie:")
s_notas = pd.Series({'Matemáticas': 6.0, 'Economía': 4.5, 'Programación': 8.5})
print("Serie original:")
print(s_notas)
print("\nNotas mayores a 5:")
print(s_notas[s_notas > 5])

## 10. Ordenar una Serie

print("\nOrdenar una Serie:")
print("Ordenado por valores (ascendente):")
print(s_notas.sort_values())
print("\nOrdenado por índice (descendente):")
print(s_notas.sort_index(ascending=False))

## 11. Eliminar datos nulos y desconocidos

print("\nEliminar datos nulos y desconocidos:")
s_nulos = pd.Series(['a', 'b', None, 'c', np.NaN, 'd'])
print("Serie con valores nulos:")
print(s_nulos)
print("\nSerie después de eliminar nulos:")
print(s_nulos.dropna())

## 12. DataFrame - Introducción

# Un DataFrame es una estructura bidimensional (tabla)
# Las columnas son Series, por lo que cada columna debe tener el mismo tipo de datos
# Tiene dos índices: uno para filas y otro para columnas

## 13. Creación de DataFrames

# 13.1 DataFrame desde un diccionario de listas
print("\nDataFrame desde un diccionario de listas:")
datos = {
    'nombre': ['María', 'Luis', 'Carmen', 'Antonio'],
    'edad': [18, 22, 20, 21],
    'grado': ['Economía', 'Medicina', 'Arquitectura', 'Economía'],
    'correo': ['maria@gmail.com', 'luis@yahoo.es', 'carmen@gmail.com', 'antonio@gmail.com']
}
df_dict = pd.DataFrame(datos)
print(df_dict)

# 13.2 DataFrame desde una lista de listas
print("\nDataFrame desde una lista de listas:")
df_listas = pd.DataFrame([
    ['María', 18, 'maria@gmail.com'], 
    ['Luis', 22, 'luis@gmail.com'], 
    ['Carmen', 20, 'carmen@gmail.com']
], columns=['Nombre', 'Edad', 'Email'])
print(df_listas)

# 13.3 DataFrame desde una lista de diccionarios
print("\nDataFrame desde una lista de diccionarios:")
df_lista_dict = pd.DataFrame([
    {'Nombre': 'María', 'Edad': 18}, 
    {'Nombre': 'Luis', 'Edad': 22},
    {'Nombre': 'Carmen'}
])
print(df_lista_dict)

# 13.4 DataFrame desde un Array NumPy
print("\nDataFrame desde un Array NumPy:")
arr = np.array([1, 2, 3, 4, 5], dtype='int')
df_array = pd.DataFrame((arr, [5, 4, 3, 2, 1]))
print(df_array)

# 13.5 DataFrame desde un archivo CSV
print("\nDataFrame desde un archivo CSV:")
df_csv = pd.read_csv('weather_data.csv')
print(df_csv)

## 14. Atributos de DataFrames

print("\nAtributos de DataFrames:")
print("Dimensiones (filas, columnas):", df_dict.shape)
print("Tipos de datos:")
print(df_dict.dtypes)
print("Primeras 3 filas:")
print(df_dict.head(3))
print("Últimas 2 filas:")
print(df_dict.tail(2))
print("Información detallada del DataFrame:")
df_dict.info()
print("Resumen estadístico:")
print(df_dict.describe())

## 15. Operaciones con columnas

# Obteniendo una columna específica
print("\nObteniendo una columna específica:")
print(df_dict['nombre'])

# Obteniendo varias columnas
print("\nObteniendo varias columnas:")
print(df_dict[['nombre', 'edad']])

# Calculando el promedio de una columna numérica
print("\nPromedio de la columna edad:", df_dict['edad'].mean())

## 16. Creando un DataFrame específico

print("\nCreando un DataFrame de estudiantes y calificaciones:")
estudiantes_df = pd.DataFrame({
    'Nombre': ['Ana', 'Juan', 'Pedro', 'María', 'Luis'],
    'Matemáticas': [90, 85, 70, 95, 80],
    'Ciencias': [88, 92, 75, 85, 95],
    'Historia': [75, 80, 85, 90, 92]
})
print(estudiantes_df)

# Calculando el promedio por estudiante
estudiantes_df['Promedio'] = (estudiantes_df['Matemáticas'] + 
                              estudiantes_df['Ciencias'] + 
                              estudiantes_df['Historia']) / 3
print("\nDataFrame con promedios:")
print(estudiantes_df)

## 17. Cambiando nombres de columnas

# Vamos a utilizar un conjunto de datos de ejemplo (simulando el archivo colesterol.csv)
print("\nCambiando nombres de columnas:")
colesterol_data = {
    'nombre': ['Juan', 'María', 'Carlos', 'Ana', 'Pedro'],
    'edad': [22, 45, 33, 27, 51],
    'altura': [1.72, 1.65, 1.81, 1.70, 1.78],
    'peso': [68, 59, 85, 63, 77],
    'colesterol': [182, 200, 156, 175, 221]
}
df_colesterol = pd.DataFrame(colesterol_data)
print("DataFrame original:")
print(df_colesterol)

# Renombrando columnas
df_renamed = df_colesterol.rename(columns={
    'nombre': 'nombre y apellidos', 
    'altura': 'estatura'
})
print("\nDataFrame con columnas renombradas:")
print(df_renamed)

## 18. Cambiando el índice

print("\nCambiando el índice del DataFrame:")
df_new_index = df_colesterol.set_index("nombre")
print(df_new_index)

## 19. Acceder a elementos en el DataFrame

print("\nAccediendo a elementos específicos:")
print("Una fila completa (índice 1):")
print(df_colesterol.loc[1])

print("\nValor específico (fila 2, columna 'edad'):")
print(df_colesterol.loc[2, 'edad'])

print("\nVarias filas (2 y 5):")
# Nota: Como tenemos solo 5 filas (índices 0-4), usaremos 2 y 4 en su lugar
print(df_colesterol.loc[[2, 4]])

## 20. Añadir nuevas columnas

print("\nAñadiendo una nueva columna:")
df_colesterol['diabetes'] = pd.Series([False, False, True, False, True])
print(df_colesterol)

## 21. Eliminar columnas

print("\nEliminando una columna:")
df_colesterol.pop("diabetes")
print(df_colesterol)

## 22. Operaciones con filas

# Añadir una nueva fila
print("\nAñadiendo una nueva fila:")
# En versiones recientes de pandas, append está obsoleto, usamos concat
nueva_fila = pd.DataFrame({'nombre': ['Laura'], 'edad': [29], 'altura': [1.68], 
                           'peso': [65], 'colesterol': [165]})
df_con_nueva_fila = pd.concat([df_colesterol, nueva_fila], ignore_index=True)
print(df_con_nueva_fila)

# Eliminar filas
print("\nEliminando una fila (índice 1):")
df_sin_fila = df_colesterol.drop(1)
print(df_sin_fila)

## 23. Ordenar un DataFrame

print("\nOrdenando un DataFrame por una columna:")
print("Ordenado por edad (ascendente):")
print(df_colesterol.sort_values('edad'))

print("\nOrdenado por edad (descendente):")
print(df_colesterol.sort_values('edad', ascending=False))

print("\nOrdenado por múltiples columnas (primero altura, luego edad):")
print(df_colesterol.sort_values(['altura', 'edad']))

## 24. Ejercicios adicionales

# Censo de ardillas de Central Park (Simulado)
print("\nSimulación de Censo de Ardillas:")
# Creando un DataFrame de muestra para simular el censo de ardillas
squirrel_data = {
    'Unique Squirrel ID': ['1A', '2B', '3C', '4D', '5E'],
    'Age': ['Adult', 'Juvenile', 'Adult', 'Adult', 'Juvenile'],
    'Primary Fur Color': ['Gray', 'Cinnamon', 'Black', 'Gray', 'Cinnamon'],
    'Location': ['Ground Plane', 'Above Ground', 'Ground Plane', 'Above Ground', 'Ground Plane'],
    'Eating': [True, False, True, False, True],
    'Running': [False, True, False, True, False]
}
df_squirrels = pd.DataFrame(squirrel_data)
print(df_squirrels)

# Ejercicio: Contar ardillas por color de pelaje
print("\nConteo de ardillas por color de pelaje:")
print(df_squirrels['Primary Fur Color'].value_counts())

# Ejercicio: List & Dict Comprehension con el alfabeto radiofónico
print("\nEjercicio: Alfabeto radiofónico")
# Creando una versión simplificada del alfabeto radiofónico
alfabeto = [
    ('A', 'Alfa'), ('B', 'Bravo'), ('C', 'Charlie'), ('D', 'Delta'), ('E', 'Echo'),
    ('F', 'Foxtrot'), ('G', 'Golf'), ('H', 'Hotel'), ('I', 'India'), ('J', 'Juliett')
]

# Usando list comprehension para extraer las letras
letras = [letra for letra, palabra in alfabeto]
print("Letras:", letras)

# Usando dict comprehension para crear un diccionario
dict_alfabeto = {letra: palabra for letra, palabra in alfabeto}
print("Diccionario:", dict_alfabeto)

## 25. Visualización básica con Pandas y Matplotlib

print("\nVisualización básica con Pandas y Matplotlib:")

# Creando un DataFrame de temperaturas por mes
meses = ['Ene', 'Feb', 'Mar', 'Abr', 'May', 'Jun', 'Jul', 'Ago', 'Sep', 'Oct', 'Nov', 'Dic']
temperaturas = [15, 16, 18, 20, 23, 27, 30, 31, 28, 24, 20, 16]
df_temp = pd.DataFrame({'Mes': meses, 'Temperatura': temperaturas})
print(df_temp)

# Gráfico de barras
plt.figure(figsize=(10, 6))
plt.bar(df_temp['Mes'], df_temp['Temperatura'], color='skyblue')
plt.title('Temperaturas Mensuales')
plt.xlabel('Mes')
plt.ylabel('Temperatura (°C)')
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.show()

# Gráfico de líneas
plt.figure(figsize=(10, 6))
plt.plot(df_temp['Mes'], df_temp['Temperatura'], marker='o', linestyle='-', color='green')
plt.title('Variación de Temperatura a lo Largo del Año')
plt.xlabel('Mes')
plt.ylabel('Temperatura (°C)')
plt.grid(True, alpha=0.3)
plt.show()