<a href="https://colab.research.google.com/github/paranedagarcia/Data-Science/blob/master/DS_Pandas_01.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# PANDAS
## Librería de manipulación de datos

## PANDAS SERIES
Una "Serie" es una estructura de una sola dimensión con:
- Datos (numéricos, texto, fechas, etc.)
- Índices (etiquetas únicas para cada valor, por defecto 0,1,2...)

Características clave:
- Homogénea (mismo tipo de dato)
- Índice personalizable
- Soporta operaciones matemáticas y lógicas

In [None]:
# carga de librerías
import pandas as pd
import numpy as np

In [None]:
# Desde una lista
s1 = pd.Series([10, 20, 30, 40])
print(s1)

In [None]:
# Con índices personalizados
s2 = pd.Series(['A', 'B', 'C'], index=['x', 'y', 'z'])
print(s2)

In [None]:
# Desde diccionario
s3 = pd.Series({'Manzana': 120, 'Banana': 80, 'Naranja': 60})
print(s3)

### Acceso a los elementos

In [None]:
# creacion de una serie llamada 'serie'
serie = pd.Series([100, 200, 300], index=['ene', 'feb', 'mar'])

In [None]:
# Por índice numérico
print(serie[2])

In [None]:
# Por etiqueta
print(serie['ene'])

In [None]:
# Slicing
print(serie['ene':'feb'])

In [None]:
# Condicional
print(serie[serie > 150])

### Algunas operaciones simples

In [None]:
# creamos 2 series, s1 y s2
s1 = pd.Series([1, 2, 3])
s2 = pd.Series([10, 20, 30])

In [None]:
# Suma
print(s1 + s2)

In [None]:
# Multiplicación por escalar
print(s1 * 10)

In [None]:
# Funciones matemáticas
print(s1.apply(lambda x: x**2))

In [None]:
# Lógica
print(s1 > 1)

### Algunos métodos útiles

In [None]:
# metodos útiles con series

s = pd.Series([1, 2, 2, 3, 3, 3, 4])
separador = '-' * 40  # caracter separador entre cada sentencia

print(f'{separador}\n Primeros 3 valores: \n{s.head(3)}')           # Primeros 3
print(f'{separador}\n Valores únicos dentro de la serie: \n {s.unique()}')          # Valores únicos: [1,2,3,4]
print(f'{separador}\n Cantidad de valores unicos: {s.nunique()}')         # Cantidad de únicos: 4
print(f'{separador}\n Frecuencias de valores: \n {s.value_counts()}')    # Frecuencias: 3→3, 2→2, 1→1, 4→1
print(f'{separador}\n Serie en orden ascendente: \n {s.sort_values()}')     # Orden ascendente
print(f'{separador}\n Serie ordenada por su índice: \n {s.sort_index()}')      # Orden por índice

## PANDAS DATAFRAME

In [None]:
# Desde diccionario
datos = {
    'Nombre': ['Ana', 'Luis', 'María'],
    'Edad': [25, 30, 22],
    'Ciudad': ['CDMX', 'Medellín', 'Guadalajara']
}

df = pd.DataFrame(datos)
print(df)


In [None]:
# Desde lista de listas + nombres de columnas
df2 = pd.DataFrame([
    [1, 'A', True],
    [2, 'B', False]
], columns=['ID', 'Letra', 'Activo'])

print(df2)

### Acceso a las filas

In [None]:
# Por etiqueta (si índice es 0,1,2)
print(df.loc[0])

In [None]:
# Por posición
print(df.iloc[1])

In [None]:
# Rangos
print(df.loc[0:1])          # Filas 0 y 1
print(df.iloc[0:2])

In [None]:
# Filas y columnas específicas
print(df.loc[0:1, ['Nombre', 'Edad']])

### Agregar columnas

In [None]:
#directamente
df['Departamento'] = ['Jalisco', 'Antioquia', 'Jalisco']
print(df)

In [None]:
# Desde cálculo
df['Edad_doble'] = df['Edad'] * 2
print(df)

In [None]:
# Con condición
df['Mayor_edad'] = df['Edad'] >= 18
print(df)

### Eliminar columnas

In [None]:
# Eliminar columna
df_sin_dep = df.drop('Departamento', axis=1)
print(df_sin_dep)

In [None]:
# Eliminar fila por índice
df_sin_luis = df.drop(1)
print(df_sin_luis)

In [None]:
# Eliminar varias columnas
df.drop(['Edad_doble', 'Mayor_edad'], axis=1, inplace=True)

### Selección de datos

In [None]:
# selección con query
df.query('Edad > 25 and Ciudad == "Medellín"')
# O con variables
edad_min = 20
df.query('Edad > @edad_min')