## Pandas:

Introducción:

Panda es la libreria central del ecosistema de ciencia de datos en Python

Mientras NumPy trabaja con arrays homogéneos (solo números, sin etiquetas), pandas agrega dos estructuras de datos de alto nivel Series y DataFrame, diseñadas para análisis de datos reales: etiquetados, hetrogéneos y estructurados. 

Pandas busca proporcionar una experiencia similar a Excel o R DataFrame, pero con la potencia programática de Python

### Estructuras de Datos Fundamentales

#### Series:

Una serie es un array unidimensional con etiquetas (índice). se puede crear desde listas, arrays o diccionarios. 

In [2]:
# pip install pandas

In [3]:
import pandas as pd
obj = pd.Series([4, 7, -5, 3], index=['a', 'b', 'c', 'd'])


In [4]:
obj

a    4
b    7
c   -5
d    3
dtype: int64

Cada elemento está asociado a una etiqueta. Se accede con obj['a'] o por posición.
Las Series se comportan como diccionarios y como arrays al mismo tiempo.

* obj.values devuelve un array NumPy.

* obj.index muestra el índice.

* Las operaciones mantienen la alineación por etiquetas: si dos Series tienen índices diferentes, pandas alinea los datos automáticamente (rellenando con NaN si falta algo).

In [5]:
obj.values

array([ 4,  7, -5,  3])

In [5]:
obj.index

Index(['a', 'b', 'c', 'd'], dtype='object')

#### DataFrame

Un DataFrame es una estructura bidimensional (filas y columnas) con etiquetas para ambos ejes.

In [19]:
data = {
    'year': [2010, 2011, 2012],
    'team': ['A', 'B', 'C'],
    'points': [8, 12, 9]
}
df = pd.DataFrame(data)


In [20]:
df

Unnamed: 0,year,team,points
0,2010,A,8
1,2011,B,12
2,2012,C,9


Se comporta como una tabla de base de datos o una hoja de cálculo.
Cada columna es una Series, y todas comparten el mismo índice de filas.

Atributos principales:

* df.columns → nombres de columnas

* df.index → etiquetas de fila

* df.values → matriz NumPy subyacente

Podés acceder a columnas con df['team'] o df.team, y a filas con df.loc['A'] o df.iloc[0].

### Creación de Objetos pandas

pandas permite crear objetos desde:

* Diccionarios → claves → columnas.

* Listas o arrays NumPy → columnas sin etiquetas.

* Series existentes → columnas con alineación automática.

* Archivos externos (CSV, Excel, JSON, SQL).

In [7]:
pd.read_csv('titanic.csv')

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


### Indexación y Selección de Datos

Selección por columna y fila

* df['columna'] → selecciona una columna (Series).

* df[['a','b']] → selecciona varias columnas.

* df.loc['fila'] → selecciona por etiqueta.

* df.iloc[0] → selecciona por posición numérica.

También se puede combinar: df.loc['A', 'points'].

In [21]:
df

Unnamed: 0,year,team,points
0,2010,A,8
1,2011,B,12
2,2012,C,9


Filtrado condicional

In [22]:
df[df['team'] == 'B']

Unnamed: 0,year,team,points
1,2011,B,12


Asignación de valores

In [23]:
df['points'] = [5, 10, 15]
df.loc['A', 'points'] = 20

In [24]:
df

Unnamed: 0,year,team,points
0,2010.0,A,5.0
1,2011.0,B,10.0
2,2012.0,C,15.0
A,,,20.0


Eliminación de datos

df.drop('columna', axis=1) o df.drop('fila', axis=0)

axis=1 → columnas, axis=0 → filas.

### Alineación de Datos y Operaciones Entre Estructuras

Una característica central de pandas es la alineación automática por etiquetas.
Si hacés operaciones entre Series o DataFrames con índices distintos, pandas combina por nombre de etiqueta.

Los valores que no tienen correspondencia se completan con NaN.

In [25]:
s1 = pd.Series([1, 2, 3], index=['a','b','c'])
s2 = pd.Series([4, 5, 6], index=['b','c','d'])
s1 + s2


a    NaN
b    6.0
c    8.0
d    NaN
dtype: float64

In [27]:
s2

b    4
c    5
d    6
dtype: int64

### Reindexación y Operaciones de Ejes

Reindexar

reindex() permite reordenar o agregar índices nuevos.

In [45]:
obj = pd.Series([1, 2, 3], index=['a','b','c'])
obj.reindex(['c','a','b','d'])


c    3.0
a    1.0
b    2.0
d    NaN
dtype: float64

Métodos útiles:

* fill_value= en operaciones: reemplaza NaN por un número al combinar estructuras.

* rename() → cambia etiquetas.

* sort_index() → ordena por índice o por valores.

* axis= → 0 (filas) o 1 (columnas) en todas las funciones que lo admiten.

### Datos Faltantes (Missing Data)

pandas ofrece operaciones vectorizadas por defecto:

In [47]:
# df.mean(), df.sum(), df.describe()

Las funciones se aplican por columna (axis=0) o fila (axis=1).

También se puede usar apply(función) para aplicar funciones personalizadas.

In [49]:
#f = lambda x: x.max() - x.min()
#df.apply(f)

### Índices Jerárquicos (MultiIndex)

Permite tener más de un nivel de índice.

Esto es útil para datos con dimensiones múltiples (por ejemplo, país + año).

In [28]:
arrays = [['A','A','B','B'], [1,2,1,2]]
index = pd.MultiIndex.from_arrays(arrays, names=('team','year'))
data = pd.Series([10,20,30,40], index=index)

Podés acceder a subconjuntos con tuplas (data['A']) o usar unstack() / stack() para pivotar niveles.

### Entrada y Salida de Datos

pandas soporta lectura/escritura en múltiples formatos:

* CSV → pd.read_csv() / to_csv()

* Excel → read_excel() / to_excel()

* JSON, HTML, SQL, Parquet, Feather, etc.

In [29]:
df.to_csv('output.csv', index=False)