# Aspectos Básicos de Pandas

Pandas es una biblioteca de Python esencial para el análisis y manipulación de datos. Ofrece estructuras de datos potentes y flexibles, junto con herramientas para trabajar con datos estructurados de manera eficiente.

## 1. Estructuras de Datos Fundamentales

### 1.1 Series

Una Serie es un array unidimensional etiquetado capaz de contener cualquier tipo de datos.


In [29]:
import pandas as pd
import numpy as np

# Crear una Serie
s = pd.Series([1, 3, 5, np.nan, 6, 8])

# Serie con índice personalizado
s = pd.Series([1, 3, 5, 7], index=['a', 'b', 'c', 'd'])
print(s)

a    1
b    3
c    5
d    7
dtype: int64


### 1.2 DataFrame

Un DataFrame es una estructura de datos bidimensional etiquetada con columnas de tipos potencialmente diferentes.

In [30]:
# Crear un DataFrame
df = pd.DataFrame({
    'A': [1, 2, 3],
    'B': ['a', 'b', 'c'],
    'C': [4.0, 5.0, 6.0]
})

# DataFrame con índice de tiempo
dates = pd.date_range('20230101', periods=6)
df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list('ABCD'))
df

Unnamed: 0,A,B,C,D
2023-01-01,-0.389441,0.524935,0.421924,0.811149
2023-01-02,1.880853,1.408596,0.547191,-1.112297
2023-01-03,-0.473416,0.36169,1.077494,0.221181
2023-01-04,-0.114631,1.099284,0.961032,-0.830506
2023-01-05,0.495238,0.354371,0.74649,0.252899
2023-01-06,-0.679139,0.21493,-1.250033,0.956695


## 2. Importación y Exportación de Datos

Pandas puede leer y escribir datos en varios formatos:
```python
# Leer CSV
df = pd.read_csv('file.csv')

# Leer Excel
df = pd.read_excel('file.xlsx')

# Escribir a CSV
df.to_csv('output.csv')

# Escribir a Excel
df.to_excel('output.xlsx')
```

## 3. Selección y Filtrado de Datos

### 3.1 Selección de Columnas


In [31]:
# Seleccionar una columna
df['A']

# Seleccionar múltiples columnas
df[['A', 'B']]

Unnamed: 0,A,B
2023-01-01,-0.389441,0.524935
2023-01-02,1.880853,1.408596
2023-01-03,-0.473416,0.36169
2023-01-04,-0.114631,1.099284
2023-01-05,0.495238,0.354371
2023-01-06,-0.679139,0.21493


### 3.2 Selección por Etiqueta

In [32]:
# Seleccionar por etiqueta
df.loc[dates[0]]

# Seleccionar por etiqueta para filas y columnas
df.loc['20230102':'20230104', ['A', 'B']]

Unnamed: 0,A,B
2023-01-02,1.880853,1.408596
2023-01-03,-0.473416,0.36169
2023-01-04,-0.114631,1.099284


### 3.3 Selección por Posición

In [33]:
# Seleccionar por posición
df.iloc[3]

# Seleccionar por posición para filas y columnas
df.iloc[3:5, 0:2]

Unnamed: 0,A,B
2023-01-04,-0.114631,1.099284
2023-01-05,0.495238,0.354371


### 3.4 Filtrado Booleano

In [34]:
# Filtrar datos
df[df['A'] > 0]

Unnamed: 0,A,B,C,D
2023-01-02,1.880853,1.408596,0.547191,-1.112297
2023-01-05,0.495238,0.354371,0.74649,0.252899


## 4. Operaciones Básicas

### 4.1 Estadísticas Descriptivas

In [35]:
# Resumen estadístico
df.describe()

# Media de columnas
df.mean()

A    0.119911
B    0.660634
C    0.417350
D    0.049853
dtype: float64

### 4.2 Aplicar Funciones

In [36]:
# Aplicar una función a una columna
df['A'].apply(lambda x: x*2)

2023-01-01   -0.778882
2023-01-02    3.761706
2023-01-03   -0.946832
2023-01-04   -0.229262
2023-01-05    0.990476
2023-01-06   -1.358279
Freq: D, Name: A, dtype: float64

### 4.3 Agrupación

In [37]:
# Agrupar y calcular la media
df.groupby('A').mean()

Unnamed: 0_level_0,B,C,D
A,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
-0.679139,0.21493,-1.250033,0.956695
-0.473416,0.36169,1.077494,0.221181
-0.389441,0.524935,0.421924,0.811149
-0.114631,1.099284,0.961032,-0.830506
0.495238,0.354371,0.74649,0.252899
1.880853,1.408596,0.547191,-1.112297


## 5. Manejo de Datos Faltantes

In [38]:
# Eliminar filas con valores faltantes
df.dropna()

# Llenar valores faltantes
df.fillna(value=5)

Unnamed: 0,A,B,C,D
2023-01-01,-0.389441,0.524935,0.421924,0.811149
2023-01-02,1.880853,1.408596,0.547191,-1.112297
2023-01-03,-0.473416,0.36169,1.077494,0.221181
2023-01-04,-0.114631,1.099284,0.961032,-0.830506
2023-01-05,0.495238,0.354371,0.74649,0.252899
2023-01-06,-0.679139,0.21493,-1.250033,0.956695


## 6. Fusión y Concatenación

In [44]:
df1= df
df2= df[['A','B']]
df1

Unnamed: 0,A,B,C,D
2023-01-01,-0.389441,0.524935,0.421924,0.811149
2023-01-02,1.880853,1.408596,0.547191,-1.112297
2023-01-03,-0.473416,0.36169,1.077494,0.221181
2023-01-04,-0.114631,1.099284,0.961032,-0.830506
2023-01-05,0.495238,0.354371,0.74649,0.252899
2023-01-06,-0.679139,0.21493,-1.250033,0.956695


In [45]:
df2

Unnamed: 0,A,B
2023-01-01,-0.389441,0.524935
2023-01-02,1.880853,1.408596
2023-01-03,-0.473416,0.36169
2023-01-04,-0.114631,1.099284
2023-01-05,0.495238,0.354371
2023-01-06,-0.679139,0.21493


In [46]:
# Concatenar DataFrames de manera vertical
pd.concat([df1, df2])

Unnamed: 0,A,B,C,D
2023-01-01,-0.389441,0.524935,0.421924,0.811149
2023-01-02,1.880853,1.408596,0.547191,-1.112297
2023-01-03,-0.473416,0.36169,1.077494,0.221181
2023-01-04,-0.114631,1.099284,0.961032,-0.830506
2023-01-05,0.495238,0.354371,0.74649,0.252899
2023-01-06,-0.679139,0.21493,-1.250033,0.956695
2023-01-01,-0.389441,0.524935,,
2023-01-02,1.880853,1.408596,,
2023-01-03,-0.473416,0.36169,,
2023-01-04,-0.114631,1.099284,,


In [48]:
# Concatenar DataFrames de manera horizontal
pd.concat([df1, df2], axis = 1)

Unnamed: 0,A,B,C,D,A.1,B.1
2023-01-01,-0.389441,0.524935,0.421924,0.811149,-0.389441,0.524935
2023-01-02,1.880853,1.408596,0.547191,-1.112297,1.880853,1.408596
2023-01-03,-0.473416,0.36169,1.077494,0.221181,-0.473416,0.36169
2023-01-04,-0.114631,1.099284,0.961032,-0.830506,-0.114631,1.099284
2023-01-05,0.495238,0.354371,0.74649,0.252899,0.495238,0.354371
2023-01-06,-0.679139,0.21493,-1.250033,0.956695,-0.679139,0.21493


In [47]:
# Fusionar DataFrames
pd.merge(df1, df2)

Unnamed: 0,A,B,C,D
0,-0.389441,0.524935,0.421924,0.811149
1,1.880853,1.408596,0.547191,-1.112297
2,-0.473416,0.36169,1.077494,0.221181
3,-0.114631,1.099284,0.961032,-0.830506
4,0.495238,0.354371,0.74649,0.252899
5,-0.679139,0.21493,-1.250033,0.956695


## 7. Operaciones de Series Temporales

In [53]:
# Remuestreo de datos temporales
df.resample('2D').mean()

Unnamed: 0,A,B,C,D
2023-01-01,0.745706,0.966766,0.484557,-0.150574
2023-01-03,-0.294023,0.730487,1.019263,-0.304663
2023-01-05,-0.091951,0.28465,-0.251771,0.604797


In [51]:
# Cambio porcentual
df.pct_change()

Unnamed: 0,A,B,C,D
2023-01-01,,,,
2023-01-02,-5.829623,1.683372,0.296895,-2.371261
2023-01-03,-1.251703,-0.743227,0.969138,-1.19885
2023-01-04,-0.757864,2.039301,-0.108086,-4.754877
2023-01-05,-5.320279,-0.677635,-0.223241,-1.304512
2023-01-06,-2.371339,-0.393487,-2.674547,2.782914


## 8. Visualización
Pandas se integra bien con Matplotlib para visualización de datos:

In [None]:
import matplotlib.pyplot as plt

# Gráfico de líneas
df.plot(kind='line')

# Gráfico de barras
df.plot(kind='bar')

plt.show()

## Conclusión

Pandas es una herramienta poderosa para el análisis de datos en Python. Este resumen cubre los aspectos básicos, pero Pandas ofrece muchas más funcionalidades para el manejo y análisis de datos estructurados. Para un uso más avanzado, se recomienda consultar la [documentación oficial de Pandas](https://pandas.pydata.org/docs/).


In [54]:
# Crear dos DataFrames de ejemplo
df1 = pd.DataFrame({
    'id': [1, 2, 3, 4],
    'nombre': ['Ana', 'Bob', 'Carlos', 'Diana'],
    'edad': [25, 30, 35, 28]
})

df2 = pd.DataFrame({
    'id': [2, 3, 4, 5],
    'ciudad': ['Madrid', 'Barcelona', 'Valencia', 'Sevilla'],
    'salario': [50000, 60000, 55000, 52000]
})

print("DataFrame 1:")
print(df1)
print("\nDataFrame 2:")
print(df2)

# Ejemplo 1: Inner join (por defecto)
result_inner = pd.merge(df1, df2, on='id')
print("\n1. Inner join:")
print(result_inner)

# Ejemplo 2: Left join
result_left = pd.merge(df1, df2, on='id', how='left')
print("\n2. Left join:")
print(result_left)

# Ejemplo 3: Right join
result_right = pd.merge(df1, df2, on='id', how='right')
print("\n3. Right join:")
print(result_right)

# Ejemplo 4: Outer join
result_outer = pd.merge(df1, df2, on='id', how='outer')
print("\n4. Outer join:")
print(result_outer)

# Ejemplo 5: Merge con columnas de diferentes nombres
df3 = pd.DataFrame({
    'empleado_id': [1, 2, 3, 4],
    'departamento': ['Ventas', 'IT', 'Marketing', 'RH']
})

result_diff_columns = pd.merge(df1, df3, left_on='id', right_on='empleado_id')
print("\n5. Merge con columnas de diferentes nombres:")
print(result_diff_columns)

# Ejemplo 6: Merge con múltiples columnas
df4 = pd.DataFrame({
    'id': [1, 2, 3, 4],
    'nombre': ['Ana', 'Bob', 'Carlos', 'Diana'],
    'proyecto': ['A', 'B', 'C', 'D']
})

result_multiple_columns = pd.merge(df1, df4, on=['id', 'nombre'])
print("\n6. Merge con múltiples columnas:")
print(result_multiple_columns)

# Ejemplo 7: Merge con sufijos personalizados
result_suffixes = pd.merge(df1, df4, on='id', suffixes=('_izq', '_der'))
print("\n7. Merge con sufijos personalizados:")
print(result_suffixes)

DataFrame 1:
   id  nombre  edad
0   1     Ana    25
1   2     Bob    30
2   3  Carlos    35
3   4   Diana    28

DataFrame 2:
   id     ciudad  salario
0   2     Madrid    50000
1   3  Barcelona    60000
2   4   Valencia    55000
3   5    Sevilla    52000

1. Inner join:
   id  nombre  edad     ciudad  salario
0   2     Bob    30     Madrid    50000
1   3  Carlos    35  Barcelona    60000
2   4   Diana    28   Valencia    55000

2. Left join:
   id  nombre  edad     ciudad  salario
0   1     Ana    25        NaN      NaN
1   2     Bob    30     Madrid  50000.0
2   3  Carlos    35  Barcelona  60000.0
3   4   Diana    28   Valencia  55000.0

3. Right join:
   id  nombre  edad     ciudad  salario
0   2     Bob  30.0     Madrid    50000
1   3  Carlos  35.0  Barcelona    60000
2   4   Diana  28.0   Valencia    55000
3   5     NaN   NaN    Sevilla    52000

4. Outer join:
   id  nombre  edad     ciudad  salario
0   1     Ana  25.0        NaN      NaN
1   2     Bob  30.0     Madrid  50000.0


## Pandas

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

### 1. Series

Las series corresponden a arreglos del tipo:

|Índice|Valor
|---|---
|0|y(0)
|1|y(1)
|...|...
|n|y(n)

In [None]:
# crea una serie
sr = pd.Series(np.arange(2.0, 3.0, 0.2))

In [None]:
sr

In [None]:
# accede por fila
sr[2]

In [None]:
# accede por indice de localizador
sr.iloc[2]

In [None]:
# acceded por localizador
sr.loc[2]

Método **`date_range`** genera rango de fechas
(más detalles en https://pandas.pydata.org/pandas-docs/stable/generated/pandas.date_range.html)

In [None]:
pd.date_range('2017-08-01 00:00',periods=5, freq='1d')

In [None]:
index = pd.date_range('2017-08-01 00:00',periods=5, freq='1d')

In [None]:
sr2 = pd.Series(index=index, data=np.arange(2.0,3.0,0.2))

In [None]:
sr2

In [None]:
# si la frequencia es cada 5 segundos
index = pd.date_range('2017-08-01 00:00',periods=5, freq='5s')
sr2 = pd.Series(index=index, data=np.arange(2.0,3.0,0.2))
sr2

In [None]:
# accede por fila
sr2[2]

In [None]:
# accede por indice de localizador
sr2.iloc[2]

In [None]:
# accede por localizador
sr2.loc[2]

In [None]:
sr

In [None]:
sr2

In [None]:
# accede por localizador
sr2.loc['2017-08-01 00:00:10']

### 2. Dataframes

Los Dataframes corresponden a arreglos del tipo:

|Índice|Valor_0|Valor_1|...|Valor_m
|---|---|---|---|---
|0|y(0,0)|y(0,1)|...|y(0,m)
|1|y(1,0)|y(1,1)|...|y(1,m)
|...|...|...|...|...
|n|y(n,0)|y(0,1)|...|y(n,m)

In [None]:
# es conveniente crear un diccionario para crear el dataframe

n = 10
t = np.arange(10)

temp = 14.5 - np.sin(2*np.pi*t/n)
pres = 1008.3 - 0.3*np.sin(np.pi*t/n + 0.9)

precip = np.zeros(n)
precip[2:4] = 2

data = {'temp':temp,
        'pres':pres,
        'precip':precip}

index = pd.date_range('2017-08-01 00:00',periods=10, freq='30min')

In [None]:
df = pd.DataFrame(index=index, data=data)

In [None]:
print df

### 3. Explorando Dataframes

In [None]:
df.plot(kind='bar',y='precip')
plt.show()

In [None]:
df.plot(kind='line',y='temp')
plt.show()

In [None]:
df.plot(kind='line',y='pres')
plt.show()

In [None]:
"""
    integrando visualizacion 1
""" 

# crea figura
fig, ax = plt.subplots()

# utiliza metodo de pandas
lns1 = df.plot(kind='line',
               y='temp', 
               legend=False, 
               ax=ax)

# crea eje secundario X
ax2 = ax.twinx()

# utiliza metodo de pandas
lns2 = df.plot(kind='line',
               y='pres', 
               legend=False, 
               color='orange',
               ax=ax2)

# crea eje secundario Y
ax3 = ax.twiny()

# utiliza metodo de pandas
lns3 = df.plot(kind='bar',
               y='precip', 
               legend=False, 
               ax=ax3)

# etiquetas
ax.set_ylabel('temp')
ax2.set_ylabel('pres')
ax3.set_xticklabels('')

# agrega legenda
lns = lns1.lines + lns2.lines + lns3.patches
labs = ['temp','pres','precip']
ax2.legend(lns, labs, loc=4)

plt.show()


### 4. Slicing

In [None]:
# recordando la estructura
print df

In [None]:
# accede por fila (error)
df[4]

In [None]:
# accede por indice de localizador
df.iloc[4]

In [None]:
# accede por localizador
df.loc['2017-08-01 02:00']

In [None]:
df.index

In [None]:
# devuelve posicion del índice
df.index.get_loc('2017-08-01 02:00:00')

In [None]:
# devuelve columna como serie
df['pres']

In [None]:
type(df['pres'])

In [None]:
print df[['pres','precip']]

In [None]:
# iloc es el método que normalmente usamos con arrgelos n-dimensionales
print df.iloc[:,:2]

In [None]:
df.iloc[4,:2]

In [None]:
df.loc['2017-08-01 01:00:00'][['precip','pres']]

In [None]:
beg = '2017-08-01 03:30:00'
end = '2017-08-01 04:30:00'
print df.loc[beg:end]

In [None]:
print df.loc[end:beg]