# IMEC2001 Herramientas Computacionales 
## Semana 2: Datos y Visualizaciones
### Clase 3: `pandas`

Universidad de los Andes — Abril 12, 2023.

---

## TABLA DE CONTENIDO

### Sección 1: Datos Tabulares con `pandas` [→](#section1)
- 1.1. Cargar Librerías
- 1.2. Series
- 1.3. DataFrame
- 1.4. Selección y Filtrado
- 1.5. Selección con `.loc()`
- 1.6. Cargar Datos desde Excel
    - 1.6.1. Valores 'Missing'
    - 1.6.2. Filtrar Datos    
- 1.7. Extraer Año, Mes, Día
- 1.8. Reordenar Columnas
- 1.9. Datos Únicos con unique()
- 1.10. Query
- 1.11. Cargar Datos desde CSV
- 1.12. Concatenar DataFrames
    - 1.12.1. DataFrame de Voltaje DC
    - 1.12.2. DataFrame de Corriente DC
- 1.13. Descargar Archivo
___

<a id="section1"></a>
# Sección 1: Datos Tabulares con `pandas`

In [None]:
!pip install pandas

## 1.1. Cargar Librerías

In [None]:
import pandas as pd

Notemos que `as pd` es un _alias_ con la que nos referiremos a la librería `pandas`. Este _alias_ puede ser cualquiera, pero por convención utilizaremos `as pd`.

## 1.2. Series

`pandas.Series` (o, en nuestro caso `pd.Series`) es un objeto similar a una lista (i.e., matriz unidimensional) que contiene una secuencia de valores y una lista asociada de etiquetas de datos, denominada **índice**.

<div class='alert alert-block alert-info'>   
    
<i class='fa fa-info-circle' aria-hidden='true'></i>
Puede obtener más información en la documentación oficial de la librería `pandas.Series` dando clic [aquí](https://pandas.pydata.org/docs/reference/api/pandas.Series.html).
</div>

In [None]:
lista = [4, 7, -5, 3]
lista

In [None]:
serie = pd.Series(lista)
serie

¿Cuál es la diferencia entre `lista` y `serie`?

Vale, entonces un objeto de tipo `pandas.Series` consiste de valores acompañados de un índice; los podemos extraer así:

In [None]:
serie.index

In [None]:
serie.values

Esto implica que:
> **Los índices permiten identificar cada valor con una etiqueta (i.e., *label*).**

In [None]:
serie = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])
serie.index

In [None]:
serie

Notemos que `pandas.Series` tiene cierta similitud con un `dict()`, pues el índice se asemeja al *key*. Esto también aplica para seleccionar valores, por ejemplo:

In [None]:
serie['a']

Pero mantenemos la indexación por posición como las variables tipo `list()` como lo vimos la semana pasada.

In [None]:
serie[2]

In [None]:
serie

Al igual que las variables tipo `list()`, podemos alterar el objeto `pandas.Series` al aplicar directamente operadores matemáticos.

In [None]:
serie * 2

In [None]:
serie / 4

## 1.3. DataFrame

`pandas.DataFrame` representa una tabla rectangular de datos y contiene una colección ordenada de columnas (i.e., **tiene un índice de fila y columna**), cada una de las cuales puede tener un tipo de valor diferente (e.g., `string`, `int`, `bool`).

Una de las formas más sencillas y directas de crear un `pandas.DataFrame` es a partir de un `dict()`.

<div class='alert alert-block alert-info'>   
    
<i class='fa fa-info-circle' aria-hidden='true'></i>
Puede obtener más información en la documentación oficial de la librería `pandas.DataFrame` dando clic [aquí](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html).
</div>

In [None]:
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002, 2003],
        'population': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}

In [None]:
df = pd.DataFrame(data)
df

La indexación es principalmente por las **columnas** (en este caso: `state`, `year` y `population`) y se realiza igual que con un `dict()` o `pandas.Series`.

In [None]:
df['state']

¿Qué detalles podemos ver al ejecutar la celda anterior?

In [None]:
df = pd.DataFrame(data, index=['one', 'two', 'three', 'four', 'five', 'six'])
df

Por otra parte, para acceder a los datos por **indexación de filas**, utilizamos la función `.loc()`.

In [None]:
df.loc['three']

Ahora bien, para **agregar una columna** al objeto `pandas.DataFrame`, seguimos la siguiente sintaxis:

```python
df[<name>] = <values>
```

Notemos que es la misma sintaxis para agregar un elemento a un `dict()`.

**¡Importante!:** La cantidad de elementos de la nueva columna **debe** coincidir con las demás columnas. De lo contrario se arroja un error.

In [None]:
debt_values = [-1, -1.2, -1.5, -2, -2.4, -2.7]

df['debt'] = debt_values

df

Finalmente, para eliminar una columna, sigamos la recomendación dada en ***StackOverflow*** ([aquí](https://stackoverflow.com/questions/13411544/delete-a-column-from-a-pandas-dataframe)).

## 1.4. Selección y Filtrado

In [None]:
data = {'one': [0, 4, 8, 12],
        'two': [1, 5, 9, 13],
        'three': [2, 6, 10, 14],
        'four': [3, 7, 11, 15]}

df = pd.DataFrame(data, index=['Ohio', 'Colorado', 'Utah', 'New York'])

df

In [None]:
df['two']

In [None]:
df[['three', 'one']]

Podemos hacer evaluar condiciones de manera sencilla, y el resultado será un `pandas.DataFrame` con elementos booleanos (`True` o `False`) si se cumple o no dicha condición.

In [None]:
df < 5

Con base en las condiciones evaluadas, se pueden asignar valores a aquellos datos que **sí** cumplen con la condición. Es decir, se modifican los valores cuyo resultado sea `True`.

In [None]:
df[df < 5] = 0

df

## 1.5. Selección con `.loc()`

Me filtra la información por indexación en **filas**.

In [None]:
# Por fila
df.loc['Colorado']

## 1.6. Cargar Datos desde Excel

<div class='alert alert-block alert-info'>   
    
<i class='fa fa-info-circle' aria-hidden='true'></i>
Puede obtener más información en la documentación oficial de la librería `pandas.read_excel` dando clic [aquí](https://pandas.pydata.org/docs/reference/api/pandas.read_excel.html).
</div>

In [None]:
file_name = './data/SD_5Min.xlsx' # ./ es pwd()
sheet = 'Radiacion'

df = pd.read_excel(io=file_name, sheet_name=sheet)

rad = df.copy()

rad.head()

In [None]:
print(f'El DataFrame tiene {df.shape[0]} filas y {df.shape[1]} columnas.')

In [None]:
len(df)

In [None]:
df.columns

In [None]:
len(df.columns)

In [None]:
rad.describe()

### 1.6.1. Valores 'Missing'

In [None]:
encabezados = rad.columns

for i in encabezados:
    print(i)

In [None]:
'''
Iteramos sobre las columnas del DataFrame 'rad'
para verificar la cantidad de datos faltantes
'''

for i in encabezados:
    num_na = rad[i].isna().sum() # Funciónes .isna() y .sum()
    print(f'{i} - {num_na}')

Detallemos esto un poco más...

In [None]:
rad['Meteocontrol Irrad (W/m2)'].isna()

¿Cómo podríamos asignarle un valor de cero a estos datos cuyo valor es NaN?

De nuevo, sigamos la recomendación dada en ***StackOverflow*** ([aquí](https://stackoverflow.com/questions/13295735/how-to-replace-nan-values-by-zeroes-in-a-column-of-a-pandas-dataframe)).

### 1.6.2. Filtrar Datos


Note que la columna **Meteocontrol Irrad** reporta valores mínimos hasta 1. Esto se desea filtrar para reducir el valor mínimo de 1 a 0 si la irradiancia es menor o igual a 1.5 W/m2.

In [None]:
# Sin Filtro
rad.head(7)

In [None]:
# Sin Filtro - Forma 1
import time
start_time = time.time()

new_irrad = []
for data in rad['Meteocontrol Irrad (W/m2)']:
    if data <= 1.5:
        new_irrad.append(0)
    else:
        new_irrad.append(data)

new_irrad

print("--- %s seconds ---" % (time.time() - start_time))

In [None]:
# Con Filtro - Forma 2
import time
start_time = time.time()

rad.loc[rad['Meteocontrol Irrad (W/m2)'] <= 1.5, 'Meteocontrol Irrad (W/m2)'] = 0

print("--- %s seconds ---" % (time.time() - start_time))

In [None]:
rad['Meteocontrol Irrad (W/m2)'].shape

In [None]:
rad.loc[rad['Meteocontrol Irrad (W/m2)'] <= 1.5]

## 1.7. Extraer Año, Mes, Día

In [None]:
rad.head()

¿Cuál es el tipo (i.e., `type()`) de los datos de la columna **Date**?

`Timestamp` es un tipo de dato especial para trabajar con fechas. Así, es más sencillo extraer, por ejemplo, el año, mes o día de una fecha específica.

<div class='alert alert-block alert-info'>   
    
<i class='fa fa-info-circle' aria-hidden='true'></i>
Puede obtener más información en la documentación oficial de la librería `pandas.Timestamp` dando clic [aquí](https://pandas.pydata.org/docs/reference/api/pandas.Timestamp.html).
</div>

In [None]:
print('{} - {}\n'.format(rad['Date'][0], type(rad['Date'][0])))
print('Año: {}'.format(rad['Date'][0].year))
print('Mes: {}'.format(rad['Date'][0].month))
print('Día: {}'.format(rad['Date'][0].day))
print('Hora: {}'.format(rad['Date'][0].hour))
print('Minuto: {}'.format(rad['Date'][0].minute))
print('Segundo: {}'.format(rad['Date'][0].second))

Con estas funciones, iteremos el DataFrame `rad` para agregar las columnas de Año, Mes y Día.

In [None]:
rad.head()

In [None]:
_año = []

for i in rad['Date']:
    _año.append(i.year)

_año

In [None]:
rad['Year'] = _año # Creamos la columna 'Year' y asignamos los valores '_año'

rad.head()

¿Cómo agregaría las columnas de `Mes` y `Día`?

In [None]:
rad['Month'] = rad['Date'].dt.month
rad['Day'] = rad['Date'].dt.day

rad.head()

## 1.8. Reordenar Columnas

Apoyémonos en ***StackOverflow*** ([aquí](https://stackoverflow.com/questions/13148429/how-to-change-the-order-of-dataframe-columns)).

In [None]:
rad.head()

## 1.9. Datos Únicos con `unique()`

In [None]:
rad['Day'].unique()

## 1.10. Query

In [None]:
# Solo queremos ver datos para Junio-2021

rad[(rad['Year'] == 2021) & (rad['Month'] == 6)]

In [None]:
# Solo queremos ver datos cuando Meteocontrol Irrad >= 400

rad[(rad['Meteocontrol Irrad (W/m2)'] >= 400)].describe()

In [None]:
# Solo queremos ver datos cuando (Lufft Irrad - Meteocontrol Irrad) <= 100

rad[((rad['Lufft Irrad (W/m2)'] - rad['Meteocontrol Irrad (W/m2)']) <= 100)]

<div class="alert alert-block alert-success">

**BONO**
    
Cree un `pandas.DataFrame` que contenga datos de:
1. Año = 2020
2. Mes = Agosto o Septiembre
3. Día = 10 o 15
4. Meteocontrol Irrad >= 350

 </div> 

In [None]:
'''
Solo queremos ver datos cuando:
    1. Año = 2020
    2. Mes = Agosto o Septiembre
    3. Día = 10 o 15
    4. Meteocontrol Irrad >= 350
'''
query = rad[ (rad['Year'] == 2020) &
             ((rad['Month'] == 8) | (rad['Month'] == 9)) &
             ((rad['Day'] == 10) | (rad['Month'] == 15)) &
             (rad['Meteocontrol Irrad (W/m2)'] >= 350) ]

In [None]:
# Verifiquemos
print(query["Year"].unique())
print(query["Month"].unique())
print(query["Day"].unique())
print(query["Meteocontrol Irrad (W/m2)"].min())

Para el caso de datos tabulares en formato CSV, usamos la correspondiente librería (i.e., `CSV`).

## 1.11. Cargar Datos desde CSV

<div class='alert alert-block alert-info'>   
    
<i class='fa fa-info-circle' aria-hidden='true'></i>
Puede obtener más información en la documentación oficial de la librería `pandas.read_csv` dando clic [aquí](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html).
</div>

In [None]:
df2 = pd.read_csv(filepath_or_buffer='./data/solar_production.csv', 
                  sep=';',
                  decimal='.')

df2.head()

## 1.12. Concatenar DataFrames

Para realizar la concatenación, tenemos varias opciones:

- `innerjoin`: La salida contiene filas para los valores de la clave que existen en los argumentos primero (izquierda) y segundo (derecha) para unir.

- `leftjoin`: La salida contiene filas para los valores de la clave que existen en el primer argumento (izquierda) para unir, ya sea que ese valor exista o no en el segundo argumento (derecha).

- `rightjoin`: La salida contiene filas para los valores de la clave que existen en el segundo argumento (derecha) para unir, ya sea que ese valor exista o no en el primer argumento (izquierda).

- `outerjoin`: La salida contiene filas para los valores de la clave que existen en el primer argumento (izquierda) o segundo (derecha) para unir.

<div class='alert alert-block alert-info'>   
    
<i class='fa fa-info-circle' aria-hidden='true'></i>
Puede obtener más información en la documentación oficial de la librería `pandas.DataFrame.merge` dando clic [aquí](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.merge.html).
</div>

### 1.12.1. DataFrame de Voltaje DC

In [None]:
file_name = './data/SD_5Min.xlsx' # ./ es pwd()

voltajeDC = pd.read_excel(io=file_name, sheet_name='Tension_DC')

voltajeDC.head()

In [None]:
df3 = pd.merge(df, voltajeDC, on=['Date'])

df3.head()

### 1.12.2. DataFrame de Corriente DC

Cree un DataFrame a partir de importar los datos de corriente DC (hoja `Corriente_DC` en el archivo Excel) y reemplace los datos con tipo `missing` a cero.

## 1.13. Descargar Archivo

<div class='alert alert-block alert-info'>   
    
<i class='fa fa-info-circle' aria-hidden='true'></i>
Puede obtener más información en la documentación oficial de la librería `pandas.DataFrame.to_csv` dando clic [aquí](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_csv.html).
</div>

In [None]:
df.to_csv(path_or_buf='./solar_electrica.csv',  # ./ es pwd()
          sep=';',
          decimal=',',
          header=True, 
          index=True)