# ESQUEMA DE CONTENIDOS

### - 0. ESTRUCTURAS DE DATOS

- #### Series
- #### Dataframes

### - 1. LECTURA DE DATASETS

- #### Métodos para obtener información del dataset
- #### Métodos de operaciones básicas

# 0. ESTRUCTURAS DE DATOS

Pandas es una librería desarrollada sobre Numpy para la manipulación y análisis de datos. Proporciona, entre otras cosas, dos estructuras para representar datos: 
- <code>Series</code> para datos vectoriales                              <xi, xii, ..., xn>
- <code>DataFrame</code> para datasets                                    [ ]x[]

Importaremos pandas y numpy de la siguiente forma:

In [8]:
import numpy as np
import pandas as pd

## a) Series
En primer lugar, las series están indexadas y ordenadas por filas. Cualquier tipo puede ser índice de una serie siempre que sea inmutable.

In [9]:
numeros_ix_ch = pd.Series(range(1,6),
                          index=['a', 'e', 'i', 'o', 'u']) 

numeros_ix_ch

a    1
e    2
i    3
o    4
u    5
dtype: int64

### -- Smart Indexing sobre Series

In [None]:
#    - elemento 0 de la serie 'numeros'
print("A:", numeros[0], "\n")

#    - serie con los elementos 1-3 de la serie 'numeros'
print("B:", numeros[1:4], "\n")

#    - elemento de la serie 'numeros_ix_ch' indexado con el carácter 'e'
print("C:", numeros_ix_ch['e'], "\n")

#    - serie con los elementos de la serie 'numeros' que sean mayores que 3
print("D:", numeros[numeros>3], "\n")

## b) DataFrames
En segundo lugar, los dataframes están indexados y ordenados por filas y por columnas. 

In [17]:
df_col = pd.DataFrame(np.random.rand(10,3),
                      columns=['C1', 'C2', 'C3'], 
                      index=[1,2,3,4,5,6,7,8,9,10] #-- también se podría modificar el índice
                     )

### -- Smart indexing sobre DataFrames

In [21]:
# -- Básico

#    - fila 3 del dataframe 'df'
#    - fila 3 del dataframe 'df_col'

print(df.iloc[2])
print(df_col.iloc[2])

#    - columna 1 de la fila 3 del dataframe 'df'
#    - columna 'C1' del dataframe df_col <-- Importante

print(df_col.iloc[3, 1])         #<--- Ojo: .iloc se usa para acceder al índice numeral por defecto
print(df_col.loc[:,'C1'])        #<--- Ojo: .loc se usa para acceder a la etiqueta de índice

C1    0.757004
C2    0.394499
C3    0.322542
Name: 3, dtype: float64
C1    0.582653
C2    0.017676
C3    0.385655
Name: 3, dtype: float64
0.38671456904098667
1     0.691754
2     0.379750
3     0.582653
4     0.714746
5     0.329680
6     0.931237
7     0.660141
8     0.954983
9     0.353382
10    0.612431
Name: C1, dtype: float64


In [23]:
# -- Avanzado

#    - dataframe compuesto por las columnas 'C1' y 'C3' del dataframe 'df_col'
print(df_col.loc[:,['C1','C3']], "\n")

#    - dataframe compuesto por las filas del dataframe 'df_col' cuyo valor de 'C2' sea mayor que 0.5
condition = df_col.loc[:,'C2']>0.5
print(df_col.loc[condition], "\n")

#    - dataframe compuesto por las columnas 'C1' y 'C3', con las filas cuyo valor de 'C2' sea mayor que 0.5
print(df_col.loc[df_col.loc[:,'C2']>0.5, 
                ['C1','C3']], '\n')

#    - dataframe con todas las columnas y con las filas en las que 'C2' sea mayor que 0.5 y 'C3' sea menor que 0.5
condition = (df_col.loc[:, 'C2']>0.5) & (df_col.loc[:, 'C3']<0.5)
print(df_col.loc[condition])

          C1        C3
1   0.691754  0.999055
2   0.379750  0.464672
3   0.582653  0.385655
4   0.714746  0.869018
5   0.329680  0.601777
6   0.931237  0.447640
7   0.660141  0.276498
8   0.954983  0.130196
9   0.353382  0.185248
10  0.612431  0.463590 

          C1        C2        C3
7   0.660141  0.519860  0.276498
8   0.954983  0.860839  0.130196
10  0.612431  0.855283  0.463590 

          C1        C3
7   0.660141  0.276498
8   0.954983  0.130196
10  0.612431  0.463590 

          C1        C2        C3
7   0.660141  0.519860  0.276498
8   0.954983  0.860839  0.130196
10  0.612431  0.855283  0.463590


# 1. LECTURA DE DATASETS

Para la lectura de datasets utilizamos la librería pandas, que generará un DataFrame a partir del archivo csv.

In [27]:
# EJERCICIO: leer el fichero de datos './train-bike.csv' en un dataframe
DATOS_PD = pd.read_csv('./2. Lectura de datasets/train-bike.csv')

In [28]:
# TEST: de la operación de lectura
DATOS_PD

Unnamed: 0,datetime,season,holiday,workingday,weather,temp,atemp,humidity,windspeed,casual,registered,count
0,2011-01-01 00:00:00,1,0,0,1,9.84,14.395,81,0.0000,3,13,16
1,2011-01-01 01:00:00,1,0,0,1,9.02,13.635,80,0.0000,8,32,40
2,2011-01-01 02:00:00,1,0,0,1,9.02,13.635,80,0.0000,5,27,32
3,2011-01-01 03:00:00,1,0,0,1,9.84,14.395,75,0.0000,3,10,13
4,2011-01-01 04:00:00,1,0,0,1,9.84,14.395,75,0.0000,0,1,1
...,...,...,...,...,...,...,...,...,...,...,...,...
10881,2012-12-19 19:00:00,4,0,1,1,15.58,19.695,50,26.0027,7,329,336
10882,2012-12-19 20:00:00,4,0,1,1,14.76,17.425,57,15.0013,10,231,241
10883,2012-12-19 21:00:00,4,0,1,1,13.94,15.910,61,15.0013,4,164,168
10884,2012-12-19 22:00:00,4,0,1,1,13.94,17.425,61,6.0032,12,117,129


### -- Algunos métodos para obtener información sobre el dataset
Una vez cargado el dataset inicial, podemos realizar una breve exploración inicial mediante los siguiente métodos.

In [29]:
# EJERCICIO: probar los métodos de los dataframes para las siguientes operaciones:

#    - Mostrar información sobre las columnas
print(DATOS_PD.info(), '\n')

#    - Mostrar indicadores estadísticos sobre las columnas
print(DATOS_PD.describe(), '\n')

#    - Mostrar los tipos de las columnas
print(DATOS_PD.dtypes, '\n')


#    - Obtener una matriz numpy con los valores de los datos
print(DATOS_PD.values, '\n')


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10886 entries, 0 to 10885
Data columns (total 12 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   datetime    10886 non-null  object 
 1   season      10886 non-null  int64  
 2   holiday     10886 non-null  int64  
 3   workingday  10886 non-null  int64  
 4   weather     10886 non-null  int64  
 5   temp        10886 non-null  float64
 6   atemp       10886 non-null  float64
 7   humidity    10886 non-null  int64  
 8   windspeed   10886 non-null  float64
 9   casual      10886 non-null  int64  
 10  registered  10886 non-null  int64  
 11  count       10886 non-null  int64  
dtypes: float64(3), int64(8), object(1)
memory usage: 1020.7+ KB
None 

             season       holiday    workingday       weather         temp  \
count  10886.000000  10886.000000  10886.000000  10886.000000  10886.00000   
mean       2.506614      0.028569      0.680875      1.418427     20.23086   
std        

## Métodos para realizar operaciones y combinaciones sobre el dataset

### -- Operaciones estadísticas
- <code>.value_counts()</code>: cuenta el número de ocurrencias o frecuencia de un atributo
- <code>pd.cut(df, bins)</code>: divide el rango de valores de un atributo en cuantiles

In [None]:
#    - contar cuántas ocurrencias de cada valor del atributo season hay en el dataset.
print(DATOS_PD['season'].value_counts(), '\n')

#    - dividir el rango de valores de temp en diez partes y calcular cuántos elementos hay en cada uno de esos segmentos. 
print(pd.cut(DATOS_PD['temp'], bins=10).value_counts())

### -- Combinaciones básicas

In [None]:
#    - crear un atributo temp_wind que se calcule mediante la diferencia entre temp y windspeed.
DATOS_PD['temp_wind'] = DATOS_PD['temp']- DATOS_PD['windspeed']
print(DATOS_PD['temp_wind'])

#    - normalizar (de 0 a 1) las columnas season y weather guardándolas en las columnas 'season_norm' y 'weather_norm'.
DATOS_PD['season_norm'] = DATOS_PD['season']/max(DATOS_PD['season'])
print(DATOS_PD['season_norm'])

In [None]:
#    - concatenar dos datasets
DATOS_TEST_PD = pd.read_csv('./2. Lectura de datasets/test-bike.csv')

DATOS_PD_wh = DATOS_PD[['weather', 'humidity']]
DATOS_TEST_PD_wh = DATOS_TEST_PD[['weather', 'humidity']]

NUEVO_DF = pd.concat([DATOS_PD_wh, DATOS_TEST_PD_wh ])

print(NUEVO_DF[:10])