# PARTE I TUTORIAL PANDAS

Este es un tutorial de algunos de los comandos básicos usandos en librería de python pandas para el análisis de datos

Primero importamos las librerías necesarias para usar las funciones de pandas

In [1]:
import pandas as pd
import numpy as np

## Series

Series es una de las formas básicas de representación de datos en Pandas. Estás son lista en una dimension que puede incluir elementos de cualquier tipo 

Forma básica de crear una serie:

In [2]:
data = [1,2,3,4,5]
ser = pd.Series(data)
print(ser)

0    1
1    2
2    3
3    4
4    5
dtype: int64


Como se observa en el ejemplo anterior la primera columna corresponde a la indexación y la segunda columna a los datos de la serie. La última linea corresponde al tipo de datos, como no se definio al crear la lista se toma el mismo valor que los datos de entrada de la serie. 


Obtener elemento de una serie por indexación

In [3]:
ser[3]

4

Se puede crear indexacion por etiquetas

In [4]:
ser2 = pd.Series(data, index=['a','b','c','d','e'])
print(ser2)
ser2['c']

a    1
b    2
c    3
d    4
e    5
dtype: int64


3

Se pueden realizar operaciones matemáticas sobre la serie

In [5]:
ser2 > 2

a    False
b    False
c     True
d     True
e     True
dtype: bool

In [6]:
ser2[ser2 > 2]

c    3
d    4
e    5
dtype: int64

In [7]:
ser2*5

a     5
b    10
c    15
d    20
e    25
dtype: int64

Otra forma de indexación:

In [8]:
ser3 = pd.Series({'a':1,'b':2,'c':3,'d':4,'e':5})
print(ser3)

a    1
b    2
c    3
d    4
e    5
dtype: int64


Los valores de indexación y datos pueden ser extráidos de la Serie

In [9]:
ser.index

RangeIndex(start=0, stop=5, step=1)

In [10]:
ser3.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [11]:
ser3.values

array([1, 2, 3, 4, 5], dtype=int64)

Los objetos de la serie y la indexación pueden ser etiquetados:

In [12]:
ser3.name = 'datos'
ser3.index.name = 'letras'
print(ser3)

letras
a    1
b    2
c    3
d    4
e    5
Name: datos, dtype: int64


## Dataframe

El Dataframe o marco de datos en español no es otra cosa que una tabla. Cada columa en el Dataframe es una Serie, las filas consiste de elemenos dentro de las Series.

Contruir Dataframe manualmente:

In [13]:
df = pd.DataFrame({
...     'País': ['Vietnam', 'China', 'Indonesia', 'Tailandia'],
...     'Población': [95.54, 1386, 264, 69.04],
...     'Area': [331210, 9596961, 1904569, 51320]
... })
df

Unnamed: 0,País,Población,Area
0,Vietnam,95.54,331210
1,China,1386.0,9596961
2,Indonesia,264.0,1904569
3,Tailandia,69.04,51320


Los Dataframe tiene 2 indexaciones, por columna y por fila, si no se crea la indexación por file se creará una numerácio de 0 a N-1 donde N es el número de los elementos.

In [14]:
df.columns

Index(['País', 'Población', 'Area'], dtype='object')

In [15]:
df.index 

RangeIndex(start=0, stop=4, step=1)

Al igual que en las Series podemos cambiar lo valores de indexación.

In [16]:
df.index = ['VN','CN','IN','TH']
df.index.name = 'Código de País'
df

Unnamed: 0_level_0,País,Población,Area
Código de País,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
VN,Vietnam,95.54,331210
CN,China,1386.0,9596961
IN,Indonesia,264.0,1904569
TH,Tailandia,69.04,51320


El acceso a la indexación de las filas puede ser a través de los comandos loc para etiquetas o iloc para números

In [17]:
df.loc['CN']

País           China
Población       1386
Area         9596961
Name: CN, dtype: object

In [18]:
df.iloc[3]

País         Tailandia
Población        69.04
Area             51320
Name: TH, dtype: object

La indexación de filas y columnas puede ser llevado a cabo de esta manera:

In [19]:
df.loc[['CN','TH'],'Población']

Código de País
CN    1386.00
TH      69.04
Name: Población, dtype: float64

Se puede realizar filtrado para obtener datos

In [20]:
df[df.Población > 100]

Unnamed: 0_level_0,País,Población,Area
Código de País,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
CN,China,1386.0,9596961
IN,Indonesia,264.0,1904569


Es posible agregar una columna al conjunto de datos existente

In [21]:
df['densidad'] = df['Población']/df['Area'] * 1000000
df

Unnamed: 0_level_0,País,Población,Area,densidad
Código de País,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
VN,Vietnam,95.54,331210,288.457474
CN,China,1386.0,9596961,144.420718
IN,Indonesia,264.0,1904569,138.614038
TH,Tailandia,69.04,51320,1345.284489


Las columnas pueden ser eliminadas mediante el comando drop()

In [22]:
df.drop(['densidad'], axis='columns')

Unnamed: 0_level_0,País,Población,Area
Código de País,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
VN,Vietnam,95.54,331210
CN,China,1386.0,9596961
IN,Indonesia,264.0,1904569
TH,Tailandia,69.04,51320


Podemos accesar los datos el inicio o a final del Dataframe por medio de los comandos head y til respectivamente.

In [23]:
print(df.head(3))

                     País  Población     Area    densidad
Código de País                                           
VN                Vietnam      95.54   331210  288.457474
CN                  China    1386.00  9596961  144.420718
IN              Indonesia     264.00  1904569  138.614038


In [24]:
print(df.tail(2))

                     País  Población     Area     densidad
Código de País                                            
IN              Indonesia     264.00  1904569   138.614038
TH              Tailandia      69.04    51320  1345.284489


Con info() obtenemos información del dataframe

In [25]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 4 entries, VN to TH
Data columns (total 4 columns):
País         4 non-null object
Población    4 non-null float64
Area         4 non-null int64
densidad     4 non-null float64
dtypes: float64(2), int64(1), object(1)
memory usage: 320.0+ bytes


Con shape podemos obtener la cantidad de files y columans del Dataframe

In [26]:
df.shape

(4, 4)

Con Count obtenemos la cantidad de datos válidos por columna. Esto quiere decir que en caso de exister valores Null no se contabilizan.

In [27]:
df.count()

País         4
Población    4
Area         4
densidad     4
dtype: int64

Con sum() se obtiene el valor total de los elementos de cada columna.

In [28]:
df.sum()

País         VietnamChinaIndonesiaTailandia
Población                           1814.58
Area                               11884060
densidad                            1916.78
dtype: object

También podemos realizar la función sólamente ciertas columnas deseadas

In [29]:
df['Población'].sum()

1814.58

Otra función útil es describe, qu enos permite obtener la media, desviacón estándar, mínimo, máximo y pércintiles del conjunto de datos.

In [30]:
df.describe()

Unnamed: 0,Población,Area,densidad
count,4.0,4.0,4.0
mean,453.645,2971015.0,479.19418
std,627.537853,4491980.0,581.538482
min,69.04,51320.0,138.614038
25%,88.915,261237.5,142.969048
50%,179.77,1117890.0,216.439096
75%,544.5,3827667.0,552.664228
max,1386.0,9596961.0,1345.284489


La función corr() nos da la correlación entre los datos.

In [31]:
df.corr()

Unnamed: 0,Población,Area,densidad
Población,1.0,0.999004,-0.467968
Area,0.999004,1.0,-0.495126
densidad,-0.467968,-0.495126,1.0


Se puede realizar tablas cruzadas entre dos o más columnas.

In [32]:
pd.crosstab(df.Población, df.Area)

Area,51320,331210,1904569,9596961
Población,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
69.04,1,0,0,0
95.54,0,1,0,0
264.0,0,0,1,0
1386.0,0,0,0,1


Es posible realizar ordenamiento ascendente, descendente y por varias columnnas

In [33]:
df.sort_values(by=['Población'])

Unnamed: 0_level_0,País,Población,Area,densidad
Código de País,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
TH,Tailandia,69.04,51320,1345.284489
VN,Vietnam,95.54,331210,288.457474
IN,Indonesia,264.0,1904569,138.614038
CN,China,1386.0,9596961,144.420718


In [34]:
df.sort_values(by=['Población'], ascending=False)

Unnamed: 0_level_0,País,Población,Area,densidad
Código de País,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
CN,China,1386.0,9596961,144.420718
IN,Indonesia,264.0,1904569,138.614038
VN,Vietnam,95.54,331210,288.457474
TH,Tailandia,69.04,51320,1345.284489


In [35]:
df.sort_values(by=['Población','Area'])

Unnamed: 0_level_0,País,Población,Area,densidad
Código de País,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
TH,Tailandia,69.04,51320,1345.284489
VN,Vietnam,95.54,331210,288.457474
IN,Indonesia,264.0,1904569,138.614038
CN,China,1386.0,9596961,144.420718


Con la función concat() se realiza la concatenación de dos o más dataframes.

In [36]:
 df1 = pd.DataFrame({
...     'País': ['Vietnam', 'China', 'Indonesia', 'Tailandia'],
...     'Población': [95.54, 1386, 264, 69.04],
...     'Area': [331210, 9596961, 1904569, 51320]
... }, index = ['VN','CN','IN','TH']) 
    
df2 = pd.DataFrame({
...     'País': ['Kazakhstan', 'Russia', 'Belarus', 'Ukraine','Tailandia'],
...     'Población': [17.04, 143.5, 9.5, 45.5, 69.04],
...     'Area': [2724902, 17125191, 207600, 603628, 51320]
... }, index=['KZ', 'RU', 'BY', 'UA', 'TH'])


In [37]:
df_concat = pd.concat([df1,df2])
df_concat

Unnamed: 0,País,Población,Area
VN,Vietnam,95.54,331210
CN,China,1386.0,9596961
IN,Indonesia,264.0,1904569
TH,Tailandia,69.04,51320
KZ,Kazakhstan,17.04,2724902
RU,Russia,143.5,17125191
BY,Belarus,9.5,207600
UA,Ukraine,45.5,603628
TH,Tailandia,69.04,51320


Los duplicados pueden ser eliminados mediante el comando drop_duplicates()

In [38]:
df_concat.drop_duplicates('País')

Unnamed: 0,País,Población,Area
VN,Vietnam,95.54,331210
CN,China,1386.0,9596961
IN,Indonesia,264.0,1904569
TH,Tailandia,69.04,51320
KZ,Kazakhstan,17.04,2724902
RU,Russia,143.5,17125191
BY,Belarus,9.5,207600
UA,Ukraine,45.5,603628


## PARTE II: ANALISIS SET DE DATOS

Importamos el dataset en formato csv tomando de https://www.kaggle.com/ mediante el comando pd.read_csv. Para otros formatos de set de datos existen otros comandos que no fueron incluídos en este tutorial.

In [2]:
dt = pd.read_csv('renfe.csv', index_col = 0)

  mask |= (ar1 == a)


Ahora usamos los comandos aprendidos anteriormente para obtener información del set de datos.

Con el comando info vemos si existen elementos nulos

In [11]:
dt.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2579771 entries, 0 to 2579770
Data columns (total 10 columns):
Unnamed: 0     int64
insert_date    object
origin         object
destination    object
start_date     object
end_date       object
train_type     object
price          float64
train_class    object
fare           object
dtypes: float64(1), int64(1), object(8)
memory usage: 196.8+ MB


In [5]:
dt

Unnamed: 0,insert_date,origin,destination,start_date,end_date,train_type,price,train_class,fare
0,2019-04-19 05:31:43,MADRID,SEVILLA,2019-05-29 06:20:00,2019-05-29 09:16:00,AV City,38.550000,Turista,Promo
1,2019-04-19 05:31:43,MADRID,SEVILLA,2019-05-29 07:00:00,2019-05-29 09:32:00,AVE,53.400000,Turista,Promo
2,2019-04-19 05:31:43,MADRID,SEVILLA,2019-05-29 07:30:00,2019-05-29 09:51:00,AVE,47.300000,Turista,Promo
3,2019-04-19 05:31:43,MADRID,SEVILLA,2019-05-29 08:00:00,2019-05-29 10:32:00,AVE,69.400000,Preferente,Promo
4,2019-04-19 05:31:43,MADRID,SEVILLA,2019-05-29 08:30:00,2019-05-29 11:14:00,ALVIA,63.385503,Turista,Promo
5,2019-04-19 05:31:43,MADRID,SEVILLA,2019-05-29 09:00:00,2019-05-29 11:38:00,AVE,60.300000,Turista,Promo
6,2019-04-19 05:31:43,MADRID,SEVILLA,2019-05-29 09:45:00,2019-05-29 12:27:00,INTERCITY,62.200000,Turista,Flexible
7,2019-04-19 05:31:43,MADRID,SEVILLA,2019-05-29 10:00:00,2019-05-29 12:32:00,AVE,47.300000,Turista,Promo
8,2019-04-19 05:31:43,MADRID,SEVILLA,2019-05-29 11:00:00,2019-05-29 13:32:00,AVE,53.400000,Turista,Promo
9,2019-04-19 05:31:43,MADRID,SEVILLA,2019-05-29 11:05:00,2019-05-29 13:41:00,ALVIA,63.385503,Turista,Promo


Con el comando shapre revisamos la cantidad de columnas y filas del set datos. En caso de que existiera valores nulos podemos usar el comando dropna.

In [4]:
dt.describe()

Unnamed: 0,price
count,2579771.0
mean,63.3855
std,24.18087
min,15.45
25%,45.8
50%,63.3855
75%,76.3
max,214.2


In [19]:
dt.isnull().sum()

insert_date         0
origin              0
destination         0
start_date          0
end_date            0
train_type          0
price          310681
train_class      9664
fare             9664
dtype: int64

Distintas formas de remplazar los valores NA, En este caso como solo price es una variable continua la podemos reemplazar. Queda la duda de que realizar ante variables categoricas perdidas. Una opción para las variables categoricas puede ser usar la moda como criterio, no obstante creemo que sesgaría los datos.

In [3]:
dt['price'].fillna(dt['price'].mean(),inplace = True) # Reemplaza los valores perdidos con la media
#dt['price'].fillna(dt['price'].median(),inplace = True) #Reemplaza los valores perdidos con la mediana
#




No obstante dado que no tenemos un criterio para lidiar con los NA dentro de las variables categoricas 

In [6]:
dt = dt.dropna() # En este caso no aplica pero es importante tener la consideración de usar valor de tresh para limitar el críterio

In [7]:
dt.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2570107 entries, 0 to 2579770
Data columns (total 9 columns):
insert_date    object
origin         object
destination    object
start_date     object
end_date       object
train_type     object
price          float64
train_class    object
fare           object
dtypes: float64(1), object(8)
memory usage: 196.1+ MB


In [8]:
dt.shape

(2570107, 9)

Tomamos una muestra de las primeras líneas del set de datos para conocer el tipo de información que contiene.

In [9]:
dt.head(5)

Unnamed: 0,insert_date,origin,destination,start_date,end_date,train_type,price,train_class,fare
0,2019-04-19 05:31:43,MADRID,SEVILLA,2019-05-29 06:20:00,2019-05-29 09:16:00,AV City,38.55,Turista,Promo
1,2019-04-19 05:31:43,MADRID,SEVILLA,2019-05-29 07:00:00,2019-05-29 09:32:00,AVE,53.4,Turista,Promo
2,2019-04-19 05:31:43,MADRID,SEVILLA,2019-05-29 07:30:00,2019-05-29 09:51:00,AVE,47.3,Turista,Promo
3,2019-04-19 05:31:43,MADRID,SEVILLA,2019-05-29 08:00:00,2019-05-29 10:32:00,AVE,69.4,Preferente,Promo
4,2019-04-19 05:31:43,MADRID,SEVILLA,2019-05-29 08:30:00,2019-05-29 11:14:00,ALVIA,63.385503,Turista,Promo


In [10]:
dt.describe()

Unnamed: 0,price
count,2570107.0
mean,63.3855
std,24.22629
min,15.45
25%,45.8
50%,63.3855
75%,76.3
max,214.2


Con count revisamos que todas las columnas tenga el mismo número de datos.

In [12]:
dt.count()

insert_date    2570107
origin         2570107
destination    2570107
start_date     2570107
end_date       2570107
train_type     2570107
price          2570107
train_class    2570107
fare           2570107
dtype: int64

Usando el comando get_dummies para transformar los datos categoricos a numericos

In [13]:
dt = pd.get_dummies(dt, columns=["origin","destination","train_type","train_class","fare"])

In [14]:
dt.head()

Unnamed: 0,insert_date,start_date,end_date,price,origin_BARCELONA,origin_MADRID,origin_PONFERRADA,origin_SEVILLA,origin_VALENCIA,destination_BARCELONA,...,train_class_Turista,train_class_Turista Plus,train_class_Turista con enlace,fare_Adulto ida,fare_Flexible,fare_Grupos Ida,fare_Individual-Flexible,fare_Mesa,fare_Promo,fare_Promo +
0,2019-04-19 05:31:43,2019-05-29 06:20:00,2019-05-29 09:16:00,38.55,0,1,0,0,0,0,...,1,0,0,0,0,0,0,0,1,0
1,2019-04-19 05:31:43,2019-05-29 07:00:00,2019-05-29 09:32:00,53.4,0,1,0,0,0,0,...,1,0,0,0,0,0,0,0,1,0
2,2019-04-19 05:31:43,2019-05-29 07:30:00,2019-05-29 09:51:00,47.3,0,1,0,0,0,0,...,1,0,0,0,0,0,0,0,1,0
3,2019-04-19 05:31:43,2019-05-29 08:00:00,2019-05-29 10:32:00,69.4,0,1,0,0,0,0,...,0,0,0,0,0,0,0,0,1,0
4,2019-04-19 05:31:43,2019-05-29 08:30:00,2019-05-29 11:14:00,63.385503,0,1,0,0,0,0,...,1,0,0,0,0,0,0,0,1,0


Al reaizar esto aumentamos la cantidad de variables, pero los modelos de aprendizaje no trabajan bien con valores categóricos por lo que es recomenda convertirlo a número

In [15]:
dt.shape

(2570107, 43)

Algunos otros tips que pueden ser utiles. Antes de reorganizar las variables categoricas 

In [16]:
dt = pd.read_csv('renfe.csv', index_col = 0)

In [17]:
dt.head(5)

Unnamed: 0,insert_date,origin,destination,start_date,end_date,train_type,price,train_class,fare
0,2019-04-19 05:31:43,MADRID,SEVILLA,2019-05-29 06:20:00,2019-05-29 09:16:00,AV City,38.55,Turista,Promo
1,2019-04-19 05:31:43,MADRID,SEVILLA,2019-05-29 07:00:00,2019-05-29 09:32:00,AVE,53.4,Turista,Promo
2,2019-04-19 05:31:43,MADRID,SEVILLA,2019-05-29 07:30:00,2019-05-29 09:51:00,AVE,47.3,Turista,Promo
3,2019-04-19 05:31:43,MADRID,SEVILLA,2019-05-29 08:00:00,2019-05-29 10:32:00,AVE,69.4,Preferente,Promo
4,2019-04-19 05:31:43,MADRID,SEVILLA,2019-05-29 08:30:00,2019-05-29 11:14:00,ALVIA,,Turista,Promo


In [19]:
dt.groupby('origin')['destination'].value_counts() # Aqui obtenemos la cantidad de casos por grupo

origin      destination
BARCELONA   MADRID         405621
MADRID      BARCELONA      480074
            SEVILLA        413155
            VALENCIA       399679
            PONFERRADA      66515
PONFERRADA  MADRID          93196
SEVILLA     MADRID         398445
VALENCIA    MADRID         323086
Name: destination, dtype: int64

In [23]:
dt.groupby(['origin','destination'])['price'].mean()

origin      destination
BARCELONA   MADRID         84.671718
MADRID      BARCELONA      85.681242
            PONFERRADA     45.261351
            SEVILLA        62.880378
            VALENCIA       42.005000
PONFERRADA  MADRID         42.004859
SEVILLA     MADRID         62.470221
VALENCIA    MADRID         39.852544
Name: price, dtype: float64