# PARTE I TUTORIAL PANDAS

Este es un tutorial de algunos de los comandos básicos usandos en librería de python pandas para el análisis de datos

Primero importamos las librerías necesarias para usar las funciones de pandas

In [1]:
import pandas as pd
import numpy as np

## Series

Series es una de las formas básicas de representación de datos en Pandas. Estás son lista en una dimension que puede incluir elementos de cualquier tipo 

Forma básica de crear una serie:

In [2]:
data = [1,2,3,4,5]
ser = pd.Series(data)
print(ser)

0    1
1    2
2    3
3    4
4    5
dtype: int64


Como se observa en el ejemplo anterior la primera columna corresponde a la indexación y la segunda columna a los datos de la serie. La última linea corresponde al tipo de datos, como no se definio al crear la lista se toma el mismo valor que los datos de entrada de la serie. 


Obtener elemento de una serie por indexación

In [3]:
ser[3]

4

Se puede crear indexacion por etiquetas

In [4]:
ser2 = pd.Series(data, index=['a','b','c','d','e'])
print(ser2)
ser2['c']

a    1
b    2
c    3
d    4
e    5
dtype: int64


3

Se pueden realizar operaciones matemáticas sobre la serie

In [5]:
ser2 > 2

a    False
b    False
c     True
d     True
e     True
dtype: bool

In [6]:
ser2[ser2 > 2]

c    3
d    4
e    5
dtype: int64

In [7]:
ser2*5

a     5
b    10
c    15
d    20
e    25
dtype: int64

Otra forma de indexación:

In [8]:
ser3 = pd.Series({'a':1,'b':2,'c':3,'d':4,'e':5})
print(ser3)

a    1
b    2
c    3
d    4
e    5
dtype: int64


Los valores de indexación y datos pueden ser extráidos de la Serie

In [9]:
ser.index

RangeIndex(start=0, stop=5, step=1)

In [10]:
ser3.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [11]:
ser3.values

array([1, 2, 3, 4, 5], dtype=int64)

Los objetos de la serie y la indexación pueden ser etiquetados:

In [12]:
ser3.name = 'datos'
ser3.index.name = 'letras'
print(ser3)

letras
a    1
b    2
c    3
d    4
e    5
Name: datos, dtype: int64


## Dataframe

El Dataframe o marco de datos en español no es otra cosa que una tabla. Cada columa en el Dataframe es una Serie, las filas consiste de elemenos dentro de las Series.

Contruir Dataframe manualmente:

In [13]:
df = pd.DataFrame({
...     'País': ['Vietnam', 'China', 'Indonesia', 'Tailandia'],
...     'Población': [95.54, 1386, 264, 69.04],
...     'Area': [331210, 9596961, 1904569, 51320]
... })
df

Unnamed: 0,País,Población,Area
0,Vietnam,95.54,331210
1,China,1386.0,9596961
2,Indonesia,264.0,1904569
3,Tailandia,69.04,51320


Los Dataframe tiene 2 indexaciones, por columna y por fila, si no se crea la indexación por file se creará una numerácio de 0 a N-1 donde N es el número de los elementos.

In [14]:
df.columns

Index(['País', 'Población', 'Area'], dtype='object')

In [15]:
df.index 

RangeIndex(start=0, stop=4, step=1)

Al igual que en las Series podemos cambiar lo valores de indexación.

In [16]:
df.index = ['VN','CN','IN','TH']
df.index.name = 'Código de País'
df

Unnamed: 0_level_0,País,Población,Area
Código de País,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
VN,Vietnam,95.54,331210
CN,China,1386.0,9596961
IN,Indonesia,264.0,1904569
TH,Tailandia,69.04,51320


El acceso a la indexación de las filas puede ser a través de los comandos loc para etiquetas o iloc para números

In [17]:
df.loc['CN']

País           China
Población       1386
Area         9596961
Name: CN, dtype: object

In [18]:
df.iloc[3]

País         Tailandia
Población        69.04
Area             51320
Name: TH, dtype: object

La indexación de filas y columnas puede ser llevado a cabo de esta manera:

In [19]:
df.loc[['CN','TH'],'Población']

Código de País
CN    1386.00
TH      69.04
Name: Población, dtype: float64

Se puede realizar filtrado para obtener datos

In [20]:
df[df.Población > 100]

Unnamed: 0_level_0,País,Población,Area
Código de País,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
CN,China,1386.0,9596961
IN,Indonesia,264.0,1904569


Es posible agregar una columna al conjunto de datos existente

In [21]:
df['densidad'] = df['Población']/df['Area'] * 1000000
df

Unnamed: 0_level_0,País,Población,Area,densidad
Código de País,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
VN,Vietnam,95.54,331210,288.457474
CN,China,1386.0,9596961,144.420718
IN,Indonesia,264.0,1904569,138.614038
TH,Tailandia,69.04,51320,1345.284489


Las columnas pueden ser eliminadas mediante el comando drop()

In [22]:
df.drop(['densidad'], axis='columns')

Unnamed: 0_level_0,País,Población,Area
Código de País,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
VN,Vietnam,95.54,331210
CN,China,1386.0,9596961
IN,Indonesia,264.0,1904569
TH,Tailandia,69.04,51320


Podemos accesar los datos el inicio o a final del Dataframe por medio de los comandos head y til respectivamente.

In [23]:
print(df.head(3))

                     País  Población     Area    densidad
Código de País                                           
VN                Vietnam      95.54   331210  288.457474
CN                  China    1386.00  9596961  144.420718
IN              Indonesia     264.00  1904569  138.614038


In [24]:
print(df.tail(2))

                     País  Población     Area     densidad
Código de País                                            
IN              Indonesia     264.00  1904569   138.614038
TH              Tailandia      69.04    51320  1345.284489


Con info() obtenemos información del dataframe

In [25]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 4 entries, VN to TH
Data columns (total 4 columns):
País         4 non-null object
Población    4 non-null float64
Area         4 non-null int64
densidad     4 non-null float64
dtypes: float64(2), int64(1), object(1)
memory usage: 320.0+ bytes


Con shape podemos obtener la cantidad de files y columans del Dataframe

In [26]:
df.shape

(4, 4)

Con Count obtenemos la cantidad de datos válidos por columna. Esto quiere decir que en caso de exister valores Null no se contabilizan.

In [27]:
df.count()

País         4
Población    4
Area         4
densidad     4
dtype: int64

Con sum() se obtiene el valor total de los elementos de cada columna.

In [28]:
df.sum()

País         VietnamChinaIndonesiaTailandia
Población                           1814.58
Area                               11884060
densidad                            1916.78
dtype: object

También podemos realizar la función sólamente ciertas columnas deseadas

In [29]:
df['Población'].sum()

1814.58

Otra función útil es describe, qu enos permite obtener la media, desviacón estándar, mínimo, máximo y pércintiles del conjunto de datos.

In [30]:
df.describe()

Unnamed: 0,Población,Area,densidad
count,4.0,4.0,4.0
mean,453.645,2971015.0,479.19418
std,627.537853,4491980.0,581.538482
min,69.04,51320.0,138.614038
25%,88.915,261237.5,142.969048
50%,179.77,1117890.0,216.439096
75%,544.5,3827667.0,552.664228
max,1386.0,9596961.0,1345.284489


La función corr() nos da la correlación entre los datos.

In [31]:
df.corr()

Unnamed: 0,Población,Area,densidad
Población,1.0,0.999004,-0.467968
Area,0.999004,1.0,-0.495126
densidad,-0.467968,-0.495126,1.0


Se puede realizar tablas cruzadas entre dos o más columnas.

In [32]:
pd.crosstab(df.Población, df.Area)

Area,51320,331210,1904569,9596961
Población,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
69.04,1,0,0,0
95.54,0,1,0,0
264.0,0,0,1,0
1386.0,0,0,0,1


Es posible realizar ordenamiento ascendente, descendente y por varias columnnas

In [33]:
df.sort_values(by=['Población'])

Unnamed: 0_level_0,País,Población,Area,densidad
Código de País,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
TH,Tailandia,69.04,51320,1345.284489
VN,Vietnam,95.54,331210,288.457474
IN,Indonesia,264.0,1904569,138.614038
CN,China,1386.0,9596961,144.420718


In [34]:
df.sort_values(by=['Población'], ascending=False)

Unnamed: 0_level_0,País,Población,Area,densidad
Código de País,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
CN,China,1386.0,9596961,144.420718
IN,Indonesia,264.0,1904569,138.614038
VN,Vietnam,95.54,331210,288.457474
TH,Tailandia,69.04,51320,1345.284489


In [35]:
df.sort_values(by=['Población','Area'])

Unnamed: 0_level_0,País,Población,Area,densidad
Código de País,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
TH,Tailandia,69.04,51320,1345.284489
VN,Vietnam,95.54,331210,288.457474
IN,Indonesia,264.0,1904569,138.614038
CN,China,1386.0,9596961,144.420718


Con la función concat() se realiza la concatenación de dos o más dataframes.

In [36]:
 df1 = pd.DataFrame({
...     'País': ['Vietnam', 'China', 'Indonesia', 'Tailandia'],
...     'Población': [95.54, 1386, 264, 69.04],
...     'Area': [331210, 9596961, 1904569, 51320]
... }, index = ['VN','CN','IN','TH']) 
    
df2 = pd.DataFrame({
...     'País': ['Kazakhstan', 'Russia', 'Belarus', 'Ukraine','Tailandia'],
...     'Población': [17.04, 143.5, 9.5, 45.5, 69.04],
...     'Area': [2724902, 17125191, 207600, 603628, 51320]
... }, index=['KZ', 'RU', 'BY', 'UA', 'TH'])


In [37]:
df_concat = pd.concat([df1,df2])
df_concat

Unnamed: 0,País,Población,Area
VN,Vietnam,95.54,331210
CN,China,1386.0,9596961
IN,Indonesia,264.0,1904569
TH,Tailandia,69.04,51320
KZ,Kazakhstan,17.04,2724902
RU,Russia,143.5,17125191
BY,Belarus,9.5,207600
UA,Ukraine,45.5,603628
TH,Tailandia,69.04,51320


Los duplicados pueden ser eliminados mediante el comando drop_duplicates()

In [38]:
df_concat.drop_duplicates('País')

Unnamed: 0,País,Población,Area
VN,Vietnam,95.54,331210
CN,China,1386.0,9596961
IN,Indonesia,264.0,1904569
TH,Tailandia,69.04,51320
KZ,Kazakhstan,17.04,2724902
RU,Russia,143.5,17125191
BY,Belarus,9.5,207600
UA,Ukraine,45.5,603628


## PARTE II: ANALISIS SET DE DATOS

Importamos el dataset en formato csv tomando de https://www.kaggle.com/ mediante el comando pd.read_csv. Para otros formatos de set de datos existen otros comandos que no fueron incluídos en este tutorial.

In [39]:
pk = pd.read_csv('pokemon.csv')

Ahora usamos los comandos aprendidos anteriormente para obtener información del set de datos.

In [40]:
pk.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 721 entries, 0 to 720
Data columns (total 23 columns):
Number              721 non-null int64
Name                721 non-null object
Type_1              721 non-null object
Type_2              350 non-null object
Total               721 non-null int64
HP                  721 non-null int64
Attack              721 non-null int64
Defense             721 non-null int64
Sp_Atk              721 non-null int64
Sp_Def              721 non-null int64
Speed               721 non-null int64
Generation          721 non-null int64
isLegendary         721 non-null bool
Color               721 non-null object
hasGender           721 non-null bool
Pr_Male             644 non-null float64
Egg_Group_1         721 non-null object
Egg_Group_2         191 non-null object
hasMegaEvolution    721 non-null bool
Height_m            721 non-null float64
Weight_kg           721 non-null float64
Catch_Rate          721 non-null int64
Body_Style          721 non-

In [41]:
pk.shape

(721, 23)

In [42]:
pk.head(5)

Unnamed: 0,Number,Name,Type_1,Type_2,Total,HP,Attack,Defense,Sp_Atk,Sp_Def,...,Color,hasGender,Pr_Male,Egg_Group_1,Egg_Group_2,hasMegaEvolution,Height_m,Weight_kg,Catch_Rate,Body_Style
0,1,Bulbasaur,Grass,Poison,318,45,49,49,65,65,...,Green,True,0.875,Monster,Grass,False,0.71,6.9,45,quadruped
1,2,Ivysaur,Grass,Poison,405,60,62,63,80,80,...,Green,True,0.875,Monster,Grass,False,0.99,13.0,45,quadruped
2,3,Venusaur,Grass,Poison,525,80,82,83,100,100,...,Green,True,0.875,Monster,Grass,True,2.01,100.0,45,quadruped
3,4,Charmander,Fire,,309,39,52,43,60,50,...,Red,True,0.875,Monster,Dragon,False,0.61,8.5,45,bipedal_tailed
4,5,Charmeleon,Fire,,405,58,64,58,80,65,...,Red,True,0.875,Monster,Dragon,False,1.09,19.0,45,bipedal_tailed


In [43]:
pk.describe()

Unnamed: 0,Number,Total,HP,Attack,Defense,Sp_Atk,Sp_Def,Speed,Generation,Pr_Male,Height_m,Weight_kg,Catch_Rate
count,721.0,721.0,721.0,721.0,721.0,721.0,721.0,721.0,721.0,644.0,721.0,721.0,721.0
mean,361.0,417.945908,68.380028,75.01387,70.808599,68.737864,69.291262,65.714286,3.323162,0.553377,1.144979,56.77337,100.246879
std,208.27906,109.663671,25.848272,28.984475,29.296558,28.788005,27.01586,27.27792,1.669873,0.199969,1.044369,89.095667,76.573513
min,1.0,180.0,1.0,5.0,5.0,10.0,20.0,5.0,1.0,0.0,0.1,0.1,3.0
25%,181.0,320.0,50.0,53.0,50.0,45.0,50.0,45.0,2.0,0.5,0.61,9.4,45.0
50%,361.0,424.0,65.0,74.0,65.0,65.0,65.0,65.0,3.0,0.5,0.99,28.0,65.0
75%,541.0,499.0,80.0,95.0,85.0,90.0,85.0,85.0,5.0,0.5,1.4,61.0,180.0
max,721.0,720.0,255.0,165.0,230.0,154.0,230.0,160.0,6.0,1.0,14.5,950.0,255.0


In [44]:
pk.count()

Number              721
Name                721
Type_1              721
Type_2              350
Total               721
HP                  721
Attack              721
Defense             721
Sp_Atk              721
Sp_Def              721
Speed               721
Generation          721
isLegendary         721
Color               721
hasGender           721
Pr_Male             644
Egg_Group_1         721
Egg_Group_2         191
hasMegaEvolution    721
Height_m            721
Weight_kg           721
Catch_Rate          721
Body_Style          721
dtype: int64

In [45]:
pk.corr()

Unnamed: 0,Number,Total,HP,Attack,Defense,Sp_Atk,Sp_Def,Speed,Generation,isLegendary,hasGender,Pr_Male,hasMegaEvolution,Height_m,Weight_kg,Catch_Rate
Number,1.0,0.16037,0.107512,0.138104,0.121401,0.120161,0.111822,0.028156,0.983329,0.135022,-0.100328,-0.013414,-0.117981,-0.00971,0.087309,-0.074931
Total,0.16037,1.0,0.642628,0.704164,0.605831,0.723737,0.706501,0.54889,0.092868,0.481837,-0.385978,0.113564,0.228503,0.526813,0.535966,-0.73828
HP,0.107512,0.642628,1.0,0.43168,0.228834,0.36864,0.376006,0.170031,0.071545,0.258926,-0.155031,-0.066704,0.093708,0.442872,0.43132,-0.478725
Attack,0.138104,0.704164,0.43168,1.0,0.433233,0.335205,0.207211,0.335013,0.093857,0.302786,-0.196892,0.213882,0.20384,0.40859,0.469395,-0.525106
Defense,0.121401,0.605831,0.228834,0.433233,1.0,0.202519,0.483986,-0.008663,0.068409,0.274446,-0.269466,0.063899,0.122666,0.354205,0.476983,-0.436558
Sp_Atk,0.120161,0.723737,0.36864,0.335205,0.202519,1.0,0.492861,0.443106,0.069689,0.409739,-0.336579,0.105893,0.175581,0.330579,0.285048,-0.539114
Sp_Def,0.111822,0.706501,0.376006,0.207211,0.483986,0.492861,1.0,0.233487,0.055421,0.360215,-0.337265,0.017941,0.149796,0.313196,0.328645,-0.513014
Speed,0.028156,0.54889,0.170031,0.335013,-0.008663,0.443106,0.233487,1.0,0.00392,0.286082,-0.216964,0.070098,0.147844,0.224617,0.108637,-0.410557
Generation,0.983329,0.092868,0.071545,0.093857,0.068409,0.069689,0.055421,0.00392,1.0,0.071875,-0.029916,0.010912,-0.125374,-0.051304,0.034003,-0.025227
isLegendary,0.135022,0.481837,0.258926,0.302786,0.274446,0.409739,0.360215,0.286082,0.071875,1.0,-0.644714,0.095428,0.047955,0.326323,0.425219,-0.319302


In [46]:
pk.sort_values(by='Attack', ascending=False).head()

Unnamed: 0,Number,Name,Type_1,Type_2,Total,HP,Attack,Defense,Sp_Atk,Sp_Def,...,Color,hasGender,Pr_Male,Egg_Group_1,Egg_Group_2,hasMegaEvolution,Height_m,Weight_kg,Catch_Rate,Body_Style
408,409,Rampardos,Rock,,495,97,165,60,65,50,...,Blue,True,0.875,Monster,,False,1.6,102.5,45,bipedal_tailed
288,289,Slaking,Normal,,670,150,160,100,95,65,...,Brown,True,0.5,Field,,False,2.01,130.5,45,bipedal_tailless
485,486,Regigigas,Normal,,670,110,160,110,80,110,...,White,False,,Undiscovered,,False,3.71,420.0,3,bipedal_tailless
643,644,Zekrom,Dragon,Electric,680,100,150,120,120,100,...,Black,False,,Undiscovered,,False,2.9,345.0,3,bipedal_tailed
382,383,Groudon,Ground,,670,100,150,140,100,90,...,Red,False,,Undiscovered,,False,3.51,950.0,3,bipedal_tailed
