# PARTE I TUTORIAL PANDAS

Este es un tutorial de algunos de los comandos básicos usandos en librería de python pandas para el análisis de datos

Primero importamos las librerías necesarias para usar las funciones de pandas

In [2]:
import pandas as pd
import numpy as np

## Series

Series es una de las formas básicas de representación de datos en Pandas. Estás son lista en una dimension que puede incluir elementos de cualquier tipo 

Forma básica de crear una serie:

In [2]:
data = [1,2,3,4,5]
ser = pd.Series(data)
print(ser)

0    1
1    2
2    3
3    4
4    5
dtype: int64


Como se observa en el ejemplo anterior la primera columna corresponde a la indexación y la segunda columna a los datos de la serie. La última linea corresponde al tipo de datos, como no se definio al crear la lista se toma el mismo valor que los datos de entrada de la serie. 


Obtener elemento de una serie por indexación

In [3]:
ser[3]

4

Se puede crear indexacion por etiquetas

In [4]:
ser2 = pd.Series(data, index=['a','b','c','d','e'])
print(ser2)
ser2['c']

a    1
b    2
c    3
d    4
e    5
dtype: int64


3

Se pueden realizar operaciones matemáticas sobre la serie

In [5]:
ser2 > 2

a    False
b    False
c     True
d     True
e     True
dtype: bool

In [6]:
ser2[ser2 > 2]

c    3
d    4
e    5
dtype: int64

In [7]:
ser2*5

a     5
b    10
c    15
d    20
e    25
dtype: int64

Otra forma de indexación:

In [8]:
ser3 = pd.Series({'a':1,'b':2,'c':3,'d':4,'e':5})
print(ser3)

a    1
b    2
c    3
d    4
e    5
dtype: int64


Los valores de indexación y datos pueden ser extráidos de la Serie

In [9]:
ser.index

RangeIndex(start=0, stop=5, step=1)

In [10]:
ser3.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [11]:
ser3.values

array([1, 2, 3, 4, 5], dtype=int64)

Los objetos de la serie y la indexación pueden ser etiquetados:

In [12]:
ser3.name = 'datos'
ser3.index.name = 'letras'
print(ser3)

letras
a    1
b    2
c    3
d    4
e    5
Name: datos, dtype: int64


## Dataframe

El Dataframe o marco de datos en español no es otra cosa que una tabla. Cada columa en el Dataframe es una Serie, las filas consiste de elemenos dentro de las Series.

Contruir Dataframe manualmente:

In [13]:
df = pd.DataFrame({
...     'País': ['Vietnam', 'China', 'Indonesia', 'Tailandia'],
...     'Población': [95.54, 1386, 264, 69.04],
...     'Area': [331210, 9596961, 1904569, 51320]
... })
df

Unnamed: 0,País,Población,Area
0,Vietnam,95.54,331210
1,China,1386.0,9596961
2,Indonesia,264.0,1904569
3,Tailandia,69.04,51320


Los Dataframe tiene 2 indexaciones, por columna y por fila, si no se crea la indexación por file se creará una numerácio de 0 a N-1 donde N es el número de los elementos.

In [14]:
df.columns

Index(['País', 'Población', 'Area'], dtype='object')

In [15]:
df.index 

RangeIndex(start=0, stop=4, step=1)

Al igual que en las Series podemos cambiar lo valores de indexación.

In [16]:
df.index = ['VN','CN','IN','TH']
df.index.name = 'Código de País'
df

Unnamed: 0_level_0,País,Población,Area
Código de País,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
VN,Vietnam,95.54,331210
CN,China,1386.0,9596961
IN,Indonesia,264.0,1904569
TH,Tailandia,69.04,51320


El acceso a la indexación de las filas puede ser a través de los comandos loc para etiquetas o iloc para números

In [17]:
df.loc['CN']

País           China
Población       1386
Area         9596961
Name: CN, dtype: object

In [18]:
df.iloc[3]

País         Tailandia
Población        69.04
Area             51320
Name: TH, dtype: object

La indexación de filas y columnas puede ser llevado a cabo de esta manera:

In [19]:
df.loc[['CN','TH'],'Población']

Código de País
CN    1386.00
TH      69.04
Name: Población, dtype: float64

Se puede realizar filtrado para obtener datos

In [20]:
df[df.Población > 100]

Unnamed: 0_level_0,País,Población,Area
Código de País,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
CN,China,1386.0,9596961
IN,Indonesia,264.0,1904569


Es posible agregar una columna al conjunto de datos existente

In [21]:
df['densidad'] = df['Población']/df['Area'] * 1000000
df

Unnamed: 0_level_0,País,Población,Area,densidad
Código de País,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
VN,Vietnam,95.54,331210,288.457474
CN,China,1386.0,9596961,144.420718
IN,Indonesia,264.0,1904569,138.614038
TH,Tailandia,69.04,51320,1345.284489


Las columnas pueden ser eliminadas mediante el comando drop()

In [22]:
df.drop(['densidad'], axis='columns')

Unnamed: 0_level_0,País,Población,Area
Código de País,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
VN,Vietnam,95.54,331210
CN,China,1386.0,9596961
IN,Indonesia,264.0,1904569
TH,Tailandia,69.04,51320


Podemos accesar los datos el inicio o a final del Dataframe por medio de los comandos head y til respectivamente.

In [23]:
print(df.head(3))

                     País  Población     Area    densidad
Código de País                                           
VN                Vietnam      95.54   331210  288.457474
CN                  China    1386.00  9596961  144.420718
IN              Indonesia     264.00  1904569  138.614038


In [24]:
print(df.tail(2))

                     País  Población     Area     densidad
Código de País                                            
IN              Indonesia     264.00  1904569   138.614038
TH              Tailandia      69.04    51320  1345.284489


Con info() obtenemos información del dataframe

In [25]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 4 entries, VN to TH
Data columns (total 4 columns):
País         4 non-null object
Población    4 non-null float64
Area         4 non-null int64
densidad     4 non-null float64
dtypes: float64(2), int64(1), object(1)
memory usage: 320.0+ bytes


Con shape podemos obtener la cantidad de files y columans del Dataframe

In [26]:
df.shape

(4, 4)

Con Count obtenemos la cantidad de datos válidos por columna. Esto quiere decir que en caso de exister valores Null no se contabilizan.

In [27]:
df.count()

País         4
Población    4
Area         4
densidad     4
dtype: int64

Con sum() se obtiene el valor total de los elementos de cada columna.

In [28]:
df.sum()

País         VietnamChinaIndonesiaTailandia
Población                           1814.58
Area                               11884060
densidad                            1916.78
dtype: object

También podemos realizar la función sólamente ciertas columnas deseadas

In [29]:
df['Población'].sum()

1814.58

Otra función útil es describe, qu enos permite obtener la media, desviacón estándar, mínimo, máximo y pércintiles del conjunto de datos.

In [30]:
df.describe()

Unnamed: 0,Población,Area,densidad
count,4.0,4.0,4.0
mean,453.645,2971015.0,479.19418
std,627.537853,4491980.0,581.538482
min,69.04,51320.0,138.614038
25%,88.915,261237.5,142.969048
50%,179.77,1117890.0,216.439096
75%,544.5,3827667.0,552.664228
max,1386.0,9596961.0,1345.284489


La función corr() nos da la correlación entre los datos.

In [31]:
df.corr()

Unnamed: 0,Población,Area,densidad
Población,1.0,0.999004,-0.467968
Area,0.999004,1.0,-0.495126
densidad,-0.467968,-0.495126,1.0


Se puede realizar tablas cruzadas entre dos o más columnas.

In [32]:
pd.crosstab(df.Población, df.Area)

Area,51320,331210,1904569,9596961
Población,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
69.04,1,0,0,0
95.54,0,1,0,0
264.0,0,0,1,0
1386.0,0,0,0,1


Es posible realizar ordenamiento ascendente, descendente y por varias columnnas

In [33]:
df.sort_values(by=['Población'])

Unnamed: 0_level_0,País,Población,Area,densidad
Código de País,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
TH,Tailandia,69.04,51320,1345.284489
VN,Vietnam,95.54,331210,288.457474
IN,Indonesia,264.0,1904569,138.614038
CN,China,1386.0,9596961,144.420718


In [34]:
df.sort_values(by=['Población'], ascending=False)

Unnamed: 0_level_0,País,Población,Area,densidad
Código de País,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
CN,China,1386.0,9596961,144.420718
IN,Indonesia,264.0,1904569,138.614038
VN,Vietnam,95.54,331210,288.457474
TH,Tailandia,69.04,51320,1345.284489


In [35]:
df.sort_values(by=['Población','Area'])

Unnamed: 0_level_0,País,Población,Area,densidad
Código de País,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
TH,Tailandia,69.04,51320,1345.284489
VN,Vietnam,95.54,331210,288.457474
IN,Indonesia,264.0,1904569,138.614038
CN,China,1386.0,9596961,144.420718


Con la función concat() se realiza la concatenación de dos o más dataframes.

In [36]:
 df1 = pd.DataFrame({
...     'País': ['Vietnam', 'China', 'Indonesia', 'Tailandia'],
...     'Población': [95.54, 1386, 264, 69.04],
...     'Area': [331210, 9596961, 1904569, 51320]
... }, index = ['VN','CN','IN','TH']) 
    
df2 = pd.DataFrame({
...     'País': ['Kazakhstan', 'Russia', 'Belarus', 'Ukraine','Tailandia'],
...     'Población': [17.04, 143.5, 9.5, 45.5, 69.04],
...     'Area': [2724902, 17125191, 207600, 603628, 51320]
... }, index=['KZ', 'RU', 'BY', 'UA', 'TH'])


In [37]:
df_concat = pd.concat([df1,df2])
df_concat

Unnamed: 0,País,Población,Area
VN,Vietnam,95.54,331210
CN,China,1386.0,9596961
IN,Indonesia,264.0,1904569
TH,Tailandia,69.04,51320
KZ,Kazakhstan,17.04,2724902
RU,Russia,143.5,17125191
BY,Belarus,9.5,207600
UA,Ukraine,45.5,603628
TH,Tailandia,69.04,51320


Los duplicados pueden ser eliminados mediante el comando drop_duplicates()

In [38]:
df_concat.drop_duplicates('País')

Unnamed: 0,País,Población,Area
VN,Vietnam,95.54,331210
CN,China,1386.0,9596961
IN,Indonesia,264.0,1904569
TH,Tailandia,69.04,51320
KZ,Kazakhstan,17.04,2724902
RU,Russia,143.5,17125191
BY,Belarus,9.5,207600
UA,Ukraine,45.5,603628


## PARTE II: ANALISIS SET DE DATOS

Importamos el dataset en formato csv tomando de https://www.kaggle.com/ mediante el comando pd.read_csv. Para otros formatos de set de datos existen otros comandos que no fueron incluídos en este tutorial.

In [65]:
dt = pd.read_csv('StudentsPerformance.csv')

Ahora usamos los comandos aprendidos anteriormente para obtener información del set de datos.

Con el comando info vemos si existen elementos nulos

In [76]:
dt.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 20 columns):
math score                                        1000 non-null int64
reading score                                     1000 non-null int64
writing score                                     1000 non-null int64
gender_female                                     1000 non-null uint8
gender_male                                       1000 non-null uint8
race/ethnicity_group A                            1000 non-null uint8
race/ethnicity_group B                            1000 non-null uint8
race/ethnicity_group C                            1000 non-null uint8
race/ethnicity_group D                            1000 non-null uint8
race/ethnicity_group E                            1000 non-null uint8
lunch_free/reduced                                1000 non-null uint8
lunch_standard                                    1000 non-null uint8
test preparation course_completed                 1000

Con el comando shapre revisamos la cantidad de columnas y filas del set datos. En caso de que existiera valores nulos podemos usar el comando dropna.

In [77]:
dt = dt.dropna()

In [78]:
dt.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1000 entries, 0 to 999
Data columns (total 20 columns):
math score                                        1000 non-null int64
reading score                                     1000 non-null int64
writing score                                     1000 non-null int64
gender_female                                     1000 non-null uint8
gender_male                                       1000 non-null uint8
race/ethnicity_group A                            1000 non-null uint8
race/ethnicity_group B                            1000 non-null uint8
race/ethnicity_group C                            1000 non-null uint8
race/ethnicity_group D                            1000 non-null uint8
race/ethnicity_group E                            1000 non-null uint8
lunch_free/reduced                                1000 non-null uint8
lunch_standard                                    1000 non-null uint8
test preparation course_completed                 1000

In [25]:
dt.shape

(1000, 8)

Tomamos una muestra de las primeras líneas del set de datos para conocer el tipo de información que contiene.

In [27]:
dt.head(5)

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,female,group B,bachelor's degree,standard,none,72,72,74
1,female,group C,some college,standard,completed,69,90,88
2,female,group B,master's degree,standard,none,90,95,93
3,male,group A,associate's degree,free/reduced,none,47,57,44
4,male,group C,some college,standard,none,76,78,75


In [28]:
dt.describe()

Unnamed: 0,math score,reading score,writing score
count,1000.0,1000.0,1000.0
mean,66.089,69.169,68.054
std,15.16308,14.600192,15.195657
min,0.0,17.0,10.0
25%,57.0,59.0,57.75
50%,66.0,70.0,69.0
75%,77.0,79.0,79.0
max,100.0,100.0,100.0


In [None]:
Con count revisamos que todas las columnas tenga el mismo número de datos.

In [29]:
dt.count()

gender                         1000
race/ethnicity                 1000
parental level of education    1000
lunch                          1000
test preparation course        1000
math score                     1000
reading score                  1000
writing score                  1000
dtype: int64

Usando el comando get_dummies para transformar los datos categoricos a numericos

In [67]:
dt = pd.get_dummies(dt, columns=["gender","race/ethnicity","lunch","test preparation course","parental level of education"])

In [68]:
dt.head()

Unnamed: 0,math score,reading score,writing score,gender_female,gender_male,race/ethnicity_group A,race/ethnicity_group B,race/ethnicity_group C,race/ethnicity_group D,race/ethnicity_group E,lunch_free/reduced,lunch_standard,test preparation course_completed,test preparation course_none,parental level of education_associate's degree,parental level of education_bachelor's degree,parental level of education_high school,parental level of education_master's degree,parental level of education_some college,parental level of education_some high school
0,72,72,74,1,0,0,1,0,0,0,0,1,0,1,0,1,0,0,0,0
1,69,90,88,1,0,0,0,1,0,0,0,1,1,0,0,0,0,0,1,0
2,90,95,93,1,0,0,1,0,0,0,0,1,0,1,0,0,0,1,0,0
3,47,57,44,0,1,1,0,0,0,0,1,0,0,1,1,0,0,0,0,0
4,76,78,75,0,1,0,0,1,0,0,0,1,0,1,0,0,0,0,1,0


Al reaizar esto aumentamos la cantidad de variables, pero los modelos de aprendizaje no trabajan bien con valores categóricos por lo que es recomenda convertirlo a número

In [54]:
dt.shape

(1000, 13)

Otra opción es realizar un mapeo de las variables. Veamos un ejemplo con la características "gender"

In [73]:
dt2 = pd.read_csv('StudentsPerformance.csv')

In [74]:
dt2['gender'] = dt2['gender'].replace({'male':0,'female':1})

In [75]:
dt2.head()

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,1,group B,bachelor's degree,standard,none,72,72,74
1,1,group C,some college,standard,completed,69,90,88
2,1,group B,master's degree,standard,none,90,95,93
3,0,group A,associate's degree,free/reduced,none,47,57,44
4,0,group C,some college,standard,none,76,78,75
