# Introducción a Data Science con Python 

Este notebook es acompañado de un curso en video, que puede ser encontrado [aqui]()


## Pandas

Pandas es una biblioteca para manipular datos tabulados. Tiene muchas funciones para manipular archivos `.csv`, `.xls`, `.json`, entre otros. Pandas tiene una integración natural con NumPy, además de tener un funcionamiento análogo en muchos aspectos. Al igual que NumPy la librería también es muy completa, por lo que repasaremos lo básico y es muy recomendable consultar la documentación oficial en https://pandas.pydata.org/docs/.


In [3]:
import numpy as np
# Es comun importar pandas como pd
import pandas as pd

### Lectura de archivos

Los datos pueden venir en archivos con diferentes formatos, y para la mayoria de ellos Pandas tiene alternativas para su lectura. Vamos a trabajar con archivos `.csv` en el recorrer del curso, pues es el tipo de archivo mas usado.

In [2]:
# Asi hacemos la lectura de archivos csv
df = pd.read_csv('data/titanic.csv')

In [3]:
# Vamos a ver el tipo de dato que acabamos de leer
type(df)

pandas.core.frame.DataFrame

### DataFrame

Un DataFrame es el principal elemento de Pandas. es basicamente la representación de una planilla/tabla, con muchas funciones que permiten inspeción e manipulación.

In [4]:
# Podemos observar las primeras lineas del DataFrame con .head()
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [5]:
# DataFrames poseen shape, asi como arrays
df.shape

(891, 12)

In [6]:
# Podemos accesar las columnas del DataFrame
df.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

In [7]:
# Podemos conferir el tipo de dato de cada columna
df.dtypes

PassengerId      int64
Survived         int64
Pclass           int64
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Cabin           object
Embarked        object
dtype: object

Esta es una buena hora para revisar algunas estadísticas descriptivas (para un contenido mas profundo sobre el asunto accese http://www.portalaction.com.br/estatistica-basica/estatisticas-descritivas)

#### Funciones de agregación
Asi como en NumPy podemos aplicar diversas funciones de agregación a los datos. Estas funciones son por padron aplicadas a cada columna

In [8]:
# Suma
df.sum()

PassengerId                                               397386
Survived                                                     342
Pclass                                                      2057
Name           Braund, Mr. Owen HarrisCumings, Mrs. John Brad...
Sex            malefemalefemalefemalemalemalemalemalefemalefe...
Age                                                      21205.2
SibSp                                                        466
Parch                                                        340
Ticket         A/5 21171PC 17599STON/O2. 31012821138033734503...
Fare                                                     28693.9
dtype: object

In [9]:
# Média
df.mean()

PassengerId    446.000000
Survived         0.383838
Pclass           2.308642
Age             29.699118
SibSp            0.523008
Parch            0.381594
Fare            32.204208
dtype: float64

#### Comprobación del número de valores nulos

Valores nulos son entradas de la tabla que estan vacias (piense en una celda de Excel sin ningun valor dentro). El hecho de un campo no estar lleno puede tener motivos diferentes, cabe al cientista de datos saber de cada caso.

Es importante saber que la mayoria de los algoritmos de aprendizaje de máquina no trabajan con valores nulos, entonces es importante tratarlos en la preparación de los datos.

In [10]:
# Podemos usar la función isna y sumar para ver el numero de nulos en cada columna
df.isna().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

#### Observando estadísticas del DataFrame
Podemos observar las estadísticas de cada columna del DataFrame utilizando el método `.describe()`

In [11]:
df.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


### Indexando DataFrames

In [12]:
#Para esta parte iremos a definir un DataFrame simple por cuestiones didácticas
df_toy = pd.DataFrame(data=np.random.randint(20, size=(8, 4)),
                      index=['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h'],
                      columns=['Col 1', 'Col 2', 'Col 3', 'Col 4'])

df_toy

Unnamed: 0,Col 1,Col 2,Col 3,Col 4
a,4,15,15,6
b,10,10,18,7
c,5,5,18,8
d,16,14,18,14
e,13,18,12,9
f,12,8,18,15
g,17,7,5,6
h,5,17,3,17


#### Indexación simple

In [13]:
# Podemos seleccionar una de las columnas de nuestro DataFrame
coluna_um = df_toy['Col 1']
coluna_um

a     4
b    10
c     5
d    16
e    13
f    12
g    17
h     5
Name: Col 1, dtype: int64

In [14]:
# Cada columna es un objeto de tipo Series
type(coluna_um)

pandas.core.series.Series

In [15]:
# En lugar de seleccionar una sola columna podemos elegir un conjunto utilizado como lista
coluna_um_quatro = df_toy[['Col 1', 'Col 4']]
coluna_um_quatro

Unnamed: 0,Col 1,Col 4
a,4,6
b,10,7
c,5,8
d,16,14
e,13,9
f,12,15
g,17,6
h,5,17


In [16]:
# Usando slices dentro de los [] selecionamos un conjunto de lineas
df_toy[2:6]

Unnamed: 0,Col 1,Col 2,Col 3,Col 4
c,5,5,18,8
d,16,14,18,14
e,13,18,12,9
f,12,8,18,15


In [17]:
# Podemos seleccionar lineas usando booleanos
df_toy[[True, True, False, True, False, False, False, True]]

Unnamed: 0,Col 1,Col 2,Col 3,Col 4
a,4,15,15,6
b,10,10,18,7
d,16,14,18,14
h,5,17,3,17


In [18]:
# Esto permite manipulaciones interesantes
col1_maior_10 = df_toy['Col 1'] > 10
df_toy[col1_maior_10]

Unnamed: 0,Col 1,Col 2,Col 3,Col 4
d,16,14,18,14
e,13,18,12,9
f,12,8,18,15
g,17,7,5,6


Esas son las formas simples de indexar un DataFrame, pero como es posible ver acaba dejando de lado muchas posibilidades, para eso tenemos `.loc` e `.iloc`. Vamos a ver un poco sobre cada una de ellas.

#### *.loc* (indexando por label)
Index es la label de cada linea, encuanto el nombre de las columnas es el label de cada columna. Podemos usar esos labels para indexar conjuntos de valores específicos del DataFrame.

In [19]:
# Podemos seleccionar una linea pela sua label
df_toy.loc['a', :]

Col 1     4
Col 2    15
Col 3    15
Col 4     6
Name: a, dtype: int64

In [20]:
# Podemos también seleccionar columnas
df_toy.loc[:, 'Col 2']

a    15
b    10
c     5
d    14
e    18
f     8
g     7
h    17
Name: Col 2, dtype: int64

In [21]:
# Podemos hacer cortes de cualquier forma
df_toy.loc[['a', 'd', 'e'], ['Col 1', 'Col 3']]

Unnamed: 0,Col 1,Col 3
a,4,15
d,16,18
e,13,12


#### *.iloc* (indexando por posición)
en iloc la identificación de lineas y columnas es hecha por su posición, ahora si 1ª, 2ª,... columnas y lineas. Vamos hacer exactamente las mismas selecciones de loc pero usando iloc.

In [22]:
# Vamos seleccionar la primera linea
df_toy.iloc[0, :]

Col 1     4
Col 2    15
Col 3    15
Col 4     6
Name: a, dtype: int64

In [23]:
# Vamos seleccionar la segunda columna
df_toy.iloc[:, 1]

a    15
b    10
c     5
d    14
e    18
f     8
g     7
h    17
Name: Col 2, dtype: int64

In [24]:
# También podemos hacer cortes de cualquier forma
df_toy.iloc[[0, 3, 4], [0, 2]]

Unnamed: 0,Col 1,Col 3
a,4,15
d,16,18
e,13,12


Tanto loc cuanto iloc permiten selección de columnas usando booleanos

In [25]:
# Seleccionando columnas con bool
df_toy.iloc[:, [True, False, False, True]]

Unnamed: 0,Col 1,Col 4
a,4,6
b,10,7
c,5,8
d,16,14
e,13,9
f,12,15
g,17,6
h,5,17


La documentación oficial de Pandas tiene una página detallada sobre el funcionamiento de la indexación: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html

### Operaciones en DataFrames

Cierto, ahora que ya sabemos como manipular DataFrames podemos comenzar a manipular los datos que tenemos para hacer descubrimientos o para preparárlos para un modelo de aprendizaje de máquina.

In [26]:
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


#### Adicionando/Removiendo columnas e lineas

- Adicionar columna

La recomendación de Pandas es que siempre que se vaya alterar valores del DataFrame, sea adicionando una columna entera como estamos haciendo o cambiando un único valor, debemos usar los comandos `.loc` e `.iloc`. Eso se dá al hecho que ni siempre el que es retornado de una indexación es una view para el valor original, en algunas situaciones puede ser una copia. Lea mas en la documentación: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy 

In [27]:
df.loc[:, 'Columna Aleatoria'] = np.random.randint(100, size=(df.shape[0],))
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Coluna Aleatoria
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,85
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,24
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,12
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,13
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,51


- Remover linea

In [28]:
# Removiendo una linea (identificamos la linea por la label)
df.drop(0) # Removiendo la linea
df.head() # Viendo el resultado

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Coluna Aleatoria
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,85
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,24
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,12
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,13
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,51


Ops...La linea que queriamos remover aun está ahi, eso es porque la operación de remoción (es varias operaciones en DataFrames) no realizan la alteración en el DataFrame original, ellas retornar un nuevo DataFrame con las alteraciones hechas. Podemos salvar ese retorno en una variable (incluso en la misma variable que el DataFrame original) o pasar un parámetro especial al DataFrame indicándole que realice los cambios en el propio DataFrame.

In [29]:
# Salvando en la variable
df = df.drop(0)

# O podemos indicar con el parametro in_place
# df.drop(0, inplace=True)

- Remover columna

In [None]:
# Para remover una columna precisamos avisar que estamos queriendo remover una columna
df = df.drop(columns=['Columna Aleatoria'])
df.head()

#### Tratando valores nulos
Vimos que pueden existir valores nulos en nuestros datos, pero no vimos que hacer com ellos. Tenemos basicamente tres opciones de como lidiar con esos datos faltantes:
    - Podemos remover las lineas que poseen datos faltantes
    - Podemos remover las columnas que poseen datos faltantes
    - Podemos substituir datos faltantes por algun valor (la média, por ejemplo)
    
Vamos analisar nuestro DataFrame y ver que tipo de medida podemos adoptar

In [31]:
# Vamos a ver cuantos valores nulos tenemos en cada columna
df.isna().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          686
Embarked         2
dtype: int64

In [32]:
# Talvez sea interesante saber cual porcentaje de los valores es nulo
df.isna().sum() / df.shape[0]

PassengerId    0.000000
Survived       0.000000
Pclass         0.000000
Name           0.000000
Sex            0.000000
Age            0.198876
SibSp          0.000000
Parch          0.000000
Ticket         0.000000
Fare           0.000000
Cabin          0.770787
Embarked       0.002247
dtype: float64

Tenemos 3 columnas que presentan valores nulos, porém cada una de ellas será tratada de una manera diferente.

- **Age**: Cerca de 20% de los valores de esa columna son nulos, entonces vamos substituir los datos faltantes por la média de los valores de la columna
- **Cabin**: Esta columna no posee el 77% de sus valores, por lo tanto no hay mucho que se pueda hacer, vamos eliminarlo todo.
- **Embarked**: En este caso solo el 0.2% de las lineas poseen datos faltantes, vamos simplemente remover estas lineas de nuestros datos

Tenemos dos métodos que nos va ayudar a lidiar con los nulos `.fillna()` y `.dropna()`

`.fillna()` va generar una copia de lo que fue pasado substituyendo los valores nulos por un valor pasado como parâmetro

In [33]:
# Vamos calcular la média de las edades
edad_media  = df['Age'].mean()

# Substituyendo la columna por la columna con NaN sustituidos
df.loc[:, 'Age'] = df['Age'].fillna(edad_media)

In [34]:
# Vamos ver se hasta ahora sucedió lo que queriamos
df.isna().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age              0
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          686
Embarked         2
dtype: int64

`.dropna()` retorna un DataFrame sin las columnas o lineas que poseen valores nulos. 

Tenemos parâmetros importantes: `axis` indica si desea remover lineas (0) o columnas (1), `subset` indica las labels del otro eje que pueden ser consideradas para remoción, `thresh` indica el número minimo de nulos para ser removida y `inplace` indica si la operación debe ser realizada en el próprio DataFrame o una copia debe ser retornada.

In [35]:
# Vamos comenzar removiendo la columna Cabin
df.dropna(axis=1, thresh=600, inplace=True)
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,S
5,6,0,3,"Moran, Mr. James",male,29.709916,0,0,330877,8.4583,Q


In [36]:
# Ahora vamos remover las lineas que poseen Embarked nulo
df.dropna(axis=0, subset=['Embarked'], inplace=True)

In [37]:
# Comprobación de que hemos limpiado todo
df.isna().sum()

PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
Embarked       0
dtype: int64

#### Aplicando funciones en columnas
En varias situaciones queremos aplicar funciones en columnas, en la mayoria de las veces para generar nuevas columnas. Vamos ver cual es la forma cierta de hacer eso. Antes vamos a dar una mirada en el que <span style="color:red;">no debe ser hecho</span>.

Vamos suponer que queremos crear una columna llamada 'Faixa etária' que es construida baseada en la columna 'Age'.

In [38]:
# Vamos crear una función que hace esa transformación
def calc_faixa_etaria(edad):
    if edad < 13:
        return 'Niño'
    elif edad < 18:
        return 'Adolescente'
    elif edad < 60:
        return 'Adulto'
    else:
        return 'Anciano'

In [39]:
# La primera idea puede ser hacer algo asi
faixas_etarias = []
for i in range(df.shape[0]):
    edad = df.iloc[i, 5] # Age es una columna 5
    faixa = calc_faixa_etaria(edad)
    faixas_etarias.append(faixa)

faixas_etarias[8:14]

['Adolescente', 'Criança', 'Adulto', 'Adulto', 'Adulto', 'Adolescente']

Pero eso es extremamente ineficiente cuando el tamaño del DataFrame es grande!

La solución correcta es usar el método `.apply()`, que aplica una función en cada una de las entradas y retorna un `pd.Series` con todos los resultados.

In [40]:
faixas_etarias = df['Age'].apply(calc_faixa_etaria)
faixas_etarias.iloc[8:14]

9     Adolescente
10        Criança
11         Adulto
12         Adulto
13         Adulto
14    Adolescente
Name: Age, dtype: object

In [41]:
df.loc[:, 'Faixa etaria'] = faixas_etarias
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Embarked,Faixa etaria
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C,Adulto
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,S,Adulto
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,S,Adulto
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,S,Adulto
5,6,0,3,"Moran, Mr. James",male,29.709916,0,0,330877,8.4583,Q,Adulto


#### Guardando DataFrames

In [2]:
# Usamos index=False para no guardar con la columna de index
df.to_csv('data/dados_editados.csv', index=False)