#Fundamentos de Ciencias de Datos
**Prof. Alejandro García**

## 1. Pandas 

En esta segunda parte estudiaremos la herramienta de análisis de datos `pandas`, una librería que permite hacer análisis y limpieza de datos en Python. Está diseñada para trabajar con datos tabulares y heterogéneos. También es utilizada en conjunto con otras herramientas para hacer *Data Science* como `NumPy`, `SciPy`, `matplotlib` y `scikit-learn`.

Partimos importando la librería:

In [1]:
import pandas as pd

### 1.1 Series

Vamos a partir instanciando objetos de tipo `Series`. Estos objetos son como arreglos unidimensionales, solo que su índice es más explícito.

In [6]:
obj = pd.Series([1, 3, -4, 7])
obj


0    1
1    3
2   -4
3    7
dtype: int64

In [50]:
obj[0]

1

In [7]:
obj = pd.Series(['string', 3, -4, 7])
obj

0    string
1         3
2        -4
3         7
dtype: object

Para un objeto de tipo `Series` podemos agregar un label a sus índices.

In [8]:
obj = pd.Series([1, 3, -4, 7], index=['d', 'c', 'b', 'a'])
obj

d    1
c    3
b   -4
a    7
dtype: int64

In [53]:
obj['c']

3

In [54]:
obj[0]

1

Podemos seleccionar varios elementos según el label de su índice o su posición.

In [55]:
obj[['c', 'a']]

c    3
a    7
dtype: int64

In [56]:
obj[[0, 2]]

d    1
b   -4
dtype: int64

Podemos hacer filtros pasando un arreglo de *booleanos*:

In [9]:
obj[obj > 2]

c    3
a    7
dtype: int64

Recordemos lo que significaba la comparación `obj > 2` en `NumPy`. Esta comparación era una arreglo con el mismo largo que `obj` que tenía el valor `True` en todas las posiciones con valor mayor a 2.

In [10]:
obj > 2

d    False
c     True
b    False
a     True
dtype: bool

Por lo que en `obj[obj > 2]` se muestran sólo las filas en la que el arreglo anterior era `True`.

Finalmente, podemos crear un objeto `Series` a partir de un diccionario. Supongamos el siguiente diccionario de personas junto a su edad.

In [11]:
people = {'Alice': 20, 'Bob': 17, 'Charles': 23, 'Dino': 50}
people_series = pd.Series(people)
people_series

Alice      20
Bob        17
Charles    23
Dino       50
dtype: int64

### 1.2 DataFrame

Un objeto de tipo `DataFrame` representa una tabla, en que cada una de sus columnas representa un tipo. Vamos a construir una tabla a partir de un diccionario.

In [12]:
reg_chile = {'name': ['Metropolitana', 'Valparaiso', 'Biobío', 'Maule', 'Araucanía', 'O\'Higgins'],
             'pop': [7112808, 1815902, 1538194, 1044950, 957224, 914555],
             'pib': [24850, 14510, 13281, 12695, 11064, 14840]}
frame = pd.DataFrame(reg_chile)
frame

Unnamed: 0,name,pop,pib
0,Metropolitana,7112808,24850
1,Valparaiso,1815902,14510
2,Biobío,1538194,13281
3,Maule,1044950,12695
4,Araucanía,957224,11064
5,O'Higgins,914555,14840


Podemos usar la función `head` para tener sólo las 5 primeras columnas del Data Frame. En este caso no es mucho aporte, pero para un Data Frame más grande no puede servir para ver cómo vienen los datos.

In [61]:
frame.head()

Unnamed: 0,name,pop,pib
0,Metropolitana,7112808,24850
1,Valparaiso,1815902,14510
2,Biobío,1538194,13281
3,Maule,1044950,12695
4,Araucanía,957224,11064


In [62]:
frame.head(2)

Unnamed: 0,name,pop,pib
0,Metropolitana,7112808,24850
1,Valparaiso,1815902,14510


Podemos proyectar valores pasando el nombre de las columnas que deseamos dejar.

In [63]:
frame['name']

0    Metropolitana
1       Valparaiso
2           Biobío
3            Maule
4        Araucanía
5        O'Higgins
Name: name, dtype: object

In [64]:
frame[['name']]

Unnamed: 0,name
0,Metropolitana
1,Valparaiso
2,Biobío
3,Maule
4,Araucanía
5,O'Higgins


In [65]:
frame[['name', 'pop']]

Unnamed: 0,name,pop
0,Metropolitana,7112808
1,Valparaiso,1815902
2,Biobío,1538194
3,Maule,1044950
4,Araucanía,957224
5,O'Higgins,914555


Podemos seleccionar una determinada fila con la función `iloc`.

In [66]:
frame.iloc[2]

name     Biobío
pop     1538194
pib       13281
Name: 2, dtype: object

Podemos utilizar la misma idea de filtros vista anteriormente. Por ejemplo, vamos a dejar sólamente las columnas con población mayor a 1.000.000. ¿Te suena esto a algún otro lenguaje que viste este semestre?

In [67]:
frame[frame['pop'] > 1000000]

Unnamed: 0,name,pop,pib
0,Metropolitana,7112808,24850
1,Valparaiso,1815902,14510
2,Biobío,1538194,13281
3,Maule,1044950,12695


Podemos hacer filtros con `&` para hacer un `AND`:

In [68]:
frame[(frame['pop'] > 1000000) & (frame['pib'] < 20000)]

Unnamed: 0,name,pop,pib
1,Valparaiso,1815902,14510
2,Biobío,1538194,13281
3,Maule,1044950,12695


Y podemos usar `|` para hacer un `OR`:

In [23]:
frame[(frame['name'] == 'Metropolitana') | (frame['name'] == 'Valparaiso')]


Unnamed: 0,name,pop,pib
0,Metropolitana,7112808,24850
1,Valparaiso,1815902,14510


Para ordenar un objeto `DataFrame` usamos la función `sort_values`:

In [70]:
frame.sort_values(by='pib')

Unnamed: 0,name,pop,pib
4,Araucanía,957224,11064
3,Maule,1044950,12695
2,Biobío,1538194,13281
1,Valparaiso,1815902,14510
5,O'Higgins,914555,14840
0,Metropolitana,7112808,24850


In [71]:
frame.sort_values(by='pib', ascending=False)

Unnamed: 0,name,pop,pib
0,Metropolitana,7112808,24850
5,O'Higgins,914555,14840
1,Valparaiso,1815902,14510
2,Biobío,1538194,13281
3,Maule,1044950,12695
4,Araucanía,957224,11064


Si necesitamos ordenar por más de una columna, podemos pasar un arreglo al argumento `by`. Existen muchas formas de crear y operar sobre un `DataFrame`. Puedes revisar la documentación para encontrar más.

La librería `pandas` tiene varias funciones que nos permiten obtener descripciones y resúmenes de los datos. Vamos a ver algunos ejemplos.

In [24]:
frame.describe()

Unnamed: 0,pop,pib
count,6.0,6.0
mean,2230606.0,15206.666667
std,2418536.0,4915.119843
min,914555.0,11064.0
25%,979155.5,12841.5
50%,1291572.0,13895.5
75%,1746475.0,14757.5
max,7112808.0,24850.0


In [13]:
frame.mean()

  frame.mean()


pop    2.230606e+06
pib    1.520667e+04
dtype: float64

In [74]:
frame.sum()

name    MetropolitanaValparaisoBiobíoMauleAraucaníaO'H...
pop                                              13383633
pib                                                 91240
dtype: object

Antes de cargar un archivo .csv habilitamos el acceso al disco duro virtual de colab 

In [75]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


Podemos cargar datos de un csv de la siguiente forma:

In [25]:
df = pd.read_csv('datos/Resultados_Pleb.csv') 
df.head()

Unnamed: 0,cod_com,Apruebo,Rechazo,Blancos,Nulos
0,1101,60976,18855,114,275
1,1107,21373,4608,46,102
2,1401,3730,1076,8,29
3,1402,293,207,2,11
4,1403,131,374,3,16


Puedes pasarle como argumento `sep=algun_string` para cambiar el separador del csv. Por ejemplo si el archivo tuviera separación con `;`, podrías hacer algo como:

```py
df = pd.read_csv('Resultados_Pleb.csv', sep=';') 
```

Si nos quiséramos quedar con algunas columnas, pero no queremos hacer cambios permanentes, podemos guardar la información en un nuevo dataframe:

In [26]:
df2 = df[['cod_com', 'Apruebo']]
df2

Unnamed: 0,cod_com,Apruebo
0,1101,60976
1,1107,21373
2,1401,3730
3,1402,293
4,1403,131
...,...,...
341,16301,12268
342,16302,4420
343,16303,2003
344,16304,1364


In [27]:
df

Unnamed: 0,cod_com,Apruebo,Rechazo,Blancos,Nulos
0,1101,60976,18855,114,275
1,1107,21373,4608,46,102
2,1401,3730,1076,8,29
3,1402,293,207,2,11
4,1403,131,374,3,16
...,...,...,...,...,...
341,16301,12268,5729,42,89
342,16302,4420,2737,25,47
343,16303,2003,1228,10,17
344,16304,1364,516,7,12


Pero si quisiéramos cambiar el dataframe de forma permanente podemos hacerlo así:

In [79]:
df = df[['cod_com', 'Apruebo']]
df

Unnamed: 0,cod_com,Apruebo
0,1101,60976
1,1107,21373
2,1401,3730
3,1402,293
4,1403,131
...,...,...
341,16301,12268
342,16302,4420
343,16303,2003
344,16304,1364


Cargamos un nuevo archivo csv., llamado "comunas.csv"

In [17]:
comunas = pd.read_csv('datos/comunas.csv') 
comunas.head()

Unnamed: 0,codigo,Comuna,Provincia,Reg.
0,15101,Arica,Arica,Arica y Parinacota
1,15102,Camarones,Arica,Arica y Parinacota
2,15201,Putre,Parinacota,Arica y Parinacota
3,15202,General Lagos,Parinacota,Arica y Parinacota
4,1101,Iquique,Iquique,Tarapacá


Revisamos las variables

In [18]:
comunas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 346 entries, 0 to 345
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   codigo     346 non-null    int64 
 1   Comuna     346 non-null    object
 2   Provincia  346 non-null    object
 3   Reg.       346 non-null    object
dtypes: int64(1), object(3)
memory usage: 10.9+ KB


ACTIVIDAD 

* Realice una tabla de frecuencias por Región.
* Realice una tabla de frecuencias relativas por Región

In [19]:
frea = comunas["Reg."].value_counts()
frea = pd.DataFrame(frea)
frea

Unnamed: 0,Reg.
Metropolitana de Santiago,52
Valparaíso,38
Lib. Gral. Bernardo O'Higgins,33
Biobío,33
La Araucanía,32
Maule,30
Los Lagos,30
Ñuble,21
Coquimbo,15
Los Ríos,12


In [20]:
frecr = frea/len(comunas)      
frecr 

Unnamed: 0,Reg.
Metropolitana de Santiago,0.150289
Valparaíso,0.109827
Lib. Gral. Bernardo O'Higgins,0.095376
Biobío,0.095376
La Araucanía,0.092486
Maule,0.086705
Los Lagos,0.086705
Ñuble,0.060694
Coquimbo,0.043353
Los Ríos,0.034682


ACTIVIDAD

Muestre una nueva tabla que solo tenga las comunas correspondiente a Valparaíso y determina cuantos datos y variables 

In [21]:
comunasV = comunas[comunas["Reg."] == "Valparaíso"]
comunasV

Unnamed: 0,codigo,Comuna,Provincia,Reg.
44,5101,Valparaíso,Valparaíso,Valparaíso
45,5102,Casablanca,Valparaíso,Valparaíso
46,5103,Concón,Valparaíso,Valparaíso
47,5104,Juan Fernández,Valparaíso,Valparaíso
48,5105,Puchuncaví,Valparaíso,Valparaíso
49,5107,Quintero,Valparaíso,Valparaíso
50,5109,Viña del Mar,Valparaíso,Valparaíso
51,5201,Isla de Pascua,Isla de Pascua,Valparaíso
52,5301,Los Andes,Los Andes,Valparaíso
53,5302,Calle Larga,Los Andes,Valparaíso


In [85]:
comunasV.shape

(38, 4)

In [22]:
freV = comunasV["Provincia"].value_counts()
freV = pd.DataFrame(freV)
freV

Unnamed: 0,Provincia
Valparaíso,7
San Antonio,6
San Felipe de Aconcagua,6
Petorca,5
Quillota,5
Los Andes,4
Marga Marga,4
Isla de Pascua,1
