# Programa Mujeres en Data Science

Como dijimos en clases anteriores, Python tiene implementadas muchas librerias para poder trabajar con datos. En la clase de hoy trabajaremos con dos de ellas: `Numpy` y `Pandas`.

Antes de comenzar, vamos a hablar un poco de estas dos librerias o modulos.

**Numpy** es una librería optimizada para realizar cálculos numéricos con vectores y matrices. A diferencia de otros lenguajes de programación, Python no posee en su estructura central la figura de matrices. Eso quiere decir que para poder trabajar con esta estructura de datos deberiamos trabajar con listas de listas. NumPy introduce el concepto de arrays o matrices.

Por otro lado, **Pandas** es una libreria que es una extensión de NumPy. Basicamente al utilizar `pandas`, utilizo `numpy` por debajo. Esta orientada a la manipulación y análisis de datos debido a que ofrece estructuras de datos y operaciones para manipular tablas numéricas y series temporales.

La estructura principal de `pandas` es el `DataFrame` que es muy similar a una tabla. Así también, contiene otra estrucutra denominada `Serie`.

Al ser de código abierto, `pandas` y `numpy` poseen una documentación muy amplia que es **SIEMPRE RECOMENDABLE** consultar.

- [Documentacion NumPy](https://devdocs.io/numpy/)
- [Documentacion Pandas](https://pandas.pydata.org/pandas-docs/stable/)

In [0]:
## Clase 2: Intro a Numpy y Pandas

## Modulo 2: Pandas-Conociendo un dataset

Una de las primeras cosas que debe realizar un Data Scientist al iniciar un nuevo proyecto es conocer el dataset con el cual va a trabajar. Este paso se conoce como _"Analisis exploratorio de los datos"_. Es útil para saber que tipo de datos contiene el dataset, obtener estadistica descriptiva y detectar problemas como valores faltantes (o missing values). 

Pandas es una gran ayuda para manejar nuestros dataset. En la clase de hoy, veremos algunos conceptos basicos de pandas y como leer datasets.

In [1]:
#importa numpy

#importa pandas
import pandas as pd

Pandas nos facilita con varias funciones para leer archivos. Entre ellas podemos encontrar:

- `.read_csv()`: lee archivos `csv` como DataFrame
- `.read_json()`: lee archivos `json` como DataFrame
- `.read_excel()`: leer archivos `excel` como DataFrame

Para conocer más funciones que ayuden a leer archivos, consulta [acá](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html)

Nosotras vamos a usar [`.read_csv()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html). 

Los archivos `csv` son un tipo de documento en formato abierto sencillo para representar datos en forma de tabla, en las que las columnas se separan por comas (o punto y coma) y las filas por saltos de línea. Es uno de los formatos más utilizados en Data Science.

La sintaxis para poder leer un archivo csv es: 
    
`df = pd.read_csv('nombredelarchivo.csv', delimiter=',')`

Aunque muchas veces se omite el `delimiter` si el archivo esta separado por comas.

Vamos a trabajar con el archivo `StudentsPerformance.csv` (Lo podes encontrar en la carpeta Clase2). Es usual descargar el archivo `csv` en la misma carpeta en la que trabajas con el jupyter notebook. De esta manera, no tendras que especificar el path a tu archivo.

1) Lee el archivo csv `StudentsPerformace` usando `pandas`. Guardalo en una variable llamada `students`.

In [2]:
students = pd.read_csv('StudentsPerformance.csv')
students

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,female,group B,,standard,none,72,72,74
1,female,group C,some college,standard,completed,69,90,88
2,female,group B,master's degree,standard,none,90,95,93
3,male,group A,associate's degree,free/reduced,none,47,57,44
4,male,group C,some college,standard,none,76,78,75
5,female,group B,associate's degree,standard,none,71,83,78
6,female,group B,some college,standard,completed,88,95,92
7,male,group B,some college,free/reduced,none,40,43,39
8,male,group D,high school,free/reduced,completed,64,64,67
9,female,group B,high school,free/reduced,none,38,60,50


2) ¿Que tipo de estructura de datos contiene la variable `students`? _Hint_: Usa `type`

In [3]:
type(students)

pandas.core.frame.DataFrame

3) ¿Cuantas filas y columnas tiene `students`? Para contestar esta pregunta, pandas tiene la funcion `.shape()`. Su sintaxis es la siguiente: `df.shape()` (`df` debe ser reemplazado por el nombre de tu `DataFrame`). 


De ahora en más cuando nos refiramos a un tipo de sintaxis donde debe colocarse `nombre_del_data_frame.funcion()`, la mencionaremos como `.funcion()`.

¿Que devuelve esta funcion? ¿Cual crees que corresponde a las filas y cual a las columnas?

**Numero de filas**: ____

**Numero de columnas**: ____

3) ¿Cual es el nombre de las columnas contenidas en `students`? Para esto, pandas tiene la función `.columns`.

In [4]:
students.shape

(1000, 8)

4) Inspecciona las primeras 10 filas de `students` usando la función `.head()`. Dentro de esta función podemos colocar un numero. Este numero nos dira cuantas filas queremos observar.

In [5]:
students.head

<bound method NDFrame.head of      gender race/ethnicity parental level of education         lunch  \
0    female        group B                         NaN      standard   
1    female        group C                some college      standard   
2    female        group B             master's degree      standard   
3      male        group A          associate's degree  free/reduced   
4      male        group C                some college      standard   
5    female        group B          associate's degree      standard   
6    female        group B                some college      standard   
7      male        group B                some college  free/reduced   
8      male        group D                 high school  free/reduced   
9    female        group B                 high school  free/reduced   
10     male        group C          associate's degree      standard   
11     male        group D          associate's degree      standard   
12   female        group B        

5) Ahora inspecciona las 10 ultimas usando `.tail()`. También podemos indicar el número de filas que queremos observar.

In [6]:
students.tail

<bound method NDFrame.tail of      gender race/ethnicity parental level of education         lunch  \
0    female        group B                         NaN      standard   
1    female        group C                some college      standard   
2    female        group B             master's degree      standard   
3      male        group A          associate's degree  free/reduced   
4      male        group C                some college      standard   
5    female        group B          associate's degree      standard   
6    female        group B                some college      standard   
7      male        group B                some college  free/reduced   
8      male        group D                 high school  free/reduced   
9    female        group B                 high school  free/reduced   
10     male        group C          associate's degree      standard   
11     male        group D          associate's degree      standard   
12   female        group B        

6) ¿Que tipos de datos contiene cada una de las columnas de `students`? Para esto, utiliza la función `.dtypes`.

In [7]:
students.dtypes

gender                         object
race/ethnicity                 object
parental level of education    object
lunch                          object
test preparation course        object
math score                      int64
reading score                   int64
writing score                   int64
dtype: object

7) ¿Como accedemos a una fila o a una columa de un DataFrame?

Una de las maneras de acceder a una columna es especificando el nombre de la misma. Por ejemplo, `df['nombre_columna']`.

- Accede a la columna `gender` de `students`.

In [8]:
students[['gender','math score']]

Unnamed: 0,gender,math score
0,female,72
1,female,69
2,female,90
3,male,47
4,male,76
5,female,71
6,female,88
7,male,40
8,male,64
9,female,38


- Accede ahora a la columna `lunch`.

Otra manera de acceder es usando dos funciones `.loc[]` y `.iloc[]`.

- `iloc[1:m, 1:n]`: Se usa para seleccionar filas basadas en su posición de 1 a m filas y de 1 a n columnas. 

In [9]:
#seleccionar las dos primeras filas
students.iloc[:2]

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,female,group B,,standard,none,72,72,74
1,female,group C,some college,standard,completed,69,90,88


In [10]:
#o tambien se usa
students.iloc[:2,]

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,female,group B,,standard,none,72,72,74
1,female,group C,some college,standard,completed,69,90,88


In [11]:
#Selecciona los datos entre la decima y vigesima fila.
students.iloc[10:21]

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
10,male,group C,associate's degree,standard,none,58,54,52
11,male,group D,associate's degree,standard,none,40,52,43
12,female,group B,high school,standard,none,65,81,73
13,male,group A,some college,standard,completed,78,72,70
14,female,group A,master's degree,standard,none,50,53,58
15,female,group C,some high school,standard,none,69,75,78
16,male,group C,high school,standard,none,88,89,86
17,female,group B,some high school,free/reduced,none,18,32,28
18,male,group C,master's degree,free/reduced,completed,46,42,46
19,female,group C,associate's degree,free/reduced,none,54,58,61


In [12]:
#Selecciona las dos primeras columnas 
students.iloc[:,0:2]

Unnamed: 0,gender,race/ethnicity
0,female,group B
1,female,group C
2,female,group B
3,male,group A
4,male,group C
5,female,group B
6,female,group B
7,male,group B
8,male,group D
9,female,group B


- `.loc[[nombre_fila], [nombre_columna]]`. Se usa para seleccionar filas o columnas basadas en su nombre 

In [13]:
#Selecciona la fila por nombre 1, o sea con indice igual a 1
students.loc[1]

gender                               female
race/ethnicity                      group C
parental level of education    some college
lunch                              standard
test preparation course           completed
math score                               69
reading score                            90
writing score                            88
Name: 1, dtype: object

In [14]:
#Corre el codigo y observa que devuelve
students.loc[[1,2,3,4,5],['gender','lunch']]

Unnamed: 0,gender,lunch
1,female,standard
2,female,standard
3,male,free/reduced
4,male,standard
5,female,standard


In [15]:
#Selecciona las filas con indices 3, 10, 30, 43 y columnas reading score y writing score
students.loc[[3,10,30,43], ['reading score', 'lunch']]


Unnamed: 0,reading score,lunch
3,57,free/reduced
10,54,standard
30,74,standard
43,65,free/reduced


8) A veces queremos seleccionar filas que cumplan con ciertas condiciones, donde el valor de una columna en esa fila sea igual, mayor o menor que un valor.

Para esto tenemos que usar una sintaxis especial. Vamos a construirla de a poco. Imaginemos que tenemos un DataFrame `df` con las columnas `col1`, `col2` y `col3`. Queremos seleccionar solo aquellas filas donde `col1` sea mayor a 10.

Para eso diremos que queremos

df['col1'] > 10 (La columna col1 debe ser mayor a 10). 
Ahora si corremos este codigo, veremos que devuelve valores booleanos. O sea devolvera False para aquellos valores que sean menores o iguales a 10 y True para los que sean mayores a 10.

O sea que tenemos que agregar algo mas para poder seleccionar las columnas. Esta lista de valores booleanos se llama mascara booleana. 

¿Que significa? Que si yo le paso estos valores a pandas, pandas interpretara que debe conservar aquellos valores donde tiene True y descartar donde tiene False.

Por eso, para filtrar filas en base a estas condiciones escribimos:

df[df['col1] > 10].

Esto significa primero fijate en que filas de `df`, la columna `col1` es mayor a 10. Luego, selecciona solo aquellas filas donde esta condicion sea `True`.

In [16]:
#Selecciona solo las filas donde math score sea mayor a 70
students[students['math score']>70]

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,female,group B,,standard,none,72,72,74
2,female,group B,master's degree,standard,none,90,95,93
4,male,group C,some college,standard,none,76,78,75
5,female,group B,associate's degree,standard,none,71,83,78
6,female,group B,some college,standard,completed,88,95,92
13,male,group A,some college,standard,completed,78,72,70
16,male,group C,high school,standard,none,88,89,86
24,male,group D,bachelor's degree,free/reduced,completed,74,71,80
25,male,group A,master's degree,free/reduced,none,73,74,72
34,male,group E,some college,standard,none,97,87,82


In [38]:
#Selecciona solo las filas donde reading score sea menor a 60
students[students['reading score']<60]

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
3,male,group A,associate's degree,free/reduced,none,47,57,44
7,male,group B,some college,free/reduced,none,40,43,39
10,male,group C,associate's degree,standard,none,58,54,52
11,male,group D,associate's degree,standard,none,40,52,43
14,female,group A,master's degree,standard,none,50,53,58
17,female,group B,some high school,free/reduced,none,18,32,28
18,male,group C,master's degree,free/reduced,completed,46,42,46
19,female,group C,associate's degree,free/reduced,none,54,58,61
22,male,group D,some college,standard,none,44,54,53
26,male,group B,some college,standard,none,69,54,55


In [40]:
#Selecciona solo las filas donde gender sea igual a female
students[students['gender']== 'female']

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,female,group B,,standard,none,72,72,74
1,female,group C,some college,standard,completed,69,90,88
2,female,group B,master's degree,standard,none,90,95,93
5,female,group B,associate's degree,standard,none,71,83,78
6,female,group B,some college,standard,completed,88,95,92
9,female,group B,high school,free/reduced,none,38,60,50
12,female,group B,high school,standard,none,65,81,73
14,female,group A,master's degree,standard,none,50,53,58
15,female,group C,some high school,standard,none,69,75,78
17,female,group B,some high school,free/reduced,none,18,32,28


In [42]:
#Selecciona solo aquellas filas donde lunch sea distinto a standard
students[students['lunch']!=70]

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,female,group B,,standard,none,72,72,74
1,female,group C,some college,standard,completed,69,90,88
2,female,group B,master's degree,standard,none,90,95,93
3,male,group A,associate's degree,free/reduced,none,47,57,44
4,male,group C,some college,standard,none,76,78,75
5,female,group B,associate's degree,standard,none,71,83,78
6,female,group B,some college,standard,completed,88,95,92
7,male,group B,some college,free/reduced,none,40,43,39
8,male,group D,high school,free/reduced,completed,64,64,67
9,female,group B,high school,free/reduced,none,38,60,50


In [48]:
#Muestra los valores de writing score para aquellos estudiantes que tengan reading score mayor a math score
students[students['reading score']> students['math score']]['writing score']


1       88
2       93
3       44
4       75
5       78
6       92
7       39
9       50
11      43
12      73
14      58
15      78
16      86
17      28
19      61
20      63
21      70
22      53
23      73
25      72
27      75
29      75
30      74
31      61
32      65
33      38
36      83
37      59
38      88
40      54
      ... 
958     59
959     71
960     64
961     53
963     75
965     72
966     64
968     67
969     80
970    100
973     61
974     67
975     77
976     60
977     58
979     94
980     23
982     86
983     91
984     82
986     51
988     45
989     83
991     78
992     76
993     74
995     95
997     65
998     77
999     86
Name: writing score, Length: 604, dtype: int64

In [51]:
#Selecciona aquellos estudiantes que posean reading and writing score mayor a 70
students[(students['reading score']> 70) & (students['writing score']>70)]


Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,female,group B,,standard,none,72,72,74
1,female,group C,some college,standard,completed,69,90,88
2,female,group B,master's degree,standard,none,90,95,93
4,male,group C,some college,standard,none,76,78,75
5,female,group B,associate's degree,standard,none,71,83,78
6,female,group B,some college,standard,completed,88,95,92
12,female,group B,high school,standard,none,65,81,73
15,female,group C,some high school,standard,none,69,75,78
16,male,group C,high school,standard,none,88,89,86
23,female,group C,some high school,standard,none,69,73,73


9) Los valores faltantes son un problema muy grande a la hora de visualizar y limpiar datos así como también a la hora de entrenar un modelo. Uno de los pasos obligados de cualquier exploración de datos es evaluar la presencia de estos valores.

Como manejar estos datos faltantes es un gran desafio. La mayoría de las veces no queremos eliminar esos valores porque significaría perder información valiosa en otros features. En la proxima clase veremos como podemos manejarlos.

Los valores faltantes estan codificados normalemente como `NaN`. Esto no es un string, sino que es un valor especial de `NumPy` que es tratado como un flotante.

Para chequear si tenemos valores faltantes podemos usar la función `.isnull()`. Esto nos devuelve una nueva DataFrame en la cual tendremos el valor False si no es faltante y True si ese valor es faltante.

In [17]:
#Usa .isnull() para ver que ocurre
students.isnull()

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,False,False,True,False,False,False,False,False
1,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False
5,False,False,False,False,False,False,False,False
6,False,False,False,False,False,False,False,False
7,False,False,False,False,False,False,False,False
8,False,False,False,False,False,False,False,False
9,False,False,False,False,False,False,False,False


Podemos sin embargo combinar esta función con otras para poder obtener el numero total de datos faltantes. Por ejemplo, podemos usar `.isnull().sum()`.

In [18]:
#Prueba usar .isnull().sum() sobre tu dataframe para ver que devuelve
students.isnull().sum()

gender                          0
race/ethnicity                 11
parental level of education    10
lunch                           5
test preparation course        15
math score                      0
reading score                   0
writing score                   0
dtype: int64

¿Hay valores faltantes en alguna de las columnas de `students`? ____

10) Si la cantidad de valores faltantes es poca, podemos entonces deshacernos de ellas. Para esto pandas ofrece la función [`.dropna()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.dropna.html). Esta función hara que se eliminen las filas donde hay valores faltantes. Si no le pasamos ningun parametro extra, eliminara todas las filas con valores faltantes. Sin embargo, podes chequear en la documentación como eliminar solo algunas de las filas.

In [19]:
#Elimina todas las filas que tengan valores faltantes. No te olvides de poner inplace=True dentro de la función.
students.dropna()

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
1,female,group C,some college,standard,completed,69,90,88
2,female,group B,master's degree,standard,none,90,95,93
3,male,group A,associate's degree,free/reduced,none,47,57,44
4,male,group C,some college,standard,none,76,78,75
5,female,group B,associate's degree,standard,none,71,83,78
6,female,group B,some college,standard,completed,88,95,92
7,male,group B,some college,free/reduced,none,40,43,39
8,male,group D,high school,free/reduced,completed,64,64,67
9,female,group B,high school,free/reduced,none,38,60,50
10,male,group C,associate's degree,standard,none,58,54,52


12) Una manera de ver facilmente algunos detalles estadisticos de cada columna de un DataFrame es usando la fución `.describe()`.

In [20]:
#Usa la funcion .describe() sobre students y describe que informacion estadistica proporciona
students.describe()

Unnamed: 0,math score,reading score,writing score
count,1000.0,1000.0,1000.0
mean,66.089,69.169,68.054
std,15.16308,14.600192,15.195657
min,0.0,17.0,10.0
25%,57.0,59.0,57.75
50%,66.0,70.0,69.0
75%,77.0,79.0,79.0
max,100.0,100.0,100.0


Tambien es posible visualizar, por ejemplo, el promedio de una columna. Para esto pandas usa la función de numpy, pero provee la misma sintaxis que las demás funciones. Por ejemplo, si queremos calcular el promedio de la columna `col1` del DataFrame `df` usamos `df['col1'].mean()`.

In [21]:
#Calcula el promedio de la columna math score de students
students['math score'].mean()

66.089

También podemos usar funciones como `.min()`, `.max()`, `.median()`, `.std()`.

In [22]:
#Calcula el minimo y maximo valor, la mediana y el desvio estandard en la columna math score de students
students['math score'].min()

0

In [23]:
students['math score'].max()

100

In [24]:
students['math score'].median()

66.0

In [25]:
students['math score'].std()

15.163080096009468

14) [Investiga](https://pandas.pydata.org/pandas-docs/stable/index.html) y trata de aplicar las siguientes funciones de `pandas`:

- `.index`

NameError: name 'student' is not defined

- `.drop()`

- `.groupby()`

- `.fillna()`

- `.rename()`

- `.astype()`

- `.unique()`

- `.value_counts()`

- `.count()`

- `.reset_index()`