# Programa Mujeres en Data Science

Como dijimos en clases anteriores, Python tiene implementadas muchas librerias para poder trabajar con datos. En la clase de hoy trabajaremos con dos de ellas: `Numpy` y `Pandas`.

Antes de comenzar, vamos a hablar un poco de estas dos librerias o modulos.

**Numpy** es una librería optimizada para realizar cálculos numéricos con vectores y matrices. A diferencia de otros lenguajes de programación, Python no posee en su estructura central la figura de matrices. Eso quiere decir que para poder trabajar con esta estructura de datos deberiamos trabajar con listas de listas. NumPy introduce el concepto de arrays o matrices.

Por otro lado, **Pandas** es una libreria que es una extensión de NumPy. Basicamente al utilizar `pandas`, utilizo `numpy` por debajo. Esta orientada a la manipulación y análisis de datos debido a que ofrece estructuras de datos y operaciones para manipular tablas numéricas y series temporales.

La estructura principal de `pandas` es el `DataFrame` que es muy similar a una tabla. Así también, contiene otra estrucutra denominada `Serie`.

Al ser de código abierto, `pandas` y `numpy` poseen una documentación muy amplia que es **SIEMPRE RECOMENDABLE** consultar.

- [Documentacion NumPy](https://devdocs.io/numpy/)
- [Documentacion Pandas](https://pandas.pydata.org/pandas-docs/stable/)

In [2]:
## Clase 2: Intro a Numpy y Pandas

## Modulo 2: Pandas-Conociendo un dataset

Una de las primeras cosas que debe realizar un Data Scientist al iniciar un nuevo proyecto es conocer el dataset con el cual va a trabajar. Este paso se conoce como _"Analisis exploratorio de los datos"_. Es útil para saber que tipo de datos contiene el dataset, obtener estadistica descriptiva y detectar problemas como valores faltantes (o missing values). 

Pandas es una gran ayuda para manejar nuestros dataset. En la clase de hoy, veremos algunos conceptos basicos de pandas y como leer datasets.

In [3]:
#importa numpy

#importa pandas
import pandas as pd

Pandas nos facilita con varias funciones para leer archivos. Entre ellas podemos encontrar:

- `.read_csv()`: lee archivos `csv` como DataFrame
- `.read_json()`: lee archivos `json` como DataFrame
- `.read_excel()`: leer archivos `excel` como DataFrame

Para conocer más funciones que ayuden a leer archivos, consulta [acá](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html)

Nosotras vamos a usar [`.read_csv()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html). 

Los archivos `csv` son un tipo de documento en formato abierto sencillo para representar datos en forma de tabla, en las que las columnas se separan por comas (o punto y coma) y las filas por saltos de línea. Es uno de los formatos más utilizados en Data Science.

La sintaxis para poder leer un archivo csv es: 
    
`df = pd.read_csv('nombredelarchivo.csv', delimiter=',')`

Aunque muchas veces se omite el `delimiter` si el archivo esta separado por comas.

Vamos a trabajar con el archivo `StudentsPerformance.csv` (Lo podes encontrar en la carpeta Clase2). Es usual descargar el archivo `csv` en la misma carpeta en la que trabajas con el jupyter notebook. De esta manera, no tendras que especificar el path a tu archivo.

1) Lee el archivo csv `StudentsPerformace` usando `pandas`. Guardalo en una variable llamada `students`.

In [10]:
students = pd.read_csv('StudentsPerformance.csv', delimiter= ',')


2) ¿Que tipo de estructura de datos contiene la variable `students`? _Hint_: Usa `type`

In [11]:
print(type(students))

<class 'pandas.core.frame.DataFrame'>


3) ¿Cuantas filas y columnas tiene `students`? Para contestar esta pregunta, pandas tiene la funcion `.shape()`. Su sintaxis es la siguiente: `df.shape()` (`df` debe ser reemplazado por el nombre de tu `DataFrame`). 


De ahora en más cuando nos refiramos a un tipo de sintaxis donde debe colocarse `nombre_del_data_frame.funcion()`, la mencionaremos como `.funcion()`.

¿Que devuelve esta funcion? ¿Cual crees que corresponde a las filas y cual a las columnas?

**Numero de filas**: ____

**Numero de columnas**: ____

3) ¿Cual es el nombre de las columnas contenidas en `students`? Para esto, pandas tiene la función `.columns`.

4) Inspecciona las primeras 10 filas de `students` usando la función `.head()`. Dentro de esta función podemos colocar un numero. Este numero nos dira cuantas filas queremos observar.

5) Ahora inspecciona las 10 ultimas usando `.tail()`. También podemos indicar el número de filas que queremos observar.

6) ¿Que tipos de datos contiene cada una de las columnas de `students`? Para esto, utiliza la función `.dtypes`.

In [0]:
df.head()

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,female,group B,bachelor's degree,standard,none,72,72,74
1,female,group C,some college,standard,completed,69,90,88
2,female,group B,master's degree,standard,none,90,95,93
3,male,group A,associate's degree,free/reduced,none,47,57,44
4,male,group C,some college,standard,none,76,78,75


7) ¿Como accedemos a una fila o a una columa de un DataFrame?

Una de las maneras de acceder a una columna es especificando el nombre de la misma. Por ejemplo, `df['nombre_columna']`.

- Accede a la columna `gender` de `students`.

- Accede ahora a la columna `lunch`.

Otra manera de acceder es usando dos funciones `.loc[]` y `.iloc[]`.

- `iloc[1:m, 1:n]`: Se usa para seleccionar filas basadas en su posición de 1 a m filas y de 1 a n columnas. 

In [0]:
#seleccionar las dos primeras filas
students.iloc[:2]

In [0]:
#o tambien se usa
students.iloc[:2,]

In [0]:
#Selecciona los datos entre la decima y vigesima fila.


In [0]:
#Selecciona las dos primeras columnas 


- `.loc[[nombre_fila], [nombre_columna]]`. Se usa para seleccionar filas o columnas basadas en su nombre 

In [1]:
#Selecciona la fila por nombre 1, o sea con indice igual a 1
students.loc[1]

NameError: name 'students' is not defined

In [0]:
#Corre el codigo y observa que devuelve
students.loc[[1,2,3,4,5],['gender','lunch']]

In [0]:
#Selecciona las filas con indices 3, 10, 30, 43, 43 y columnas reading score y writing score


8) A veces queremos seleccionar filas que cumplan con ciertas condiciones, donde el valor de una columna en esa fila sea igual, mayor o menor que un valor.

Para esto tenemos que usar una sintaxis especial. Vamos a construirla de a poco. Imaginemos que tenemos un DataFrame `df` con las columnas `col1`, `col2` y `col3`. Queremos seleccionar solo aquellas filas donde `col1` sea mayor a 10.

Para eso diremos que queremos

df['col1'] > 10 (La columna col1 debe ser mayor a 10). 
Ahora si corremos este codigo, veremos que devuelve valores booleanos. O sea devolvera False para aquellos valores que sean menores o iguales a 10 y True para los que sean mayores a 10.

O sea que tenemos que agregar algo mas para poder seleccionar las columnas. Esta lista de valores booleanos se llama mascara booleana. 

¿Que significa? Que si yo le paso estos valores a pandas, pandas interpretara que debe conservar aquellos valores donde tiene True y descartar donde tiene False.

Por eso, para filtrar filas en base a estas condiciones escribimos:

df[df['col1] > 10].

Esto significa primero fijate en que filas de `df`, la columna `col1` es mayor a 10. Luego, selecciona solo aquellas filas donde esta condicion sea `True`.

In [0]:
#Selecciona solo las filas donde math score sea mayor a 70


In [0]:
#Selecciona solo las filas donde reading score sea menor a 60


In [0]:
#Selecciona solo las filas donde gender sea igual a female


In [0]:
#Selecciona solo aquellas filas donde lunch sea distinto a standard


In [0]:
#Muestra los valores de writing score para aquellos estudiantes que tengan reading score mayor a math score


In [0]:
#Selecciona aquellos estudiantes que posean reading and writing score mayor a 70


9) Los valores faltantes son un problema muy grande a la hora de visualizar y limpiar datos así como también a la hora de entrenar un modelo. Uno de los pasos obligados de cualquier exploración de datos es evaluar la presencia de estos valores.

Como manejar estos datos faltantes es un gran desafio. La mayoría de las veces no queremos eliminar esos valores porque significaría perder información valiosa en otros features. En la proxima clase veremos como podemos manejarlos.

Los valores faltantes estan codificados normalemente como `NaN`. Esto no es un string, sino que es un valor especial de `NumPy` que es tratado como un flotante.

Para chequear si tenemos valores faltantes podemos usar la función `.isnull()`. Esto nos devuelve una nueva DataFrame en la cual tendremos el valor False si no es faltante y True si ese valor es faltante.

In [0]:
#Usa .isnull() para ver que ocurre


Podemos sin embargo combinar esta función con otras para poder obtener el numero total de datos faltantes. Por ejemplo, podemos usar `.isnull().sum()`.

In [0]:
#Prueba usar .isnull().sum() sobre tu dataframe para ver que devuelve


¿Hay valores faltantes en alguna de las columnas de `students`? ____

10) Si la cantidad de valores faltantes es poca, podemos entonces deshacernos de ellas. Para esto pandas ofrece la función [`.dropna()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.dropna.html). Esta función hara que se eliminen las filas donde hay valores faltantes. Si no le pasamos ningun parametro extra, eliminara todas las filas con valores faltantes. Sin embargo, podes chequear en la documentación como eliminar solo algunas de las filas.

In [0]:
#Elimina todas las filas que tengan valores faltantes. No te olvides de poner inplace=True dentro de la función.


12) Una manera de ver facilmente algunos detalles estadisticos de cada columna de un DataFrame es usando la fución `.describe()`.

In [0]:
#Usa la funcion .describe() sobre students y describe que informacion estadistica proporciona


Tambien es posible visualizar, por ejemplo, el promedio de una columna. Para esto pandas usa la función de numpy, pero provee la misma sintaxis que las demás funciones. Por ejemplo, si queremos calcular el promedio de la columna `col1` del DataFrame `df` usamos `df['col1'].mean()`.

In [0]:
#Calcula el promedio de la columna math score de students


También podemos usar funciones como `.min()`, `.max()`, `.median()`, `.std()`.

In [0]:
#Calcula el minimo y maximo valor, la mediana y el desvio estandard en la columna math score de students


14) [Investiga](https://pandas.pydata.org/pandas-docs/stable/index.html) y trata de aplicar las siguientes funciones de `pandas`:

- `.index`

- `.drop()`

- `.groupby()`

- `.fillna()`

- `.rename()`

- `.astype()`

- `.unique()`

- `.value_counts()`

- `.count()`

- `.reset_index()`