# Programa Ingenias+ en Data Science

Como dijimos en clases anteriores, Python tiene implementadas muchas librerias para poder trabajar con datos. En la clase de hoy trabajaremos con una de ellas: `Pandas`.

Antes de comenzar, vamos a hablar un poco de esta libreria.

**Pandas** es una libreria que es una extensión de NumPy. Basicamente al utilizar `pandas`, utilizo `numpy` por debajo. Esta orientada a la manipulación y análisis de datos debido a que ofrece estructuras de datos y operaciones para manipular tablas numéricas y series temporales.

La estructura principal de `pandas` es el `DataFrame` que es muy similar a una tabla. Así también, contiene otra estrucutra denominada `Serie`.

Al ser de código abierto, `pandas` posee una documentación muy amplia que es **SIEMPRE RECOMENDABLE** consultar.

- [Documentacion Pandas](https://pandas.pydata.org/pandas-docs/stable/)

## Clase 5: Pandas


Pandas es una gran ayuda para manejar nuestros dataset. En la clase de hoy, veremos algunos conceptos basicos de pandas y como leer datasets.

In [2]:
#importa numpy
import numpy as np
#importa pandas
import pandas as pd

In [11]:
serie = pd.Series(data = [1,2,3, 4, 6.7], 
          index=['primero', 'segundo' ,'tercero', 'cuarto', 'quinto'])

In [12]:
type(serie)

pandas.core.series.Series

In [19]:
serie.index

Index(['primero', 'segundo', 'tercero', 'cuarto', 'quinto'], dtype='object')

In [18]:
serie.columns

AttributeError: 'Series' object has no attribute 'columns'

In [15]:
df = pd.DataFrame(data = [1,2,3, 4, 6.7], 
          index=['primero', 'segundo' ,'tercero', 'cuarto', 'quinto'])

In [6]:
df.index

Index(['primero', 'segundo', 'tercero', 'cuarto', 'quinto'], dtype='object')

In [10]:
df.columns

RangeIndex(start=0, stop=1, step=1)

Pandas nos facilita con varias funciones para leer archivos. Entre ellas podemos encontrar:

- `.read_csv()`: lee archivos `csv` como DataFrame
- `.read_json()`: lee archivos `json` como DataFrame
- `.read_excel()`: leer archivos `excel` como DataFrame

Para conocer más funciones que ayuden a leer archivos, consulta [acá](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html)

Nosotras vamos a usar [`.read_csv()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html). 

Los archivos `csv` son un tipo de documento en formato abierto sencillo para representar datos en forma de tabla, en las que las columnas se separan por comas (o punto y coma) y las filas por saltos de línea. Es uno de los formatos más utilizados en Data Science.

La sintaxis para poder leer un archivo csv es: 
    
`df = pd.read_csv('nombredelarchivo.csv', delimiter=',')`

Aunque muchas veces se omite el `delimiter` si el archivo esta separado por comas.

Vamos a trabajar con el archivo `StudentsPerformance.csv`. Es usual descargar el archivo `csv` en la misma carpeta en la que trabajas con el jupyter notebook. De esta manera, no tendras que especificar el path a tu archivo.

1) Lee el archivo csv `StudentsPerformace` usando `pandas`. Guardalo en una variable llamada `students`.

In [None]:
df = pd.read_csv('StudentsPerformance.csv', delimiter=',')

In [None]:
df

In [None]:
df.index

In [None]:
df.columns

2) ¿Que tipo de estructura de datos contiene la variable `students`? _Hint_: Usa `type`

In [None]:
type(df)

3) ¿Cuantas filas y columnas tiene `students`? Para contestar esta pregunta, pandas tiene la funcion `.shape()`. Su sintaxis es la siguiente: `df.shape()` (`df` debe ser reemplazado por el nombre de tu `DataFrame`). 


De ahora en más cuando nos refiramos a un tipo de sintaxis donde debe colocarse `nombre_del_data_frame.funcion()`, la mencionaremos como `.funcion()`.

¿Que devuelve esta funcion? ¿Cual crees que corresponde a las filas y cual a las columnas?

**Numero de filas**: ____

**Numero de columnas**: ____

In [None]:
df.shape

3) ¿Cual es el nombre de las columnas contenidas en `students`? Para esto, pandas tiene el atributo `.columns`.

In [None]:
df.columns

4) Inspecciona las primeras 10 filas de `students` usando la función `.head()`. Dentro de esta función podemos colocar un numero. Este numero nos dira cuantas filas queremos observar.

In [None]:
df.head()

5) Ahora inspecciona las 10 ultimas usando `.tail()`. También podemos indicar el número de filas que queremos observar.

In [None]:
df.tail(10)

6) ¿Que tipos de datos contiene cada una de las columnas de `students`? Para esto, utiliza el atributo `.dtypes`.

In [None]:
df.dtypes

7) ¿Como accedemos a una fila o a una columa de un DataFrame?

Una de las maneras de acceder a una columna es especificando el nombre de la misma. Por ejemplo, `df['nombre_columna']`.

- Accede a la columna `gender` de `students`.

In [None]:
df['gender']

- Accede ahora a la columna `lunch`.

In [None]:
df['lunch']

In [None]:
df.lunch

Otra manera de acceder es usando dos funciones `.loc[]` y `.iloc[]`.

- `iloc[1:m, 1:n]`: Se usa para seleccionar filas basadas en su posición de 1 a m filas y de 1 a n columnas. 

In [None]:
#seleccionar las dos primeras filas
df.iloc[:2, :3]

In [None]:
#o tambien se usa
df.iloc[:2,]

In [None]:
#Selecciona los datos entre la decima y vigesima fila.
df.iloc[10:21]

In [None]:
#Selecciona las dos primeras columnas 
df.iloc[:, :2]

- `.loc[[nombre_fila], [nombre_columna]]`. Se usa para seleccionar filas o columnas basadas en su nombre 

In [None]:
#Selecciona la fila por nombre 1, o sea con indice igual a 1
df.loc[1]

In [None]:
#Corre el codigo y observa que devuelve
df.loc[[1,20,3,4,5],['gender','lunch']]

In [None]:
#Selecciona las filas con indices 3, 10, 30, 43, 43 y columnas reading score y writing score
df.loc[[3, 10, 30, 43, 43], ['reading score', 'writing score']]

In [None]:
df2 = pd.DataFrame(data = ['perro', 'gato', 'flor'], index = ['str1', 'str2', 'st32'], columns=['titulo'])

In [None]:
df2

In [None]:
df2.loc['str2']

In [None]:
df2.iloc[1]

8) A veces queremos seleccionar filas que cumplan con ciertas condiciones, donde el valor de una columna en esa fila sea igual, mayor o menor que un valor.

Para esto tenemos que usar una sintaxis especial. Vamos a construirla de a poco. Imaginemos que tenemos un DataFrame `df` con las columnas `col1`, `col2` y `col3`. Queremos seleccionar solo aquellas filas donde `col1` sea mayor a 10.

Para eso diremos que queremos

df['col1'] > 10 (La columna col1 debe ser mayor a 10). 
Ahora si corremos este codigo, veremos que devuelve valores booleanos. O sea devolvera False para aquellos valores que sean menores o iguales a 10 y True para los que sean mayores a 10.

O sea que tenemos que agregar algo mas para poder seleccionar las columnas. Esta lista de valores booleanos se llama mascara booleana. 

¿Que significa? Que si yo le paso estos valores a pandas, pandas interpretara que debe conservar aquellos valores donde tiene True y descartar donde tiene False.

Por eso, para filtrar filas en base a estas condiciones escribimos:

df[df['col1] > 10].

Esto significa primero fijate en que filas de `df`, la columna `col1` es mayor a 10. Luego, selecciona solo aquellas filas donde esta condicion sea `True`.

In [None]:
#Selecciona solo las filas donde math score sea mayor a 70


In [None]:
#Selecciona solo las filas donde reading score sea menor a 60


In [None]:
#Selecciona solo las filas donde gender sea igual a female


In [None]:
#Selecciona solo aquellas filas donde lunch sea distinto a standard
isnull

In [None]:
#Muestra los valores de writing score para aquellos estudiantes que tengan reading score mayor a math score


In [None]:
#Selecciona aquellos estudiantes que posean reading and writing score mayor a 70


9) Los valores faltantes son un problema muy grande a la hora de visualizar y limpiar datos así como también a la hora de entrenar un modelo. Uno de los pasos obligados de cualquier exploración de datos es evaluar la presencia de estos valores.

Como manejar estos datos faltantes es un gran desafio. La mayoría de las veces no queremos eliminar esos valores porque significaría perder información valiosa en otros features. En la proxima clase veremos como podemos manejarlos.

Los valores faltantes estan codificados normalemente como `NaN`. Esto no es un string, sino que es un valor especial de `NumPy` que es tratado como un flotante.

Para chequear si tenemos valores faltantes podemos usar la función `.isnull()`. Esto nos devuelve una nueva DataFrame en la cual tendremos el valor False si no es faltante y True si ese valor es faltante.

In [None]:
#Usa .isnull() para ver que ocurre


Podemos sin embargo combinar esta función con otras para poder obtener el numero total de datos faltantes. Por ejemplo, podemos usar `.isnull().sum()`.

In [None]:
#Prueba usar .isnull().sum() sobre tu dataframe para ver que devuelve




```
# Esto tiene formato de código
```

¿Hay valores faltantes en alguna de las columnas de `students`? ____

10) Si la cantidad de valores faltantes es poca, podemos entonces deshacernos de ellas. Para esto pandas ofrece la función [`.dropna()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.dropna.html). Esta función hara que se eliminen las filas donde hay valores faltantes. Si no le pasamos ningun parametro extra, eliminara todas las filas con valores faltantes. Sin embargo, podes chequear en la documentación como eliminar solo algunas de las filas.

In [None]:
#Elimina todas las filas que tengan valores faltantes. No te olvides de poner inplace=True dentro de la función.


12) Una manera de ver facilmente algunos detalles estadisticos de cada columna de un DataFrame es usando la fución `.describe()`.

In [None]:
#Usa la funcion .describe() sobre students y describe que informacion estadistica proporciona


Tambien es posible visualizar, por ejemplo, el promedio de una columna. Para esto pandas usa la función de numpy, pero provee la misma sintaxis que las demás funciones. Por ejemplo, si queremos calcular el promedio de la columna `col1` del DataFrame `df` usamos `df['col1'].mean()`.

In [None]:
#Calcula el promedio de la columna math score de students


También podemos usar funciones como `.min()`, `.max()`, `.median()`, `.std()`.

In [None]:
#Calcula el minimo y maximo valor, la mediana y el desvio estandard en la columna math score de students


14) [Investiga](https://pandas.pydata.org/pandas-docs/stable/index.html) y trata de aplicar las siguientes funciones de `pandas`:

- `.index`

- `.drop()`

- `.groupby()`

- `.fillna()`

- `.rename()`

- `.astype()`

- `.unique()`

- `.value_counts()`

- `.count()`

- `.reset_index()`