# Programa Ingenias+ en Data Science

Como dijimos en clases anteriores, Python tiene implementadas muchas librerias para poder trabajar con datos. En la clase de hoy trabajaremos con una de ellas: `Pandas`.

Antes de comenzar, vamos a hablar un poco de esta libreria.

**Pandas** es una libreria que es una extensión de NumPy. Basicamente al utilizar `pandas`, utilizo `numpy` por debajo. Esta orientada a la manipulación y análisis de datos debido a que ofrece estructuras de datos y operaciones para manipular tablas numéricas y series temporales.

La estructura principal de `pandas` es el `DataFrame` que es muy similar a una tabla. Así también, contiene otra estrucutra denominada `Serie`.

Al ser de código abierto, `pandas` posee una documentación muy amplia que es **SIEMPRE RECOMENDABLE** consultar.

- [Documentacion Pandas](https://pandas.pydata.org/pandas-docs/stable/)

## Clase 5: Pandas


Pandas es una gran ayuda para manejar nuestros dataset. En la clase de hoy, veremos algunos conceptos basicos de pandas y como leer datasets.

In [1]:
#importa numpy
import numpy as np
#importa pandas
import pandas as pd

In [2]:
serie = pd.Series(data = [1,2,3, 4, 6.7],
          index=['primero', 'segundo' ,'tercero', 'cuarto', 'quinto'])

In [3]:
type(serie)

pandas.core.series.Series

In [4]:
serie

primero    1.0
segundo    2.0
tercero    3.0
cuarto     4.0
quinto     6.7
dtype: float64

In [5]:
serie.columns

AttributeError: 'Series' object has no attribute 'columns'

In [6]:
df = pd.DataFrame(data = [1,2,3, 4, 6.7],
          index=['primero', 'segundo' ,'tercero', 'cuarto', 'quinto'])

In [7]:
df.index

Index(['primero', 'segundo', 'tercero', 'cuarto', 'quinto'], dtype='object')

In [8]:
df.columns

RangeIndex(start=0, stop=1, step=1)

Pandas nos facilita con varias funciones para leer archivos. Entre ellas podemos encontrar:

- `.read_csv()`: lee archivos `csv` como DataFrame
- `.read_json()`: lee archivos `json` como DataFrame
- `.read_excel()`: leer archivos `excel` como DataFrame

Para conocer más funciones que ayuden a leer archivos, consulta [acá](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html)

Nosotras vamos a usar [`.read_csv()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html).

Los archivos `csv` son un tipo de documento en formato abierto sencillo para representar datos en forma de tabla, en las que las columnas se separan por comas (o punto y coma) y las filas por saltos de línea. Es uno de los formatos más utilizados en Data Science.

La sintaxis para poder leer un archivo csv es:
    
`df = pd.read_csv('nombredelarchivo.csv', delimiter=',')`

Aunque muchas veces se omite el `delimiter` si el archivo esta separado por comas.

Vamos a trabajar con el archivo `StudentsPerformance.csv`. Es usual descargar el archivo `csv` en la misma carpeta en la que trabajas con el jupyter notebook. De esta manera, no tendras que especificar el path a tu archivo.

1) Lee el archivo csv `StudentsPerformace` usando `pandas`. Guardalo en una variable llamada `students`.

In [9]:
df = pd.read_csv('StudentsPerformance.csv', delimiter=',')

In [10]:
df  #es como se llama el dataframe

Unnamed: 0.1,Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,0,female,group B,bachelor's degree,standard,none,7.2,72,74
1,1,female,group C,some college,standard,completed,6.9,90,88
2,2,female,group B,master's degree,standard,none,9.0,95,93
3,3,male,group A,associate's degree,free/reduced,none,4.7,57,44
4,4,male,group C,some college,standard,none,7.6,78,75
...,...,...,...,...,...,...,...,...,...
995,995,female,group E,master's degree,standard,completed,8.8,99,95
996,996,male,group C,high school,free/reduced,none,6.2,55,55
997,997,female,group C,high school,free/reduced,completed,5.9,71,65
998,998,female,group D,some college,standard,completed,6.8,78,77


In [11]:
df.index     #start=0: Este es el primer valor del índice. En este caso, comienza en 0.
            #stop=1000: Este es el valor en el que el índice se detiene. En este caso, termina en 1000
            #step=1: Esto representa el incremento entre los valores sucesivos del índice

RangeIndex(start=0, stop=1000, step=1)

In [12]:
df.columns  #acceder a las etiquetas de las columnas en el DataFrame

Index(['Unnamed: 0', 'gender', 'race/ethnicity', 'parental level of education',
       'lunch', 'test preparation course', 'math score', 'reading score',
       'writing score'],
      dtype='object')

2) ¿Que tipo de estructura de datos contiene la variable `students`? _Hint_: Usa `type`

In [13]:
type(df)   #Confirma que df es un DataFrame de pandas y te permite estar seguro de que puedes utilizar las funcionalidades y métodos específicos de los DataFrames de pandas para trabajar con tus datos.

pandas.core.frame.DataFrame

3) ¿Cuantas filas y columnas tiene `students`? Para contestar esta pregunta, pandas tiene la funcion `.shape()`. Su sintaxis es la siguiente: `df.shape()` (`df` debe ser reemplazado por el nombre de tu `DataFrame`).


De ahora en más cuando nos refiramos a un tipo de sintaxis donde debe colocarse `nombre_del_data_frame.funcion()`, la mencionaremos como `.funcion()`.

¿Que devuelve esta funcion? ¿Cual crees que corresponde a las filas y cual a las columnas?

**Numero de filas**: ____

**Numero de columnas**: ____

In [14]:
df.shape

(1000, 9)

3) ¿Cual es el nombre de las columnas contenidas en `students`? Para esto, pandas tiene el atributo `.columns`.

In [15]:
df.columns

Index(['Unnamed: 0', 'gender', 'race/ethnicity', 'parental level of education',
       'lunch', 'test preparation course', 'math score', 'reading score',
       'writing score'],
      dtype='object')

4) Inspecciona las primeras 10 filas de `students` usando la función `.head()`. Dentro de esta función podemos colocar un numero. Este numero nos dira cuantas filas queremos observar.

In [16]:
df.head()

Unnamed: 0.1,Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,0,female,group B,bachelor's degree,standard,none,7.2,72,74
1,1,female,group C,some college,standard,completed,6.9,90,88
2,2,female,group B,master's degree,standard,none,9.0,95,93
3,3,male,group A,associate's degree,free/reduced,none,4.7,57,44
4,4,male,group C,some college,standard,none,7.6,78,75


5) Ahora inspecciona las 10 ultimas usando `.tail()`. También podemos indicar el número de filas que queremos observar.

In [17]:
df.tail(10)

Unnamed: 0.1,Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
990,990,male,group E,high school,free/reduced,completed,8.6,81,75
991,991,female,group B,some high school,standard,completed,6.5,82,78
992,992,female,group D,associate's degree,free/reduced,none,5.5,76,76
993,993,female,group D,bachelor's degree,free/reduced,none,6.2,72,74
994,994,male,group A,high school,standard,none,6.3,63,62
995,995,female,group E,master's degree,standard,completed,8.8,99,95
996,996,male,group C,high school,free/reduced,none,6.2,55,55
997,997,female,group C,high school,free/reduced,completed,5.9,71,65
998,998,female,group D,some college,standard,completed,6.8,78,77
999,999,female,group D,some college,free/reduced,none,7.7,86,86


6) ¿Que tipos de datos contiene cada una de las columnas de `students`? Para esto, utiliza el atributo `.dtypes`.

In [18]:
df.dtypes

Unnamed: 0                       int64
gender                          object
race/ethnicity                  object
parental level of education     object
lunch                           object
test preparation course         object
math score                     float64
reading score                    int64
writing score                    int64
dtype: object

7) ¿Como accedemos a una fila o a una columa de un DataFrame?

Una de las maneras de acceder a una columna es especificando el nombre de la misma. Por ejemplo, `df['nombre_columna']`.

- Accede a la columna `gender` de `students`.

In [19]:
df['gender']

0      female
1      female
2      female
3        male
4        male
        ...  
995    female
996      male
997    female
998    female
999    female
Name: gender, Length: 1000, dtype: object

- Accede ahora a la columna `lunch`.

In [20]:
df['lunch']  #seleccionar una columna específica de un DataFrame

0          standard
1          standard
2          standard
3      free/reduced
4          standard
           ...     
995        standard
996    free/reduced
997    free/reduced
998        standard
999    free/reduced
Name: lunch, Length: 1000, dtype: object

In [21]:
df.lunch

0          standard
1          standard
2          standard
3      free/reduced
4          standard
           ...     
995        standard
996    free/reduced
997    free/reduced
998        standard
999    free/reduced
Name: lunch, Length: 1000, dtype: object

Otra manera de acceder es usando dos funciones `.loc[]` y `.iloc[]`.

- `iloc[1:m, 1:n]`: Se usa para seleccionar filas basadas en su posición de 1 a m filas y de 1 a n columnas.

In [22]:
#seleccionar las dos primeras filas
df.iloc[:2, :3]

Unnamed: 0.1,Unnamed: 0,gender,race/ethnicity
0,0,female,group B
1,1,female,group C


In [23]:
#o tambien se usa
df.iloc[:2,]

Unnamed: 0.1,Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,0,female,group B,bachelor's degree,standard,none,7.2,72,74
1,1,female,group C,some college,standard,completed,6.9,90,88


In [24]:
#Selecciona los datos entre la decima y vigesima fila.
df.iloc[10:21]

Unnamed: 0.1,Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
10,10,male,group C,associate's degree,standard,none,5.8,54,52
11,11,male,group D,associate's degree,standard,none,4.0,52,43
12,12,female,group B,high school,standard,none,6.5,81,73
13,13,male,group A,some college,standard,completed,7.8,72,70
14,14,female,group A,master's degree,standard,none,5.0,53,58
15,15,female,group C,some high school,standard,none,6.9,75,78
16,16,male,group C,high school,standard,none,8.8,89,86
17,17,female,group B,some high school,free/reduced,none,1.8,32,28
18,18,male,group C,master's degree,free/reduced,completed,4.6,42,46
19,19,female,group C,associate's degree,free/reduced,none,5.4,58,61


In [25]:
#Selecciona las dos primeras columnas
df.iloc[:, :2]

Unnamed: 0.1,Unnamed: 0,gender
0,0,female
1,1,female
2,2,female
3,3,male
4,4,male
...,...,...
995,995,female
996,996,male
997,997,female
998,998,female


- `.loc[[nombre_fila], [nombre_columna]]`. Se usa para seleccionar filas o columnas basadas en su nombre

In [26]:
#Selecciona la fila por nombre 1, o sea con indice igual a 1
df.loc[1]

Unnamed: 0                                1
gender                               female
race/ethnicity                      group C
parental level of education    some college
lunch                              standard
test preparation course           completed
math score                              6.9
reading score                            90
writing score                            88
Name: 1, dtype: object

In [27]:
#Corre el codigo y observa que devuelve
df.loc[[1,20,3,4,5],['gender','lunch']]   #filas 1, 20, 3, 4 y 5, y las columnas 'gender' y 'lunch'

Unnamed: 0,gender,lunch
1,female,standard
20,male,standard
3,male,free/reduced
4,male,standard
5,female,standard


In [28]:
#Selecciona las filas con indices 3, 10, 30, 43, 43 y columnas reading score y writing score
df.loc[[3, 10, 30, 43, 43], ['reading score', 'writing score']]   

Unnamed: 0,reading score,writing score
3,57,44
10,54,52
30,74,74
43,65,66
43,65,66


In [29]:
df2 = pd.DataFrame(data = ['perro', 'gato', 'flor'], index = ['str1', 'str2', 'st32'], columns=['titulo'])

In [30]:
df2

Unnamed: 0,titulo
str1,perro
str2,gato
st32,flor


In [31]:
df2.loc['str2']

titulo    gato
Name: str2, dtype: object

In [32]:
df2.iloc[1]

titulo    gato
Name: str2, dtype: object

8) A veces queremos seleccionar filas que cumplan con ciertas condiciones, donde el valor de una columna en esa fila sea igual, mayor o menor que un valor.

Para esto tenemos que usar una sintaxis especial. Vamos a construirla de a poco. Imaginemos que tenemos un DataFrame `df` con las columnas `col1`, `col2` y `col3`. Queremos seleccionar solo aquellas filas donde `col1` sea mayor a 10.

Para eso diremos que queremos

df['col1'] > 10 (La columna col1 debe ser mayor a 10).
Ahora si corremos este codigo, veremos que devuelve valores booleanos. O sea devolvera False para aquellos valores que sean menores o iguales a 10 y True para los que sean mayores a 10.

O sea que tenemos que agregar algo mas para poder seleccionar las columnas. Esta lista de valores booleanos se llama mascara booleana.

¿Que significa? Que si yo le paso estos valores a pandas, pandas interpretara que debe conservar aquellos valores donde tiene True y descartar donde tiene False.

Por eso, para filtrar filas en base a estas condiciones escribimos:

df[df['col1] > 10].

Esto significa primero fijate en que filas de `df`, la columna `col1` es mayor a 10. Luego, selecciona solo aquellas filas donde esta condicion sea `True`.

In [33]:
#Selecciona solo las filas donde math score sea mayor a 70
df['math score'] > 70

0      False
1      False
2      False
3      False
4      False
       ...  
995    False
996    False
997    False
998    False
999    False
Name: math score, Length: 1000, dtype: bool

In [34]:
#Selecciona solo las filas donde reading score sea menor a 60
df['reading score'] < 60

0      False
1      False
2      False
3       True
4      False
       ...  
995    False
996     True
997    False
998    False
999    False
Name: reading score, Length: 1000, dtype: bool

In [37]:
#Selecciona solo las filas donde gender sea igual a female
mascara = df['gender'] == 'female'
result = df[mascara]

In [39]:
#Selecciona solo aquellas filas donde lunch sea distinto a standard
mascara = df['lunch'].isnull()
result = df[mascara]

In [41]:
#Muestra los valores de writing score para aquellos estudiantes que tengan reading score mayor a math score
mascara = df['reading score'] > df['math score']
result = df.loc[mascara, 'writing score']
print(result)

0      74
1      88
2      93
3      44
4      75
       ..
995    95
996    55
997    65
998    77
999    86
Name: writing score, Length: 1000, dtype: int64


In [43]:
#Selecciona aquellos estudiantes que posean reading and writing score mayor a 70
mascara = (df['reading score'] > 70) & (df['writing score'] > 70)
result = df[mascara]
print(result)

     Unnamed: 0  gender race/ethnicity parental level of education  \
0             0  female        group B           bachelor's degree   
1             1  female        group C                some college   
2             2  female        group B             master's degree   
4             4    male        group C                some college   
5             5  female        group B          associate's degree   
..          ...     ...            ...                         ...   
992         992  female        group D          associate's degree   
993         993  female        group D           bachelor's degree   
995         995  female        group E             master's degree   
998         998  female        group D                some college   
999         999  female        group D                some college   

            lunch test preparation course  math score  reading score  \
0        standard                    none         7.2             72   
1        standa

9) Los valores faltantes son un problema muy grande a la hora de visualizar y limpiar datos así como también a la hora de entrenar un modelo. Uno de los pasos obligados de cualquier exploración de datos es evaluar la presencia de estos valores.

Como manejar estos datos faltantes es un gran desafio. La mayoría de las veces no queremos eliminar esos valores porque significaría perder información valiosa en otros features. En la proxima clase veremos como podemos manejarlos.

Los valores faltantes estan codificados normalemente como `NaN`. Esto no es un string, sino que es un valor especial de `NumPy` que es tratado como un flotante.

Para chequear si tenemos valores faltantes podemos usar la función `.isnull()`. Esto nos devuelve una nueva DataFrame en la cual tendremos el valor False si no es faltante y True si ese valor es faltante.

In [45]:
#Usa .isnull() para ver que ocurre
# Supongamos que tienes un DataFrame df y deseas seleccionar estudiantes con "reading score" y "writing score" ambos mayores a 70 y no nulos
mascara = (df['reading score'] > 70) & (df['writing score'] > 70) & (df['reading score'].notnull()) & (df['writing score'].notnull())
result = df[mascara]
print(result)

     Unnamed: 0  gender race/ethnicity parental level of education  \
0             0  female        group B           bachelor's degree   
1             1  female        group C                some college   
2             2  female        group B             master's degree   
4             4    male        group C                some college   
5             5  female        group B          associate's degree   
..          ...     ...            ...                         ...   
992         992  female        group D          associate's degree   
993         993  female        group D           bachelor's degree   
995         995  female        group E             master's degree   
998         998  female        group D                some college   
999         999  female        group D                some college   

            lunch test preparation course  math score  reading score  \
0        standard                    none         7.2             72   
1        standa

Podemos sin embargo combinar esta función con otras para poder obtener el numero total de datos faltantes. Por ejemplo, podemos usar `.isnull().sum()`.

In [46]:
#Prueba usar .isnull().sum() sobre tu dataframe para ver que devuelve
valores_nulos_por_columna = df.isnull().sum()
print(valores_nulos_por_columna)

Unnamed: 0                     0
gender                         0
race/ethnicity                 0
parental level of education    0
lunch                          0
test preparation course        0
math score                     0
reading score                  0
writing score                  0
dtype: int64




```
# Esto tiene formato de código
```

¿Hay valores faltantes en alguna de las columnas de `students`? ____

10) Si la cantidad de valores faltantes es poca, podemos entonces deshacernos de ellas. Para esto pandas ofrece la función [`.dropna()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.dropna.html). Esta función hara que se eliminen las filas donde hay valores faltantes. Si no le pasamos ningun parametro extra, eliminara todas las filas con valores faltantes. Sin embargo, podes chequear en la documentación como eliminar solo algunas de las filas.

In [None]:
#Elimina todas las filas que tengan valores faltantes. No te olvides de poner inplace=True dentro de la función.


12) Una manera de ver facilmente algunos detalles estadisticos de cada columna de un DataFrame es usando la fución `.describe()`.

In [None]:
#Usa la funcion .describe() sobre students y describe que informacion estadistica proporciona


Tambien es posible visualizar, por ejemplo, el promedio de una columna. Para esto pandas usa la función de numpy, pero provee la misma sintaxis que las demás funciones. Por ejemplo, si queremos calcular el promedio de la columna `col1` del DataFrame `df` usamos `df['col1'].mean()`.

In [None]:
#Calcula el promedio de la columna math score de students


También podemos usar funciones como `.min()`, `.max()`, `.median()`, `.std()`.

In [None]:
#Calcula el minimo y maximo valor, la mediana y el desvio estandard en la columna math score de students


14) [Investiga](https://pandas.pydata.org/pandas-docs/stable/index.html) y trata de aplicar las siguientes funciones de `pandas`:

- `.index`

- `.drop()`

- `.groupby()`

- `.fillna()`

- `.rename()`

- `.astype()`

- `.unique()`

- `.value_counts()`

- `.count()`

- `.reset_index()`