# Introducción a Pandas

<div style="text-align: justify; font-size: 1.1rem;">
El presente Notebook abordará conceptos básicos del uso de Pandas en Python para análisis y ciencia de datos.

Todo el material aquí recopilado corresponde al curso introductorio de Data Science de YouTube de Frank Andrade.

Link al curso:
<a href="https://www.youtube.com/watch?v=zAIWnwqHGok" target="_blank">Curso de Data Science en Python Desde Cero</a>

</div>

## Pandas vs Excel y Terminología

<div style="text-align: justify; font-size: 1.1rem;">
Imágenes con contenido teórico sinóptico tomadas del curso de Frank Andrade
</div>

![Image 1](./images/image1.png)

![Image 2](./images/image2.png)

![Image 3](./images/image3.png)

![Image 4](./images/image4.png)

![Image 5](./images/image5.png)

## Crear DataFrames

![Image 7](./images/image7.png)

![Image 8](./images/image8.png)

![Image 9](./images/image9.png)

In [1]:
import pandas as pd
import numpy as np

### Con arrays

In [13]:
def createIdxAndFeaturesNames(rowNum, colNum):
    indexes = []
    features = []
    for col in range(1, colNum+1, 1):
        features.append("Col" + str(col))
    for row in range(1, rowNum+1, 1):
        indexes.append("Id" + str(row))
    return (indexes, features)

#### Lista

In [14]:
# creando el array
data_list = [
    [1, 4], # fila 1
    [2, 5], # fila 2
    [3, 4] # fila 3
]

In [15]:
# creando el dataframe
list_cols = len(data_list[0])
list_rows = len(data_list)

indexes, features = createIdxAndFeaturesNames(list_rows, list_cols)

# si no aportamos nombres a indices y columnas, pandas los asignara con numeros a partir del 0 en adelante automaticamente
df_list = pd.DataFrame(data_list, index=indexes, columns=features)

In [16]:
# mostrando el dataframe
df_list

Unnamed: 0,Col1,Col2
Id1,1,4
Id2,2,5
Id3,3,4


#### Numpy

In [17]:
# creando el array (tener en cuenta que en numpy solo podemos crear array con numeros)
data = np.array([
    [1, 4], # fila 1
    [2, 5], # fila 2
    [3, 4] # fila 3
])

In [18]:
# creando el dataframe
rows, cols = data.shape

indexes, features = createIdxAndFeaturesNames(rows, cols)

# si no aportamos nombres a indices y columnas, pandas los asignara con numeros a partir del 0 en adelante automaticamente
df = pd.DataFrame(data, index=indexes, columns=features)

In [19]:
# mostrando el dataframe
df

Unnamed: 0,Col1,Col2
Id1,1,4
Id2,2,5
Id3,3,4


### Con diccionarios

In [20]:
# creando las listas. cada lista contendra los valores de toda una columna del dataframe
states = ["California", "Texas", "Florida", "New York"]
population = [39098766, 12563789, 34987232, 19875378]

In [21]:
# creando el diccionario
dict_states = {
    "State": states, 
    "Population": population
}

In [22]:
# creando el dataframe, en este caso tomara como nombres d elas columnas las keys del diccionario
df_states = pd.DataFrame(dict_states) 

In [23]:
# mostrando el dtaframe
df_states

Unnamed: 0,State,Population
0,California,39098766
1,Texas,12563789
2,Florida,34987232
3,New York,19875378


### Con archivo CSV

In [24]:
# leyendo el archivo csv
df_csv = pd.read_csv("./datasets/StudentsPerformance.csv")

In [25]:
# mostrando el dataframe
df_csv

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,female,group B,bachelor's degree,standard,none,72,72,74
1,female,group C,some college,standard,completed,69,90,88
2,female,group B,master's degree,standard,none,90,95,93
3,male,group A,associate's degree,free/reduced,none,47,57,44
4,male,group C,some college,standard,none,76,78,75
...,...,...,...,...,...,...,...,...
995,female,group E,master's degree,standard,completed,88,99,95
996,male,group C,high school,free/reduced,none,62,55,55
997,female,group C,high school,free/reduced,completed,59,71,65
998,female,group D,some college,standard,completed,68,78,77
