# <span style='color:blue'> <center>Data Manipulation with Pandas</center> </span>
## **Chapter 1.** Transforming Data 
#### by **Ivan Alducin**
<p><img src="https://cdn.datafloq.com/cache/blog_pictures/878x531/what-does-clustering-in-data-mining-mean.jpg" width="1250"</p>

## Explorando un DataFrame
<p>Cuando tenemos un nuevo DataFrame para trabajar, lo primero que debemos hacer es explorarlo y ver qué contiene.
    
<code>homelessnes</code> es un dataset que contiene estimaciones de la falta de vivienda en cada estado de EE. UU. en 2018. La columna <code>individual</code> es el número de personas sin hogar que no forman parte de una familia con niños. La columna <code>family_members</code> es el número de personas sin hogar que forman parte de una familia con niños. La columna <code>state_pop</code> es la población total del estado. </p>

In [2]:
# Importar pandas
import pandas as pd

In [6]:
# Importar el archivo csv homelessness a un DataFrame
data = pd.read_csv('homelessness.csv')


In [7]:
# Imprimir las primeras 5 lineas de mi DataFrame
data.head()
#Esto es un data frame (data), porque nunca va a modificar el original.

Unnamed: 0,region,state,individuals,family_members,state_pop
0,East South Central,Alabama,2570,864,4887681
1,Pacific,Alaska,1434,582,735139
2,Mountain,Arizona,7259,2606,7158024
3,West South Central,Arkansas,2280,432,3009733
4,Pacific,California,109008,20964,39461588


In [8]:
# Imprimir la información de los campos de mi DataFrame
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 51 entries, 0 to 50
Data columns (total 5 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   region          51 non-null     object
 1   state           51 non-null     object
 2   individuals     51 non-null     int64 
 3   family_members  51 non-null     int64 
 4   state_pop       51 non-null     int64 
dtypes: int64(3), object(2)
memory usage: 2.1+ KB


In [10]:
# Imprimir el tamaño (#filas, #columnas) de mi DataFrame, shape sin parentesis.
data.shape

(51, 5)

In [11]:
# Imprimir la estadística descriptiva básica de mi DataFrame
#*No incluye las variables object.
data.describe()

Unnamed: 0,individuals,family_members,state_pop
count,51.0,51.0,51.0
mean,7225.784314,3504.882353,6405637.0
std,15991.025083,7805.411811,7327258.0
min,434.0,75.0,577601.0
25%,1446.5,592.0,1777414.0
50%,3082.0,1482.0,4461153.0
75%,6781.5,3196.0,7340946.0
max,109008.0,52070.0,39461590.0


## Partes un DataFrame
<p>Para comprender mejor la estructura de un DataFrame, es útil saber que constan de tres componentes, almacenados como atributos:
<ul>
<li><code>.values</code> muestra una matriz de valores NumPy bidimensional</li>
<li><code>.columns</code> muestra índice de columnas: los nombres de las columnas.</li>
<li><code>.index</code> muestra índice para las filas: números de fila o nombres de fila.</li>
</ul>
</p>

In [13]:
# Imprimir los valores de mi DataFrame
# Te lo imprime como arreglo.
data.values

array([['East South Central', 'Alabama', 2570, 864, 4887681],
       ['Pacific', 'Alaska', 1434, 582, 735139],
       ['Mountain', 'Arizona', 7259, 2606, 7158024],
       ['West South Central', 'Arkansas', 2280, 432, 3009733],
       ['Pacific', 'California', 109008, 20964, 39461588],
       ['Mountain', 'Colorado', 7607, 3250, 5691287],
       ['New England', 'Connecticut', 2280, 1696, 3571520],
       ['South Atlantic', 'Delaware', 708, 374, 965479],
       ['South Atlantic', 'District of Columbia', 3770, 3134, 701547],
       ['South Atlantic', 'Florida', 21443, 9587, 21244317],
       ['South Atlantic', 'Georgia', 6943, 2556, 10511131],
       ['Pacific', 'Hawaii', 4131, 2399, 1420593],
       ['Mountain', 'Idaho', 1297, 715, 1750536],
       ['East North Central', 'Illinois', 6752, 3891, 12723071],
       ['East North Central', 'Indiana', 3776, 1482, 6695497],
       ['West North Central', 'Iowa', 1711, 1038, 3148618],
       ['West North Central', 'Kansas', 1443, 773, 2911359],
 

In [14]:
# Imprimir el nombre de mis campos (columnas) de mi DataFrame
data.columns

Index(['region', 'state', 'individuals', 'family_members', 'state_pop'], dtype='object')

In [15]:
# Imprimir el indice de mi DataFrame
# El indice de las filas.
data.index

RangeIndex(start=0, stop=51, step=1)

## Ordenando filas de un DataFrame
<p>Encontrar datos interesantes en un DataFrame suele ser más fácil si cambiamos el orden de las filas. Podemos ordenar las filas pasando un nombre de columna al método <code>.sort_values()</code>. </p>

In [17]:
# Ordena el DataFrame por la columna 'individual'
homelessness_ind = data.sort_values('individuals', ascending=False)
#Se ordena de forma ascendente en la columna indicada (individuals), a menos que se especifique lo contrario con False.
# Imprime el resultado
print(homelessness_ind.head(10))
#Cuando se imprime sin print, o sea la variable, la imprime como data frame.

                region         state  individuals  family_members  state_pop
4              Pacific    California       109008           20964   39461588
32        Mid-Atlantic      New York        39827           52070   19530351
9       South Atlantic       Florida        21443            9587   21244317
43  West South Central         Texas        19199            6111   28628666
47             Pacific    Washington        16424            5880    7523869
37             Pacific        Oregon        11139            3337    4181886
38        Mid-Atlantic  Pennsylvania         8163            5349   12800922
5             Mountain      Colorado         7607            3250    5691287
2             Mountain       Arizona         7259            2606    7158024
28            Mountain        Nevada         7058             486    3027341


In [18]:
# Ordena el DataFrame por la columna 'family_members' de forma descendente
homelessness_fam = data.sort_values('family_members', ascending=False)

# Imprime el resultado
homelessness_fam.head()

Unnamed: 0,region,state,individuals,family_members,state_pop
32,Mid-Atlantic,New York,39827,52070,19530351
4,Pacific,California,109008,20964,39461588
21,New England,Massachusetts,6811,13257,6882635
9,South Atlantic,Florida,21443,9587,21244317
43,West South Central,Texas,19199,6111,28628666


In [20]:
# Ordena el DataFrame por la columna 'region' y la columna 'state_pop' de manera ascescendente y descendente respectivamente
homelessness_reg_fam = data.sort_values(['region','state_pop'], ascending=[True, False])

# Imprime el resultado
homelessness_reg_fam

Unnamed: 0,region,state,individuals,family_members,state_pop
13,East North Central,Illinois,6752,3891,12723071
35,East North Central,Ohio,6929,3320,11676341
22,East North Central,Michigan,5209,3142,9984072
14,East North Central,Indiana,3776,1482,6695497
49,East North Central,Wisconsin,2740,2167,5807406
42,East South Central,Tennessee,6139,1744,6771631
0,East South Central,Alabama,2570,864,4887681
17,East South Central,Kentucky,2735,953,4461153
24,East South Central,Mississippi,1024,328,2981020
32,Mid-Atlantic,New York,39827,52070,19530351


## Seleccionando columnas de un DataFrame
<p>Cuando trabajamos con datos, es posible que no necesitemos todas las variables en nuestro conjunto de datos. Los corchetes (<code>[]</code>) se pueden utilizar para seleccionar solo las columnas que nos interesan en un orden que nos resulte lógico... Para seleccionar solo la columna <code>"col_a"</code> de un DataFrame df, usaremos <code>df["col_a"]</code></p>

In [22]:
# Selecciona la columna 'individuals' 
individuals = data['individuals']

# Imprime el resultado
individuals.head()

#O también se pueden llamar las columnas con data.nombreColumna

0      2570
1      1434
2      7259
3      2280
4    109008
Name: individuals, dtype: int64

In [25]:
# Selecciona las columnas 'state' y 'family_members'
state_fam = data[['state','family_members']]

# Imprime el resultado
state_fam.head()

Unnamed: 0,state,family_members
0,Alabama,864
1,Alaska,582
2,Arizona,2606
3,Arkansas,432
4,California,20964


In [26]:
# Selecciona las columnas 'region' y 'individuals' y de manera ascendente y descendente respectivamente
ind_state = data[['region','individuals']].sort_values(['region','individuals'],ascending=[True, False]) 

# Imprime el resultado
ind_state.head()

Unnamed: 0,region,individuals
35,East North Central,6929
13,East North Central,6752
22,East North Central,5209
14,East North Central,3776
49,East North Central,2740


## Filtrando un DataFrame
<p>Una gran parte del proceso de análisis de datos consiste en encontrar qué partes de un conjunto de datos son interesantes. Una de las técnicas más simples para esto es encontrar un subconjunto de filas que coincida con algunos criterios. Esto a veces se conoce como <i>subsetting rows</i>.</p>

In [29]:
# Filtra las filas donde 'individuals' sea mayor a 10000
#Así evalua la condiciòn a cumplir
ind_gt_10k = data['individuals']>10000
#y así ya lo hace bien (con los valores)
ind_gt_10k = data[data['individuals']>10000]
# Resultado
ind_gt_10k.head()

Unnamed: 0,region,state,individuals,family_members,state_pop
4,Pacific,California,109008,20964,39461588
9,South Atlantic,Florida,21443,9587,21244317
32,Mid-Atlantic,New York,39827,52070,19530351
37,Pacific,Oregon,11139,3337,4181886
43,West South Central,Texas,19199,6111,28628666


In [30]:
# Filra las filas donde 'region' es 'Mountain'
mountain_reg = data[data['region']=='Mountain']

# Resultado
mountain_reg

Unnamed: 0,region,state,individuals,family_members,state_pop
2,Mountain,Arizona,7259,2606,7158024
5,Mountain,Colorado,7607,3250,5691287
12,Mountain,Idaho,1297,715,1750536
26,Mountain,Montana,983,422,1060665
28,Mountain,Nevada,7058,486,3027341
31,Mountain,New Mexico,1949,602,2092741
44,Mountain,Utah,1904,972,3153550
50,Mountain,Wyoming,434,205,577601


In [37]:
# Filtra las filas donde 'family_members' sea menor a '1000' y la region sea 'Pacific'
# Las condiciones se agrupan con paréntesis.
my_filter = data[(data['family_members'] < 1000) & (data['region']=='Pacific')]

# Resultado
my_filter.head()

Unnamed: 0,region,state,individuals,family_members,state_pop
1,Pacific,Alaska,1434,582,735139


## Filtrando variables categóricas
<p>Filtrar un conjunto de datos basado en una variable categórica a menudo implica el uso del operador "o" (<code>|</code>) para seleccionar filas de varias categorías. Esto puede resultar tedioso cuando, por ejemplo, deseamos que una variable cumpla tres o más condiciones. Para esto, podemos utilizar el método <code>.isin()</code> que nos permitirá abordar este problema escribiendo una condición en lugar de tres o más por separado.</p>

In [40]:
# Filtra las filas que contengan las regiones South Atlantic o Mid-Atlantic
my_filter2 = data[(data['region'] == 'South Atlantic') | (data['region']=='Mid-Atlantic')]
# Resultado
my_filter2.head()

Unnamed: 0,region,state,individuals,family_members,state_pop
7,South Atlantic,Delaware,708,374,965479
8,South Atlantic,District of Columbia,3770,3134,701547
9,South Atlantic,Florida,21443,9587,21244317
10,South Atlantic,Georgia,6943,2556,10511131
20,South Atlantic,Maryland,4914,2230,6035802


In [41]:
# Estados donde hay desiertos
desert = ["California", "Arizona", "Nevada", "Utah"]

# Filtra las filas con los estados en donde hay desiertes (una lista, para evitar poner la condición en cada producto)
my_filter3 = data[data['state'].isin(desert)]

# Resultado
my_filter3.head()


Unnamed: 0,region,state,individuals,family_members,state_pop
2,Mountain,Arizona,7259,2606,7158024
4,Pacific,California,109008,20964,39461588
28,Mountain,Nevada,7058,486,3027341
44,Mountain,Utah,1904,972,3153550


## Agregando nuevas columnas
<p>Por lo general los datos que tenemos no son suficientes para nuestro análisis, siempre necesitamos agregar nuevas columnas o campos calculados a nuestro DataFrame. Esto en el campo de la ciencia de datos se le conoce como <i>feature engineering</i>.
Se pueden crear nuevas columnas desde cero, pero también es común derivarlas de otras, por ejemplo, agregando campos calculados con base en otro existente o cambiando su escala de unidades o valor.
    
En este ejercicio, vamos a contestar la pregunta: "¿Qué estado tiene el mayor número de personas sin hogar por cada 10,000 personas?" Combina tus nuevas habilidades en pandas para descubrirlo.
</p>

In [58]:
# Crear una columna que calcule las personas sin hogar por cada 10K personas por estado
data["indiv_per_10k"] = 10000 * data['individuals'] / data['state_pop'] 
data.head()

# Vamos a filtrar esta nueva columna 'indiv_per_10k' con valores mayores a 20
v1= data[data["indiv_per_10k"]>20]
v1.head()

# Vamos a ordenar de mandera descendente nuestra nueva variable
v1 = v1.sort_values('indiv_per_10k', ascending=False)



# Vamos a seleccionar únicamente los campos 'state' y 'indiv_per_10k'
result = v1[['state','indiv_per_10k']]

# Resultado
result.head()

Unnamed: 0,state,indiv_per_10k
8,District of Columbia,53.738381
11,Hawaii,29.079406
4,California,27.623825
37,Oregon,26.636307
28,Nevada,23.314189
